El Instituto Canario de Estadística (ISTAC) impartió, en la Escuela de Estadística de las Administraciones Públicas del INE (Madrid), una sesión técnica sobre estadísticas por islas y estimación de áreas pequeñas, el 17 de febrero de 2011.
Asimismo en 18 de octubre de 2011, también en la citada escuela, impartió un módulo del curso "Estimación en pequeños dominios". La actual versión de la presentación se corresponde con el material usado en dicha sesión.
En las sesiones se presentaron los trabajos de investigación desarrollados conjuntamente con el Departamento de Estadística, Investigación Operativa y Computación de la Universidad de La Laguna para la determinación de estrategias de estimación a nivel insular y comarcal de las principales variables de la Encuesta de Población Activa (EPA) y de la Encuesta TIC-Hogares.
2. INFRAESTRUCTURA ESTADÍSTICA
ESTADÍSTICAS POR ISLAS
Estimación en áreas pequeñas
Alberto González Yanes
jgonyanp@gobiernodecanarias.org
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
3. ESTADÍSTICAS POR ISLAS
Estrategia de producción de
información en áreas pequeñas
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
4. Necesidades de información insular, comarcal y local
INSULAR
COMARCAL
LOCAL
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
5. Estrategia de producción de datos: El empleo a modo de ejemplo
AREAS REGISTROS
PEQUEÑAS ADMINISTRATIVOS
Encuesta de Estadística de Afiliación
Población Activa a la Seguridad Social
Estadística de
Accidentes de Trabajo
Estadística de
Empresas Inscritas en
la Seguridad Social
(…)
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
6. ESTIMACIÓN EN ÁREAS
PEQUEÑAS PARA LA EPA
Reseña histórica del trabajo
realizado
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
7. ESTIMACIÓN EN ÁREAS PEQUEÑAS: Reseña histórica del trabajo
realizado
El Instituto Canario de Estadística (ISTAC) se incorpora al grupo de trabajo de
áreas pequeñas del INE desde sus inicios en abril de 2004.
Participan otros institutos autonómicos: Cataluña, Madrid y Navarra, y
posteriormente: Galicia, País Vasco, Baleares, Andalucía y Valencia.
Se crea un grupo de trabajo de apoyo en el Departamento de Estadística,
Investigación Operativa y Computación (ULL), firmando el proyecto
“Estimadores en Áreas Pequeñas aplicados a la Estadística Pública Canaria
(CANAREA 2005)” y posteriormente CANAREA 2006 y 2007, con la idea de
cubrir los objetivos de:
Responder a los requerimientos del grupo de trabajo sobre áreas pequeñas del
Instituto Nacional de Estadística, e
Incorporar los desarrollos técnicos y metodológicos a la práctica estadística del
Instituto Canario de Estadística.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
8. ESTIMACIÓN EN ÁREAS PEQUEÑAS: Reseña histórica del trabajo
realizado
El grupo de trabajo propone utilizar la Encuesta de Población Activa (EPA) en
la evaluación de los estimadores de áreas pequeñas.
Se construye un simulador de realizaciones de EPA partiendo de la población
suministrada por el Censo de Población y Viviendas del 2001.
Esto permite conocer los valores reales que se desean estimar y evaluar el
rendimiento de los estimadores planteados.
CANAREA 2005 evalúa también la posibilidad de utilización de muestra
suplementaria (muestreo aleatorio simple de viviendas en las áreas pequeñas
tras afijación uniforme).
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
9. ESTIMACIÓN EN ÁREAS PEQUEÑAS: Reseña histórica del trabajo
realizado
Una breve reseña de los trabajos
realizados y la metodología final para la
estimación en pequeñas áreas de
Canarias se puede encontrar en la
publicación del ISTAC.
En esa misma publicación se pueden
encontrar, a modo de ejemplo,
resultados anuales por islas para los
años 2005, 2006 y 2007.
Los resultados detallados, con carácter
provisional, son publicados por el ISTAC
en formato pc-axis y difundidos en la
web y en CD.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
10. ENCUESTA DE POBLACIÓN
ACTIVA (EPA)
Descripción de la encuesta
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
11. LA ENCUESTA DE POBLACIÓN ACTIVA: Descripción de la encuesta
Ofrece información del mercado laboral a nivel de comunidad autónoma y
provincia.
Periodicidad trimestral.
Muestreo bietápico con estratificación en primera etapa (secciones censales y
viviendas).
104 y 91 secciones en Las Palmas y S/C de Tenerife. 18 viviendas por
sección.
Se renueva la sexta parte cada trimestre (paneles).
Utiliza estimadores directos de razón con pesos calibrados, wj , según:
población de 16 y más años por grupo de edad y sexo (22 grupos) a nivel de CA,
población de 16 y más años por provincia
Las variables de interés en áreas pequeñas son:
Totales de ocupados, parados e inactivos
Tasas de ocupación, actividad y paro
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
12. ENCUESTA DE POBLACIÓN
ACTIVA
Estimaciones de interés para
Canarias
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
13. ENCUESTA DE POBLACIÓN ACTIVA: Estimaciones de interés para
Canarias
Pequeñas Áreas de interés para Canarias y requerimiento de información
El nivel NUT 3 (Reglamento Nº 105/2007) considera las islas en lugar de las
provincias.
Para la Comunidad Autónoma es además de interés suministrar información a
nivel de comarcas por sexo. 12 y 15 en Las Palmas y S/C de Tenerife
respectivamente.
Eurostat solicita información a nivel de isla por sexo y dos grupos de edades
(<25 y ≥25).
Los métodos planteados y evaluados van en la línea de proporcionar buenas
estimaciones por comarcas y, posteriormente comprobar si la agregación
proporciona buenas estimaciones a nivel de islas.
Los inactivos son calculados por diferencia del tamaño poblacional con
respecto a las estimaciones de activos.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
14. EVALUACIÓN DE ESTIMADORES
Simulador de EPA
Estimadores
Indicadores de rendimiento
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
15. SIMULADOR DE LA ENCUESTA DE POBLACIÓN ACTIVA
Un simulador
Se construye un programa que simula la extracción de realizaciones de EPA (igual
diseño) a partir del Censo 2001. Se generan 1000 simulaciones.
Con el simulador evaluamos diferentes estimadores a través de indicadores de
rendimiento.
Notación para estimadores e indicadores de rendimiento
wj : peso del diseño al individuo j en la EPA.
d: dominio a estimar (área pequeña*sexo).
g: niveles de variable de estratificación (grupo de edad, <25; 25-54; >54).
r: región formada por unión de dominios “homogéneos”.
y: variable objetivo (p.e., 1 sí parado, 0 no parado).
Nd: tamaño poblacional del dominio d.
ˆ ˆ (
Nd : estimación HT de la población en el dominio d . Nd = ∑ j∈EPA w j .
d
)
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
16. ESTIMADORES:
Estimadores basados en el diseño
Estimación Directa Estimación Indirecta
Información sólo del área pequeña Se incorpora Información de otras áreas
(Directo, Pos-estratificado) (Sintético básico, sintético región)
ˆ Compuesto = λd ydpost + (1 − λd ) yd
yd ˆ ˆ sint
Estimadores basados en modelos
Modelos de individuos Modelos de áreas
Se utiliza información a nivel de individuo Se utiliza información a nivel de área de
de variables auxiliares variables auxiliares
(EBLUP-A, Sintético-regresión) (EBLUP-B, Sintético-regresión)
YdEBLUP = γ d yd
ˆ directo
+ ( 1 − γ d )Ydsint-regr
ˆ
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
17. ESTIMADORES EVALUADOS: Estimadores basados en el diseño
Directo
∑wy j j
ˆ direct
ˆ
y direct
=
j∈EPAd
Nd y su media ˆ direct = y d
yd
∑w
d
j Nd
j∈EPAd
Posestratificado: suma ponderada de los estimadores directos de la media en los
grupos de estratificación.
y dpost = ∑ y dg Ndg
ˆ ˆ direct
g
Sintético: suma ponderada de los estimadores directos de la media en los grupos de
estratificación en una región r.
Si r es la provincia: sintético-básico.
∑ w jy j
y d = ∑ y rdirect Ndg = ∑
ˆ, j∈EPAr ,g
ˆ sint Ndg
Si r es el dominio: posestratificado.
∑
g
g g wj
Otro caso: sintético-región. j∈EPAr ,g
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
18. ESTIMADORES EVALUADOS: Estimadores basados en el diseño
Compuesto dependiente del diseño: combinación convexa del estimador
posestratificado y del sintético.
λd = 1 ˆ
si Nd ≥ α Nd
ˆ
y dep
= λd y
ˆ post
+ (1 − λd ) y
ˆ sint
d d d
ˆ
λd = Nd /(α Nd ) otro caso
Los valores de α se fijan a 2/3, 1, 1.5 y 2, constituyendo lo que denominaremos como
compuesto 1, 2, 3 y 4, respectivamente.
Propiedades
Los estimadores directos y posestratificados son insesgados, aunque generalmente
con altísimas varianzas (poca muestra).
El estimador sintético suele presentar grandes sesgo (utilización de muestra indirecta) y
pequeñas variabilidades (muestras grandes).
Los estimadores compuestos intentan aprovechar las cualidades buenas de los
directos y sintéticos. La determinación del parámetro λ es crucial.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
19. ESTIMADORES EVALUADOS: Estimadores basados en modelo
Nivel de área: modelos lineales generales mixtos, en el proyecto EURAREA se denota
como modelo B o modelo de Fay-Herriots.
θˆd = x d β + υd + ed
′
ˆ
con θd una función del estimador directo, x d = ( x1d ,K, x pd )′ los valores para el dominio d
de las p variables auxiliares consideradas, υd efectos aleatorios del dominio d ( N (0,σ υ ) )
2
y ed los errores muestrales ( N (0,σ e2 / Nd ) ).
Estimadores: EBLUP y sintético-regresión.
ˆ ′ ˆ
Ydsint-regr = x d β ˆ ˆ ˆ
YdEBLUP = γ dYddirecto + (1 − γ d )Ydsint-regr
con γ d = σ υ (σ υ + σ e2 Nd ) .
ˆ2 ˆ2 ˆ
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
20. ESTIMADORES: Error en la estimación
VARIANZA SESGO
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
21. INDICADORES DE RENDIMIENTO
Sesgo relativo (SR):
1 Sim y d (k ) − Yd
ˆ
SRd ( y ) =
ˆ ∑ Y 100
Sim k =1 d
Media del sesgo relativo absoluto (SRAM):
1
SRAM ( y ) =
ˆ ∑ SRd ( yˆ )
D d
Error cuadrático medio relativo (REMC):
12
⎛ 1 Sim ⎛ y (k ) − Y ⎞2 ⎞
ˆd
ˆ) = ⎜
REMCd ( y ∑ ⎜ Y d ⎟ ⎟ 100
⎜ Sim k =1 ⎝
⎝ d ⎠ ⎟⎠
Media del error cuadrático medio relativo (REMCM):
1
REMCM ( y ) =
ˆ ∑ REMCd ( yˆ )
D d
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
22. ESTIMADORES E INDICADORES DE RENDIMIENTO
ECM
varianza
varianza
varianza
sesgo2
sesgo2
sesgo2
Sintético Posestratificado
Compuesto4 Compuesto1
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
23. INDICADORES DE RENDIMIENTO: Selección del mejor estimador
Criterio más usual de elección de un estimador es el de tomar
aquel con menor error cuadrático e insesgado.
EMC
varianza
varianza
varianza
sesgo2
sesgo2
sesgo2
¿Problema temporal
con la variabilidad?
Sugerencia:
Elegir estimadores con variabilidades próximas a las de la
estimación a nivel de provincia.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
24. CANAREA 2005
Influencia de muestra
suplementaria
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
25. CANARERA 2005: Simulación de muestra suplementaria
Se simula la utilización de muestra suplementaria, aumentando el número
de viviendas en una fracción r sobre el número total de viviendas de la
EPA, 3042 viviendas, seleccionadas por muestreo aleatorio simple dentro
de cada área pequeña tras un reparto uniforme entre ellas. (r igual al 0%,
50%,75%,80% y 100%).
Estimador directo con muestra suplementada:
∑wy
j∈EPA
j j + ∑ vy
i∈SUP
i i
yd =
ˆ direct Nd
∑ w
j∈EPAd
j + ∑v
i∈SUPd
i
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
26. CANAREA 2005: Influencia muestra suplementaria
r=0 r=0
25 9
6
20
3
15
REMC
0
SR
10 -3
-6
5
-9
0 -12
EH LG FV LP LZ TF GC EH LG FV LP LZ TF GC
Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4 Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4
Error Cuadrático Medio Relativo (REMC) y Sesgo Relativo (SR) para hombres ocupados con la EPA original (r =0).
Se utilizan 1000 simulaciones.
• Sin muestra suplementaria: el sintético y el compuesto 4 son los mejores, si bien ambos con
los peores sesgos. Con sesgos más pequeños y con errores cuadráticos próximos a estos dos,
se sitúan los dos primeros compuestos así como el posestratificado
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
27. CANAREA 2005: Influencia muestra suplementaria
9
16
8
14
7
12
6
REMCM
10
SRAM
5
8 4
6 3
4 2
2 1
0 0
0 0.5 0.75 0.8 1 0 0.5 0.75 0.8 1
Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4 Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4
Media del Error Cuadrático Medio Relativo (REMCM) y Sesgo Relativo Absoluto (SRAM) para hombres
ocupados con la EPA original (r = 0) y suplementada (r =0’5, 0’75, 0’80 y 1). Se utilizan 1000 simulaciones.
• Con muestra suplementaria El aumento por encima del 50% de fracción de muestreo no
produce cambios significativos.
LA SUPLEMENTACIÓN DE MUESTRA REDUCE LA VARIABILIDAD, PERO NO EL SESGO
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
28. CANAREA 2005: Influencia muestra suplementaria
r=0 r=0
25 9
6
20
3
15
REMC
0
SR
10 -3
-6
5
-9
0 -12
EH LG FV LP LZ TF GC EH LG FV LP LZ TF GC
Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4 Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4
r=1 r=1
25 9
6
20
3
15 0
REMC
SR
-3
10
-6
5 -9
0 -12
EH LG FV LP LZ TF GC EH LG FV LP LZ TF GC
Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4 Directo Posestr Sintético Comp1 Comp2 Comp3 Comp4
• Con muestra suplementaria se reducen todos los errores cuadráticos con la excepción del
sintético básico, pero este sigue manteniendo los mejores errores cuadráticos
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
29. CANAREA 2005: Conclusiones
El estimador sintético básico
Menores variabilidades.
Mayores sesgos (agravándose en comarcas e islas con peculiaridades en la
actividad económica –por ejemplo las turísticas-).
El sesgo se reduce con la utilización de estimadores compuestos, a costa de
aumentar variabilidad.
En la mayoría de las comarcas, el error cuadrático medio relativo sigue siendo
de los más pequeños, incluso después de la utilización de muestra
suplementaria.
La realización de encuesta suplementaria es caro y estratégicamente difícil.
¿Podremos aprovechar las buenas propiedades
que tiene este estimador tomando información de
otras áreas distintas a la provincia?
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
31. ESTIMADOR SINTÉTICO-REGIÓN: Construcción de regiones
Se propone (Rao 2003, pag. 46) construcción de regiones, uniones de
comarcas, que presenten comportamiento homogéneo en cuanto a las
variables objetivo a estudiar. Se ha distinguido entre hombre ocupado, mujer
ocupada, hombre parado o mujer parada.
Las variables auxiliares utilizadas en la construcción de las regiones fueron:
Información censal (Censo de Población y Viviendas de 2001). Utilización de
variables homónimas del Censo.
Registros administrativos (empleo registrado, para registrado,…).
La construcción utilizó técnicas de análisis cluster (K-medias o jerárquicos)
sobre los dominios.
Regiones estáticas: los dominios pertenecientes a un mismo cluster comparten
su información (entre 2 y 5 clusters parece ser adecuado). Denotamos por C2, C3,
C4, …
Valoración a posteriori del error cuadrático y sesgo (simulación).
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
32. ESTIMADOR SINTÉTICO-REGIÓN: Construcción de regiones
Construcción de regiones a partir del Censo 2001
Para cada variable Hombres
Ocupados
objetivo por sexo se han
considerado las
correspondientes del
Censo 2001
desagregada por grupo
de edad y relativizadas
por el total comarcal de
dicho sexo. Mujeres
Ocupadas
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
33. ESTIMADOR SINTÉTICO-REGIÓN: Construcción de regiones
Construcción de regiones a partir de registros administrativos
Partiendo de las variables auxiliares:
Empleo Total (agrario, industria, construcción y servicio),
Empleo por Cuenta Ajena (agrario, industria, construcción y servicio),
Empleo por Cuenta Propia (agrario, industria, construcción y servicio),
Paro total (hombre, mujer, mayor 25 años, agrario, industria, construcción y
servicio) y
Contratos (hombres, mujeres, indefinidos, temporal, agrario, industria, construcción
y servicio).
Se han relativizado a los tamaños comarcales.
Se han seleccionado distintos modelos (utilizando la información del año 2001
para buscar relaciones con variables objetivo del Censo 2001).
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
34. ESTIMADOR SINTÉTICO-REGIÓN: Construcción de regiones
Censo 2001 vs Registros administrativos
Variables homónimas:
Ventajas
Variables automáticamente definidas.
Estabilidad temporal.
Inconvenientes:
Revisión sólo cada 10 años.
Diferencia de definición de conceptos EPA y Censo.
Registros administrativos:
Ventajas
Posibilidad de reflejar cambios bruscos si el periodo de vigencia de las regiones es
relativamente corto.
Inconvenientes:
Elección del modelo (variables).
Periodo de vigencia de regiones.
Falta de estabilidad temporal.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
36. ESTIMADOR SINTÉTICO-REGIÓN: Construcción de regiones
¿Cuántas regiones construimos?
Ocupados Parados
REMCM SRAM REMCM SRAM Datos provinciales
H M H M H M H M
Directo 11,76 19,90 1,47 2,83 43,40 47,02 3,51 2,23 con variabilidades
Posestrat. 10,50 18,29 1,40 2,39 44,42 46,84 3,85 2,14
Sintético 6,76 13,77 6,07 13,03 21,96 20,08 19,15 17,71 para ocupados entre
un 2 y 3% y para
Sint_C2 4,82 8,96 3,79 7,39 16,54 14,08 12,66 8,31
Sint_C3 4,98 8,37 3,19 6,18 17,97 14,76 9,95 8,31
parados en torno al
Sint_C4 4,95 8,01 2,80 5,24 15,35 15,88 6,98 7,24
Sint_C5 5,67 9,70 2,87 5,51 15,51 18,19 5,53 7,23
7%.
Sint_C6 5,47 9,13 2,43 4,70 19,08 17,34 5,62 6,92
Sint_C7 5,75 8,67 2,47 5,34 20,46 20,78 5,44 6,31
Se ha constatado
sobre EPA reales
El sesgo se reduce con el (2001-2005) y tasa de
aumento de regiones paro que C4, produce
una excesiva
variabilidad entre
El error cuadrático medio se
trimestre ( >8% entre
reduce con el aumento de
REMCM y SRAM).
regiones
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
38. ESTIMADOR SINTÉTICO-REGIÓN: Resultados con sintético-región
estático
Hombres Ocupados
Hombres Ocupados
25
10
20
5
15
REMC
0
SR
10 -5
5 -10
0 -15
LZ FV GC TF LG LP EH LZ FV GC TF LG LP EH
Directo Posestrat Sintético 2-2-2-2 3-3-4-2 Directo Posestrat Sintético 2-2-2-2 3-3-4-2
Hombres Parados
Hombres Parados
70 Bajan los errores cuadráticos respecto del
65 45
60
55
postestratificado 40
35 Bajan los sesgos respecto del
50 30
45 25
20
sintético básico
REMC
40
15
SR
35
30 10
25 5
20 0
15 -5
10 -10
5 -15
0 -20
LZ FV GC TF LG LP EH LZ FV GC TF LG LP EH
Directo Posestrat Sintético 2-2-2-2 3-3-4-2 Directo Posestrat Sintético 2-2-2-2 3-3-4-2
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
39. ESTIMADOR SINTÉTICO-REGIÓN: Dinámico
En las regiones estáticas todas las comarcas de una misma región prestan y toman
prestada la información que poseen.
Si bien los resultados son aceptables, parece más lógico proponer regiones “borrosas”
(fuzzy), donde una comarcas A pueda compartir su información con una comarca B y
no necesariamente al revés. (Ej. GC-Me pueda prestar y no necesariamente tomar
prestada información de otras comarcas).
Se proponen regiones dinámicas
La idea es similar a la que subyace en los estimadores compuestos.
Aprovechar la información directa y cuando no es suficiente pedir
prestada (“Borrowing strengh”) información auxiliar.
Se intenta conseguir un equilibrio entre la variabilidad y el sesgo
intentando mantener un ECM bajo.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
40. ESTIMADOR SINTÉTICO-REGIÓN: Dinámico
Utilizando distancias, por ejemplo la euclídea, se definen matrices de órdenes
de cercanía entre las distintas comarcas.
En la estimación de una comarca, si se precisa muestra adicional se tomará de
las comarcas más próximas.
El método de parada en la utilización de información de las comarcas vecinas,
emplea una versión simplificada del cálculo del tamaño muestral necesario que
debería tener una comarca con una determinada precisión,
Se ha fijado:
zα 2P (1 − P )N
2
• zα 2 a 1.96.
n=
ε (N − 1) + zα 2P (1 − P )
2 2
• P a 0.20
• ε entre el 1 y 4%.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
41. ESTIMADOR SINTÉTICO-REGIÓN: Dinámico
La interpretación de ε puede variar con respecto a su interpretación estándar.
Valores pequeños de ε, muestras grandes, posibilita la utilización de información
de comarcas más alejadas, y
Valores grandes, muestras pequeñas, que tiene pocos vecinos relativamente
próximos o no precisa más muestra. En el límite sólo muestra directa, el estimador
posestratificado.
Una comarca utilizará información de las comarcas más próximas hasta que
alcance el tamaño muestral obtenido con dicha precisión.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
43. ESTIMADOR SINTÉTICO-REGIÓN: Dinámico
Se distinguen entre dos posibilidades según la fijación de la precisión (ε ).
Precisión constante
La precisión, ε, se fija independientemente de la comarca, variable objetivo y
sexo (entre el 1 y 4%).
Precisión variable
La precisión puede variar entre comarcas, variable objetivo y sexo.
Se aplica inicialmente una rejilla de precisiones constantes entre el 1 y 4%,
eligiendo para cada comarca, variable objetivo y sexo la que minimiza los
errores cuadráticos medios de cada estimación. Finalmente se aplica el
estimador con tales precisiones.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
44. VALORACIÓN DE ESTIMADORES SOBRE SIMULACIONES: Resultados
sobre estimadores evaluados
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
45. VALORACIÓN DE ESTIMADORES SOBRE SIMULACIONES: Resultados
sobre estimadores evaluados
Hombres Ocupados
13
12
11
10
9
8
7 REMCM
6 SRAM
5
4
3
2
1
0
Directo
Sint_básico
Dinámico PV
Posestr.
1%
1,50%
1,75%
2%
2,50%
3%
Sint.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
46. VALORACIÓN DE ESTIMADORES SOBRE SIMULACIONES: Resultados
sobre estimadores evaluados
Hombres Parados
50
45
40
35
30
REMCM
25
SRAM
20
15
10
5
0
Directo
Sint_básico
Dinámico PV
Posestr.
1%
1,50%
1,75%
2%
2,50%
3%
Sint.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
47. VALORACIÓN DE ESTIMADORES: Comparación con estimadores
suplementados Hombres Ocupados (r=1)
12
Menores errores
10
cuadráticos
8
REMC
6
4
2
0
LZ FV GC TF LG LP EH
Directo Posestr. Sint-bas Comp1 Comp2 Comp3 Comp4 1% 2% 3% PV
12
10
8
6
4
2
SR
0
-2
-4
-6
-8 Se mejoran los sesgos respecto a los
-10 compuestos pero quedan por encima del directo
-12
LZ FV GC TF LG LP EH
Directo Posestr. Sint-bas Comp1 Comp2 Comp3 Comp4 1% 2% 3% PV
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
48. VALORACIÓN DE ESTIMADORES: Comparación con estimadores
suplementados Hombres Parados (r=1)
45
40
35
30
REMC
25
20
15
10
5
0
LZ FV GC TF LG LP EH
Directo Posestr. Sint-bas Comp1 Comp2 Comp3 Comp4 1 2 3 PV
45
40
35
30
25
20
15
SR
10
5
0
-5
-10
-15
-20
LZ FV GC TF LG LP EH
Directo Posestr. Sint-bas Comp1 Comp2 Comp3 Comp4 1 2 3 PV
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
50. CALIBRADO: Las estimaciones
Las estimaciones comarcales, población ocupada y parada, son calibradas
para cada sexo y provincia (reparto proporcional).
La población inactiva comarcal es entonces calculada por diferencia con
respecto al total poblacional de dicho dominio.
Las estimaciones por islas son obtenidas por agregación de las comarcas que
las componen.
Las estimaciones a nivel de isla por grupo de edad (<25 y ≥25) son
adicionalmente calibradas (método Calmar) a las estimaciones a nivel de isla y
a las estimaciones provinciales por grupo de edad (<25 y ≥25).
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
51. CALIBRADO: Valores poblacionales
La “Estimación de la Población Actual” (ePOBa) proporciona estimaciones de
totales poblaciones por isla, sexo y grupo de edad (<25, 25-54, >54) a principio
de cada año.
Estos datos son ajustados en los diferentes trimestres (CalMar) a:
Las estimaciones poblacionales por sexo a nivel de provincia suministrado por la
correspondiente EPA, y a
Los totales poblacionales por grupo de edad y sexo a nivel de Comunidad
Autónoma.
Finalmente los datos comarcales a nivel de grupo de edad por sexo
proporcionados por el Padrón Municipal de Habitantes a 1 de enero del último
año publicado, son ajustados (reparto proporcional) a los datos de islas por
grupo de edad por sexo anteriormente ajustados.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
52. CALIBRADO: Valores poblacionales
Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
EPA EPA EPA EPA
C.A. C.A. C.A. C.A.
(sexo*edad) (sexo*edad) (sexo*edad) (sexo*edad)
Provincia Provincia Provincia Provincia
(sexo) (sexo) (sexo) (sexo)
ePOBa
isla isla isla
(sexo*edad) (sexo*edad) (sexo*edad)
Padrón
Continuo Comarca Comarca
Comarca (sexo*edad) (sexo*edad)
(sexo*edad)
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
53. ESTIMACIÓN DEL ERROR
CUADRÁTICO MEDIO
Método Jack-knife
Método Bootstrap
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
54. ESTIMACIÓN DEL ERROR CUADRÁTICO MEDIO: Método Jack-knife
Se toman tantas submuestras como secciones censales existen. Cada una de
ellas al dejar una sección fuera.
Los pesos originales de los individuos de secciones que están en el estrato de
la sección eliminada son modificados (factor ).
Se calculan las estimaciones para cada una de las submuestras exactamente
igual que con la muestra original.
H
⎛ nh − 1 nh ˆ sint_rd ˆ sint_rd 2 ⎞
ˆ
MSEJK (Yˆ
d
sint_rd
) = ∑⎜ ∑ ˆ
( h .)
ˆ
(Yd ( hi ) − Yd ( h .) ) + ((nh − 1)(Ydsint_rd − Ydsint_rd ))2 ⎟
h =1 ⎝ nh i =1 ⎠
con Yd ( h .) d = ∑ i =1Yd ( hi ) d nh .
ˆ sint_r ˆ sint_r
nh
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
55. ESTIMACIÓN DEL ERROR CUADRÁTICO MEDIO: Método Bootstrap
Las submuestras toman en cada estrato con nh secciones, nh-1 secciones
mediante muestreo aleatorio simple con reemplazamiento.
Los pesos originales de los individuos son modificados (factor mi nh /(nh-1),
con mi número de veces que aparece la sección i en el muestreo).
Este proceso se repite R veces (al menos R = 500).
Se calculan las estimaciones para cada una de las submuestras exactamente
igual que con la muestra original.
ˆ (Y sint_rd ) = 1
R
ˆ
MSEB d ∑ (Yˆdrsint_rd − Yˆdsint_rd )2 .
R − 1 r =1
Las valoraciones sobre simulaciones nos indican que el método Jack-knife es
preferible sobre el método Bootstrap implementado (subestima).
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
57. CONCLUSIONES: Sintético-región dinámico con precisión variable
Ventajas
Posee bajas variabilidades (estabilidad de la serie trimestral).
Áreas con abundante muestra directa utilizan poca o ninguna muestra indirecta.
Áreas con escasa muestra aprovechan la información indirecta (empezando por las
áreas más próximas a la que se desea estimar).
El proceso de asignación de información está separado del de estimación.
Permite conocer y cambiar la estructura de asignación de información.
La modificación de la regla de parada (elección de precisión) permite trabajar con un
amplio abanico de posibilidades (ECM relativamente bajo con alto sesgo hasta ECM
moderado con bajo sesgo)
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
58. CONCLUSIONES: Sintético-región dinámico con precisión variable
Desventajas
Necesidad de definir matrices de órdenes de cercanía entre comarcas para cada
variable objetivo.
Indicar periodo de vigencia de las matrices de órdenes (inferiores a cinco no serán
necesarios, en particular, la intención es que coincidan con publicación del Censo).
Los estimadores sintéticos no son insesgados. Si bien las pruebas indican que los ECM
son de los más bajos.
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS
69. GRACIAS POR SU
ATENCIÓN
Más información:
http:// www.gobiernodecanarias.org/istac
http://www.slideshare.net/istac
http://twitter.com/istac_es
ESTADÍSTICAS POR ISLAS Y ESTIMACIÓN EN ÁREAS PEQUEÑAS