¿Cómo responder preguntas con bases de datos jerárquicas?
Este es un breve repaso sobre los conceptos de post-estratificación y regresiones "multiniveles" (MRP), bajo los enfoques tradicional y bayesiano, para dar respuesta a ese tipo de preguntas. La presentación incluye ejemplos extraídos de los trabajos de Gelman (2014) y Woltman (2012) para casos de estudio relacionados con pronósticos electorales y evaluaciones académicas. De repasar estos conceptos se puede concluir que las regresiones multi-nivel suponen una ventaja en relación al OLS tradicional, y que, la post-estratificación es útil para resolver problemas de muestreo.
2. Caso de estudio: Forecasting Elections with
no representative polls. Gelman et al. (2014)
• La pregunta : “¿Es posible emular pronósticos electorales hechos con “buenas encuestas” usando
“malas encuestas”?”/1
• El método: Postestratificación y Postestimación = MRP (Multi-level Regression and
Poststretification)
• Las “buenas” encuestas: Pollster
• La “mala” encuesta: Xbox
• La conclusión: sí se puede
Gráfico: Resultados electorales estimados por el promedio de encuestas recogidas por Pollster.com vs las estimadas por el modelo propuesto. En la línea
horizontal se representan los resultados efectivamente arrojados por la elección.
/1: Se entiende por encuestas “buenas” aquellas que satisfacen los requisitos estadísticos de la teoría del muestro, asegurando su representatividad de la población
estudiada.
3. Primera parte: ¿Qué es la Post-
estratificación?
• ¿Qué es? Un método de estimación basado en la “estratificación” de una
muestra, es decir, su división en grupos.
• ¿Para qué se usa? Para obtener estimadores de calidad a partir de una
muestras no representativas.
• ¿En qué consiste? En un promedio ponderado de las estimaciones de la
variable de interés dentro de cada estrato.
– ¿Es igual a un promedio de los datos? No. La estimación asegura el cumplimiento del
supuesto de normalidad.
• ¿Qué se necesita? Los parámetros (pesos) poblacionales que definen a
los estratos.
(𝑦𝑗 ∗ 𝑤𝑗)𝑛
𝑗=1
𝑁𝑗
𝑛
𝑗=1
= 𝑦~𝑁(𝜇; 𝜎2)
4. Veamos un ejemplo (Gelman et al.
2014)
• Encuesta Xbox.
– Variables:
• Intención de voto, por Estado (explicada)
Explicativas
• Control Estado
• Resultado en elección pasada en el estado
• Nivel educativo
• Género
• Edad
• Raza
• Identificación del partido
• Ideología
• Último voto
Modelo bayesiano propuesto:
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Nivel.Educ
Género
Edad
Raza
IdPartido
Ideología
Últimovoto
Xbox
Censo
Pesos
(1) (2)
5. El siguiente paso: La Regresión Multi-Nivel
(MLR)
• En el caso anterior, se estimaban parámetros (hiperparámetros) a nivel estadal. Surge la pregunta ¿Cómo
incoporarlos a nivel individual? Para ello se usa la MLR.
• ¿Qué es? Un método de estimación que hace endógenos a los parámetros de la regresión.
• ¿Para qué se usa? Para incorporar información en bases de datos jerárquicos.
• ¿Qué ventaja suponen?
– Mantienen la varianza correspondiente a los grupos superiores
– Aíslan los efectos correspondientes a cada nivel
– Permiten controlar por la varianza (error) proveniente de cada nivel
– Corrigen sesgo de endogeneidad
• ¿Cuántos parámetros se estiman en las MLR?
– Tres (3), dependiendo del modelo:
1. Fixed Intercept and Random Slope
2. Random Intercept and Fixed Slope
3. Random Intercept and Slope
(1) Y (2) = mixed effects
• ¿Qué los distingue de los modelos tradicionales?
– Que los parámetros también se modelan (o simulan)
6. Veamos un ejemplo, (Woltman et. Al (2012))
• Se desea conocer la incidencia de el régimen alimenticio de los niños sobre su
índice académico, en una escuela.
• La base de datos (Jerárquica) viene dada por:
• 𝑋𝐼; 𝑋𝑗; 𝑋 𝐾 … 𝑋 𝑛 ∈ 𝑋 𝑐𝑜𝑛 𝑍 = 𝑛𝑖𝑣𝑒𝑙𝑒𝑠 𝑑𝑒 𝑎𝑔𝑟𝑒𝑔𝑎𝑐𝑖ó𝑛 𝑝𝑒𝑟𝑜 𝑦𝑖 ∈ 𝑍(𝑛 − 𝑛 − 1) únicamente.
• Por un lado, estimamos la variable de interés:
• Y por otro lado, estimamos los efectos asociados a los niveles superiores:
Niños (unidad estadística)
Salón
Escuela
Distrito Educativo
Municipio…Estado…
Índice Académico
Condicionado a que: 𝑈0𝑖~𝑁(𝜇; 𝛿)
7. ¿Cómo se estiman los hiperparámetos?
• El recuadro rojo anterior hacía referencia a un término de error que sigue
una distribución normal.
• ¿Cómo se generan estos parámetros de la distribución?
– De simular la estimación del parámetro “n” veces, lo cual da lugar a una distribución de la cual se extraen la media y
la varianza.
– Por el mismo proceso, se le imputa un valor a cada observación a regresar.
• Por esta razón, los “hiperparámetros” siempre que sean tratados como
“random effects” deberán ser simulados, una vez estimada su
distribución.
• Entonces, el modelo final es un modelo, del modelo, del modelo, del
modelo … de los niveles superiores.
9. Inf. Bayesiana : no tan oscura como parece
• ¿Qué es? Procesos estadísticos que modelan parámetros desconocidos
como variables aleatorias (Gellman, 2010)
• Características
– Toda inferencia parte de una distribución a priori (non informative) que luego es
adaptada por lo datos
– Todo lo que sea una proporción o media es estimable bayesianamente.
– La teoría descansa en el teorema de Bayes, que recoge la probabilidad condicionada.
• ¿Cómo son las estimaciones?
– Se estiman distribuciones de probabilidad, no valores puntuales.
– Se usan las simulaciones para obtener los parámetros de las distribuciones de las
perturbaciones.
• Beneficios
– Las simulaciones permiten controlar por la endogeneidad
10. Referencias
• Wei Wang, David Rothschild, Sharad Goel, Andrew Gelman, Forecasting elections with non-
representative polls, International Journal of Forecasting, Volume 31, Issue 3, July–
September 2015, Pages 980-991, ISSN 0169-2070,
https://doi.org/10.1016/j.ijforecast.2014.06.001 .
(http://www.sciencedirect.com/science/article/pii/S016920701400087)
• Woltman, Heather , Feldstain, Andrea , MacKay, J. Christine , Rocchi, Meredith
52-69
http://www.tqmp.org/RegularArticles/vol08-1/p052/