S6 1 Intro Imput

2.769 visualizaciones

Publicado el

Presenta un panorama general introductorio sobre los métodos de imputación utilizados en las oficinas de estadística oficial

Publicado en: Tecnología, Educación
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
2.769
En SlideShare
0
De insertados
0
Número de insertados
976
Acciones
Compartido
0
Descargas
52
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

S6 1 Intro Imput

  1. 1. Taller de Análisis Estadístico COEP Sesión 06-1 Métodos de imputación Paul Ramírez De la Cruz
  2. 2. Introducción <ul><li>Se le llama método de imputación a cualquier procedimiento mediante el cual se busca eliminar los datos perdidos de un archivo con información estadística, asignándoles un valor válido </li></ul><ul><li>En esta sesión hablaremos sobre algunos métodos de imputación </li></ul><ul><li>Algunos de estos son comúnmente utilizados en oficinas de estadística oficial </li></ul><ul><li>Otros han sido poco explorados, posiblemente por su nivel de sofisticación </li></ul>
  3. 3. ¿Cuándo es necesario imputar? <ul><li>El tratamiento que la mayoría de los paquetes estadísticos dan a los datos faltantes ( missing data ) es el de omitirlos del estudio </li></ul><ul><li>Se pueden omitir por pares o por lista </li></ul><ul><li>La omisión de datos por pares consiste en excluir de cualquier análisis que incluya a las variables X j y X k todo caso que tenga un valor perdido en X j , en X k o en ambas </li></ul><ul><ul><li>La ventaja es que se utiliza en cada análisis la mayor cantidad posible de información disponible </li></ul></ul><ul><ul><li>La desventaja es que los resultados obtenidos estarán basados en distintos tamaños de muestra </li></ul></ul>
  4. 4. ¿Cuándo es necesario imputar? <ul><li>En la omisión de datos por lista se excluye de todos los análisis cualquier caso que tenga al menos un dato perdido en una variable </li></ul><ul><ul><li>La ventaja es que todos los resultados están basados en la misma muestra </li></ul></ul><ul><ul><li>La desventaja es que produce una pérdida de información mucho mayor que el enfoque por pares </li></ul></ul><ul><li>Si se tiene una pérdida de datos muy pequeña, cualquiera de estos dos enfoques resulta suficiente </li></ul><ul><li>Si la pérdida de información es mayor, puede resultar de utilidad “completar” el archivo de datos </li></ul>
  5. 5. Consideraciones sobre la imputación <ul><li>Debe tenerse cuidado al aplicar métodos de imputación a algún conjunto de datos </li></ul><ul><li>Una imputación mal conducida puede llegar a modificar las características estadísticas de la información en la que se aplica </li></ul><ul><li>Cualquiera que sea el método de imputación utilizado, debe verificarse que las distribuciones conjuntas de los datos producidos por este no difieran significativamente de las de aquellos datos obtenidos en campo </li></ul>
  6. 6. Clasificación de métodos de imputación <ul><li>Poco recomendables </li></ul><ul><ul><li>Por medida de tendencia central </li></ul></ul><ul><ul><li>Asignación aleatoria </li></ul></ul><ul><li>Determinístico </li></ul><ul><li>De donación </li></ul><ul><ul><li>Cold deck </li></ul></ul><ul><ul><li>Hot deck </li></ul></ul>
  7. 7. Clasificación de métodos de imputación <ul><li>Estadísticos </li></ul><ul><ul><li>Regresión </li></ul></ul><ul><ul><li>Regresión aleatoria </li></ul></ul><ul><ul><li>Análisis discriminante lineal </li></ul></ul><ul><li>Computacionales (aprendizaje de máquina o inteligencia artificial) </li></ul><ul><ul><li>Árboles de clasificación y regresión </li></ul></ul><ul><ul><li>Redes neuronales </li></ul></ul><ul><ul><li>Máquinas de soporte vectorial </li></ul></ul>
  8. 8. Métodos de imputación no recomendables: Tendencia central <ul><li>Imputación por alguna medida de tendencia central (media, mediana, etc) </li></ul><ul><li>Ventajas </li></ul><ul><ul><li>Es muy simple de realizar </li></ul></ul><ul><ul><li>Mantiene inalterada la medida de tendencia central utilizada </li></ul></ul>
  9. 9. Métodos de imputación no recomendables: Tendencia central <ul><li>Desventajas </li></ul><ul><ul><li>Crea artificialmente un “bordo” en la parte central de la distribución, en consecuencia cambiando la forma de esta </li></ul></ul><ul><ul><li>Disminuye artificialmente el valor de las medidas de dispersión </li></ul></ul><ul><ul><li>No toma en cuenta las relaciones de la variable imputada con otras del estudio </li></ul></ul>
  10. 10. Métodos de imputación no recomendables: Asignación aleatoria <ul><li>Asignación aleatoria de alguno de los valores válidos de la variable </li></ul><ul><li>Ventajas </li></ul><ul><ul><li>Es muy simple de realizar </li></ul></ul><ul><ul><li>Mantiene la distribución y por tanto las medidas de tendencia central y de dispersión </li></ul></ul><ul><li>Desventajas </li></ul><ul><ul><li>No toma en cuenta las relaciones de la variable imputada con otras del estudio </li></ul></ul><ul><ul><li>Puede distorsionar la relación entre la variable imputada y otras variables </li></ul></ul>
  11. 11. Método determinístico de imputación <ul><li>Hace uso de relaciones entre las variables dentro de un instrumento, o entre instrumentos para deducir qué valor debería tener el dato perdido </li></ul><ul><li>Ventajas </li></ul><ul><ul><li>Fácil de implementar </li></ul></ul><ul><ul><li>Hace uso explícito de ciertas relaciones entre las variables del instrumento </li></ul></ul>
  12. 12. Método determinístico de imputación <ul><li>Desventajas </li></ul><ul><ul><li>Solamente se puede utilizar cuando hay una relación clara entre variables </li></ul></ul><ul><ul><li>Aún en el caso anterior, puede no dar un valor puntual para el dato perdido, sino solamente un intervalo de valores entre los que pudiera estar </li></ul></ul>
  13. 13. Ejemplo <ul><li>Supongamos que un cuestionario para educadora no unitaria, primera parte, tiene un dato perdido en el año de acreditación de la licenciatura en educación primaria </li></ul><ul><li>Por otro lado, se cuenta con información de que la educadora tiene 25 años de edad </li></ul>
  14. 14. Ejemplo <ul><li>Se propone la hipótesis de que, difícilmente, una educadora concluiría un programa de licenciatura antes de cumplir 20 años </li></ul><ul><li>Se deduce entonces que no podría haber concluido su instrucción antes de 2003 </li></ul><ul><li>Notemos que el resultado no es un valor puntual, sino un intervalo y que el valor imputado podría ser cualquiera de entre 2003, 2004, 2005, 2006, 2007 y 2008 </li></ul>
  15. 15. Métodos de imputación por donación: Hot deck <ul><li>Los métodos de donación hacen uso de un dato tomado de un caso con información completa para imputar un valor perdido en otro caso </li></ul><ul><li>La aplicación del método requiere la identificación de k casos completos que sean “similares” al actual que está incompleto </li></ul>
  16. 16. Métodos de imputación por donación: Hot deck <ul><li>Se hace uso del método del “vecino más cercano” para establecer dicha similitud </li></ul><ul><li>Consiste en crear conglomerados de observaciones a partir de la distancia que los separa </li></ul><ul><ul><li>Euclidiana </li></ul></ul><ul><ul><li>Euclidiana ponderada </li></ul></ul><ul><ul><li>De Mahalanobis </li></ul></ul>
  17. 17. Métodos de imputación por donación: Hot deck <ul><li>El término hot deck significa “mazo (de cartas) caliente” </li></ul><ul><li>Se refiere a los inicios de la computación cuando los datos se introducían mediante tarjetas perforadas </li></ul><ul><li>Al pasar por la máquina lectora, las tarjetas quedaban calientes </li></ul><ul><li>El nombre del método tiene que ver con el uso de un donador con información completa, tomado del mazo caliente de cartas, para completar la información de un caso que tuviera algún valor perdido </li></ul>
  18. 18. Métodos de imputación por donación: Cold deck <ul><li>Es el mismo método que hot deck , con la diferencia de que se utiliza información de una investigación previa, muy similar a la actual </li></ul><ul><li>Dado que las tarjetas donadoras no acababan de ser leídas en la máquina, ya estaban frías , de allí el nombre del método </li></ul>
  19. 19. Métodos de imputación por donación <ul><li>Ventajas </li></ul><ul><ul><li>Son relativamente simples, en realidad son los más simples entre los métodos de aprendizaje máquina </li></ul></ul><ul><ul><li>Mantienen las distribuciones de la variable imputada y su relación con otras variables </li></ul></ul><ul><ul><ul><li>Siempre y cuando se tomen precauciones para evitar caer en el caso de imputación por medida de tendencia central o en el de imputación aleatoria </li></ul></ul></ul>
  20. 20. Métodos de imputación por donación <ul><li>Desventajas </li></ul><ul><ul><li>Requieren cierto grado de implementación (aunque, por ejemplo, hay un par de opciones implementadas en paquetes de R) </li></ul></ul><ul><ul><li>Es posible que se necesite cierta cantidad de “experimentación” para establecer un modelo eficiente </li></ul></ul>
  21. 21. Paquetes de R para imputación <ul><li>yaImpute: Imputación por k-NN (k nearest neighbours o k vecinos más cercanos ) </li></ul><ul><li>mitools: Herramientas para imputación múltiple de datos faltantes </li></ul>
  22. 22. Métodos estadísticos de imputación: Regresión <ul><li>Se elabora un modelo de regresión (lineal, polinomial, logística o de otro tipo) con la variable que se busca imputar como variable respuesta y una o más variables relacionadas con la primera como variables explicativas </li></ul><ul><li>La selección de las variables que fungirán como explicativas debe estar basada en la teoría sustantiva del área del estudio y apoyada por información estadística: por ejemplo, correlaciones entre las variables </li></ul>
  23. 23. Imputación por regresión <ul><li>Ventajas </li></ul><ul><ul><li>Es relativamente simple de implementar </li></ul></ul><ul><ul><li>Toma en cuenta las relaciones entre la variable que se imputa y otras </li></ul></ul><ul><ul><li>Resulta de utilidad, principalmente, para variables continuas (lineal, polinomial) o binarias (logística) </li></ul></ul><ul><li>Desventajas </li></ul><ul><ul><li>Requiere del ajuste de un modelo para cada variable a imputar </li></ul></ul><ul><ul><li>Si el ajuste no es bueno, puede producir valores improbables de la variable imputada </li></ul></ul>
  24. 24. Métodos estadísticos de imputación: Regresión aleatoria <ul><li>Es una extensión del modelo anterior </li></ul><ul><li>Al resultado previo se le agrega un error aleatorio para evitar que dos casos imputados con los mismos valores en las variables explicativas tengan el mismo valor en la variable imputada </li></ul>
  25. 25. Regresión aleatoria <ul><li>Ventajas </li></ul><ul><ul><li>Es relativamente simple de implementar </li></ul></ul><ul><ul><li>Toma en cuenta las relaciones entre la variable que se imputa y otras </li></ul></ul><ul><ul><li>Permite mayor variabilidad en los valores imputados </li></ul></ul>
  26. 26. Regresión aleatoria <ul><li>Desventajas </li></ul><ul><ul><li>Requiere del ajuste de un modelo para cada variable a imputar </li></ul></ul><ul><ul><li>Si el ajuste no es bueno, puede producir valores improbables de la variable imputada </li></ul></ul><ul><ul><li>Implica cierto conocimiento de la variable a imputar para saber de qué tamaño debe ser el error aleatorio agregado </li></ul></ul>
  27. 27. Métodos estadísticos de imputación: Análisis discriminante lineal (ADL) <ul><li>Es un método multivariado que se basa en un conjunto, llamado de entrenamiento , de observaciones que están clasificadas en dos o más categorías </li></ul><ul><li>El ADL tiene como objetivo encontrar una combinación lineal de las variables originales que produzca la mejor separación entre las categorías </li></ul>
  28. 28. Métodos estadísticos de imputación: Análisis discriminante lineal (ADL) <ul><li>Una vez calculada dicha combinación lineal, esta se utiliza como un “clasificador” o método para asignar un nuevo caso a la categoría más adecuada, de acuerdo con sus valores en las otras variables </li></ul><ul><li>Ventajas </li></ul><ul><ul><li>Es relativamente simple de implementar, por ejemplo se puede hacer de manera interactiva en SPSS </li></ul></ul><ul><ul><li>Toma en cuenta las relaciones entre la variable que se imputa y otras </li></ul></ul><ul><ul><li>Funciona mucho mejor que los métodos de regresión en variables categóricas </li></ul></ul>
  29. 29. Análisis discriminante lineal <ul><li>Desventajas </li></ul><ul><ul><li>Requiere del ajuste de un modelo para cada variable a imputar </li></ul></ul><ul><ul><li>Dependiendo de las relaciones entre las variables y la dificultad para “separar bien” los distintos grupos (categorías de la variable que se imputa) puede dar un alto porcentaje de clasificaciones erróneas </li></ul></ul>
  30. 30. Métodos computacionales <ul><li>Son métodos de desarrollo reciente (menos de 10 años) que se utilizan en minería de datos y aprendizaje de máquina, entre otras cosas, para reconocimiento de patrones </li></ul><ul><li>La teoría detrás de ellos es compleja </li></ul><ul><li>La aplicación puede ser medianamente simple si se utilizan implementaciones disponibles, por ejemplo, en R </li></ul><ul><li>En general, producen clasificadores muy eficientes </li></ul>
  31. 31. Árboles de clasificación <ul><li>Consisten en la división binaria sucesiva de los recorridos de variables seleccionadas </li></ul><ul><li>Los árboles de clasificación dividen el espacio de búsqueda en rectángulos y luego ajustan un modelo simple, por ejemplo una constante, en cada uno de ellos </li></ul><ul><li>Dicha constante corresponde con una de las categorías de la variable que se busca predecir </li></ul>
  32. 35. Árboles de clasificación <ul><li>Ventajas </li></ul><ul><ul><li>Comienzan con el grupo completo de variables y utilizan solamente aquellas que proporcionan “la mejor separación” </li></ul></ul><ul><ul><li>Son de fácil interpretación </li></ul></ul><ul><ul><li>Hay varias herramientas al respecto implementadas en R </li></ul></ul><ul><li>Desventajas </li></ul><ul><ul><li>Consideran las variables para separación una a la vez </li></ul></ul>
  33. 36. Paquetes de R para árboles de clasificación <ul><li>tree: Classification and regression trees http://cran.r-project.org/web/packages/tree/index.html </li></ul><ul><li>maptree: Mapping, pruning, and graphing tree models http://cran.r-project.org/web/packages/maptree/index.html </li></ul><ul><li>pinktoe: Graphically traverse a tree via GUI widgets or web based system http://cran.r-project.org/web/packages/pinktoe/index.html </li></ul>
  34. 37. Redes neuronales <ul><li>Una red neuronal es un modelo de regresión o clasificación que se puede representar gráficamente como se indica a continuación: </li></ul><ul><li>Observemos que se cuenta con tres capas (aunque puede haber más): de entrada, oculta y de salida </li></ul><ul><li>En la capa de entrada se tienen m variables explicativas, en la capa de salida hay n variables respuesta y en la capa oculta hay k neuronas </li></ul>
  35. 38. Redes neuronales <ul><li>Para regresión, típicamente se tiene n=1, es decir, una única salida </li></ul><ul><li>Cuando se quiere clasificar a las observaciones en n categorías, se tienen n unidades en la capa de salida y la i-ésima unidad de salida proporciona la probabilidad de que ocurra la clase i </li></ul>
  36. 41. Redes neuronales <ul><li>Ventajas </li></ul><ul><ul><li>Toman en cuenta las relaciones entre las variables </li></ul></ul><ul><ul><li>Son muy modificables y potentes para separar grupos con un alto grado de precisión </li></ul></ul><ul><ul><li>Existen implementaciones en R </li></ul></ul><ul><li>Desventajas </li></ul><ul><ul><li>La teoría subyacente es altamente compleja </li></ul></ul><ul><ul><li>La interpretación de la forma en que participan las variables en el modelo final no es sencilla </li></ul></ul><ul><ul><li>La obtención de un modelo parsimonioso no es sencilla </li></ul></ul>
  37. 42. Paquetes de R <ul><li>nnet: Modelos de redes neuronales de alimentación progresiva y modelos log-lineales multinomiales </li></ul><ul><li>neuralnet: Entrenamiento de redes neuronales </li></ul><ul><li>neural: Paquete para trabajo con modelos de redes neuronales </li></ul>
  38. 43. Métodos computacionales de imputación: Máquinas de soporte vectorial <ul><li>Una máquina de soporte vectorial (MSV) es un método de clasificación en dos categorías que obtiene el mejor clasificador con el margen más amplio de separación entre las categorías </li></ul><ul><li>Una MSV realiza la clasificación construyendo un hiperplano n-dimensional que separa de manera óptima las dos categorías </li></ul><ul><li>Está relacionado de manera cercana con las redes neuronales </li></ul>
  39. 45. Máquinas de soporte vectorial <ul><li>Ventajas </li></ul><ul><ul><li>Superan en desempeño a los árboles de clasificación y a las redes neuronales, es decir, cometen menos errores en la clasificación </li></ul></ul><ul><ul><li>Existen implementaciones en R </li></ul></ul><ul><li>Desventajas </li></ul><ul><ul><li>La teoría requerida es compleja </li></ul></ul><ul><ul><li>Funcionan solamente para dos categorías </li></ul></ul><ul><ul><li>La interpretación del modelo resultante puede no ser simple </li></ul></ul>
  40. 46. Conclusiones <ul><li>Se ha visto un panorama amplio de los distintos tipos de métodos que podrían utilizarse en la imputación de datos faltantes </li></ul><ul><li>De estos, algunos son claramente no recomendables, otros podrían tenerse en consideración y algunos más parecen costosos en implementación debido al nivel de sofisticación </li></ul>
  41. 47. Conclusiones <ul><li>Sin embargo no habría que descartar para futuros estudios la utilización de métodos de mayor complejidad que por otro lado permitan aumentar notablemente la calidad de la información imputada, y en consecuencia, de los resultados del estudio </li></ul>
  42. 48. Propuesta <ul><li>Se considera que se pueden utilizar dos tipos de imputación: </li></ul><ul><li>Hot deck como método por omisión, para la mayoría de las variables que cumplan al menos una de las siguientes características: </li></ul><ul><ul><li>Tengan un nivel muy bajo de omisión de respuesta </li></ul></ul><ul><ul><li>No sean variables eje del estudio </li></ul></ul><ul><ul><li>No se utilizarían en análisis posteriores </li></ul></ul>
  43. 49. Propuesta <ul><li>Regresión lineal múltiple, para aquellas variables no imputadas por hot deck que sean de tipo numérico </li></ul><ul><li>Análisis discriminante, para aquellas variables no imputadas por hot deck que sean de tipo categórico </li></ul>
  44. 50. Referencias <ul><li>Backhoff, E. (2007). Factores Escolares y Aprendizaje en México. El caso de la Educación Básica. INEE. México </li></ul><ul><li>Blanco, E. (2007). Eficacia Escolar en México. Factores escolares asociados a los aprendizajes en la Educación Primaria. Tesis Doctoral no publicada. Facultad Latinoamericana de Ciencias Sociales. México </li></ul><ul><li>Hair, J.; Anderson, R.; Tatham, R. & Black, W. (1999) Análisis multivariante. 5ª. Edición. Pearson Prentice Hall. España </li></ul><ul><li>Hastie, T.; Tibshirani, R. & Friedman, J. (2001) The elements of statistical learning. Springer-Verlag. EUA </li></ul><ul><li>National Center for Education Statistics (2002). NCES statistical standards. NCES. EUA </li></ul>
  45. 51. Referencias <ul><li>R Contributors. R packages repository en http :// cran.cnr.berkeley.edu / y http :// hosho.ees.hokudai.ac.jp / ~kubo / Rdoc / doc / html / packages.html , consultados el 21 de mayo de 2008 </li></ul><ul><li>Soares, F.(2007). Recursos Familiares e o Desempenho Cognitivo dos Alunos do Ensino Básico Brasileiro </li></ul><ul><li>Tourkin, S.; Warner, T.; Parmer, R.; Cole, C.; Jackson, B.; Zukerger, A.; Cox, S. & Soderborg, A. (2007) Documentation for the 2003-04 Schools and Staffing Survey. National Center for Education Statistics. EUA </li></ul><ul><li>Lewis, R. An introduction to classification and regression trees. UCLA Medical Center. Documento en http://www.saem.org/download/lewis1.pdf consultado el 23 de mayo de 2008 </li></ul>

×