Cómo realizar "paso a paso" un contraste de hipótesis con SPSS para WindowsJairo Acosta Solano
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la comparación de medias entre tres o más grupos independientes se realiza a través de un modelo matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa SPSS para Windows.
Cómo realizar "paso a paso" un contraste de hipótesis con SPSS para WindowsJairo Acosta Solano
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la comparación de medias entre tres o más grupos independientes se realiza a través de un modelo matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa SPSS para Windows.
Proceso de análisis de datos en los trabajos académicos de grado: Presentación preparada para un curso dirigido a docentes interesados en dirigir trabajos académicos.
Proceso de análisis de datos en los trabajos académicos de grado: Presentación preparada para un curso dirigido a docentes interesados en dirigir trabajos académicos.
Cuando los psicofármacos empiecen a pensarMario Sullivan
Avances de investigación en curso sobre autonomía de las cosas, en este caso se analiza el comportamientod e un grupo de profesionales médicos respecto a una red no nominativa de psicofármacos.
Definición, Tipos y Ejemplo de Variable.
Definición y Ejemplo de Población y Muestra.
Definición y Ejemplo de Parámetros Estadísticos.
Definición, Tipos y Ejemplo de Escalas de Medición.
Definición y Ejemplo de Sumatoria Razón, Proporción, Tasa y Frecuencia.
Redes sociales presentación 30 08 2010 carlos f. de angelis
1. Facultad de Ciencias Sociales – UBA - Seminario de Doctorado: Análisis de trayectorias y redes sociales a través de métodos cualitativos Prof: Donatello, Luis Miguel Presentación: Análisis cuantitativos de datos Carlos F. De Angelis
2. Cea D´Ancona Mº A (2001, 112) Diseños de investigación según los objetivos del estudio
3. Estrategia o enfoque cuantitativo Según Hernández Sampieri (2006) el enfoque cuantitativo plantea un problema de investigación delimitado y concreto, genera hipótesis y somete a prueba esas hipótesis en base a datos numéricos recolectados y analizados mediante procedimientos estadísticos. Si bien puede ser se empleada tanto para diseños exploratorios, y descriptivos algunos autores lo identifican con el modelo explicativo también denominado por algunos autores como «correlacional» En este sentido también algunos autores clasifican a los modelos surgidos de los enfoque cuantitativos investigaciones experimentales o cuasi experimentales La investigación social cuantitativa está directamente basada en el paradigma explicativo. Este paradigma, … utiliza preferentemente información cuantitativa o cuantificable para describir o tratar de explicar los fenómenos que estudia, en las formas que es posible hacerlo en el nivel de estructuración lógica en el cual se encuentran las ciencias sociales actuales. (Briones G, 1996) Los modelos explicativos tienen una serie de supuestos o requisitos, como por ejemplo la normalidad de las distribuciones y que los datos provengan de una muestra probabilística , y la finalidad es la estimación de los parámetros poblacionales . Los perspectivas más modernas basados en la «extracción de información» o Data Mining plantean otros enfoque basados en los procesos de descubrimiento de nuevas relaciones y tendencias en el análisis de los datos. Si bien se orientan a la exploración de grandes bases de datos, su aplicación permite otra mirada en la exploración de los datos.
4. Repaso de conceptos básicos I Variable: Cualquier cualidad o característica de un objeto o evento que contenga al menos dos atributos (categorías o valores) en los que pueda clasificarse un objeto o evento determinado. (Cea D´Ancona, 2001 ,126) Según las formas en que sean expresadas las categorías que la variable podrá identificarse como cuantitativa (o numérica/métrica) ej.: edad o cualitativa ej.: nivel educativo Dentro de las variables cualitativas si las categorías pueden ser ordenadas siguiendo un criterio conocido se denomina «ordinal», si entre las categorías no puede establecerse ninguna relación será un variable «nominal» Criterios para la formulación de un sistema de categorías: exhaustividad, exclusividad, precisión y relevancia teórica Variable ordinal: Nivel educativo: Sin instrucción Primaria Secundaria Universitaria Posgrado Variable nominal: Religión Católico Judío Musulmán Budista Taoísta Sin religión Variable numérica: Ingreso 0 - - - - ∞
5. Repaso de conceptos básicos II Matriz de datos: Es una modalidad de organización de los datos, previamente registrados mediante los instrumentos respectivos: permite identificar en forma simultánea el carácter tripartito del dato: (Galtung, 1967) Unidad de análisis Variable Categoría
6. Repaso de conceptos básicos III La finalidad de enfoque cuantitativo clásico es la estimación de los parámetros poblacionales. Existen unos valores «verdaderos» en la población que se deben estimar. Estas técnicas son llamadas paramétricas y suponen que los datos provienen de una muestra probabilística, es decir una donde cada unidad de análisis de la población posee la misma probabilidad de ser seleccionada. La teoría del muestreo se basan es la ley de los grandes números y la teoría del límite central Se basa en las propiedades de la distribución normal. Las estimaciones se obtienen dentro de un intervalo y en un intervalo de estimación. El tamaño de la muestra se calcula en base a la siguiente fórmula: n = s 2 *z 2 / e 2 Donde s 2 es la varianza, z es la puntación típica para la confianza correspondiente y e es el error absoluto de estimación considerado La estimación sigue la siguiente forma ¯ x ± z*s/ √ n x x x x x x x x x x x x x x x x x x
7.
8.
9. Análisis de datos cuantitativos 2. Cantidad de variables Dos variables: Análisis bivariado Se debe analizar si la hipótesis indica la existencia de dependencia (análisis de la dependencia) Pueden diferenciarse una variable explicativa (independientes) y otra explicada (dependiente)? Los años de escolaridad influyen en el ingreso x -> y Ej: Modelo de regresión Coeficientes Modelo Coeficientes no estandarizados Coeficientes tipificados t Sig. B Error típ. Beta 1 (Constante) 1928,206 888,680 2,170 ,031 Salario inicial 1,909 ,047 ,880 40,276 ,000
10. Análisis de datos cuantitativos II 2. Cantidad de variables Dos variables: Análisis bivariado No se puede establecer dependencia: Ej: Matriz de correlaciones Matriz de Correlaciones Esperanza de vida fem. Esperanza de vida masc. Personas Alfabetizadas (%) Mortalidad infantil (muertes por 1000 nacidos vivos) PIB per-capita Esperanza de vida femenina R 1 ,982 ,865 -,962 ,642 Sig ,000 ,000 ,000 ,000 N 109 109 107 109 109 Esperanza de vida masculina R ,982 1 ,809 -,936 ,639 Sig ,000 ,000 ,000 ,000 N 109 109 107 109 109 Personas Alfabetizadas (%) R ,865 ,809 1 -,900 ,552 Sig ,000 ,000 ,000 ,000 N 107 107 107 107 107 Mortalidad infantil (muertes por 1000 nacimientos vivos) R -,962 -,936 -,900 1 -,640 Sig ,000 ,000 ,000 ,000 N 109 109 107 109 109 Producto interior bruto per-capita R ,642 ,639 ,552 -,640 1 Sig ,000 ,000 ,000 ,000 N 109 109 107 109 109
11. Análisis de datos cuantitativos 2. Cantidad de variables Dos variables: Análisis bivariado Se organizan por nivel de medición Dos variables cualitativas Una variable cualitativa y una cuantitativa Dos variables cuantitativas Técnica Tablas (porcentajes) / Coeficientes Análisis de correspondencia simple Diferencias de medias Análisis de la varianza Correlación / Regresión simple Prueba de significación Chi cuadrado Prueba t ó Z F de Snedecor Prueba t de Student
12. Análisis de datos cuantitativos 2. Cantidad de variables Tres variables o más variables
13.
14. Análisis de clúster o conglomerados Es una técnica de clasificación o agrupamiento. Trata de situar todos los casos en grupos homogéneos no conocidos de antemano pero sugeridos por el conocimiento sobre los datos. Se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. La "nueva dimensión" lograda con el cluster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis. Se divide en dos modelos: jerárquicos y no jerárquicos Fuero inicialmente creados para su uso con variables cuantitativas pero existen técnicas permite el uso de cualitativas e incluso ambos tipos de variables. Se basan en la medición de la distancía o similitud entre los objetos en los modelos no jerárquicos y de cada objeto con el centroide de su grupo en los no jeráquicos.
15. Análisis de clúster o conglomerado s Métodos jerárquicos La agrupación se realiza mediante proceso un con fases de agrupación o desagrupación sucesivas. El resultado final es una jerarquía de unión completa en la que cada grupo se une o separa en una determinada fase. Método jerárquico aglomerativo : Se parte de cada unidad de análisis para llegar a en las distintas etapas a un único grupo Método jerárquico divisivo : Toda la muestra es un único grupo para ir separándose en grupos hasta que en se detiene al llegar a cada unidad de análisis (árbol). Como paso previo a aplicar el análsis de clusters el investigador debe tomar dos decisiones, qué medida de similaridad o distancia va a utilizar y algoritmo de formación de clusters va a emplear. La medida de distancia más universal es la distancia euclídea o euclídea al cuadrado. Las algorítmos más utilizados distancias mínimas o vecinos más cercanos, vecinos más lejanos, distancia promedio entres clusters entre otras muchas.
16. El dendrograma es una representación gráfica que permite identificar cómo se van conformando los grupos, para el investigador pueda tomar decisiones respecto a la clasificación. En el ejemplo (sólo 30 casos elegidos al azar sobre tres variables cualitativas: ¿En qué momento decidió su voto? Antes de la campaña / Durante la campaña / El día de la elección ¿Con qué frecuencia habla de política? Habitualmente / Cada tanto / Nunca ¿Iría a votar si las elecciones no fueran obligatorias? Si / No La distancia empleada es la chi cuadrado y el método es el vecino más cercano Análisis de clúster o conglomerados:
17. Análisis de clúster o conglomerados: Modelo No jerárquico: Es un procedimiento automático e iterativo, el investigador debe decidir el nº de grupos, el sistema elige determinados centroides y mediante recálculos va a definir la ubicación de cada caso en cada grupo. Si bien existen varios procedimiento o algoritmos uno de los más usados es el conocido como K – medias Gráfico de dispersión inicial Ej. Dado una muestras de autos se evalúa el consumo y la cilindrada. Se pretende ubicar dos grupos que optimicen los datos.
18. Análisis de clúster o conglomerados: Etapas Cálculo de los centros iniciales Recálculo del algoritmo (Iteraciones) Centros finales Nº de casos de cada conglomerado
19. Gráfico de dispersión inicial Gráfico de dispersión final Análisis de clúster o conglomerados
20. Análisis de clúster o conglomerados En la matriz se crea una nueva variable identificando en qué grupo está cada caso, que permite su análisis en otros cruces
21.
22. Análisis de correspondencias múltiple Las dos finalidades principales del análisis de correspondencia son describir y sintetizar las relaciones existentes entre un grupo de variables nominales (César Pérez López, 2008). El análisis de correspondencia múltiple es una técnica multivariada factorial de reducción de la dimensión de una tabla de casos-variables con datos cualitativos en el caso del análisis de correspondencias simples, o su generalización cuando el número de variables cualitativas es superior a dos (n tablas). La cuantificación se realiza en dos etapas sucesivas. Primero se debe calcular la puntuación de los sujetos (filas) y luego la de las variables (columnas). Las puntuaciones filas se obtienen a través de un algoritmo matemático y luego permiten cuantificar las categorías. Al igual que las técnicas de análisis factorial, en el análisis de correspondencias la información queda explicitada en torno a los espacios dimensionales que formulan los factores, estos factores pueden ser interpretados o nombrados, dado que se constituyen en nuevas variables que contienen información optimizada de las variables originales. A diferencia de las conocidas pruebas de independencia de chi cuadrada, que proporcionaban información sobre la relación significativa o no entre variables, sin identificar las categorías más comprometidas en la relación, las técnicas de análisis de correspondencia permite, incluso gráficamente, observar entre relaciones las categorías, permitiendo la verificación de hipótesis de trabajo que de otra forma se mantendrían ocultas.
23. Análisis de correspondencias múltiple: «Y lo que es cierto para los conceptos es cierto para las relaciones, que sólo adquieren su significado dentro de un sistema de relaciones. Del mismo modo, si yo hago un uso amplio del análisis de correspondencias, prefiriéndolo por ejemplo a la regresión multivariada, es porque el análisis de correspondencia es una técnica relacional de análisis de datos cuya filosofía se corresponde exactamente, a mi modo de ver, con aquello que es la realidad del mundo social. Se trata de una técnica que "piensa" en términos de relación, precisamente como yo intento hacerlo con la noción de campo» Pierre Bourdieu en Una invitación a la sociología reflexiva / Bourdieu y Wacquant 2005- Senioriy en la Burguesía francesa (Bourieu (1984)
24. Los valores singulares o autovalores es la suma de la varianza explicada por las variables nominales múltiples. Los autovalores (eingenvalues) pueden ser interpretados como las correlaciones entre las puntuaciones de las filas y las columnas y son análogos a los coeficientes de correlación de Pearson (Visauta Vinacua 998) Cada dimensión clasifica a cada variable dándole una carga factorial o inercia determinada. El modelo funciona mejor cuando cada nueva variable o dimensión tiene alta inercia en algunas de las variables y baja o nula en otras. Los «rayos» de la gráfica representan a cada variable. Cuanto más paralelo esté de la dimensión, mayor carga factorial Análisis de correspondencias múltiple:
25. Análisis de correspondencias múltiple: En el diagrama conjunto se puede observa la cercanía de las categorías que indican relaciones En el diagrama de puntos de objeto se puede clasificar a los casos en términos de los dimensiones
26. Análisis de correspondencias múltiple: Será parte del análisis encontrar tipologías de análisis En el diagrama de puntos de objeto se puede clasificar a las unidades de análisis en términos de los dimensiones Votantes indiferentes Votante flotante o repolitizable Votante ideológico o tradicional
27. Análisis de correspondencias múltiple: Si se incorpora la variable Voto se puede determinar nuevas correspondencias
28. Bibliografía Briones Guillermo (1996) Metodología de la investigación cuantitativa en las ciencias sociales, Bogotá, ICFES Bourdieu Pierre y Loïc Wacquant. Una invitación a la sociología reflexiva / - Buenos Aires: Siglo XXI Editores. 2005. Pérez, César (2004) Técnicas de Análisis Multivariante de Datos, Madrid Ed, Pearson – Prentice Greenacre Michael. La páctica del análisis de correspondencias. Fundación BBVV, Madrid, 2008 Meulman Jacqueline J., Optimal Scaling Methods for Multivariate Categorical Data Analysis, SPSS, Chicago. 2009 Visauta Vinacua, B. Análisis estadístico con SPSS para Windows, Vol II, Editorial Mc Graw Hill, México, 1998