ec
ec-
ESTADÍSTICA APLICADA A LAS
CIENCIAS SOCIALES
PUBLICACIONES
DE LA UNIVERSIDAD
PONTIFICIA COMILLAS
PEDIDOS:
Servicio de Publicaciones
c/ Universidad Comillas, 3
Tel.: 91 734 39 50 - Fax: 91 734 45 70
Pedro MoralesVallejo
ESTADÍSTICA APLICADA A
LAS CIENCIAS SOCIALES
2008
© 2008 PEDRO MORALES VALLEJO
© 2008 UNIVERSIDAD PONTIFICIA COMILLAS
Universidad Comillas, 3
28049 MADRID
Diseño de cubierta : Belén Recio Godoy
ISBN: ISBN 978-84-8468-355-1
EDICIÓN DIGITAL
Reservados todos los derechos. Queda totalmente prohibida la reproduc-
ción total o parcial de este libro por cualquier procedimiento electrónico o
mecánico, incluyendo fotocopia, grabación magnética o cualquier sistema
de almacenamiento o recuperación de la información, sin permiso escrito
GHOD8QLYHUVLGDG3RQWLÀFLDRPLOODV
ÍNDICE
Págs.
INTRODUCCIÓN .............................................................................................. 21
CAPÍTULO 1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES
GRÁFICAS ......................................................................................................... 23
1. ORGANIZACIÓN DE LOS DATOS .......................................................................... 23
1.1. La distribución de frecuencias ......................................................... 24
1.2. Agrupación en intervalos ................................................................. 25
1.3. Número de intervalos ...................................................................... 25
1.4. Valor del intervalo ............................................................................ 26
1.5. Cómo comenzar la agrupación en intervalos ................................. 26
2. REPRESENTACIONES GRÁFICAS ........................................................................... 26
2.1. Polígono de frecuencias ................................................................... 27
2.2. Polígono de frecuencias relativas .................................................... 29
2.3. Histograma ....................................................................................... 31
2.4. Diagrama de cajas ............................................................................. 32
CAPÍTULO 2. MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL
Y DE DISPERSIÓN ............................................................................................ 35
1. MEDIDAS DE TENDENCIA CENTRAL ..................................................................... 35
1.1. La media aritmética .......................................................................... 35
7
Págs.
1.2. La mediana ........................................................................................ 36
1.3. La moda ............................................................................................. 36
1.4. Comparación de las medidas de tendencia central ....................... 36
2. MEDIDAS DE DISPERSIÓN: SU UTILIDAD .............................................................. 39
2.1. La desviación media ......................................................................... 40
2.2. La desviación típica y la varianza ..................................................... 42
2.2.1. La desviación típica ............................................................ 42
2.2.2. La varianza .......................................................................... 44
2.2.3. Ventajas de la desviación típica y de la varianza como me-
didas de dispersión ............................................................ 45
2.2.4. Propiedades de la desviación típica y de la varianza ........ 46
2.2.5. Usos e interpretaciones de la desviación típica ............... 47
2.2.6. Media y desviación típica de los datos dicotómicos ........ 50
2.2.7. Combinación de medias y desviaciones típicas ............... 53
1º Para combinar dos o más medias ............................... 53
2º Para combinar dos o más desviaciones típicas o va-
rianzas .......................................................................... 54
a) Muestras de tamaño desigual ............................... 55
b) Muestras de idéntico tamaño ............................... 55
2.3. El coeficiente de variación (V) ......................................................... 57
2.4. La desviación semi-intercuartílica ................................................... 58
2.5. La amplitud o recorrido ................................................................... 60
2.6. Relación entre la amplitud y la desviación típica ........................... 60
3. MEDIDAS DESCRIPTIVAS BÁSICAS: RESUMEN .......................................................... 61
CAPÍTULO 3. LA DISTRIBUCIÓN NORMAL ................................................... 65
1. APROXIMACIÓN INTUITIVA A LA DISTRIBUCIÓN NORMAL ........................................ 65
2. CARACTERÍSTICAS Y PROPIEDADES DE LA DISTRIBUCIÓN NORMAL ........................... 67
3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIÓN NORMAL .......................... 68
4. CÓMO DIBUJAR LA CURVA ANORMAL ................................................................... 72
5. CÓMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIÓN NORMAL ................................... 73
5.1. Puntuaciones típicas positivas (superiores a la media) ................. 73
5.2. Puntuaciones típicas negativas (inferiores a la media) .................. 75
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
8
Págs.
5.3. Puntuaciones típicas positivas o negativas (en términos abso-
lutos) ................................................................................................. 76
6. BREVE NOTA HISTÓRICA ................................................................................... 77
Anexo: La distribución normal en Internet .................................................... 78
CAPÍTULO 4. TIPOS DE PUNTUACIONES INDIVIDUALES ........................... 81
1. LAS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIÓN .......................................... 81
2. PROPORCIÓN DE RESPUESTAS CORRECTAS ........................................................... 82
3. PUNTUACIONES DIFERENCIALES ......................................................................... 83
4. PUNTUACIONES TÍPICAS .................................................................................... 83
4.1. Qué son las puntuaciones típicas .................................................... 83
4.2. Propiedades de las puntuaciones típicas ........................................ 85
4.3. Utilidad de las puntuaciones típicas ............................................... 87
4.4. Puntuaciones tipificadas (puntuaciones típicas transformadas) ... 91
5. PERCENTILES ................................................................................................... 92
5.1. Concepto e interpretación .............................................................. 92
5.2. Cálculo de los percentiles ................................................................ 97
5.2.1. Cálculo directo ................................................................... 98
5.2.2. Cálculo por interpolación .................................................. 99
5.2.3. Cálculo de los percentiles mediante la representación
gráfica de las frecuencias relativas acumuladas ................ 101
6. PUNTUACIONES NORMALIZADAS ......................................................................... 104
6.1. Puntuaciones típicas normalizadas ................................................. 104
6.2. Puntuaciones típicas normalizadas y agrupadas: los estaninos y
otras puntuaciones ........................................................................... 106
6.2.1. Los estaninos ...................................................................... 107
6.2.2. Las pentas ........................................................................... 109
6.2.3. Otras puntuaciones normalizadas .................................... 110
6.3. Percentiles normalizados: cálculo de los percentiles a partir de
la media y de la desviación típica .................................................... 113
6.4. Equivalencias de diversos tipos de puntuaciones en la distribución
normal ............................................................................................... 115
ÍNDICE
9
Págs.
7. PUNTUACIONES TÍPICAS Y SUS PUNTUACIONES DERIVADAS: RESUMEN ...................... 116
8. RESUMEN DEL CÁLCULO DE LAS PUNTUACIONES DERIVADAS ................................... 117
CAPÍTULO 5. CORRELACIÓN Y COVARIANZA .............................................. 119
1. CONCEPTO DE CORRELACIÓN Y COVARIANZA ....................................................... 119
1.1. Relación y variación conjunta ....................................................... 119
1.2. Los diagramas de dispersión ........................................................... 120
1.3. Otras maneras de visualizar la correlación ..................................... 121
1.4. Correlación, covarianza y dispersión: importancia de las dife-
rencias ......................................................................................................... 122
1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r
de Pearson ........................................................................................ 123
1.6. Tipos de variables con las que se puede utilizar el coeficiente r de
Pearson .............................................................................................. 123
2. LA MEDIDA DE LA RELACIÓN ............................................................................. 124
2.1. Cómo cuantificamos o medimos el grado de relación .................. 124
2.2. Otras fórmulas y procedimientos ................................................... 127
3. INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN R DE PEARSON ..................... 128
3.1. Interpretación básica ....................................................................... 128
3.2. Correlación y causalidad .................................................................. 131
3.3. Cómo calcular la media de varios coeficientes de correlación ..... 132
3.4. El coeficiente de determinación ..................................................... 133
3.5. La significación estadística de los coeficientes de correlación ... 134
3.5.1. Qué es un coeficiente de correlación estadísticamente
significativo......................................................................... 134
3.5.2. El modelo teórico ............................................................... 135
3.5.3. Interpretación de una correlación estadísticamente signi-
ficativa ................................................................................. 137
3.5.4. Cómo comprobamos si un coeficiente de correlación es
estadísticamente significativo .......................................... 138
a) Con muestras de 100 sujetos o menos ...................... 139
b) Con muestras de más de 100 sujetos ......................... 140
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
10
Págs.
c) Cuando de los mismos sujetos tenemos varios coefi-
cientes de correlación ................................................. 141
3.6. Los intervalos de confianza: magnitud de la correlación en la
población .......................................................................................... 142
3.7. Cómo valorar la magnitud de la correlación .................................. 146
3.7.1. Orientaciones generales .................................................... 146
3.7.2. Sobre la interpretación y utilidad de los coeficientes de
correlación bajos ................................................................ 147
3.7.3. Explicaciones posibles de coeficientes de correlación muy
bajos .................................................................................... 150
a) Poca fiabilidad, o poca precisión, en los instru-
mentos de medición ................................................... 150
b) Homogeneidad de la muestra .................................... 151
c) Instrumentos poco discriminantes ............................ 151
3.8. Los coeficientes de correlación cuando unimos o separamos sub-
muestras ............................................................................................ 151
3.9. Influjo en la correlación de las puntuaciones extremas (outliers) ... 156
4. COEFICIENTES DE CORRELACIÓN CORREGIDOS ..................................................... 158
4.1. Correlación y fiabilidad: los coeficientes de correlación corregidos
por atenuación ................................................................................ 159
4.1.1. Fórmula de corrección por atenuación ............................ 159
4.1.2. Cuándo debe hacerse esta corrección por atenuación ... 160
4.1.3. Otras estimaciones de la correlación modificando la
fiabilidad ............................................................................. 162
4.1.4. Relación entre longitud del test y fiabilidad y longitud del
test y correlación ................................................................ 163
4.2. Los coeficientes de correlación corregidos por restricción de la
amplitud ........................................................................................... 164
4.3. Corrección de las correlaciones de una parte con el todo .......... 166
5. CORRELACIONES PARCIALES ............................................................................... 168
5.1. Utilidad de las correlaciones parciales ............................................ 168
5.2. Fórmula de las correlaciones parciales de primer orden .............. 168
5.3. Cuándo una correlación parcial es estadísticamente significativa ... 170
6. CÓMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS ............. 171
ÍNDICE
11
Págs.
7. COEFICIENTES DE CORRELACIÓN MÁS IMPORTANTES ............................................. 176
1. Coeficiente de correlación r de Pearson ......................................... 177
2. Coeficiente de correlación biserial puntual ................................... 177
3. Coeficiente de correlación biserial ................................................. 178
4. Coeficiente de correlación tetracórica ............................................ 179
5. Coeficiente de correlación rho (r) de Spearman .......................... 179
6. Coeficiente de correlación tau (t) de Kendall ............................... 179
7. Coeficiente de correlación phi (f) .................................................. 179
8. Coeficiente de correlación phi (f) de Cramer ............................... 180
9. Coeficiente de Contingencia (C) ..................................................... 180
10. Coeficiente eta (h) ........................................................................... 180
8. COEFICIENTE DE CORRELACIÓN: RESUMEN .......................................................... 180
Anexo I: Tablas de la correlación ............................................................... 183
Anexo II: La correlación en Internet ......................................................... 184
CAPÍTULO 6. LA FIABILIDAD DE LOS TESTS Y ESCALAS ............................ 187
1. CONCEPTOS PRELIMINARES BÁSICOS .................................................................... 187
1.1. Equivocidad del concepto de fiabilidad ......................................... 187
1.2. Fiabilidad y precisión de la medida ................................................. 188
1.3. Fiabilidad y margen de error en al medida .................................... 188
1.4. Fiabilidad y predictibilidad .............................................................. 188
1.5. Fiabilidad y validez ........................................................................... 189
1.6. Fiabilidad y validez: errores sistemáticos y errores aleatorios ...... 189
1.7. La fiabilidad no es una característica de los instrumentos ............ 190
1.8. Fiabilidad y diferencias: teoría clásica de la fiabilidad .................... 191
2. ENFOQUES Y MÉTODOS EN EL CÁLCULO DE LA FIABILIDAD .................................... 191
2.1. Método: Test-retest .......................................................................... 191
2.2. Método: Pruebas paralelas ............................................................... 192
2.3. Método: Coeficientes de consistencia interna ............................... 193
3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FÓRMULA BÁSICA DE
LA FIABILIDAD ................................................................................................. 193
4. REQUISITOS PARA UNA FIABILIDAD ALTA .............................................................. 196
5. LAS FÓRMULAS KUDER -RICHARDSON 20 Y a DE CRONBACH ............................... 201
6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD ........... 203
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
12
Págs.
7. INTERPRETACIÓN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ....................... 204
8. CUÁNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO .................... 207
9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD .................................................. 208
9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretación unidi-
mensional del rasgo medido .......................................................... 209
9.1.1. Una fiabilidad alta no es prueba inequívoca de que todos
los ítems miden lo mismo: necesidad de controles con-
ceptuales ............................................................................. 211
9.1.2. Fiabilidad y número de ítems ............................................ 212
9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido .. 213
9.2. El error típico de la medida ............................................................. 213
9.2.1. Concepto y fórmula del error típico ................................. 214
9.2.2. Las puntuaciones verdaderas ........................................... 216
9.2.3. Los intervalos de confianza de las puntuaciones indi-
viduales .............................................................................. 217
9.3. Los coeficientes de correlación corregidos por atenuación ......... 218
10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO ..................................... 219
10.1. Inadecuada formulación de los ítems ............................................. 219
10.2. Homogeneidad de la muestra ......................................................... 219
10.3. Definición compleja del rasgo medido ........................................... 220
10.4. Utilidad del error típico cuando la fiabilidad es baja ..................... 220
11. LA FIABILIDAD EN EXÁMENES Y PRUEBAS ESCOLARES ............................................ 221
11.1. Fiabilidad y validez ........................................................................... 221
11.2. Fiabilidad y diferencias entre los sujetos ........................................ 222
11.3. Fiabilidad y calificación .................................................................... 223
12. FÓRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ................................ 224
12.1. Fórmulas basadas en la partición del test en dos mitades ............ 224
12.1.1. Cómo dividir un test en dos mitades ................................ 224
12.1.2. Fórmulas ............................................................................. 225
12.2. Fórmulas de Kuder-Richardson y a de Cronbach .......................... 226
12.3. Fórmulas que ponen en relación la fiabilidad y el número de
ítems .................................................................................................. 228
ÍNDICE
13
Págs.
12.3.1. Cuánto aumenta la fiabilidad al aumentar el número de
ítems .................................................................................... 229
12.3.2. En cuánto debemos aumentar el número de ítems para
alcanzar una determinada fiabilidad ................................. 229
12.4. Estimación de la fiabilidad en una nueva muestra cuya varianza
conocemos a partir de la varianza y fiabilidad calculadas en otra
muestra ............................................................................................. 230
13. RESUMEN: CONCEPTO BÁSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA ... 231
14. COMENTARIOS BIBLIOGRÁFICOS ........................................................................ 233
CAPÍTULO 7. ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA
MEDIA ............................................................................................................... 237
1. INTRODUCCIÓN: ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL: ESTADÍSTICOS
Y PARÁMETROS, POBLACIONES Y MUESTRAS ........................................................... 237
2. LAS DISTRIBUCIONES MUESTRALES Y EL ERROR TÍPICO .......................................... 238
3. EL ERROR TÍPICO DE LA MEDIA .......................................................................... 240
4. UTILIDAD DEL ERROR TÍPICO DE LA MEDIA .......................................................... 241
4.1. Establecer entre qué limites (intervalos de confianza) se encuen-
tra la media (m) de la población (establecer parámetros poblacio-
nales) ................................................................................................. 242
4.2. Establecer los intervalos de confianza de una proporción ........... 245
4.3. Comparar la media de una muestra con la media de una po-
blación ............................................................................................... 247
4.4. Calcular el tamaño N de la muestra para extrapolar los resultados
a la población .................................................................................... 249
Anexo: Los intervalos de confianza de la media y de las proporciones en
Internet ............................................................................................................. 251
CAPÍTULO 8. EL CONTRASTE DE MEDIAS .................................................... 253
1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS
GRUPOS .......................................................................................................... 253
2. A QUÉ PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS ..................... 254
3. EL MODELO TEÓRICO DEL CONTRASTE DE MEDIAS: LA DISTRIBUCIÓN MUESTRAL DE
DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIÓN .................... 256
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
14
Págs.
4. CÓMO COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIÓN DE
DIFERENCIAS CUYA DIFERENCIA MEDIA ES CERO ................................................... 259
4.1. Modelo y fórmula básica .................................................................. 259
4.2. Hipótesis Nula e Hipótesis Alterna ................................................. 261
1º Qué son las Hipótesis Nula y Alterna ..................................... 261
2º Por qué distinguimos entre estos dos tipos de hipótesis
(nula y alterna) ....................................................................... 262
4.3. Contrastes unilaterales y bilaterales ................................................ 264
4.4. Esquema-resumen del proceso de verificación de hipótesis ........ 266
4.5. Interpretación del significado de aceptar o no aceptar la hipótesis
nula: tipos de errores ....................................................................... 267
4.5.1. Cuando no aceptamos la Hipótesis Nula ......................... 267
4.5.2. Cuando aceptamos la Hipótesis Nula ............................... 268
4.5.3. Tipos de errores ................................................................. 269
4.6. Observaciones sobre el contraste de medias: limitaciones y re-
quisitos previos ................................................................................ 271
4.6.1. Presupuestos teóricos para poder utilizar el contraste de
medias ................................................................................. 271
4.6.2. ¿Es suficiente verificar si una diferencia es estadísticamente
significativa? ........................................................................ 272
4.6.3. Cuando tenemos más de dos muestras en el mismo plan-
teamiento: análisis de varianza .......................................... 272
4.7. Fórmulas del contraste de medias .................................................. 273
4.7.1. Diferencia entre la media de una muestra y la media de
una población ..................................................................... 274
4.7.2. Diferencia entre dos medias de muestras independientes
(sujetos físicamente distintos) .......................................... 275
1º Muestras grandes y de distinto tamaño ..................... 275
2º Muestras pequeñas y de distinto tamaño .................. 276
3º Diferencia entre dos medias de muestras independien-
tes (grandes o pequeñas) y de idéntico tamaño ..... 276
4.7.3. Diferencia entre dos medias de muestras relacionadas
(comprobación de un cambio) ........................................ 277
4.8. Variables que influyen en el valor de t (z, Razón Crítica) .............. 278
5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES) .......................... 281
6. ANÁLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CÓMO CUANTIFICAR LA
MAGNITUD DE LA DIFERENCIA ............................................................................ 282
ÍNDICE
15
Págs.
6.1. Finalidad del tamaño del efecto ...................................................... 282
6.2. Procedimientos en el cálculo del tamaño del efecto ..................... 283
6.2.1. El coeficiente de correlación biserial puntual ................ 283
6.2.2. Tamaño del efecto (diferencia tipificada): ..................... 286
6.2.2.1. Concepto y fórmula general ............................... 286
6.2.2.2. Interpretación del tamaño del efecto (diferencia
tipificada) ............................................................ 287
1º Comparación de diferencias que provienen
de medidas obtenidas con instrumentos
distintos ......................................................... 287
2º Síntesis cuantitativas de resultados que
provienen de estudios distintos .................. 287
3º Valoración de la relevancia y significación
práctica de las diferencias ........................... 288
4º El tamaño del efecto cuando la diferencia
no es estadísticamente significativa ............. 291
5º Tamaño del efecto y tamaño de la muestra .. 292
6.2.2.3. Fórmulas del tamaño del efecto: desviación
típica del denominador ....................................... 294
1º Dos muestras independientes ..................... 294
2º Dos muestras relacionadas (diferencia entre el
pre-test y el post-test de la misma muestra) ... 298
3º Diferencia entre las medias de un grupo
experimental y otro de control (diseño
experimental) sin pre-test ............................ 298
4º Grupos experimental y de control cuando
los dos han tenido pre y post-test ............... 299
6.3. Transformaciones de unos valores en otros ................................... 299
6.4. Utilidad del tamaño del efecto: resumen ....................................... 301
ANEXO 1: Modelo del contraste de medias, resumen ..................................... 302
ANEXO 2: Conceptos básicos de estadística inferencial .................................. 304
ANEXO 3: Tablas de la t de Student ................................................................... 306
Anexo 4: El contraste de medias en Internet ................................................. 307
CAPÍTULO 9. ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI
CUADRADO (c2
) LA DISTRIBUCIÓN BINOMIAL, EL CONTRASTE DE
PROPORCIONES .............................................................................................. 309
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
16
Págs.
1. PLANTEAMIENTO GENERAL ................................................................................ 309
2. QUÉ COMPROBAMOS MEDIANTE EL JI CUADRADO ................................................. 312
3. FRECUENCIAS OBSERVADAS (O EMPÍRICAS) Y FRECUENCIAS TEÓRICAS (O ESPERADAS) .. 314
4. CONDICIONES PARA UTILIZAR EL JI CUADRADO ..................................................... 315
5. CÁLCULO DE LAS FRECUENCIAS TEÓRICAS ........................................................... 316
a) Cuando tenemos un solo criterio de clasificación dividido en varias
categorías ............................................................................................... 316
b) Cuando hay dos criterios de clasificación (cuadros de doble entrada) .. 317
6. GRADOS DE LIBERTAD ...................................................................................... 318
a) Cuando hay un solo criterio de clasificación ....................................... 319
b) Cuando hay dos criterios de clasificación .......................................... 319
7. FÓRMULA GENERAL DEL JI CUADRADO ................................................................. 319
8. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN
DIVIDIDO EN DOS NIVELES ................................................................................ 320
8.1. Ji cuadrado ........................................................................................ 321
8.2. Aplicación de la distribución binomial ......................................... 322
8.2.1. Cuando N  25 .................................................................. 322
8.2.2. Cuando N  25 .................................................................. 322
8.2.3. La prueba de los signos: aplicación de la distribución bi-
nomial para comprobar cambios ...................................... 324
9. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN
dividido en más de dos niveles (pruebas de bondad de ajuste) ........... 326
9.1. Cuando las frecuencias esperadas son las mismas ........................ 326
9.2. Cuando las frecuencias esperadas son las de la distribución
normal .............................................................................................. 327
10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIÓN CON DOS NIVELES CADA UNO ....... 328
10.1. Tablas 2x2 para muestras independientes ...................................... 328
10.1.1. Modelos de tablas 2x2: cómo clasificar a los sujetos ....... 328
a) Sujetos clasificados según dos grupos de pertenencia
o dos características personales ................................. 328
ÍNDICE
17
Págs.
b) Sujetos clasificados según 1º grupo de pertenencia
y 2º respuestas a una pregunta .................................. 329
c) Prueba de la mediana ................................................ 330
d) Un mismo grupo clasificado según sus respuestas
a dos ítems .................................................................. 331
10.1.2. Cómo analizar los datos ..................................................... 332
1º Ji cuadrado .................................................................. 333
a) Planteamiento y fórmulas ..................................... 333
b) Observación sobre la corrección de Yates y el
número de sujetos ................................................ 333
c) Orientaciones prácticas para tablas 2x2 ............... 334
d) Ejemplo resuelto ................................................... 335
e) Cálculo complementario: coeficiente de correla-
ción ......................................................................... 335
2º Prueba exacta de Fisher .............................................. 336
3º Contraste entre proporciones (muestras indepen-
dientes) ........................................................................ 336
10.2. Tablas 2x2 para muestras relacionadas ........................................... 337
10.2.1. Procedimientos .................................................................. 337
a) Ji cuadrado (prueba de McNemar) ............................ 337
b) Contraste entre proporciones relacionadas ............. 338
10.2.2. Aplicaciones específicas ..................................................... 338
a) Para comprobar cambios ............................................ 338
b) Para comprobar una diferencia entre proporciones
relacionadas ................................................................ 339
10.2.3. Adaptación de la prueba de McNemar (muestras relacio-
nadas) para tablas mayores (nxn) .................................... 340
11. DOS CRITERIOS DE CLASIFICACIÓN, CADA UNO DIVIDIDO EN DOS O MÁS NIVELES
(TABLAS NXN) ................................................................................................. 341
12. COEFICIENTES DE RELACIÓN ASOCIADOS AL JI CUADRADO ..................................... 344
a) Coeficiente de contingencia ........................................................... 345
b) Coeficienteo f .................................................................................. 345
c) Coeficiente f de Cramer ................................................................. 346
d) Coeficiente T de Tschuprow ............................................................ 346
13. VALORACIÓN DEL JI CUADRADO .......................................................................... 347
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
18
Págs.
ANEXO I: TABLAS DEL JI CUADRADO.......................................................................... 348
ANEXO II: JI CUADRADO Y ANÁLISIS AFINES EN INTERNET: JI CUADRADO, PRUEBA EXACTA
DE FISHER PRUEBA DE MCNEMAR, DISTRIBUCIÓN BINOMIAL, PRUEBA DE LOS SIGNOS .... 349
REFERENCIAS BIBLIOGRÁFICAS..................................................................... 351
Selección de direcciones de Internet con programas de análisis estadís-
ticos XII .................................................................................................................... 356
TABLAS DE DISTRIBUCIÓN NORMAL ........................................................... 359
ÍNDICE
19
INTRODUCCIÓN
Esta publicación está pensada para un primer curso en carreras vinculadas
al campo de la educación, de la psicología y de la intervención social, aunque
se trata de análisis estadísticos comunes a otras muchas disciplinas; de hecho
algunas de las direcciones de Internet citadas (y utilizadas con frecuencia)
son de Facultades de Medicina. No se trata por lo tanto de cubrir todo el es-
pectro temático que cabría en un texto o curso completo de metodología de
la investigación sobre todo en Psicología y Educación. En cambio, y dada la
importancia que tienen los tests e instrumentos de medición en general en la
práctica profesional de la Psicología y de la Educación, hay dos capítulos más
centrados en psicometría: uno corresponde a los tipos de puntuaciones y
confección de baremos o normas de interpretación (cap. 4), y otro a la fiabi-
lidad (cap. 6). El capítulo sobre la fiabilidad de tests y escalas viene a continua-
ción del dedicado a la correlación (cap. 5) dada la proximidad conceptual y
metodológica entre ambos temas.
Los métodos de análisis estadístico y verificación de hipótesis tratados son
básicamente tres: los coeficientes de correlación (cap. 5), el contraste de me-
dias (cap. 8) y el ji cuadrado y métodos afines (cap. 9); con estos análisis se
pueden abordar ya muchas preguntas de investigación. Al tratar sobre el con-
traste de medias damos especial importancia (y extensión) al denominado ta-
maño del efecto para cuantificar de manera más fácilmente interpretable la
diferencia entre dos medias; se trata de un punto importante (y sencillo) que
no lo vemos tratado en muchos textos.
Si la selección de contenidos es limitada y orientada a un curso básico, el
tratamiento dado a algunos temas puede parecer excesivamente amplio para
un primer curso. Como profesor nunca he pretendido que mis alumnos su-
pieran todo lo que en un principio fueron apuntes de clase, pero sí que pu-
dieran disponer de un texto de referencia para aclarar dudas, poder justificar
21
si llega el caso algunas fórmulas y procedimientos de uso común, ampliar al-
gún punto de especial interés, ver qué más se puede hacer con unos datos o
resultados de unos análisis, y quizás sobre todo contar con una ayuda tanto
para escoger un procedimiento adecuado de análisis como para interpretar
correctamente lo que con el paso del tiempo se va olvidando. Con esta finali-
dad hay apartados referidos directamente a la interpretación de determina-
dos resultados estadísticos; además abundan en algunos capítulos notas a pie
de página y se van citando autores que puede venir bien consultar en un mo-
mento dado, incluso para disponer de justificaciones y fuentes de autoridad a
las que poder acudir en algunos puntos controvertidos o que simplemente
pueden no estar tan claros. La terminología y estilo se apartan con frecuencia
del lenguaje convencional de corte más académico o se utilizan simultánea-
mente expresiones equivalentes más informales.
No hay en esta publicación una distinción nítida entre estadística descrip-
tiva y estadística inferencial aunque la estadística inferencial se trata de mane-
ra más formal a partir del capítulo dedicado a los intervalos de confianza de la
media (cap. 7). Los conceptos básicos se van repitiendo en diversos contex-
tos sin dar por hecho que en cada momento se recuerda y entiende todo lo
visto en los capítulos precedentes. Al tratar de la correlación ya se introduce
la significación estadística de estos coeficientes, para no presentar por separa-
do lo que lógicamente va unido cuando se hace un análisis de este tipo o
cuando posteriormente es necesario repasarlo.
En varios capítulos hay un anexo dedicado a programas de análisis estadís-
ticos de diverso tipo localizables en Internet y al final un listado de direccio-
nes con más recursos. Se trata en cada caso de una breve selección porque
estos programas son muy abundantes. Aunque hojas de cálculo como EXCEL
son ya un recurso común y programas informáticos como el SPSS están fácil-
mente disponibles (tampoco siempre y en todas las situaciones), son muchas
las instituciones, departamentos de Universidades y otras de diverso carácter,
que tienen en Internet programas de uso muy sencillo y que además pueden
ser muy útiles en la misma clase con una finalidad meramente didáctica. Para
muchos análisis los programas de Internet pueden ser la opción de cálculo
más cómoda. Estos programas suelen estar pensados para alumnos que traba-
jan en su casa o para profesionales no expertos; no suplen la versatilidad del
SPSS pero son indudablemente útiles. Como las fuentes de Internet son con
frecuencia inestables, procuramos dar más de una dirección para cada tipo de
análisis; además a partir de las direcciones reseñadas es fácil buscar otras.
El índice general está hecho pretendidamente de manera muy detallada, con
muchos apartados y subapartados, para que de alguna manera cumpla la fun-
ción de un índice de materias y se pueda localizar con facilidad lo que interese.
PEDRO MORALES VALLEJO
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
22
CAPÍTULO 1
ORGANIZACIÓN DE LOS DATOS Y
REPRESENTACIONES GRÁFICAS
1. ORGANIZACIÓN DE LOS DATOS
Organizar los datos, e incluso hacer alguna representación gráfica como
las que iremos viendo, es muy importante porque:
a) Nos hacemos una idea preliminar de la situación, nos da una visión de
conjunto muy útil,
b) Se facilitan cálculos posteriores, y, aunque los hagamos con un progra-
ma informático, una buena sistematización de los datos puede sugerir-
nos posibles cálculos y análisis;
c) Se facilita la presentación y comunicación de todo tipo de resultados.
Tanto la distribución de frecuencias (cuántos sujetos han obtenido cada
puntuación) como las representaciones gráficas que vamos a exponer (y mu-
chas otras) las tenemos ya programadas en programas de ordenador y hojas
de cálculo, pero aun así conviene saber cómo se hacen por varias razones:
a) No siempre tenemos todos los datos individuales introducidos en un
ordenador o en una hoja de cálculo;
b) A veces partimos de una distribución de frecuencias ya hecha previa-
mente (o que encontramos publicada);
c) En cualquier caso es útil ver paso a paso y entender cómo se hacen es-
tas distribuciones de frecuencias y representaciones gráficas.
23
1.1. La distribución de frecuencias
El primer paso es siempre organizar la distribución de frecuencias. La
frecuencia es el número de casos o sujetos que ha obtenido cada puntua-
ción. Para hacer esta distribución ponemos en dos columnas la puntuación
directa (X) y la frecuencia (f) o número de casos. En el ejemplo de la tabla 1
tenemos la distribución de frecuencias de 40 sujetos que han respondido a
una escala de actitudes1
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
24
1
Intuitivamente parece más natural comenzar por arriba con la puntación o interva-
lo mayor; en los programas informáticos (EXCEL, SPSS) se comienza por defecto con la
puntuación más baja.
X f
77 | 1
76 0
75 | 1
74 | 1
73 || 2
72 | 1
71 0
70 || 2
69 0
68 || 2
67 0
66 0
65 ||| 3
64 || 2
63 ||| 3
62 || 2
61 | 1
60 | 1
59 || 2
58 0
X f
57 | 1
56 ||| 3
55 || 2
54 | 1
53 | 1
52 | 1
51 0
50 0
49 | 1
48 || 2
47 0
46 | 1
45 0
44 0
43 0
42 | 1
41 0
40 0
39 | 1
38 | 1
El número de intervalos se calcula por tanteo. El primer paso es calcular
el recorrido o amplitud que es igual a la puntuación más alta menos la
puntuación más baja más uno.
Tabla 1.
1.2. Agrupación en intervalos
Cuando las posibles puntuaciones son muchas, podemos agruparlas en
intervalos para simplificar su presentación e interpretación. Los datos de la
tabla 1 están sin agrupar. Podemos agruparlas de dos en dos, de tres en tres,
etc. Cada agrupación se denomina un intervalo.
1.3. Número de intervalos
El criterio general es que no haya menos de 10 intervalos o agrupaciones,
porque con menos de 10 intervalos se pierde mucha información; además al-
gunos cálculos posteriores se hacen tomando como dato el punto medio del
intervalo y resultan muy inexactos si los intervalos son muy pocos. Tampoco
es aconsejable que haya más de 20 intervalos, porque se matiza más de lo que
con frecuencia es necesario y los gráficos resultantes pueden quedar poco
claros, sin resumir bien la información.
Sumamos una unidad a la diferencia entre las puntuaciones más alta y más
baja porque el recorrido o amplitud se calcula a partir de los límites extre-
mos; por esto sumamos .5 a la puntuación más alta y restamos .5 a la puntua-
ción más baja: suponemos que la puntua-
ción mayor no es en este caso 77, sino
77.5, y que la más baja no es 38, sino 37.5
(sobre la amplitud o recorrido tratare-
mos en el contexto de las medidas de dis-
persión).
En los datos de la tabla 1 la amplitud
es 77.5 - 37.5 (ó 77 - 38 + 1) = 40. Tene-
mos en principio 40 intervalos, que son
demasiados. Si agrupamos las puntua-
ciones de dos en dos tendríamos 20 in-
tervalos, también demasiados quizás en
este caso, con sólo 40 sujetos; si las
agrupamos de tres en tres tenemos 14
intervalos, que es lo que hemos hecho
en la agrupación que figura en la tabla 2.
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
25
Tabla 2.
X f
75-77 || 2
72-74 |||| 4
69-71 || 2
66-68 || 2
63-65 |||||||| 8
60-62 |||| 4
57-59 ||| 3
54-56 |||||| 6
51-53 || 2
48-50 ||| 3
45-47 | 1
42-44 | 1
39-41 | 1
36-38 | 1
1.4. Valor del intervalo
El valor del intervalo (simbolizado por la letra i) es el número de puntua-
ciones que entran en cada intervalo (y que no hay que confundir con el nú-
mero de intervalos).
En la tabla 1, el valor del intervalo es i = 1 (datos sin agrupar); en los datos
de la tabla 2 en cada intervalo hay tres puntuaciones, por lo que i = 3. El va-
lor del intervalo se debe indicar siempre (como información y también por-
que entra en algunos cálculos, como el de los percentiles por interpolación,
como se verá en su lugar).
Es más cómodo que el valor del intervalo (i) sea un número impar, porque
de esta manera el punto central del intervalo será un número entero, sin deci-
males. Esto resulta más cómodo porque el punto central del intervalo se utiliza
en operaciones hechas a partir de datos agrupados. De hecho no puede hablar-
se de ninguna norma o regla; los valores de i más frecuentes son 2, 3, 5, 10 y 20.
Por otra parte el hacer cálculos (como la media y otros) a partir de puntua-
ciones agrupadas y utilizando el punto medio del intervalo está menos justifi-
cado dada la facilidad de cálculo que nos dan las calculadoras programadas y
los programas de ordenador. Estos cálculos pueden hacerse siempre a partir
de las puntuaciones sin agrupar.
1.5. Cómo comenzar la agrupación en intervalos
Para comenzar la agrupación suele empezarse por las puntuaciones más
bajas, las correspondientes al intervalo inferior. No se suele comenzar a partir
de la puntuación más baja de hecho, sino por la inmediatamente inferior que
sea múltiplo del valor del intervalo (i). Esta norma (que la puntuación más ba-
ja sea múltiplo del intervalo) responde a lo que suele proponerse y hacerse;
se trata de una convención que no se sigue siempre.
En nuestro ejemplo (tabla 1) la puntuación más baja es 38, que no es múl-
tiplo de 3 (en este caso i = 3, tabla 2), y tampoco lo es 37; por eso comenza-
mos a partir de 36, que sí es múltiplo de 3 (36/3 = 12, número entero).
El último intervalo, el superior, se completa hasta incluir tres puntuacio-
nes (pues 3 es el valor de i en este caso). Como la puntuación más alta es 77,
no ha habido que añadir puntuaciones que de hecho nadie ha obtenido.
2. REPRESENTACIONES GRÁFICAS
A partir de la distribución de frecuencias podemos hacer diversos tipos de re-
presentaciones gráficas. Estas representaciones gráficas son especialmente útiles:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
26
a) Para disponer de una visión de conjunto que sin más cálculos nos per-
mite hacernos una idea de la situación, comparar de manera intuitiva
varios grupos, etc.
b) Para comunicar resultados de manera intuitiva y fácilmente compren-
sible.
La mera distribución de frecuencias ya puede cumplir con estos propósi-
tos, pero los distintos tipos de gráficos son una ayuda importante.
Aquí nos limitamos a exponer tres de los tipos de representaciones gráfi-
cas más comunes, polígonos de frecuencias, histogramas y diagrama de ca-
jas. Estas y otras representaciones gráficas también se encuentran ya progra-
madas en hojas de cálculo como EXCEL.
2.1. Polígono de frecuencias
Es una representación gráfica sencilla y clara; en la figura I tenemos el
polígono de frecuencias hecho a partir de las frecuencias agrupadas de la
tabla 2
Eje vertical (Y, o eje de las ordenadas): corresponde a las frecuen-
cias o número de casos;
Eje horizontal (X, o eje de las abscisas): corresponde a las puntua-
ciones.
Para mayor claridad en la presentación del gráfico, el eje horizontal suele
ser un 50% más largo que el eje vertical; si el eje Y (vertical) mide 10, el eje X
(horizontal) medirá 15 aproximadamente.
Pasos que seguimos para construir un polígono de frecuencias:
1º En el eje de las abscisas (horizontal) se señalan los puntos inferiores
de cada intervalo, añadiendo un intervalo más en cada extremo para
mayor claridad.
En la figura I el primer punto señalado es el 33: es el punto inferior del
intervalo añadido al comienzo (intervalo 33-35), con una frecuencia de
0. En el extremo superior la última puntuación señalada es 78, ya que
es el límite inferior del intervalo siguiente (78-80), también con fre-
cuencia 0.
Añadiendo dos intervalos extremos con frecuencia 0 se consigue que el
polígono llegue hasta la línea horizontal de las abscisas; la figura queda
cerrada y clara; ésta es la razón por la que se añade un intervalo más
en cada extremo.
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
27
2º Sobre el punto medio de cada intervalo señalamos la frecuencia, a la al-
tura que corresponda del eje vertical de las ordenadas (que represen-
ta las frecuencias). Si unimos los puntos con líneas rectas, tenemos un
polígono de frecuencias, si los unimos con un trazo curvo, tendremos
una curva.
En la tabla 3 y figura II hemos reducido el número de intervalos, agru-
pando las puntuaciones de 5 en 5 (i = 5). En este caso el intervalo más
bajo comienza con 35 (múltiplo de 5). Nos quedan 9 intervalos.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
28
7
6
5
4
3
2
1
0
33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78
X
Y
Figura I
X X X X
X
X
X
X
X
X
X X
X
X
i = 5
X f
75-79 || 2
70-74 |||||| 6
65-69 ||||| 5
60-64 ||||||||| 9
X f
55-59 |||||||| 8
50-54 ||| 3
45-49 |||| 4
40-44 | 1
35-39 || 2
Tabla 3
Fig. I
POLÍGONO DE FRECUENCIAS
Al reducir el número de intervalos el polígono queda simplificado y tiene
menos picos; la figura queda suavizada y tenderá a parecerse más a la distri-
bución normal.
Es importante caer en la cuenta de que a menor número de intervalos se
pierde información aunque se puede ganar en claridad.
En la figura I hay dos picos centrales que sugieren una distribución bimo-
dal; y que han quedado reducidos a uno solo en la figura II. La figura queda
más clara y suavizada. El hacer esto o no hacerlo (reducir el número de inter-
valos, simplificar la información) dependerá del tipo de información que se
quiere dar. Para dar una impresión gráfica general, y sin pretender mucho ma-
tiz, es preferible en principio reducir el número de intervalos.
2.2. Polígono de frecuencias relativas
Los polígonos de frecuencias son especialmente útiles para comparar
gráficamente dos o más grupos. Los polígonos se superponen en el mismo
gráfico y queda una representación clara de los grupos.
Cuando los grupos son de distinto tamaño, el incluir más de un polígono de
frecuencias en el mismo gráfico se presta a confusión. En este caso, para compa-
rar gráficamente dos o más grupos, lo correcto no es utilizar frecuencias absolu-
tas (el simple número de sujetos que hay en cada intervalo) sino frecuencias re-
lativas: el tanto por ciento de sujetos que hay en cada intervalo. Estos tantos por
ciento son las frecuencias relativas. El cálculo de las frecuencias relativas es muy
sencillo: el número de sujetos (o frecuencia, f) de cada intervalo se divide por el
número total de sujetos (N) y se multiplica por cien:
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
29
Fig. II
30
Figura II
9
8
7
6
5
4
3
2
1
0
35 40 45 50 55 60 65 70 75 80 85
X
X
X
X
X
X
X
X
X
X
X
100f
frecuencias relativas (%) = ––––
N
En la tabla 4 y figura III tenemos un ejemplo de dos polígonos de frecuen-
cias relativas de dos grupos con distinto número de sujetos.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
30
X
i = 6
75-79
69-74
63-68
57-62
51-56
45-50
39-44
grupo A
f %
1 7
2 13
4 27
5 33
3 20
N = 15
grupo B
f %
1 5
6 30
5 25
2 10
4 20
2 10
N = 20
Grupo A
40%
35%
30%
25%
20%
15%
10%
5%
0%
Punto medio de cada intervalo
35.5 42.5 47.5 53.5 59.5 65.5 71.5 77.5 82.5
Figura III.
POLÍGONOS DE FRECUENCIAS RELATIVAS DE DOS GRUPOS CON DISTINTO NÚMERO DE SUJETOS
Tabla 4
El utilizar frecuencia relativas (tanto por ciento de sujetos en cada intervalo)
permite hacer gráficos comparativos cuando los grupos tienen un número dis-
tinto de sujetos (comparamos tantos por ciento, no números absolutos).
2.3. Histograma
Otra representación gráfica sencilla y de frecuente uso es el histograma. En
el histograma cada intervalo de frecuencias está representado por una barra.
Cómo hacer un histograma puede verse fácilmente en la figura IV
, donde
aparece un histograma hecho a partir de los mismos datos de la tabla 3.
En el eje de las abscisas (la base horizontal) se señalan los valores
inferiores de cada intervalo.
En el eje de ordenadas (eje vertical) se señalan las frecuencias o
número de casos.
En el histograma de la figura IV se ha superpuesto un polígono de fre-
cuencias para facilitar la comparación y ver las diferencias entre el histograma
y el polígono de frecuencias.
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
31
Figura IV
7
6
5
4
3
2
1
0
30 35 40 45 50 55 60 65 70 75 80 85
8
9
Figura IV
HISTOGRAMA CON POLÍGONO DE FRECUENCIAS SUPERPUESTO
2.4. Diagrama de cajas
Para construir un diagrama de cajas se toman como referencia las puntua-
ciones que dividen al grupo en cuatro partes iguales en número de sujetos;
un 25 % en cada parte. En la figura V tenemos las puntuaciones de corte pa-
ra dividir al grupo.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
32
Puntuación más alta
Percentil 25 (Q1)
Puntuación más baja
Mediana (Percentil 50)
Percentil 75 (Q3)
25%
25%
25%
25%
Figura V
La figura V no es un diagrama de cajas, simplemente nos dice qué puntua-
ciones debemos calcular para hacer el diagrama. La mediana (o percentil 50)
divide al grupo en dos mitades con idéntico número de sujetos, entre el per-
centil 75 (o cuartil 3, Q3) y la puntuación más alta tenemos un 25 % de suje-
tos y entre el percentil 25 (o cuartil 2, Q2) y la puntuación más baja tenemos
otro 25 %. Los percentiles y su cálculo se entenderán mejor al ver los distintos
tipos de puntuaciones, pero el concepto de percentil (tanto por ciento de su-
jetos que caen debajo de una puntuación) se capta con facilidad.
En los diagramas de cajas se visualiza el espacio que ocupa cada 25% del
grupo en términos de puntuaciones directas (columna de la izquierda).
Estos diagramas de cajas son especialmente útiles para hacer una compa-
ración visual en dos tipos de situaciones:
a) Cuando tenemos dos o más grupos medidos en la misma variable; éste
es probablemente el caso más frecuente.
En la figura VI tenemos el gráfico que corresponde a tres grupos de
alumnos universitarios (Psicología, N = 65; Derecho, N = 65; Ingenie-
ría N = 69) medidos con una escala de autoeficacia académica. La lí-
nea que divide el recuadro corresponde a la mediana. De un golpe de
vista vemos dónde están las puntuaciones más altas y más bajas y ence-
rrado en un recuadro dónde se sitúa el 50% central del grupo (entre
los percentiles 75 y 25). La línea doble dentro del recuadro indica dón-
de está la mediana, que divide al grupo en dos mitades iguales.
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
33
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
Puntaje
más alto
Percentil
75
Mediana
Percentil
25
Puntaje
más bajo
Ing.
Derch.
Psic.
25%
50%
25%
Figura VI
b) Cuando tenemos un mismo grupo medido en varias variables, como
sucede en el ejemplo de la figura VII. Cada variable está medida por un
idéntico número de ítems, por lo que son comparables las puntuacio-
nes absolutas de cada subescala.
En la figura VII tenemos el gráfico correspondiente a un único grupo
de 283 sujetos que han respondido a un sencillo test que mide cinco
variables propias del Análisis Transaccional. Cada variable está medi-
da por ocho ítems con respuestas de 1 (nada) a 6 (mucho), por lo que
las puntuaciones máxima y mínima posibles son 48 y 8.
De un golpe de vista vemos que en Padre Nutricio el 50% central está con-
centrado en unas pocas puntuaciones (aproximadamente entre 35 y 40) y
que son además las más altas en términos comparativos. Vemos también que
el límite inferior del 50% central en Adulto coincide con el límite superior del
50% central en Padre Punitivo (entre 28 y 29), etc.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
34
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
Puntaje
más alto
Percentil
75
Mediana
Percentil
25
Puntaje
más bajo
Ing.
Derch.
Psic.
25%
50%
25%
Figura VII
CAPÍTULO 2
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA
CENTRAL Y DE DISPERSIÓN
1. MEDIDAS DE TENDENCIA CENTRAL
1.1. La media aritmética
Todos estamos familiarizados con la media aritmética como valor repre-
sentativo de un conjunto de puntuaciones; con frecuencia describimos un
grupo de manera sintética diciendo cuál es su media; si estamos hablando de
una clase no es lo mismo decir esta clase tiene una media de 7, que decir en
esta clase la media es 5…
La fórmula de la media no necesita demostración porque expresa el mis-
mo concepto de media: cuánto correspondería a cada sujeto (u objeto) si to-
dos tuvieran el mismo valor: sumamos todos los valores y dividimos esta su-
ma por el número de sujetos.
兺X
Media aritmética: X= –––– [1]
N
El símbolo habitual de la media es el mismo utilizado en las puntuaciones
directas (generalmente una X mayúscula) con una raya horizontal encima
(pero también se utilizan otros símbolos como la letra M).
De la media podemos enunciar dos propiedades que también nos podrían
servir para definirla.
a) Si a cada sujeto le calculamos su diferencia con respecto a la media (X-
X), la suma de estas diferencias es igual a cero: la suma de las diferen-
cias positivas es igual a la suma de las diferencias negativas.
35
b) Si estas diferencias con respecto a la media las elevamos al cuadrado (y
todas serán positivas) y las sumamos, esta suma será menor que la su-
ma de las diferencias, también elevadas al cuadrado, con respecto a
cualquier otro valor distinto de la media.
Esta propiedad de la media nos permite definirla como el valor central
que hace que la suma de los cuadrados de las desviaciones con respecto a
este valor sea el mínimo posible. El método de localizar la media buscando el
valor mínimo de la suma de cuadrados (de las diferencias con respecto a la
media elevadas al cuadrado) recibe el nombre de método de los cuadrados
mínimos; no tiene especial importancia ahora, pero sí lo tiene en otras apli-
caciones de la estadística (como en la recta de regresión) y es útil estar ya fa-
miliarizados con este término.
1.2. La mediana
La mediana es el valor que divide las frecuencias en dos mitades iguales:
por encima de la mediana y por debajo de la mediana encontramos el mismo
número de sujetos.
La mediana es otro valor de tendencia central muy útil. La mediana pode-
mos buscarla, al menos de manera aproximada, por simple inspección de los
datos en una distribución de frecuencias; el cálculo preciso lo veremos en el
contexto de los percentiles (la mediana corresponde al percentil 50: el valor
que deja por debajo a la mitad de la muestra).
1.3. La moda
La moda es simplemente la puntuación que tiene una mayor frecuencia
(donde encontramos un mayor número de casos).
Como medida de tendencia central es muy poco rigurosa. Además podemos
encontrarnos con que puede haber más de una puntuación con idéntico núme-
ro de casos, o al menos dos o más puntuaciones con una frecuencia que supe-
ran notablemente al resto de los valores de la distribución (y por eso hablamos
de distribuciones bimodales, o plurimodales; si dibujamos la curva o un polí-
gono de frecuencias, nos encontraremos con dos o más picos pronunciados).
1.4. Comparación de las medidas de tendencia central
Los conceptos de media, mediana y moda son sencillos; lo que más nos
interesa ahora es apreciar sus diferencias y características; sobre todo nos in-
teresa comparar la media y la mediana.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
36
1. Cuando la distribución no es normal (no es simétrica) y hay más sujetos
por encima o por debajo de la media, la mediana es arrastrada hacia la zona de
la distribución donde hay un mayor número de sujetos (ejemplos en la tabla 1).
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
37
M
Mo
od
da
a = 2 (puntuación con mayor número de casos M
Mo
od
da
a = 7
M
Me
ed
di
ia
a = 4.5 M
Me
ed
di
ia
an
na
a = 5.5
M
Me
ed
di
ia
an
na
a = 2.5 (idéntico número de
sujetos por encima y por debajo
M
Me
ed
di
ia
a = 3.42
Cuando la mediana es distinta de la media (la distribución no es simétrica,
está sesgada hacia un lado de la distribución), el valor de la mediana nos indi-
ca el sesgo de la distribución: si la mediana es mayor que la media, hay más su-
jetos en la parta alta de la distribución, y si la mediana es menor que la media,
hay más sujetos en la parte baja de la distribución. Precisamente en esta dife-
rencia entre la media y la mediana se basan algunas medidas de asimetría de
la distribución.
2. La mediana no se ve afectada por las puntuaciones extremas de la
distribución.
Esta característica de la mediana es la que hay que tener en cuenta para va-
lorar cuándo nos puede interesar más la mediana que la media (o además de
la media) como medida de tendencia central.
Lo vemos fácilmente en estos dos ejemplos ficticios (tabla 2):
Cuando hay más sujetos por debajo de la media que por
encima (como en este ejemplo, 8 por debajo y 4 por
encima) la mediana es menor que la media
1 2
2 3
3 4
4 5
5 6
6 7
7
Cuando hay menos sujetos por debajo de la media que
por encima (como en este ejemplo, 5 por debajo y 7 por
encima) la mediana es mayor que la media
1 2
2 3
3 4
4 5
5 6
6 7
7
Tabla 1
Tabla 2
Caso 1º
6 |||||||||| (10)
5 ||||| (5)
4 ||||| (5)
3
2
1
La mediana es 5,5; es la
puntuación que divide a
la nuestra en dos
mitades iguales (10
sujetos por encima y 10
sujetos por debajo); la
media es 5.25
Caso 2º
6 |||||||||| (10)
5 ||||| (5)
4
3
2
1 ||||| (5)
La mediana sigue
siendo 5,5 (10 sujetos
por encima y 10 sujetos
por debajo), aunque la
media baja a 4,5
Nos interesará utilizar la mediana cuando creamos que los sujetos con
puntuaciones extremas desvirtúan la media en cuanto medida representa-
tiva de dónde está un grupo; las puntuaciones muy extremas (y que pue-
den ser atípicas) influyen en la media (en el cálculo de la media entran to-
das las puntuaciones), pero no en la mediana. Éste puede ser el caso de los
ítems de evaluación del profesorado; un pequeño número de alumnos po-
co representativos puede sesgar la media en una dirección (positiva o nega-
tiva) que no refleja el sentir o la opinión claramente mayoritaria de un gru-
po. En cualquier caso siempre es posible aportar ambos datos, la media y la
mediana.
La moda (en los dos casos de la tabla 2 corresponde a la puntuación 6)
tampoco se ve afectada por puntuaciones muy extremas, pero la alternativa
de interés a la media suele ser la mediana, no la moda.
En general nos interesará la mediana en vez de la media cuando los datos
sean claramente ordinales y siempre que interese no tener en cuenta puntua-
ciones muy extremas. La mediana es el valor utilizado en algunos análisis es-
pecíficos1
.
3. La media se presta a muchos más análisis estadísticos de interés.
Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre
las otras medidas de tendencia central, y es la que utilizaremos rutinaria-
mente; además en el cálculo de la media se utiliza toda la información
disponible.
Esta razón tiene más peso en estadística inferencial, cuando pretende-
mos inferir la media de una población (al menos ver entre qué limites proba-
bles se encuentra) a partir de los datos de una muestra; con este plantea-
miento (y en otros semejantes) solemos utilizar la media; con un propósito
meramente descriptivo utilizaremos la medida que más nos convenga (o más
de una).
4. En la distribución normal coinciden los valores de la media, la me-
diana y la moda.
En los ejemplos puestos hasta ahora, la media, la mediana y la moda tie-
nen valores distintos; cuando la distribución es normal (simétrica, acampa-
nada) los tres valores de tendencia central son idénticos: la media es también
el valor con un mayor número de sujetos y divide a la muestra en dos mitades
iguales, como podemos ver en la distribución de frecuencias de la tabla 3
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
38
1
La mediana se utiliza en el análisis de ítems en las escalas de Thurstone y para de-
terminar las puntuaciones de corte (apto/no apto) cuando varios jueces examinan los
ítems de una prueba objetiva (métodos de Angoff y Nedelsky); en ambos casos se preten-
de prescindir de los juicios extremos; son temas que no tratamos aquí pero que ejemplifi-
can la utilidad de la mediana.
Como veremos a continuación, cada medida de tendencia central se utiliza
junto con otra medida de dispersión o de variabilidad, que completa el tipo
de información o resumen aportado por estas medidas de tendencia central.
2. MEDIDAS DE DISPERSIÓN: SU UTILIDAD
Todos estamos familiarizados con las medidas de tendencia central, como
lo es la media aritmética. Es muy normal describir grupos o resultados calcu-
lando la media. Hemos visto otras medidas de tendencia central, como son la
mediana (la puntuación que divide al grupo en dos mitades iguales) y la mo-
da o puntuación más frecuente. Sin embargo la medida más utilizada como
dato descriptivo que resume dónde está un grupo es la media aritmética.
La limitación de la media aritmética (y de otras medidas semejantes) como
dato que describe adecuadamente los resultados obtenidos en un grupo, po-
demos verlo con un sencillo ejemplo.
Imaginemos que a dos clases (de cuatro alumnos cada una, para simplifi-
car el ejemplo) les ponemos un examen de 20 preguntas objetivas. Cada pre-
gunta puede estar bien (y vale 1) o mal (y vale 0). Obtenemos los resultados
puestos en la tabla 4 y vemos que los dos grupos tienen idéntica media.
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
39
9 |
8 |||
7 ||||
6 ||||||||
5 |||||||||| 5 =
4 ||||||||
3 ||||
2 |||
1 |
Grupo A Grupo B
20 10
20 10
0 10
0 10
media = 10 media = 10
{
media
mediana
moda
Tabla 3
Tabla 4
¿Podemos decir que se trata de dos grupos muy parecidos porque tie-
nen la misma media? No, son grupos muy distintos. El grupo A es muy he-
terogéneo, en este grupo A se puede decir que hay dos subgrupos muy di-
ferenciados; el grupo B en cambio es muy homogéneo, todos tienen
idéntica puntuación.
Las medidas de dispersión complementan la información que nos da
tanto la media (aquí vamos a poner el énfasis por ser la medida más útil y
utilizada) como la mediana o la moda; estas medidas de dispersión expre-
san en qué grado los grupos son más bien homogéneos, con los sujetos
muy parecidos unos a otros (como en el grupo B), o más bien se trata de
grupos heterogéneos, con mayores diferencias entre los sujetos (como en
el grupo A). La medida de dispersión más útil y utilizada es la desviación tí-
pica, que se utiliza siempre que se calcula la media como la medida de ten-
dencia central.
Las medidas de dispersión que vamos a ver son las siguientes:
a) En relación con la media:
1. La desviación media, que se utiliza poco pero es sencilla y nos sir-
ve de introducción para la desviación típica.
2. La desviación típica y la varianza (que es la desviación típica eleva-
da al cuadrado), que son las más importantes;
3. El coeficiente de variación, que se calcula a partir de la media y de
la desviación típica, y que tiene su utilidad específica en determina-
das situaciones.
b) En relación con la mediana
La desviación semi-intercuartílica, que expresa la dispersión o hete-
rogeneidad en el 50% central del grupo (y en la que, lo mismo que la
mediana, se prescinde de las puntuaciones extremas).
c) En relación con la moda:
La amplitud o recorrido, de menor importancia que las otras medidas
de dispersión.
2.1. La desviación media
La medida de dispersión más sencilla y fácil de comprender es la desvia-
ción media; aunque apenas se utiliza es útil comprender el significado de la
desviación media como punto de partida sobre todo para entender la desvia-
ción típica, que es la medida de dispersión más utilizada. La desviación me-
dia la entenderemos fácilmente comparando las dos representaciones pues-
tas la figura 1.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
40
1. Tenemos dos grupos, A y B, cada uno con cuatro sujetos.
Las puntuaciones del grupo A son 3, 4, 6 y 7.
Las puntuaciones del grupo B son 2, 3, 7 y 8.
2. Ambos grupos tienen idéntica media, X= 5
3. Cada sujeto tiene una desviación (d) con respecto a la media (X) de su
grupo: unos porque no llegan a la media y otros porque se pasan y tie-
nen una puntuación superior a la media. Si un sujeto tuviera una pun-
tuación idéntica a la media, su desviación valdría d = 0, pero sigue
siendo válido el concepto de desviación con respecto a la media (ce-
ro en este caso).
4. Si dentro de cada grupo sumamos las desviaciones individuales (en va-
lores absolutos, prescindiendo del signo) y dividimos esta suma por el
número de sujetos, tendremos la desviación media del grupo (d)
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
41
1 2 3 4 5 6 7 8 9
d = -2 d = -2
d = -1 d = -1
Grupo A media = 5
Diferencia media con respecto a la media grupal = 1.5
1 2 3 4 5 6 7 8 9
d = -3 d = +3
d = -2 d = +2
Grupo B media = 5
Diferencia media con respecto a la media grupal = 2 .5
Fig. 1
|2+1+1+2|
Desviación media del grupo A =––––––––––––= 1.5
4
|3+2+2+3|
Desviación media del grupo B =––––––––––––= 2.5
4
5. Aunque ambos grupos tienen idéntica media, son grupos muy distin-
tos. A simple vista se observa que el grupo A es más homogéneo que el
grupo B; en el grupo B los sujetos se apartan más de la media. Aunque
los dos grupos tienen idéntica media, la dispersión del grupo B es ma-
yor que la dispersión del grupo A (o, lo que es lo mismo, el grupo A es
más homogéneo que el grupo B). Consecuentemente el grupo A tiene
una desviación media más pequeña.
La desviación media nos indica por lo tanto el grado de dispersión,
de homogeneidad, de parecido de unos sujetos a otros. Una misma
media de 5 puede proceder de un grupo en el que todos tienen un 5
(dispersión = 0, grupo muy homogéneo, todos los sujetos son igua-
les), y una media de 5 también puede proceder de un grupo en el
que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una
misma media puede corresponder a grupos muy distintos y dar por
lo tanto una información descriptiva incompleta que se presta a con-
clusiones falsas o equívocas (por ejemplo, una renta media per capi-
ta muy elevada es compatible con importantes bolsas de pobreza en
la población).
2.2. La desviación típica y la varianza
2.2.1. La desviación típica
1. En la práctica, y como medida de dispersión, no se usa la desviación
media (aunque inicialmente se entiende con mayor facilidad) sino prefe-
rentemente la desviación típica, que es otra medida que indica igualmen-
te el grado de dispersión o de heterogeneidad de las puntuaciones indivi-
duales.
2. Para calcular la desviación típica las desviaciones individuales se elevan
al cuadrado antes de sumarlas (y con esta operación desaparecen los signos
negativos), y después de dividir esta suma por el número de sujetos, se extrae
la raíz cuadrada. El símbolo habitual de la desviación típica es la letra ese grie-
ga minúscula (sigma: s; también es común denominar la desviación típica
por el nombre del símbolo, sigma, o desviación estándar, del inglés stan-
dard deviation).2
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
42
2
Sobre el símbolo de la desviación típica hacemos una observación para evitar con-
fusiones. Aquí utilizamos siempre la letra ese griega minúscula (s) como símbolo de la
desviación típica de la muestra, que es la que vamos a utilizar habitualmente, incluso es
frecuente designar a la desviación típica por el nombre del símbolo (sigma). Aunque no
hay una práctica uniforme, sí conviene advertir que también es frecuente utilizar este sím-
bolo (s) para expresar la desviación típica estimada de la población (N-1 en el denomina-
dor), y reservar la letra s, ese latina, para expresar la desviación típica de la muestra (N en
el denominador). En algunas calculadoras se distinguen bien los dos símbolos con subín-
dices: sn y sn-1. En el programa EXCEL la desviación típica de la muestra (dividiendo por N)
se denomina desvestp y la desviación típica de la población (dividiendo por N-1) se deno-
mina desvest.
Fórmulas
Distinguimos dos fórmulas según se trate de la desviación típica de la
muestra o de una estimación de la desviación típica de la población represen-
tada por esa muestra.
1º Cuando se trata de la desviación típica que describe la dispersión de
una muestra (que es lo que hacemos normalmente) utilizamos la fór-
mula [3]:
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
43
s = desviación típica de la muestra
S = sumatorio, suma de (letra ese griega
mayúscula)
X = cada una de las puntuaciones individua-
les (X mayúscula),
X = media aritmética
N =número de sujetos
[3]
[4]
La fórmula de la desviación típica también suele expresarse así:
(d = desviaciones con respecto a la media) o también
La letra x (equis minúscula) es un símbolo habitual de la puntuación di-
ferencial de cada sujeto, que es simplemente la desviación o diferencia de ca-
da sujeto con respecto a la media, d = x = X
2º Cuando se trata de la estimación de la desviación típica de la pobla-
ción representada por una muestra se utiliza la fórmula [4].
La fórmula es casi idéntica; dividimos por N-1 (en
vez de por N) con lo que el valor de la desviación
típica será algo mayor.
En este caso se trata de la estimación de la desviación típica de una pobla-
ción calculada a partir de los datos de una muestra. Al dividir por N-1 (y dis-
minuir el denominador) aumenta el cociente: la desviación típica de una po-
blación suele ser mayor que la desviación típica de una muestra, porque al
aumentar el número de sujetos es más probable que haya sujetos con puntua-
ciones muy extremas (o muy altas o muy bajas) y consecuentemente aumenta-
De estas fórmulas es de especial utilidad la [6] porque algunos programas
de ordenador dan rutinariamente la desviación típica de la población (sn-1)
cuando la que con frecuencia interesa es la desviación típica que describe la
dispersión de la muestra (sn).
2.2.2. La varianza
1. La varianza es simplemente la desviación típica elevada al cuadrado:
rá la desviación típica. Con números grandes apenas hay diferencia (a efectos
prácticos da lo mismo dividir por 100 que dividir por 99), pero con números
muy pequeños la diferencia puede ser importante3
.
De la fórmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y vice-
versa se pasa con facilidad. La desviación típica [3] la simbolizamos ahora co-
mo sn y la desviación típica de la fórmula [4] la simbolizamos como sn-1 para
evitar confusiones.
El paso de [3] a [4] se capta con facilidad. Si despejamos S(X - X)2
en la
fórmula [3] tenemos que y substituyendo S(X - X)2
por
en la fórmula [4] tendremos que:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
44
3
En EXCEL (herramientas) en análisis de datos (estadística descriptiva) calcula la
desviación típica de la población (dividiendo por N-1) lo mismo que en el SPSS (por defecto).
[5] y de manera análoga tenemos que [6]
Podemos ver estas transformaciones en un sencillo ejemplo:
Tenemos estas tres puntuaciones 8, 12 y 14 (N = 3) cuyas desviaciones
son: sn = 2.494
sn-1 = 3.055
sn a partir de sn-1:
sn-1 a partir de sn
De esta manera se simplifican bastante algunas operaciones del análisis
de varianza que no vemos en este momento. Este numerador de la varianza
se denomina también suma de cuadrados.
2. La varianza se interpreta de la misma manera que la desviación típica:
cuantifica la dispersión de una serie de puntuaciones. La interpretación de la
desviación típica y de la varianza es la misma, aunque obviamente las magni-
tudes serán distintas.
La varianza es mayor que la desviación típica cuando la desviación típica
es  1,
La varianza es menor que la desviación típica cuando la desviación típica es
 1
Como dato descriptivo es más frecuente el uso de la desviación típica que
el de la varianza (aunque se utilizan los dos).
2.2.3. Ventajas de la desviación típica y de la varianza como
medidas de dispersión
La razón de utilizar la desviación típica (o la varianza) en vez de la desvia-
ción media (u otras medidas de dispersión como son la amplitud o la desvia-
ción semi-intercuartílica) son varias:
1. El cálculo de la desviación típica se basa en todas las puntuaciones.
Otras medidas de dispersión, como la amplitud y la desviación
semi-intercuartílica, utilizan menos datos y dicen menos,
aportan una información más limitada. La amplitud (o recorri-
do) se basa solamente en las dos puntuaciones extremas y la
desviación semi-intercuartílica (Q) expresa la dispersión en el
50% central del grupo. Estas medidas de dispersión también tie-
nen su utilidad, pero la medida que en principio es preferible
utilizar la desviación típica.
La desviación típica y la varianza tienen mucha estabilidad, al menos
en términos comparativos, cuando la utilizamos para estimar la variabi-
lidad de una población; cuando se calcula en varias muestras aleatorias
varía relativamente poco.
2. De la relación existente entre la desviación típica y la distribución nor-
mal se derivan numerosas aplicaciones muy útiles: si conocemos en
cuántas desviaciones típicas se aparta un sujeto de la media, conoce-
Ya hemos visto que el numerador de la varianza (la suma de las desviacio-
nes individuales elevadas previamente al cuadrado) puede expresarse así:
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
45
mos las probabilidades de que se dé por azar esa puntuación; así pode-
mos detectar qué resultados, por ser muy altos o muy bajos, son muy
improbables por azar. Este cálculo de probabilidades es especialmen-
te útil en estadística inferencial, ya más en planteamientos de investiga-
ción. Estos puntos se tratan en extensión en el lugar apropiado, al tra-
tar más adelante de la distribución normal.
3. La desviación típica y la varianza se calculan con facilidad con sencillas
calculadoras con programación estadística y en los programas informá-
ticos como EXCEL.
Existen además varios métodos simplificados para calcular la desvia-
ción típica, pero estos métodos sólo dan aproximaciones y dada la faci-
lidad con que pueden utilizarse las calculadoras y programas de orde-
nador, estos métodos son ya menos útiles y justificables.
2.2.4. Propiedades de la desviación típica y de la varianza
La desviación típica y la varianza tienen además propiedades matemáticas
que las hacen más útiles.
1. Si a las puntuaciones directas les sumamos una constante, la desviación
típica y la varianza no varían. Esto es obvio porque no varían las distancias in-
ter-individuales.
Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
46
Caso A Caso B
(= A+2)
1 3
5 7
9 11
media 5 7
desviación típica 3.266 3.266
Tabla 5
En el caso B hemos sumado dos puntos a cada sujeto del caso A; las me-
dias son distintas (sube en dos puntos en el caso B), pero la desviación típica
es la misma porque las diferencias interindividuales son las mismas.
2. Si multiplicamos las puntuaciones directas por una constante, la desvia-
ción típica queda multiplicada por esa misma constante y la varianza queda
multiplicada por el cuadrado de esa constante.
Lo vemos también con un ejemplo: las puntuaciones del caso A las multi-
plicamos por 2 (tabla 6).
3. La varianza en particular tiene una propiedad que la hace sumamente
útil en algunos análisis: la varianza se puede descomponer según diversos orí-
genes de la variación. Estas aplicaciones se ven en las técnicas de análisis de
varianza.
2.2.5. Usos e interpretaciones de la desviación típica
1. En principio, y como ya hemos visto, la desviación típica describe el gra-
do de homogeneidad de los datos: será más baja en la medida en que los da-
tos estén más próximos a la media, aumentará si hay puntuaciones extremas
muy alejadas de la media, etc. Como dato puramente descriptivo suele utili-
zarse la desviación típica con preferencia a la varianza (que también puede
utilizarse).
La media y la desviación típica aportan datos descriptivos complementa-
rios. Si se trata de datos escolares (y lo mismo con otros tipos de datos) per-
miten hacer diagnósticos rápidos de un grupo. Media baja y desviación típica
pequeña: examen difícil para todos, o el profesor califica muy bajo a todos,
etc.; media baja y desviación típica grande puede indicar que hay un subgru-
po demasiado bajo, etc.; se trata al menos de pistas razonables, pues para ha-
cerse una idea más cabal de la situación habrá que inspeccionar los datos (la
distribución de frecuencias).
2. Al valorar e interpretar la desviación típica hay que tener en cuanta de
dónde vienen los datos: no es lo mismo el número respuestas correctas en
un examen que calificaciones puestas por un profesor. Más en concreto es
interesante pensar por qué podemos encontrar desviaciones pequeñas don-
de cabría esperar que fueran mayores.
Así una desviación típica muy pequeña puede indicar:
a) El grupo (el conjunto de datos) es muy homogéneo, todos los sujetos
(u objetos) se parecen mucho entre sí. En un test de inteligencia pues-
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
47
Caso A Caso B
(= A x 2)
1 2
5 10
9 18
media 5 10
desviación típica 3.266 6.53 ( = 3.266 x 2)
varianza 10.67 42.67 ( = 10.67 x 22
)
Tabla 6
to a una muestra de sujetos muy inteligentes tendremos una desvia-
ción típica más pequeña que la que podemos encontrar en una mues-
tra normal, donde hay de todo.
Ésta es la interpretación en principio más obvia porque es lo que ex-
presa directamente la desviación típica, pero, sobre todo cuando tene-
mos una desviación mucho menor de lo esperado o de lo que es usual
encontrar en otras situaciones, cabe siempre el buscar alguna explica-
ción, como indicamos en los apartados siguientes.
b) Los sujetos pueden ser potencialmente muy distintos, pero pueden
también estar igualados por la facilidad o dificultad de la prueba
(examen, test, etc.). El test o instrumento, del tipo que sea, puede ser
poco discriminante y consecuentemente no detecta diferencias que
de hecho hay. El grupo puede ser muy homogéneo pero sólo tal como
lo mide un instrumento determinado. Por ejemplo, no es lo mismo po-
ner como respuestas de un cuestionario sí o no (a lo mejor todos res-
ponden sí) que poner sí, más bien sí, más bien no y no: puede suce-
der que los que responden sí (si sólo pueden escoger entre sí y no) se
dividan entre el sí y el más bien sí.
De manera semejante una desviación típica muy pequeña en un test de
conocimientos puede indicar no que el grupo es realmente muy ho-
mogéneo (sujetos muy iguales) sino que el examen es muy fácil (todos
o casi todos saben todo) o muy difícil (casi nadie sabe nada…): puede
haber diferencias en esos conocimientos que no se detectan con ese
test; el grupo es más heterogéneo de lo que manifiesta esa desviación
típica pequeña.
c) Si se trata de calificaciones, una desviación típica pequeña puede indi-
car que el profesor matiza poco, pone notas muy iguales.
En general una desviación típica pequeña puede indicar que el proce-
dimiento o instrumento utilizado para recoger los datos no recoge su-
ficientemente diferencias que de hecho existen. El no detectar diferen-
cias repercute por otra parte en otros análisis estadísticos (por ejemplo
en el cálculo de coeficientes de correlación: no se detectan relaciones
si no hay diferencias claras entre los sujetos).
3. No hay un valor ideal de la desviación típica que pueda servir de refe-
rencia; cuándo es grande o pequeña se aprecia comparando unas con otras.
Dos desviaciones típicas pueden compararse entre sí directamente (lo mismo
que dos varianzas) si provienen de datos comparables (unidades compara-
bles, la misma escala métrica).
En ocasiones puede ser de utilidad conocer cuál es el valor máximo po-
sible de la desviación típica; este valor máximo posible es igual a:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
48
puntuación máxima posible - puntuación más baja posible
–––––––––––––––––––––––––––––––––––––––––––––––––– [8]
2
Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de
acuerdo, 4 = de acuerdo, 3 = indiferente, 2 = en desacuerdo y 1 = en total
desacuerdo), la puntuación máxima posible es 5 y la puntuación más baja po-
sible es 1; en este caso la desviación típica mayor posible es (5 - 1)/2 = 2.
Esta referencia suele ser poco útil porque este valor máximo es difícilmen-
te alcanzable en la mayoría de las situaciones. Cuando los valores son 1 y 0 (sí
o no, bien o mal, etc.), la desviación típica mayor posible es (1 - 0)/2 = .50.
Esta referencia con este tipo de datos es especialmente útil, porque en estos
casos (respuesta 1 ó 0) sí es más frecuente que la desviación típica obtenida
sea la mayor posible o se aproxime mucho a la mayor posible (ampliamos es-
tos comentarios al tratar después de las puntuaciones dicotómicas).
4. La desviación típica indica qué puntuación parcial pesa más en una me-
dia final; a mayor desviación típica, mayor peso en la media final. En determi-
nadas situaciones esta información puede ser muy útil.
El que la puntuación parcial con una mayor desviación típica pese más en
una media final es por otra parte lógico: si todos reciben la misma o casi la
misma puntuación (lo que supone una desviación típica muy pequeña), no se
establecen diferencias; si por el contrario se asignan puntuaciones muy distin-
tas a los sujetos (desviación típica grande) en una puntuación parcial, las dife-
rencias en la media final dependerán más de esas ocasiones en las que se asig-
naron puntuaciones (o notas) muy distintas.
Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Suponga-
mos que tres examinadores (A, B y C) califican a tres sujetos en lo mismo (en-
tre paréntesis el número de orden de cada sujeto con cada examinador y en
la media final):
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
49
Tabla 7
Podemos observar que el orden (entre paréntesis) de los alumnos en la
media final coincide con el orden del examinador A, que es el que tiene una
mayor desviación típica.
El sujeto nº 1, el de media final más alta, es el mismo que el del examina-
dor A, a pesar de que este examinador A está en minoría ya que para los exa-
minadores B y C el sujeto nº 1 es el que tiene una calificación más baja. Pero
como el examinador A ha diferenciado más sus calificaciones, está influyendo
más en quién queda en el primer o en el último lugar.
El que la puntuación parcial con una mayor desviación típica tenga tam-
bién un peso mayor en la media final puede ser de especial importancia en al-
gunas ocasiones, como cuando del número de orden de los examinados se
siguen consecuencias importantes (concesión de becas, procesos de admi-
sión o cualquier otro tipo de ventaja).
Los que califican de manera muy uniforme, sin diferenciar mucho, influ-
yen menos: sumar a todos una misma cantidad no establece diferencias. Lo
mismo sucede si no se trata de examinadores distintos, sino del mismo exa-
minador pero que ha calificado de manera muy distinta en distintas ocasiones
o con distintos tipos de pruebas.
Este peso distinto de las puntuaciones directas, según sea mayor o menor
la desviación típica, se puede obviar de varias maneras; sobre todo utilizando
puntuaciones típicas como veremos más adelante.
5. La desviación típica entra en otros muchos cálculos que iremos vien-
do (fiabilidad, error típico, error típico de la media, contraste de medias,
etc.).
6. La desviación típica permite el cálculo de las puntuaciones típicas indi-
viduales de las que tratamos más adelante. Además la relación entre la desvia-
ción típica, y las puntuaciones típicas, y la distribución normal nos abrirá la
puerta a la estadística inferencial.
2.2.6. Media y desviación típica de los datos dicotómicos
Datos dicotómicos, o puntuaciones dicotómicas, son aquellos en los que
solamente hay dos categorías de respuesta o de clasificación mutuamente
excluyentes. Cuando hay más de dos posibilidades se trata de datos o puntua-
ciones continuas.
En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o da-
tos, o variables) dicotómicas.
Además de los datos propiamente dicotómicos (dos respuestas que se ex-
cluyen mutuamente) también podemos dicotomizar los datos continuos di-
vidiéndolos en dos categorías, por ejemplo por encima de la media y por de-
bajo de la media (o de la mediana), o apto (= 1) y no apto (= 0), etc.,
aunque en principio es preferible utilizar todas las respuestas sin reducirlas a
dos categorías.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
50
La media (X) de los datos dicotómicos es igual a la proporción de res-
puestas correctas o de unos, y el símbolo que suele utilizarse es p.
El concepto de media es el mismo que cuando se trata de otros tipos de pun-
tuaciones: calculamos la media sumando todas las puntuaciones individuales
(que en este caso serán 1 ó 0) y dividimos esta suma por el número de sujetos.
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
51
Figura 2:
EJEMPLOS DE DATOS DICOTÓMICOS
número de unos
Por lo tanto la media es: p = proporción de unos =––––––––––––––– [9]
N
La proporción de ceros (de respuestas incorrectas, de noes, etc.) se sim-
boliza como q, y es igual al número de ceros dividido por el número de suje-
tos, o más sencillamente, q = 1-p, ya que p + q = 1 (ó síes + noes o unos +
ceros = el 100% de las respuestas).
número de ceros
q = proporción de ceros = ––––––––––––––– [10]
N
Si, por ejemplo, de 50 sujetos 30 responden sí (o bien en la pregunta de
un examen) y 20 responden no (o mal a una pregunta):
30
La media será: p =–––––= .60
50
20
El valor de q será: q =–––––= .40
50
Si multiplicamos por cien la proporción de respuestas correctas (p), tene-
mos un tanto por ciento o un porcentaje: el 60% ha respondido correcta-
mente (o ha respondido sí). Si los 50 sujetos responden sí (o correctamente),
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
52
la proporción de unos (la media) será 50/50 = 1 (ó el 100% de los sujetos ha
respondido correctamente o ha respondido sí).
La desviación típica y la varianza de los datos dicotómicos (unos o ceros)
se puede calcular a partir de los valores de p y q:
Desviación típica: [11] Varianza: s2
= pq [12]
Es habitual utilizar pq como símbolo de la varianza de los datos dicotómi-
cos.
En el mismo ejemplo anterior, la desviación típica será igual a
= .489, y la varianza será igual a .4892
= .239 (ó .24 redondeando los decimales).
La varianza mayor posible se dará cuando el 50% responde correctamen-
te (o responde sí) y el otro 50% responde incorrectamente (o responde no),
es decir, cuando el 50% de las respuestas se codifica con un uno y el otro 50%
con un cero. Es entonces cuando se da el mayor número de diferencias inter-
individuales.
En este caso tenemos que p = q = .50;
la media es p =.50,
la desviación típica será igual a
la varianza será igual a .50
2
= .25,
También se utilizan los símbolos convencionales (X, s); sin embargo los
símbolos p (media), pq (varianza) y (desviación típica) son muy utiliza-
dos con este tipo de datos; realmente tanto pq como son las fórmulas
que también se utilizan como símbolos.
En los ítems dicotómicos el valor máximo que puede alcanzar la desviación tí-
pica es .50 y el valor máximo de la varianza es .502
=.25. Como ya se indicó an-
tes, el valor máximo que puede alcanzar la desviación típica (con cualquier tipo
de puntuación) es igual a la diferencia entre la puntuación máxima posible y la
puntuación más baja posible dividida por dos; en este caso (1-0)/2 = .50.
El que la máxima varianza con estos datos (1 ó 0) es .25 podemos verlo de
manera intuitiva en los datos simulados de la tabla 8, donde tenemos todos
los posibles resultados que podemos obtener si cuatro sujetos (N = 4) res-
ponden a una pregunta (respuestas: sí = 1, no = 0).
Si todos responden sí (1) o todos responden no (0), nadie se diferencia de
nadie y la varianza es cero. Si la mitad (el 50%) responde sí y la otra mitad res-
ponde no es cuando tenemos el máximo número de diferencias y la máxima va-
rianza. Si multiplicamos el número de los que responden sí por el número de
los que responden no tenemos el número de diferencias entre los sujetos, y si
multiplicamos las proporciones tenemos la varianza. La unanimidad (todos
responden sí o todos responden no) coincide con la varianza cero, y la máxima
diversidad coincide con la varianza máxima, que es (.50)(.50) = .25.
El entender que la varianza máxima (lo más lejano a la unanimidad en las
respuestas) es .25 tiene su importancia, no sólo como referencia útil, sino por-
que se trata de un valor que entra en la fórmula para calcular el tamaño necesa-
rio de la muestra para extrapolar los resultados a la población (por ejemplo en
las encuestas pre-electorales); en estos casos suponemos que la varianza de la
población es la máxima posible e igual a .25. La razón está en que a mayor varian-
za hará falta una muestra mayor y para mayor seguridad nos ponemos en la si-
tuación de que la varianza es la mayor posible (si la varianza fuera = 0, nos bas-
taría preguntar a un solo sujeto, porque todos van a responder lo mismo)4
.
La media y la desviación típica de los datos dicotómicos pueden calcularse
con las calculadoras que tienen programación estadística y programas infor-
mático, de la misma manera que se calculan cuando las puntuaciones son
continuas (las fórmulas son las mismas; si las puntuaciones son dicotómicas,
nos limitaremos a introducir unos y ceros).
2.2.7. Combinación de medias y desviaciones típicas
Con frecuencia acumulamos datos y cálculos de diversos grupos. Las fór-
mulas que combinan medias de diversos grupos en una media común y diver-
sas desviaciones típicas en una desviación típica común son muy útiles.
1º Para combinar dos o más medias:
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
53
Tabla 8
Xtotal = media total, o común a varios grupos;
SXN = en cada grupo multiplicamos la media por su
N y sumamos estos productos (esta suma es
igual a la suma de todas las puntuaciones);
SN = suma de todos los N
4
En la ficha técnica de las encuestas, que suele aparecer publicada en periódicos y
revistas, se suele especificar que el tamaño de la muestra se ha calculado suponiendo que
p = q = .50 (también se empelan letras mayúsculas, P y Q).
Cuando las muestras son de idéntico tamaño calculamos la media de las
medias:
Cuando las muestras son de tamaño desigual:
La fórmula [13] es obvia (se trata de una media ponderada por el núme-
ro de sujetos):
Si la media es
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
54
tenemos que SX = XN; que es el numerador
de esta fórmula [13] (suma de todas las pun-
tuaciones); el denominador (SN) es la suma
de todos los sujetos de todos los grupos.
Cuando el número de sujetos es el mismo en todas las muestras, la media
total es simplemente la media de las medias.
Lo vemos en dos ejemplos (tabla 9), que utilizaremos también para ver có-
mo se combinan desviaciones típicas.
Tabla 9
2º Para combinar dos o más desviaciones típicas o varianzas:
Lo que no se puede hacer es calcular la media de las desviaciones típicas;
para combinar las desviaciones típicas de varios grupos como si se tratara de
un solo grupo aplicamos las fórmulas [14] (muestras desiguales) y [15]
(muestras iguales).
a) Muestras de tamaño desigual
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
55
5
El numerador se calcula fácilmente con una calculadora con programación estadís-
tica, introduciendo todas las medias y todas las desviaciones típicas, en la función Sx2
.
stotal = desviación típica total, de todos los grupos unidos en uno solo;
Xtotal = media del total, de todos los grupos unidos en uno solo. 1º En
cada grupo multiplicamos cada N por la suma de la media y de
la desviación típica elevadas al cuadrado [N(X2
+ s2
)], 2º suma-
mos estos productos; 3º dividimos esta suma por el número to-
tal de sujetos (SN) y restamos la media total elevada al cuadra-
do (y que se supone calculada previamente). Si no extraemos la
raíz cuadrada, lo que tenemos es la varianza común a todos
los grupos.
b) Muestras de idéntico tamaño
Si las muestras son de idéntico tamaño, en la fórmula [14] tendríamos que
el denominador será Nk, donde N es el número de sujetos que hay en cada
grupo y k es el número de grupos, por lo que la fórmula [14] queda simplifi-
cada como se indica en [15].
En el numerador nos limitamos a sumar todas las medias y todas las
desviaciones previamente elevadas al cuadrado.
Con los datos mismos datos de la tabla 9 calculamos las desviaciones típi-
cas uniendo todas las muestras.
Muestras de tamaño desigual [14]:
Muestras de idéntico tamaño [15]5
:
¿De dónde vienen estas fórmulas para combinar desviaciones típicas a
partir de los valores de las desviaciones, medias y número de sujetos de diver-
sos grupos?
La fórmula [14]6
es fácilmente demostrable, y no sobra conocer esta de-
mostración porque nos introduce en otras fórmulas frecuentes de la desvia-
ción típica.
La fórmula más directa de la desviación típica es
Esta fórmula no se demuestra en sentido propio (lo mismo que la de la
media aritmética), simplemente expresa el concepto.
Hay otras fórmulas, que se derivan de [16], para calcular la desviación típi-
ca sin necesidad de calcular las puntuaciones diferenciales (X-X). Lo que su-
cede es que estas fórmulas que simplifican operaciones son menos útiles, ya
que disponemos de programas informáticos y calculadoras con programación
estadística.
Una de estas fórmulas para calcular la desviación típica a partir de las pun-
tuaciones directas y de la media, es la que nos interesa para poder demostrar
la fórmula que nos permite combinar desviaciones típicas de varios grupos;
es la fórmula [17] que viene en muchos textos; a partir de esta fórmula [17]
llegamos con facilidad a la fórmula [14] para combinar desviaciones típicas o
varianzas.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
56
Vamos a ver cómo de la fórmula [17] llegamos a la fórmula [14], que es la
propuesta para combinar desviaciones típicas; después veremos de dónde sa-
le esta fórmula [17].
Para simplificar esta demostración utilizamos la varianza en vez de la des-
viación típica, así si elevamos al cuadrado la desviación típica expresada en
[17] tendremos que la varianza será
Si en [18] despejamos SX2
tendremos SX2
=N(s2
+ X2
) [19]
La expresión que tenemos en [19] podemos verla ya en la fórmula [14]. Si
de dos muestras conocemos los valores de N, X y s, podemos utilizar la fór-
6
Esta fórmula la tomamos de McNemar (1962, pág. 24).
mula [17] para calcular la desviación típica de las dos muestras combinadas
en una única muestra. En esta fórmula [17] utilizada para combinar dos (o
más) desviaciones típicas tenemos ahora que:
N = N1 + N2;
La media será la media total de las dos (o más) muestras
SX
2
será la expresión [19] calculada en las dos (o más) muestras y su-
madas.
Es decir, substituyendo [19] en [18] tenemos la fórmula [14] para combi-
nar desviaciones típicas.
Podemos preguntarnos ahora de dónde viene la fórmula [17], que es la
que estamos utilizando para llegar a la fórmula [14] y calcular la desviación tí-
pica de dos (o más) muestras combinadas en una sola.
En la fórmula de la desviación típica tenemos en el numerador un binomio
elevado al cuadrado. No hay más que aplicar la fórmula usual: (a - b)2
= a2
-
2ab + b2
, y así llegamos a [18] y [17]:
Utilizando la varianza para simplificar, tenemos que:
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
57
Como en [17] tenemos que y que
Tendremos que y así llegamos a [18]
y [17]
2.3. El coeficiente de variación (V)
Otra medida de dispersión, menos utilizada, es el coeficiente de varia-
ción. En principio se utiliza para comparar dispersión cuando los instrumen-
tos o unidades de medida son distintas, o cuando las medias de dos grupos
son muy desiguales.
La desviación típica viene expresada en las mismas unidades empleadas en
la medición, por lo tanto dos desviaciones calculadas con instrumentos y uni-
dades distintas no son comparables entre sí directamente. Lo mismo sucede
cuando las medias son muy distintas (por ejemplo cuando las medias de dos
exámenes son muy distintas porque el número de preguntas es distinto).
En estos casos se utiliza el coeficiente de variación o de variabilidad rela-
tiva: consiste sencillamente en dividir la desviación típica por la media (es de-
cir, se trata de la desviación relativa a la media); es habitual multiplicar por
100 este cociente.
Coeficiente de variación: [21]
Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (pe-
so en Kg.)
media desviación
chicos 66.87 6.99
chicas 51.06 5.10
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
58
Aparentemente los chicos difieren
más entre sí que las chicas entre sí (su
desviación típica es mayor; los chicos
tienen de manera natural más ámbito
de variación), pero también es ver-
dad que las medias son muy distintas.
Si calculamos el coeficiente de variación (haciendo las desviaciones relati-
vas a la media) tenemos estos resultados:
6.69
V (chicos) =––––– (100) = 10.45
66.87
5.51
V (chicas) =––––– (100) = 10.79
51.06
Teniendo en cuenta la diferencia en-
tre las medias, entre las chicas encon-
tramos más variabilidad en peso (aun-
que no mucha más).
El uso de este coeficiente de variación en medidas educacionales o psico-
lógicas es muy cuestionable, porque su valor depende de la media, que a su
vez depende de la facilidad o dificultad de las preguntas, test, etc. Su inter-
pretación se presta a ambigüedades. Si por ejemplo a un test de 10 preguntas
le añadimos otras 10 muy fáciles, subirá la media y bajará el valor de V
.
Este coeficiente puede utilizarse y es especialmente útil cuando se dan es-
tas circunstancias:
1º Cuando las unidades lo son en sentido propio (como peso, altura,
con una unidad clara); menos aconsejable es utilizarlo en las medi-
das educacionales y psicológicas habituales;
2º Cuando las medias son muy desiguales (como en el ejemplo ante-
rior, peso en chicos y chicas).
3º Cuando las medidas son distintas (por ejemplo; ¿dónde hay más va-
riabilidad, en peso o en altura?).
En el campo de los tests en general, puede ser útil para comparar la varia-
bilidad de un grupo en el mismo test aplicado en circunstancias distintas.
2.4. La desviación semi-intercuartílica
Nos hemos centrado fundamentalmente en la desviación típica y en la
varianza porque se trata de dos conceptos fundamentales para el resto de
los análisis estadísticos. Son medidas de dispersión que se utilizan cuando se
utiliza la media aritmética como medida de tendencia central.
Se utilizan también otros pares de medidas, tanto de tendencia central
(que ya hemos visto, como la mediana y la moda) como de dispersión, que
son ya de utilidad más limitada, aunque tienen su lugar como descriptores de
un conjunto de puntuaciones.
La desviación semi-intercuartílica es la medida de dispersión apropiada
cuando la medida de tendencia central es la mediana, y expresa la disper-
sión del 50% central del grupo, por lo que, lo mismo que la mediana, se pres-
cinde también de las puntuaciones extremas.
El concepto es claro y podemos verlo en la distribución de frecuencias de
la tabla 10.
Hemos dividido la muestra en cuatro partes con idéntico número de suje-
tos (el 25% en cada una); los límites de estas cuartas partes se denominan
cuartiles:
Límite superior del cuartil 3 (queda por debajo el 75 % del total) (Q3) = 12.5
Límite superior del cuartil 1 (queda por debajo el 25 % del total) (Q1) = 6.5
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
59
Tabla 10
Es decir, y dicho de manera más sencilla, entre 6.5 y 12.5 está el 50% cen-
tral de los sujetos; la desviación semi-intercuartílica (Q) será:
[22] en este ejemplo tendríamos
Este ejemplo está puesto para explicar el concepto; lo normal es que los lí-
mites del 50% central no estén tan claros a simple vista; el cálculo exacto lo
veremos al tratar de los percentiles, pues se trata simplemente de calcular por
interpolación los percentiles 25 y 75, como se explica en su lugar.
2.5. La amplitud o recorrido
La amplitud o recorrido (ambos términos son usuales)7
es la medida de
dispersión que se utiliza cuando la moda es la medida de tendencia central.
Su cálculo es muy simple:
Amplitud = (puntuación más alta menos la puntuación más baja) + 1 [23]
En el ejemplo de la tabla 10: amplitud = (15-4) + 1 =12
Observaciones sobre la amplitud:
1. Sumamos una unidad a la diferencia entre las puntuaciones extremas
(se trata de una convención aceptada) porque nos situamos en los lí-
mites extremos de ambas puntuaciones: el límite superior de 15 sería
15.5 y el límite inferior de 4 sería 3.5; la amplitud será pues 15.5 - 3.5 =
12 (ó 15 - 4 + 1).
2. Como indicador de dispersión es una medida débil, pues se basa en só-
lo dos puntuaciones, que además pueden ser atípicas, poco represen-
tativas, y grupos semejantes pueden parecer muy distintos en disper-
sión, simplemente porque en algún grupo hay uno o dos sujetos con
puntuaciones inusualmente altas o bajas.
2.6. Relación entre la amplitud y la desviación típica
En muestras relativamente grandes (de 500 o 600 sujetos) la amplitud o
recorrido suele comprender unas seis desviaciones típicas (entre -3 y +3),
por lo que un cálculo aproximado de la desviación típica consiste en dividir
la amplitud entre seis. Según va bajando N (número de sujetos, tamaño de la
muestra) la amplitud comprende menos desviaciones típicas y si sube N
la amplitud suele comprender más de seis desviaciones.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
60
7
A veces, y de manera errónea, se denomina rango a la amplitud, por confusión con
el inglés (amplitud o recorrido en inglés es range). El término rango significa propiamen-
te número de orden (rank en inglés).
Tabla 11
En la tabla 11 tenemos cuántas desviaciones típicas podemos esperar
que comprenda la amplitud: dividiendo la amplitud por esa cantidad (x) ten-
dríamos una aproximación del valor de la desviación típica8
.
Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que
la amplitud o recorrido equivalga aproximadamente a 3.1 desviaciones, y con
1000 sujetos a 6.5 desviaciones.
Esta tabla no es útil para calcular la desviación típica; en primer lugar porque
es muy sencillo calcular el valor exacto de la desviación (utilizando un progra-
ma de ordenador o una calculadora con programación estadística) y porque,
como ya hemos indicado, la amplitud es una medida muy pobre que depende
solamente de dos puntuaciones que además pueden ser atípicamente altas o
bajas. Sin embargo el hacer una estimación del valor de la desviación a partir de
la amplitud puede ser ocasionalmente útil por varias razones.
Para hacernos una idea de por dónde puede ir el valor aproximado de la
desviación típica si en un momento dado no disponemos de medios para cal-
cularla directamente,
Para ponernos sobre la pista de algún error de bulto en el cálculo,
Para apreciar si la desviación típica exacta y bien calculada es mucho ma-
yor o menor de lo que cabría esperar en un grupo de un determinado tama-
ño. Si la desviación típica calculada es apreciablemente mayor de la esperada,
podemos comprobar si se debe a unos pocos sujetos con puntuaciones extre-
mas muy atípicas.
3. MEDIDAS DESCRIPTIVAS BÁSICAS: RESUMEN
de tendencia central de dispersión
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
61
8
La tabla está tomada de Guilford y Fruchter (1973, pág. 73).
La media es el centro de gravedad de
la distribución: la suma de todas las
diferencias individuales con respecto
a la media es igual a cero.
La desviación típica será mayor en la
medida en que las puntuaciones indi-
viduales se aparten más de la media
(X-X). La desviación típica elevada al
cuadrado (s2
) se denomina varian-
za, también se utiliza como medida
de dispersión y tiene propiedades es-
pecíficas que la hacen muy útil.
de tendencia central de dispersión
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
62
En el cálculo de la media y de la desviación típica intervienen todas las puntua-
ciones individuales; son las dos medidas más estables: si calculamos estas me-
didas en una serie de muestras de la misma población, fluctúan menos que las
demás medidas. Permiten además otras muchas operaciones de gran interés y
son en principio las medidas descriptivas preferibles.
La mediana es igual al Percentil 50; es
la puntuación que divide la distribu-
ción en dos partes iguales: la mitad
de los sujetos tiene una puntuación
superior a la mediana y la otra mitad
una puntuación inferior.
En distribuciones asimétricas o con
puntuaciones extremas muy atípicas
(muy extremas) puede dar una idea
mejor que la media ya que la media
puede verse afectada por puntuacio-
nes muy extremas y no representativas.
La mediana en cambio no se ve altera-
da por las puntuaciones extremas.
La desviación semi-intercuartílica
(Q) se calcula solamente con el 50%
central de la distribución: es la media
de dos puntuaciones: la que corres-
ponde al percentil 75 (deja por arriba
el 25% de los sujetos) y la que corres-
ponde al percentil 25 (deja por deba-
jo el 25% de los sujetos).
Como quedan excluidos en el cálculo
el 25% superior y el 25% inferior, tam-
poco se ve afectada por las puntuacio-
nes extremas.
Ambas medidas, media-
na y Q son las apropia-
das:
1º en principio cuando se trata de puntuaciones
puramente ordinales;
2º siempre que se prefiera prescindir de los suje-
tos extremos porque distorsionan la información.
Ejemplos de uso de la mediana y Q: en el proceso de construcción de escalas
de Thurstone; los ítems son evaluados por jueces y para evitar que pesen de-
masiado juicios extremos, se calculan la mediana y Q (en vez de la y ?) en ca-
da ítem. También se utilizan a veces en los cuestionarios de evaluación del pro-
fesorado, cuando interesa la opinión del centro de la clase y prescindir de los
extremos.
La mediana y los percentiles 25 y 75 (Q1 y Q3, o primer y tercer cuartil) permi-
ten además hacer determinadas representaciones gráficas. Los percentiles se
calculan en estos casos por interpolación.
de tendencia central de dispersión
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN
63
Moda: puntuación con una
frecuencia mayor
La moda es simplemente la puntua-
ción con la mayor frecuencia, la ob-
tenida por el mayor número de suje-
tos. Puede haber varias puntuaciones
con esta característica (distribuciones
bimodales, plurimodales). Como me-
dida de tendencia central es poco ri-
gurosa, sobre todo en distribuciones
asimétricas. Se basa en las puntuacio-
nes de dos sujetos que si son muy ex-
tremas y atípicas desvirtúan la infor-
mación.
La moda y la amplitud son las medi-
das menos rigurosas aunque pueden
tener su interés descriptivo.
Amplitud = [valor más alto - valor
más bajo] +1
La amplitud (o recorrido, y mal lla-
mada a veces rango) es igual a la dife-
rencia entre la puntuación más alta y
la puntuación más baja. Habitualmen-
te se suma una unidad a esta diferen-
cia porque se calcula a partir de los lí-
mites de los valores extremos (si las
puntuaciones extremas son, por
ejemplo, 20 y 5, la amplitud no es
igual a 20 - 5 sino igual a 20.5 - 4.5 =
[(20 - 5) + 1]. Es una medida muy in-
estable porque depende solamente
de los dos valores extremos. En
muestras semejantes la amplitud pue-
de ser muy diferente; basta que haya
sujetos muy atípicos en los extremos.
En la distribución normal (simétrica, acampanada) media, mediana y moda
coinciden en un idéntico valor.
CAPÍTULO 3
LA DISTRIBUCIÓN NORMAL
1. APROXIMACIÓN INTUITIVA A LA DISTRIBUCIÓN NORMAL
Posiblemente ya estamos familiarizados con la denominada distribución
normal (o curva normal): la distribución simétrica y de forma acampana-
da que nos indica que la mayoría de los sujetos (u objetos) de una población
determinada no se aparta mucho de la media: en la medida en que los sujetos
se van apartando más de la media (porque se pasan o porque no llegan) van
siendo menos y menos.
Si representamos esta distribución mediante un histograma simplificado,
tendríamos algo parecido a lo que vemos en la figura 1.
65
Los sujetos que se van
apartando más y más
de la media van
siendo menos
La mayoría
de los sujetos
se encuentran
próximos a la
media de
su grupo
El apartarse
mucho de la
media va siendo
ya muy raro…
Figura 1
Lo primero que debemos captar es que la distribución normal nos remite
a nuestra propia experiencia. Si nos fijamos en la estatura de la gente que nos
encontramos por la calle, vemos que la mayoría de la gente es de estatura
normal, y aquí llamamos normal a lo más frecuente; de hecho si vemos a al-
guien que se aparta mucho de la media (de lo habitual) no pasa desapercibi-
do y nos llama la atención. En la experiencia de cada día, normal y frecuen-
te, aplicado a cualquier rasgo, son expresiones casi sinónimas. Cuando
decimos que alguien es muy abierto y sociable, lo que queremos decir es que
es más abierto y sociable de lo que es normal, de lo que solemos encontrar
habitualmente, de la misma manera que decimos que una persona es muy ca-
llada cuando habla mucho menos que la mayoría de la gente.
Casi sin darnos cuenta estamos haciendo juicios relativos a lo que es nor-
mal encontrar en la generalidad de las personas: el mucho y el poco, o el
muy, sobre todo aplicados a las características de las personas, dependen de
lo que es más frecuente encontrar en nuestro medio. Si el muy abunda mu-
cho, deja de ser muy para pasar a ser normal o frecuente y ya no merece el
muy que solemos reservar para lo excepcional que viene a ser lo raro o infre-
cuente.
Estos juicios, y esta distribución normal, son relativos a cada población:
un pigmeo de una estatura normal, cercana a la media de su población y
muy frecuente en su propio grupo, pasa a ser muy bajito y excepcional si lo
incluimos en una población de escandinavos: se aparta mucho de la media de
esa población y será muy difícil encontrar un escandinavo con esa estatura.
Sin embargo ese pigmeo tiene una estatura normal, que no se aparta mucho
de la estatura media de su grupo. En ambos grupos, escandinavos y pigmeos,
encontraremos una distribución normal en estatura, aunque las medias de
los dos grupos sean muy distintas.
Esta consideración (la normalidad es relativa a cada población) nos lle-
vará más adelante a una serie de aplicaciones relevantes en la investigación
psicológica y educacional, no solamente para poder valorar si un resultado o
dato individual es atípico (si se aparta mucho de lo normal o esperado), sino,
por ejemplo, para determinar si unos sujetos que han pasado por una deter-
minada experiencia pueden considerarse normales en la población de los
que no han pasado por esa experiencia (en ese caso es posible que esa expe-
riencia haya sido inútil).
La distribución normal que representamos mediante la curva normal,
es un modelo matemático teórico al que de hecho tienden a aproximarse
las distribuciones que encontramos en la práctica: estadísticas biológicas,
datos antropométricos, sociales y económicos, mediciones psicológicas y
educacionales, errores de observación, etc.; es un modelo muy útil por su
relación con el cálculo de probabilidades que nos va a permitir hacer infe-
rencias y predicciones.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
66
2. CARACTERÍSTICAS Y PROPIEDADES DE LA DISTRIBUCIÓN NORMAL
El hecho de que las magnitudes según se van apartando de la media (en
cualquiera de las dos direcciones) van siendo mucho menos frecuentes lo ex-
presamos gráficamente mediante la curva normal, que es la representación
gráfica de una función matemática que nos indica la probabilidad de encon-
trar (de que se dé por azar, por factores aleatorios) cualquier magnitud (o
puntuación) si conocemos en cuántas desviaciones típicas se aparta de la me-
dia de su distribución. La diferencia con respecto a la media, medida en des-
viaciones típicas, es lo que llamamos una puntuación típica (z = X - X/s): a
cada puntuación típica le corresponde una probabilidad de ocurrencia y es-
ta relación entre diferencia con respecto a la media y probabilidad nos va a
ser de la máxima utilidad; ampliamos la explicación en el apartado siguiente.
La distribución normal es simétrica, unimodal, de forma acampanada
(figura 2); su altura máxima (que indica el mayor número de sujetos) se en-
cuentra en la media, que coincide con la moda y la mediana (expresado en
términos más académicos, la ordenada máxima (Y) corresponde a una abs-
cisa (X) igual a la media).
LA DISTRIBUCIÓN NORMAL
67
Figura 2
La distribución normal es continua, válida para cualquier valor de X (para
cualquier puntuación o magnitud, representada en el eje horizontal de las
abscisas). En la figura 2 están señalados los puntos que corresponden a la
media (0) y a tres desviaciones típicas por encima y por debajo de la media.
La distribución normal es asintótica, es decir, los extremos de la curva se
extienden indefinidamente en ambas direcciones; la curva no toca el eje (ho-
3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIÓN NORMAL
Ya hemos indicado que si conocemos en cuántas desviaciones típicas se
aparta un sujeto (o una observación cualquiera) de la media, podemos cono-
rizontal) de las abcisas (siempre cabe la posibilidad de una magnitud muy ex-
trema)1
.
En la práctica se considera que todos los casos están comprendidos entre
-3 y +3 desviaciones típicas; las probabilidades de que un valor exceda estos
límites son del .0026% (2.6 por mil); la amplitud de la distribución es por lo
tanto de unas 6 desviaciones típicas (a efectos prácticos, aunque esto no es
exacto y depende del número de sujetos).
Los puntos de inflexión de la curva (puntos A y B en la figura 2) están a
una desviación típica de la media.
Atendiendo al grado de apuntamiento o curtosis que presenta, decimos de
la curva normal que es mesocúrtica (representada por la línea continua en la fi-
gura 3). Para determinar la curtosis de cualquier otra distribución la compara-
mos con este modelo (figura 3), y así calificamos a las distribuciones más apun-
tadas que la normal leptocúrticas y a las menos apuntadas platicúrticas2
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
68
1
Asintótica viene del griego asímptotos, (asumptwtos que quiere decir que no
coincide, que no toca.
2
Curtosis (kurtwsis) significa en griego curvatura; los prefijos griegos leptos, me-
sos y platys significan respectivamente delgado, medio y ancho.
Mesocúrtica Leptocúrtica Platicúrtica
Figura 3
La distribución normal nos permite conocer la probabilidad de que se dé
una determinada magnitud expresada en puntuaciones típicas. Si nos fijamos
en la figura 4, vemos que la probabilidad de que se dé una puntuación supe-
rior a z = 2 es el 2.15% (y otro 2.15% de probabilidades de que se dé una pun-
tuación inferior a z = -2); la probabilidad de encontrar una puntuación supe-
rior a z = 1 es del 15.74% (13.59 + 2.15), etc.
Estas probabilidades las tenemos en las tablas de la distribución nor-
mal, donde podemos ver la proporción de casos que caen por encima o
por debajo de cualquier puntuación típica (o, lo que es lo mismo, la proba-
bilidad de obtener una puntuación cualquiera por encima o por debajo de
cualquier puntuación típica o entre dos puntuaciones típicas).
Antes de acercarnos a las tablas y aprender a manejarlas es útil observar las
figuras 5 y 6. Los porcentajes puestos en estas figuras son sólo aproximados
(eliminando decimales); para muchos usos estas aproximaciones son un dato
suficiente; en cualquier caso estas figuras nos ayudan en un primer momento
a comprender la utilidad de la distribución normal y a utilizar las tablas en las
que encontraremos los valores exactos.
cer la probabilidad que tiene de ocurrir. La proporción (o porcentaje si mul-
tiplicamos por 100) de casos esperados entre dos puntuaciones típicas deter-
minadas (o por encima o por debajo de cualquier puntuación típica) es siem-
pre el mismo. Vemos en la figura 4 que, por ejemplo, entre la media (z = 0)
y una desviación típica (z = + ó - 1) se encuentra el 34.13% de los casos, o, di-
cho de otra manera, la probabilidad de que una observación se encuentre en-
tre la media y una desviación típica es de .34
LA DISTRIBUCIÓN NORMAL
69
2.15%
34.13% 34.13%
2.15%
-3 -2 -1 0 +1 +2 +3
13.59% 13.59%
Figura 4
En la figura 5 tenemos:
a) La base (el eje de las abscisas, X) la hemos dividido en segmentos que
comprenden media desviación típica (.5s). El punto central corres-
ponde a la media y tiene obviamente un valor de cero (no se aparta de
la media, coincide con la media, z = 0).
b) Vemos una serie de filas divididas en segmentos con distintos criterios,
pero utilizando la desviación típica como unidad; y en cada segmento
encontramos el porcentaje (aproximado) de casos que podemos es-
perar.
Por ejemplo, si nos fijamos en algunas de estas filas:
En la primera fila (comenzando por debajo) vemos que entre la media y
media desviación típica (entre 0 y ±.5 s; la tabla es simétrica) cae aproxi-
madamente un 20% de los casos, entre 1s y 1.5 s tenemos el 9 % de los ca-
sos, y por encima o por debajo de 2 s el 2% de los casos (también podemos
decir que la probabilidad de obtener una puntuación típica superior a 2 es el
de 2%, etc.).
En la segunda fila entre -.5 s y +.5 s tenemos el 38% de los casos, por en-
cima o por debajo de 1.5 s cae el 7 % de los casos.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
70
Figura 5
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LÍMITES DE LA CURVA NORMAL
En la tercera fila tenemos las mismas proporciones (redondeadas) ya vis-
tas en la figura 4 pues los segmentos son de 1s
En la quinta fila vemos otro criterio para dividir la distribución: entre -.25s
y +.25 s (en el centro de la distribución) tenemos el 20% de los casos, entre
.+25 s y +.75 s (lo mismo que entre -.25 s y -.75 s) tenemos el 17% de los ca-
sos; etc. Cada segmento comprende .5 s (menos los dos extremos) y tene-
mos en total nueve agrupaciones; si numeramos estas agrupaciones de 1 (co-
menzando por la derecha) a 9, en su momento veremos que se trata de los
estaninos o eneatipos, unas puntuaciones muy utilizadas.
En la sexta fila (o cuarta por arriba) vemos que por debajo de 2 s tenemos
el 2% de los casos, y por encima el 98% de los casos, etc.
Esta figura 5 no es de gran utilidad práctica, pero nos ayuda a entender la
distribución normal y las tablas correspondientes que encontraremos en los
textos.
LA DISTRIBUCIÓN NORMAL
71
15% 70% 15%
5% 90% 5%
2.5% 95% 2.5%
-1.96 -1.65 -1.04 +1.04 +1.65 +1.96
Figura 6
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LÍMITES DE LA CURVA NORMAL
La figura 6 es análoga a la figura 5 aunque está hecha con otros criterios;
si nos fijamos con un poco de atención podemos ver:
• El 70% central de los casos cae entre ± 1.04 s; y las probabilidades de ob-
tener unas puntuaciones mayores que +1.04 s ó –1.04 s son del 15%.
• El 90% central de los casos caen entre ± s 1.65 s; y las probabilidades
de obtener unas puntuaciones mayores que +1.65 s o –1.65 s son del
5%; naturalmente las probabilidades de encontrar una puntuación que
supere 1.65 s independientemente del signo son del 10% (un 5% en
cada extremo de la distribución).
• El 95% central de los casos caen entre ± 1.96 s (1.957 con más exacti-
tud); y las probabilidades de obtener unas puntuaciones mayores que
+1.96 s o –1.96 s son del 2.5%; y las probabilidades de encontrar una
puntuación que supere 1.96 s independientemente del signo son del
5% (un 2.5% en cada extremo de la distribución).
• El 99% de los casos los tenemos entre ± 2.57 s y solamente un 1% de
los casos supera este valor (.5% en cada extremo de la distribución).
De todos estos valores hay dos que encontraremos con frecuencia en el es-
tudio de los análisis estadísticos; son 1.96 y 2.57; la probabilidad de encontrar va-
lores superiores (independientemente del signo) son respectivamente el 5% y el
1%, que son probabilidades aceptadas como límite convencional de lo probable.
4. CÓMO DIBUJAR LA CURVA NORMAL
La altura (Y, y que representa la frecuencia o número de casos) en cual-
quier curva normal y en cualquiera de sus puntos (los valores de X, que repre-
sentan la magnitud) guarda siempre una determinada proporción con la al-
tura máxima (que corresponde a la media). Esos puntos están determinados
en puntuaciones típicas (z): conocida una z, sabemos qué altura tiene la cur-
va en ese punto con respecto a la altura máxima (o mayor frecuencia) que co-
rresponde a de la media (z = 0).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
72
-3 -2,5 -2 -1,5 -1 -0,5 0,5
0 1 1,5 2 2,5 3
13,5%
4,4%
1,1%
32,5%
88,2%
100%
60,7%
88,2%
60,7%
32,5%
13,5%
4,4%
1,1%
Figura 7
En la figura 7 se dan las alturas de algunos puntos concretos; son unos
puntos de referencia suficientes para dibujar la curva. Si por ejemplo la altu-
ra máxima es de 8 cm (la altura absoluta se escoge arbitrariamente), la altura
correspondiente a +1 y -1 desviaciones típicas (los puntos de inflexión) será
el 60.7% de 8cm, que es igual a 4.85 cm ([8/100]x 60.7).
5. CÓMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIÓN NORMAL
Las tablas de la distribución se pueden presentar de maneras distintas y
hay que examinarlas en cada caso, pero la información es siempre la misma.
Lo que habitualmente interesa conocer es la probabilidad de obtener una
puntuación mayor o menor que una determinada puntuación típica.
Recordamos que una puntuación típica indica la distancia o diferencia de
una puntuación (u observación) con respecto a la media expresada en desvia-
ciones típicas. La media corresponde siempre a z = 0; las puntuaciones típi-
cas superiores a la media tienen el signo más y las puntuaciones típicas infe-
riores a la media tienen el signo menos.
Cómo se utilizan las tablas de la distribución normal lo veremos con unos
ejemplos3
.
5.1. Puntuaciones típicas positivas (superiores a la media)
Por ejemplo z = +1.64
1. Lo primero que tenemos que hacer es imaginar o dibujar una curva
normal (figura 8) en la que la media (z = 0) divide la distribución en
dos áreas de idéntico tamaño; por encima de la media cae el 50% de los
casos y por debajo tenemos el otro 50% de los casos.
LA DISTRIBUCIÓN NORMAL
73
3
Las tablas de la distribución normal se encuentran al final de esta publicación.
Figura 8
2. Como z = +1.64 es superior a la media, trazamos una línea por dónde
más o menos cae z = +1.64, lo que importa es dibujarla a la derecha de la
media (figura 9) que es donde están todos los valores positivos (figura 9).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
74
Figura 9
Observamos que el área total de la distribución queda dividida en dos par-
tes, área mayor y área menor. Al menos estas áreas mayor y menor suelen
figurar en todas las tablas.
Vamos a las tablas para ver los valores que corresponden a z = 1.64:
Puntuación Área de la Área de la
típica parte mayor parte menor
1.64 .9495 .0505
Cómo se interpreta:
Área de la parte mayor.
a) La proporción de casos que caen por debajo de + 1.64 es de .9495 o
(multiplicando por 100) el 94.95 % de los casos tienen una puntuación
inferior a z = + 1.64.
b) Si redondeamos los decimales tenemos que una puntuación de z = +
1.64 supera al 95 % de los casos o, lo que es lo mismo, que en la distri-
bución normal una puntuación típica de +1.64 corresponde al Per-
centil 95.
Área de la parte menor.
a) La proporción de casos que caen por encima de + 1.64 es de .0505 o
(multiplicando por 100 y redondeando) el 5 % de los casos tienen una
puntuación superior a z = + 1.64.
b) La probabilidad de obtener una puntuación típica superior a + 1.64
es de .05 (sólo el 5 % de los casos superan a z = + 1.64), o, lo que es lo
mismo, en la distribución normal una puntuación típica de -1.64 co-
rresponde al Percentil 5.
5.2. Puntuaciones típicas negativas (inferiores a la media)
Por ejemplo z = -1.64 (figura 10).
Como z = -1.64 es inferior a la media (= 0), trazamos una línea por dónde
más o menos cae z = -1.64, lo que importa ahora es dibujarla a la izquierda de
la media (z = 0) que es donde están todos los valores negativos, como ya he-
mos visto en la figura 4.
LA DISTRIBUCIÓN NORMAL
75
Figura 10
Puntuación Área de la Área de la
típica parte mayor parte menor
1.64 .9495 .0505
Ahora las áreas mayor y menor están invertidas (la curva es simétrica).
Como en las tablas las puntuaciones típicas están sin signo más o menos, los
valores son los mismos.
Lo que va a variar cuando la puntuación típica es negativa (inferior a la
media) es la interpretación de las áreas mayor y menor.
Área de la parte mayor
El 95 % de los casos caen por encima de z = –1.64, o la probabilidad de
obtener una puntuación superior a –1.64 es de .95 (o del 95 %).
Área de la parte menor.
a) La probabilidad de obtener una puntuación típica inferior a –1.64 es
de .05 (o del 5 %)
b) Una puntuación típica igual a –1.64 supera al 5 % de los casos, o, lo que
es lo mismo, en la distribución normal una puntuación típica de z =
–1.64 equivale al Percentil 5.
Las interpretaciones más útiles y frecuentes son las que están puestas en
cursiva:
1. Probabilidad de obtener una puntuación típica superior si es positiva o
inferior si es negativa. En ambos casos nos fijamos en el área menor.
2. Percentil equivalente a cualquier puntuación típica, o tanto por ciento
de casos que caen por debajo porque son superados por esa puntua-
ción típica:
percentil
Si la puntuación típica es positiva área mayor
Si la puntuación típica es negativa área menor
5.3. Puntuaciones típicas positivas o negativas (en términos absolutos)
Con frecuencia nos interesa conocer las probabilidades de obtener una
puntuación mayor en términos absolutos (superiores con signo más e infe-
riores con signo menos).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
76
Figura 11
La probabilidad de encontrar una puntuación superior a 1.96 (positiva o nega-
tiva, en términos absolutos) es del 5% (2.5% + 2.5%). El apartarse en 1.96 desvia-
ciones típicas de la media (independientemente del signo) se considera ya muy
inusual, muy poco probable; en muchos planteamientos de investigación los re-
sultados convencionalmente normales (el 95%) se sitúan entre –1.96 y +1.96.
6. BREVE NOTA HISTÓRICA4
La distribución normal ha sido descubierta y estudiada por diferentes per-
sonas de manera independiente, y no siempre se le ha atribuido a la misma
persona. En lo que podríamos llamar historia de la distribución normal pode-
mos destacar estos nombres.
1. Abraham De Moivre (último tercio del siglo XVII y primera mitad del
XVIII) es el primer autor en publicar una explicación de la distribución
En estos casos multiplicamos por dos el área menor, porque nos fijamos
en los dos extremos de la distribución (figura 11).
La probabilidad de obtener una puntuación superior a 1.64 en términos
absolutos es de .10 o del 10 %; un 5 % por encima de +1.64 y otro 5 % por de-
bajo de –1.64.
Un caso de especial interés en estadística inferencial es el de la tabla 12,
que corresponde a z = 1.96
LA DISTRIBUCIÓN NORMAL
77
4
Sobre la historia de la Distribución Normal puede verse Lane, David (2007) (en la
referencias bibliográficas; dirección de Internet).
Figura 12
normal (en 1733) tal como la entendemos ahora5
. El objetivo y el con-
texto son los juegos de azar (probabilidades de ganar…), aunque la
preocupación de De Moivre era más teológica (el aparente desorden
del Universo es consistente con un plan inteligente; el caos es aparen-
te porque tiene sus normas, etc.).
2. El marqués de Laplace y Carlos Federico Gauss (matemáticos y astró-
nomos; ambos entre los siglos XVIII y primera mitad del XIX; Gauss fue
un prodigio de las matemáticas) también estudiaron y desarrollaron la
distribución normal (también denominada campana de Gauss), sobre
todo, aplicada a la observación astronómica. Gauss denominó a esta
distribución distribución de errores (en sus observaciones sobre la ór-
bita de los asteroides); de Gauss es también el concepto de error típi-
co de la media.
3. Quetelet (astrónomo belga) y Galton (ambos ya en el siglo XIX) son los
primeros en descubrir y estudiar las aplicaciones de la distribución nor-
mal a las medidas de antropometría (altura, etc.) y a los fenómenos so-
ciales, y de ahí se pasó a otro tipo de medidas (como de inteligencia y
a otras ya en el campo de la psicología, educación, etc.).
4. Finalmente a Karl Pearson (1857-1936) le debemos el término de cur-
va normal.
ANEXO: LA DISTRIBUCIÓN NORMAL EN INTERNET
En Internet existen varios programas sencillos en los que dada una puntuación tí-
pica nos dan las probabilidades exactas de obtener una puntuación típica:
a) inferior (percentil)
b) superior,
c) entre dos puntuaciones típicas (la misma con distinto signo).
d) superior en términos absolutos (fijándonos en las dos áreas menores, como
en las figura 11 y 12)
Un dirección muy cómoda es la de Surfstat.australia: an online text in introduc-
tory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el
menú Tables y escogemos Standard Normal (hay otras opciones) que presenta gráfi-
camente las diversas opciones (figura 13).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
78
5
De Moivre deriva la distribución normal como una expansión de la distribución bi-
nomial.
Basta señalar la opción deseada en las representaciones de la distribución normal
e introducir el valor de la puntuación típica (z value).
En probability tendremos la probabilidad de que se dé una puntuación en el área
sombreada (o tanto por ciento si multiplicamos por 100).
Las dos opciones más frecuentes las vemos en la figura 14
LA DISTRIBUCIÓN NORMAL
79
0 Z 0 Z 0 Z
-Z 0 Z
-Z
Figura 13
Figura 14
a b c d
z value probability
0 Z
0 Z
-Z
Probabilidad de obtener una puntuación inferior
(cualquiera que sea el signo). Si multiplicamos por 100 y
eliminamos los decimales tenemos el percentil que
corresponde a una puntuación típica en la distribución
normal.
Probabilidad de obtener una puntuación superior
independientemente del signo. Se utiliza habitualmente
en estadística inferencial para determinar si es muy
improbable que un resultado sea casual.
CAPÍTULO 4
TIPOS DE PUNTUACIONES INDIVIDUALES
1. LAS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIÓN
La media, la desviación típica, y otros estadísticos, son medidas grupales:
nos describen cómo es una muestra, pero en principio no nos dicen nada so-
bre cada sujeto concreto. Ahora nos ocupamos de los sujetos individuales
que han respondido a un test de personalidad o de cualquier otro tipo, o han
hecho un examen ¿Qué podemos decir de cada sujeto individual? ¿Qué in-
formación útil e interpretable se puede dar de cada sujeto?1
Una puntuación directa2
es el dato aportado directamente por el instru-
mento de medida, por ejemplo:
Una altura de 1.65 m.,
Un total de 25 respuestas correctas en un test objetivo
Un 5, que es como se ha codificado la respuesta muy de acuerdo en un
cuestionario
Un 32, que es la suma de las respuestas a una escala de actitudes
El símbolo habitual de las puntuaciones directas es X (equis mayúscula).
Estas puntuaciones directas no son siempre fáciles de interpretar, y tam-
poco son comparables entre sí a no ser que procedan de un instrumento si-
milar. Por ejemplo no es lo mismo X = 20 o 20 respuestas correctas en un test
de 25 preguntas, que X = 20 o 20 respuestas correctas en un test de 50 pre-
guntas. Tampoco es lo mismo responder correctamente a 20 preguntas fáci-
les que a 20 preguntas difíciles.
81
1
Tanto este capítulo como el de la fiabilidad son importantes en psicometría.
2
En inglés raw store también se traduce como puntaje bruto (en América Latina).
Las puntuaciones directas necesitan con frecuencia algún tipo de transfor-
mación para que aporten información útil o simplemente para poder inter-
pretarlas con facilidad, o para poder comparar resultados individuales obteni-
dos con instrumentos distintos.
Es muy útil tanto entender estas transformaciones como saber hacerlas
por estas razones:
a) Para poder interpretar adecuadamente las normas de los tests. Estas
normas o baremos son las claves para interpretar los resultados indivi-
duales; el usuario de los tests debe estar familiarizado con estos siste-
mas de transformación e interpretación de puntuaciones individuales.
b) No se trata ya solamente de poder interpretar adecuadamente las nor-
mas de un test, sino también de construirlas, es decir, de preparar las
claves de interpretación para otros usuarios. Aunque los tests vienen ya
con sus normas, el preparar este tipo de normas o claves de interpreta-
ción puede ser necesario por una serie de razones profesionales:
1. En tests o escalas de construcción propia;
2. Los tests publicados vienen con sus propias normas de interpreta-
ción (en el manual del test); estas normas están hechas a partir de
los datos obtenidos en una determinada muestra, pero si se utiliza
el test con una muestra muy distinta, puede ser necesario rehacer
esas normas con esa nueva muestra, ya que la muestra original pue-
de no ser la adecuada como término de comparación en un nuevo
grupo; lo mismo sucede cuando un test se adapta (o se traduce) pa-
ra ser utilizado en otros ámbitos culturales.
3. Con el paso del tiempo las normas de interpretación pueden que-
dar obsoletas debido a diversos cambios sociales (puede variar in-
cluso la capacidad lectora media, o las actitudes sociales, etc.); ha-
brá que preparar normas actualizadas con una nueva muestra
normativa (suele estimarse que la duración media de las normas de
un test puede estar en torno a 10 años).
c) Estas transformaciones de las puntuaciones directas también pueden
ser útiles en planteamientos de evaluación o calificación. No deben en-
tenderse o interpretarse estas modalidades de transformación de las
puntuaciones directas como sistemas o modos de calificación, pero la
información que aportan puede ser también útil con esta finalidad.
2. PROPORCIÓN DE RESPUESTAS CORRECTAS
En el caso de tests de rendimiento (pruebas objetivas) una transforma-
ción sencilla de las puntuaciones directas consiste en calcular la proporción
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
82
(porcentaje si multiplicamos por 100) de respuestas correctas. 20 respuestas
correctas de un total de 25 es igual al 80 % de respuestas correctas (20/25 =
.80); en cambio 20 respuestas correctas de un total de 50 es igual al 40 % de
respuestas correctas (20/50= .40).
Esta proporción de respuestas correctas aporta una información sobre ca-
da sujeto que no es relativa al grupo y es especialmente útil en exámenes y
otras pruebas de rendimiento académico (pruebas tipo test), cuando va a se-
guir una calificación. Pero no siempre hay respuestas correctas en sentido
propio (por ejemplo en un test de personalidad o en una escala de actitudes).
Otros tipos de puntuaciones que son relativas al grupo (como los per-
centiles) son más útiles en otro tipo de medidas (tests de variables no cogni-
tivas) y en cualquier caso, incluso en tests de rendimiento académico, apor-
tan un tipo distinto de información que con frecuencia es de interpretación
más útil y sencilla, o la única apropiada.
3. PUNTUACIONES DIFERENCIALES
Se denominan puntuaciones diferenciales a la diferencia entre cada pun-
tuación directa y la media de su distribución.
Un símbolo frecuente de estas puntuaciones es x (equis minúscula) y
también, para evitar confusiones con el símbolo de las puntuaciones directas
(X, equis mayúscula), a veces se utiliza d:
x = d = (X -X)
Las puntuaciones superiores a la media tendrán signo positivo, y las infe-
riores tendrán signo negativo. Estas puntuaciones no suelen utilizarse como
expresión habitual de resultados individuales, pero intervienen en el cálcu-
lo de las puntuaciones típicas (y de la desviación típica como ya se vio en su
lugar).
4. LAS PUNTUACIONES TÍPICAS
4.1. Qué son las puntuaciones típicas
Una puntuación típica expresa en cuántas desviaciones típicas se apar-
ta una puntuación individual de la media de su grupo.
Las puntuaciones típicas son por lo tanto puntuaciones diferenciales (dife-
rencias con respecto a la media) expresadas tomando como unidad la desvia-
ción típica (s). En las puntuaciones típicas sí se puede decir que hay una uni-
dad, que es la desviación típica.
TIPOS DE PUNTUACIONES INDIVIDUALES
83
El símbolo de las puntuaciones típicas es z (zeta minúscula); también
suelen denominarse simplemente puntuaciones zeta y a veces puntuaciones
estandarizadas (standard score en inglés). Su fórmula es:
Puntuación obtenida-media
Puntuación típica (z) = ––––––––––––––––––––––
desviación típica
Y en símbolos convencionales [1]
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
84
El valor de z indica por lo tanto cuántas desviaciones típicas contiene la di-
ferencia X - X (a cuántas desviaciones típicas equivale esa diferencia); la des-
viación típica es ahora nuestra unidad de medición; el dato individual lo ex-
presamos en términos de desviaciones típicas por encima o por debajo de la
media.
Por ejemplo imaginemos los resultados de tres sujetos (suponemos que la
muestra es mayor) en un examen; la media es X = 10 y la desviación típica es
s = 2 (tabla 1)
Tabla 1
La puntuación directa de estos tres sujetos ha quedado transformada en
un nuevo valor.
En este ejemplo ya podemos ir viendo que:
a) Si un sujeto tiene un resultado igual a la media, su puntuación típica
será igual a cero; al restar a todos la media, el que tenga como resulta-
do personal la media se queda en cero.
b) Todos los que tengan una puntuación directa superior a la media, ten-
drán una puntuación típica con signo positivo;
c) Todos los que tengan una puntuación directa inferior a le media, ten-
drán una puntuación típica con signo negativo.
Todos los datos quedan por lo tanto distribuidos en torno a una media =
0. El orden de los sujetos es naturalmente el mismo (el primero sigue siendo
el primero, etc.), pero los valores absolutos son muy distintos.
Por lo general estos valores, de signo más y signo menos, tienen decimales
(se suelen conservar dos decimales) y los valores extremos tienden a estar en-
tre -3 y + 3 cualquiera que sea la magnitud de las puntuaciones originales; es
muy difícil superar estos valores por encima o por debajo como se ha visto al
tratar de la distribución normal.
Ya podemos ir intuyendo la utilidad de estas puntuaciones típicas, por ejem-
plo para comparar y valorar resultados individuales. De todas las puntuaciones
derivadas, las puntuaciones típicas son probablemente las más interesantes y las
más útiles. Su relación con la distribución normal las hace sumamente útiles.
4.2. Propiedades de las puntuaciones típicas
Las puntuaciones típicas tienen propiedades que las hacen especialmente
útiles:
1º La suma de las puntuaciones típicas elevadas al cuadrado es igual al
número de sujetos:
Sz2
= N porque
Esta propiedad no tiene especial interés práctico, pero se utiliza en algu-
nas demostraciones (por ejemplo, para demostrar que la desviación típica de
las puntuaciones típicas es igual a 1, lo mismo que el valor máximo del coefi-
ciente de correlación de Pearson).
2º La media de las puntuaciones típicas es igual a cero:
Sz
Z = 0 porque z = –––––= 0
N
las zetas negativas y positivas se anulan mutuamente.
Si la media de las puntuaciones típicas es cero, todas las puntuacio-
nes directas superiores a la media tendrán una puntuación típica
positiva, y si son inferiores a la media, tendrán una puntuación típi-
ca negativa.
3º La desviación típica y la varianza de las puntuaciones típicas es
igual a la unidad:
TIPOS DE PUNTUACIONES INDIVIDUALES
85
El que la desviación típica de las puntuaciones típicas sea igual a 1 tiene
consecuencias importantes. En una combinación de puntuaciones parciales,
la que pesa más en la media final es aquella con una mayor desviación típica.
Si calculamos una media a partir de las puntuaciones típicas, todas las puntua-
ciones parciales pesarán lo mismo, porque todas tendrán idéntica desviación
típica.
4º Si sumamos a todas las puntuaciones directas una constante, la des-
viación típica permanece idéntica, porque se mantienen idénticas las
distancias con respecto la media.
Lo podemos ver en las tres series de puntuaciones puestas en la tabla [2].
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
86
En B hemos sumado 12 puntos a cada sujeto con respecto a A, y en C he-
mos sumado 80 a las puntuaciones de B. Naturalmente las medias son distin-
tas, pero las desviaciones típicas son idénticas porque las distancias inter-indi-
viduales son las mismas: el grado de homogeneidad (diferencias de los
sujetos con respecto a su media) de los tres grupos es el mismo.
5º Si multiplicamos todas las puntuaciones directas por una constante,
la desviación típica queda multiplicada por esa constante, porque
en esa cantidad ha aumentado la diferencia con respecto a la media.
Lo vemos en este ejemplo:
grupo A: 8 10 12 media: 10 s = 1.63
grupo B (= Ax2): 16 20 24 media: 20 s = 3.26
Al multiplicar por dos las puntuaciones del grupo A, la desviación típica (lo
mismo que la media) también queda multiplicada por dos (1.63 x 2 = 3.26).
Estas dos propiedades son importantes porque nos permiten transformar
las puntuaciones típicas en otras más cómodas; son las puntuaciones tipifi-
cadas que veremos más adelante.
Tabla 2
6º En la distribución normal hay una relación exacta entre cada pun-
tuación típica y el número de casos que caen por encima y por deba-
jo de cada puntuación, o lo que es lo mismo:
a) En la distribución normal conocemos la probabilidad que tiene de
ocurrir cada puntuación típica,
b) En la distribución normal a cada puntuación típica le corresponde
siempre el mismo percentil (o proporción de sujetos o casos que
caen por debajo de esa puntuación).
En estas propiedades radican muchas de las ventajas y de los usos de estas
puntuaciones y de sus puntuaciones derivadas, que veremos a continuación,
como son las puntuaciones tipificadas y las puntuaciones normalizadas.
4.3. Utilidad de las puntuaciones típicas
1. Al traducir todas las puntuaciones directas a puntuaciones típicas tene-
mos una única escala métrica cualquiera que sea la magnitud de las puntua-
ciones originales, por lo que podemos comparar unos resultados con otros
con más objetividad y realismo que si lo hacemos con las puntuaciones direc-
tas. Podemos comparar, por ejemplo, peso con altura (¿qué es más, 58 Km. de
peso ó 1.69 m de altura?) o 20 respuestas correctas en un examen de 30 pre-
guntas con otro resultado de 20 respuestas correctas en un examen de 50
preguntas.
Todo tipo de puntuación, cualquiera que sea la unidad original, queda
transformado en un sistema común; por lo tanto se puede comparar todo
con todo: resultados de exámenes con niveles de dificultad muy distintos, ca-
lificaciones puestas con criterios de exigencia distintos, etc., y también resul-
tados que provienen de instrumentos distintos cuyas puntuaciones directas
no serían comparables (por ejemplo si el número de preguntas es distinto, o
si una es una prueba objetiva y otra una prueba abierta, etc.). Además ya sabe-
mos que en las puntuaciones típicas la media es siempre 0 y la desviación tí-
pica es siempre 1 por lo que las puntuaciones superiores a la media son po-
sitivas, y las puntuaciones inferiores a la media son negativas. Una puntuación
que coincida con la media del grupo, equivale siempre a una puntuación tí-
pica de cero.
2. Concretamente en el caso de exámenes (y en otros casos, pero el ejem-
plo de los exámenes es muy claro) las puntuaciones típicas reflejan mejor
dónde está un sujeto (en términos relativos, comparado con el resto de los
sujetos) independientemente de la facilidad o dificultad del examen.
Tenemos por ejemplo estos datos de dos exámenes de 20 preguntas (con
distinta media e idéntica desviación típica):
TIPOS DE PUNTUACIONES INDIVIDUALES
87
examen fácil examen difícil
media: 18 8
desviación típica 1.6 1.6
Un alumno que en el examen fácil tenga 13 respuestas correctas tendrá
esta puntuación típica:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
88
3
Ciudades más fáciles: Londres, Oporto, Venecia, Canberra, Dublín, Milán, Coimbra
y Bruselas.
Ciudades menos fáciles: Montreal, Toronto, Madrás (ahora Chennai), Macao, Yakarta,
Bucarest, Praga y Orán.
Ciudades difíciles: Iquitos, Manaos, Zamboanga, Sanaa, Cahabón, Chichicastenango,
Champerico y Kuala-Lampur (Iquitos está en Perú, Manaos es la capital de la amazonía bra-
sileña, Zamboanga está en la isla filipina de Mindanao, Sanaa es la capital del Yemen, Kua-
la-Lampur es la capital de la Federación Malaya; Cahabón, Chichicastenango y Champerico
no tienen especial dificultad si se conoce Guatemala).
No es un mal resultado en términos absolutos (65%
de respuestas correctas) pero la puntuación típica
es muy baja; no sabe lo que sabe la mayoría de sus
compañeros.
Un alumno que en el examen difícil también tenga 13 respuestas correc-
tas tendrá esta puntuación típica:
Tiene también un 65% de respuestas correctas, pero
la puntuación típica es muy alta; este alumno sabe
lo que no sabe la mayoría de sus compañeros.
Estas puntuaciones típicas reflejan mejor lo que saben estos alumnos te-
niendo en cuenta la facilidad o dificultad del examen.
Vamos a verlo con un ejemplo real: 48 alumnos responden a tres supues-
tos exámenes; cada examen consta de 8 preguntas, que son los nombres de
otras tantas ciudades; los alumnos tienen que responder identificando el pa-
ís donde está cada ciudad. En un examen se trata de ciudades fáciles, en otro
de ciudades menos fáciles y en el tercero de ciudades pretendidamente difí-
ciles.
En la tabla 3 tenemos las distribuciones de frecuencias, la media y desvia-
ción de cada examen y la puntuación típica que corresponde a cada resultado
en cada uno de los tres exámenes3
.
Qué podemos observar en estos datos.
Al menos podemos fijarnos en que la puntuación típica más alta es z =
5.99 en el examen más difícil: saber tres ciudades difíciles es mucho más que
saber las ocho fáciles (z = 1.57), e incluso conocer una sola ciudad difícil (z =
1.82) supone más que conocer las ocho fáciles. También conocer donde están
cuatro ciudades de las menos fáciles (z = 1.64) es más que conocer todas las
fáciles. Si nos fijamos en las puntuaciones típicas más bajas de cada examen,
vemos que la más baja corresponde a conocer dos ciudades fáciles (z = -2.61)
y el no conocer ninguna ciudad difícil tiene una puntuación mayor (z = -.26)
que conocer solamente cinco ciudades fáciles (z = -.52).
Cuando las medias de dos exámenes (por ejemplo) son idénticas (o muy pa-
recidas) pero las desviaciones típicas son muy distintas, las puntuaciones típicas
que corresponden a cada puntuación directa pueden ser también muy distintas.
Vamos a suponer que tenemos tres puntuaciones directas, 14, 12 y 10, ob-
tenidas en dos exámenes distintos y que son en este ejemplo el número de
respuestas correctas de tres alumnos (tabla 4). En los dos exámenes la media
es la misma (e igual a 12; lo suponemos así) pero las desviaciones típicas son
muy distintas (s = 2 en el examen A y s = 4 en el examen B). En cada caso el
mismo número de respuestas correctas (puntuación directa) va a equivaler a
puntuaciones típicas muy distintas.
TIPOS DE PUNTUACIONES INDIVIDUALES
89
Tabla 3
Tabla 4
Aquí vemos que un resultado de:
14 respuestas correctas vale más en el examen A (z = +1) que en el exa-
men B (z = +0.5)
10 respuestas correctas vale menos en el examen A (z = -1) que en el exa-
men B (z = -0.5)
Es decir, una misma diferencia con respecto a la media equivale a una pun-
tuación típica mayor (positiva o negativa) en la medida en que la desviación
típica es más pequeña. Dicho de otra manera, una diferencia con respecto a
la media es mayor al convertirla en una puntuación típica cuando el grupo
es más homogéneo (y tiene una desviación típica pequeña). Y el estar por de-
bajo de la media resulta en una puntuación típica también más baja cuando el
grupo es más bien homogéneo.
3. Las puntuaciones típicas permiten calcular medias, si se desea, sin que
ninguna puntuación parcial pese más que otra, pues en todas las puntuacio-
nes parciales la desviación típica es la misma (siempre s = 1 en las puntuacio-
nes típicas).
Esto puede ser especialmente útil cuando las calificaciones (u otro tipo de
datos) proceden de profesores distintos, o de exámenes o situaciones muy
distintas: podemos calcular la puntuación típica de cada sujeto en cada situa-
ción y calcular la puntuación típica media; en este caso todas las puntuacio-
nes parciales pesan en principio lo mismo. Si se desea que alguna puntuación
parcial pese más por alguna razón, se puede ponderar después esa puntua-
ción parcial ya convertida en típica (o tipificada como veremos después). Es-
tas puntuaciones típicas medias se pueden convertir después en calificacio-
nes convencionales.
4. Las puntuaciones típicas permiten apreciar resultados atípicos, objeti-
var mejor resultados extremos ya que sabemos las probabilidades de ocu-
rrencia de cada puntuación típica.
Esto es posible dada la relación entre las puntuaciones típicas y la distribu-
ción normal. Si conocemos el valor de una puntuación típica, podemos conocer
la probabilidad que tiene de darse por azar (nos basta consultar las tablas de la
distribución normal). En general un 68% del grupo está entre +1 y -1 puntuacio-
nes típicas (entre esos límites se puede considerar que está aproximadamente la
normalidad estadística), y puntuaciones que superen +2 o no lleguen a -2 son
aproximadamente el 5%. Prácticamente el 100% de los casos está comprendido
entre z = +3 y z = -3. En un ejemplo ilustrativo puesto antes, 13 respuestas co-
rrectas en el examen fácil es un resultado atípicamente bajo, y en el examen
difícil 13 respuestas correctas es un resultado atípicamente alto. En los exáme-
nes de ciudades de la tabla 3, conocer 7 ciudades de las no tan fáciles o 3 de las
más difíciles son resultados anormalmente altos.
5. Las puntuaciones típicas pueden ser un buen marco de referencia
(aunque no necesariamente) para establecer criterios de calificación, pero
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
90
teniendo siempre en cuenta que se trata de puntuaciones relativas al gru-
po, por lo que es discutible utilizarlas para establecer el nivel mínimo para
el apto (que es preferirle determinar con otros criterios; el que sabe menos
puede saber lo suficiente). Es menos cuestionable su uso para asignar las
calificaciones más altas (una puntuación típica en torno a +2, e incluso me-
nor, indica ya un resultado excelente para lo que de hecho da de sí un de-
terminado grupo).
6. Para interpretar debidamente las puntuaciones típicas hay que tener en
cuenta de qué tipo de datos se trata: no es lo mismo número de respuestas
correctas en una prueba objetiva que las calificaciones puestas por el profe-
sor al corregir un examen abierto, notas, etc.
En principio estos cálculos son de interpretación más clara cuando están
hechos a partir de puntuaciones o resultados directos más que cuando los
números expresan calificaciones o juicios de valor.
4.4. Puntuaciones tipificadas (puntuaciones típicas transformadas)
Las puntuaciones tipificadas son puntuaciones derivadas de las puntuacio-
nes típicas. El símbolo general de las puntuaciones tipificadas es Z (zeta ma-
yúscula); algunas puntuaciones tipificadas tienen sus símbolos particulares.
Las puntuaciones típicas son incómodas para expresar resultados porque:
a) Prácticamente siempre tienen decimales,
b) Más o menos la mitad de las puntuaciones típicas tienen signo menos
(todas las inferiores a la media).
Por estas razones, y sobre todo para poder expresar resultados de tests de
manera más fácilmente comprensible, suelen transformarse en otras puntua-
ciones más cómodas.
Se trata de una transformación linear, cuya fórmula genérica es
Z = (z • a) + b [2] donde a y b son dos constantes.
Es decir, todas las puntuaciones típicas:
1º Se multiplican por una cantidad constante (a) y así se eliminan los de-
cimales (estas puntuaciones se redondean y se expresan sin decima-
les);
2º Se les suma una cantidad constante (b) y así se elimina el signo menos.
Entre las puntuaciones tipificadas son muy utilizadas las puntuaciones T:
T = 10z + 50 [3]
También es frecuente hacer estas transformaciones: Z = 20z + 100
Z = 15z + 100
Z = 100z + 500
TIPOS DE PUNTUACIONES INDIVIDUALES
91
Al tipificar una serie de puntuaciones, automáticamente tenemos una nue-
va media y una nueva desviación típica, que son siempre las mismas cual-
quiera que sea la escala métrica de las puntuaciones directas originales:
1. La nueva media es igual a la constante que se suma a todas las pun-
tuaciones.
Un sujeto cuya puntuación directa coincidiera con la media de la distri-
bución, tendría z = 0, y su puntuación T (fórmula [3]) sería 10(0) + 50
= 50; si la constante que se suma es 100, la media sería 100, etc.
2. La nueva desviación típica es igual a la constante por la que se han
multiplicado las puntuaciones típicas.
Un sujeto cuya puntuación directa supere en una desviación típica a la
media, tendría una puntuación típica de z = 1, y su puntuación T sería
T = 10(1) + 50 = 60 (la media, 50, + 1s = 50 +10).
Podemos establecer que los valores de la media y de la desviación sean los
que queramos. Si deseamos transformar las puntuaciones de manera que la
media sea 20 y la desviación típica valga 5, tendremos que Z = 5z + 20, etc.
Lo mismo que en las puntuaciones típicas, a cada puntuación tipificada le
corresponde en la distribución normal el mismo percentil.
Las puntuaciones tipificadas resultan mucho más fáciles de interpretar que
las puntuaciones directas, sobre todo cuando se trata de tests. Si los resulta-
dos de un test de inteligencia se han transformado de esta manera (como es
frecuente) Z = 20z + 100:
Un sujeto con una puntuación de 100 está en la media (porque a la media
le corresponde una z igual a 0: (20)(0)+100 = 100.
Un sujeto que tenga 160 supera a la media en tres desviaciones típicas
(100 +20 +20 +20); que es ya excepcional.
Un sujeto que tenga 60 (100 - 20 -20) está a dos desviaciones típicas por
debajo de la media, y ya se va apartando mucho de la normalidad.
5. PERCENTILES
5.1. Concepto e interpretación
1º Los percentiles indican el tanto por ciento de sujetos que están por deba-
jo de cada puntuación.
Los percentiles son por lo tanto fáciles de interpretar, de entender y de co-
municar. Si un sujeto con una puntuación de 19 (en un test, en una prueba
objetiva, etc.) supera al 45% de su grupo:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
92
La puntuación 19 es el percentil 45 (P45),
Del sujeto se dice que tiene un rango percentil de 45.
El percentil indica la posición relativa del sujeto en el grupo, sin referen-
cia a niveles absolutos. En sentido propio no se trata de una puntuación por-
que no está referido al rasgo o variable que se ha medido; no hay una uni-
dad: entre dos percentiles contiguos no hay la misma distancia en aquello
que estamos midiendo. Así si un sujeto en un examen está en el Percentil 80,
no podemos decir que sabe el doble del que esté en el Percentil 40, sino que
tiene por debajo el doble número de sujetos.
Por ejemplo, un sujeto que tenga en un examen de conocimientos un ran-
go percentil de 98 supera al 98% de su clase, pero esto no quiere decir que se-
pa mucho en términos absolutos, sino que sabe más que la mayoría. Y a la
inversa, un sujeto puede estar en el Percentil 5 (el 95% está mejor que él) y
saber lo suficiente. Por esta razón los percentiles pueden ser muy discutibles
como dato para establecer calificaciones.
Naturalmente si los percentiles de un test de conocimientos se han calcu-
lado en una muestra muy amplia (no en una clase normal), tiene más senti-
do decir que el que esté en el percentil 95 sabe mucho y que el que esté en el
percentil 5 sabe poco, pero en definitiva siempre hay que sobrentender com-
parado con los demás que han respondido a ese test y con los que se calcu-
laron esos percentiles.
Si no se trata de un examen de conocimientos, sino, por ejemplo, de un
test de neuroticismo posiblemente podemos decir, y tiene sentido, que el su-
jeto que esté en el percentil 95 es muy neurótico, porque en el lenguaje con-
vencional solemos decir que una persona es muy simpática, o muy sociable,
etc. cuando es más simpática, sociable, etc. de lo normal, y lo normal es lo
que solemos ver en la mayoría de la gente. Pero hay que tener claro que siem-
pre se trata de valoraciones relativas al grupo cuyas respuestas han servido
para calcular esos percentiles.
2º Para interpretar adecuadamente los percentiles individuales, estos tienen
que estar calculados en una muestra de referencia apropiada.
Como el marco de referencia para interpretar los percentiles es el grupo,
no se debe comparar (y evaluar, juzgar) a un sujeto tomando como referen-
cia un grupo que no sea o no pueda ser el suyo. Hace falta siempre un gru-
po de referencia apropiado.
Las normas de interpretación (o baremos) que vienen publicadas en mu-
chos tests son con frecuencia percentiles (puede tratarse de otro tipo de pun-
tuaciones) calculados previamente en una muestra distinta. Siempre hay que
considerar si esa muestra es un buen grupo de referencia (y por lo tanto un
buen término de comparación) para los nuevos sujetos que responden al
TIPOS DE PUNTUACIONES INDIVIDUALES
93
test. En cualquier caso este tipo de normas de interpretación (percentiles y
otras) hay que renovarlos cada cierto tiempo (como ya hemos indicado, la
edad media de un test, o más bien de sus baremos o normas de interpreta-
ción, puede no ser superior a 10 años; con el tiempo pueden variar actitudes
sociales, niveles educativos, capacidad lectora, etc.).
Con frecuencia es preferible calcular unos nuevos percentiles para mues-
tras quizás muy distintas de las que sirvieron para hacer los baremos origina-
les (y esta observación es válida también para otros tipos de normas de los
tests, no sólo para los percentiles).
3º Algunos percentiles tienen nombres y símbolos específicos:
1. Deciles: son los percentiles 10, 20, etc., y se simbolizan D1, (= P10), D2,
(= P20), etc.
2. Cuartiles: son los percentiles que dividen al grupo en cuatro partes
con idéntico número de sujetos (el 25%):
Q3 (tercer cuartil) = P75: por encima está el 25 % de la muestra;
Q2 (segundo cuartil) = P50; se trata de la mediana, que se utiliza
como medida de tendencia central; divide al
grupo en dos partes iguales
Q1 (primer cuartil) = P25: por debajo está el 25% de la muestra
Estos tres valores se calculan a veces como puntos de referencia y para ha-
cer determinadas representaciones gráficas (como los diagramas de cajas).
4º Con los valores de Q1 y Q3 se calcula la desviación semi-intercuartílica:
Desviación semi-intercuartílica: [4]
a) La desviación semi-intercuartílica Q es la medida de dispersión que
se utiliza cuando la medida de tendencia central es la mediana. Mi-
de la dispersión en el 50% central de la muestra. Lo podemos ver con
los datos concretos de un test en la figura 1.
b) Tanto los deciles como los cuartiles se calculan por el método de inter-
polación que veremos más adelante.
c) Los valores de Q1 y Q3 se calculan con decimales cuando se van a utili-
zar en el cálculo de Q.
d) La mediana y Q, como medidas de tendencia central y dispersión, se
utilizan preferentemente con distribuciones muy asimétricas y en cual-
quier caso son medidas descriptivas complementarias, aunque menos
utilizadas que la media y la desviación típica;
e) La mediana y Q, como medidas de tendencia central y dispersión, son
especialmente útiles siempre que se prefiera que sujetos con puntua-
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
94
ciones muy extremas no influyan en las medidas de tendencia central y
de dispersión porque en su cálculo sólo se tiene en cuenta el 50% cen-
tral de la muestra.
5º Una limitación importante es que entre percentil y percentil no hay una
unidad constante en sentido propio y referida a aquello que se está mi-
diendo.
Del Percentil 95 al 90 no hay la misma distancia que del Percentil 45 al 40; sí
hay una proporción igual de sujetos (un 5%), pero no una cantidad de ciencia
(o de otra variable o rasgo) igual. Por la misma razón no se puede afirmar que
el que esté en el Percentil 80, si se trata de un test de conocimientos, sabe el do-
ble del que esté en el Percentil 40 (o que es el doble de neurótico si se trata de
un test de neuroticismo). De hecho las distancias en la variable medida son mu-
cho mayores entre los percentiles extremos (muy altos o muy bajos) que entre
los percentiles del centro de la distribución (entre el Percentil 80 y el 85, o en-
tre el 10 y el 15, hay más distancia que entre el Percentil 40 y el 45).
Al no haber una unidad no se pueden sumar y calcular percentiles medios
pues se prestan a interpretaciones equívocas. Si los diversos percentiles son
muy parecidos, la información del percentil medio ofrece menos distorsión,
pero en principio no se deben hacer manipulaciones aritméticas con los
percentiles porque se trata de puntuaciones ordinales; para hacer operacio-
nes aritméticas con los percentiles se deben convertir antes en puntuaciones
típicas (que a su vez se pueden después convertir en percentiles según la dis-
tribución normal).
Una manera de entender o más bien de visualizar que entre percentiles
contiguos no hay una unidad en sentido propio es imaginarlos como una es-
TIPOS DE PUNTUACIONES INDIVIDUALES
95
Figura 1
calera de peldaños de altura desigual: los peldaños de los extremos (los más
altos y los más bajos) son mayores, de mayor altura que en el centro. Esto se
entiende mejor al ver la relación entre percentiles y puntuaciones típicas en
la distribución normal.
6º En la distribución normal existe una correspondencia exacta entre per-
centiles y puntuaciones típicas.
En la distribución normal, a cada percentil le corresponde siempre la mis-
ma puntuación típica. El que por ejemplo supere a la media en una desvia-
ción típica (z = 1), estará en el Percentil 84 (aproximadamente).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
96
Tabla 5
En la tabla 5 podemos ver:
1º Cómo a una puntuación típica de z = 0 (la media), le corresponde el
percentil 50 (caen por debajo el 50% de los sujetos); a una z = 1, le co-
rresponde el percentil 84 (caen por debajo el 84% de los sujetos), etc.;
en las tablas de la distribución normal podemos encontrar los percen-
tiles exactos para cada puntuación típica.
2º Cómo los percentiles se acumulan en el centro de la distribución; por
ejemplo, entre z = 0 y z = 1 hay 34 percentiles, en cambio entre z =
+1 y z = +2 hay 14 percentiles, y por encima de z = +2 (como por de-
bajo de z = -2) solamente hay dos percentiles. La misma cantidad (de
lo que se esté midiendo) está repartida de manera desigual; dicho en
términos simples, los percentiles extremos tocan a más (como se pue-
de observar en la tabla 5).
Esto es lo que quiere decir que entre los percentiles no hay una unidad, y
que la distancia entre percentil y percentil en aquello que se mide (no en nú-
mero de sujetos) es mayor en los extremos de la distribución. Un percentil
más o un percentil menos por el centro de la distribución, no supone una di-
ferencia importante, pero sí en los extremos. Por esta razón en la interpreta-
ción de los tests (por ejemplo de personalidad) hay que prestar más atención
a los percentiles extremos.
En la figura 2 podemos ver también (gráficamente y de manera aproxima-
da) cómo una misma diferencia en percentiles no corresponde a diferencias
iguales en puntuaciones típicas, donde sí cabe hablar de una unidad (la des-
viación típica).
TIPOS DE PUNTUACIONES INDIVIDUALES
97
Figura 2
Entre los percentiles 95 y 75 existe la misma diferencia en percentiles
que entre los percentiles 75 y 55, pero si substituimos los percentiles por las
puntuaciones típicas que les corresponden, las diferencias son muy desigua-
les. Del percentil 75 al 95 hay una distancia mayor (.97 s) que del percentil
55 al 75 (.55 s) cuando utilizamos como unidad la desviación típica.
5.2. Cálculo de los percentiles
Hay varios métodos para calcular los percentiles:
1. El cálculo directo; es el más frecuente y se utiliza siempre que desea-
mos calcular los percentiles para la interpretación de resultados indivi-
duales.
2. El cálculo por interpolación: se utiliza sobre todo cuando interesa co-
nocer el valor de percentiles específicos que quizás (y frecuentemente)
ningún sujeto ha obtenido (como la mediana, o Percentil 50 y los Per-
centiles 75 y 25, y otros como los deciles).
3. También podemos calcular los percentiles mediante el gráfico de las
frecuencias relativas acumuladas.
4. Podemos calcular también los percentiles a partir de los valores de la
media y de la desviación típica (y puede ser muy útil cuando no dis-
ponemos de todos los datos de todos los sujetos), pero ya veremos
que en este caso se trata de percentiles normalizados (los que corres-
ponden a la distribución normal, y lo veremos al tratar las puntuacio-
nes normalizadas).
5.2.1. Cálculo directo
Es el cálculo habitual de los percentiles. Lo explicamos con un ejemplo re-
suelto en la tabla 6.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
98
Los símbolos utilizados son:
X = Puntuaciones directas, ordenadas de mayor a menor. En este
ejemplo están agrupadas de tres en tres para que no haya un núme-
ro excesivo de intervalos o de divisiones. Lo habitual es agrupar las
puntuaciones directas para que no haya un número excesivo de in-
Tabla 6
tervalos; unos 10 ó 12 es lo normal; más de 15 puede ser ya excesi-
vo (cómo hacer esta agrupación está explicado al comienzo, al tra-
tar de la distribución de frecuencias).
i = Valor o amplitud del intervalo; aquí i = 3 porque las puntuaciones
están agrupadas de tres en tres. Si las puntuaciones estuvieran sin
agrupar (una sola puntuación en cada intervalo) tendríamos i =1.
No hay que confundir el número de intervalos (10 en este caso),
con el valor del intervalo (que interviene en algunas fórmulas, co-
mo en el cálculo de percentiles por interpolación).
f = Frecuencia, o número de casos en cada intervalo.
fa = Frecuencias acumuladas: se van sumando las frecuencias de abajo
arriba. La frecuencia acumulada en el intervalo superior debe ser
igual al número de sujetos (es útil caer en la cuenta para detectar
posibles errores; en este caso N = 40 = fa en el intervalo más alto).
fam= Frecuencias acumuladas al punto medio; a cada frecuencia acu-
mulada se le resta la mitad de su f correspondiente.
También se calculan a veces los percentiles a partir de las frecuencias
acumuladas (P = [fa/N] 100), pero lo convencional es hacerlo a par-
tir de las frecuencias acumuladas al punto medio. La razón de hacer-
lo así es porque suponemos que cada uno de los que están en cada
intervalo (si pudiéramos matizar mucho la medición) superan a la
mitad de los que tienen idéntica puntuación y tienen por encima a la
otra mitad. Se supone que los que aparecen igualados en realidad
son distintos y así aparecerían si los midiéramos matizando más.
P = Percentil, o tanto de por ciento de sujetos que caen debajo de ca-
da puntuación. Los percentiles se redondean y se presentan sin
decimales.
En la tabla 6 vemos que un sujeto con una puntuación directa (número de
respuestas correctas, suma de todas sus respuestas, etc.) que esté entre 26 y
28, tiene un rango percentil de 72, o tiene por debajo (supera) al 72% del
grupo en el que se han calculado los percentiles.
5.2.2. Cálculo por interpolación
Con frecuencia interesa conocer el valor de determinados percentiles; por
ejemplo:
La mediana o P50, y los percentiles 75 y 25 (P75 o Q3 y P25 o Q1) como
datos descriptivos o para calcular la medida de dispersión Q,
Los deciles (P10, P20, P30, etc. también simbolizados como D1, D2, D3,
etc.) para simplificar la interpretación de un test, dando sólo estos
percentiles como referencia.
TIPOS DE PUNTUACIONES INDIVIDUALES
99
El cálculo directo de los percentiles no suele darnos estos valores a no ser
que un sujeto los haya obtenido, por lo que es necesario hacer el cálculo por
interpolación.
El procedimiento puede parecer complicado a primera vista, pero es muy
simple si se procede con orden y se tiene a la vista un ejemplo resuelto, como
lo hacemos aquí con los datos de la tabla 7.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
100
Tabla 7
Vamos a calcular, por ejemplo, el Percentil 75. Corresponderá a la puntua-
ción que deje por debajo al 75% de la muestra.
1º Calculamos el número de sujetos que necesitamos. El 75% de 58 es
igual a (58)(.75) = 43.5. El Percentil 75 será la puntuación que deje por
debajo a 43.5 sujetos o 75% de 58.
2º Buscamos en las frecuencias acumuladas, el número de sujetos que
necesitamos, que son 43.5
En este caso, como ninguna puntuación deja por debajo a 43.5 sujetos,
localizamos la frecuencia acumulada inmediatamente inferior a la
que vamos buscando, que es 42; en la siguiente, que es 50, ya nos he-
mos pasado.
3º Identificamos el límite superior de la puntuación que corresponde a
la frecuencia acumulada localizada en el paso 2º; en este caso el
percentil 75 tendrá un valor de por lo menos 16.5 (sumamos medio
punto, .5, al valor superior del intervalo).
4º Calculamos el número de sujetos que todavía nos faltan.
Tenemos 42 y necesitamos 43.5, por lo tanto nos faltan 1.5 sujetos (=
número de sujetos que necesito [paso 1º] menos número de sujetos
que tengo [paso 2º]).
5º Del intervalo siguiente tomamos la parte proporcional de sujetos que
necesitamos; para esto dividimos el número de sujetos que nos faltan
por la frecuencia (o número de sujetos) del intervalo inmediatamen-
te superior: 1.5/8 = .1875
6º Esta cantidad la multiplicamos por el valor del intervalo. El valor del
intervalo es igual al número de puntuaciones que hay en cada interva-
lo; en este caso este valor es igual a 1 porque las puntuaciones van de
una en una. Si estuvieran agrupadas de dos en dos (9-10, 11-12, etc.) el
valor del intervalo sería igual a dos.
7º La cantidad calculada en el paso anterior la sumamos al límite su-
perior del intervalo inferior al que contiene el percentil buscado (pa-
so 3º), con lo que el valor del Percentil 75 será igual a 16.5 +.1875 =
16.69.
Expresando todas las operaciones hechas tendríamos que:
Si vamos a utilizar este valor para interpretar las puntuaciones de un test o
como dato descriptivo, redondeamos los decimales y obtendremos P75 = 17.
Si vamos a utilizar este valor para otros cálculos (por ejemplo para calcular le
valor de Q), dejamos los decimales.
La fórmula de los percentiles calculados por interpolación podemos ex-
presarla tal como se indica en la figura 3
TIPOS DE PUNTUACIONES INDIVIDUALES
101
Figura 3
5.2.3. Cálculo de los percentiles mediante la representación
gráfica de las frecuencias relativas acumuladas
Una representación gráfica frecuente de las puntuaciones directas es la de
las frecuencias relativas acumuladas. La utilidad de esta representación grá-
fica está en que permite un localizar de manera muy aproximada, sin hacer
ningún cálculo, los percentiles correspondientes a cada puntuación directa o
a cada intervalo.
Posiblemente es preferible calcular los percentiles directamente, sin ayuda
de gráficos, dada la facilidad de cálculo que permiten las calculadoras y pro-
gramas de ordenador. Aun así este método puede ser útil, sobre todo cuando
los sujetos son muchos; utilizando papel milimetrado da resultados muy
exactos. En cualquier caso la representación gráfica de las frecuencias acumu-
ladas puede ser de utilidad independientemente de que se estimen los per-
centiles con este procedimiento.
En primer lugar hay que calcular las frecuencias acumuladas relativas o
percentiles (frecuencias acumuladas de cada intervalo divididas por el núme-
ro de sujetos). En la tabla 8 están los datos que han servido para hacer (de
manera aproximada) el gráfico de las frecuencias acumuladas.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
102
Tabla 8
fa: Frecuencias acumuladas. Vamos sumando de abajo arriba, de mane-
ra que cada valor de fa (frecuencia acumulada) indica el número de
sujetos que tienen una puntuación igual o inferior a la del intervalo.
Así a la puntuación directa 51-53 le corresponde una frecuencia acu-
mulada de 9: 9 sujetos tienen una puntuación de 53 o más baja.
Cuando calculamos los percentiles por el método habitual, las frecuen-
cias suelen acumularse al punto medio, como hemos visto ya en el cál-
culo directo.
(fa/N)/100: Es el tanto por ciento de sujetos que tienen esa puntuación o
más baja; son las frecuencias acumuladas relativas. Si no multiplica-
mos por 100, lo que tenemos es la proporción (no porcentaje) de su-
jetos que tienen esa puntuación o una puntuación menor
Las columnas X y f son las mismas que hemos visto antes (X = puntuacio-
nes directas agrupadas y f = frecuencia o número de casos en cada intervalo).
Estas frecuencias relativas acumuladas suelen redondearse, sin poner
decimales.
Una vez que tenemos las frecuencias acumuladas relativas o percentiles,
podemos hacer ya un gráfico como el de la figura 4
El procedimiento para construir el gráfico de las frecuencias acumuladas
es el siguiente:
1º En primer lugar calculamos los percentiles o frecuencias acumuladas
relativas que corresponden a cada puntuación (tabla 8). Este cálculo
también puede hacerse sin agrupar las puntuaciones (con intervalos de
i = 1), pero normalmente las agrupamos para tener un número de in-
tervalos manejable.
2º En el eje vertical (eje Y, de las ordenadas) no ponemos las frecuencias,
sino los porcentajes. Dividimos este eje vertical (Y) de 1 a 100. Ya he-
mos indicado que estos gráficos es preferible hacerlos con papel mili-
metrado, que simplifica mucho la confección del cuadro y se gana en
exactitud.
3º En el eje horizontal (X, de las abscisas) señalamos los límites superio-
res de cada intervalo (y esto por el mismo concepto de frecuencia
acumulada, nos situamos en el límite superior de cada posible puntua-
ción).
4º Por cada intervalo situamos el punto donde confluyen el límite supe-
rior del intervalo y la frecuencia acumulada relativa calculada previa-
mente. Los puntos resultantes se unen mediante una curva (en el
ejemplo se ha hecho con rectas y sólo de manera aproximada). Si la
distribución es simétrica el gráfico tenderá a tener la forma de una S.
Observando el gráfico que nos sirve de ejemplo puede verse cómo se cal-
culan los percentiles, sin necesidad de operaciones. Basta con trazar desde
cualquier percentil (los porcentajes del eje vertical) una paralela al eje X de
las puntuaciones directas, y desde donde esta paralela corta la curva se traza
una perpendicular al eje X, que nos indicará la puntuación directa correspon-
diente al percentil buscado.
En este caso la mediana (o percentil 50) es igual a 61: los que tienen una
puntuación de 61 superan al 50% del grupo.
TIPOS DE PUNTUACIONES INDIVIDUALES
103
6. PUNTUACIONES NORMALIZADAS
Las puntuaciones normalizadas equivalen a las puntuaciones (típicas o
tipificadas, o percentiles) que habría si la distribución fuera normal. Por eso
mismo se denominan normalizadas: se supone que la distribución es nor-
mal. Si de hecho la distribución original se aparta mucho de la distribución
normal, es discutible hacer esta transformación. Frecuentemente la distribu-
ción observada es parecida a la normal, y aumentando el número de sujetos
podemos suponer que la distribución no se desviaría mucho de la distribu-
ción normal.
Las puntuaciones normalizadas pueden ser o puntuaciones típicas o per-
centiles. Lo más frecuente es que se trate de puntuaciones típicas (o de sus
puntuaciones derivadas), pero los percentiles normalizados pueden ser su-
mamente útiles en ocasiones
6.1. Puntuaciones típicas normalizadas
El proceso de cálculo es semejante al cálculo directo de los percentiles; re-
almente seguiremos el mismo proceso, con la diferencia final de que no uti-
lizaremos el percentil sino la puntuación típica correspondiente a cada per-
centil en la distribución normal.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
104
• • • •
• •
• •
•
• • • •
•
100
95
90
85
80
75
70
65
60
55
50
45
40
35
30
25
20
15
10
5
0
Q3 = P75 = 65
M = P50 = 61
Q2 = P25 = 54
38.5 41.5 44.5 47.5 50.5 53.5 56.5 59.5 62.5 68.5 71.5 74.5 77.5
65.5
Figura 4:
GRÁFICO DE LAS FRECUENCIAS RELATIVAS ACUMULADAS (OJIVA)
1º Se calcula la proporción de sujetos que caen debajo de cada puntua-
ción. Esta proporción de sujetos se calcula así para cada puntuación (como se
ha hecho en la tabla 6):
Proporción de sujetos que caen
frecuencia acumulada al
punto medio fam
=–––––––––––––––––––––– = –––––
por debajo de cada puntuación
número de sujetos N
Si multiplicáramos esta proporción por cien, tendríamos el percentil
(cálculo directo). En ocasiones también se utiliza fa/N, o frecuencia acumula-
da (no al punto medio) dividida por N, pero posiblemente es preferible calcu-
lar fam/N, tal como se hace en el cálculo habitual de los percentiles (con un
número muy grande de sujetos los resultados son casi los mismos); la con-
vención más aceptada es utilizar frecuencias acumuladas al punto medio.
Por qué acumulamos las frecuencias al punto medio está explicado al tratar
del cálculo directo de los percentiles.
Para hacer los cálculos disponemos los datos como figuran en la tabla 9
(que es semejante a la tabla 8; aquí utilizamos un ejemplo ficticio, N = 10).
TIPOS DE PUNTUACIONES INDIVIDUALES
105
Tabla 9
En esta tabla 9: X = puntuaciones directas
f = frecuencia o número de casos
fa = frecuencias acumuladas
fam = frecuencias acumuladas al punto medio (fa-f/2)
fam/N= fam dividido por el número de sujetos (N)
El procedimiento lo hemos visto con más detalle al ver el cálculo directo
de los percentiles (tabla 6), y podemos recordar que:
a) Las frecuencias acumuladas divididas por el número de sujetos (fam/N)
indican la proporción de sujetos que caen debajo de cada puntuación
directa.
b) Si multiplicamos estas proporciones por 100, tenemos el tanto por
ciento de sujetos superados por cada puntuación: en este ejemplo el
que tuviera una puntuación directa de 39 supera al 60% de sujetos del
grupo; la puntuación 39 corresponde en este caso al percentil 60. Tam-
bién es frecuente denominar percentil a la proporción (sin multiplicar
por 100).
Una vez conocida la proporción de sujetos que caen debajo de cada pun-
tuación, se consulta en las tablas de la distribución normal a qué puntua-
ción típica corresponde esa proporción4
.
Por ejemplo: un sujeto con una puntuación directa de 38 (en la tabla 9) su-
pera a una proporción de sujetos del .25 (ó 25%). En las tablas de la distribu-
ción normal una proporción de .25 corresponde a una puntuación típica de
z = -.68: esta puntuación típica es ya una puntuación típica normalizada: es
la que correspondería a una puntuación directa de 38 si suponemos que dis-
tribución es normal.
6.2. Puntuaciones típicas normalizadas y agrupadas: los estaninos y
otras puntuaciones
Un tipo de puntuaciones muy utilizado consiste en:
1º Agrupar estas puntuaciones típicas en intervalos; el criterio para ha-
cer esta agrupación es que cada intervalo comprenda una misma mag-
nitud en desviaciones típicas.
2º Numerar estos intervalos de manera consecutiva, y esta numeración es
la nueva puntuación normalizada, y así tenemos los estaninos, pentas,
etc.
Con estas agrupaciones minimizamos pequeñas diferencias inter-indivi-
duales y reducimos el número total de puntuaciones distintas; hacemos más
manejable el uso e interpretación de las puntuaciones de un test.
Las puntuaciones normalizadas (y las tipificadas) se utilizan mucho en la
interpretación de tests, en evaluaciones de diverso tipo, y también como da-
to previo para pensar en una calificación convencional, etc.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
106
4
Podemos consultar las tablas de la distribución normal o podemos acudir a alguna
fuente de Internet como Surfstat.australia: an online text in introductory Statistics
http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el menú Tables y es-
cogemos Standard Normal (figura 13 en el capítulo de la distribución normal) y señala-
mos la curva identificada con la letra a; también a partir de la columna fam/N de la tabla 9
podemos identificar el estanino correspondiente como veremos en el próximo apartado.
6.2.1. Los estaninos5
Los estaninos dividen la distribución normal en nueve intervalos cada uno
de los cuales comprende media desviación típica excepto los dos extremos
(el 1 y el 9).
Realmente cada estanino no es una puntuación sino un intervalo relativa-
mente amplio. Al utilizar la desviación típica como unidad (.5 s en este caso)
una misma diferencia entre dos pares de estaninos equivale aproximadamen-
te a la misma diferencia en la variable que se esté midiendo.
TIPOS DE PUNTUACIONES INDIVIDUALES
107
5
El término estanino (stanine en inglés) se deriva del inglés STAndard NINE-point
scale, nueve puntuaciones tipificadas o estandarizadas; en español también se emplea el
término eneatipo, de la raíz griega enea que significa nueve. Este tipo de puntuaciones lo
desarrolló y popularizó la Fuerza Aérea de EE. UU. en 1942, durante la segunda guerra
mundial. Para interpretar muchos tests nueve intervalos puede ser suficiente; además se
pretendía que todas las puntuaciones fueran de una sola cifra.
Tabla 10
En la tabla 10 tenemos:
a) Los límites de los estaninos en la distribución normal, en puntuaciones
típicas y en percentiles (aquí proporción de casos que caen por deba-
jo en la distribución normal). La primera columna de las puntuaciones
típicas nos indica la puntuación típica que equivale a cada percentil en
la distribución normal, pero como referencia para localizar las puntua-
ciones normalizadas es más cómodo calcular las proporciones de la se-
gunda columna (que corresponden a la columna fam/N de la tabla 6)6
.
b) El valor del estanino; se numeran los nueve intervalos. La media es 5
(intervalo central) y la desviación vale 2 aproximadamente.
c) En la columna siguiente se puede observar cómo cada estanino compren-
de media desviación típica, excepto los dos extremos que quedan abiertos.
d) En la última columna tenemos el porcentaje de casos en cada estanino
en la distribución normal.
Limitaciones de los estaninos.
a) Aunque de estanino a estanino podemos suponer que hay un incre-
mento idéntico (de .5 s), esto no sucede en las puntuaciones extre-
mas, 1 y 9, pues tienen los límites abiertos. En estas puntuaciones ex-
tremas puede haber sujetos muy distintos; se matiza menos en los
extremos de la distribución y esto puede ser una limitación (aunque es-
ta limitación afecta a muy pocos sujetos).
b) Otra limitación es que se pueden magnificar pequeñas diferencias en
los casos límite entre estaninos contiguos.
Si deseamos un nivel mayor de matiz (no siempre deseable) podemos cal-
cular puntuaciones típicas normalizadas (consultando las tablas de la distri-
bución normal) en las que a cada percentil le corresponde una puntuación tí-
pica, o podemos utilizar otros criterios para dividir la distribución normal
(como puede verse más adelante en la tabla 12).
Podemos calcular los estaninos de diversas maneras.
1. Si calculamos las puntuaciones típicas de los sujetos y las agrupamos
en intervalos según los límites de cada estanino en puntuaciones típicas (prime-
ra columna de la tabla 10), tendremos estaninos pero sin normalizar; este pro-
cedimiento es además muy laborioso y no suele utilizarse.
2. Podemos ordenar las puntuaciones de más a menos y seguimos los
porcentajes puestos en la última columna de la tabla 10: al 4% más alto le asig-
namos el estanino 9, al 7 % siguiente el estanino 8, etc.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
108
6
También podríamos utilizar la última columna de la tabla 8, sin multiplicar por 100.
3. Otra manera de calcular los estaninos es partir de la mediana:
1º Calculamos, como punto de partida, la mediana, la puntuación que
divide al grupo en dos mitades iguales,
2º Al 10% por encima de la mediana y al 10% por debajo de la mediana,
se les asigna el estanino 5 (que es la media de los estaninos, la pun-
tuación central),
3º Al 17% siguiente por encima se le asigna el estanino 6 y al 17% si-
guiente por debajo el estanino 4, y así sucesivamente.
Los estaninos pueden presentar el problema de que sujetos con idéntica
puntuación directa nos pueden quedar en estaninos distintos si queremos
mantener las proporciones exactas que corresponden a cada estanino; sin
embargo y de manera aproximada puede ser un sistema válido con muestras
grandes.
4. El sistema más cómodo es utilizar como referencia la columna de los
percentiles de la tabla 10 que señala los límites de cada nueva puntuación. En
esta columna tenemos la proporción de casos que caen por debajo; son per-
centiles en sentido propio si multiplicamos estas proporciones por 100.
En la tabla 9 tenemos cómo hacerlo: calculamos la proporción de casos
que caen por debajo de cada puntuación directa y utilizamos estas proporcio-
nes o percentiles como límites de los estaninos.
Así por ejemplo:
Todas las puntuaciones directas (X) cuyo percentil sea superior a .226 e in-
ferior a .401, le asignaremos el estanino 4, que será la nueva puntuación nor-
malizada.
Si a una puntuación directa le corresponde, por ejemplo, un percentil (o
frecuencia acumulada dividida por N) de .780, como .780 está entre 773 y
.894, le corresponderá el estanino 7.
En ocasiones el percentil puede caer en el mismo límite; si disponemos de
un cuarto decimal nos sacará de dudas.
6.2.2. Las pentas
Las pentas7
son puntuaciones análogas a los estaninos, pero en este caso
dividimos todos los casos solamente en cinco intervalos, y cada penta com-
prende una desviación típica excepto en los dos extremos.
En la tabla 11 tenemos la información relativa a las pentas, semejante a la
de los estaninos.
TIPOS DE PUNTUACIONES INDIVIDUALES
109
7
Del griego, penta = cinco.
Como sucede con los estaninos, en las dos puntaciones extremas (5 ó 1
en el caso de las pentas) pueden quedar igualados con la misma puntuación
sujetos muy distintos entre sí.
Naturalmente las pentas agrupan los datos en menos intervalos y se pier-
de más información sobre cada sujeto, pero puede ser un sistema muy útil si
no se desea gran precisión. Cuando los datos (de tests de diverso tipo) nos
vienen en percentiles puede ser de interés agrupar a los sujetos en grandes
bloques. Esto puede ser de más interés cuando los datos provienen de tests o
cuestionarios de no gran calidad (pueden ser sobre actitudes, etc.) y no con-
viene exagerar pequeñas diferencias individuales. En cualquier caso estos sis-
temas son con mucho preferibles a utilizar determinados percentiles como
puntos de corte, como si hubiera una unidad en los percentiles, sin tener en
cuenta su equivalencia en puntuaciones típicas.
6.2.3. Otras puntuaciones normalizadas
Caben otras puntuaciones normalizadas que son en realidad puntuaciones
típicas agrupadas con diversos criterios, pero siempre tomando la desviación
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
110
Tabla 11
típica (o una fracción) como criterio. En la tabla 12 vemos varios tipos de pun-
tuaciones que podemos comparar con facilidad.
Las puntuaciones típicas y los percentiles que están subrayados son los lími-
tes de los estaninos, así el estanino 9 comienza a partir de z = + 1.75 o p = .959.
La escala 11 son los estaninos ya vistos, pero subdividiendo los intervalos
extremos donde puede haber sujetos muy diferentes; quedan en total 11 di-
visiones (de 0 a 10, o si se prefiere evitar el cero, de 1 a 11); puede ser una
buena alternativa a los estaninos y también es utilizada. La escala 20 (de 1 a
20, o de 0 a 19) es menos usual pero tiene un mayor nivel de matiz; cada in-
tervalo comprende .25 s.
TIPOS DE PUNTUACIONES INDIVIDUALES
111
Tabla 12
PUNTUACIONES NORMALIZADAS: LÍMITES Y EQUIVALENCIAS
¿Qué puntuación normalizada debemos utilizar?
Depende de nuestro juicio prudencial, del nivel de matiz que deseemos.
Los estaninos son muy utilizados: nos dividen el grupo en nueve subgrupos;
nueve puntuaciones puede ser suficiente en muchos casos.
Ya hemos indicado que una limitación de los estaninos está en que en los
extremos (estaninos 1 y 9) puede haber sujetos muy distintos (y con mayor
razón en los pentas). Con la escala 11 matizamos mejor en los extremos (los
estaninos 9 y 1 se subdividen y quedan 11 puntuaciones distintas). Si nos bas-
ta una clasificación menos matizada, podemos utilizar los pentas. En todos es-
tos casos se trata de puntuaciones agrupadas para minimizar pequeñas dife-
rencias.
Lo que sí es claro es que si se desea dividir un grupo en subgrupos según
sus resultados en algún tipo de un test (no necesariamente para calificar) no
hay que buscar que cada subgrupo tengo un idéntico número de sujetos. En
la tabla 13 tenemos un grupo dividido en cinco subgrupos según dos crite-
rios. Los juicios verbales (muy bien, bien, etc.) son en este caso arbitrarios.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
112
Tabla 13
En un caso tomamos los percentiles como unidad: 20% de sujetos en cada
subgrupo; en el otro caso utilizamos las pentas y consecuentemente el crite-
rio de división son las puntuaciones típicas.
Este segundo caso (pentas en este ejemplo) es el que podemos conside-
rar correcto a pesar de la aparente lógica de dividir el grupo en cinco subgru-
pos con idéntico número de sujetos. Dentro de cada subgrupo los sujetos es-
tán mejor igualados cuando el criterio de división es la desviación típica, sin
buscar el que haya un número idéntico de sujetos en cada subgrupo.
Si el dato disponible es el percentil (como es frecuente o en cualquier ca-
so es de cálculo sencillo) y queremos dividir el grupo en cinco subgrupos po-
demos utilizar como puntos de corte los percentiles que corresponden a las
puntuaciones típicas que separan las pentas (por encima del percentil 93 co-
rresponde un 5, entre los percentiles 93 y 64, corresponde un 4, etc.) (tablas
11 y 12).
6.3. Percentiles normalizados: cálculo de los percentiles a partir de la
media y de la desviación típica
Cuando de un grupo solamente conocemos la media y la desviación típi-
ca en cualquier test y deseamos dar a los sujetos una clave de interpretación
individual, podemos hacerlo a partir de estos datos, calculando una serie de
percentiles normalizados.
Hemos visto que si conocemos el percentil correspondiente a una determi-
nada puntuación directa, podemos ver en las tablas de la distribución normal a
qué puntuación típica corresponde. Si una puntuación deja por debajo el 84%
de los casos (o una proporción de .84), ya sabemos que en la distribución nor-
mal a esa puntuación directa le corresponde una puntuación típica de z = 1
(porque por debajo de z =1 cae el 84% de los casos). A z = 0 (cuando la pun-
tuación directa coincide con la media), le corresponderá el percentil 50.
De manera inversa, si conocemos una puntuación típica, ya sabemos a qué
percentil corresponde en la distribución normal: si un sujeto tiene una pun-
tuación típica de z = 1, ya sabemos que está en el percentil 84. Se trata de un
percentil normalizado: el que tendría ese sujeto si la distribución fuera nor-
mal.
Sobre estos percentiles normalizados:
a) El cálculo es muy sencillo: nos basta calcular las puntuaciones típicas
de cada puntuación directa y ver en las tablas el percentil correspon-
diente (en las tablas viene en forma de proporción; multiplicamos por
100, redondeamos decimales, y ya tenemos el percentil en su expre-
sión habitual).
Por ejemplo si la media es igual a 20.5 y la desviación típica es igual a
3.5 ¿A qué percentil corresponderá una puntuación directa de 21?
21-20.5
La puntuación típica de X = 21 será igual a z=–––––––––––– = .14
3.5
En las tablas vemos que por debajo de z = .14 cae una proporción de
casos de .555; multiplicando por 100 y eliminando los decimales tene-
mos que a X = 21 le corresponde el percentil 55.
b) Al consultar las tablas no hay que olvidar que si la puntuación típica es
positiva encontraremos el percentil en el área mayor, y si la puntua-
ción típica es negativa, encontraremos el percentil en el área menor.
TIPOS DE PUNTUACIONES INDIVIDUALES
113
c) Si la distribución de las puntuaciones reales, observadas, se aparta no-
tablemente de la distribución normal, estos percentiles pueden quedar
muy distorsionados. Con muestras razonablemente grandes el cálculo
de estos percentiles normalizados tiene más sentido.
d) Una utilidad clara de estos percentiles normalizados, y que es la que
realmente justifica este apartado, la tenemos cuando de un grupo só-
lo conocemos la media y la desviación típica en algún test o escala, y
deseamos preparar unas normas o baremos para interpretar las pun-
tuaciones individuales.
En estos casos nos puede bastar buscar las puntuaciones directas que
corresponden a una serie de percentiles previamente escogidos como
referencia suficiente. En la tabla 14 tenemos una serie de percentiles y
las puntuaciones típicas que les corresponden en la distribución nor-
mal; nuestra tarea será localizar las puntuaciones directas (X) que co-
rresponden a esas puntuaciones típicas.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
114
Tabla 14
Ahora tenemos que calcular la puntuación directa (X) que corresponda a
las puntuaciones típicas seleccionadas:
X - X
Si z =––––––– tendremos que X = (s)(z)+X [6]
s
Como en [6] conocemos todos los valores (s, y z lo buscamos en la tabla
14), podemos calcular el valor de X, o puntuación directa que corresponde a
determinados percentiles.
Por ejemplo, si la media es igual a 20.8 y la desviación típica es igual a 5:
La puntuación directa correspondiente al Percentil
75: X = (3.5)(.67)+20.8 = 23.14 (艑 23)
50: X = (3.5)(0) +20.8 = 20.8 (艑 21)
25: X = (3.5)(-.67)+20.8 = 18.45 (艑 18)
De esta manera podemos preparar con toda facilidad una tabla con los
percentiles normalizados que corresponden a una serie de puntuaciones di-
rectas; si un sujeto tiene una puntuación directa que no coincide con ningu-
na de las escogidas, se puede estimar por interpolación cuál es su percentil
aproximado.
6.4. Equivalencias de diversos tipos de puntuaciones en la distribu-
ción normal
Ya hemos visto que en la distribución normal se pasa fácilmente de unas
puntuaciones a otras; todas tienen su equivalente en otros sistemas. Podemos
visualizar esta equivalencia en la figura 5.
TIPOS DE PUNTUACIONES INDIVIDUALES
115
Figura 5
7. PUNTUACIONES TÍPICAS, Y SUS PUNTUACIONES DERIVADAS: RESUMEN
Las ventajas de las puntuaciones típicas y de sus puntuaciones derivadas
(tipificadas, normalizadas) son muchas (más claras en unos tipos de puntua-
ciones que en otros), por ejemplo:
a) Aunque las puntuaciones originales vengan de instrumentos distintos
(o de exámenes que difieren en dificultad, número o tipo de pregun-
tas), todas quedan homogeneizadas con idéntica media, idéntica des-
viación e idénticas puntuaciones extremas posibles.
b) De manera intuitiva dicen más que las puntuaciones directas originales,
porque sabemos cuál es la media (sin calcularla) o cuándo una puntua-
ción es muy extrema o atípica.
c) Consecuentemente permiten hacer comparaciones con facilidad (entre
sujetos, o entre varias puntuaciones del mismo sujeto, dónde está más
alto, más bajo, etc.).
d) Suelen ser puntuaciones cómodas para comunicar y explicar resultados
individuales;
e) Permiten calcular medias individuales cuando de los mismos sujetos se
disponen puntuaciones distintas, ya que se dispone de una unidad (la
desviación típica), y ninguna puntuación parcial pesa más que otra (to-
das tienen idéntica desviación típica).
Las puntuaciones directas en cambio no suelen representar una es-
cala de unidades iguales, o lo hacen con menos propiedad que estas
puntuaciones. Las preguntas (o ítems) no representan por lo general
unidades iguales, porque unas son más fáciles, otras más difíciles,
etc., no todas miden lo mismo, y como unidades de ciencia (o de
actitud, personalidad, etc.) resultan ambiguas.
f) La relación de estas puntuaciones con la distribución normal resulta
también muy útil. Con facilidad podemos verificar en cuántas desvia-
ciones se aparta de la media cualquier resultado individual, y apreciar
así si se trata de un resultado normal, o poco frecuente, etc.
g) No hay que olvidar, sin embargo, que se trata de puntuaciones rela-
tivas al grupo y sobre todo si se trata de exámenes o pruebas que se
van a calificar, puede ser preferible apreciar el rendimiento en térmi-
nos absolutos (objetivos conseguidos), aunque en todo caso las pun-
tuaciones típicas y sus puntuaciones derivadas, y otras como los per-
centiles, aportan una información complementaria que también es
útil.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
116
8. RESUMEN DEL CÁLCULO DE LAS PUNTUACIONES DERIVADAS
A partir de una distribución de frecuencias es muy sencillo calcular todas
las puntuaciones que hemos viendo y otras variantes. Podemos visualizar el
proceso en el esquema-resumen de la figura 6.
TIPOS DE PUNTUACIONES INDIVIDUALES
117
Figura 6
Por qué hacemos estas transformaciones:
Disponemos de una nueva media y de una nueva desviación típica (ex-
cepto en el caso de los percentiles en los que no se calculan estas medi-
das) que son siempre las mismas cualquiera que sea la magnitud de las
puntuaciones originales; unificamos el tipo de medida, los valores extre-
mos posibles son los mismos, etc., y todo esto:
facilita la comunicabilidad de los datos;
facilita su interpretación:
1º Tenemos más información:
Localizamos puntuaciones atípicas (puntuaciones típicas extre-
mas), Situamos al sujeto dentro de su grupo (posición relativa;
percentiles).
2º Podemos hacer comparaciones aunque los datos se recojan con
instrumentos distintos:
entre sujetos
intra-individuales
Por este tipo de razones los diversos tipos de puntuaciones constitu-
yen el lenguaje de los tests (de inteligencia, de habilidades, de personali-
dad, de actitudes, etc.); las normas o baremos de interpretación vienen
expresadas en alguna de estas puntuaciones. También son útiles en el
contexto de la evaluación.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
118
CAPÍTULO 5
CONCEPTO DE CORRELACIÓN Y COVARIANZA
1. CONCEPTO DE CORRELACIÓN Y COVARIANZA
1.1. Relación y variación conjunta
El concepto de relación en estadística coincide con lo que se entiende
por relación en el lenguaje habitual: dos variables están relacionadas si varían
conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente
en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en
una muestra de niños de 5 a 12 años: los mayores en edad son también los
más altos y pesan más, y los más jóvenes son los que pesan menos y son más
bajos de estatura; decimos que peso y altura son dos variables que están re-
lacionadas porque los más altos pesan más y los más bajos pesan menos. De-
cimos por lo tanto que existe relación en la medida en que los sujetos ocu-
pan la misma posición relativa en las dos variables.
Si los valores altos en una variable coinciden con valores bajos en otra va-
riable, tenemos una relación negativa; por ejemplo edad y fuerza física en
una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los
menores en fuerza física; hay una relación, que puede ser muy grande, pero
negativa: según los sujetos aumentan en una variable (edad) disminuyen en
la otra (fuerza física).
La correlación se define por lo tanto por la co-variación (co = con, jun-
tamente: variar a la vez). Correlación y covarianza son términos concep-
tualmente equivalentes, expresan lo mismo. La covarianza es también una
medida de relación, lo mismo que el coeficiente de correlación. Habitual-
mente se utiliza el coeficiente de correlación (r de Pearson), pero es útil en-
tender simultáneamente qué es la covarianza, y entenderlo precisamente en
este contexto, el de las medidas de relación.
119
El concepto de relación y qué se mide exactamente con estos coeficientes,
lo veremos mejor con un ejemplo (tabla 1) donde tenemos los datos de tres
situaciones o casos distintos:
1) En cada caso tenemos cuatro sujetos (ejemplo reducido para poder ver
todos los datos con facilidad) con puntuaciones en dos variables, X (un
test de inteligencia) e Y (una prueba objetiva de rendimiento).
2) Junto a la puntuación de cada sujeto en las dos variables, X e Y, pone-
mos su número de orden: 1º al que tenga la puntuación más alta, 2º al
que tenga la siguiente más alta, etc.:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
120
En el caso 1º la relación es positiva y la máxima posible (los sujetos tienen
el mismo orden en X e Y); si el orden es inverso, como en el caso 2º, tenemos
también una relación, pero negativa. Esta variación conjunta o co-varia-
ción, puede ser clara y alta (como en los casos 1º y 2º de la tabla 1), puede ser
moderada o baja o puede no haber relación (como en el caso 3º).
1.2. Los diagramas de dispersión
La representación gráfica de estos pares de puntuaciones se denomina
diagrama de dispersión, y también nos ayuda a entender el mismo con-
cepto de relación (ejemplos en la figura 1).
Cada punto representa la posición de un sujeto (donde confluyen sus dos
puntuaciones). En la medida en que hay relación, los puntos tienden a situar-
se en una recta diagonal; cuando no hay relación o es muy pequeña la nube
de puntos aparece sin una dirección clara.
Tabla 1
1.3. Otras maneras de visualizar la correlación
Los diagramas de dispersión (como los de la figura 1) nos permiten ver
con facilidad qué entendemos por correlación (o simplemente relación), pe-
ro otras maneras de presentar los datos también son útiles para visualizar y
comunicar la relación entre dos variables.
En la tabla 2 tenemos un ejemplo real. Los mismos alumnos han respondi-
do a dos series de cinco preguntas:
a) cinco preguntas sobre datos dicotómicos (respuestas1 ó 0; p y q)
b) cinco preguntas sobre la interpretación de los percentiles.
En la tabla 2 podemos ver con facilidad que a mayor número de respues-
tas correctas sobre datos dicotómicos corresponde una media más alta en las
preguntas sobre percentiles. Los alumnos que saben más y menos de ambos
temas, tienden a ser los mismos (los que responden correctamente las 5 pre-
guntas sobre datos dicotómicos tienen una media de 3.9 en las preguntas so-
bre percentiles, etc.) .
CONCEPTO DE CORRELACIÓNYCOVARIANZA
121
Tabla 2
Figura 1
DIAGRAMAS DE DISPERSIÓN
Y Y Y Y
X X X X
relación positiva alta relación positiva
moderna
relación negativa alta ausencia de relación
También podemos reducir la información a un cuadro de doble entrada,
como tenemos en la tabla 3. Tenemos a los mismos alumnos clasificados con
estos criterios:
a) Número de fórmulas que recuerdan de memoria sin haberlas estudia-
do, puestas al final de un examen y sin contar para nota. Los alumnos
están divididos en dos grupos, los que recuerdan 5 ó 6 fórmulas y los
que recuerdan 4 o menos.
b) Número de respuestas correctas en el examen de 45 preguntas: 37 o
más y 36 o menos.
En la tabla 3 figura el número y el tanto por ciento de alumnos en cada cla-
sificación; el tanto por ciento está referido a los dos totales según el número
de fórmulas recordadas: el 67 % de los que recuerdan 5 ó 6 fórmulas tienen
37 o más respuestas correctas en el examen, frente a sólo el 33 % de los que
tienen 36 o menos respuestas correctas.
Es clara la relación entre fórmulas recordadas de memoria y buenos re-
sultados en el examen.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
122
Tabla 3
En esta disposición de los datos hemos dicotomizado el grupo por la me-
diana de respuestas correctas (15 alumnos 36 o menos y otros 15 alumnos
37 o más). Con este planteamiento (sujetos agrupados en categorías) caben
otros análisis que veremos en al capítulo del ji cuadrado.
1.4. Correlación, covarianza y dispersión: importancia de las diferencias
Es importante caer en la cuenta desde el principio de la importancia de
las diferencias interindividuales para poder comprobar relaciones: sin dife-
rencias en los sujetos (u objetos) no podemos ver relaciones. Sin diferencias
en las dos variables no podemos encontrar variación conjunta: si todos los
sujetos tienen idéntica puntuación en X no podemos ver si los altos en X son
también altos en Y, porque en X son todos iguales.
Si, por ejemplo, queremos comprobar si la altura está relacionada con la
capacidad de encestar (jugando al baloncesto) necesitaremos jugadores de
distintas alturas, para ver si los más altos encestan más y los más bajos ences-
tan menos. Si todos los jugadores tienen la misma altura, no podemos com-
probar esa relación; no podemos comprobar si las diferencias en altura se co-
rresponden con diferencias en la habilidad de encestar porque todos tienen
idéntica altura. Y también necesitaremos que unos encesten más y otros me-
nos. Los sujetos deben ser distintos en las dos características cuya relación
queremos comprobar.
La correlación y la covarianza dicen de dos variables lo mismo que la va-
rianza (o la desviación típica) dice de una variable: hasta qué punto los suje-
tos son distintos simultáneamente en las dos variables. De la misma manera
que la varianza es una medida de dispersión en una variable, la correlación
(y la covarianza) son también medidas de dispersión, pero de dos variables
tomadas a la vez.
1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r
de Pearson
El coeficiente de correlación comprueba y cuantifica solamente relaciones
lineares, como las expresadas en los ejemplos y diagramas de dispersión an-
teriores. No comprueba por lo tanto relaciones curvilíneas, las que expresa-
das gráficamente mostrarían una curva. Por ejemplo la relación entre edad
(tomando un espectro amplio de edades) y fuerza física sería curvilínea: pri-
mero sería positiva (a más edad mayor fuerza física), y luego negativa (a ma-
yor edad, menos fuerza).
1.6. Tipos de variables con las que se puede utilizar el coeficiente r
de Pearson
Para poder utilizar el coeficiente de correlación r de Pearson: las dos varia-
bles deben ser:
a) Las dos continuas,
b) Una continua y otra dicotómica (1 ó 0).
c) Las dos dicotómicas (1 ó 0).
La correlación entre una variable continua y otra dicotómica se deno-
mina correlación biserial-puntual (rbp) pero el cálculo y la interpretación
CONCEPTO DE CORRELACIÓNYCOVARIANZA
123
son los mismos que cuando las dos variables son continuas (y podemos utili-
zar calculadoras y programas informáticos que tienen ya programada la corre-
lación r de Pearson).
Cuando las dos variables son dicotómicas no se trata propiamente del co-
eficiente de Pearson (en principio referido a dos variables continuas) sino del
coeficiente f (fi); se puede incluir aquí porque realmente equivale al coefi-
ciente de Pearson calculado con datos dicotómicos aunque también tiene fór-
mulas específicas1
. También tiene sus peculiaridades (el valor máximo no es
siempre 1). En un apartado final (nº 7) explicamos brevemente éste y otros ti-
pos de coeficientes de relación.
2. LA MEDIDA DE LA RELACIÓN
2.1. Cómo cuantificamos o medimos el grado de relación
Es sencillo y útil entender cómo podemos cuantificar (medir) esta varia-
ción conjunta y además ayuda a la comprensión e interpretación de estas
medidas de relación.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
124
Si las dos variables están
relacionadas y esta relación
es positiva
los sujetos tenderán a estar por
encima o por debajo de la media en
las dos variables a la vez
Si las dos variables están
relacionadas y esta relación
es negativa
los sujetos tenderán a estar por
encima de la media en una variable y
por debajo de la media en la otra
variable
Si las dos variables no están
relacionadas
el estar por encima o por debajo de
la media en una variable es
independiente del estar por encima
o por debajo de la media en la otra
variable
Este estar por encima o por debajo de la media en dos variables simul-
táneamente nos va a permitir cuantificar el grado de relación, tal como se ex-
plica en la figura 3. Lo explicamos por pasos:
1º La distancia, o diferencia, de un sujeto con respecto a la media pode-
mos expresarla de dos maneras:
1
Si en una calculadora con programación estadística introducimos unos y ceros, el
valor de r que nos dé es el valor de f, por eso tiene sentido incluir aquí este coeficiente.
En puntuaciones directas (restando cada d = (X - X)
puntuación de la media)
En puntuaciones típicas (la misma
(X - X)
diferencia pero dividida por z = –––––––
la desviación típica):
s
Estas diferencias con respecto a la media (puntuaciones diferenciales)
(en la figura 3 sólo están puestos los signos de la diferencia):
serán positivas si la puntuación directa (X) es superior a la media (X),
serán negativas si la puntuación directa (X) es inferior a la media (X)
2º Si a cada sujeto le multiplicamos sus dos puntuaciones diferenciales
(dxdy o zxzy) tendremos que unas veces los productos tendrán signo más y
otras signo menos
a) Cuando hay relación positiva: todos los productos (o la mayoría, de-
penderá del grado de relación) serán de idéntico signo positivo (más
por más y menos por menos = más);
b) Cuando hay relación negativa: los productos serán de idéntico signo
negativo (más por menos o menos por más = menos);
c) Cuando no hay relación: unos productos serán de idéntico signo y
otros de distinto signo.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
125
Figura 3
3º. La suma de los productos cruzados de las puntuaciones diferenciales
(directas Sdxdy ó típicas Szxzy), ya nos está indicando el grado de relación; la
suma será mayor (con signo más o signo menos) cuando haya una mayor re-
lación porque habrá más sumandos de idéntico signo. La mera suma de estos
productos no nos es muy útil porque no podemos compararla con otras su-
mas, pero si la dividimos por el número de sujetos lo que tenemos es una me-
dia comparable con cualquier otra media obtenida con un número distinto de
sujetos (esta explicación figura en la figura 3).
Si dividimos esta suma por el número de sujetos (= media de los produc-
tos cruzados) tenemos la fórmula de la covarianza (utilizando puntuaciones
directas) o de la correlación (utilizando puntuaciones típicas).
Covarianza: [1] Correlación: [2]
Por lo tanto correlación (símbolo rxy o simplemente r) y covarianza (sím-
bolo sxy) expresan lo mismo: cuantifican el grado de covariación y a ese gra-
do de covariación le denominamos relación. Realmente el coeficiente de
correlación no es otra cosa que la covarianza calculada con puntuacio-
nes típicas.
Correlación y covarianza se relacionan mediante estas fórmulas:
sxy
rxy (correlación) = ––––– [3] sxy (covarianza) = rxy sxsy [4]
sx sy
Como medida de relación se pueden utilizar tanto la covarianza como el
coeficiente de correlación (r de Pearson). El utilizar preferentemente el coe-
ficiente de correlación se debe a estas razones:
1) El utilizar puntuaciones típicas permite comparar todo con todo; dos
coeficientes de correlación son comparables entre sí cualquiera que
sea la magnitud original de las puntuaciones directas. La magnitud
de la covarianza va a depender de la unidad utilizada y no se pueden
comparar dos covarianzas, para comprobar dónde hay mayor relación,
cuando las unidades son distintas.
2) El coeficiente de correlación r varía entre 0 (ausencia de relación) y un
valor máximo de 1 (con signo + ó -). El que los valores extremos sean
0 y 1 facilita el uso y la valoración de la magnitud de estos coeficientes.
La demostración de que el valor máximo de r es igual a 1 (±1) es sencilla:
1º La suma de las puntuaciones típicas elevadas al cuadrado es igual al
número de sujetos (N):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
126
2º Si se diera una relación perfecta, tendríamos que para cada sujeto
zx = zy con lo que zxzy sería igual a z2
, y como Sz2
= N, tendríamos
que:
2.2. Otras fórmulas y procedimientos
Hay muchas fórmulas, pero todas equivalen a la fórmula básica (fórmula
[2]: rxy = (Szxzy)/N). Esta fórmula básica es muy laboriosa de cálculo. Hay
otras fórmulas más sencillas en las que sólo se utilizan puntuaciones directas,
pero tampoco resultan prácticas, ya que la correlación puede encontrarse ya
programada en muchas calculadoras sencillas (y en hojas de cálculo y en pro-
gramas de ordenador o de Internet).
Si se dispone de una calculadora con la desviación típica programada, una
fórmula sencilla es ésta:
[5]
Para el cálculo disponemos los datos tal como están en la tabla 4
CONCEPTO DE CORRELACIÓNYCOVARIANZA
127
Tabla 4
Se calculan las desviaciones de las dos variables y de la suma de ambas y se
aplica la fórmula anterior [5]:
Esta fórmula puede ser la más cómoda cuando tenemos pocos sujetos y
una calculadora con programación estadística; con muestras grandes, o cuan-
do hay calcular varios coeficientes con los mismos datos, hay que acudir a ho-
jas de cálculo o a programas de ordenador, que es lo que haremos habitual-
mente.
3. INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN R DE PEARSON
En principio la interpretación del coeficiente de correlación es sencilla;
nos basta mirar los diagramas de dispersión ( figura 1) para caer en la cuenta de
qué estamos cuantificando o midiendo: en qué grado ambas variables va-
rían conjuntamente (es decir, en qué grado están relacionadas).
En este apartado recogemos de manera más sistemática todo aquello que
nos puede ayudar a interpretar y a aprovechar los coeficientes de correlación
que nos encontremos. Hay información que es obvia y viene dada por el mis-
mo coeficiente; otro tipo de información adicional podemos extraerlo de los
datos que ya tenemos, y por último hay hipótesis y conjeturas razonables
que pueden enriquecer la interpretación o nos pueden poner en la pista pa-
ra buscar otras cosas.
De alguna manera este apartado viene a ser una guía que podemos repa-
sar cuando nos interese, para interpretar y utilizar mejor la información que
nos aportan los coeficientes de correlación.
3.1. Interpretación básica
a) El coeficiente de correlación expresa en qué grado los sujetos (u obje-
tos, elementos…) están ordenados de la misma manera en dos varia-
bles simultáneamente.
b) Los valores extremos son 0 (ninguna relación) y ±1 (máxima rela-
ción).
Si r = 1, el orden (posición relativa) de los sujetos es el mismo en las
dos variables. Aunque hablaremos después sobre cómo valorar la
magnitud de estos coeficientes, si los valores extremos son 0 y 1 (ó -1),
ya podemos ver que coeficientes próximos a 0 expresan poca relación,
y los coeficientes cercanos al 1 expresan mucha relación.
c) La magnitud del coeficiente es independiente del signo.
r =-.95 expresa más relación que r = +.75; el que la relación sea po-
sitiva o negativa es algo distinto de que sea grande o pequeña.
d) Dos ítems (o sujetos, variables, etc.) que tengan entre sí una relación
muy alta, pueden ser valorados de manera muy distinta en términos
absolutos. En este punto hay con cierta frecuencia errores de interpre-
tación.
El suponer que una correlación muy alta entre dos variables quiere de-
cir que las dos tienen una media parecida es un error muy común;
una correlación alta significa simplemente que las dos variables son or-
denadas de manera parecida, pero no que tengan valores absolutos
parecidos.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
128
En este ejemplo:
Una tentación es afirmar que entre Física y Matemáticas hay una rela-
ción muy alta, sin embargo la correlación entre Física y Matemáticas es
cero; no se puede decir que los alumnos tengan el mismo orden en las
El coeficiente de correlación entre A y B es exactamente r = 1, la máxi-
ma relación posible; sin embargo sus medias son muy distintas: el per-
sonaje A tiene una media de 5.5 (muy alta en una escala de 1 a 6, gusta
a todos) y el personaje B muy baja (1.5, no gusta a nadie). Lo que suce-
de es que los que valoran mejor al personaje A también valoran mejor
(en términos relativos) al personaje B y viceversa: los sujetos que valo-
ran menos al personaje A también valoran menos al personaje B.
El personaje C tiene una media de 4, su relación con A es r = 0 y su re-
lación con B es también r = 0: cómo valoran los sujetos a los persona-
jes A y B no tiene nada que ver con cómo valoran al personaje C2
.
En la tabla 6 tenemos otro ejemplo de cuatro alumnos con calificacio-
nes en cuatro asignaturas.
Lo vemos con facilidad en un ejemplo ficticio. Supongamos que cuatro
sujetos valoran en una escala de 1 (no me gusta nada) a 6 (me gusta
mucho) a tres personajes políticos o a tres profesores (y así vemos un
ejemplo en el que no hay tests ni exámenes; tabla 5):
CONCEPTO DE CORRELACIÓNYCOVARIANZA
129
Tabla 5
Tabla 6
2
Si quisiéramos medir la proximidad o parecido en valores absolutos entre estos
personajes, habría que utilizar otra técnica que se estudia en relación con el Diferencial
Semántico de Osgood, la denominada distancia euclidiana (simbolizada D; puede verse
Morales, Urosa y Blanco, 2003, pág. 38). Un coeficiente de correlación alto indica orden se-
mejante, no medias semejantes.
dos asignaturas porque no hay orden, no se puede ordenar a los que
están igualados. Necesitaríamos calificaciones distintas en las dos asig-
naturas para verificar si coinciden en ambas asignaturas los que están
mejor o peor.
La correlación entre Historia y Lengua es la máxima posible (r = 1),
porque los alumnos tienen el mismo número de orden en ambas asig-
naturas; sin embargo en términos absolutos las calificaciones no se pa-
recen: son muy altas en Historia y muy bajas en Lengua.
e) Un coeficiente de correlación no equivale a una proporción.
Una correlación de r =.50 no quiere decir que haya un 50% de varia-
bilidad común o de varianza común entre las dos variables.
f) No es necesario que las dos variables (X e Y) estén medidas en la mis-
ma escala o en las mismas unidades, ya que, como hemos visto, el
cálculo se hace a partir de puntuaciones típicas.
La correlación entre edad y peso o entre pluviosidad y altura sobre el
nivel del mar (en este caso los sujetos serían comarcas) oscilará entre
0 y 1 aunque todas estas variables se midan con unidades muy diferen-
tes (esto no sucede con la covarianza, en la que mantenemos las uni-
dades originales). De la misma manera podemos calcular la correlación
entre un test de rendimiento de 50 preguntas y la actitud hacia el estu-
dio medida con una sencilla escala, etc.
g) En los coeficientes de correlación no hay unidad en sentido propio.
Por esta razón un coeficiente de .50 no expresa el doble de relación
que otro de .25. La distancia en relación es mayor entre dos coeficien-
tes altos que entre dos coeficientes bajos.
Veremos la diferencia entre dos coeficientes con más exactitud si los
elevamos al cuadrado: entre .95 y .90 (coeficientes muy altos, .952
-
.902
= .0925) hay una mayor distancia que entre .15 y .10 (coeficientes
muy bajos, .152
- .102
= .0125). Este punto lo veremos al hablar del co-
eficiente de determinación.
h) La correlación de una variable (como un test de inteligencia) con un
criterio (por ejemplo un examen) se denomina frecuentemente coefi-
ciente de validez.
El término validez aplicado a los tests es mucho más complejo y tiene
más significados; en este caso se trata de un simple coeficiente de co-
rrelación entre dos variables.
i) La correlación entre dos variables es relativa a los instrumentos utili-
zados.
Cuando decimos que la inteligencia tiene una correlación determina-
da con rendimiento académico, habría que especificar inteligencia
‘tal como’ la mide ese test… rendimiento tal como lo mide este tipo
de examen…
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
130
No medimos rasgos o características puras o abstractas, por eso los coe-
ficientes de correlación hay que interpretarlos teniendo en cuenta có-
mo han sido medidos esos rasgos. Cuando decimos que la autocon-
fianza está relacionada con el rendimiento académico, hay que
sobrentender tal como medimos o expresamos estas variables con es-
tos instrumentos. Ésta es una razón (entre otras) por la que entre las
mismas variables podemos encontrar coeficientes de correlación muy
distintos: a veces (cuando las medimos con instrumentos distintos) no
se trata realmente de las mismas variables exactamente, salvo en un
sentido muy genérico.
3.2. Correlación y causalidad
La causalidad merece un comentario específico porque en el contexto de la
correlación es fácilmente fuente de errores de interpretación (al menos es una
tentación el interpretar algunas correlaciones como pruebas de causalidad).
El concepto de causa es complejo y el lugar propio para su estudio está
más en la filosofía que en los análisis estadísticos. En nuestro contexto pode-
mos dar una definición puramente operacional de causalidad para su uso li-
mitado a la investigación experimental: establecemos una relación de causa
a efecto cuando podemos mostrar que una variable independiente sistemá-
ticamente produce cambios (influye) en una variable dependiente, una
vez controlado el influjo de otras variables extrañas.
Con esta noción de causalidad sí podemos hacer unos comentarios sobre
correlación y causalidad.
a) Una correlación no puede interpretarse como prueba de una relación
causal; el que dos variables covaríen, se den juntas, no quiere decir
que una sea causa de la otra. Una correlación sí nos puede dar pistas
para proponer hipótesis sobre posibles relaciones causales.
Aunque de hecho hubiera una relación de causa a efecto, esta relación
no queda demostrada por un coeficiente de relación.
b) Para poder hablar de causalidad, al menos como hipótesis, hay que po-
der excluir otras explicaciones. Frecuentemente la explicación de por
qué dos variables están relacionadas entre sí es que ambas están a su
vez relacionadas con una tercera variable (que tampoco es necesaria-
mente causa de las otras dos pero sí puede ser una buena explica-
ción). Peso y altura estarán relacionadas en una muestra de niños de 2
a 10 años porque tanto el peso como la altura están relacionados con la
edad.
c) El coeficiente de correlación trata las dos variables como simétricas:
nos da lo mismo calcular la correlación de A con B que la de B con A. Si
CONCEPTO DE CORRELACIÓNYCOVARIANZA
131
fuéramos a interpretar un coeficiente de correlación como indicador
de una relación de causa a efecto, no sabríamos cuál es la causa y cuál
es el efecto en función solamente de ese coeficiente. Si entre fumar y
enfermedades coronarias encontramos una relación alta, podríamos
concluir que las enfermedades coronarias son la causa del fumar… En
ejemplos no tan obvios es fácil cometer errores de interpretación y dar
por establecidas relaciones de causa a efecto sin fundamento.
d) Para establecer relaciones de causa-efecto, al menos como hipótesis ra-
zonable, se requieren cuatro condiciones:
1º Que a un aumento en el predictor (supuesta causa) se siga un
aumento en el criterio (supuesto efecto);
2º Que se puedan excluir otras explicaciones plausibles;
3º Que se pueda establecer algún tipo de teoría o justificación que ex-
plique la relación causal;
4º Que se pueda replicar el mismo resultado en otras poblaciones y
con otras características3
.
Por lo general en estos estudios (para verificar hipótesis causales) se utili-
zan diseños experimentales y no simples estudios correlacionales, que por
otra parte pueden ser buenos estudios piloto que pueden a su vez orientar
otros tipos de investigación.
3.3. Cómo calcular la media de varios coeficientes de correlación
Como no hay una unidad en sentido propio no se debería calcular en
principio la media aritmética de varios coeficientes; por otra parte es útil la in-
formación que puede darnos una media de varios coeficientes de correlación.
El método tradicional que se suele proponer en muchos textos para cal-
cular una correlación media es el siguiente:
1º Se transforma el valor de r en el valor Z de Fisher (el símbolo es zeta
mayúscula; hay tablas apropiadas);
2º Se opera con estos valores Z (se calcula el valor medio de Z);
3º El valor de Z resultante se reconvierte en un valor de r (con las mismas
tablas), que será en este caso la verdadera correlación media.
Sin embargo esta práctica habitual se puede substituir sin especial proble-
ma por el simple cálculo de la media aritmética: si disponemos de varios co-
eficientes de correlación calculados en muestras distintas, la mejor estima-
ción de la correlación en la población es la media ponderada de los distintos
coeficientes:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
132
3
Light, Singer y Willett, (1990)
[6]
Tenemos, por ejemplo, estos dos coeficientes de correlación calculados en
las mismas dos variables en dos muestras distintas:
En una muestra de N = 60 r = .45
En una muestra de N = 120 r = .30
Correlación media:
Esta media ponderada es de cálculo sencillo, de fácil comprensión y no
distorsiona más la verdadera media que lo que la distorsiona la transforma-
ción de Fisher4
. Si el número de sujetos es el mismo se calcula directamente
la media aritmética.
También es frecuente utilizar la mediana en vez de la media (el uso de la
mediana es siempre apropiado) cuando se dispone de una serie de coeficien-
tes de correlación y se quiere indicar una medida de tendencia central.
Como siempre que se utiliza la mediana en vez de la media hay que re-
cordar dónde está la diferencia entre ambos estadísticos. Como la mediana es
simplemente el valor central que divide a la muestra (de coeficientes en este
caso) en dos mitades iguales, no se ve afectada por valores extremos que sí se
influyen y se notan en la media. Unos pocos coeficientes atípicos (o muy al-
tos o muy bajos), o un solo coeficiente muy atípico, pueden sesgar la media
como valor representativo en una dirección. En estos casos puede ser prefe-
rible utilizar la mediana, o ambos valores, la media y la mediana.
3.4. El coeficiente de determinación
El coeficiente de correlación elevado al cuadrado (r2
) se denomina coefi-
ciente de determinación e indica la proporción (o porcentaje si multipli-
camos por 100) de variabilidad común: indica la proporción de varianza de
una variable determinada por o asociada a la otra variable.
En términos más simples, r2
indica el tanto por ciento (r2
x 100) de acuer-
do, de área común o de variabilidad común entre ambas variables. Un co-
eficiente de r = .50 indica un 25% de varianza común entre ambas variables
(.502
=.25). Una correlación de r = .50 entre un test de inteligencia abstracta
CONCEPTO DE CORRELACIÓNYCOVARIANZA
133
4
La transformación de Fisher tiene un sesgo positivo: la media resultante es ligeramen-
te mayor de lo que debería ser. Con la media ponderada por el número de sujetos (fórmula
[6]) la media que resulta es ligeramente menor, pero la desviación es menor en términos ab-
solutos que la que provoca la transformación de Fisher, y con muestras grandes (a partir de N
= 40) el margen de error es muy bajo y sólo afecta al tercer decimal (Hunter y Schmidt, 1990).
y rendimiento en matemáticas, indica que el 25% de las diferencias en mate-
máticas (propiamente el 25% de la varianza en matemáticas) tiene que ver
con (depende de o se explica por) las diferencias en el test de inteligencia
abstracta. Un coeficiente de .30 expresa solamente un .302
o un 9% de variabi-
lidad en una variable asociada a la variabilidad o diferencias en la otra variable.
Los valores de r2
sí pueden compararse entre sí directamente; por ejemplo:
r = .20 indica un 4% de acuerdo entre las dos variables (.202
=.04);
r = .40 indica un 16% de acuerdo entre las dos variables (.402
=.16);
r = .60 indica un 36% de acuerdo entre las dos variables (.602
=.36).
Se ve con claridad que de r =.60 a r =.40 (del 16% al 36%) hay más distan-
cia que de r =.40 a r =.20 (del 16% al 4%), aunque aparentemente las dife-
rencias sean idénticas (de .20). El elevar al cuadrado el valor del coeficiente
de correlación ayuda a interpretarlo.
Los valores de r bajan drásticamente cuando los trasformamos en r2
y esto
puede hacernos pensar que las correlaciones bajas son de menor importancia.
Por ejemplo r = .32 significa solamente un 10% (.322
) de varianza común; muy
poco, solamente el 10% de la variabilidad (o de las diferencias) en una variable
está asociada a diferencias en otra variable. A pesar de esto no conviene infrava-
lorar la importancia potencial de los coeficientes pequeños pues pueden apor-
tar información de mucho interés o decir más de lo que parece (lo veremos al
tratar de la valoración de la magnitud de estos coeficientes). Aun así y en tér-
minos generales, los coeficientes más bien bajos (inferiores a .30) suelen tener
poco interés práctico aunque si son estadísticamente significativos (qué signi-
fica esta expresión lo vemos en el próximo apartado) se pueden prestar a una
buena elaboración teórica e interpretativa.
3.5. La significación estadística de los coeficientes de correlación
3.5.1. Qué es un coeficiente de correlación estadísticamente
significativo
Lo primero en lo que solemos fijarnos es en la magnitud del coeficiente
de correlación. Antes podemos comprobar si el coeficiente es mayor de lo
que se puede esperar por puro azar.5
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
134
5
Hasta aquí hemos tratado de la correlación dentro de la estadística descriptiva;
ahora estamos ya en estadística inferencial, tema que retomaremos al tratar del error tí-
pico de la media y del contraste de medias. En muchos textos la estadística meramente
descriptiva y la estadística inferencial se tratan en capítulos o partes distintas; aquí preferi-
mos tratar conjuntamente todo lo referido a la correlación, al menos lo que juzgamos más
importante para interpretar adecuadamente estos coeficientes.
Podemos entenderlo con un ejemplo muy simple. Entre dos variables ob-
viamente no relacionadas (como día de nacimiento y número de plantas
que uno tiene en su casa) difícilmente obtendremos r = 0.0000. Por simple
casualidad obtendremos algún valor, positivo o negativo, distinto de cero.
Con 5 sujetos un valor de r =.30 puede ser casual (una mera coincidencia;
un sujeto con muchas ventanas en su casa nació a finales de mes) y en cam-
bio con 100 sujetos es muy improbable obtener r =.20 por casualidad, sin
que exista alguna relación. Ya podemos intuir que con pocos sujetos necesi-
taremos un valor mayor para poder rechazar la casualidad, y que con mu-
chos sujetos un valor pequeño es muy improbable que sea casual (o explica-
ble por el error muestral, en términos más propios).
3.5.2. El modelo teórico
Es importante entender el modelo teórico en el que nos basamos para lle-
gar a la conclusión de que un coeficiente de correlación es mayor de lo que
podríamos esperar por azar y poder afirmar por lo tanto que con toda proba-
bilidad expresa una verdadera relación (o correlación estadísticamente sig-
nificativa). El mismo modelo lo veremos también en planteamientos seme-
jantes. Lo exponemos paso a paso, de manera muy sucinta.
1) Suponemos que calculamos el coeficiente de correlación entre dos varia-
bles que no están relacionadas (podemos pensar en el ejemplo anterior,
día de nacimiento y número de plantas que uno tiene en su casa).
2) Suponemos también que esta correlación la calculamos en un número
muy grande de muestras (realmente no calculamos nada, se trata de un
modelo teórico).
3) Aunque la correlación esperada sea igual a cero (estamos suponiendo
que no hay relación) no siempre obtendremos r = 0; por puro azar
unas veces tendremos una correlación distinta de cero y positiva y
otras veces tendremos una correlación distinta de cero y negativa,
aunque lo normal es que se trate de valores muy pequeños.
4) Al calcular muchos coeficientes de correlación entre estas dos variables
que no están relacionadas tendremos una distribución normal de los
coeficientes de correlación. Esta distribución tendrá su media y su des-
viación típica.
5) Estas distribuciones se denominan distribuciones muestrales (no es la
distribución de unas puntuaciones individuales sino de estadísticos o
medidas de muchas muestras hipotéticas; también hablaremos de la
distribución muestral de la media).
6) La media de esta distribución será igual a cero (éste es nuestro su-
puesto en caso de no relación); los valores positivos y negativos se anu-
lan mutuamente.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
135
7) Cuando nos preguntamos si un coeficiente de correlación es estadísti-
camente significativo, lo que nos preguntamos es si es probable que
ocurra cuando no hay relación, o, lo que es lo mismo, si es probable
que ocurra cuando la media de las posibles correlaciones entre esas
dos variables es cero.
Si nuestro coeficiente es muy poco probable cuando no hay relación,
es entonces cuando concluiremos que el coeficiente de correlación es
estadísticamente significativo: es demasiado grande para ese número
de sujetos como para que sea casual y expresa por lo tanto una verda-
dera relación distinta de cero. Dicho de otra manera, no pertenece a la
población de coeficientes cuya media es cero.
8) Para decidir si un coeficiente de correlación es probable o improbable
cuando la media de los posibles coeficientes de correlación es cero, ne-
cesitamos un criterio (en qué punto empieza lo improbable).
El criterio convencionalmente aceptado es que lo que por azar sucede
más de 5 veces de cada 100 está dentro de lo probable, y lo que por
La desviación típica de esta distribución no la conocemos pero sí po-
demos estimarla. En estos planteamientos (distribuciones muestrales
hipotéticas) la desviación típica se denomina error típico.
La interpretación es la misma que hacemos de la desviación típica en
la distribución normal, así por ejemplo el 95% de los casos caerán en-
tre la media (= 0) más menos 1.96 errores típicos, y solamente el 5%
de los coeficientes de correlación se apartará de una media de cero en
+1.96 errores típicos o en –1.96 errores típicos, tal como aparece en la
figura 4. La mayoría de los valores estarán en torno a cero.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
136
-1.96 errores típicos correlación media = 0 +1.96 errores típicos
El 95% de los coeficientes
de correlación caen entre
más menos 1.96
errores típicos
Figura 4
azar sucede 5 o menos de 5 veces de cada 100 lo consideramos ya im-
probable o fuera de lo normal. A este criterio le denominamos nivel de
confianza, y se expresa a = .05 cuando consideramos poco probable
lo que sucede menos del 5% de las veces (también se expresa a veces
así: nivel de confianza del 95% que son las probabilidades de no equi-
vocarnos al afirmar la relación).
9) Ya sabemos que en la distribución normal el 95% de los casos están entre
la media (que es igual a cero en nuestro modelo de la figura 4) y más me-
nos 1.96 errores típicos. Diremos por lo tanto que un coeficiente de co-
rrelación es estadísticamente significativo cuando se aparte de la media
cero en más de 1.96 errores típicos. Volviendo a la figura 4, un coeficien-
te de correlación es estadísticamente significativo si no está en el 95%
central de los posibles coeficientes de correlación cuya media es cero.
Cuando la probabilidad de que ocurra en el caso de no relación es infe-
rior al 5% se expresa así: p  .05; si esta probabilidad es superior al 5%
lo expresamos así: p  .05.
10) Aunque nuestro nivel de confianza sea .05, también es informativo indi-
car si las probabilidades de que la correlación son inferiores al 1%
(p.01) o al 1/1000 (p  .001). Lo que se suele recomendar es indicar la
probabilidad exacta (por ejemplo p = .02) sin limitarse a poner si es su-
perior o inferior (p.05 o p.05) a una determinada probabilidad previa-
mente especificada6
.
3.5.3. Interpretación de una correlación estadísticamente
significativo
Es importante entender bien qué significa el decir que una correlación es
o no es estadísticamente significativa.
Una correlación estadísticamente significativa, por ejemplo p  .05,
quiere decir que si no hay relación en la población (es decir, si se da esa
condición importante de ausencia de relación) la probabilidad de obtener
un coeficiente de esa magnitud por puro azar es inferior al 5%.
En la práctica, y cuando una correlación es estadísticamente significativa
(porque p .05 si .05 es nuestro nivel de confianza):
a) Podemos afirmar con mucha seguridad que en la población esa corre-
lación no es cero: si no hubiera ningún tipo de relación es muy impro-
bable obtener el coeficiente que hemos obtenido. Podemos afirmar el
hecho de la relación.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
137
6
Las probabilidades exactas, si no nos las da ya un programa de ordenador, se bus-
can fácilmente en alguna de las direcciones de Internet puestas en el Anexo II.
b) Lo que no podemos afirmar es que en muestras semejantes (de la mis-
ma población) obtendríamos coeficientes de magnitud semejante (in-
terpretación frecuente y errónea). Para hablar de la magnitud de la co-
rrelación en general (en la población) necesitamos acudir a los
intervalos de confianza de los que trataremos enseguida.
Cuando una correlación no es estadísticamente significativa (porque p
.05):
a) Una correlación no significativa es una correlación que no podemos
generalizar sin más. Con los datos que tenemos no podemos afirmar
que en la población (en otras muestras semejantes) hay una relación,
aunque sea pequeña, y distinta de cero.
b) Por otra parte una correlación no significativa no es prueba de no rela-
ción en la población (podríamos encontrarla quizás en muestras mayo-
res, o utilizando otras medidas más precisas, etc.; no probar que hay
relación no es lo mismo que probar que no hay relación).
Con muestras muy pequeñas podemos encontrar coeficientes de correla-
ción relativamente grandes pero no estadísticamente significativos (el cero
es un valor probable; no nos permiten extrapolar el hecho de la relación a
otras muestras de la misma población).
Aunque con frecuencia los coeficientes de correlación no estadísticamen-
te significativos suelen ser pequeños (sobre todo en muestras grandes) cuan-
do el signo de la relación está en la dirección esperada y la muestra es pe-
queña, es posible que obtengamos una correlación estadísticamente
significativa en muestras mayores (al menos se puede proponer como hipó-
tesis razonable).
Los coeficientes de correlación estadísticamente significativos pero muy
bajos (caso frecuente en muestras relativamente grandes) suelen ser de poca
relevancia práctica, aunque no podemos despreciar sin más los coeficientes
pequeños (si son estadísticamente significativos) porque pueden dar buen
juego interpretativo desde una perspectiva más teórica o metodológica, co-
mo veremos después.
3.5.4. Cómo comprobamos si un coeficiente de correlación es
estadísticamente significativo
El primer paso por lo tanto para interpretar un coeficiente de correlación es
comprobar si es mayor de lo que podría esperarse por azar, o utilizando la ex-
presión habitual, comprobar si es estadísticamente significativo. Una correla-
ción estadísticamente significativa es una correlación muy improbable por
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
138
Vemos .576 en la columna correspondiente a .05; esto quiere decir que
con 12 sujetos (10 grados de libertad) una correlación tan alta como .576 la
obtendríamos por azar, sin que hubiera relación entre las dos variables, 5 ve-
ces de cada 100 (y nuestra conclusión será que sí hay relación; no ha sido
una casualidad).
Debajo de .01 vemos r = .7079, que es el valor de la correlación que podría-
mos obtener por azar 1 vez cada 100, y debajo de .001 vemos r = .8233, la co-
rrelación que podríamos obtener por azar 1 vez cada 1000 veces.
azar (en la hipótesis de no relación); la consecuencia es que podemos suponer
que en la población (en otras muestras semejantes) seguiremos encontrando
una correlación distinta de cero. Esto lo veremos también después desde otra
perspectiva al tratar de los intervalos de confianza de la correlación.
La teoría subyacente a esta comprobación es la misma que la de plantea-
mientos semejantes en estadística (¿cuándo podemos considerar que una di-
ferencia entre dos medias es mayor de lo puramente casual y aleatorio?). Lo
que hacemos es dividir nuestro coeficiente de correlación (o con más propie-
dad |r – 0|, la diferencia entre la correlación obtenida y una correlación me-
dia de cero) por el error típico de la correlación (fórmulas [10] y [11]) pa-
ra ver en cuántos errores típicos se aparta nuestro coeficiente de una
correlación media de cero7
.
a) Con muestras de 100 sujetos o menos
Lo más práctico es consultar las tablas apropiadas (anexo I, al final del ca-
pítulo)8
, en las que se indica la probabilidad de obtener un determinado coe-
ficiente por azar, sin que haya relación entre las dos variables.
Para consultar las tablas tenemos que tener en cuenta los grados de liber-
tad, que en el caso de la correlación son N-2.
Por ejemplo, con N = 12 los grados de libertad son 10. En las tablas y con
10 grados de libertad vemos:
CONCEPTO DE CORRELACIÓNYCOVARIANZA
139
7
Aunque consultemos tablas o vayamos a direcciones de Internet que nos lo dan re-
suelto, conviene entender qué estamos haciendo.
8
Tablas semejantes figuran en muchos textos; también podemos consultar las direc-
ciones de Internet puestas en el Anexo II.
Grados de libertad = N -2 .05 .01 .001
10 .5760 .7079 .8233
Siempre que el valor de nuestra correlación sea igual o mayor que el valor
indicado en la columna .05, podemos concluir que la correlación es estadís-
ticamente significativa (improbable por azar; ese coeficiente de correlación
lo podríamos encontrar, sin que se dé relación, 5 veces o menos de cada 100).
Si supera los valores de las columnas .01 ó .001 se indica de esta manera: p
.01 ó p .001.
Ya hemos indicado en el apartado anterior que este 5% es el límite conven-
cional y aceptado para rechazar el azar (el error muestral en términos más
apropiados) como explicación, por lo que podríamos concluir que sí hay re-
lación aunque ésta puede ser pequeña y de poco valor práctico. Una corre-
lación estadísticamente significativa no significa una correlación grande.
El poner un 5% de probabilidades de error (para afirmar que sí hay rela-
ción) es un criterio usual aunque arbitrario; si uno desea más seguridad pue-
de poner como límite un 1% de probabilidad de error; son los dos límites
convencionales más utilizados.
b) Con muestras de más de 100 sujetos
Vemos en cuántas desviaciones típicas (errores típicos) se aparta nuestro co-
eficiente de correlación de una correlación media de cero; es decir calculamos
la puntuación típica (z) correspondiente a nuestro coeficiente de correlación:
[7]
Lo que tenemos en el denominador es la fórmula del error típico de los
coeficientes de correlación (en muestras grandes).
Esta fórmula queda simplificada así: [8]
En la tabla 6 están los valores críticos para interpretar los resultados.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
140
Tabla 6
En el numerador de la fórmula [7] tenemos la diferencia entre nuestra co-
rrelación y una correlación media de cero; lo que tenemos en el denomina-
dor es el error típico (o desviación típica) de la distribución de las correlacio-
nes cuando la correlación media es cero. Lo que hemos hecho es por lo
tanto calcular una puntuación típica: nos indica, utilizando los términos con-
vencionales, en cuántas desviaciones típicas (o errores típicos) se aparta
nuestra correlación de una correlación media de cero. Y ya sabemos (por las
tablas de la distribución normal) que un valor que se aparte de la media en
más de 1.96 desviaciones (fijándonos en ambos extremos de la distribución)
sólo ocurre por azar 5 veces de cada 100 o menos.
Por ejemplo: encontramos una correlación de r = .14 en una muestra de
275 sujetos; aplicando la fórmula [8] (más sencilla que la [7]) tendremos que
que supera el valor de z = 1.96 por lo que podemos
concluir que una correlación de r = .14 en esa muestra, en el caso de no rela-
ción, la obtendríamos por azar menos de cinco veces de cada 100 (p .05);
nuestra conclusión será que esa correlación es estadísticamente significativa.
c) Cuando de los mismos sujetos tenemos varios coeficientes de
correlación
En vez de aplicar la fórmula [7] o la fórmula [8] a cada coeficiente, pode-
mos construir nuestras propias tablas, cuando el número de sujetos es siem-
pre el mismo y los valores de z de interés también son siempre los mismos
(los que figuran en la tabla 6). En la fórmula [7] podemos despejar los valores
de r que nos interesan:
Si podemos despejar r;
Esta fórmula queda simplificada de esta manera: [9]
Por ejemplo, si nuestros sujetos son N = 212, nuestras tablas serán estas9
:
Para p ⭐ .05
Para p ⭐ .01
Para p ⭐ .001
CONCEPTO DE CORRELACIÓNYCOVARIANZA
141
9
Dado un número determinado de sujetos (N) los valores correspondientes a .05,
.01 y .001 nos lo da directamente Department of Obstetrics and Gynaecology, The Chine-
se University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correla-
tion.asp, buscando minimum r to be significant. Esta dirección, y otras que nos dan la
misma información, también está en el Anexo II.
3.6. Los intervalos de confianza: magnitud de la correlación en la
población
Si calculamos el coeficiente de correlación, por ejemplo, entre una medi-
da de motivación y otra de rendimiento escolar, encontraremos un valor de-
terminado en nuestra muestra. Puede ser que nuestro interés no esté en co-
nocer el grado de relación entre estas dos variables en una muestra concreta,
sino en la población más general representada por esa muestra10
.
Si lo que nos interesa es la magnitud de la correlación en la población (y
no solamente en nuestros sujetos), el valor exacto de la correlación en la po-
blación no podemos saberlo, pero sí podemos estimar entre qué valores má-
ximo y mínimo se encuentra. Estos valores extremos se denominan, muy
apropiadamente, intervalos de confianza.
El modelo teórico es semejante al visto antes para ver si una correlación es
estadísticamente significativa; la diferencia está en que antes (figura 4) supo-
níamos una correlación media de cero en la población y ahora (figura 5) la co-
rrelación media estimada en la población es la obtenida en una muestra.
Si calculamos el coeficiente de correlación entre las mismas dos variables
en un gran número de muestras, tendríamos una distribución normal de los
coeficientes de correlación entre las dos variables.
La correlación calculada en nuestra muestra la tomamos como una esti-
mación de la media en la población. Esta estimación será más ajustada si la
muestra es realmente representativa.
El error típico (desviación típica) de esta distribución lo estimamos a par-
tir de los datos de una muestra concreta y las fórmulas son:
para muestras grandes sr = [10]
para muestras pequeñas sr = [11]
El error típico, lo mismo que una desviación típica, nos indica el margen
de variabilidad probable (de oscilación) de los coeficientes de correlación si
los calculáramos en muchas muestras. Como suponemos una distribución
normal, el 95% de los casos de los coeficientes de correlación caen entre la
correlación obtenida en la muestra (la media de la distribución) más 1.96
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
142
10
En este apartado, lo mismo que en el anterior, no nos limitamos a hablar de la co-
rrelación obtenida en una muestra concreta que describe la relación entre dos variables en
esa muestra, sino que estamos tratando de la correlación en la población. Cuando a par-
tir de los datos obtenidos en una muestra deducimos los valores probables en la población
(extrapolamos) estamos ya en estadística inferencial y no meramente descriptiva.
Por ejemplo: en una muestra de 102 sujetos encontramos una correlación
de r = .20;
Aplicando la fórmula [8] tendríamos z = = 2.01, p .05 (su-
peramos el límite de 1.96, tabla 6). La correlación de .20 en una muestra de
102 sujetos es estadísticamente significativa (no es cero en la población).
Si calculamos la correlación entre las mismas dos variables en una serie in-
definida de muestras ¿Entre qué límites oscilarían los coeficientes de correla-
ción?
El error típico de los coeficientes de correlación (con N = 102) sujetos es
(fórmula [10]):
errores típicos y la correlación obtenida menos 1.96 errores típicos. Estos son
los intervalos de confianza de la correlación, como podemos ver represen-
tado en la figura 5 (con un nivel de significación de .05).
CONCEPTO DE CORRELACIÓNYCOVARIANZA
143
-1.96 errores típicos
Correlación obtenida en la muestra =
estimación de la correlación en la población
+1.96 errores típicos
Límite máximo
probable en la
población
95% de los
coeficientes
de correlación en
muestras de la
misma población
Límite mínimo
probable en la
población
Figura 5
Límite más bajo de la correlación en la población:
.20 (media) – (1.96)(.099) = .005
Límite más alto de la correlación en la población:
.20 (media) + (1.96)(.099) = .394
Asumiendo la correlación que hemos encontrado de r = .20 como una esti-
mación de la correlación media, podemos afirmar que el coeficiente de corre-
lación en la población representada por esta muestra estará entre.005 y .394.
Vemos que entre estos límites extremos probables no se encuentra el ce-
ro, por eso la correlación es estadísticamente significativa (distinta de cero
en la población), aunque el límite inferior es casi cero.
Vamos a ver un ejemplo de correlación no estadísticamente significativa.
En una muestra de N = 120 y r = .14 vemos que (fórmula [8])
z = .14 120 – 1 = 1.53
Como no llegamos al valor crítico de 1.96 concluimos que p  .05; la pro-
babilidad de obtener un coeficiente de esa magnitud es superior al 5%. Nues-
tra conclusión será que esta correlación no es estadísticamente significativa.
Calculamos ahora los límites extremos (intervalos de confianza) de ese
coeficiente en la población:
1
Límite inferior: .14 – 1.96 (–––––––––) = .14 - .179 = -.04
120 – 1
1
Límite superior: .14 + 1.96 (–––––––––) = .14 + .179 = +.319
120 – 1
En la población esa correlación estará entre -.04 y + .319; como el límite
inferior es negativo (-.04) entre esos intervalos está la posibilidad de encon-
trar r = 0, por eso decimos que no es estadísticamente significativa; porque
puede ser r = 0 en la población. Siempre que los límites extremos son de dis-
tinto signo, la correlación no es estadísticamente significativa (el cero es un
valor probable porque está comprendido entre esos límites).
Cuando un coeficiente de correlación calculado en una muestra es esta-
dísticamente significativo, la información que tenemos sobre la magnitud
de la correlación en la población representada por esa muestra es por lo
tanto muy imprecisa, aunque podemos afirmar que no es cero. Para esti-
mar la magnitud de la correlación en la población con una mayor preci-
sión (entre unos límites estrechos) nos hacen falta muestras muy grandes
porque al aumentar el tamaño de la muestra disminuye el error típico.
Podemos verlo de manera más gráfica calculando los intervalos de confian-
za (límites máximo y mínimo en la población) de un coeficiente de .20 calcu-
lado en muestras de tamaño progresivamente mayor (tabla 7).
Un coeficiente de correlación de r = .20 calculado con una muestra gran-
de nos da una idea más precisa (límites extremos más estrechos) de dónde se
encuentra este valor en la población.
Con frecuencia vemos en la literatura experimental resultados conflictivos:
correlaciones grandes y positivas en una muestra y bajas o incluso negativas en
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
144
otras muestras… esta conflictividad suele ser aparente como podemos com-
probar si calculamos entre qué límites pueden oscilar estos coeficientes: cual-
quiera de los dos coeficientes podrían caer dentro de los límites del otro11
.
Aquí es oportuno hacer dos observaciones:
1. Cuando calculamos los intervalos de confianza de un coeficiente de
correlación (o de cualquier otro estadístico) estamos comprobando también
si ese coeficiente de correlación es estadísticamente significativo (si está
dentro de lo probable una correlación igual a cero en la población).
Por ejemplo, con N = 120 obtenemos una correlación de r = .15. Este co-
eficiente lo hemos calculado en una muestra concreta y ahora nos pregunta-
mos entre qué límites se encuentra ese coeficiente de correlación en la pobla-
ción representada por esa muestra.
El error típico es (fórmula [10]) 1 / 120 –1 = .0916, luego los límites es-
tarán entre .15 ± (1.96)(.0916); como (1.96)(.0916) = .179, los límites estarán
entre .15 ± .179:
Límite mínimo: .15-.179 = -.03 Límite máximo: .15 + .179 = .33
En la población esa correlación de .15, calculada en 120 sujetos, se en-
cuentra entre -.03 y + .33, el límite mínimo tiene signo menos, luego cero es
un valor posible; no se trata por lo tanto de una correlación estadísticamente
CONCEPTO DE CORRELACIÓNYCOVARIANZA
145
11
Los intervalos de confianza del coeficiente de correlación también podemos cal-
cularlos muy fácilmente en programas de Internet (Anexo II; uno muy cómodo es el de
VassarStats).
Tabla 7
Las valoraciones anteriores, y otras semejantes que pueden encontrarse
en libros de texto, son orientadoras y hay que interpretarlas con cautela. Es-
tas valoraciones suelen darse teniendo en cuenta la mera magnitud, pero
una correlación baja puede tener interés interpretativo12
.
12
Cohen (1988:77-81) establece (y justifica) como criterio orientador (y provisional) es-
tas valoraciones: correlación pequeña r = .10, media r = .30 y grande r = .50. Basa sus va-
significativa. Siempre que entre los valores extremos posibles (máximo y mí-
nimo) de la correlación hay un cambio de signo, entra como posible el valor
cero y la correlación ya no es en ese caso estadísticamente significativa (pue-
de ser cero en la población).
2. Los intervalos de confianza son más informativos que el decir simple-
mente si un coeficiente de correlación es o no es estadísticamente significa-
tivo; nos dicen entre qué valores probables puede oscilar ese coeficiente en
la población representada por la muestra. Lo que suele recomendarse es
aportar también los intervalos de confianza.
3.7. Cómo valorar la magnitud de la correlación
¿Cuándo un coeficiente de correlación es suficientemente alto? No vamos
a tener una respuesta clara y de aplicación universal, pero sí se pueden dar
orientaciones para valorar la magnitud de estos coeficientes.
3.7.1. Orientaciones generales
Una vez que hemos comprobado que un coeficiente de correlación es es-
tadísticamente significativo (= muy improbable por azar y que por lo tanto
se puede interpretar como indicador de una verdadera relación distinta de
cero), la cuestión siguiente es valorar la magnitud del coeficiente.
Como criterio orientador (sin convertirlo en norma) se suelen sugerir las
valoraciones indicadas en la tabla 8.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
146
un valor de r entre: indica una relación:
0 y .20 ...................................... muy baja,
.20 y .40 .................................... baja
.40 y .60 .................................... moderada
.60 y .80 .................................... apreciable, más bien alta
.80 y 1 ....................................... alta o muy alta
Tabla 8
a) Una correlación no significativa o simplemente muy baja, puede ser
tan informativa e interesante como una correlación alta. El descubrir
una no relación puede tener tanto interés como verificar que sí exis-
te relación. También puede suceder que se dé una clara relación, pe-
ro no linear sino curvilínea, y esto puede apreciarse en un diagrama
de dispersión (el coeficiente eta, h, es el apropiado para relaciones
curvilíneas).
b) Un coeficiente de correlación puede también calificarse como alto o ba-
jo añadiendo y matizando en este contexto. Las correlaciones muy ba-
jas a veces se deben no a que las relación es efectivamente baja, sino a
que medimos mal las variables, con instrumentos poco precisos que no
detectan bien las diferencias entre los sujetos, etc. En un cuadro gene-
ral de coeficientes más bien bajos, obtenidos con instrumentos seme-
jantes y en un mismo planteamiento de investigación, pueden destacar
los coeficientes altos en términos relativos.
c) Para valorar la magnitud de un coeficiente de correlación, r2
(o coefi-
ciente de determinación, que expresa la proporción de variación
conjunta) puede parecer más útil que el valor de r (y así suele a veces
indicarse) ya que aparentemente este valor expresa el impacto de una
variable sobre la otra variable. Como los valores de r2
son mucho más
bajos que los de r (si r = .30, r2
= .09) el utilizarlos como criterio para
valorar la magnitud o la importancia de un coeficiente de correlación
tiene sus riesgos porque los coeficientes bajos pueden ser también in-
formativos o sugerir preguntas de interés como indicamos en el apar-
tado siguiente.
3.7.2. Sobre la interpretación y utilidad de los coeficientes de
correlación bajos
Los coeficientes de correlación altos o moderadamente altos no ofrecen es-
peciales problemas; en general resultan gratificantes para el investigador. Son
los coeficientes bajos, aunque sean estadísticamente significativos, los que a ve-
ces nos cuesta interpretar adecuadamente. Por eso les dedicamos una especial
atención (en el apartado siguiente sugerimos posibles causas que pueden expli-
car coeficientes muy bajos donde cabría esperarlos mayores).
La primera observación sobre estos coeficientes muy bajos (como cuando
son mucho menores de .30), es que simplemente expresan una relación en-
CONCEPTO DE CORRELACIÓNYCOVARIANZA
147
loraciones en que en las ciencias de la conducta las correlaciones suelen ser bajas. Este autor
es conocido (y citado) por las valoraciones que hace sobre las magnitudes de determinados
estadísticos (son citadas sobre todo sus valoraciones sobre el tamaño del efecto). En otro
apartado (3.7.3.) damos posibles explicaciones de coeficientes de correlación bajos.
tre las dos variables (matizando siempre tal como la medimos) que es muy
pequeña. Con muestras grandes es normal encontrar correlaciones estadísti-
camente significativas pero tan pequeñas que pueden ser prácticamente irre-
levantes. Aun así estos coeficientes pequeños pueden darnos información útil
o buenas pistas para pensar al menos por qué no encontramos una relación
apreciable donde cabría esperarla (este punto lo tratamos en el apartado si-
guiente). Además, dadas las limitaciones de nuestros instrumentos de medi-
ción, la relación real puede ser mayor de la que somos capaces de cuantificar
(una imagen que nos puede ayudar es la de un iceberg: lo que somos capaces
de ver y cuantificar es mucho menor que lo que está sumergido).
1º Los coeficientes bajos (por ejemplo de .30) son poco útiles (o inútiles)
desde una perspectiva práctica; por ejemplo para predecir resultados. Si dos
variables están relacionadas, conociendo la puntuación de un sujeto en una
variable, podemos predecir (o estimar) cuál será su puntuación en la otra va-
riable. Por eso se habla de la validez predictiva de los tests (admisiones, se-
lección, etc.). Aun así tests con baja validez predictiva pueden ser predictores
útiles unidos a otros en correlaciones múltiples (que no tratamos ahora), pe-
ro esta utilidad habría que comprobarla13
. En estos casos (validez predictiva
de los tests) también hay que tener en cuenta lo que explicamos en el aparta-
do los coeficientes de correlación corregidos por restricción de la amplitud.
2º Coeficientes de correlación muy pequeños, si son significativos (es de-
cir, que probablemente no son cero en la población), pueden estar indicando
alguna ley psicológica14
; el que la correlación sea pequeña puede significar no
que sea realmente pequeña sino que medimos muy pobremente las variables
o que esta correlación está contaminada por otras variables que no tenemos
en cuenta; casi nunca medimos variables puras (así la inteligencia, tal como la
medimos, puede estar contaminada por niveles de educación, capacidad lec-
tora, etc.).
3º Algunos autores15
señalan que una correlación de .30 (aparentemente
baja) viene a indicar el tipo de relación que un observador puede detectar ca-
sualmente; es una relación detectable a simple vista; por ejemplo, cuando un
profesor cae en la cuenta, al cabo de los años, de que entre los alumnos que
se sientan en las últimas filas y junto a una ventana hay más suspensos que en-
tre los que se sientan en la primera fila… esa relación observable podría ser
del orden de r = .30 y ciertamente relevante.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
148
13
El tema de la predicción, obviamente muy relacionado con la correlación, no lo es-
tamos tratando aquí; puede verse tratado en el documento correlación y regresión
(www.upcomillas.es/personal/peter).
14
Guilford y Fruchter (1973: 92).
15
Por ejemplo Cohen P. (1981) y Cohen J. (1988:80), y también otros autores hacen
la misma observación. Cohen J. (1988:80) cita coeficientes de correlación importantes que
son de este tipo de magnitud (.30).
4º Cuando las dos variables son dicotómicas (una puede ser participar o
no participar en una terapia, en un nuevo método, experiencia, etc. y la otra
mejorar o no mejorar, sobrevivir o no sobrevivir, etc.) el coeficiente de co-
rrelación es igual al tanto por ciento de éxito; así una correlación de .20 (que
indica que solamente hay un 4% de varianza común) quiere decir que con ese
tratamiento han mejorado, sobrevivido, etc., un 20% más de los que hubie-
ran sobrevivido de no seguir ese tratamiento16
. Este es un dato importante pa-
ra valorar los coeficientes de correlación, que aunque sean bajos pueden in-
dicar un éxito cualitativamente importante (¿es despreciable un 4% de
supervivientes (si r = .04) que de otra manera no hubieran sobrevivido?).
Sobre esta última valoración e interpretación de los coeficientes de corre-
lación hacemos dos observaciones:
1ª Aunque literalmente se refiere a la correlación entre dos variables dico-
tómicas (un caso especial de la correlación de Pearson que en principio
requiere que al menos una variable sea continua), esta interpretación
es también válida cuando las variables son continuas (como escalas ti-
po Likert).17
2ª Aunque este tipo de comprobaciones (por ejemplo eficacia de una te-
rapia) las hacemos habitualmente comparando medias (comparando
dos grupos, uno experimental y otro de control) los resultados (t de
Student) se pueden convertir fácilmente en un coeficiente de correla-
ción que añade una información complementaria que no nos aporta la
t de Student, pues nos permite valorar la magnitud (y por lo tanto la
importancia) de la diferencia.18
Aunque estos planteamientos no sean los que más nos interesen ahora
mismo al tratar de la correlación de Pearson, no sobra intuir el valor informa-
tivo que puede tener una correlación pequeña.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
149
16
Esta interpretación (denominada Binomial Effect Size Display, BESD) elaborada
por Rosenthal y Rubin (1979, 1982; Rosenthal, 1987); la recogen también otros autores
(por ejemplo Hunter y Schmidt, 1990:202; Cohen, 1988:533) que revalorizan la informa-
ción que pueden aportar a veces coeficientes pequeños de correlación en determinadas si-
tuaciones. En los primeros autores citados pueden encontrarse una explicación más deta-
llada y tablas que facilitan esta interpretación. Sobre el Binomial Effect Size Display puede
verse en Internet Randolph y Edmondson (2005), que exponen su utilidad y limitaciones
y también cómo calcular este Binomial Effect Size Display a partir del tamaño del efecto
(d de Cohen) si se ha hecho un contraste de medias (la t de Student puede transformarse
en un coeficiente de correlación).
17
Rosenthal (1987: 114-115).
18
Las fórmulas para convertir los valores de t en r y viceversa suelen verse tratando
del tamaño del efecto en el contexto del contraste de medias.
5º Hay que tener en cuenta la situación y el uso del coeficiente. Un valor
pequeño (por ejemplo de r =.20) puede ser poco útil (o nada útil) con fines
predictivos, y ser sin embargo de interés en una investigación teórica; a veces
lo que interesa es constatar si se da alguna relación.
Estas consideraciones sobre los coeficientes pequeños de correlación hay
que complementarlas con otras sobre las posibles causas de estos valores ba-
jos, sobre todo si cabría esperar que fueran mayores. Nos introducen en otras
reflexiones útiles para el investigador.
3.7.3. Explicaciones posibles de coeficientes de correlación muy
bajos
Una correlación baja puede significar simplemente eso, que la relación en-
tre esas dos variables es pequeña. Sin embargo una correlación baja donde
hubiéramos esperado un valor mayor nos invita a preguntarnos el por qué de
esa correlación baja o nula. Puede que sea baja tal como la hemos medido y
además en una determinada muestra, pero que en la realidad, en la vida, la
relación sea mayor y más clara.
Explicaciones posibles de coeficientes de correlación bajos.
Las posibles explicaciones (más que causas) de los coeficientes de corre-
lación muy bajos pueden ayudarnos en su interpretación y explicación.
a) Poca fiabilidad, o poca precisión, en los instrumentos de medición
Entre dos variables puede haber una verdadera relación, pero no detecta-
ble si medimos con poca precisión, sin diferenciar adecuadamente a unos
sujetos de otros. Debemos tener en cuenta que a veces intentamos medir
sentimientos, profundos, recuerdos del pasado, valoraciones difíciles de ha-
cer, etc., con preguntas sencillas, que los sujetos a veces responden rápida-
mente y sin especial cuidado19
; quizás no tenemos otra manera mejor de ha-
cerlo en un momento dado, pero en cuanto instrumentos de medición
resultan muy pobres (aunque pueden ser muy útiles).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
150
19
Con las preguntas de muchos cuestionarios lo que hacemos con frecuencia es inten-
tar atrapar sentimientos con un cazamariposas. A veces podemos sospechar que una co-
rrelación muy pequeña, sobre todo detectada con instrumentos muy pobres, es simple-
mente la punta del iceberg; la realidad sumergida (o sugerida como hipótesis) puede ser
mucho mayor. Para Cohen (1988:79) muchas de las correlaciones que podemos buscar en
las ciencias blandas de la conducta son del orden de .10 ya que en las variables, tal como
las operacionalizamos, hay muchos ruidos (falta de fiabilidad o de fidelidad al construc-
to teórico, etc.). El mismo autor cita a Thurstone cuando dice que en psicología medimos
a los hombres por sus sombras.
Es posible aplicar las fórmulas de corrección por atenuación que dan una
estimación de la correlación que podríamos obtener si la fiabilidad fuera
perfecta. De estas fórmulas (que suponen una comprensión adecuada de lo
que es la fiabilidad) tratamos más adelante.
b) Homogeneidad de la muestra
La relación verificada (que es lo que indica el coeficiente de correlación)
supone diferencias entre los sujetos en las variables cuya relación nos intere-
sa comprobar. Con muestras muy homogéneas los coeficientes son bajos;
con muestras heterogéneas es más fácil detectar relaciones. Por ejemplo la re-
lación comprobada mediante el coeficiente r entre inteligencia y rendi-
miento escolar puede ser muy baja o nula si los alumnos han sido selecciona-
dos precisamente por su inteligencia (no hay diferencias, o muy pequeñas, en
una de las variables).
c) Instrumentos poco discriminantes
También puede suceder que el poco matiz de algunas medidas no recoge
las diferencias que de hecho se dan, e impide encontrar coeficientes de corre-
lación altos. Se trata en definitiva de limitaciones en el instrumento de medi-
da. Con frecuencia es éste el caso cuando:
a) Una de las variables son calificaciones escolares que apenas diferencian
a los alumnos, o son notas medias que tienen a parecerse mucho en-
tre sí.
b) Cuando medimos una variable con unas preguntas que admiten pocas
respuestas (como sí o no, o poco, algo, mucho, cuando los sujetos po-
drían matizar más) y que por lo tanto no recogen la diversidad que de
hecho puede estar presente en la muestra.
La homogeneidad de la muestra puede estar provocada por el mismo ins-
trumento, que no discrimina lo suficiente, y sin diferencias claras en la mues-
tra y en ambas variables no se detectan relaciones. Este punto hay que tener-
lo en cuenta en la construcción de instrumentos de medida (tests, escalas,
cuestionarios…).
3.8. Los coeficientes de correlación cuando unimos o separamos
submuestras
Este apartado es de interés porque muchas veces los sujetos de nuestras
muestras se pueden subdividir de muchas maneras (cursos, carreras, profe-
siones, sexos, procedencia), y también en las variables que correlacionamos
CONCEPTO DE CORRELACIÓNYCOVARIANZA
151
cabe distinguir varias subvariables (por ejemplo, en vez de, o además de, una
nota media como criterio de rendimiento se pueden utilizar las notas de las
distintas asignaturas y también otros criterios disponibles).
En dos muestras distintas podemos encontrar una correlación alta entre,
por ejemplo, un test de inteligencia y calificaciones en una asignatura, y al
unir las dos muestras podemos encontrarnos con que la correlación baja
apreciablemente. Esto puede suceder si las medias en esa asignatura son muy
distintas en las dos muestras (como puede suceder si se trata de profesores
distintos, o con distinto criterio para calificar, etc.) Calculando coeficientes de
correlación uniendo muestras distintas o separándolas podemos hacer que
aumenten o disminuyan las diferencias en una o en las dos variables y esto na-
turalmente afecta a los coeficientes de correlación.
Presentamos (de manera un tanto exagerada para que quede más claro)
algunos casos típicos que ponen de relieve lo que puede suceder al unir o se-
parar muestras.
Cuando una muestra está compuesta por submuestras (ambos sexos, di-
versas edades, o una muestra subdividible por cualquier otra variable) puede
merecer la pena calcular la correlación dentro de cada submuestra; con fre-
cuencia aparecen correlaciones en subgrupos concretos sin que aparezcan en
la muestra general; y al revés, puede no haber una relación apreciable en una
submuestra y aparecen relaciones importantes cuando las unimos en una so-
la muestra.
Los gráficos siguientes (diagramas de dispersión, con datos ficticios) ilus-
tran situaciones que pueden ser frecuentes y en las que los coeficientes de
correlación varían mucho si los calculamos en submuestras distintas o en to-
da la muestra20
.
En el diagrama I (figura 6) tenemos que dentro de cada muestra r = 0, en
cambio si unimos las dos muestras en una sola, la correlación pasa a ser muy
alta. Una muestra tiene las dos medias más altas que la otra, y al unirlas en una
sola muestra tienden a coincidir los altos y los bajos en las dos variables.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
152
20
De hecho un mismo coeficiente de correlación puede corresponder a diagramas
de dispersión muy distintos en los que el mismo coeficiente no se podría interpretar de la
misma manera, por eso para interpretar estos coeficientes es muy aconsejable tener a la
vista el diagrama de dispersión. Un ejemplo muy ilustrativo son los cuatro diagramas de
dispersión que con datos ficticios publicó Anscombe (1973); los cuatro diagramas de dis-
persión son muy distintos pero corresponden a un idéntico coeficiente de correlación de
.82; estos diagramas los reproducen con su explicación algunos autores (por ejemplo Fox;
1993:246 y Etxcheberria, 1999:49) y también podemos encontrarlos con facilidad en Inter-
net (por ejemplo Behrens, 1997); también en Internet Dallal (2001) reproduce (en corre-
lation coefficients) ocho diagramas muy distintos que corresponden a un mismo coefi-
ciente de correlación de .70
Éste podría ser el caso de la correlación entre peso (X) y edad (Y) en un
grupo de niños de cinco años y en otro de diez años. En cada grupo la co-
rrelación es cero; las diferencias en edad (meses, semanas) y en peso son pe-
queñas y sobre todo no son sistemáticas (dos meses más de edad no implica
pesar medio kilo más…). En cambio si juntamos los dos grupos y calculamos
la correlación con todos sube a .82 (muy alta): ahora coinciden altos en edad-
altos en peso y bajos en edad-bajos en peso. Como ejemplo puede ser irrele-
vante, pero es claro
En el diagrama II (figura 7) tenemos el caso opuesto: dentro de cada gru-
po la correlación es alta, pero baja apreciablemente al unirlos en un solo grupo.
Posiblemente ambos grupos proceden de poblaciones distintas por lo que
respecta a las medias en la variable X (y esto podría comprobarse).
CONCEPTO DE CORRELACIÓNYCOVARIANZA
153
Figura 6:
DIAGRAMA I
Y
X
9
8
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9
Subgrupo A, r = 0.00
Subgrupo B, r = 0.00
Todos, r = 0.82
Caso 1º
En el ejemplo del diagrama II (figura 7) la variable Y podría ser un test de
inteligencia abstracta, y la variable X notas en matemáticas. En ambos gru-
pos las medias en Y (inteligencia) son parecidas, pero las medias en X (no-
tas en matemáticas) son claramente diferentes. En ambos casos los más inte-
ligentes según ese test son también los que mejores notas sacan; en cada
clase hay una relación alta y clara entre el test (Y) y las notas (X), pero esta re-
lación baja si calculamos la correlación juntando las dos clases en un mismo
grupo. ¿Por qué? En este ejemplo podría tratarse de profesores distintos, uno
califica más bajo y el otro más alto… al juntar a todos los alumnos de las dos
clases se neutralizan las diferencias y queda menos claro lo de altos en las dos
o bajos en las dos… En un caso como éste se podría calcular la correlación
por separado en cada muestra y luego calcular la correlación media.
Esto es frecuente también que suceda cuando una de las variables es la no-
ta media de varias asignaturas; estas notas medias neutralizan las diferencias
en rendimiento académico. En estos casos puede ser preferible comprobar la
correlación en cada muestra por separado y calcular después la correlación
media.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
154
Figura 7:
DIAGRAMA II
Y
X
9
8
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9
Subgrupo A Subgrupo B
Todos, r = 0.30
Caso 2º
r = 0.84 r = 0.84
En el diagrama III (figura 8) tenemos un caso distinto pero frecuente cuando
ha habido procesos de selección. En toda la muestra la correlación es muy alta,
sin embargo si la calculamos en la submuestra con puntuaciones más altas en
una o las dos variables, la correlación baja e incluso puede ser negativa.
Si una variable es un test de inteligencia (X) utilizado para seleccionar can-
didatos en una universidad, y la otra variable (Y) es rendimiento académico,
tendríamos que dentro de los seleccionados (los únicos de los que tenemos
datos en las dos variables) la correlación obtenida entre inteligencia y rendi-
miento es muy baja e incluso puede ser negativa. Con la selección elimina-
mos diferencias en una variable (X), y sin diferencias sistemáticas en las dos
variables no hay relación comprobable. Éste es un caso típico cuando se de-
sea ver si los tests utilizados en las pruebas de admisión (o cualquier otro da-
to de entrada) tiene que ver con el éxito posterior.
En el caso representado en la figura 8 no han sido admitidos los que no
han llegado a 6 en la prueba de admisión (X) con lo que tenemos datos en X
de todos (admitidos y no admitidos), pero en Y (éxito académico) sólo tene-
mos datos de los admitidos. Hemos homogeneizado la muestra y entre los
CONCEPTO DE CORRELACIÓNYCOVARIANZA
155
Figura 8:
DIAGRAMA III
Y
X
9
8
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9
Subgrupo A, r = 0.83
Subgrupo B, r = 0.00
Todos, r = 0.92
Caso 3º
seleccionados no se detecta ninguna relación entre el test de admisión (X, un
presunto predictor) y éxito académico.
Veremos métodos para calcular una estimación de la correlación entre las
dos variables en toda la muestra, si disponemos de la correlación en el gru-
po seleccionado (en el que tenemos datos de las dos variables) y además la
varianza de toda la muestra en una de las dos variables (en este caso del
test de inteligencia utilizado en la selección). Estas estimaciones son útiles pa-
ra poder apreciar y valorar la eficacia de un test supuestamente predictivo,
independientemente de las correlaciones (quizás muy bajas) que hayamos
obtenido (volvemos a este punto al tratar de los coeficientes de correlación
corregidos por restricción de la amplitud, nº 4.2).
3.9. Influjo en la correlación de las puntuaciones extremas (outliers)
Una puntuación extrema o atípica (outlier en inglés) es la que se aparta
mucho de las demás. Si una variable es la edad y la muestra es de niños de 12
a 14 años, si incluimos un sujeto de 40 años se trata evidentemente de una
puntuación extrema en la variable edad. Estas puntuaciones extremas o atípi-
cas pueden influir mucho en el coeficiente de correlación. Lo vemos clara-
mente en el diagrama IV de la figura 9.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
156
Figura 9:
DIAGRAMA IV
Y
X
9
8
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9
r = .64
r = .00
En los sujetos encerrados en el recuadro vemos una correlación más bien
alta (r = .71) que baja a .15 si incluimos un solo sujeto con una puntuación
muy alta en una variable (en X) y muy baja en la otra (en Y).
El efecto de estas puntuaciones atípicas (outliers) es muy grande en mues-
tras pequeñas (como en las de estos ejemplos ficticios); en muestras muy
grandes puede ser inapreciable, pero aun así estas puntuaciones que se salen
de lo normal pueden distorsionar la información de un coeficiente de corre-
lación. Estas puntuaciones pueden estar indicando a veces respuestas inten-
cionadamente exageradas o simplemente que el sujeto no entendió la pre-
gunta, pero también pueden reflejar respuestas sinceras de sujetos realmente
atípicos.
Si calculamos la correlación con los sujetos encerrados en el recuadro te-
nemos r = 0, no hay ninguna relación como se aprecia a simple vista en el
diagrama, pero si añadimos un sujeto más con puntuaciones muy altas en las
dos variables (altas en términos relativos, comparadas con los de los demás
sujetos), la correlación sube de 0 a .64. También pueden bajar como podemos
ver en el diagrama V de la figura 10.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
157
Figura 10:
DIAGRAMA V
Y
X
9
8
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9
r = .71
r = .15
Con respecto a estas puntuaciones atípicas:
a) Puede ser de interés hacer un análisis cualitativo de los sujetos con es-
te tipo de respuestas ¿Qué característica tienen en común? Aquí puede
haber resultados interpretables.
b) Se puede presentar el valor de la correlación con o sin estos sujetos atí-
picos; esto puede ser más aconsejable en muestras pequeñas.
c) Ciertamente en muchos estudios se prescinde de estos sujetos porque
distorsionan el valor de los coeficientes de correlación y no muestran la
relación entre las variables que podemos esperar en sujetos normales;
por alguna razón estas respuestas no son normales y es preferible no
contabilizar a esos sujetos. En estos casos conviene indicarlo, lo mismo
que el criterio que se ha seguido para identificar los datos atípicos21
.
d) Sobre cuándo una puntuación se aparta realmente de lo normal no hay
unanimidad en los criterios, pero una norma aceptable es prescindir de
los sujetos que en cualquiera de las variables tengan una puntuación tí-
pica superior a 3 (positiva o negativa)22
.
4. COEFICIENTES DE CORRELACIÓN CORREGIDOS
Los coeficientes de correlación pueden resultar a veces de alguna manera
deformados (demasiado altos o demasiado bajos) por diversas causas, de ma-
nera que no dan una idea clara sobre la verdadera relación entre dos variables.
Tenemos por ejemplo estos tres casos de los que vamos a tratar a conti-
nuación:
1º Una baja relación donde la esperamos mayor puede deberse a la baja
fiabilidad de los instrumentos de medición, y no tanto a que las varia-
bles no estén claramente relacionadas; al menos las correlaciones se-
rían mayores con una fiabilidad mayor en los instrumentos.
2º También una baja relación puede deberse a que la muestra en la que se
ha calculado ha sido artificialmente homogeneizada, han disminuido
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
158
21
En grandes estudios correlacionales se suele prescindir de estos sujetos atípicos
(por ejemplo con puntuaciones típicas en alguna variable superiores a z = 2), e incluso es-
ta supresión está prevista en programas como el SPSS.
22
Orientación de Osborne y Overbay (2004) que recomiendan la exclusión de estas
puntuaciones (there are strong arguments for removal or alteration of outliers) y expo-
nen los diversos posibles orígenes de estos outliers. Otra alternativa propuesta por otros
autores consiste en recodificar los outliers y sustituir estas puntuaciones por las puntua-
ciones máxima y mínima presentes en el resto de los datos (truncation). Estas puntuacio-
nes atípicas también afectan a la t de Student y al análisis de varianza.
las diferencias en una de las variables y naturalmente bajan los coefi-
cientes de correlación (explicado antes a propósito del diagrama III, fi-
gura 8).
3º Cuando calculamos la correlación entre una parte y el todo (como en-
tre un ítem y la puntuación total de la que forma parte ese ítem) en es-
te caso la correlación sube artificialmente y da una idea incorrecta so-
bre la verdadera relación entre esa parte y el todo.
Para estas situaciones, que son frecuentes, disponemos de fórmulas co-
rrectoras que nos dan una estimación de la verdadera correlación (o la corre-
lación exacta como en el caso 3º).
4.1. Correlación y fiabilidad: los coeficientes de correlación
corregidos por atenuación
Ya hemos indicado antes que la verdadera relación puede ser mayor que la
que muestra un determinado coeficiente, debido a la falta de fiabilidad de los
instrumentos de medición. Si el instrumento (test, escala, etc.) no detecta con
precisión las diferencias que hay entre los sujetos, la correlación calculada pue-
de ser inferior a la real (o superior en el caso de las correlaciones parciales)23
.
Este apartado, que es importante situarlo en el contexto de los coeficien-
tes de correlación, supone un estudio previo de lo que son los coeficientes de
fiabilidad, pero se puede entender con sólo una noción básica de lo que es
la fiabilidad (precisión en la medida).
4.1.1. Fórmula de corrección por atenuación
Disponemos de unas fórmulas que nos permiten estimar cual sería el co-
eficiente de correlación si la fiabilidad fuera perfecta. Se denominan fórmulas
de corrección por atenuación porque el coeficiente de correlación está ate-
nuado (disminuido) por la falta de fiabilidad de los instrumentos.
La fórmula general de la correlación corregida por atenuación es:
CONCEPTO DE CORRELACIÓNYCOVARIANZA
159
23
Una buena exposición de los efectos de la baja fiabilidad en los coeficientes de co-
rrelación y de la corrección por atenuación puede verse en Osborne (2003).
rxx y ryy son los coeficientes de fiabilidad
de cada medida; en el denominador pue-
de estar también sólo la fiabilidad de uno
de los instrumentos si la del otro nos es
desconocida, como aparece más adelante
en la fórmula [13].
Para poder aplicar esta fórmula con resultados fiables:
1) Los coeficientes de fiabilidad que aparecen en el denominador deben
estar calculados en muestras grandes24
.
2) Los coeficientes de fiabilidad deben calcularse mediante los procedi-
mientos que dan las mejores estimaciones de la fiabilidad (como las
fórmulas Kuder-Richardson 20 y el coeficiente a de Cronbach). Cuando
el coeficiente de fiabilidad es más bien una estimación pobre y aproxi-
mada, la correlación corregida por atenuación puede incluso superar el
valor de 1.
3) Los coeficientes de fiabilidad deben calcularse solamente en medidas
claramente unidimensionales, es decir, que miden un único rasgo25
.
4.1.2. Cuándo debe hacerse esta corrección por atenuación
1º Cuando interese saber hasta qué punto dos variables están relaciona-
das, independientemente de los errores de medición de los instrumentos uti-
lizados. Esto sucede en muchos planteamientos de investigación teórica.
Si por ejemplo calculamos la correlación entre autoeficacia académica y
autorregulación en el estudio, lo que realmente nos interesa conocer es has-
ta qué punto ambas variables van juntas. Si las medidas que de hecho utiliza-
mos (tests, escalas, etc.) tienen una fiabilidad baja (clasifican mal a los sujetos)
la correlación sin corregir puede sugerir que las dos variables están menos re-
lacionadas que lo que de hecho están.
Estos coeficientes de correlación corregidos son interesantes para apre-
ciar lo que podemos estimar que es el verdadero valor de una relación, pe-
ro no tienen utilidad práctica (por ejemplo para hacer estudios de predic-
ción) porque de hecho medimos con los instrumentos que tenemos, con
Por ejemplo: tenemos un coeficiente de correlación entre dos variable de
.25; los coeficientes de fiabilidad de los dos instrumentos son .70 uno (sufi-
cientemente alto) y .40 (muy bajo) el otro. Podemos preguntarnos ¿Cuál es la
estimación de la correlación entre estas dos variables si las midiéramos con
una fiabilidad ideal?:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
160
24
Según Nunnally (1978) no deben ser inferiores a N =300.
25
Cuando se utiliza esta corrección por atenuación en medidas que no son unidi-
mensionales, el valor de la fiabilidad puede superar el valor de 1 (Schmitt, 1996).
Si comparamos esta fórmula con la anterior, vemos que hemos suprimido
del denominador la fiabilidad del predictor; sólo se ha corregido la correla-
ción por la falta de fiabilidad en el criterio.
Lo que nos interesa conocer en estos casos es la correlación entre el pre-
dictor (X, por ejemplo un examen de ingreso), con los errores y la fiabilidad
que de hecho tenga, y el criterio (Y) si tuviera la máxima fiabilidad. Esta
correlación nos indicará mejor la calidad del predictor.
En los problemas de predicción, la fiabilidad del predictor impone un lími-
te en su capacidad de predecir, y con esa limitación hay que contar. En cam-
bio la falta de fiabilidad del criterio lo que hace es obscurecer la capacidad
todas sus imperfecciones y en este caso es preferible no hacer estas correc-
ciones por atenuación.
2º También suele aplicarse la fórmula de corrección por atenuación
cuando se calcula la correlación entre dos formas paralelas del mismo test,
como una forma de fiabilidad (para comprobar si las dos versiones del mis-
mo test ordenan a los sujetos de manera semejante).
En este caso es discutible el calcular el error típico (que se calcula a par-
tir de los coeficientes de fiabilidad, que en este caso es un coeficiente de co-
rrelación), porque este error (o margen de oscilación de las puntuaciones in-
dividuales si los sujetos respondieran varias veces al mismo test) puede
parecer menor de lo que realmente es. En general siempre que de estos
cálculos se derivan de alguna manera datos que van a influir en decisiones o
diagnósticos de sujetos, hay que tener en cuenta los errores de medición (la
falta de fiabilidad de los instrumentos) en vez de suponer que no existen. Pa-
ra la toma de decisiones tenemos que asumir las limitaciones que nuestros
instrumentos tienen de hecho.
3º Otra serie de aplicaciones de la corrección por atenuación tienen que
ver con lo que suele denominarse validez predictiva, o correlación entre un
predictor X y un criterio Y. El predictor puede ser, por ejemplo, un examen
o un test de admisión, y el criterio (que se desea predecir) pueden ser califi-
caciones, un examen final, o cualquier otra medida que refleje éxito.
En estos casos el problema está en el criterio: la falta de fiabilidad del cri-
terio hace bajar la correlación entre predictor y criterio, y el test predictor
puede parecer menos válido de lo que realmente es. En estos casos se aplica
esta fórmula:
CONCEPTO DE CORRELACIÓNYCOVARIANZA
161
rxy = correlación calculada entre el
predictor (X) y el criterio (Y)
ryy = fiabilidad del criterio
predictora del test o instrumento utilizado como predictor. Muchos de los lla-
mados coeficientes de validez (que en este caso no son otra cosa que coefi-
cientes de correlación entre predictor y criterio) aportan de hecho poca in-
formación o son de interpretación ambigua porque no se ha tenido en cuenta
la fiabilidad del criterio.
Un problema que suele encontrarse en estos planteamientos es la dificul-
tad de calcular la fiabilidad del criterio. Frecuentemente todo el interés se
centra en el predictor (qué test se utiliza, etc.) y se descuida la calidad y fia-
bilidad del criterio (o variable que se pretende predecir, por ejemplo notas,
éxito académico, etc.)26
4.1.3. Otras estimaciones de la correlación modificando la
fiabilidad
Existen otras fórmulas para estimar la correlación que obtendríamos entre
un predictor (X) y un criterio (Y), no si tuvieran la máxima fiabilidad, sino sim-
plemente una fiabilidad distinta. Por fiabilidad distinta no hay que entender
una fiabilidad mayor necesariamente, también podría ser menor. Puede suce-
der que con tests más breves (y probablemente de una fiabilidad menor pe-
ro con el consiguiente ahorro económico, de tiempo, etc.) obtengamos casi
los mismos resultados que con tests más largos.
Este planteamiento puede tener su interés porque la fiabilidad depende (en
parte) del número de ítems (otras fórmulas relacionan la longitud del test y fia-
bilidad). La fiabilidad perfecta no la tenemos nunca, pero sí podemos conseguir
que aumente mejorando la calidad de los ítems y aumentando su número.
Aunque este tipo de planteamientos se presentan sobre todo cuando inte-
resa predecir el éxito (en selección de personal, por ejemplo) estas fórmulas
son aplicables también para analizar cualquier coeficiente de correlación en-
tre dos variables que en un sentido más propio no puedan calificarse como
predictor y criterio.
Lo que se plantea con más frecuencia es estimar la correlación entre X e Y
si aumentamos la fiabilidad de ambos instrumentos (añadiendo más ítems).
La fórmula aplicable en estos casos es la siguiente:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
162
26
Cuando se pretende predecir éxito académico (a partir de un test, de datos pre-
vios) el criterio suele ser nota media final con frecuencia poco fiable o de fiabilidad impo-
sible de calcular. En estos casos (y otros) conviene disponer de varios criterios de éxito
(número de sobresalientes, de suspensos, notas en determinadas asignaturas, etc.)
rxy = correlación obtenida entre X e Y
r’xx = coeficientes de fiabilidad en X distinto
rxx = coeficientes de fiabilidad obtenido en X
El coeficiente de fiabilidad de X distinto puede ser menor, por ejemplo en
una versión reducida (y más económica o más cómoda) del mismo test. En
este caso (frecuente) podemos suponer que no nos es fácil modificar, e inclu-
so calcular, la fiabilidad del criterio.
4.1.4. Relación entre longitud del test y fiabilidad y longitud del
test y correlación
Existen otras fórmulas que relacionan:
a) El número de ítems y la fiabilidad de cualquier test (al aumentar el nú-
mero de ítems la fiabilidad tiende a aumentar); las fórmulas que rela-
cionan el número de ítems y la fiabilidad suelen verse en el contexto de
la fiabilidad.
b) La correlación entre X e Y y el número de ítems (la longitud) de X (X
es el test predictor que se controla con más facilidad).
Estas fórmulas, y otras (como las que vemos en el apartado siguiente),
pueden encontrarse con facilidad en textos de psicometría y de estadística
aplicada a la educación27
.
Cuando se trata de aumentar el número de ítems (para que suban la fiabi-
lidad o un coeficiente de correlación), se supone que los nuevos ítems son
del mismo estilo (miden lo mismo, son de formulación parecida y de seme-
rxy = correlación obtenida entre X e Y
r’xx y r’yy = coeficientes de fiabilidad distintos (nuevos, deseados)
rxx y ryy = coeficientes de fiabilidad obtenidos de hecho
Si solamente vamos a modificar el coeficiente de fiabilidad de uno de los
dos instrumentos (X en este caso, pero podría ser Y) la fórmula es ésta:
CONCEPTO DE CORRELACIÓNYCOVARIANZA
163
27
Las fórmulas que relacionan la fiabilidad y el número de ítems pueden verse en Mo-
rales, Urosa y Blanco (2003).
jante dificultad, etc.) que los que ya tenemos; como esto no suele ser así
exactamente, habría que hablar de estimaciones de la nueva fiabilidad o co-
rrelación al aumentar el número de ítems.
Estas fórmulas son de una utilidad en general muy limitada, pero pueden
tener su interés cuando nos interesa construir o modificar un test para que
tenga una clara validez predictiva o al menos una mayor validez (es decir,
una mayor correlación entre el predictor y el criterio) que la que disponemos
(por ejemplo en procesos de selección, admisiones, etc.; buscamos una co-
rrelación clara con criterios definidos); a la vez podemos controlar la fiabili-
dad del test predictivo aumentando el número de ítems.
Estas fórmulas suelen aplicarse:
a) En aquellos tests que se pueden manipular con facilidad porque resul-
ta fácil aumentar el número de ítems, como puede ser un examen ob-
jetivo de conocimientos.
b) En situaciones en las que es de gran interés la validez predictiva (co-
mo en procesos de admisión o selección, que por otra parte tampoco
suelen limitarse a un test).
No es habitual utilizar estas fórmulas con otros tipos de tests (por ejemplo
en tests de personalidad, inteligencia, etc.) ya hechos y publicados, y que ya
tienen el número de ítems decidido por el constructor del test.
4.2. Los coeficientes de correlación corregidos por restricción de
la amplitud
Ya hemos visto que cuando la muestra es más homogénea (los sujetos son
muy parecidos unos a otros en las dos o en una de las dos variables) baja el
valor del coeficiente de correlación. No se comprueban relaciones si los suje-
tos no son distintos en las dos variables.
El que los coeficientes de correlación sean menores cuando la muestra es
homogénea plantea también problemas de validez predictiva en situaciones
de selección.
Vamos a suponer que ponemos un test de selección (el test X, el predic-
tor) para admitir a los futuros alumnos de una universidad y nos quedamos
con los mejores, los que puntúan muy alto en el test X. Entre los alumnos ad-
mitidos habrá menos diferencias en lo que mida el test X que entre todos los
que se presentaron a las pruebas de admisión; hemos homogeneizado la
muestra mediante el proceso de selección.
Posteriormente queremos comprobar la validez del test X, y calculamos la
correlación entre el test X y el criterio Y (por ejemplo calificaciones, o una
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
164
Rxy = estimación de rxy si la calculáramos en toda la muestra inicial;
rxy = correlación entre X e Y obtenida en la muestra seleccionada;
si = desviación típica en X calculada en toda la muestra inicial (ad-
mitidos y no admitidos)
ss = desviación típica calculada en X en la muestra seleccionada (ad-
mitidos solamente)
Ésta es la fórmula que suele encontrarse en los textos (y por esta razón la
ponemos aquí), pero esta otra expresión [17] de la misma fórmula [16] pue-
de resultar más sencilla28
:
prueba objetiva de rendimiento). Podemos encontrarnos con que la correla-
ción es muy pequeña y concluir que el test no es válido (hay una relación muy
pequeña entre el predictor y el criterio). Esta conclusión puede ser discutible:
la correlación la hemos calculado solamente con los alumnos admitidos y no
con todos los que se presentaron inicialmente y de los que tenemos datos en
el test X. La varianza en X de los admitidos es lógicamente más pequeña que
la varianza calculada en todos los que se presentaron, admitidos y no admiti-
dos, y una varianza menor (grupo más homogéneo) hace bajar la correlación
entre X e Y.
En estas situaciones podemos estimar la correlación entre X e Y en el ca-
so de que todos hubieran sido admitidos. Esta correlación (se trata de una es-
timación), calculada con todos los presentados, es la que podría darnos una
idea mejor sobre la validez predictiva del test X.
Esta correlación estimada se puede calcular mediante esta fórmula:
CONCEPTO DE CORRELACIÓNYCOVARIANZA
165
28
Puede verse comentada en Hunter y Schmidt (1990, pp.125ss); los coeficientes de
correlación corregidos por restricción de la amplitud están bien tratados en Guilford y
Fruchter (1973)
si
donde U = ––––
ss
y Rxy y rxy como antes
Por ejemplo: en un test de selección para entrar en una universidad en-
contramos que
En la muestra inicial (todos los candidatos que se presentan a la selec-
ción, incluidos naturalmente los que no admitidos) la desviación típica es
sinicial = 6
En la muestra seleccionada la desviación típica es
sseleccionada = 3
La correlación entre el test de selección y un criterio (por ejemplo, nota
media al terminar el primer curso) es de .30; esta correlación la calculamos
solamente en la muestra seleccionada, como es natural. Podemos preguntar-
nos ¿Cuál hubiera sido esta correlación si la hubiéramos podido calcular en
toda la muestra que se presentó al examen de admisiones?
Substituyendo tenemos:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
166
En la primera fórmula [16]:
En la segunda fórmula [17] (U = 6/3 = 2)
El diferente redondeo de los decimales en los diferentes pasos hace que
los resultados no sean siempre exactamente iguales, pero la diferencia es pe-
queña. Vemos que la correlación ha subido de .31 (calculada con los seleccio-
nados) a .41 (una estimación de la que hubiéramos obtenido si todos hubie-
ran sido admitidos).
4.3. Corrección de las correlaciones de una parte con el todo
A veces nos interesa conocer la correlación entre una parte y un total al
que esa parte también contribuye.
El ejemplo más común (no el único posible) es cuando calculamos la co-
rrelación entre cada uno de los ítems de un test o escala y el total del test. Es-
te cálculo es interesante: a mayor correlación entre un ítem y el total, más tie-
ne que ver ese ítem con lo que miden los demás ítems (son los que
ri(T-i) = Correlación entre un ítem (o parte de un total) y el total me-
nos ese ítem (o correlación entre un ítem y la suma de todos
los demás)
riT = Correlación ítem-total
si y sT: desviaciones típicas del ítem y del total
Sobre esta corrección:
a) Suponemos que la correlación de cada ítem con el total (con la suma
de todos los ítems, riT) está calculada con un programa de ordenador,
lo mismo que las desviaciones típicas de los ítems y de los totales. Con
estos datos es fácil aplicar esta fórmula [18] (o programarla).
b) Cuando los ítems son muchos la diferencia entre riT y ri(T-i)
es pequeña.
c) En estas situaciones y para valorar estos coeficientes, es útil estimar cuál
sería el valor medio de la correlación de cada ítem con el total cuando 1)
realmente no hay relación (correlación cero entre los ítems) y 2) todos
los ítems o partes tuvieran igual varianza; en este caso la fórmula [18]
nos da la estimación de la correlación de cada ítem con el total 31
:
donde k es el número de ítems
discriminan más, y los que mejor representan el constructo subyacente o ras-
go que se desea medir). En la construcción y análisis de instrumentos de me-
dición este paso es de mucho interés.
El problema surge del hecho de que ese ítem también está sumado en el
total, con lo que la correlación resultante es artificialmente alta. En realidad lo
que nos interesa es la correlación de cada ítem con la suma de todos los de-
más, es decir, con el total menos el ítem en cuestión.
En algunos programas de ordenador29
ya está programada la correlación
de cada ítem con el total menos el ítem, pero no siempre disponemos de es-
tos programas. A veces lo más cómodo (cuando no se dispone de un progra-
ma adecuado) es calcular la correlación de cada ítem con el total, sin más30
.
En este caso estas correlaciones artificialmente altas podemos dejarlas en su
magnitud exacta aplicando después la fórmula [18].
CONCEPTO DE CORRELACIÓNYCOVARIANZA
167
29
Como en el SPSS, en Analizar-Escalas-Análisis de la Fiabilidad.
30
Podemos hacerlo fácilmente con una hoja de cálculo tipo EXCEL.
31
Guilford y Fruchter, 1973:321.
5. CORRELACIONES PARCIALES
Una correlación parcial entre dos variables es una correlación que anula
o neutraliza una tercera variable (o más variables): es la correlación entre
dos variables igualando a todos los sujetos en otras variables.
Aquí tratamos solamente de las correlaciones parciales de primer orden.
Se denominan correlaciones parciales de primer orden aquellas en la que
neutralizamos (o mantenemos constante) solamente una tercera variable; en
las correlaciones parciales de segundo orden neutralizamos dos variables; el
procedimiento es similar aunque la fórmula es algo más complicada si no la
tenemos ya programada. En cambio las correlaciones parciales de primer or-
den son sencillas y muy útiles.
La correlación parcial, como todos los coeficientes de correlación relacio-
nados con el coeficiente r de Pearson, comprueba solamente relaciones rec-
tilíneas.
5.1. Utilidad de las correlaciones parciales
La correlación parcial es útil para controlar variables y puede substituir
determinados diseños experimentales en los que se pretende no tener en
cuenta el influjo de una o dos determinadas variables
Los casos en que se utiliza más son aquellos en los que se pretende con-
trolar variables como la edad y la inteligencia.
Por ejemplo la correlación entre peso y altura en un grupo de niños de
distinta edad se verá influida por la edad. Los niños mayores en edad también
serán de más peso y de mayor estatura. La misma correlación entre peso y al-
tura en grupo de niños de la misma edad será menor. La diversidad en edad
hace que la relación entre peso y altura aumente.
Si queremos conocer la relación entre peso y altura independientemente
de la edad, podríamos hacer el cálculo utilizando una muestra de la misma
edad, o comprobando la correlación por separado en grupos homogéneos en
edad. Otra manera de calcular la correlación entre peso y altura prescindien-
do de la edad (o suponiendo que todos los sujetos tienen la misma edad) es
a través de las correlaciones parciales.
5.2. Fórmula de las correlaciones parciales de primer orden
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
168
Vemos que la correlación entre Inglés y Matemáticas baja de .338 a .240
cuando neutralizamos las diferencias en inteligencia verbal.
Podemos preguntarnos lo mismo con respecto a la inteligencia abstracta,
¿cual será la relación entre Inglés y Matemáticas suponiendo que todos los su-
jetos están igualados en inteligencia abstracta?
Utilizamos la misma fórmula, pero teniendo en cuenta que el sufijo 3 de la
fórmula denota ahora la variable 4 que corresponde a la inteligencia abstrac-
ta, por lo que en la fórmula podemos substituir el 3 por el 4 para evitar confu-
siones.
r12.3 es la correlación entre las variables 1 y 2 neutralizando la variable 3
(como si todos los sujetos estuvieran igualados en la variable 3)
Lo veremos en un ejemplo32
. En la tabla 9 tenemos las correlaciones entre
Inglés, Matemáticas (dos exámenes) y dos tests de inteligencia, abstracta y
verbal. El número de sujetos es de 2172 (datos reales).
CONCEPTO DE CORRELACIÓNYCOVARIANZA
169
32
También podemos calcular las correlaciones parciales en programas de Internet
(Anexo II) como VassarStats, lo mismo que las correlaciones múltiples de las que no es-
tamos tratando.
1. Inglés 2. Matemáticas 3 Intel. verbal 4.Intel. abstracta
1. Inglés 1
2. Matemáticas .338 1
3. Intel. Verbal .330 .392 1
4. Intel. Abstracta .224 379 .423 1
Tabla 9
Entre Inglés y Matemáticas tenemos una correlación de .338. Podemos
pensar que en buena medida esta relación está influida por la inteligencia ver-
bal. ¿Cuál sería la correlación entre Inglés y Matemáticas si todos los sujetos
tuvieran idéntica inteligencia verbal (tal como la mide un test determinado)?
Aplicamos la fórmula anterior; los subíndices 1 y 2 corresponden a las va-
riables 1 y 2 (Inglés y Matemáticas); la variable 3 es la inteligencia verbal (r12.3:
después del punto se pone el símbolo de la variable anulada).
En las tablas de la distribución normal vemos:
z  1.96, p .05
z  2.56, p  .01
z  3.30, p  .001
El denominador de la fórmula (1/ N-m) es el error típico (desviación típi-
ca) de la distribución de correlaciones parciales cuando la media es cero.
También podemos calcular directamente el valor necesario de r para unos
grados de libertad (N -m) determinados, así para p  .05, necesitamos este
valor de r:
La correlación entre Inglés y Matemáticas también baja (de .338 a .281)
cuando igualamos a todos los sujetos en inteligencia abstracta, pero menos
que cuando los igualamos en inteligencia verbal, ya que el Inglés tiene una
mayor relación con la inteligencia verbal (.330) que con la abstracta (.224).
Si quisiéramos neutralizar simultáneamente las dos variables de inteligen-
cia tendríamos que utilizar la fórmula de las correlaciones parciales de segun-
do orden.
5.3. Cuándo una correlación parcial es estadísticamente
significativa
Los grados de libertad son en este caso N - m, donde N es el número de
sujetos y m el número de variables. En nuestro ejemplo (cuatro variables) los
grados de libertad son N - 4; en este caso 2172 - 3 = 2168.
Para verificar si un coeficiente de correlación parcial es estadísticamente sig-
nificativo podemos aplicar esta fórmula (con más seguridad cuando N  100):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
170
N = número de sujetos
m = número de variables.
En los ejemplos utilizados, con un número tan grande de sujetos, todos
los coeficientes son claramente significativos, independientemente de que su
magnitud la juzguemos grande o pequeña.
También pueden calcularse correlaciones parciales de segundo orden (y
tercer orden, etc.) con las que neutralizamos más de una variable; las fórmu-
las son parecidas pero algo más complejas y normalmente se hacen con pro-
gramas de ordenador.
6. CÓMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS33
Qué pretendemos con el cluster analysis: simplemente simplificar la in-
formación de una matriz de correlaciones, verificando cómo tienden a
agruparse las variables. Se trata por lo tanto de reducir la información para
facilitar la interpretación. Si las distintas variables se pueden agrupar en
unos pocos conjuntos en los que podemos ver un significado común a un ni-
vel más genérico, resulta más fácil la interpretación, sobre todo cuando hay
muchos ítems.
Al final del proceso vamos a agrupar los ítems que tienden a tener corre-
laciones más altas entre sí que con los demás, dándonos una idea de la estruc-
tura subyacente.
Hay varios procedimientos para hacer este cluster analysis, algunos más
complicados que el expuesto aquí, pero éste es sencillo y con frecuencia su-
ficientemente orientador. Ya a otro nivel tenemos el análisis factorial, que
podemos hacer con programas de ordenador, pero el cluster analysis que ex-
plicamos aquí puede dar una buena idea sobre la estructura de una serie de
variables a partir de la matriz de intercorrelaciones.
Lo explicamos con un ejemplo. Los datos (tabla 10) corresponden a un
cuestionario de comunicación interpersonal34
; los ítems son temas posibles
de conversación (puestos aquí de manera abreviada; son temas pretendida-
mente distintos en niveles de intimidad); una puntuación alta en un ítem
quiere decir que uno se abre con facilidad en ese ámbito temático.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
171
33
Cluster analysis es obviamente una expresión inglesa; en español suele traducirse
como análisis de agrupamientos y quizás más frecuentemente análisis de clusters; tam-
bién está aceptado el uso de la expresión inglesa, cluster analysis.
34
El cuestionario es una adaptación de uno de los que presenta Jourard (1971).
2 3 4 5 6 7 8 9 10 11 12 13 14 15
1. Política .392 .371 .291 .256 .105 .211 .234 .193 .316 .222 .190 .335 .297 .282
2. Lo que
me gusta 1 .327 .268 .315 .158 .117 .251 .260 .254 .287 .261 .455 .295 .243
de TV.
3. Moral
sexual
.327 1 .673 .466 .355 .391 .337 .426 .348 .384 .359 .469 .243 .401
4. Lo que
me gusta
.226 .673 1 .473 .415 .321 .315 .503 .490 .435 .562 .450 .246 .398
en el otro
sexo
5. Limitac.
propias
.315 .466 .473 1 .391 .188 .310 .557 .522 .347 .566 .393 .229 .514
6. Limit.
en mis .158 .335 .415 .391 1 .237 .334 .409 .333 .328 .368 .374 .478 .304
padres
7. Problemas
sexuales
.117 .391 .321 .188 .237 1 .261 .312 .300 .156 .346 .170 .290 .313
8. Dinero
de que .251 .237 .315 .310 .334 .261 1 .378 .388 .405 .254 .320 .599 .220
dispongo
9. Mi
aspecto .260 .426 .503 .557 .409 .312 .378 1 .487 .333 .437 .359 .291 .475
físico
10. Lo que
más me .254 .348 .490 .522 .333 .300 .388 .487 1 .330 .453 .382 .290 .435
gusta en mí
11. Plan fut.
profesional
.287 .384 .435 .347 .328 .156 .405 .333 .330 1 .271 .457 .260 .129
12. Mis
depresiones
.261 .359 .562 .566 .368 .346 .254 .437 .453 .271 1 .319 .235 .551
13. Divers.
favoritas
.455 .469 .450 .393 .374 .170 .320 .359 .382 .457 .319 1 .223 .395
14. Economía
familiar
.295 .243 .246 .229 .478 .290 .599 .291 .290 .260 .235 .223 1 .269
15. Sentim.
profundos
.243 .401 .398 .514 .304 .313 .220 .475 .435 .129 .551 .395 .269 1
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
172
Tabla 10:
MATRIZ DE INTERCORRELACIONES (CUESTIONARIO DE COMUNICACIÓN N = 158,
ALUMNAS DE LA UNIV
. COMILLAS, 1990)
1. Como paso previo se anota cuál es la correlación mayor de cada ítem
(no es necesario teniendo la matriz a la vista, pero se facilita el proceso).
El tener a la vista las segundas correlaciones mayores también ayuda.
En este caso, las correlaciones mayores de cada ítem las tenemos en la
tabla 11.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
173
Ítem nº Tiene su mayor correlación con Item nº Tiene su mayor
el ítem nº correlación con el ítem nº
1 2 (.392) 9 5 (.557)
2 13 (.455) 10 5 (.522)
3 4 (.673) 11 13 (.457)
4 3 (.673) 12 5 (.566)
5 12 (.566) 13 3 (.469)
6 14 (.478) 14 8 (.599)
7 3 (.391) 15 12 (.551)
8 14 (.599)
Tabla 11:
2. Y uno se pregunta ¿cual es la mayor correlación de todas? Y se dibuja
a modo de sociograma. En este caso la correlación mayor está entre el
3 y el 4:
3 4
3. Y ahora nos preguntamos: de los ítems que quedan ¿hay alguno que ten-
ga su correlación más alta con el 3 o con el 4? Pues sí, el 7 tiene su corre-
lación mayor con el 3, y también el 13 tiene su mayor relación con el 3 y
además no la tiene baja con el 4, con lo que el cluster quedaría así:
3 4
7 13
Aquí tenemos ya un curioso primer cluster provisional que habrá que
examinar mejor más adelante, porque el ítem nº 2 tiene su mayor co-
rrelación con el 13 (atendiendo al contenido el 13 (diversiones) pega
más con el 2). Los ítems 3, 4 y 7 son de un contenido más íntimo. Ya
podemos ir intuyendo a dónde nos va a llevar este cluster analysis
4. Ya no queda ningún ítem que tenga su mayor relación con el nº 3 o con
el nº 4. Volvemos a comenzar para localizar un segundo cluster: de las
correlaciones mayores de cada ítem que nos quedan, ¿cual es la ma-
yor? Es la correlación entre el 8 y el 14, y ya tenemos el núcleo de un
segundo cluster.
8 14
Y nos preguntamos como antes: de las correlaciones mayores de los
ítems que nos quedan ¿alguna lo es con el ítem 8 o 14? Sí, el 6, que tie-
ne su mayor relación con el 14; y tenemos un segundo cluster de tipo
familiar-económico.
8 14
6
5. Continuamos con nuestra búsqueda y de todas las correlaciones má-
ximas de cada ítem que nos van quedando observamos que la mayor
es la del 5 y 12, y que además el 9 y el 10 tienen su mayor relación con
el 5, y el 15 la tiene con el 12, con lo que nos queda un tercer cluster
que emerge del yo secreto y confidencial:
5 12
9 10 15
6. Vamos a por otro cluster. La correlación mayor que nos queda es la del
ítem 2 y 13. Pero resulta que el 13 ya está en el primer cluster. De todas
maneras vamos a ver qué pasa con este cluster; el 13 habrá que dejar-
lo en este cluster o en el primero de todos.
2 13
Los ítems que tienen su mayor correlación con el 2 o con el 13 son el
1 (con el 2), y el 11 (con el 13); además el 1 no va mal con el 13, tiene
ahí su tercera mayor correlación y no muy baja en este contexto. Nos
quedaría provisionalmente algo así:
2 13
1 11
Este cluster tiene coherencia conceptual pues se trata de ítems que
pertenecen aparentemente al yo abierto. Sin embargo el 13 nos estro-
pea el conjunto porque también está en el primer cluster. Dentro de la
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
174
imprecisión de estos métodos, una segunda regla para asignar un ítem
a un cluster es meterlo con el que tenga una correlación media ma-
yor. Vamos a ver qué pasa con el ítem 13:
Correlaciones del 13 con el primer cluster:
.469 (con el 3)
.450 (con el 4) correlación media = .363
.170 (con el 7)
Correlaciones del 13 con el último cluster:
.455 (con el 2)
.335 (con el 1) correlación media = .416
.457 (con el 11)
Decididamente el 13 tiene que ver más con los ítems del último cluster; lo
dejamos en éste y lo quitamos del primer cluster que hemos localizado.
Nos quedan finalmente los clusters puestos en la tabla 12; en cada uno se
puede calcular la correlación media (que indica claridad, consistencia inter-
ítem):
CONCEPTO DE CORRELACIÓNYCOVARIANZA
175
cluster 1º cluster 2º cluster 3º cluster 4º
3 4 8 14 5 12 2 13
7 6 9 10 15 1 11
correlación correlación correlación correlación
media: media: media: media:
r = .462 r = .438 r = .499 r = .358
relación con dinero y cosas más temas
el sexo familia personales fáciles
Tabla 12
El procedimiento es sencillo:
1º Para comenzar en cada ítem buscamos con qué otro ítem tiene su ma-
yor correlación (su pareja más clara; y no viene mal tener presente
también con qué ítem su segunda mayor correlación)
2º Se localiza la correlación mayor de todas, y ya tenemos dos ítems que
serán el núcleo del primer cluster;
3º Se localizan los ítems que tienen sus mayores correlaciones con cual-
quiera de los dos ítems localizados en el paso anterior, y ya tenemos el
primer cluster
4º Buscamos la correlación mayor de las que nos quedan, y ya tenemos el nú-
cleo de un segundo cluster, y se sigue el proceso visto en el paso anterior.
5º Los ítems dudosos los situamos en el cluster con el que tiene su mayor
correlación media
Este método es sencillo pero puede ser un tanto impreciso (depende de
los datos).
Ahora vendría el análisis cualitativo (intentando encontrar sentido a los
ítems que van juntos en el mismo cluster) y análisis cuantitativos adicionales:
1º Una correlación media más alta indica cluster (análogo a los factores ro-
tados del análisis factorial) más claro, más definido;
2º Las medias de cada cluster (no medias de las correlaciones sino de los
ítems) darían el nivel de apertura o secretismo de estos clusters;
3º Habría que ver o explorar relaciones inter-cluster.
4º Un estudio más completo nos llevaría a explorar diferencias entre gru-
pos (por ejemplo según el sexo) en los distintos factores (clusters) o
en cada ítem; también se podrían explorar relaciones entre ítems o
clusters y otras variables conocidas.
7. COEFICIENTES DE CORRELACIÓN MÁS IMPORTANTES
Nos hemos centrado en el coeficiente r de Pearson, pero hay otros mu-
chos coeficientes de relación o asociación. En la tabla 13 damos una breve in-
formación sobre los más utilizados. Esta información puede servir de guía o
de referencia rápida, aunque para utilizar algunos de estos coeficientes sea
necesario buscar información adicional.
De estos coeficientes el más utilizado e importante es el primero, el coe-
ficiente r de Pearson.
Los coeficientes 2, 3 y 4 podemos decir que pertenecen a la familia de los
coeficientes de Pearson; son aplicaciones especiales de este coeficiente.
Los coeficientes 5 y el 6 (rho y tau) son apropiados para datos ordinales,
cuando el dato que manejamos es el rango o número de orden del sujeto (u
objeto) y son especialmente útiles con muestras pequeñas o muy pequeñas35
.
Los coeficientes 7, 8 y 9 son apropiados para datos nominales (sujetos cla-
sificados en categorías) y están relacionados con el ji cuadrado, de hecho se
utilizan como complemento del ji cuadrado. El coeficiente 7 (phi), para da-
tos genuinamente dicotómicos (1 ó 0) podemos también calcularlo con las
mismas fórmulas que el coeficiente r de Pearson.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
176
35
Estos coeficientes para datos ordinales suelen venir bien explicados en los textos
de métodos estadísticos no paramétricos.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
177
coeficiente variables comentarios
1 Coeficiente r las dos
de Pearson continuas
(producto-
momento)
2 Coeficiente una continua
biserial y otra
puntual (rbp) dicotómica
• Es el coeficiente mejor en conjunto, el
más estable y el más utilizado; cuando
no se especifica otra cosa se supone
que es éste el coeficiente calculado;
• Supone que la distribución de las va-
riables es normal (en la población, no
en la muestra utilizada; esta suposi-
ción también es necesaria en otros co-
eficientes derivados del de Pearson);
• Aunque hay varias fórmulas para su
cálculo, ninguna es cómoda; el cálcu-
lo suele estar programado en calcula-
doras y programas estadísticos;
• Existen tablas para comprobar el nivel
de significación en muestras peque-
ñas, o se utiliza la fórmula apropiada
en muestras grandes;
• El coeficiente r de Pearson puede
transformase en el estadígrafo Z de
Fisher (mediante tablas) que permite
resolver determinados problemas, co-
mo calcular medias de correlaciones
(aunque es preferible calcular la me-
dia ponderada, multiplicando cada
coeficiente por su N) o comprobar si
dos coeficientes de correlación son
estadísticamente distintos;
• Se trata siempre de correlaciones line-
ares, como todos los demás, excepto
el coeficiente h (eta) para relaciones
curvilíneas.
• Se trata de un caso particular del coe-
ficiente r de Pearson, y aunque hay
fórmulas específicas y métodos rápi-
dos mediante gráficos (ábaco de
Dingman) se pueden utilizar las fór-
mulas de la r de Pearson y las calcula-
doras y programas que tienen este co-
eficiente ya programado;
Tabla 13
coeficiente variables comentarios
2 Coeficiente una continua
biserial y otra
puntual (rbp) dicotómica
3 Coeficiente una variable
de correlación continua, y otra
biserial (rb) dicotomizada
artificialmente
(continua pero
dividida en dos
categorías, como
apto y no apto)
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
178
• Para comprobar el nivel de significación
se pueden utilizar las mismas fórmulas
y tablas que con la r de Pearson;
• Aunque es en todo equivalente al coe-
ficiente r de Pearson, el término con
que se denomina (biserial-puntual)
indica que una de las variables es di-
cotómica (1 ó 0);
• Este coeficiente se puede utilizar
cuando una variable es genuinamente
dicotómica, es decir, no dicotomizada
artificialmente (como puede ser clasi-
ficar a los sujetos entre apto y no ap-
to); en estos casos el coeficiente apro-
piado es el biserial;
• Tenemos variables dicotómicas en sen-
tido propio cuando sólo hay dos clasifi-
caciones que se excluyen mutuamente,
como varón-mujer, verdadero-falso,
acierto-error (en tests objetivos), etc.;
también pueden tratarse como varia-
bles dicotómicas las que teóricamente
son continuas (como alcohólico-no al-
cohólico, apto-no apto, bueno-malo)
cuando existe un claro punto de infle-
xión, una distribución bimodal que
permite clasificar a los sujetos en una
genuina dicotomía (1 ó 0).
• Es una estimación de la r de Pearson,
pero menos fiable que la r o la rpb;
para los mismos datos da un coefi-
ciente mayor que rpb;
• A veces el coeficiente máximo es ma-
yor que 1 (en distribuciones no nor-
males, bimodales);
• En general no es aconsejable si hay
otras alternativas, y en caso de duda
es preferible r o rpb; a veces puede
ser útil el dicotomizar una variable
por falta de datos fiables; en este caso
se debe dicotomizar la variable conti-
nua por la mediana.
coeficiente variables comentarios
4 Coeficiente las dos variables
de correlación continuas
tetracórica (rt) pero
dicotomizadas
artificialmente
5 Coeficiente las dos variables
rho (r) de continuas
Spearman pero ordenadas
(también se por rangos
utiliza el (el rango o
símbolo sr). número de
orden es el
dato que se
utiliza)
6 Coeficiente las dos variables
Tau (t) de continuas y
Kendall ordenadas por
rangos
7 Coeficiente las dos variables
phi (f) dicotómicas
CONCEPTO DE CORRELACIÓNYCOVARIANZA
179
• Es una estimación aproximada del co-
eficiente r de Pearson y menos fiable;
no se debe emplear con pocos casos
(200 sujetos o más); no es fácil com-
probar su nivel de significación;
• Si se puede, es preferible utilizar otra
alternativa (r de Pearson o f)
• Es la mejor alternativa no paramétrica
al coeficiente r de Pearson; se trata
del coeficiente r calculado con los
rangos o número de orden de cada
puntuación;
• Da un coeficiente algo inferior a la r
de Pearson calculado con los mismos
datos directos;
• Fácil y rápido de cálculo; muy útil con
datos ordinales y con no más de 30
sujetos o pares de puntuaciones;
• Existen tablas y fórmulas para com-
probar su significación.
• No es comparable directamente con
el coeficiente r de Pearson;
• Fácil y útil con muestras muy peque-
ñas (10 sujetos o menos; si son más
es preferible el coeficiente ? de Spear-
man);
• Existen tablas y fórmulas para com-
probar su significación; una modali-
dad es el coeficiente de correlación
parcial con el mismo método.
• Relacionado con el ?2
; el valor de sig-
nificación es el mismo que el de ?2
; no
admite valores negativos;
• Una limitación es que el valor máximo
no es 1 necesariamente; sólo se pue-
de alcanzar cuando la proporción de
unos es idéntica en las dos variables;
• Especialmente útil para calcular las
correlaciones entre ítems dicotómi-
cos (de pruebas objetivas, tests, etc.).
coeficiente variables comentarios
8 Coeficiente las dos variables
phi (F) de categóricas
Cramer pero con
más de dos
criterios de
clasificación en
una o en las
dos variables
(k = número
de columnas o
filas, el que sea
menor)
9 Coeficiente C las dos variables
de Contingencia divididas en
dos o más
categorías
10 Coeficiente las dos variables
eta (h) continuas
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
180
• Derivado también del c2
, el valor de
significación es el mismo que el de c2
;
es el coeficiente apropiado cuando
hay más de dos filas o columnas. Un
coeficiente semejante es el coeficien-
te T de Tschuprow;
• Varía de 0 a 1 independientemente
del tamaño de la tabla y por esto es
una alternativa preferible al coeficien-
te C de Contingencia; no admite valo-
res negativos.
• Es el coeficiente relacionado con c2
más utilizado aunque no es siempre
el preferible; es significativo si lo es el
c2
;
• El valor máximo nunca es 1 y depen-
de del número de filas y columnas
por lo que sólo son comparables los
coeficientes que proceden de cuadros
con idéntico número de filas y colum-
nas; no admite valores negativos.
• Es el coeficiente apropiado para rela-
ciones curvilíneas; si se calcula el co-
eficiente r de Pearson cuando hay re-
lación curvilínea, el valor resultante es
más bajo;
• El valor de h es siempre positivo.
8. COEFICIENTE DE CORRELACIÓN: RESUMEN
1. El coeficiente de correlación expresa en qué grado los sujetos (u obje-
tos, elementos…) están ordenados de la misma manera en dos variables si-
multáneamente; así en el caso de relación positiva y alta los sujetos tienen
puntuaciones altas o bajas en las dos variable simultáneamente.
2. Correlación y covarianza expresan grado de relación; su interpretación
es básicamente la misma; el coeficiente de correlación se calcula con puntua-
ciones típicas y la covarianza con puntuaciones directas.
3. Un coeficiente de correlación se puede interpretar sin entender por qué o
cómo cuantifica el grado de relación; sin embargo es fácil entenderlo y ayuda a
la interpretación porque pone de relieve la importancia de las diferencias. Po-
demos cuantificar (medir) el grado de relación entre dos variables porque:
a) Si hay relación positiva
1. Los sujetos tenderán a estar o por encima de la media en las dos va-
riables o por debajo de la media en las dos variables;
2. Las diferencias (expresadas en puntuaciones z) con respecto a las
dos medias serán del mismo signo, luego el producto de estas dife-
rencias será positivo y su suma grande (y dividida por N nos da el
coeficiente de correlación).
b) Si hay relación negativa
Los sujetos tenderán a estar simultáneamente por encima de la media
en una variable y por debajo de la media en la otra; las diferencias con
respecto a la media tenderán distinto signo y al multiplicar una por la
otra el signo será negativo (- por +); la suma de estos productos será
grande pero con signo menos.
c) si no hay relación
1. Unos sujetos estarán por encima de la media en las dos variables,
otros por debajo de la media en las dos variables, otros por encima
de la media en una variable y por debajo de la media en la otra varia-
ble…
2. Las diferencias (expresadas en puntuaciones z) con respecto a las
dos medias serán unas del mismo signo (y su producto positivo) y
otras de signos distintos (y su producto negativo). la suma de estos
productos tenderá hacia cero en la medida en que no haya relación.
4. Los valores extremos posibles son 0 (ausencia de relación) y ±1 (máxi-
ma relación). Si r = 1, el orden (posición relativa) de los sujetos es el mismo
en las dos variables. Como conocemos los valores más altos y más bajos po-
sibles, podemos apreciar y valorar la magnitud de la relación (poca hasta .30,
alta a partir de .75…).
5. La magnitud del coeficiente es independiente del signo; r =-.95 expre-
sa más relación que r = +.75; el que la relación sea positiva o negativa es al-
go distinto de que sea grande o pequeña.
6. Una correlación no puede interpretarse como prueba de una relación
causal.
CONCEPTO DE CORRELACIÓNYCOVARIANZA
181
7. Un coeficiente de correlación estadísticamente significativo quiere de-
cir que es muy improbable si no hay relación en la población: en muestras se-
mejantes obtendríamos un coeficiente de correlación distinto de cero (pero
no necesariamente de magnitud semejante al que hemos obtenido en nues-
tra muestra).
8. A partir del coeficiente de correlación obtenido en una muestra y del
tamaño N de esa muestra, podemos estimar entre qué límites se encuentra
esa correlación en la población (intervalos de confianza).
9. Un coeficiente de correlación no significativo no es prueba de que no
haya relación en la población (podríamos encontrarla quizás en muestras
mayores, o utilizando otras medidas más precisas, etc.)
10. Los coeficientes de correlación tienden a bajar cuando:
a) Las muestras son homogéneas (sin diferencias en ambas variables
no se detectan relaciones).
b) Los instrumentos de medición discriminan poco (no establecen
bien las diferencias entre los sujetos).
c) La fiabilidad de los instrumentos es baja.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
182
ANEXO I
CONCEPTO DE CORRELACIÓNYCOVARIANZA
183
Tablas del coeficiente de correlación r de Pearson
(N entre 3 y 102)
Grados de
libertad. 05 .01 .001
= N-2
1 .9969 .9998 .9999
2 .9500 .9900 .9990
3 .8783 .9587 .9911
4 .8114 .9172 .9740
5 .7545 .8745 .9507
6 .7067 .8343 .9249
7 .6664 .977 .8982
8 .6319 .7646 .8721
9 .6021 .7348 .8471
10 .5760 .7079 .8233
11 .5529 .6835 .8010
12 .5324 .6614 .7800
13 .5139 .6411 .7603
14 .4973 .6226 .7420
15 .4821 .6055 .7246
16 .4683 .5897 .7084
17 .4555 .5751 .6932
18 .4438 .5614 .6787
19 .4329 .5487 .6652
20 .4227 .5368 .6523
25 .3809 .4869 .5974
30 .3494 .4487 .5541
35 .3246 .4182 .5189
40 .3044 .3932 .4896
45 .2875 .3721 .4648
50 .2732 .3541 .4433
55 .2609 .3386 .4244
60 .2500 .3248 .4078
65 .2405 .3127 .3931
70 .2319 .3017 .3799
Grados de
libertad .05 .01 .001
= N-2
75 .2242 .2919 .3678
80 .2172 .2830 .3568
85 .2108 .2748 .3468
90 .2050 .2673 .3375
95 .1996 .2604 .3291
98 .1986 .2591 .3274
100 .1946 .2540 .3211
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
184
Con muestras grandes:
y consultar las tablas de la distribución normal;
z 1.96, p.05
z 2.56, p.01
z 3.3, p.001
o consultar alguna dirección de Internet (Anexo siguiente).
ANEXO II: LA CORRELACIÓN EN INTERNET
(Los números entre paréntesis corresponden
a las direcciones puestas al final).
1. La probabilidad exacta de cualquier valor de r
http://graphpad.com/quickcalcs/PValue1.cfm (1)
(se introducen el valor de r y los grados de libertad o N-2)
http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation_coeff.asp
(2)
(se introduce el valor de r y el tamaño N de la muestra).
http://faculty.vassar.edu/lowry/VassarStats.html (3)
2. Valores mínimos de r estadísticamente significativos (p =.05, .01 y
.001 para cualquier valor de N)
http://department.obg.cuhk.edu.hk/ResearchSupport/Minimum_correlation.asp
(2)
3. Intervalos de confianza (dados r y N)
http://faculty.vassar.edu/lowry/VassarStats.html (3)
http://glass.ed.asu.edu/stats/analysis/rci.html (6)
4. Correlación parcial
http://faculty.vassar.edu/lowry/par.html (3) (se introducen los coeficientes de
correlación entre tres variables (o cuatro) y calcula la correlación parcial ente
dos coeficientes igualando a los sujetos en las variables restantes).
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
5. Correlación múltiple
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
6. Diferencias estadísticamente significativas entre dos (o más) coefi-
cientes de correlación
http://department.obg.cuhk.edu.hk/ResearchSupport/HomoCor.asp (2)
(calculados en muestras distintas)
http://faculty.vassar.edu/lowry/VassarStats.html (3)
(calculados en muestras distintas)
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
(de la misma muestra o de distintas muestras)
http://www.psych.ku.edu/preacher/corrtest/corrtest.htm (en muestras distin-
tas) (7)
7. Cálculo del coeficiente de correlación
http://calculators.stat.ucla.edu/correlation.php (5)
http://faculty.vassar.edu/lowry/VassarStats.html (3)
Direcciones originales (‘Home’):
(1) GraphPad, Free Online Calculators for Scientists,
http://graphpad.com/quickcalcs/index.cfm
(2) Department of Obstetrics and Gynaecology, The Chinese University
of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Corre-
lation.asp
(3) VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar
College Poughkeepsie, NY USA
http://faculty.vassar.edu/lowry/VassarStats.html
(4) SISA, Simple Interactive Statistical Analysis
http://home.clara.net/sisa/index.htm#TOP
(5) Statistics Calculators, UCLA Department of Statistics,
http://calculators.stat.ucla.edu/
(6) Glass, Gene. V., Arizona State University College of Education, Online
Analysis of Data http://glass.ed.asu.edu/stats/analysis/ (o Gene V Glass Intro
to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources
for Statistics, en Online statistical calculators that can perform many diffe-
rent analyses.
(7) quantpsy.org, Kristopher J. Preacher, University of Kansas
http://www.psych.ku.edu/preacher/
CONCEPTO DE CORRELACIÓNYCOVARIANZA
185
CAPÍTULO 6
LA FIABILIDAD DE LOS TESTS Y ESCALAS
1. CONCEPTOS PRELIMINARES BÁSICOS
Antes de entrar en explicaciones muy precisas y en fórmulas concretas,
nos es útil hacer una aproximación conceptual a lo que entendemos por fia-
bilidad en nuestro contexto (los tests, la medición en las ciencias sociales)
porque lo que entendemos aquí por fiabilidad es de alguna manera análogo a
lo que entendemos por fiabilidad en otras situaciones de la vida corriente.
También es útil desde el principio distinguir la fiabilidad de conceptos como
el de validez que utilizamos en los mismos contextos y situaciones y en refe-
rencia al uso de los tests.
1.1. Equivocidad del concepto de fiabilidad
El concepto de fiabilidad, tal como lo aplicamos en la medición en las
ciencias humanas, desemboca en diversos métodos o enfoques de compro-
bación que se traducen en unos coeficientes de fiabilidad que a su vez supo-
nen conceptos o definiciones distintas de lo que es la fiabilidad, por lo que te-
nemos en principio un concepto equívoco más que unívoco (salvo en un
sentido muy genérico). Por esta razón cuando en situaciones aplicadas se ha-
bla de la fiabilidad o de coeficientes de fiabilidad, hay que especificar de qué
fiabilidad se trata. Esto quedará más claro al hablar de los distintos enfoques,
pero conviene tenerlo en cuenta desde el principio.
187
1.2. Fiabilidad y precisión de la medida
Aun así cabe hablar de un concepto más genérico de fiabilidad con el que
se relacionan los otros conceptos más específicos. En principio la fiabilidad
expresa el grado de precisión de la medida. Con una fiabilidad alta los suje-
tos medidos con el mismo instrumento en ocasiones sucesivas hubieran que-
dado ordenados de manera semejante. Si baja la fiabilidad, sube el error, los
resultados hubieran variado más de una medición a otra.
Ninguna medición es perfecta; en otro tipo de ámbitos una manera de ve-
rificar la precisión es medir lo mismo varias veces, o varios observadores in-
dependientes miden lo mismo para obtener una media que se estima más
precisa que lo que un único observador ha estimado, como cuando se desea
comprobar la densidad de una determinada especie animal en un determi-
nado hábitat. En la medición psicológica y educacional, que es la que nos in-
teresa aquí, no es posible o no es tan fácil utilizar procedimientos o estrate-
gias que se utilizan más en otros campos de la ciencia; tendremos que buscar
otros enfoques para apreciar e incluso cuantificar la precisión de nuestras
medidas (como puede ser la precisión de un instrumento para medir cono-
cimientos, actitudes, un rasgo de personalidad, etc.). Lo que importa desta-
car aquí es la asociación entre los conceptos de fiabilidad y precisión o
exactitud.
1.3. Fiabilidad y margen de error en al medida
Ya hemos indicado que si fiabilidad significa precisión, a menor fiabilidad
subirá el margen de error de nuestras medidas. En muchas aplicaciones prác-
ticas el interés de los coeficientes de fiabilidad está precisamente en que nos
permiten calcular ese margen de error que a su vez nos permiten relativizar
los resultados individuales, por eso junto a la fiabilidad hay que estudiar el
error típico de la medida (apartados 9.2 y 11, referido a resultados escolares).
1.4. Fiabilidad y predictibilidad
Otro concepto que nos ayuda a comprender qué entendemos por fiabili-
dad es el de consistencia o predictibilidad. Nos fiamos de un amigo cuando
sabemos cómo va a reaccionar ante un problema que le llevemos, y esto lo sa-
bemos porque tenemos experiencias repetidas. De manera análoga un juga-
dor de fútbol es fiable si sabemos de antemano que va a hacer un buen parti-
do, y de nuevo esto lo sabemos porque ya ha jugado bien en otras muchas
ocasiones (aunque esto no quiere decir que siempre juegue bien).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
188
Podemos imaginar a dos tiradores apuntando a un blanco. Cuando hay va-
lidez (figura 1, cuando el tiro es válido) se apunta al blanco aunque puede
haber poca precisión en el tiro. Los errores son aleatorios (falta de fiabilidad;
1.5. Fiabilidad y validez
El concepto de fiabilidad es distinto del concepto de la validez. En el sen-
tido más usual del término (no el único), un instrumento es válido si com-
prueba o mide aquello que pretendemos medir. Un instrumento puede ser
válido, porque mide lo que decimos que mide y queremos medir, pero lo
puede medir con un margen de error grande; con instrumentos parecidos o
en mediciones sucesivas hubiéramos obtenido resultados distintos. También
puede haber una fiabilidad alta (los sujetos están clasificados, ordenados,
con poco margen de error) y a la vez el instrumento puede carecer de vali-
dez, porque no mide lo que se pretende o lo que se dice que se está midien-
do (por ejemplo si un test de inteligencia lo que mide realmente es en bue-
na parte capacidad lectora, o si un examen supuestamente de comprensión
lo que se verifica es memoria y repetición, etc.)1
.
1.6. Fiabilidad y validez: errores sistemáticos y errores aleatorios
En estos dibujos (figuras 1 y 2) tenemos dos representaciones gráficas que
pueden ayudarnos a comprender lo que es validez y lo que es fiabilidad.
Validez:
Controlamos los
errores sistemáticos
Fiabilidad:
Controlamos los
errores aleatorios
Figura 1 Figura 2
LA FIABILIDAD DE LOS TETS Y ESCALAS
189
1
El tema de la validez no lo tratamos de manera expresa; puede verse tratado en Mo-
rales, Urosa y Blanco (2003. págs 126 y ss.) y de manera más extensa en Morales (2006, cap.
12 y 13).
fruto de defectos del arma, inestabilidad en el pulso, etc.), pero no son siste-
máticos (apuntamos al blanco que queremos).
Cuando hay fiabilidad hay precisión en el tiro. En este ejemplo (figura 2)
no hay validez: se apunta sistemáticamente fuera del blanco, aunque hay una
mayor fiabilidad o precisión (los tiros están más próximos entre sí).
Para evitar los errores aleatorios (y que aumente la fiabilidad) habrá que
mejorar el instrumento. Para evitar los errores sistemáticos habrá que apun-
tar bien al blanco, y para eso hay que saber dónde está, y no a otro sitio. La
comprobación de la validez sigue otros métodos distintos (análisis del conte-
nido de los ítems, verificar determinadas hipótesis sobre el significado pre-
tendido, etc.) y salvo en casos específicos (como cuando se habla de validez
predictiva) no se concreta en el cálculo de un coeficiente determinado.
De lo que vamos diciendo se desprende que en primer lugar nos debe
preocupar la validez más que la precisión: podemos medir muy bien lo que
no queríamos medir (memoria en vez de comprensión, por ejemplo en un
examen).
1.7. La fiabilidad no es una característica de los instrumentos
La fiabilidad no es una característica de un instrumento; es una caracterís-
tica de unos resultados, de unas puntuaciones obtenidas en una muestra
determinada. Esto es importante aunque en el lenguaje habitual nos refira-
mos a la fiabilidad como si fuera una propiedad del instrumento. Esta mane-
ra de hablar (este test tiene una fiabilidad de…) es muy frecuente, pero hay
que entender lo que realmente queremos decir. Lo que sucede es que un
mismo instrumento puede medir o clasificar bien a los sujetos de una mues-
tra, con mucha precisión, y mal, con un margen de error grande, a los sujetos
de otra muestra. Con un mismo instrumento se mide y se ordena mejor a los
sujetos cuando estos sujetos son muy distintos entre sí, y al revés, baja la fia-
bilidad si la muestra es más homogénea. Podemos visualizarlo con la imagen
de una balanza de poca precisión: si pesamos objetos que pesan entre 4 Kg.
y 10 Kg. no establecerá diferencias en peso entre objetos que pesan casi lo
mismo y sólo se diferencian en miligramos; en cambio esa misma balanza dis-
tinguirá bien entre objetos con diferencias en peso de varios kilos. La balan-
za es la misma, pero su precisión (fiabilidad al distinguir según unos objetos
pesen más o menos) depende de las diferencias en peso de los objetos.
La fiabilidad se debe calcular con cada nueva muestra, sin aducir la fia-
bilidad obtenida con otras muestras como aval o prueba de la fiabilidad del
instrumento2
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
190
2
El calcular el coeficiente de fiabilidad en cada nueva muestra es una de las recomen-
daciones de la American Psychological Association (Wilkinson and Task Force on Statisti-
Todo esto quedará mejor entendido al examinar las variables que inciden
en que un coeficiente de fiabilidad sea alto o bajo, pero es importante ver
desde el principio que en sentido propio la fiabilidad no es la propiedad de
un determinado instrumento, sino del conjunto de puntuaciones con él ob-
tenido y que puede variar de una situación a otra (y como en el ejemplo de
la balanza, va a estar en función de las diferencias entre los sujetos).
1.8. Fiabilidad y diferencias: teoría clásica de la fiabilidad
En última instancia lo que nos va a decir un coeficiente de fiabilidad es si
el instrumento diferencia adecuadamente a los sujetos en aquello que mide
el test o escala. Con un test o escala pretendemos diferenciar a los sujetos;
establecer quién tiene más o menos del rasgo que medimos. Los tests, sobre
todo los que miden rasgos psicológicos, no nos serían útiles si de alguna ma-
nera no establecieran diferencias entre los sujetos. Ya veremos que, por lo
tanto, no hay fiabilidad sin diferencias. Por estas razones la fiabilidad de un
test de conocimientos o de un examen (prueba objetiva) no se puede inter-
pretar automáticamente como un indicador de la calidad del test, como co-
mentamos en el apartado 11 sobre la interpretación de estos coeficientes
cuando se trata de medir conocimientos. A esta teoría de la fiabilidad basada
en las diferencias se le suele denominar teoría clásica de la fiabilidad.
2. ENFOQUES Y MÉTODOS EN EL CÁLCULO DE LA FIABILIDAD
En el cálculo de la fiabilidad hay tres enfoques que, aunque parten de mo-
delos teóricos idénticos o parecidos, siguen procedimientos distintos y sus
resultados no pueden interpretarse exactamente del mismo modo; por eso
hemos dicho al principio que el concepto de fiabilidad es en cierto modo
equívoco. Estos tres enfoques son 1º) el test-retest, 2º) el de las pruebas pa-
ralelas y 3º) los coeficientes de consistencia interna.
2.1. Método: Test-retest
Los sujetos responden dos veces al mismo test, dejando entre las dos ve-
ces un intervalo de tiempo. El coeficiente de correlación entre las dos
ocasiones es lo que denominamos coeficiente de fiabilidad test-retest. El in-
tervalo de tiempo puede ser de días, semanas o meses, pero no tan grande
LA FIABILIDAD DE LOS TETS Y ESCALAS
191
cal Inference, APA Board of Scientific Affairs (1999); American Psychological Association
(2001) y también está recomendado por la política editorial de buenas revistas (Thomp-
son, 1994).
que los sujetos hayan podido cambiar. Una correlación grande indica que en
las dos veces los sujetos han quedado ordenados de la misma o parecida ma-
nera. El intervalo de tiempo debe especificarse siempre (y suele estar en tor-
no a las dos o tres semanas).
a) Este método corresponde al concepto más intuitivo de fiabilidad: un ins-
trumento es fiable si en veces sucesivas aporta los mismos resultados.
b) No tiene sentido utilizarlo cuando está previsto un cambio en los suje-
tos, o cuando entre la primera y segunda vez se puede dar un aprendi-
zaje. Por esto no es un método apto para comprobar la fiabilidad de un
instrumento de medición escolar porque puede haber aprendizaje de
una vez a otra, aprendizaje que puede incluso estar provocado por el
mismo instrumento. La fiabilidad del tipo test-retest tiene más sentido
en la medición de rasgos y actitudes más estables.
c) Este coeficiente de correlación podemos entenderlo como un coefi-
ciente o indicador de estabilidad o de no ambigüedad en la medi-
da en que ambas ocasiones los resultados son parecidos (los sujetos
entendieron lo mismo de la misma manera y respondieron de manera
idéntica o casi idéntica).
d) Una fiabilidad alta de este tipo no es garantía de una fiabilidad alta con
otro de los enfoques, sobre todo con el de consistencia interna que
veremos enseguida y que es el más importante. Puede haber una fiabi-
lidad alta de este tipo, test-retest, con ítems que preguntan cosas muy
distintas (como peso, altura, sexo, gusto por la música, año de naci-
miento, etc.), pero con poca (o ninguna) consistencia interna porque
se están preguntando cosas distintas cuyas respuestas no tendría senti-
do sumar en un total.
2.2. Método: Pruebas paralelas
Se utiliza cuando se preparan dos versiones del mismo test; los ítems son
distintos en cada test pero con ambos se pretende medir lo mismo. En este
caso el coeficiente de fiabilidad es la correlación entre las dos for-
mas paralelas, respondidas por los mismos sujetos.
a) Puede interpretarse como un coeficiente o indicador de equivalen-
cia entre los dos tests: si la correlación es alta, las dos formas del mis-
mo test dan resultados parecidos, ordenan a los sujetos de manera pa-
recida, ambas formas son intercambiables. Si la correlación entre las
dos formas (respondidas con días u horas de diferencia) es baja, la
conclusión más razonable no es que los sujetos han cambiado, sino
que las dos formas no están equilibradas en sus contenidos y de algu-
na manera miden cosas distintas o con énfasis distintos.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
192
b) Una confirmación adicional de que las dos formas son realmente para-
lelas es comprobar si la correlación media inter-ítem dentro de cada
forma es de magnitud similar, lo mismo que la correlación de los ítems
de una forma con los de la otra versión.
c) Este tipo de fiabilidad, o prueba de equivalencia, es necesario siempre
que se disponga de dos o más versiones del mismo test, y su uso que-
da en la práctica restringido a esta circunstancia no frecuente.
2.3. Método: Coeficientes de consistencia interna3
Este es el enfoque más utilizado y al que le vamos a dar una mayor exten-
sión. Hay que hablar de enfoque más que de método pues son muchas las po-
sibles fórmulas en que se puede concretar en el cálculo de la fiabilidad. Cuan-
do se habla de fiabilidad sin más matizaciones, hay que entender que se trata
de fiabilidad en el sentido de consistencia interna.
Lo que expresan directamente estos coeficientes es hasta qué punto las
respuestas son lo suficientemente coherentes (relacionadas entre sí) como
para poder concluir que todos los ítems miden lo mismo, y por lo tanto son
sumables en una puntuación total única que representa, mide un rasgo bien
definido. Por esta razón se denominan coeficientes de consistencia interna,
y se aducen como garantía de unidimensionalidad, es decir, de que un úni-
co rasgo subyace a todos los ítems. Hay que advertir sin embargo que un al-
to coeficiente de fiabilidad no es prueba de unidimensionalidad (tratado con
más amplitud en el apartado 9.1).
El resto de la teoría sobre la fiabilidad que exponemos a continuación res-
ponde fundamentalmente a la fiabilidad entendida como consistencia inter-
na. Cuando se habla de la fiabilidad de un instrumento y no se especifica otra
cosa, suele entenderse que se trata de la fiabilidad entendida como consisten-
cia interna.
3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FÓRMULA BÁSICA DE LA
FIABILIDAD
Como punto de partida podemos pensar que cuando observamos dife-
rencias entre los sujetos, estas diferencias, que se manifiestan en que sus
LA FIABILIDAD DE LOS TETS Y ESCALAS
193
3
Los coeficientes de consistencia interna también suelen denominarse coeficientes
de homogeneidad como si se tratara de términos sinónimos, pero este término (coefi-
ciente de homogeneidad) es impropio (como advierte Schmitt, 1996). La consistencia in-
terna se refiere a las correlaciones entre los ítems (relación empírica) y la homogeneidad
se refiere a la unidimensionalidad (relación lógica, conceptual) de un conjunto de ítems
que supuestamente expresan el mismo rasgo.
puntuaciones totales (al sumar todas sus respuestas a los ítems) son distin-
tas, se deben:
1º En parte a que los sujetos son distintos en aquello que se les está mi-
diendo; si se trata de un examen hay diferencias porque unos saben
más y otros saben menos.
2º Las diferencias observadas se deben también en parte a lo que llama-
mos genéricamente errores de medición; por ejemplo, en este caso,
las respuestas distintas pueden estar ocasionadas por preguntas ambi-
guas, por la diferente capacidad lectora de los sujetos, etc.; no todo lo
que hay de diferencia se debe a que unos saben más y otros saben
menos.
La puntuación total de un sujeto podemos por lo tanto descomponerla
así:
Xt = Xv + Xe [1]
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
194
Xt = puntuación total de un sujeto, puntua-
ción observada;
Xv = puntuación verdadera, que representa
lo que un sujeto realmente sabe o sien-
te (depende de qué se esté preguntan-
do o midiendo).
Xe = puntuación debida a errores de medi-
ción, que puede tener signo más o sig-
no menos.
Lo que decimos de cada puntuación individual lo podemos decir también
de las diferencias entre todos los sujetos:
Diferencias
observadas
entre los sujetos
= +
Diferencias verdaderas
los sujetos son distin-
tos en lo que estamos
midiendo.
Diferencias falsas
(errores de medición)
Hablando con propiedad, más que de diferencias concretas hay que hablar
de varianza, que cuantifica todo lo que hay de diferencia entre los sujetos.
La fórmula básica de la fiabilidad parte del hecho de que la varianza se puede
descomponer. La varianza de las puntuaciones totales de un test podemos
descomponerla así [2]:
s2
t = s2
v + s2
e [2]
s2
v = Varianza total, expresa todo lo que hay de diferente en las puntua-
ciones totales; unos sujetos tienen puntuaciones totales más altas,
otros más bajas, etc.; la varianza será mayor si los sujetos difieren mu-
cho entre sí. Si lo que pretendemos con un instrumento de medida es
clasificar, detectar diferencias, una varianza grande estará asociada
en principio a una mayor fiabilidad.
s2
e = Varianza verdadera; expresa todo lo que hay de diferente debido a
que los sujetos son distintos en lo que pretendemos medir, o dicho
de otra manera, expresa todo lo que hay de diferente debido a lo que
los ítems tienen en común, de relación, y que es precisamente lo
que queremos medir. El término verdadero no hay que entenderlo
en un sentido cuasi filosófico, aquí la varianza verdadera es la que
se debe a respuestas coherentes (o respuestas relacionadas), y esta
coherencia (o relación verificada) en las respuestas suponemos que
se debe a que todos los ítems del mismo test miden lo mismo.
s2
t = Varianza debida a errores de medición, o debida a que los ítems mi-
den en parte cosas distintas, a lo que no tienen en común. Puede ha-
ber otras fuentes de error (respuestas descuidadas, falta de motiva-
ción al responder, etc.), pero la fuente de error que controlamos es la
debida a falta de relación entre los ítems, que pueden medir cosas
distintas o no muy relacionadas. El error aquí viene a ser igual a inco-
herencia en las respuestas, cualquiera que sea su origen (incoheren-
cia sería aquí responder no cuando se ha respondido sí a un ítem de
formulación supuestamente equivalente).
Suponemos que los errores de medición no están relacionados con las
puntuaciones verdaderas; no hay más error en las puntuaciones más altas o
menos en las más bajas y los errores de medición se reparten aleatoriamente;
con este supuesto la fórmula [2] es correcta.
La fiabilidad no es otra cosa que la proporción de varianza verdadera, y
la fórmula básica de la fiabilidad [3] se desprende de la fórmula anterior [2]
(r11 es el símbolo general de los coeficientes de fiabilidad):
s2
v
r11 = ––––– [3]
s2
t
Por varianza verdadera entendemos lo que acabamos de explicar; la va-
rianza total no ofrece mayor problema, es la que calculamos en los totales de
todos los sujetos; cómo hacemos operativa la varianza verdadera lo vere-
mos al explicar las fórmulas (de Cronbach y Kuder-Richardson). Expresando
la fórmula [3] en términos verbales tenemos que
LA FIABILIDAD DE LOS TETS Y ESCALAS
195
todo lo que discriminan los ítems por lo que tienen de relacionados
fiabilidad = ———————————————————————————
todo lo que discriminan de hecho al sumarlos en una puntuación total
o expresado de otra manera
varianza debida a lo que hay de coherente en las respuestas
fiabilidad = ———————————————————————————
varianza debida tanto a lo que hay de coherente como
de no coherente en las respuestas
Por respuestas coherentes hay que entender que no se responde de mane-
ra distinta a ítems que supuestamente y según la intención del autor del instru-
mento, expresan el mismo rasgo. En una escala de actitud hacia la música se-
ría coherente estar de acuerdo con estos dos ítems: me sirve de descanso
escuchar música clásica y la educación musical es muy importante en la
formación de los niños; lo coherente es estar de acuerdo con las dos afirma-
ciones o no estar tan de acuerdo también con las dos. Un sujeto que esté de
acuerdo con una y no con la otra es de hecho incoherente según lo que pre-
tende el autor del instrumento (medir la misma actitud a través de los dos
ítems). Esta incoherencia de hecho no quiere decir que el sujeto no sea cohe-
rente con lo que piensa; lo que puede y suele suceder es que los ítems pueden
estar mal redactados, pueden ser ambiguos, medir cosas distintas, etc.; por es-
tas razones la fiabilidad hay que verificarla experimentalmente.
En la varianza total (todo lo que hay de diferencias individuales en las
puntuaciones totales) influye tanto lo que se responde de manera coheren-
te o relacionada, como lo que hay de incoherente o inconsistente (por la
causa que sea); la fiabilidad expresa la proporción de consistencia o cohe-
rencia empírica.
En el denominador tenemos la varianza de los totales, por lo tanto la fia-
bilidad indica la proporción de varianza debida a lo que los ítems tienen en
común. Una fiabilidad de .80, por ejemplo, significa que el 80% de la varian-
za se debe a lo que los ítems tienen en común (o de relacionado de hecho).
4. REQUISITOS PARA UNA FIABILIDAD ALTA
Si nos fijamos en la fórmula anterior [3] (y quizás con más claridad si nos
fijamos en la misma fórmula expresada con palabras), vemos que aumentará
la fiabilidad si aumenta el numerador; ahora bien, es importante entender
que aumentará el numerador si por parte de los sujetos hay respuestas distin-
tas (no todos los sujetos responden de la misma manera) y a la vez relacio-
nadas, de manera que tendremos una fiabilidad alta:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
196
1º Cuando haya diferencias en las respuestas a los ítems, es decir,
cuando los ítems discriminan; si las respuestas son muy parecidas (to-
dos de acuerdo, o en desacuerdo, etc.) la varianza de los ítems baja y
también la fiabilidad;
2º Y además los ítems (las respuestas) estén relacionadas entre
sí, hay coherencia, consistencia interna; cuando si se responde muy
de acuerdo a un ítem, también se responde de manera parecida a
ítems distintos pero que expresan, suponemos, el mismo rasgo; hay
una tendencia generalizada responder o en la zona del acuerdo o en la
zona del desacuerdo.
Entender cómo estos dos requisitos (respuestas distintas en los sujetos y
relacionadas) influyen en la fiabilidad es también entender en qué consiste la
fiabilidad en cuanto consistencia interna. Esto lo podemos ver con facilidad
en un ejemplo ficticio y muy simple en el que dos muestras de cuatro sujetos
responden a un test de dos ítems con respuestas sí o no (1 ó 0) (tabla 1).
Tabla1
Podemos pensar que se trata de una escala de integración familiar com-
puesta por dos ítems y respondida por dos grupos de cuatro sujetos cada
uno. Los ítems en este ejemplo podrían ser:
1. En casa me lo paso muy bien con mis padres [sí=1 y no =0]
2. A veces me gustaría marcharme de casa [sí = 0 y no = 1]
En estos ejemplos podemos observar:
1º Las desviaciones típicas (lo mismo que las varianzas, s2
) de los ítems
son idénticas en los dos casos, además son las máximas posibles (por-
que el 50% está de acuerdo y el otro 50% está en desacuerdo, máxima
dispersión). Desviaciones típicas grandes en los ítems (lo que supone
LA FIABILIDAD DE LOS TETS Y ESCALAS
197
que distintos sujetos responden de distinta manera al mismo ítem)
contribuyen a aumentar la fiabilidad, pero vemos que no es condición
suficiente: con las mismas desviaciones típicas en los ítems el coeficien-
te de fiabilidad es 1 (grupo A) en un caso y 0 en otro (grupo B).
2º La diferencia entre los grupos A y B está en las correlaciones inter-ítem:
la máxima posible en A (r = 1), y la más baja posible en B (r = 0). La co-
rrelación es grande cuando las respuestas son coherentes, cuando se
responde básicamente de la misma manera a todos los ítems; la corre-
lación es pequeña cuando las respuestas son incoherentes.
Cuando las respuestas son coherentes (simplificando: unos dicen que sí a
todo y otros dicen que no a todo), la puntuación total está más diversificada
porque se acumulan puntuaciones muy altas o muy bajas en los ítems; conse-
cuentemente la desviación típica (o la varianza) de los totales será mayor. Con
respuestas diferentes y además coherentes, los sujetos quedan más diversifi-
cados, mejor clasificados por sus puntuaciones totales, y esta diversidad de
los totales se refleja en una mayor desviación típica o varianza.
Esta diversidad coherente de las respuestas (y que la vemos de manera
exagerada en el grupo A del ejemplo anterior) queda recogida en la fórmula
de la fiabilidad o de consistencia interna.
Para que suba la fiabilidad hace falta por lo tanto lo que ya hemos indicado
antes:
1º que unos y otros sujetos respondan de manera distinta a los ítems
2º y que además esas respuestas a los ítems de cada sujeto sean coherentes.
Si esto es así, las diferencias en los totales se deberán a que los sujetos han
respondido de manera distinta y coherente a los distintos ítems. Esto hace
que los totales sean distintos, para unos sujetos y otros, según tengan más o
menos del rasgo que deseamos medir. unos van acumulando valores altos en
sus respuestas, y otros van acumulando valores bajos.
Lo que significa la fiabilidad, y las condiciones de una fiabilidad alta, pode-
mos verlo en otro ejemplo (obviamente ficticio, tabla 2). Imaginemos que se
trata ahora de una escala de actitud hacia la música compuesta por tres
ítems, con respuestas continuas de 1 (máximo desacuerdo) a 5 (máximo
acuerdo) respondida por seis sujetos:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
198
Qué vemos fácilmente en estos datos:
1. Los ítems miden lo mismo conceptualmente; al menos es lo que inten-
tamos al redactarlos;
2. Los sujetos son distintos en las respuestas a cada ítem, por eso hay va-
rianza (diferencias) en los ítems; a unos les gusta más la música, a
otros menos;
3. Los ítems están relacionados: si tomamos los ítems de dos en dos ve-
mos que los sujetos tienden a puntuar alto en los dos o bajo en los dos
(más o menos). Esta relación podemos verificarla experimentalmente
calculando los coeficientes de correlación: r12 = .95, r13 = .81 y r23 =
.734 (en ejemplos reales, con más ítems y más sujetos, no suelen ser
tan altos).
4. Consecuentemente el puntuar alto en un ítem supone un total más al-
to en toda la escala; esto podemos verificarlo experimentalmente cal-
culando la correlación de cada ítem con la suma de los otros dos (co-
rrelación ítem-total): r1t = .93, r2t = .88 y r3t = .79.
Un procedimiento que nos daría la misma información es comparar en
cada ítem a los sujetos con totales más altos y totales más bajos; si los
mismos ítems diferencian simultáneamente a los mismos sujetos, es
que los ítems están relacionados.
5. Los sujetos van acumulando puntuaciones altas o bajas en cada ítem,
por lo tanto quedan muy diferenciados en la puntuación total: están
bien ordenados o clasificados.
6. Nos encontramos con una coherencia global en las respuestas, todos
los ítems están relacionados; esta coherencia global es la que estima-
mos en los coeficientes de fiabilidad (de consistencia interna; en el
ejemplo ficticio de la tabla 2 el coeficiente de fiabilidad es a = .9244
.
7. Esta relación entre los ítems es la que comprobamos experimental-
mente y nos permite sumarlos en una sola puntuación total porque
Tabla 2
4
Sobre cómo construir escalas de actitudes y cómo hacer estos análisis puede verse
Morales, Urosa y Blanco (2003).
LA FIABILIDAD DE LOS TETS Y ESCALAS
199
nos confirma (aunque no necesariamente) que todos miden lo mismo.
Si un ítem no está claramente relacionado con los demás, puede ser
que esté midiendo otra cosa.
8. La relación conceptual (homogeneidad de los ítems) la suponemos
(procuramos que todos los ítems expresen el mismo rasgo, aunque po-
demos equivocarnos), pero la comprobamos empíricamente en cada
ítem (mediante la correlación de cada ítem con todos los demás) y en
el conjunto de todo el instrumento (coeficiente de fiabilidad).
Sin embargo puede haber relación empírica (un ítem correlaciona bien
con los demás) sin que eso signifique que hay una clara relación con-
ceptual. Si él ejemplo de la tabla 2 en vez del ítem me entusiasma la
ópera (que claramente expresa gusto por la música) ponemos en mi
casa tengo un piano, que podría expresar gusto por la música pero
también, y con más claridad, indica nivel económico (algo distinto al
gusto por la música, con unas respuestas no sumables con las demás),
y los dos melómanos del ejemplo son además ricos y tienen un piano
en casa y los dos a quienes no gusta o gusta menos la música son de ni-
vel económico inferior y por supuesto no tienen un piano en su casa,
tendríamos que este ítem, en mi casa tengo un piano, está contribu-
yendo a la fiabilidad de la escala sin que podamos decir que está mi-
diendo lo mismo que los demás. Los números no entienden de signifi-
cados, de ahí la insistencia en los controles conceptuales.
9. El coeficiente de fiabilidad aumenta por lo tanto:
a) si hay diferencias en las respuestas a cada ítem
b) y si además hay relación entre los ítems (es decir, hay coherencia
en las respuestas).
10.La fiabilidad supone también que los sujetos son distintos en aquello
que es común a todos los ítems. El mismo test o escala, con los mismos
ítems, puede tener una fiabilidad alta en una muestra y baja en otra: si
todos responden a los ítems de idéntica manera: a) los ítems tendrán
varianzas pequeñas y b) interrelaciones pequeñas, y por lo tanto baja-
rá la fiabilidad. La fiabilidad viene a expresar la capacidad del instru-
mento para discriminar, para diferenciar a los sujetos a través de sus
respuestas a todos los ítems. Es más probable encontrar una fiabilidad
alta en una muestra grande, porque es más probable también que haya
sujetos más extremos en lo que estamos midiendo. En sentido propio
la fiabilidad no es una propiedad del test o escala, sino de las puntua-
ciones obtenidas con el instrumento en una muestra dada.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
200
5. LAS FÓRMULAS DE KUDER RICHARDSON 20 Y a DE CRONBACH
Las dos fórmulas posiblemente más utilizadas son las de Kuder-Richardson
20 y el coeficiente a de Cronbach. En realidad se trata de la misma fórmula,
una (Kuder-Richardson) expresada para ítems dicotómicos (con respuestas
de unos y ceros) y otra (Cronbach) para ítems continuos (con varias respues-
tas graduadas de menos a más, como en las escalas de actitudes). Los nom-
bres distintos se deben a que los autores difieren en sus modelos teóricos,
aunque estén relacionados, y los desarrollaron en tiempos distintos (Kuder y
Richardson en 1937, Cronbach en 1951).
Para hacer operativa la fórmula [3]
s2
v
r11 = ––––– [3]
s2
t
El denominador no ofrece mayor problema, se trata de la varianza de las
puntuaciones totales del test o instrumento utilizado.
El numerador, o varianza verdadera, lo expresamos a través de la suma
de las covarianzas de los ítems. Es útil recordar aquí qué es la co-varianza.
Conceptualmente la co-varianza es lo mismo que la co-relación; en el coe-
ficiente de correlación utilizamos puntuaciones típicas y en la covarianza uti-
lizamos puntuaciones directas, pero en ambos casos se expresa lo mismo y si
entendemos qué es la correlación, entendemos también qué es la covarianza
o variación conjunta. La varianza verdadera la definimos operativamente
como la suma de las covarianzas de los ítems.
La covarianza entre dos ítems expresa lo que dos ítems discriminan por
estar relacionados, esto es lo que denominamos en estas fórmulas varianza
verdadera, por lo tanto la fórmula [3] podemos expresarla poniendo en el
numerador la suma de las covarianzas entre los ítems:
o lo que es lo mismo ya que
La covarianza entre dos ítems (sxy) es igual al producto de su correlación
(rxy) por sus desviaciones típicas (sx y sy): ahí tenemos la varianza verdade-
ra: diferencias en las respuestas a los ítems (expresadas por las desviaciones
típicas) y relacionadas (relación expresada por los coeficientes de correla-
ción entre los ítems). Se trata por lo tanto de relaciones empíricas, verifica-
das, no meramente lógicas o conceptuales.
LA FIABILIDAD DE LOS TETS Y ESCALAS
201
Esta fórmula [5] de la fiabilidad no es, por supuesto cómoda para calcular-
la (tenemos otras alternativas) pero pone de manifiesto qué es lo que influye
en la fiabilidad, por eso es importante.
Aumentará la fiabilidad si aumenta el numerador. Y lo que tenemos en el
numerador (fórmula [5]) es la suma de las covarianzas de los ítems (Ssxy =
Srxysxsy) que expresa a) todo lo que discriminan los ítems (y ahí están sus
desviaciones típicas) y b) por estar relacionados (y tenemos también las co-
rrelaciones inter-ítem).
Si nos fijamos en la fórmula [5] vemos que si los ítems no discriminan (no
establecen diferencias) sus desviaciones típicas serán pequeñas, bajará el nu-
merador y bajará la fiabilidad.
Pero no basta con que haya diferencias en los ítems, además tienen que es-
tar relacionados; la correlación entre los ítems también está en el numerador
de la fórmula [5]: si las desviaciones son grandes (como en el grupo B de la
tabla 1) pero los ítems no están relacionados (= respuestas no coherentes),
bajará la fiabilidad, porque esa no relación entre los ítems hace que las pun-
tuaciones totales estén menos diferenciadas, como sucede en el grupo B. En
este caso vemos que cuando las desviaciones de los ítems son muy grandes,
pero la correlación inter-ítem es igual a 0, la fiabilidad es también igual a 0.
La fiabilidad expresa por lo tanto cuánto hay de diferencias en los totales
debidas a respuestas coherentes (o proporción de varianza verdadera o de-
bida a que los ítems están relacionados). Por eso se denomina a estos coefi-
cientes coeficientes de consistencia interna: son mayores cuando las relacio-
nes entre los ítems son mayores. La expresión varianza verdadera puede
ser equívoca; en este contexto varianza verdadera es la debida a que los ítems
están relacionados, son respondidos de manera básicamente coherente, pe-
ro no prueba o implica que de verdad todos los ítems midan lo mismo.
Esta relación empírica, verificable, entre los ítems nos sirve para apoyar
o confirmar (pero no probar) la relación conceptual que debe haber entre
los ítems (ya que pretendidamente miden lo mismo), aunque esta prueba no
es absoluta y definitiva y requerirá matizaciones adicionales (dos ítems pue-
den estar muy relacionados entre sí sin que se pueda decir que miden lo mis-
mo, como podrían ser edad y altura).
La fórmula [4] puede transformarse en otra de cálculo más sencillo. Se
puede demostrar fácilmente que la varianza de un compuesto (como la va-
rianza de los totales de un test, que está compuesto de una serie de ítems que
se suman en una puntuación final) es igual a la suma de las covarianzas en-
tre los ítems (entre las partes del compuesto) más la suma de las varianzas
de los ítems:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
202
de donde
La expresión [k/(k-1)] (k= número de ítems) la añadimos para que el va-
lor máximo de este coeficiente pueda llegar a la unidad. El segundo miembro
de esta fórmula [8], que es el que realmente cuantifica la proporción de va-
rianza debida a lo que los ítems tienen en común o de relacionado, puede al-
canzar un valor máximo de [(k-1)/k] y esto solamente en el caso improbable
de que todas las varianzas y covarianzas sean iguales. Como [(k-1)/k] x [k/(k-
1)]= 1, al añadir a la fórmula el factor [k/(k-1)] hacemos que el valor máximo
posible sea 1.
La fórmula [8], tal como está expresada, corresponde al a de Cronbach
(para ítems continuos); en la fórmula Kuder-Richardson 20 (para ítems dico-
tómicos, respuesta 1 ó 0) sustituimos Ss2
i por Spq pues pq es la varianza de
los ítems dicotómicos (p = proporción de unos y q = proporción de ceros).
La parte de la fórmula [8] que realmente clarifica el sentido de la fiabilidad
está en el segundo miembro que, como hemos visto, equivale a Srxysxsy/s2
t
(suma de las covarianzas de todos los ítems dividida por la varianza de los to-
tales, fórmulas [4] y [5]).
6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD
Es útil tener a la vista los factores o variables que inciden en coeficientes
de fiabilidad altos. Cuando construimos y probamos un instrumento de me-
dición psicológica o educacional nos interesa que su fiabilidad no sea baja y
conviene tener a la vista qué podemos hacer para obtener coeficientes altos.
Además el tener en cuenta estos factores que inciden en la magnitud del co-
eficiente de fiabilidad nos ayuda a interpretar casos concretos.
En general los coeficientes de fiabilidad tienden a aumentar:
y sustituyendo en [4] tenemos que
de donde
número de ítems
suma de las varianzas de los ítems
varianza de los totales
La fórmula que sin embargo utilizamos es esta otra y que corresponde al
coeficiente s de Cronbach [8]:
LA FIABILIDAD DE LOS TETS Y ESCALAS
203
1º Cuando la muestra es heterogénea; es más fácil clasificar a los su-
jetos cuando son muy distintos entre sí. Con muestras de sujetos muy
parecidos en el rasgo que queremos medir, todos responderán de ma-
nera parecida, y las varianzas de los ítems y sus intercorrelaciones serán
pequeñas.
2º Cuando la muestra es grande porque en muestras grandes es más
probable que haya sujetos muy distintos (es la heterogeneidad de la
muestra, y no el número de sujetos, lo que incide directamente en la
fiabilidad); aunque también podemos obtener un coeficiente alto en
muestras pequeñas si los sujetos son muy diferentes en aquello que es
común a todos los ítems y que pretendemos medir.
3º Cuando las respuestas a los ítems son más de dos, porque en
este caso hay una mayor probabilidad de que las respuestas difieran
más, de que se manifiesten las diferencias que de hecho existen. Cuan-
do el número de respuestas supera la capacidad de discriminación de
los sujetos, la fiabilidad baja porque las respuestas son más inconsisten-
tes; en torno a 6 ó 7, e incluso menos, suele situarse el número óptimo
de respuestas. Lo más claro experimentalmente es que la fiabilidad su-
be al pasar de dos respuestas a tres.
4º Cuando los ítems son muchos (más oportunidad de que los sujetos
queden más diferenciados en la puntuación total) aunque un número
de ítems grande puede dar una idea equívoca de la homogeneidad del
instrumento como indicaremos más adelante (muchos ítems poco re-
lacionados entre sí pueden llevar una fiabilidad alta en todo el instru-
mento sin que quede muy claro qué se está midiendo).
5º Cuando la formulación de los ítems es muy semejante, muy re-
petitiva (si hay diferencias entre los sujetos, aparecerán en todos los
ítems y subirán sus intercorrelaciones) aunque ésta no es una caracte-
rística necesariamente deseable en un instrumento (que mediría un
constructo definido con límites muy estrechos). En general los cons-
tructos o rasgos definidos con un nivel alto de complejidad requerirán
ítems más diversificados y la fiabilidad tenderá a ser menor.
7. INTERPRETACIÓN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA
Basándonos en estas fórmulas y en sus modelos teóricos, estos coeficien-
tes podemos interpretarlos de las siguientes maneras (unas interpretaciones
se derivan de las otras):
1. Expresa directamente lo que ya hemos indicado: la proporción de
varianza debida a lo que los ítems tienen de relacionado, de co-
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
204
mún; un coeficiente de .70 indica que el 70% de la varianza (diferencias en los
totales, que es lo que cuantifica la varianza) se debe a lo que los ítems tienen
en común (de estar relacionado, de coherencia en las respuestas), y un 30%
de la varianza se debe a errores de medición o a lo que de hecho tienen los
ítems de no relacionado. De esta interpretación podemos decir que es una
interpretación literal, que se desprende directamente de la lectura de la fór-
mula (Suma de covarianzas/Varianza total).
Estos coeficientes, dicho en otras palabras, expresan en qué grado los
ítems discriminan o diferencian a los sujetos simultáneamente. De alguna
manera son un indicador de relación global entre los ítems (aunque no
equivalen a la correlación media entre los ítems).
2. Consecuentemente interpretamos estos coeficientes como indicado-
res de la homogeneidad de los ítems (es decir, de que todos los ítems
miden lo mismo, por eso se denominan coeficientes de consistencia inter-
na); pero esto es ya una interpretación: suponemos que si las respuestas es-
tán relacionadas es porque los ítems expresan o son indicadores del mismo
rasgo, aunque no hay que confundir relación empírica (verificada, re-
lación de hecho en las respuestas y es esto lo que cuantificamos con estas fór-
mulas) con homogeneidad conceptual. Esta relación o consistencia inter-
na comprobada de los ítems es la que legitima su suma en una puntuación
total, que es la que utilizamos e interpretamos como descriptor del rasgo
(ciencia, una actitud, un rasgo de personalidad, etc.) que suponemos presen-
te en todos los ítems.
3. Son una estimación del coeficiente de correlación que pode-
mos esperar con un test similar, con el mismo número y tipo de ítems.
Esta interpretación se deriva directamente del modelo teórico propuesto
por Cronbach. De un universo o población de posibles ítems hemos escogi-
do una muestra de ítems que es la que conforma nuestro instrumento. Si la
fiabilidad es alta, con otra muestra de ítems de la misma población de ítems
obtendríamos unos resultados semejantes (los sujetos quedarían ordenados
de manera similar).
Un uso importante de estos coeficientes es poder comunicar hasta qué
punto los resultados obtenidos con un determinado instrumento son repeti-
bles, en el sentido de si con un test semejante los resultados hubieran sido si-
milares. La fiabilidad es en este sentido un indicador de la eficacia del instru-
mento. Si estos coeficientes son una estimación de la correlación del test con
otro similar, podemos concluir que con otro test semejante los sujetos hubie-
ran quedado ordenados, clasificados, de manera parecida.
4. En términos generales el coeficiente de fiabilidad nos dice si un test
discrimina adecuadamente, si clasifica bien a los sujetos, si detec-
ta bien las diferencias que existen entre los sujetos de una muestra. Diferen-
cias ¿En qué? En aquello que es común a todos los ítems y que es lo que pre-
LA FIABILIDAD DE LOS TETS Y ESCALAS
205
tendemos medir. Es más, sin diferencias entre los sujetos no puede haber un
coeficiente de fiabilidad alto. La fiabilidad es una característica positiva siem-
pre que interese detectar diferencias que suponemos que existen. Esto suce-
de cuando medimos rasgos de personalidad, actitudes, etc., medir es, de al-
guna manera, establecer diferencias.
5. Una observación importante: la interpretación de estos coeficientes,
como característica positiva o deseable, puede ser distinta cuando se trata de
comprobar resultados escolares en los que no hay diferencias o no se preten-
de que existan, por ejemplo en un examen de objetivos mínimos, o si se tra-
ta de verificar si todos los alumnos han conseguido determinados objetivos. A
la valoración de la fiabilidad en exámenes y pruebas escolares le dedicamos
más adelante un comentario específico (apartado 11).
La valoración de una fiabilidad alta como característica positiva o de cali-
dad de un test es más clara en los tests de personalidad, inteligencia, etc., o
en las escalas de actitudes: en estos casos pretendemos diferenciar a los su-
jetos, captar las diferencias que de hecho se dan en cualquier rasgo; digamos
que en estos casos las diferencias son esperadas y legítimas. Además en este
tipo de tests también pretendemos medir (en un sentido analógico) un úni-
co rasgo expresado por todos los ítems, mientras que en el caso de un exa-
men de conocimientos puede haber habilidades muy distintas, con poca rela-
ción entre sí, en el mismo examen (aunque tampoco esto es lo más habitual).
Aun con estas observaciones, en un examen largo, tipo test, con muchos o
bastantes alumnos, entre los que esperamos legítimamente que haya diferen-
cias, una fiabilidad baja sí puede ser un indicador de baja calidad del instru-
mento, que no recoge diferencias que probablemente sí existen.
6. Índice de precisión. Hemos visto que el coeficiente de fiabilidad ex-
presa una proporción, la proporción de varianza verdadera o varianza debi-
da a lo que los ítems tienen en común. También sabemos que un coeficiente
de correlación elevado al cuadrado (r2
, índice de determinación) expresa
una proporción (la proporción de varianza compartida por dos variables). Es-
to quiere decir que la raíz cuadrada de una proporción equivale a un coefi-
ciente de correlación (si r2
= proporción, tenemos que = r).
En este caso la raíz cuadrada de un coeficiente de fiabilidad equivale al co-
eficiente de correlación entre las puntuaciones obtenidas (con nuestro ins-
trumento) y las puntuaciones verdaderas (obtenidas con un test ideal que
midiera lo mismo). Este coeficiente se denomina índice de precisión (tam-
bién índice, no coeficiente, de fiabilidad).
índice de precisión ó robservadas.verdaderas
= [9]
Una fiabilidad de .75 indicaría una correlación de .86 con las
puntuaciones verdaderas. Este índice expresa el valor máximo que puede al-
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
206
Estas valoraciones, como otras similares que pueden encontrarse en libros
de texto y en diversos autores, son sólo orientadoras5
. Lo que se quiere poner
canzar el coeficiente de fiabilidad. No es de mucha utilidad, pero se puede
utilizar junto con el coeficiente de fiabilidad.
7. La interpretación del coeficiente de fiabilidad se complementa con el
cálculo y uso del error típico o margen de error; es la oscilación probable
de las puntuaciones si los sujetos hubieran respondido a una serie de tests pa-
ralelos; a mayor fiabilidad (a mayor precisión) bajará la magnitud del error pro-
bable. Tratamos del error típico en otro apartado (9.2); el error típico, como ve-
remos, puede ser de utilidad más práctica que el coeficiente de fiabilidad.
8. CUÁNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO
Esta pregunta no tiene una respuesta nítida; cada coeficiente hay que va-
lorarlo en su situación: tipo de instrumento (define un rasgo muy simple o
muy complejo), de muestra (muy homogénea o más heterogénea) y uso pre-
tendido del instrumento (mera investigación sobre grupos, o toma de deci-
siones sobre sujetos).
En la práctica la valoración depende sobre todo del uso que se vaya a ha-
cer del instrumento (de las puntuaciones con él obtenidas). Como orienta-
ción podemos especificar tres usos posibles de los tests y algunos valores
orientadores (tabla 3).
Tabla 3
LA FIABILIDAD DE LOS TETS Y ESCALAS
207
5
Nunnally (1978) propone un mínimum de .70; para Guilford (1954:388-389) una fiabi-
lidad de sólo .50 es suficiente para investigaciones de carácter básico; Pfeiffer, Heslin y Jones
(1976) y otros indican .85 si se van a tomar decisiones sobre sujetos concretos; en algunos
tests bien conocidos (de Cattell) se citan coeficientes inferiores a .50 (Gómez Fernández,
1981). No hay un valor mínimo sagrado para aceptar un coeficiente de fiabilidad como ade-
cuado; medidas con una fiabilidad relativamente baja pueden ser muy útiles (Schmitt, 1996).
Por otra parte coeficientes muy altos; pueden indicar excesiva redundancia en los ítems
(muy repetitivos) por esta razón hay autores que recomiendan un máximum de .90 (Strei-
ner, 2003). Como referencia adicional podemos indicar que la fiabilidad media en artículos
de buenas revistas de Psicología de la Educación está en torno a .83 (Osborne, 2003).
de manifiesto es que no es lo mismo investigar (comparar medias de grupos,
etc.) que tomar decisiones sobre individuos. Si se van a tomar decisiones so-
bre sujetos concretos (como aprobar, excluir, recomendar tratamiento psi-
quiátrico, etc.) hay que proceder con más cautela, teniendo en cuenta ade-
más que no todas las posibles decisiones son de igual importancia. Cuando
baja la fiabilidad sube el error típico (o margen de error en la puntuación in-
dividual) que con una forma paralela del mismo test o en otra situación, etc.,
podría ser distinta. Los grupos son más estables que los individuos, y el mar-
gen de error que pueda haber es de menor importancia (el error típico de la
media es menor que la desviación típica de la muestra).
Por lo demás si se trata de tomar decisiones sobre individuos concretos se
puede tener en cuenta el error típico y tomar la decisión en función de la
banda de posibles puntuaciones individuales más que en función de la pun-
tuación concreta obtenida de hecho; de esta manera asumimos la menor fia-
bilidad del instrumento. En este sentido importa menos la poca fiabilidad de
un test si en la interpretación de los resultados individuales tenemos en cuan-
ta el error típico (del que tratamos en 9.2). Por otra parte tampoco se suelen
tomar decisiones importantes en función del resultado de un único test.
En el caso de informar sobre grupos se pueden especificar los intervalos
de confianza de la media (margen de error o de oscilación de la media, que se
verá en el lugar apropiado).
Los valores del coeficiente de fiabilidad oscilan entre 0 y 1, pero ocasional-
mente podemos encontrar valores negativos, simplemente porque no se
cumplen en un grado apreciable las condiciones de estos modelos (Black,
1999:286); en este caso (valor negativo) podemos interpretar este coeficiente
como cero6
.
9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD
Vamos a fijarnos en tres ventajas o usos frecuentes de estos coeficientes:
1º Nos confirman en principio que todos los ítems miden lo mismo, y de
hecho estos coeficientes se utilizan como un control de calidad, aun-
que esta interpretación es discutible y habrá que entenderla y relativi-
zarla. Más bien habría que decir que un coeficiente alto de fiabilidad
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
208
6
Valores negativos del coeficiente de fiabilidad pueden encontrarse cuando hay subs-
tanciales correlaciones negativas entre los ítems; esto puede suceder cuando está mal la
clave de corrección y hay ítems con una formulación positiva y negativa que tienen la mis-
ma clave; también puede suceder que los ítems realmente miden constructos distintos y
no hay suficiente varianza compartida; en estos casos la fiabilidad puede considerarse
igual a cero (Streiner, 2003).
apoya (pero no prueba) la hipótesis de que todos los ítems miden bá-
sicamente el mismo rasgo o atributo.
2º Los coeficientes de fiabilidad permiten calcular el error típico de las
puntuaciones individuales; este error típico puede incluso ser de un
interés mayor que el coeficiente de fiabilidad porque tiene aplicaciones
prácticas como veremos en su lugar.
3º Los coeficientes de fiabilidad obtenidos nos permiten estimar los coe-
ficientes de correlación que hubiéramos obtenido entre dos variables
si su fiabilidad fuera perfecta (y que se denominan coeficientes de co-
rrelación corregidos por atenuación).
9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretación uni-
dimensional del rasgo medido
Como vamos exponiendo, la consistencia interna que manifiesta el coe-
ficiente de fiabilidad apoya (pero no prueba) la interpretación de que todos
los ítems miden lo mismo (es lo que entendemos por unidimensionalidad;
que el instrumento mide un único rasgo bien definido); esto es lo que en
principio se pretende cuando se construye un test o escala.
Ésta es la interpretación y valoración más común de estos coeficientes.
Simplificando, lo que decimos es esto: si unos sujetos tienden a estar de
acuerdo con todos los ítems y otros responden en la zona del desacuerdo a
los mismos ítems, esta coherencia de las respuestas nos dice que todos los
ítems miden el mismo rasgo. Esta interpretación, que es válida en principio,
hay que relativizarla, porque en la fiabilidad influyen variables ajenas a la re-
dacción de los ítems, que por otra parte pueden ser buenos (con criterios
conceptuales) pero no para cualquier muestra o para cualquier finalidad.
El interpretar una fiabilidad alta como indicador claro de que todos los
ítems miden lo mismo no se puede aceptar ingenuamente; el coeficiente de
fiabilidad no es una medida de unidimensionalidad. Esto es importante
porque precisamente se aduce este coeficiente como prueba de que los ítems
miden lo mismo, de que todos los ítems expresan bien un mismo rasgo, y es-
to no está siempre tan claro.
Por otra parte (como ya se ha indicado en el nº 7) una de las interpretacio-
nes standard de estos coeficientes (en la misma línea de apoyo a la unidi-
mensionalidad del test) es que expresan la correlación que obtendríamos
con un test paralelo. Podemos concebir un test (o escala de actitudes, etc.)
como compuesto por una muestra aleatoria de ítems tomada de un univer-
so o población de ítems que miden lo mismo: la fiabilidad indicaría la correla-
ción de nuestro test con otro de idéntico número de ítems tomados del mis-
mo universo. En primer lugar no hay un valor óptimo del coeficiente de
fiabilidad y por otra parte esta interpretación (derivada del modelo de Cron-
LA FIABILIDAD DE LOS TETS Y ESCALAS
209
bach) supone al menos una condición que no suele darse en la práctica: que
todas las correlaciones ítem-total son de la misma magnitud. En la práctica es
preferible hablar de una estimación de esa correlación, que será más exacta
si somos muy restrictivos en la selección de los ítems.
Hay que matizar la interpretación de estos coeficientes porque no depen-
den exclusivamente de la redacción de los ítems, también dependen de la
complejidad o simplicidad de la definición del rasgo que queremos medir, y
además (y frecuentemente sobre todo) influyen en la fiabilidad característi-
cas de la muestra. Hablando con propiedad, la fiabilidad ya sabemos que no
es una característica del instrumento de medición sino de las puntuaciones
con él obtenidas en una situación dada y con una muestra determinada.
En estas observaciones nos fijamos sobre todo en los coeficientes de fia-
bilidad más bien altos, porque no indican necesariamente que el instrumen-
to es bueno, también prestaremos atención a los coeficientes bajos, que pue-
den tener su explicación e incluso ser compatibles con un buen instrumento.
Vamos a explicar por qué un coeficiente alto no expresa necesariamente
que los ítems son suficientemente homogéneos como para concluir que to-
dos miden lo mismo, que hay suficiente homogeneidad conceptual como
para sumarlos en una única puntuación que refleja lo un sujeto tiene del ras-
go que estamos midiendo y que consideramos expresado por la formulación
de los ítems.
Nos fijaremos en tres puntos:
1º) Esta consistencia interna que cuantifican los coeficientes de fiabili-
dad expresa una relación de hecho, estadística, empírica, entre los
ítems, pero la relación empírica no supone necesariamente que hay
coherencia conceptual (que todos expresan bien el mismo rasgo).
2º) Una fiabilidad alta puede deberse a un número grande de ítems que
en ocasiones no se prestan a una interpretación clara como descripto-
res de un único rasgo, bien definido.
3º) Una fiabilidad alta puede deberse también a una concepción del ras-
go muy limitada, expresada a través de ítems de contenido casi idén-
tico, muy repetitivos.
Todo esto hay que tenerlo en cuenta para valorar estos coeficientes y no
dar necesariamente por bueno un instrumento porque hemos obtenido una
fiabilidad alta7
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
210
7
Sobre los usos y abusos del coeficiente a puede verse Schmitt (1996).
9.1.1. Una fiabilidad alta no es prueba inequívoca de que todos
los ítems miden lo mismo: necesidad de controles concep-
tuales
Puede suceder que los ítems estén relacionados de hecho pero que expre-
sen cosas distintas (o suficientemente distintas) y que por lo tanto sea cues-
tionable el sumarlos como si realmente midieran lo mismo; al menos esa
puntuación total puede no ser de interpretación clara. Ya lo hemos comenta-
do a propósito de dos supuestos ítems de una escala de actitud hacia la mú-
sica (apartado nº 4) y que es oportuno repetir aquí:
1. En mi tiempo libre me gusta escuchar música
2. En mi casa tenemos un piano
Estos dos ítems son un ejemplo pretendidamente exagerado (porque ob-
viamente no describen el mismo rasgo), pero es claro para ilustrar que rela-
ción empírica (la que expresan estos coeficientes de fiabilidad) no es lo mis-
mo que relación conceptual (que de entrada todos los ítems midan un mismo
rasgo interpretable). Si a los que más les gusta la música tienen además un
piano en casa, obtendremos una correlación alta entre estos dos ítems pero
sería discutible considerar los dos ítems homogéneos como si midieran lo
mismo, a pesar de un coeficiente de fiabilidad alto. El tener un piano en ca-
sa mide o expresa nivel económico aunque el tener un piano en casa coinci-
da de hecho (no necesariamente pero tendría su lógica) con una actitud más
favorable hacia la música. Hace falta un control cualitativo y no meramente
estadístico de la homogeneidad de los ítems.
Además de la fiabilidad que podemos calcular tenemos que considerar la
homogeneidad conceptual de los ítems. Aunque esta homogeneidad con-
ceptual la suponemos (al menos es lo que se intenta), un índice alto de ho-
mogeneidad empírica (consistencia interna), calculada (correlaciones) no
es garantía de homogeneidad conceptual. Cuando decimos que todos los
ítems miden lo mismo, que son homogéneos, porque la fiabilidad es alta, lo
que realmente queremos decir es que las respuestas están de hecho relacio-
nadas pero no que los ítems (las preguntas) estén bien redactadas en torno
a un mismo constructo o rasgo claramente definido. Hace falta también una
evaluación cualitativa y conceptual de los ítems para poder afirmar que to-
dos los ítems miden lo mismo, expresan el mismo rasgo tal como lo hemos
concebido.
Por otra parte varios subconjuntos de ítems muy relacionados entre sí pe-
ro marginalmente relacionados con otros subconjuntos de ítems pueden dar
un coeficiente de fiabilidad alto en todo el instrumento y sin embargo un aná-
lisis conceptual de estos subconjuntos (más otros análisis estadísticos, como
LA FIABILIDAD DE LOS TETS Y ESCALAS
211
el análisis factorial) nos pueden llevar a la conclusión de que los subconjun-
tos de ítems miden rasgos suficientemente distintos como para que sea cues-
tionable sumarlos en un total único. Consistencia interna (tal como la cuan-
tifican estos coeficientes) y unidimensionalidad son conceptos distintos,
por eso decimos que un coeficiente alto de fiabilidad es un apoyo pero no
una prueba de que el conjunto de ítems que componen el instrumento mi-
de un único rasgo bien conceptualizado.
9.1.2. Fiabilidad y número de ítems
El coeficiente de fiabilidad aumenta al aumentar el número de ítems;
¿quiere esto decir que los tests más largos son más homogéneos, que sus
ítems miden con más claridad el mismo rasgo? Obviamente no; los ítems no
están más relacionados entre sí por el mero hecho de ser más en número; el
mismo Cronbach (1951) lo expresaba así: un galón de leche no es más homo-
géneo que un vaso de leche; un test no es más homogéneo por el mero he-
cho de ser más largo.
El que al aumentar el número de ítems aumente la fiabilidad se debe, al
menos en parte, a un mero mecanismo estadístico: cuando aumenta el núme-
ro de ítems (con tal de que estén mínimamente relacionados entre sí) la su-
ma de las covarianzas entre los ítems (numerador de la fórmula [4]) aumen-
ta proporcionalmente más que la varianza de los totales (denominador de la
fórmula [4]). Una fiabilidad alta se puede obtener con muchos ítems con re-
laciones bajas entre sí, e incluso con algunas negativas; y puede suceder tam-
bién que (como ya hemos indicado) dos (o más) bloques de ítems con claras
correlaciones entre los ítems dentro de cada bloque, pero con poca o nula re-
lación con los ítems del otro bloque den para todo el test un coeficiente alto
de fiabilidad. En este caso la homogeneidad del conjunto, y la interpretación
de las puntuaciones como si expresaran un único rasgo bien definido puede
ser cuestionable.
Por lo tanto:
a) No se debe buscar una fiabilidad alta aumentando sin más el número de
ítems, sin pensar bien si son realmente válidos para expresar sin confu-
sión el rasgo que deseamos medir. Una fiabilidad alta no es un indicador
cuasi automático de la calidad de un test, sobre todo si es muy largo;
hace falta siempre una evaluación conceptual de los ítems (además de
verificar empíricamente su correlación con el total del instrumento).
b) Con frecuencia con un conjunto menor de ítems se puede conseguir
una fiabilidad semejante o no mucho más baja que si utilizamos todos
los ítems seleccionados en primer lugar, y varios subconjuntos de ítems
pueden tener coeficientes de fiabilidad muy parecidos.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
212
c) La fiabilidad también sube al aumentar el número de respuestas de los
ítems (esto es más claro si pasamos de dos a tres o más respuestas);
con un número menor de ítems pero con más respuestas se puede
conseguir una fiabilidad semejante a la que conseguiríamos con más
ítems y menos respuestas.
No hay que olvidar nunca que la validez es más importante que la fiabili-
dad; lo que más importa en primer lugar es que los ítems reflejen bien el ras-
go que se desea medir.
9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido
Un coeficiente alto puede estar indicando que los ítems tienen homoge-
neidad conceptual, pero porque son excesivamente repetitivos, porque esta-
mos midiendo un constructo o rasgo definido de manera muy limitada. Con
pocos ítems muy repetitivos obtenemos con facilidad una fiabilidad alta.
Una definición muy simple de un rasgo no es necesariamente una mala
característica cuando se trata hacer un instrumento de medición (puede ser
incluso preferible según lo que se pretenda medir) pero hay que tener en
cuenta esta simplicidad de la concepción del rasgo en la interpretación, y más
teniendo en cuenta que los nombres con que designamos a instrumentos y
rasgos suelen ser muy genéricos (autoestima, motivación, asertividad) y la
interpretación no debe hacerse en función del nombre del instrumento sino
del contenido de los ítems que lo componen. Los nombres breves son cómo-
dos, pero con frecuencia requieren alguna explicación adicional.
Un ejemplo claro y frecuente de un rasgo que a veces se mide de manera
muy simple y otras de manera más compleja es la autoestima. Se puede pre-
parar un instrumento de autoestima general, que incluirá múltiples aspectos
(académico, social, familiar, etc.), o se puede construir un instrumento para
medir la autoestima en un sentido muy restringido, como sería la autoestima
académica.
También se pueden construir instrumentos pluridimensionales: se mide
un rasgo complejo con todos los ítems del instrumento, y con una definición
más bien genérica pero que tiene sentido (autoestima, asertividad, etc.) pero
que a su vez se puede descomponer en subescalas más específicas; la fiabili-
dad puede calcularse tanto en todo el instrumento como en las subescalas
que miden aspectos más simples.
9.2. El error típico de la medida
Una utilidad importante de los coeficientes de fiabilidad puede estar no
en la magnitud misma de estos coeficientes, sino en los cálculos posteriores
LA FIABILIDAD DE LOS TETS Y ESCALAS
213
que podemos hacer a partir de los mismos. Uno de estos cálculos es el del
error típico de la medida.
El error típico de la medida es de especial utilidad cuando se van a hacer
interpretaciones individuales, sobre todo si se derivan consecuencias im-
portantes para los sujetos (aprobar, ser seleccionado para un puesto de tra-
bajo, etc.), y con más razón si se juzga que la fiabilidad del instrumento dis-
ta de ser óptima. Ya hemos indicado en otro lugar que una fiabilidad alta es
importante cuando los resultados (de un test) van a influir en la toma de de-
cisiones sobre los sujetos (y el aprobar o suspender a un sujeto es una de-
cisión importante).
9.2.1. Concepto y fórmula del error típico
El error típico de la medida viene a ser la desviación típica de las pun-
tuaciones individuales, e indica el margen de error o variación probable de
las puntuaciones individuales. En términos informales podemos decir que el
error típico nos indica el margen de oscilación probable de las puntuaciones
de una ocasión a otra o entre pruebas hipotéticamente iguales o semejantes.
Nos puede servir para relativizar los resultados individuales, y de alguna ma-
nera neutralizar la baja fiabilidad de instrumento indicando y teniendo en
cuenta los márgenes de error.
Vamos a pensar en un ejemplo sencillo, un examen tipo test. Cada alumno
tiene un resultado, su número de respuestas correctas.
Si cada alumno hubiera respondido a un número indefinido de exámenes,
no hubiera obtenido en todos exactamente el mismo resultado; sus posibles
resultados se hubieran distribuido según la distribución normal (figura 3).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
214
Figura 3
Esta distribución hubiera tenido su media y su desviación típica o error tí-
pico de la medición. Podemos suponer que la puntuación de hecho obteni-
da es la media de la distribución (aunque esto no es así exactamente, como
veremos después al tratar de las puntuaciones verdaderas).
El error típico de la medición se calcula a partir del coeficiente de fiabili-
dad, y en muchos casos el mejor uso del coeficiente de fiabilidad es utilizarlo
para calcular el error típico, (por ejemplo en exámenes o en cualquier test)
cuando interese situar a cada uno en su banda de posibles probables resulta-
dos. Esta banda de posibles resultados será más estrecha (con un error típico
menor) cuando la fiabilidad sea alta, y será más amplia cuando baje la fiabili-
dad. Una baja fiabilidad de un instrumento puede quedar neutralizada si utili-
zamos el error típico en la interpretación de las puntuaciones individuales.
La fórmula del error típico podemos derivarla con facilidad de las fórmulas
[2] y [3].
De la fórmula [2] podemos despejar la varianza verdadera: s2
v = s2
t - s2
e
s2
t – s2
e s2
e
y substituyendo esta expresión de s2
v en [3]: r11 = ———— = 1- ——
s2
t s2
t
s2
e
de donde —— = 1- r11 y despejando se tenemos que
s2
t
error típico [10]
Esta es la fórmula de la desviación típica de los errores de medición, deno-
minada error típico de la medida o de las puntuaciones individuales. Se cal-
cula a partir de la desviación típica (de los totales del test) y del coeficiente de
fiabilidad calculados en la muestra. Si un sujeto hubiera respondido a una se-
rie de tests paralelos semejantes, el error típico sería la desviación típica obte-
nida en esa serie de tests. Se interpreta como cualquier desviación típica e in-
dica la variabilidad probable de las puntuaciones obtenidas, observadas.
El error típico es directamente proporcional al número de ítems y en el ca-
so de los tests con respuestas 1 ó 0 (como en las pruebas objetivas) un cálcu-
lo rápido (y aproximado) es el dado en la fórmula [11]8
:
error típico [11]
LA FIABILIDAD DE LOS TETS Y ESCALAS
215
8
Puede verse explicado en Gardner (1970) y en Burton (2004). Hay varias fórmulas
que permiten cálculos aproximados del error típico, del coeficiente de fiabilidad y de otros
estadísticos que pueden ser útiles en un momento dado (por ejemplo, y entre otros, Sau-
pe, 1961; McMorris, 1972).
Aquí hay que hacer una observación importante. Este error típico se apli-
ca en principio a todos los sujetos por igual; hay un error típico que indica la
oscilación probable de cada puntuación. Esto no es así exactamente. Pense-
mos en un examen: el alumno que sabe todo, en exámenes semejantes segui-
ría sabiendo todo, y el alumno que no sabe nada, en exámenes semejantes
seguiría sin saber nada: la oscilación probable en los extremos es menor que
en el centro de la distribución. Ésta es una limitación de esta medida del
error probable individual. Aun así es la medida más utilizada aunque hay
otras9
. Si la distribución es normal (o aproximadamente normal) y las pun-
tuaciones máximas y mínimas obtenidas no son las máximas o mínimas posi-
bles (la amplitud real no es igual a la amplitud máxima posible), éste error tí-
pico de la medida es más o menos uniforme a lo largo de toda la escala de
puntuaciones.
Aquí nos limitamos a exponer el error típico habitual, el que se utiliza nor-
malmente y que tiene aplicaciones muy específicas, pero en situaciones apli-
cadas (como en exámenes) sí conviene caer en la cuenta de que la posible va-
riabilidad individual tiende a ser menor en los extremos de la distribución.
9.2.2. Las puntuaciones verdaderas
Un punto importante para el cálculo e interpretación del error típico es
que el centro de la distribución de los posibles resultados no es para cada su-
jeto la puntuación que ha obtenido. Si un sujeto obtiene una puntuación de
120 y el error típico es de se = 4.47, no podemos concluir que hay un 68% de
probabilidades (aproximadamente, es la proporción de casos que suelen dar-
se entre ± 1s) de que su verdadera puntuación está entre 120 ± 4.47. El cen-
tro de la distribución no es en este caso la puntuación obtenida, sino la deno-
minada puntuación verdadera (Xv) que se puede estimar mediante la
fórmula [12]:
Estimación de la puntuación verdadera: X̄v = [(X-X̄) (r11)] + X̄ [12]
En el caso anterior si X̄ = 100 y r11 = .80, la estimación de la puntuación
verdadera de un sujeto que tuviera una puntuación de X = 120, sería [(120 -
100)(.80)] + 100 = 116. Si la fiabilidad es igual a 1, la puntuación obtenida es
también la que aquí denominamos verdadera.
Siguiendo con el mismo ejemplo, de un sujeto con X =120 y una puntua-
ción verdadera de 116, podemos decir que sus posibles resultados en ese test
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
216
9
En Mehrens y Lehmann (1973, pág. 106) puede verse cómo calcular el error típico
de cada sujeto; es una fórmula poco utilizada porque resulta laborioso calcularla para ca-
da sujeto y a efectos prácticos son suficientes las expuestas en el texto.
(con un 5% de probabilidades de equivocarnos) están entre 116 ± (1.96 erro-
res típicos); en este caso entre 116 ± (1.96)(4.47) o entre 107 y 125.
Estas puntuaciones verdaderas tienden a ser menores que las obtenidas
cuando estas son superiores a la media, y mayores cuando son inferiores a la
media. No debemos entender esta puntuación verdadera (aunque éste sea el
término utilizado) como expresión de una verdad absoluta, que nos dice
exactamente lo que vale o sabe una persona en aquello en la que la hemos
medido. Hay que entender más bien esta puntuación verdadera como la
puntuación más probable que un sujeto hubiera obtenido si le hubiéramos
medido repetidas veces en el mismo rasgo y con el mismo instrumento.
Las puntuaciones verdaderas y las puntuaciones observadas tienen una
correlación perfecta (el orden de los sujetos es el mismo con las dos puntua-
ciones) por lo que el cálculo de estas puntuaciones verdaderas no tiene
siempre una especial utilidad práctica; sí puede tenerla cuando se desea pre-
cisamente utilizar el error típico para precisar con mayor rigor y exactitud en-
tre qué límites o banda de resultados probables se encuentra la verdadera
puntuación, como tratamos en el apartado siguiente.
9.2.3. Los intervalos de confianza de las puntuaciones individuales
Como el error típico se interpreta como una desviación típica, si el error
típico es de 4.47, hay un 68% de probabilidades de que la verdadera puntua-
ción estaría entre 116 ± 4.47 (la puntuación verdadera más-menos un error
típico; es la proporción de casos que caen en la distribución normal entre la
media más una desviación típica y la media menos una desviación típica, co-
mo se representa en la figura 1).
Podemos establecer intervalos de confianza con mayor seguridad, y así
podríamos decir, con un 95% de probabilidades de acertar (z = 1.96) que la
puntuación verdadera se encuentra entre 116 ± 1.96se y en nuestro ejemplo
entre 116 ± (1.96)(4.47) o entre 116 ± 8.76 (es decir, entre 107 y 125).
El error típico nos sirve para relativizar las puntuaciones obtenidas, y más
que pensar en una puntuación concreta, la obtenida por cada sujeto, pode-
mos pensar en una banda de posibles puntuaciones.
La puntuación verdadera exacta de cada sujeto (la que hubiera obtenido
respondiendo a todos los ítems del universo e ítems o a muchas pruebas pa-
ralelas) no la sabemos, pero sí podemos estimar entre qué límites se encuen-
tra, y esto puede ser de utilidad práctica en muchas ocasiones. Cuando en un
examen hay una puntuación mínima para el apto, sumando a los que están
en el límite un error típico, o margen de oscilación probable, algunos quizás
superen holgadamente ese límite; al menos hay un criterio razonablemente
objetivo, justificable y común para todos.
LA FIABILIDAD DE LOS TETS Y ESCALAS
217
9.3. Coeficientes de correlación corregidos por atenuación
En buena medida la utilidad de los coeficientes de fiabilidad está en los
cálculos adicionales que podemos hacer. Posiblemente el más importante, y
de utilidad práctica, es el del error típico de la medida que ya hemos visto.
Otra utilidad de estos coeficientes es que nos permiten calcular el valor de
un coeficiente de correlación entre dos variables corregido por atenuación.
La correlación calculada entre dos variables queda siempre disminuida,
atenuada, por culpa de los errores de medición, es decir, por su no perfec-
ta fiabilidad. La verdadera relación es la que tendríamos si nuestros instru-
mentos midieran sin error. Esta correlación corregida por atenuación es la
que hubiéramos obtenido si hubiésemos podido suprimir los errores de me-
dición en las dos variables (o al menos en una de las dos; no siempre conoce-
mos la fiabilidad de las dos variables).
Conociendo la fiabilidad de las dos variables podemos estimar la verdade-
ra relación mediante la fórmula [13]:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
218
En esta fórmula rxy es el coeficiente de correlación obtenido entre dos va-
riables, X e Y, y rxx y ryy son los coeficientes de fiabilidad de cada variable; si co-
nocemos solamente la fiabilidad de una de las dos variables, en el denomina-
dor tendremos solamente la raíz cuadrada de la fiabilidad conocida.
Por ejemplo si entre dos tests o escalas tenemos una correlación de .30 y
los coeficientes de fiabilidad de los dos tests son .50 y .70, la correlación esti-
mada corregida por atenuación sería:
Vemos que la correlación sube apreciablemente; y expresa la relación en-
tre las dos variables independientemente de los errores de medición de los
instrumentos utilizados.
Sobre estas estimaciones de la correlación entre dos variables (entre las
verdaderas puntuaciones de X e Y, sin errores de medición) ya se han hecho
una serie de observaciones al tratar sobre los coeficientes de correlación (en
el apartado 4.1. del capítulo sobre correlación y covarianza; ése es el contex-
to apropiado); conviene tener en cuenta esas observaciones (que no repeti-
mos aquí) sobre 1º en qué condiciones se debe utilizar esta fórmula de correc-
ción por atenuación, 2º en qué situaciones es más útil y 3º otras fórmulas dis-
tintas de corrección por atenuación. Conviene repasar estas observaciones
antes de aplicar estas fórmulas10
.
10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO
Un coeficiente de fiabilidad bajo no indica necesariamente que el instru-
mento es malo y que no es posible utilizarlo. También puede suceder que ha-
ya una razonable homogeneidad conceptual en la formulación de los ítems,
y esto se procura siempre, y que esta homogeneidad no se refleje en un coe-
ficiente alto de fiabilidad. En cualquier caso con un coeficiente de fiabilidad
bajo y si se van a tomar decisiones sobre los sujetos (una decisión puede ser
dar un informe) sí conviene incorporar el error típico a la interpretación.
Ahora nos interesa examinar de dónde puede venir un bajo coeficiente de
fiabilidad.
10.1. Inadecuada formulación de los ítems
Puede ser que los sujetos entiendan los ítems de una manera distinta a
como lo pretende el autor del instrumento. Un a veces me gustaría mar-
charme de casa podría significar para algunos me gusta viajar, etc. y en este
caso las respuestas no serían coherentes con el significado pretendido por el
constructor del instrumento (me siento mal en casa). La coherencia concep-
tual prevista la comprobamos con la coherencia que de hecho encontramos
en las respuestas. En el análisis de ítems, al construir un instrumento, pode-
mos comprobar si los sujetos que responden, parecen entender la formula-
ción con el significado previsto; en caso contrario tendremos que eliminarlos
o reformularlos.
10.2. Homogeneidad de la muestra
Podemos encontrarnos con una homogeneidad conceptual clara en los
ítems y una fiabilidad muy baja. Una causa de la baja fiabilidad puede estar en
que apenas hay diferencias entre los sujetos (todos o casi todos responden
de manera parecida). Si no hay diferencias tampoco habrá relación clara y
verificada entre las respuestas porque sin diferencias entre los sujetos los co-
LA FIABILIDAD DE LOS TETS Y ESCALAS
219
10
Una buena exposición de los efectos de la baja fiabilidad en los coeficientes de corre-
lación y de la corrección por atenuación puede verse en Osborne (2003).
eficientes de correlación entre los ítems son muy bajos. Por eso la fiabilidad
es mayor con muestras heterogéneas, en las que hay mayores diferencias en
las respuestas. Con una muestra más variada (o simplemente mayor, donde
es más probable que haya sujetos muy diferentes) podemos encontrar una
fiabilidad alta. De todas maneras con una fiabilidad baja que no se deba a la
mala calidad del instrumento sino a la homogeneidad de la muestra, seguire-
mos clasificando mal (diferenciando, midiendo mal) a los sujetos de esa
muestra.
10.3. Definición compleja del rasgo medido
Por supuesto una fiabilidad baja, sobre todo si la obtenemos con una mues-
tra razonablemente heterogénea, puede significar una concepción del rasgo
excesivamente compleja o una construcción deficiente del instrumento. Aun
así podemos encontrar coeficientes bajos en tests reconocidos como buenos
porque miden rasgos definidos con un grado grande de complejidad11
.
Rasgos definidos de manera compleja o muy genérica pueden tener
ítems poco relacionados entre sí y consecuentemente tendremos una fiabili-
dad baja aunque esté presente la unidad conceptual pretendida por el autor.
Una consecuencia de definir los rasgos que medimos de manera muy com-
pleja es que en estos casos es que se puede llegar a una misma puntuación to-
tal por caminos distintos, y esto hay que asumirlo en la interpretación. En
cualquier caso la fiabilidad debería estar dentro de unos mínimos aceptables
para poder afirmar que estamos midiendo, diferenciando a los sujetos según
posean más o menos del rasgo que supuestamente medimos12
.
Cuando la fiabilidad es baja, observando la redacción de los ítems y cómo
se relacionan entre sí, podemos llegar a la conclusión que es preferible una
concepción más simple del rasgo, sin mezclar ideas relacionadas pero no lo
suficiente, o dividir el instrumento en dos (o más) instrumentos y medir as-
pectos distintos por separado con instrumentos distintos.
10.4. Utilidad del error típico cuando la fiabilidad es baja
Una valoración racional del coeficiente de fiabilidad tendrá en cuenta tan-
to la homogeneidad de la muestra como la complejidad del instrumento, y en
cualquier caso con coeficientes bajos siempre es conveniente utilizar el error tí-
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
220
11
Para Cattell (1964), que prefiere medir en sus tests rasgos complejos, la consistencia in-
terna no tiene por que ser la máxima posible, sino la máxima compatible con la complejidad
deseada en la misma concepción del constructo (optimum low, en expresión de Cattel).
12
Un tratamiento más extenso de la fiabilidad y de la unidimensionalidad de los
tests puede verse en Morales (2006, cap. 9 y 10).
pico en la interpretación de los resultados individuales. Cuando se trata de to-
mar decisiones sobre sujetos, o de dar un informe de cierta importancia (por
ejemplo en un psicodiagnóstico) y la fiabilidad del instrumento es baja, es cuan-
do puede ser de especial utilidad (e incluso de responsabilidad ética) no limi-
tarse a informar con una puntuación o resultado muy preciso, sino con una
banda de puntuaciones probables; esta banda o límites probables de la pun-
tuación será mayor cuando el error típico sea mayor (y la fiabilidad más baja).
11. LA FIABILIDAD EN EXÁMENES Y PRUEBAS ESCOLARES
En primer lugar recordemos que es relativamente frecuente calcular la fia-
bilidad de las pruebas tipo test (estos cálculos, y otros, suelen estar programa-
dos), pero también se puede calcular la fiabilidad de un examen compuesto
por unas pocas preguntas de respuesta abierta, con tal de que en todas las
preguntas se utilice la misma clave de corrección. Las fórmulas adecuadas las
veremos después; en las pruebas cuyos ítems puntúan 1 ó 0 (lo habitual con
pruebas objetivas) se utiliza alguna de las fórmulas de Kuder-Richardson, y
cuando las puntuaciones son continuas (por ejemplo de 0 a 4 o algo similar)
se utiliza el coeficiente a de Cronbach.
Cuando se trata de exámenes escolares el coeficiente de fiabilidad puede
presentar problemas específicos de interpretación. No hay que olvidar que la
psicometría clásica trata de las diferencias individuales en medidas psicológi-
cas que parten al menos de dos supuestos:
a) Todos los componentes (ítems) del test miden el mismo rasgo.
b) Los sujetos son distintos en el rasgo que queremos medir.
Estos dos supuestos no son aplicables siempre y automáticamente a los di-
versos tipos de exámenes y pruebas escolares. En estas pruebas los coeficien-
tes de fiabilidad pueden dar información útil, pero hay que tener cuidado en
la interpretación.
Es importante pensar en la fiabilidad de los exámenes porque se interpre-
ta y utiliza habitualmente como un control de calidad, y se estima que siem-
pre es bueno que un test de conocimientos (como un examen tipo test) ten-
ga una fiabilidad alta. En el caso de los exámenes esto puede ser discutible
(aunque no en todas las situaciones) y conviene hacer algunas matizaciones.
11.1. Fiabilidad y validez
En primer lugar la característica más importante de una prueba escolar
(como de cualquier instrumento de medición) no es la fiabilidad psicométri-
LA FIABILIDAD DE LOS TETS Y ESCALAS
221
ca, sino la validez: una prueba de evaluación o cualquier examen es bueno si
comprueba los objetivos deseados (y comunicados previamente), si condicio-
na en el alumno un estudio inteligente. Con una prueba objetiva se puede
conseguir fácilmente una fiabilidad muy alta, pero se pueden estar compro-
bando meros conocimientos de memoria cuando quizás el objetivo pretendi-
do era (o debería ser) de comprensión, análisis, etc. La validez es por lo tan-
to la primera consideración para evaluar la evaluación: en principio un
instrumento es válido si mide lo que decimos que mide.
11.2. Fiabilidad y diferencias entre los sujetos
Por lo que respecta a la fiabilidad, hay que tener en cuenta que en última
instancia la fiabilidad expresa la capacidad diferenciadora de un test, y esto
es en principio deseable cuando se trata precisamente de diferenciar. Si un test
de inteligencia no diferencia adecuadamente a los más y a los menos inteli-
gentes (y lo mismo diríamos de cualquier otra capacidad o rasgo psicológico)
sencillamente no nos sirve. En definitiva en estos casos medir es diferenciar.
Por eso en todo tipo de tests psicológicos, escalas de actitudes, etc., una fiabi-
lidad alta es una característica deseable. Entendiendo bien que la fiabilidad no
es una característica de un test (aunque ésta sea la expresión habitual) sino de
un conjunto de puntuaciones que quedan mejor o peor diferenciadas.
Si pensamos en los tests escolares de conocimientos, podemos preguntar-
nos si las diferencias son deseables, si es verdad que un test que distingue,
matiza y establece diferencias nítidas entre los alumnos implica que tenemos
un buen test y, sobre todo, unos buenos resultados.
Una fiabilidad baja en un examen puede provenir de cualquiera de estas
dos circunstancias: sujetos muy igualados o preguntas muy distintas (el saber
unas no implica saber otras).
a) La clase está muy igualada, apenas hay diferencias pronunciadas o
sistemáticas entre los alumnos. No se puede clasificar bien a los in-
clasificables. Que esto sea bueno o malo deberá juzgarlo el profesor.
En un test sencillo de objetivos mínimos un buen resultado es que to-
dos sepan todo, y en este caso la fiabilidad psicométrica, sería igual a
cero. Lo mismo puede suceder con un test más difícil, sobre todo en
grupos pequeños, en los que todos los alumnos tienen un rendimien-
to alto.
b) Las preguntas son muy distintas y el saber unas cosas no implica saber
otras, no hay homogeneidad en los ítems ni se pretende. Esta situación
no suele ser la más frecuente en los tests escolares más convenciona-
les, pero si no hay homogeneidad en las preguntas de un test (porque
se preguntan cosas muy distintas o de manera muy distinta) y el saber
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
222
unas cosas no implica saber otras, entonces lógicamente bajará la fia-
bilidad de todo el test (debido a la poca relación entre unas y otras pre-
guntas o ejercicios).
En un examen final más o menos largo, donde hay de todo, fácil y difícil,
en una clase relativamente numerosa, en la que hay alumnos más y menos
aventajados, una fiabilidad alta en una prueba objetiva nos indicará que de-
tectamos bien diferencias que de hecho existen y que además son legítimas o
al menos esperables. Cuando todos saben todo en un examen de esas carac-
terísticas, esto puede significar que estamos igualando a la clase por su nivel
más bajo y que el profesor no da juego a los más capaces.
11.3. Fiabilidad y calificación
También hay que pensar que una fiabilidad alta indica en principio diferen-
cias consistentes entre los alumnos, pero no indica necesariamente que los
de puntuación más baja no lleguen al nivel del apto. Si todos los alumnos es-
tán en la parte alta de la distribución pero bien diferenciados, la fiabilidad se-
rá alta; en este caso los que saben menos pueden saber lo suficiente; y tam-
bién puede suceder lo contrario, que los que saben más que los demás no
sepan lo suficiente.
Lo que sí parece claro es que una fiabilidad alta es deseable en todo instru-
mento de medida cuya función y utilidad está precisamente en que nos per-
mite conocer si un sujeto tiene mucho o poco del rasgo que estamos midien-
do y además nos interesa diferenciar a unos sujetos de otros, o al menos es
razonable esperar diferencias claras entre los sujetos (como ya se ha indicado
en 11.2).
Lo que sí puede ser siempre de utilidad en cualquier tipo de examen es
calcular y utilizar el error típico de la medida o de las puntuaciones obteni-
das (para lo cual necesitamos el coeficiente de fiabilidad)13
, porque nos indi-
ca la banda probable de resultados en la que se encuentra cada alumno, y es-
ta banda, aunque sea más imprecisa, refleja mejor que un número exacto de
respuestas correctas por dónde se encuentra cada uno. En lenguaje coloquial
podríamos decir que el error típico expresa el margen de mala o buena
suerte del alumno ante unas preguntas concretas, y puede ayudar a relativizar
una mera suma de respuestas correctas. Si establecemos previamente una
puntuación de corte para situar el aprobado, el sumar, por ejemplo, un error
LA FIABILIDAD DE LOS TETS Y ESCALAS
223
13
I am convinced that the standard error of measurement… is the most important
single piece of information to report regarding an instrument, and not a coefficient
(Cronbach y Shavelson, 2004).Ya hemos indicado que un cálculo aproximado y rápido del
error típico de la media es .43冑k donde k es el número de ítems (Burton, 2004).
típico a los alumnos que están en el límite del apto puede ser una buena
práctica (como ya se ha indicado en el apartado 9.2.3)14
.
12. FÓRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA
Las fórmulas del coeficiente de fiabilidad son muchas, aquí exponemos las
más utilizadas. Podemos dividirlas en dos grupos:
1) Fórmulas que se basan en la partición del test en dos mitades
2) Fórmulas en las que se utiliza información de todos los ítems, como las
de Kuder-Richardson y Cronbach.
En cada uno de los apartados se incluyen otras fórmulas relacionadas o de-
rivadas. También exponemos otras formulas de interés, como las fórmulas
que relacionan la fiabilidad con el número de ítems.
Aunque vamos a repasar una serie de fórmulas, conviene adelantar (y po-
dría ser suficiente) que las fórmulas preferibles, y que deben utilizarse habi-
tualmente, son las de Kuder-Richardson [18] (para ítems dicotómicos) y el a
de Cronbach [20] (para ítems continuos); realmente se trata de la misma for-
mula (varían los símbolos) y es la que suele venir programada en los progra-
mas informáticos. Como cálculo aproximado y rápido de la fiabilidad la fór-
mula más cómoda es la formula [19] que veremos después, pero sólo si los
ítems son dicotómicos (puntúan 1 ó 0).
12.1. Fórmulas basadas en la partición del test en dos mitades
12.1.1. Cómo dividir un test en dos mitades
1. Como cualquier test puede dividirse en muchas dos mitades, puede ha-
ber muchos coeficientes de distintos de fiabilidad. El resultado es sólo una es-
timación que puede infravalorar o supervalorar la fiabilidad. Es habitual la
práctica de dividir el test en ítems pares e impares, pero puede dividirse en
dos mitades cualesquiera. Cada mitad debe tener el mismo número de ítems
o muy parecido.
2. Si al dividir el test en dos mitades emparejemos los ítems según sus con-
tenidos (matching), de manera que cada mitad del test conste de ítems muy
parecidos, obtendremos una estimación más alta y preferible de la fiabilidad.
14
Si en un examen tipo test sumamos a los que están justo debajo del límite propues-
to para el aprobado dos erres típicos nos ponemos prácticamente en el límite máximo pro-
bable al que hubiera llegado ese alumno.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
224
3. Cuando la mitad (o casi la mitad) de los ítems son positivos y la otra mi-
tad son negativos (favorables o desfavorables al rasgo medido, con distinta
clave de corrección), es útil que las dos mitades estén compuestas una por
los ítems positivos y otra por los negativos. En este caso la correlación entre
los dos tipos de ítems es muy informativa en sí misma, aunque no se calcule
después la fiabilidad por este procedimiento. Una correlación entre los dos
subtests en torno a .50 o mayor indica suficiente coherencia entre los dos ti-
pos de ítems, y que no se manifiesta de modo apreciable la aquiescencia o
tendencia a mostrar acuerdo (o responder sí) a ítems que expresan ideas con-
tradictorias.
12.1.2. Fórmulas
De estas fórmulas la primera y más clásica es la de Spearman-Brown; am-
bos autores derivaron las mismas fórmulas de manera independiente en 1910
(la fórmula básica de estos autores es la [21], de la que se derivan la [14], la
[22] y la [23]). La fórmula que se conoce habitualmente como procedimien-
to de las dos mitades (vamos a ver que además hay otras fórmulas) y no sue-
le faltar en ningún texto cuando se trata de la fiabilidad, es la fórmula [14].
2r12
r11 = ——— [14]
1 + r12
Fórmula de Spearman-Brown
r12 = correlación entre las dos mitades
del test. El test se divide en dos
mitades y se calcula la correlación
entre ambas como si se tratara de
dos tests.
1. La correlación entre las dos mitades es la fiabilidad de una de las dos
(pruebas paralelas); con esta fórmula [14] se calcula la fiabilidad de todo el
test. Observando la fórmula [14] puede verse que si r12 = 1, también tendre-
mos que r11 = 1.
2. La fórmula [14] supone que las dos mitades tienen medias y varianzas
idénticas; estos presupuestos no suelen cumplirse nunca, y de hecho con es-
ta fórmula se sobrestima la fiabilidad; por lo que está desaconsejada (a pesar
de su uso habitual); la fórmula de las dos mitades preferible es la conocida co-
mo dos mitades alpha (r2a) [15]15
:
15
Esta fórmula la aconsejan buenos autores (incluido el mismo Cronbach). La impor-
tancia del cálculo de la fiabilidad por el procedimiento de las dos mitades es sobre todo
histórica; el método de las pruebas paralelas (dos pruebas en vez de dos mitades) y el
de consistencia interna (en el que cada ítem funciona como una prueba paralela) parten
de la intuición original de las dos mitades de Spearman y Brown. Una crítica y valoración
de estas fórmulas puede verse en Charter (2001).
LA FIABILIDAD DE LOS TETS Y ESCALAS
225
12.2. Fórmulas de Kuder-Richardson y s
s de Cronbach
Se trata de las fórmulas de consistencia interna que hemos justificado an-
teriormente con mayor amplitud; son las más utilizadas17
.
a) Son métodos en principio preferibles porque con los métodos de las
dos mitades cabe dividir un test en muchas dos mitades con que las
que podemos obtener distintos valores del coeficiente de fiabilidad. El
resultado que nos dan las fórmulas de Kuder-Richardson y Cronbach
16
Esta fórmula también se conoce como fórmula de Rulon que es el primero que la
expuso (en 1939) aunque Rulon se la atribuye a Flanagan (Traub, 1994).
17
Este coeficiente de fiabilidad (Kuder-Richardson o Cronbach) se calcula en el SPSS
en la opción analizar, en escalas.
En esta fórmula entran también, además de la correlación de las dos mita-
des, las desviaciones típicas de cada mitad.
3. Otras fórmulas basadas en la partición de un test en dos mitades, y que
suelen encontrarse en algunos textos, son la [16] y la [17], que no requieren
el cálculo de la correlación entre las dos mitades; de todas maneras en estos
casos (partición del test en dos mitades) es siempre preferible la fórmula
[15].
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
226
Fórmula de Flanagan16
s2
1 y s2
2 son las varianzas de las dos
mitades,
s2
t es la varianza de todo el test
s2
d = Es la varianza de la diferen-
cia entre las dos mitades.
Cada sujeto tiene dos pun-
tuaciones, una en cada mi-
tad: a cada sujeto se le res-
tan ambas puntuaciones y
se calcula la varianza de es-
tas diferencias.
equivale a la fiabilidad media que obtendríamos dividiendo un test en
todas sus posibles dos mitades; obtenemos un único coeficiente que es
una estimación más segura.
b) En los modelos teóricos de donde parten estas fórmulas se supone que
tanto las varianzas como las intercorrelaciones de los ítems son iguales;
esto no suele suceder por lo que estas fórmulas tienden a dar una esti-
mación de la fiabilidad algo baja.
c) Las fórmulas de Kuder-Richardson son válidas para ítems dicotómicos
(0 ó 1), y el coeficiente s de Cronbach para ítems con repuestas conti-
nuas (más de dos repuestas).
fórmula Kuder-Richardson 20
(para ítems dicotómicos)
Como ya sabemos, p es la proporción de unos (aciertos, síes, la respuesta
que se codifique con un 1) y q es la proporción de ceros (número de unos o
de ceros dividido por el número de sujetos).
Con ítems dicotómicos ésta es la fórmula [18] que en principio debe utili-
zarse. Si se tienen calculadas las varianzas o desviaciones típicas de cada ítem,
no es muy laboriosa.
Si el cálculo resulta laborioso y no se tiene ya programada la fórmula com-
pleta de la fiabilidad, hay otras alternativas más sencillas; la más utilizada es la
fórmula Kuder-Richardson 21.
k = número de ítems
Spq = suma de las varianzas de
los ítems
s2
t = varianza de los totales
fórmula Kuder-Richardson 21
k es el número de ítems;
X
–
y s2
t son la media y varianza de
los totales
1. Esta fórmula [19] se deriva de la anterior [18] si suponemos que todos
los ítems tienen idéntica media. En este caso tendríamos que:
Haciendo las sustituciones oportunas en [18] llegamos a la fórmula [19].
LA FIABILIDAD DE LOS TETS Y ESCALAS
227
2. Esta fórmula [19] es sencilla y cómoda, porque solamente requiere el
cálculo de la media y varianza de los totales, además del número de ítems, y es-
tos son datos que suelen estar siempre disponibles. La suposición de que to-
dos los ítems tienen idéntica media no suele cumplirse, por lo que esta fórmu-
la sólo da una estimación de la fiabilidad. Se utiliza frecuentemente para
calcular la fiabilidad de las pruebas objetivas (exámenes, evaluaciones) hechas
por el profesor y por lo menos indica por dónde va la fiabilidad; puede ser su-
ficiente para calcular el error típico y relativizar los resultados individuales.
Existen otras aproximaciones de la fórmula Kuder-Richardson 20, pero es
ésta la más utilizada.
Con ítems continuos, con más de una respuesta como los de las escalas
de actitudes, la fórmula apropiada es la del coeficiente a de Cronbach que es
una generalización de la Kuder-Richardson 20; es la fórmula [8] que ya vimos
antes:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
228
a de Cronbach para ítems continuos
k = número de ítems
Ss2
i = es la suma de las varian-
zas de los ítems
s2
t = es la varianza de los tota-
les
rkk = fiabilidad de un test com-
puesto por k ítems
r
-
ij = correlación media entre
los ítems
12.3. Fórmulas que ponen en relación la fiabilidad y el número de
ítems
1. La fórmula [14] se deriva de esta otra, denominada fórmula profética
de Spearman-Brown y que es la fórmula original de estos autores:
En la fórmula [14] hemos supuesto que k =2 y r
-
ij = r12. De la fórmula an-
terior [21] se derivan otras dos especialmente útiles, y que se pueden utilizar
aunque la fiabilidad no se calcule por el método de Spearman-Brown.
Si en la fórmula [22] hacemos n = 2, tendremos la fórmula [14]; r12 es la
fiabilidad de una de las dos mitades, lo que nos dice la fórmula [14] es la fia-
bilidad del test entero (formado por las dos mitades)18
.
12.3.2. En cuánto debemos aumentar el número de ítems para
alcanzar una determinada fiabilidad
Posiblemente es más útil la fórmula siguiente [23]. Si tenemos una fiabili-
dad conocida (r11) y queremos llegar a otra más alta (esperada, rnn), ¿En cuán-
tos ítems tendríamos que alargar el test? En este caso nos preguntamos por el
valor de n, el factor por el que tenemos que multiplicar el número de ítems
que ya tenemos.
12.3.1. Cuánto aumenta la fiabilidad al aumentar el número de
ítems
Disponemos de una fórmula que nos dice (siempre de manera aproxima-
da) en cuánto aumentará la fiabilidad si aumentamos el número de ítems
multiplicando el número de ítems inicial, que ya tenemos, por un factor n. Es
en realidad una aplicación de la misma fórmula.
rnn = nuevo coeficiente de fiabilidad esti-
mado si multiplicamos el número de
ítems que tenemos por el factor n
r11 = coeficiente de fiabilidad conocido
n = factor por el que multiplicamos el
número de ítems
multiplicando por 2 el número inicial de
ítems llegaríamos a una fiabilidad en torno a
.80
Por ejemplo: tenemos una escala de actitudes de 10 ítems y una fiabilidad
de .65. La fiabilidad nos parece baja y nos preguntamos cuál será el coeficien-
te de fiabilidad si multiplicamos el número de ítems (10) por 2 (n = 2) y lle-
gamos así a 20 ítems (del mismo estilo que ya los que ya tenemos). Aplicando
la fórmula anterior [22] tendríamos:
LA FIABILIDAD DE LOS TETS Y ESCALAS
229
18
A partir de una fiabilidad obtenida con un número determinado de ítems puede ver-
se en Morales, Urosa y Blanco (2003) una tabla con la fiabilidad que obtendríamos multi-
plicando el número inicial de ítems por un factor n.
Naturalmente los nuevos ítems deben ser parecidos a los que ya tenemos.
Si el número de ítems que necesitamos para alcanzar una fiabilidad aceptable
es obviamente excesivo, posiblemente los contenidos del núcleo inicial de
ítems no representan bien un rasgo definido con claridad (al menos para la
población representada por esa muestra) y es preferible intentar otra cosa.
12.4. Estimación de la fiabilidad en una nueva muestra cuya varian-
za conocemos a partir de la varianza y fiabilidad calculadas en
otra muestra
La fiabilidad hay que calcularla en cada muestra. Al obtener los datos con
un test en una nueva muestra no se puede aducir la fiabilidad obtenida en
otras muestras como prueba o garantía de que en la nueva muestra la fiabili-
dad será semejante19
. En definitiva la fiabilidad indica en qué grado el test di-
ferencia a unos sujetos de otros y esto depende de la heterogeneidad de la
muestra; por lo tanto se puede ordenar bien a los sujetos de una muestra y
no tan bien a los de otra muestra distinta en la que los sujetos estén más igua-
lados. En nuevas muestras con una varianza menor, lo normal es que la fiabi-
lidad baje.
Lo que sí se puede hacer es estimar la fiabilidad en una nueva muestra co-
nociendo su desviación típica a partir de la fiabilidad obtenida en otra mues-
tra de la que también conocemos la desviación típica (Guilford y Fruchter,
1973:420), bien entendido que se trata solamente de una estimación.
Si, por ejemplo, con 8 ítems hemos conseguido una fiabilidad de .57 y de-
seamos llegar a una fiabilidad aproximada de rnn = .75, ¿Por qué coeficiente n
deberemos multiplicar nuestro número inicial de ítems?
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
230
19
El obtener la fiabilidad en cada nueva muestra es una de las recomendaciones de la
American Psychological Association (5ª edición, 2001).
n = factor por el que debemos multiplicar
el número de ítems para conseguir
una determinada fiabilidad
rnn = fiabilidad deseada
r11 = fiabilidad obtenida con el número ori-
ginal de ítems
Por ejemplo, si en una escala de actitudes hemos obtenido en una mues-
tra una desviación típica de 6.86 y una fiabilidad de s = .78 ¿qué fiabilidad po-
demos esperar en otra muestra cuya desviación típica vemos que es 7.28?
6.682
(1 – .78)
Aplicando la fórmula [24]: fiabilidad esperada = 1 – —————— = .8147
7.282
De hecho la fiabilidad calculada en la nueva muestra (ejemplo real) es de
8.15, aunque no siempre obtenemos unas estimaciones tan ajustadas.
13. RESUMEN: CONCEPTO BÁSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA
En el cuadro puesto a continuación tenemos un resumen significativo de
lo que significa la fiabilidad en cuanto consistencia interna, cómo se interpre-
ta y en qué condiciones tiende a ser mayor.
LA FIABILIDAD DE LOS TETS Y ESCALAS
231
rnn = fiabilidad estimada en la nue-
va muestra
so y roo = desviación típica y fiabilidad ya
calculadas (observadas) en una
muestra
sn = desviación típica en la nueva
muestra (en la que deseamos
estimar la fiabilidad)
1. Cuando ponemos un test o una escala aun grupo de sujetos nos encontramos
con diferencias inter-individuales. Estas diferencias o diversidad en sus puntua-
ciones totales las cuantificamos mediante la desviación típica (s) o la varianza
(s2
).
2. Esta varianza (diferencias) se debe a las respuestas de los sujetos que pueden
ser de dos tipos (fijándonos en los casos extremos; hay grados intermedios):
coherentes (relacionadas) o incoherentes, por ejemplo:
respuestas respuestas
coherentes incoherentes
En mi casa me siento mal de acuerdo en desacuerdo
A veces me gustaría marcharme de casa de acuerdo de acuerdo
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
232
3. La incoherencia aquí quiere decir que la respuesta no está en la dirección de
las otras, tal como lo pretende el autor del instrumento (y esto por cualquier
razón: pregunta ambigua, el que responde lo entiende de otra manera, etc.).
Las respuestas coherentes son las respuestas relacionadas.
Diversidad (o varianza) total =
diversidad debida a respuestas coherentes + diversidad debida a respuestas incoherentes
o en términos más propios, varianza total =
varianza verdadera + varianza debida a errores de medición
5. La fiabilidad la definimos como la proporción de varianza verdadera:
varianza verdadera
fiabilidad = ——————————
varianza total
En términos más simples:
varianza debida a respuestas coherentes (o relacionadas)
fiabilidad = ———————————————————————————
varianza debida a respuestas coherentes y no coherentes
Decimos respuestas distintas porque suponemos que los sujetos son distintos,
unos tienen más y otros menos del rasgo que medimos y decimos repuestas
coherentes porque esperamos que cada sujeto responda de manera coheren-
te (de manera parecida si todos los ítems expresan lo mismo).
6. El coeficiente de fiabilidad es un indicador de relación global entre las res-
puestas; expresa cuánto hay de relación en las respuestas. Esta relación es re-
lación verificada, empírica, no es necesariamente conceptual, aunque la in-
terpretación que se hace es conceptual (los ítems miden lo mismo)
Un coeficiente de, por ejemplo, .80 quiere decir que el 80% de la varianza se
debe a respuestas coherentes, a lo que los ítems tienen en común o de relacio-
nado; el 80% de la varianza total (de la diversidad que aparece en las puntua-
ciones totales) se debe a lo que los ítems tienen de relacionado.
7. La fiabilidad aumentará si aumenta el numerador, es decir 1º si hay diferencias
en las respuestas y 2º si además las respuestas son coherentes (respuestas co-
herentes: las que de hecho están relacionadas).
8. Cómo se interpreta un coeficiente de fiabilidad alto:
a) El test o escala clasifica, ordena bien a los sujetos en aquello que es co-
mún a todos los ítems;
b) Con un instrumento parecido encontraríamos resultados parecidos, o si
los sujetos respondieran muchas veces al mismo test o a tests semejantes,
quedarían ordenados de manera similar (el coeficiente de fiabilidad es una
estimación de la correlación esperable con un test paralelo).
14. COMENTARIOS BIBLIOGRÁFICOS
1. La derivación de las fórmulas más conocidas del coeficiente de fiabili-
dad y otras relacionadas (como el error típico, etc.) pueden verse en
Magnusson (1976). Entre las muchas obras que tratan de estos temas
son especialmente recomendables las de Guilford (1954), Guilford y
Fruchter, (1973), Nunnally (1978), Nunnally y Bernstein (1994), Thorn-
dike (1982), Traub (1994). También disponemos de buenos artículos
(Traub y Roley, 1991; Moss, 1994; Cronbach y Shavelson, 2004, del se-
gundo autor utilizando notas de Cronbach fallecido en 1997, que resu-
men la historia de estos coeficientes).
2. La fórmula Kuder-Richardson 20 (y con más razón Kuder-Richardson
21, las dos más utilizadas con ítems dicotómicos) supone que todos los
ítems tienen idéntica dificultad (media) e idéntica varianza; si esto no
es así la fiabilidad resultante es una estimación más bien baja. Existen
otros métodos que tienen en cuenta la diferente dificultad de los ítems,
pero son más complicados; puede verse por ejemplo, en Horst (1953)
y en Guilford y Fruchter (1973).
3. Ya hemos indicado que existen una serie de fórmulas de cálculo muy
sencillo que simplifican las de Kuder-Richardson y otras como la del
error típico. En general estas fórmulas no son recomendables dada la
facilidad de cálculo que proporcionan calculadoras y programas infor-
máticos y además se trata solamente de estimaciones ya que suponen
c) Los ítems miden lo mismo (por eso se llaman coeficientes de consistencia
interna); generan respuestas coherentes y a la vez distintas de sujeto a su-
jeto. (Que los ítems miden lo mismo hay que interpretarlo con cautela;
siempre es necesario un análisis conceptual y cualitativo).
9. La fiabilidad tiende a ser mayor:
a) cuando los ítems expresan lo mismo; la definición del rasgo se expresa
bien en todos los ítems;
b) cuando es mayor el número de ítems, (con tal de que sean más o menos
semejantes),
c) cuando los ítems tienen un mayor número de respuestas (aunque no
necesariamente),
d) cuando los sujetos son más diferentes en aquello que se mide (muestra he-
terogénea; no se puede clasificar bien a los muy semejantes);
e) en muestras grandes (porque hay más probabilidad de que haya sujetos
más distintos).
LA FIABILIDAD DE LOS TETS Y ESCALAS
233
unas condiciones que no se suelen darse. Aun así pueden tener su uti-
lidad para cálculos rápidos y aproximativos. Pueden encontrarse estas
fórmulas en Saupe (1961) y en McMorris (1972), y para el error típico
también en Burton (2004).
4. En las pruebas de rendimiento escolar no es siempre fácil dividir un
test o prueba en dos mitades equivalentes para calcular la fiabilidad por
el procedimiento de las dos mitades. También se puede calcular a par-
tir de dos mitades de tamaño desigual o incluso a partir de tres partes
(con muestras grandes en este caso). Se trata de procedimientos me-
nos conocidos pero que pueden ser de utilidad en un momento dado;
pueden encontrarse en Kristof (1974) y en Feldt (1975).
5. En los tests o pruebas objetivas de criterio (en los que hay una pun-
tuación de corte para distinguir al apto del no apto y consecuente-
mente la distribución deja de ser normal) la fiabilidad se estima de
otras maneras (pueden verse diversos índices en Mehrens y Lehmann,
1984, y en Berk, 1978); un índice apropiado y sencillo es el coeficiente
de Livingston (puede verse en Mehrens y Lehmann, 1984; Black,
1999:291; en Black, 1999:292, tenemos también el índice de discrimi-
nación apropiado en los tests de criterio).
6. El coeficiente de fiabilidad también se puede calcular mediante el aná-
lisis de varianza para muestras relacionadas, con los mismos resul-
tados que la fórmula del coeficiente a; puede verse en Hoyt (1941,
1952) y un ejemplo resuelto en Kerlinger (1975: 314-317) y en Fan y
Thompson (2001). La relación entre fiabilidad y análisis de varianza
también está explicada en Nunnally y Bernstein (1994: 274ss) y en Ro-
senthal y Rosnow (1991). Posiblemente como mejor se entiende la fia-
bilidad es desde el análisis de varianza.
7. Cómo calcular los intervalos de confianza de los coeficientes de fiabi-
lidad puede verse en Fan y Thompson (2001); Duhachek y Iacobucci
(2004) presentan tablas con el error típico de a para diversos valores
del número de sujetos y de ítems y de la correlación media inter-ítem.
El aportar estos intervalos de confianza es una de las recomendaciones
(guidelines) de la American Psychological Association (Wilkinson and
Task Force on Statistical Inference APA Board of Scientific Affairs, 1999).
8. Para verificar si dos coeficientes de fiabilidad (a) difieren significativa-
mente puede verse Feldt y Kim (2006).
9. Fiabilidad inter-jueces. Un caso específico es el cálculo de la fiabili-
dad (o grado de acuerdo) entre diferentes evaluadores, cuando una
serie de jueces evalúan una serie de sujetos, situaciones, etc. Puede uti-
lizarse el análisis de varianza para muestras relacionadas que res-
ponde a esta pregunta: las diferencias observadas (la varianza total):
¿Se deben a que los jueces son distintos en su forma de evaluar, o a que
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
234
los sujetos evaluados son distintos entre sí? De este análisis se deriva
un coeficiente que expresa lo mismo que el coeficiente ?, pero la inter-
pretación se hace sobre la homogeneidad de los jueces (o, con más
propiedad, sobre el grado de acuerdo entre los jueces que aquí son los
ítems). Este coeficiente da un valor muy parecido a la correlación me-
dia entre jueces (Rosenthal y Rosnow, 1991)20
.
Hay también otras medidas de acuerdo entre jueces; pueden verse,
entre otros, en Holley y Lienert (1974) y Shrout y Fleiss (1979). El coe-
ficiente kappa (k) (Cohen, 1960) para medir el acuerdo entre dos jue-
ces (datos dicotómicos, unos y ceros; k = .60 se interpreta ya como un
grado de consensus importante) es muy popular (puede encontrarse
en numerosos textos, por ejemplo Fink, 1998; y sobre su interpreta-
ción Stemler, 2004). En Stemler (2004) pueden verse bien expuestos y
valorados los diferentes enfoques para medir la fiabilidad de los jueces
(interrater reliability), también es muy informativo Uebersax (Statis-
tical Methods for Rater Agreement, last updated: 19 Feb 2008).
LA FIABILIDAD DE LOS TETS Y ESCALAS
235
20
La fiabilidad de los jueces calculada a partir del análisis de varianza para muestras
relacionadas (disponible en EXCEL) es sencillo y de fácil comprensión por su relación
con el coeficiente a de Cronbach; fórmula y explicación en Morales (2007a).
CAPÍTULO 7
ESTADÍSTICA INFERENCIAL:
EL ERROR TÍPICO DE LA MEDIA
1. INTRODUCCIÓN: ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL:
ESTADÍSTICOS Y PARÁMETROS, POBLACIONES Y MUESTRAS
Recordamos algunos conceptos básicos:
Una población es un conjunto de elementos (sujetos, objetos) cuyos lími-
tes los define el investigador; por ejemplo los alumnos de una universidad,
o los de una sola facultad o los de todo el país…
Una muestra es un número concreto de elementos extraídos de una po-
blación.
Una muestra aleatoria es aquella en la que todos los sujetos (u objetos)
han tenido la misma probabilidad de ser escogidos; las muestras aleatorias
son las que mejor representan las características de la población1
.
La estadística descriptiva tiene por objeto describir las muestras: por
ejemplo, la media aritmética (una medida de tendencia central) y la desvia-
ción típica (una medida de dispersión) son estadísticos o medidas propias de
la estadística descriptiva: nos describen cómo es una muestra.
La estadística inferencial nos permite hacer inferencias, sacar conclusio-
nes con respecto a una población: a partir de los datos descriptivos de una
237
1
Los diversos tipos de muestreo, aleatorio otros, y cómo llevarlos a cabo, pueden ver-
se en muchos textos (como Hernández Sampieri, Fernández Collado y Baptista Lucio,
2000; Salkind, 1998) y en monografías específicas (como Rodríguez Osuna, 1993). Una bre-
ve exposición de los tipos de muestras puede verse en Internet, en STATPAC INC (2003) (en
Sampling Methods).
muestra, deducimos los datos o medidas de la población, que en este caso se
denominan parámetros.
Normalmente el investigador trabaja con muestras, grupos concretos a los
cuales tiene acceso o que ha buscado y que puede medir en alguna caracterís-
tica. Las poblaciones son en general inasequibles; se trabaja con pequeñas
muestras y se generalizan las conclusiones a las poblaciones a las que perte-
necen las muestras. Lo que vamos a ver ahora tiene que ver sobre todo (no
exclusivamente) con la generalización a la población de los datos que encon-
tramos en muestras concretas.
2. LAS DISTRIBUCIONES MUESTRALES Y EL ERROR TÍPICO
Dos conceptos previos importantes son los de distribución muestral y
error típico. En definitiva nos vamos a encontrar con una aplicación de lo que
ya sabemos de la distribución normal y de las puntuaciones típicas: en la
distribución normal conocemos las probabilidades de obtener una puntua-
ción superior o inferior a cualquier puntuación típica. Ahora se trata básica-
mente de una aplicación de esta relación. Básicamente ya lo hemos visto al
tratar de la significación estadística de los coeficientes de correlación.
Qué es una distribución muestral lo podemos ver con facilidad con un ca-
so concreto:
1º Imaginemos una población de sujetos; por ejemplo los alumnos de
una universidad. Los límites de la población (qué sujetos, u objetos, pertene-
cen a una población) lo determina el que investiga. De la misma manera que
ponemos como ejemplo de población a los alumnos de una universidad, po-
dríamos decidir que la población que vamos a estudiar son los alumnos de
una sola facultad, o los alumnos de todas las universidades del país.
2º De esta población podemos extraer una muestra aleatoria de, por
ejemplo, 30 sujetos.
Muestra aleatoria quiere decir que todos los sujetos de la población han
tenido en principio la misma oportunidad de ser elegidos. Las muestras ale-
atorias son en principio las que mejor representan las características de la po-
blación. Hay varios métodos para elegir muestras aleatorias pero no los trata-
mos aquí.
3º De esta muestra podemos calcular la media. Seguimos extrayendo
muestras aleatorias y calculando sus medias.
4º Al disponer de un número grande de medias tendríamos una distribu-
ción de estas medias; esa distribución es una distribución muestral: no se
trata de una distribución de puntuaciones individuales sino de medias de
muestras.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
238
Un punto importante es que aunque las muestras no tengan una distribu-
ción normal, las medias de estas muestras sí tienden a seguir la distribución
normal.
5º La desviación típica de estas distribuciones muestrales se denomina
error típico y se puede estimar a partir de los datos de una muestra. Por lo
tanto un error típico es la desviación típica de una distribución muestral, y
se interpreta como cualquier desviación típica.
Dos distribuciones muestrales, con sus errores típicos, nos van a interesar
de manera especial:
1) la distribución muestral de las medias;
2) la distribución muestral de las diferencias entre medias de la misma
población.
Estas distribuciones muestrales son modelos teóricos que a partir de los
datos de una muestra nos van a permitir inferir conclusiones acerca de la po-
blación a la que pertenece la muestra. Conociendo el error típico de estas dis-
tribuciones podemos estimar entre qué limites se encuentra la media de la
población o si dos muestras proceden de poblaciones distintas con media dis-
tinta. Ahora nos centramos en el error típico de la media.
Conviene caer en la cuenta desde el principio de la utilidad del error típi-
co de la media. Es fácil obtener la media de una muestra en cualquier varia-
ble de interés, pero con frecuencia lo que nos interesa no es la media como
dato descriptivo de una muestra, sino conocer o tener una idea de por dón-
de anda la media en la población representada por esta muestra. La media de
la población no la vamos a conocer, pero sí podremos estimar entre qué va-
lores se encuentra.
La media de una muestra podemos interpretarla como una estimación
(solamente una estimación sujeta a error) de la media de la población. Esta
estimación será más precisa:
1º Si la muestra es aleatoria porque en ese caso representa mejor las ca-
racterísticas de la población,
2º Si la muestra es grande (si la muestra comprendiera a toda la población
tendríamos el dato exacto, no una estimación).
El error típico, como es la desviación típica de todas las posibles muestras
de esa población, nos va a permitir localizar entre qué límites se encuentra la
media de la población.
Este planteamiento es semejante al que nos encontramos en los sondeos
de opinión, como son las encuestas pre-electorales. Si el 48% de los sujetos
entrevistados dice que va a votar a un determinado candidato, esto no quie-
re decir que el 48% exacto de la población le vaya a votar. Sin embargo los da-
tos obtenidos de una muestra nos van a permitir estimar un tanto por ciento
ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA
239
mínimo probable y un tanto por ciento máximo probable de votantes a ese
candidato: entre esos dos tantos por ciento se va a encontrar el tanto por
ciento definitivo cuando todos hayan votado. De los datos de una muestra ex-
trapolamos a la población, por eso se trata de estadística inferencial.
De manera análoga podemos pensar en distribuciones muestrales de
otros estadísticos como proporciones, medianas, coeficientes de correlación,
etc., y también en distribuciones muestrales de las diferencias entre propor-
ciones, medianas, coeficientes de correlación, etc., con aplicaciones semejan-
tes a las que vamos a ver con respecto a la media que son las de utilidad más
inmediata y frecuente.
3. EL ERROR TÍPICO DE LA MEDIA
Según el teorema del límite central, si de cualquier población se extraen
muestras aleatorias del mismo tamaño N, al aumentar el número de mues-
tras sus medias se distribuyen normalmente, con media m y una desviación tí-
pica, o error típico
Esta distribución muestral de las medias es independiente de la distribu-
ción de la población: aunque la distribución en la población no sea normal,
las medias de las muestras aleatorias extraídas de esa población sí tienden a
tener una distribución normal.
El error típico de la media (desviación típica de la distribución muestral
de las medias) podemos expresarlo de dos maneras:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
240
En la fórmula [1] la desviación típica
del numerador se supone calculada
dividiendo por N-1 la suma de cua-
drados (o la suma de las puntuacio-
nes diferenciales, X-
–
X, elevadas pre-
viamente al cuadrado).
En la fórmula [2] la desviación típica
se ha calculado dividiendo por N, co-
mo es normal hacerlo cuando se cal-
cula la desviación típica como dato
descriptivo de la muestra. Ambas fór-
mulas son equivalentes y dan el mis-
mo resultado; la única diferencia está
en cuándo se ha restado 1 a N.
En principio suponemos que la desviación típica de la muestra la hemos cal-
culado dividiendo por N, como dato descriptivo de la dispersión en la muestra,
por eso al calcular el error típico de la media utilizaremos la fórmula [2].
La desviación típica del numerador en ambas fórmulas es la calculada en
la muestra, pero debería ser la desviación típica calculada con todos los suje-
tos de la población. Como desconocemos la desviación típica de la pobla-
ción, utilizamos la de la muestra como una estimación de la desviación típi-
ca de la población.
Observando la fórmula del error típico de la media podemos ver que:
1º Es claro que el error típico de la media será menor que la desviación
típica de cualquier muestra: el cociente siempre será menor que el nu-
merador. Esto quiere decir que las medias de las muestras son más es-
tables y tienden a oscilar menos que las puntuaciones individuales; di-
cho de otra manera, las medias de muestras de la misma población se
parecen entre sí más que los sujetos (u objetos) de una muestra entre
sí.
2º Observando las fórmulas vemos también que el error típico de la me-
dia será más pequeño en la medida en que N sea grande: si aumenta-
mos el denominador, disminuirá el cociente.
Es natural que al aumentar el número de sujetos (N) el error sea me-
nor: la media de la muestra se aproximará más a la media de la pobla-
ción. Si N es muy grande, el error tiende a cero; y si N no comprende
a una muestra sino a toda la población, el error sería cero: en este ca-
so la media de la población coincide con la media de la muestra y no
hay error muestral (o variación esperable de muestra a muestra).
3º Por otra parte si la desviación típica de la muestra es grande, el error tí-
pico estimado de la media será también mayor: si aumentamos el nu-
merador, el cociente será mayor.
También esto es lógico: una desviación típica grande en una muestra
quiere decir que las diferencias entre los sujetos son mayores, y conse-
cuentemente las medias de las diferentes muestras también diferirán
más entre sí.
4. UTILIDAD DEL ERROR TÍPICO DE LA MEDIA
Vamos a exponer dos usos del error típico de la media. Aquí el más impor-
tante es el primero, establecer los límites probables (intervalos de confian-
za) entre los que se encuentra la media de la población, un planteamiento tí-
pico y frecuente en estadística inferencial. Veremos también lo mismo
aplicado a una proporción, que es la media cuando se trata de datos dicotó-
micos (1 ó 0).
En segundo lugar el error típico de la media nos permite comprobar si una
muestra con una determinada media puede considerarse como perteneciente
ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA
241
a una población cuya media conocemos o establecemos como hipótesis. La
media también puede ser una proporción (una proporción es la media cuan-
do los datos son unos y ceros). Es conveniente exponerlo aquí brevemente,
pero lo volveremos a encontrar al tratar del contraste de medias, pues allí ve-
remos un procedimiento más sencillo. Son procedimientos equivalentes.
Podemos añadir un tercer uso del error típico de la media, que es determi-
nar el número de sujetos que necesitamos en la muestra para extrapolar los
resultados a la población. Cuando a partir de los datos de una muestra nos in-
teresa extrapolar los resultados a la población (por ejemplo cuántos van a vo-
tar a un partido político en unas elecciones), lo hacemos con un margen de
error (en cuyo cálculo tenemos en cuenta el error típico y nuestro nivel de
confianza): si queremos un margen de error pequeño, necesitaremos más
sujetos… por eso en las fórmulas para determinar el número de sujetos de la
muestra entrará el error típico. Este punto lo veremos de manera más sucin-
ta, porque suele verse con más detalle en otro contexto más práctico, al tratar
de las muestras, tipos de muestras, número de sujetos necesario según distin-
tas finalidades, etc.
4.1. Establecer entre qué limites (intervalos de confianza) se en-
cuentra la media (m) de la población (establecer parámetros
poblacionales)
La media de una muestra (X
–
) es una estimación de la media de la pobla-
ción (m); pero decir que es una estimación quiere decir que está sujeta a
error. La media exacta de la población no la conocemos; pero sí podemos es-
timar entre qué límites extremos se encuentra, y esto a partir de la media de
una muestra y del error típico de la media.
El error típico de la media no es otra cosa que una estimación de la des-
viación típica de las medias (de muestras de la misma población), y se inter-
preta de la misma manera; así por ejemplo según la distribución normal, el
95% de las medias se encontrará entre -1.96s y + 1.96s; aquí s es propiamen-
te sx
-, el error típico de la media.
Si tenemos estos datos de una muestra: N = 30, X
–
= 62.8 y s = 7.9, ten-
dremos que (fórmula [2]):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
242
El error típico de la media (o desviación típica de las medias posibles) es
en este caso igual a 1.47, y según las probabilidades de la distribución normal
podremos afirmar que:
Hay un 68% de probabilidades de que la media de la población se encuen-
tre entre la media de la muestra más menos un error típico:
entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27.
Hay un 95% de probabilidades de que la media de la población se encuen-
tre entre la media de la muestra más menos 1.96 errores típicos:
entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68.
Si deseamos mayor seguridad al establecer los límites probables entre los
que se encuentra la media de la población, podemos tomar como límite 2.57
errores típicos, porque sabemos que entre la media más menos 2.57 desvia-
ciones típicas se encuentra el 99% de los casos. En este caso:
El límite inferior de la media de la población sería [62.8 - (2.57 x 1.47)] = 59.02
El límite superior de la media de la población sería [62.8 + (2.57 x 1.47)] = 66.58
A estos límites, o valores extremos, superior e inferior, de la media en la
población se les denomina intervalos de confianza, porque eso es precisa-
mente lo que expresan: entre qué límites podemos situar la media de la po-
blación con un determinado grado de confianza o de seguridad (o de pro-
babilidades de no equivocarnos). Los intervalos de confianza suelen
denominarse en las encuestas de opinión márgenes de error.
Estos intervalos de confianza podemos establecerlos con diversos nive-
les de seguridad, que vendrán dados por el valor de z que escojamos, por lo
que podemos expresarlos así:
intervalos de confianza de la media =
La cantidad que sumamos y restamos a la media de la muestra podríamos
denominarla margen de error al estimar los límites probables de la media en
la población y que podemos expresar de esta manera:
Como ya hemos indicado estos límites o márgenes de error serán más ajus-
tados cuando el número de sujetos sea mayor. Es útil visualizar el efecto del ta-
maño de la muestra en los intervalos de confianza (tabla 1). Queremos saber,
por ejemplo, entre qué límites se encuentra la media de la población, estimada
ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA
243
a partir de una muestra pequeña (N = 10) y de una muestra grande (N = 500),
y con un niveles de confianza de .05 (que corresponde a z = 1.96). En ambos
casos suponemos en las muestras una media = 8 y una desviación típica = 2.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
244
Tabla 1
Tabla 2
Lo vemos con más claridad con una representación gráfica:
Límites extremos de la media de
la población estimados a partir de
N = 10
Límites extremos de la media de
la población estimados a partir de
N = 500
Con más sujetos los límites son más ajustados, hay más precisión; con 10
sujetos situamos la media de la población entre 6.68 y 9.13 (una diferencia de
2.45 puntos), y con 500 sujetos entre 7.82 y 8.18 (una diferencia entre ambos
límites de sólo .36).
También con un nivel de confianza más estricto (.01, que corresponde a
z = 2.57, en vez de .05) tenemos una menor probabilidad de salir falsos pro-
fetas, más seguridad, pero los límites son más amplios (una mayor seguri-
dad pero menor precisión). Si en el ejemplo anterior utilizamos .01 en vez
de .05 con 500 sujetos veremos la diferencia (tabla 2).
Con una menor probabilidad de error (.01 en vez de .05) los límites extremos
de la media en la población son 7.77 y 8.23, una diferencia de .46 en vez de .36
Tanto X
–
como s son los valores calculados en una muestra. Naturalmente
el valor exacto de la media de la población (m) no lo conocemos: puede estar
en cualquier punto entre los valores extremos indicados. También puede es-
tar fuera de los límites indicados, pero esto va siendo más improbable cuan-
do establecemos unos intervalos de confianza más estrictos.
Es normal operar con un nivel de confianza del 95% (o, lo que es lo mis-
mo, con una probabilidad de error, al situar los límites extremos de la media,
de un 5%); en este caso z en la fórmula [3] será igual a 1.96; como se despren-
de de esta fórmula, a mayor valor de z (mayor seguridad) los límites serán
más extremos.
Cuando calculamos la media de una muestra en una variable de interés ¿Es
útil calcular además entre qué límites se encuentra la media de la población?
Con frecuencia nos bastará conocer la media de una muestra concreta co-
mo dato informativo, pero con frecuencia extrapolamos informalmente de
la muestra a la población. Siempre es útil relativizar este tipo de informa-
ción, y con mayor razón si de hecho (como es frecuente) estamos utilizando
la media de una muestra como estimación de la media de la población2
.
4.2. Establecer los intervalos de confianza de una proporción
El error típico de una proporción es un caso particular del error típico de
la media pero dado el uso frecuente de proporciones y porcentajes es útil ver-
lo por separado y con ejemplos ilustrativos.
Cuando los datos son dicotómicos (1 ó 0) la media p es la proporción de
sujetos que responden sí o que escogen la respuesta codificada con un 1. Si
de 200 sujetos 120 responden sí (ó 1) a una pregunta y 80 responden no (0),
la media p es igual a 120/200 = .60: el 60% de los sujetos (o una media del
60%) han respondido sí.
El error típico de una proporción es el mismo que el error típico de cual-
quier media, solo que en este caso la media es p, la varianza es pq [propor-
ción de unos por proporción de ceros] y la desviación típica es .
La fórmula del error típico de una proporción (sp) será por lo tanto:
2
Una de las recomendaciones de la American Psychological Association es calcular
siempre los intervalos de confianza (Wilkinson, Leland and Task Force on Statistical Infe-
rence APA Board of Scientific Affairs 1999; American Psychological Association, 2001).
ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA
245
Ahora podemos hacernos esta pregunta: en esa muestra de 200 sujetos
han respondido sí 120 sujetos (una media de .60 o el 60%), pero ¿cuántos
responderán sí en la población representada por esa muestra? Ya podemos in-
tuir la importancia de esta pregunta si pensamos en los sondeos pre-electora-
les; lo que interesa realmente no es conocer cuántos sujetos de esa muestra
van a votar a un candidato, sino cuántos le votarán el día de las elecciones.
La proporción de votantes que dirán sí a ese candidato (o la media de vo-
tantes) en la población no la sabemos (habría que preguntar a todos y eso se
hará el día de las elecciones), pero sí podemos estimar entre qué límites má-
ximo y mínimo se encuentra esa proporción con un determinado nivel de
confianza (o seguridad de acertar en la predicción); es decir, podemos esta-
blecer los márgenes de error.
Para responder a esta pregunta calculamos los intervalos de confianza de
la media (p = .60) con un nivel de confianza de .05 (un 5% de probabilidades
de equivocarnos) que equivale a z = 1.96.
La proporción de los que dirán sí a juzgar por los datos de esa muestra es-
tará entre .60 menos 1.96 errores típicos y .60 más 1.96 errores típicos:
Límite mínimo: .60 – (1.96)(.0346) = .60 – .0678 = .5322 (el 53%)
Límite máximo: .60 + (1.96)(.0346) = .60 + .0678 = .6678 (el 67%)
El margen de error en nuestra predicción es .0678 (casi un 7% redonde-
ando). En la muestra encuestada ha respondido sí el 60%, pero en la pobla-
ción representada por esa muestra esperamos que responda sí entre un 53%
y un 67%.
El ejemplo de los sondeos pre-electorales pone de relieve la importancia
de calcular los intervalos de confianza de una proporción (y es lo que se ha-
ce y comunica cuando se publican estas encuestas), pero estos intervalos de
confianza son informativos casi en cualquier situación. Cuando se hacen son-
deos de opinión en grupos diversos (alumnos, padres de alumnos, grupos
En el ejemplo anterior tenemos que N = 200, p =120/200 = .60 y q =.40
(ó 1 - .60) por lo tanto el error típico de la proporción será:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
246
Intervalos de confianza de una proporción =
De manera análoga a lo que hemos visto en los intervalos de confianza de
la media en variables continuas (fórmulas [3] y [4]), los intervalos de confian-
za de una proporción p serán:
En la tabla 3 podemos observar que en las muestras A y B responde afir-
mativamente la misma proporción de sujetos (un 60%), pero al extrapolar los
resultados a las poblaciones representadas por esas muestras el margen de
error es mucho menor en la muestra A porque se trata de más sujetos.
Al hablar de extrapolar a la población los resultados de una muestra (en
este caso y en cualquier otro) hay que hacer una observación importante. Es-
tamos suponiendo que esa muestra es representativa de la población, que no
está sesgada, y esto es lo se intenta conseguir con las muestras aleatorias.
Cuando éste no es el caso (responden los sujetos disponibles, los que quie-
ren, etc.) siempre podemos pensar en la población que pueda estar repre-
sentada por esa muestra y ser cautelosos al generalizar los resultados. En cual-
quier caso siempre es más seguro informar sobre los intervalos de confianza
sin limitarnos a una proporción o porcentaje aparentemente exacto.
4.3. Comparar la media de una muestra con la media de una población
Se trata ahora de verificar si podemos considerar que una muestra, cuya
media conocemos, pertenece a una población cuya media también conoce-
mos. Si tenemos la media de una muestra (X
–
) y la media de una población
(m), podemos preguntarnos ¿Es posible afirmar que nuestra muestra, cuya
profesionales, etc.) prácticamente se tienen muestras (no responde toda la
población) pero los resultados suelen interpretarse como si todos hubieran
respondido; lo realmente informativo es aportar los intervalos de confianza,
o entre qué límites se encuentran con toda probabilidad las respuestas si to-
dos hubieran respondido.
Cuando distintos grupos responden a la misma pregunta (sí o no en este
caso, pero puede tratarse también de respuestas con valores continuos) es
útil especificar el error típico de la proporción en cada muestra y los interva-
los de confianza entre los que se encuentra la proporción de síes (o unos) en
las poblaciones representadas por esas muestras (ejemplo en la tabla 3, con
un nivel de confianza de .05 ó z = 1.96).
Tabla 3
ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA
247
media conocemos, pertenece a (es una muestra aleatoria de) una población
con media m? Si la respuesta es no, podremos afirmar que la muestra pertene-
ce a una población distinta, con una media distinta.
Al hablar de diferencias estadísticamente significativas estamos hablando
de diferencias no aleatorias, no explicadas por el error muestral, no espera-
bles por azar. Esto lo afirmaremos con una determinada probabilidad de
error; es el nivel de significación o nivel de confianza.
Es más frecuente comparar las medias de dos muestras (para comprobar
si proceden de o pertenecen a poblaciones distintas con distinta media), pe-
ro también tiene su interés el comparar la media de una muestra con la media
de una población cuando ésta es conocida por otras investigaciones o estu-
dios, o es la conclusión lógica de una determinada teoría, o simplemente la
media de la población es una hipótesis de trabajo; siempre podemos pensar
en medias hipotéticas.
Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de
problemas y obtiene estos resultados: N = 40, X
–
= 12.6 y s = 4.25. El profe-
sor piensa que un resultado óptimo y posible hubiera sido obtener una media
de 15, y se pregunta ¿puede considerarse esta muestra de 40 alumnos como
una muestra aleatoria de una población cuya media fuera m = 15?
Este tipo de planteamientos puede tener su interés cuando la media de la
población es una hipótesis plausible o hay datos de otros estudios, etc. Vamos
a suponer que el nivel de confianza que nos ponemos es de a = .01 (que co-
rresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; sólo el 1%
de los casos cae más allá de ±2.57).
Podemos solucionar el problema de dos maneras.
1º Nuestra muestra pertenece a una población cuya media en principio
desconocemos. Lo que sí podemos hacer es estimar el límite máximo de la
media de la población a la que pertenece nuestra muestra, tal como hemos
visto antes, y con un riesgo máximo de error del 1%, tal como hemos fijado
previamente.
1. Calculamos el error típico de la media,
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
248
2. ¿Cuáles serán los límites superior e inferior de la media de la población,
con una probabilidad de error del 1%?
El límite superior será X
–
+(2.57)(sx
–) = 12.6 + (2.57)(.68) = 14.35
El límite inferior será X
–
- (2.57)(sx
–) = 12.6 – (2.57)(.68) = 10.85
Podemos considerar que nuestra muestra, con una media de 12.6, per-
tenece a una población cuya media estará entre 10.85 y 14.34, y esto
podemos afirmarlo con una probabilidad de error del 1%.
Salta a la vista que la media de la población de referencia (= 15) es mayor
que el límite superior de la media de la población representada por esa mues-
tra (=14.35).
2º De hecho el procedimiento utilizado habitualmente para comprobar si
la media de una muestra difiere significativamente de la media de una pobla-
ción suele ser otro que nos permite llegar a las mismas conclusiones. Nos bas-
ta calcular una puntuación típica (z), que nos dirá en cuántos errores típicos
se aparta nuestra media de la media de la población. El procedimiento y la
fórmula apropiada están puestos y explicados como un caso más del contras-
te de medias.
4.4. Calcular el tamaño N de la muestra para extrapolar los resultados
a la población
No es éste el lugar apropiado para tratar con cierta extensión sobre el ta-
maño necesario de la muestra, pero sí es útil, tratando del error típico de la
media o de una proporción, ver y entender en este contexto la relación entre
la magnitud de los intervalos de confianza de la media y el número necesario
de sujetos en la muestra para extrapolar los resultados a la población con un
determinado margen de error.
De manera análoga a lo que hemos visto en [4] y en [6] el margen de error
cuando la proporción encontrada en una muestra la extrapolamos a la pobla-
ción es:
3. Nuestra conclusión es clara: nuestra muestra con media de 12.6 no per-
tenece a una población hipotética cuya media fuera 15 porque el límite
máximo de la población de nuestra media es 14.35 y no llega a 15, lue-
go nuestra muestra pertenece a otra población con otra media, cuyo
límite inferior no es 15.
Podemos visualizar el resultado con un sencillo gráfico:
Si en [7] despejamos N (el tamaño de la muestra) tendremos:
ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA
249
En [8] conocemos todos los valores que nos interesan para calcular N
z Este valor corresponde al nivel de confianza y lo establecemos nos-
otros; habitualmente utilizaremos un nivel de confianza del .05 y z =
1.96 (ó z = 2.57 si nuestro nivel de confianza es de .01)
pq Es la varianza de la población, no la varianza de la muestra. Esta va-
rianza no la conocemos, pero como a mayor varianza en la población
hará falta una muestra mayor, nos situamos en la situación en que la
varianza es la máxima posible; en este caso p = q = .50, y pq = .25,
que es un valor constante.
e Es el margen de error que estamos dispuestos a aceptar y también lo
establece el investigador. Si por ejemplo estamos dispuestos a aceptar
un margen de error del 5%, esto quiere decir que si en la muestra en-
cuestada en esta caso responde sí el 35%, en la población esperamos
que responda sí entre el 30% y el 40%. Éste 5% lo expresaremos en
forma de proporción (o tanto por uno): .05
Vemos de nuevo que si queremos un margen de error pequeño (e, el de-
nominador en 8) necesitaremos una muestra mayor.
Podemos ver la aplicación de esta fórmula [8] con un ejemplo. Vamos a
hacer una encuesta para extrapolar los resultados a una población mayor
(muy grande, de tamaño indefinido).
El margen de error que estamos dispuestos a aceptar es del 5% (e = .05),
de manera que si nos responden sí el 50% de la muestra ya sabemos que en la
población el sí estará entre el 45% y el 55%
El nivel de confianza es del .05, que corresponde a z = 1.96
(1.96)(.25)
Necesitaremos una muestra de este tamaño: N = ––––––––– = 384 sujetos
.052
Si el margen de error máximo que nos interesa es del 3% (e = .03), la
muestra necesaria sería de 1067 sujetos.
Hacemos algunas observaciones ya que el exponer y justificar brevemente
estas fórmulas tiene un valor complementario para entender mejor el con-
cepto y utilidad del error típico, pero no tratamos aquí de manera expresa so-
bre el tamaño de la muestra, tipos de muestreos y cómo hacerlos, etc.3
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
250
3
Puede verse más información en la bibliografía mencionada y en otras muchas publi-
caciones; sobre el tamaño de la muestra necesario también con otras finalidades (cons-
truir una escala de actitudes, hacer un análisis factorial, etc.) puede verse Morales (2007b).
a) Estas fórmulas para calcular el tamaño de la muestra son válidas aun
cuando las preguntas no sean dicotómicas (estamos utilizando el error
típico de una proporción, cuya varianza máxima es pq = .25).
b) Son válidas cuando se hace un muestreo aleatorio simple; hay variantes
cuando se utilizan otros tipos de muestreo (como el estratificado).
c) Suponemos que la población a la que se extrapolan los resultados es
grande, de tamaño indefinido y que podemos no conocer con exacti-
tud. Con poblaciones menores y cuyo tamaño conocemos hay fórmu-
las más ajustadas; más o menos a partir de poblaciones en torno a los
30.000 sujetos el tamaño necesario de la muestra no varía mucho; al
aumentar el tamaño de la población no aumenta proporcionalmente el
tamaño necesario de la muestra.
ANEXO. LOS INTERVALOS DE LA MEDIA Y DE LAS PROPORCIONES EN INTERNET
Varios programas disponibles en Internet nos dan los intervalos de con-
fianza de una media o proporción para un determinado nivel de confianza, lo
mismo que el tamaño de la muestra necesario para determinados márgenes
de error.
Entre otras direcciones:
LOWRY, RICHARD, VASSARSTATS: WEB SITE FOR STATISTICAL COMPUTATION,Vassar Co-
llege, Poughkeepsie, NY, USA; http://faculty.vassar.edu/lowry/VassarS-
tats.html (menú en proportions: the confidence interval of a propor-
tion; en t test  procedures: .95 and .99 Confidence Intervals for the
Estimated Mean of a Population).
GENE V GLASS Intro to quant methods http://glass.ed.asu.edu/stats/ En
Links to Online Resources for Statistics, en Online statistical calculators
that can perform many different analyses. :
Confidence Interval on a Proportion http://glass.ed.asu.edu/stats/analysis/
pciform.html
Confidence Interval on a Sample Mean http://glass.ed.asu.edu/stats/analy-
sis/mci.html
Algunas direcciones relacionadas con encuestas de opinión:
CREATIVE RESEARCH SYSTEMS. The Survey System Sample Size Calculator
http://www.surveysystem.com/sscalc.htm
CUSTOMINSIGHT.COM. Survey Random Sample Calculator (Home: http://www.
custominsight.com/index.asp) http://www.custominsight.com/articles/
random-sample-calculator.asp
DIMENSION RESEARCH, INC. Confident Intervals for Means Calculator
http://www.dimensionresearch.com/resources/calculators/conf_me-
ans.html (home: http://www.dimensionresearch.com/index.html).
ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA
251
CAPÍTULO 8
EL CONTRASTE DE MEDIAS
1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS GRUPOS
Uno de los planteamientos más frecuentes en análisis estadístico es senci-
llamente comparar las medias de dos grupos (hacer un contraste de me-
dias)1
. Antes de ver el procedimiento conviene tener una idea general de la
utilidad de estos contrastes.
a) Muchos diseños experimentales, y planteamientos de evaluación en
general, desembocan en una comparación de las medias de dos grupos:
un grupo experimental (el que ha seguido nuestra metodología, el que
ha tenido una determinada experiencia, formación etc.) lo comparamos
con otro grupo de control o de contraste (un grupo comparable al gru-
po experimental pero que no ha pasado por esta experiencia, método,
etc.). Son varios los diseños experimentales (y cuasi-experimentales)
que se pueden proponer y cuyo análisis básico es un simple contraste
de medias.
En definitiva esperamos que si la experiencia, método, terapia, etc., ha
sido provechosa, los sujetos del grupo experimental tendrán una me-
dia mayor que la del otro grupo (una media mayor en la variable de-
pendiente: aquella característica en la que esperamos que se haya pro-
ducido un cambio). Por una media mayor entendemos mayor de lo
que cabría esperar por azar o mayor que lo que se puede esperar de la
variación natural de una muestra a otra.
253
1
Si tenemos tres grupos o más en el mismo planteamiento y deseamos compararlos
de dos en dos, el procedimiento adecuado es el análisis de varianza.
b) Aunque no tengamos un diseño experimental, ni ningún planteamien-
to de investigación propiamente dicho, muchas veces exploramos di-
ferencias entre grupos, sin hipótesis previas, por simple curiosidad o
por interés personal. Tenemos los datos y los aprovechamos para des-
cubrir cosas…
c) El contraste (comparación) de las medias de los subgrupos con pun-
tuación total más alta y más baja (en un examen, en un test, en una es-
cala, etc.; en cualquier total que supone la suma de una serie de pre-
guntas) tiene aplicaciones específicas:
1) Aporta información de interés (en qué se parecen más y en que se
diferencian más los altos y los bajos en cualquier variable…).
2) Es una manera sencilla de analizar los ítems de una escala o test, pa-
ra quedarnos con los más discriminantes (los más diferenciado-
res…): con estos ítems tenemos una fiabilidad mayor, podemos re-
ducir la longitud del instrumento, etc.
2. A QUÉ PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS
Es importante tener claro desde el principio a qué preguntas de interés
debemos responder (o podemos responder) cuando comparamos dos gru-
pos, porque no se trata simplemente de restar una media de la otra para ver
la diferencia. Hacemos básicamente dos tipos de cálculos o análisis distintos
que responden a otras dos preguntas distintas a las que habrá que añadir otra
tercera pregunta sobre la relevancia o interés de la diferencia.
Primera pregunta
La diferencia entre las medias de estos dos grupos ¿Está dentro de lo nor-
mal, dentro de lo que se puede esperar habitualmente cuando no hay más di-
ferencia que la puramente aleatoria? ¿O se trata más bien de una diferencia
rara, atípica, fuera de lo normal?
Si la respuesta es que la diferencia es mayor de lo normal, de lo que se
puede esperar por azar, decimos que se trata de una diferencia estadística-
mente significativa. En principio podemos tomarnos en serio la diferencia;
podemos afirmar que entre las poblaciones representadas por estas muestras
sí hay una diferencia distinta de cero.
Hay que tener claro tanto lo que queremos expresar cuando decimos que
una diferencia es estadísticamente significativa como lo que no podemos
decir:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
254
a) Queremos decir que podemos extrapolar los resultados solamente en
este sentido: en situaciones semejantes y con sujetos semejantes, lo
probable es que encontremos una diferencia distinta de cero (y que es
suficiente para poder decir que los grupos pertenecen a poblaciones
distintas en lo que respecta a la variable o rasgo en el que hemos me-
dido a los sujetos).
b) Lo que no podemos decir es que:
1) en muestras semejantes encontraremos una diferencia de magni-
tud semejante (interpretación frecuente pero errónea); es posible
que así sea, pero lo que demostramos es que la diferencia en otros
pares de muestras no será cero (y esto no es decir mucho),
2) tampoco podemos decir que una diferencia es grande o importan-
te por el mero hecho de ser estadísticamente significativa.
Por todo esto habrá que completar la información con la respuesta a la se-
gunda pregunta que nos haremos a continuación.
Una observación: estamos suponiendo que las muestras que compara-
mos o son muestras aleatorias o son muestras cuyos sujetos han sido asigna-
dos aleatoriamente a las diversas condiciones o grupos. En la práctica fre-
cuentemente se trabaja o investiga con grupos hechos, por lo que no se trata
de muestras aleatorias. En estos casos tan habituales:
1) Siempre podemos pensar a qué poblaciones pueden representar estos
dos grupos y extrapolar los resultados a la población hipotética repre-
sentada por estas muestras con la debida cautela (pueden ser mues-
tras sesgadas o no representativas de la población general o de la po-
blación que en principio nos interesa estudiar).
2) En cualquier caso si la diferencia es estadísticamente significativa po-
demos excluir el azar o variabilidad normal como explicación plausible
o razonable de esa diferencia.
Segunda pregunta
¿Cuál es la magnitud de esta diferencia entre los dos grupos? ¿Es grande,
pequeña, moderada…?
Una diferencia estadísticamente significativa puede ser de hecho peque-
ña y poco relevante (sucede con frecuencia cuando comparamos muestras
grandes); lo mismo sucede a la inversa, una diferencia que no es estadística-
mente significativa puede ser grande y de importancia en una situación dada
(y esto es más probable que suceda cuando comparamos muestras peque-
ñas). El dato de la magnitud de la diferencia tiene su cálculo específico que
veremos más adelante. La magnitud de la diferencia es un dato importante
EL CONTRASTE DE MEDIAS
255
para interpretar los resultados, para ver si la diferencia es relevante, etc. Sobre
todo esto volveremos más adelante, porque la confusión entre estadística-
mente significativo y grande o relevante es muy frecuente.
En la práctica habitual:
1º Se responde en primer lugar a la primera pregunta: la diferencia ¿Está
dentro de lo normal y aleatorio? ¿Es mayor de lo que se podría esperar
si ambas muestras pertenecieran a la misma población?
2º Después se matiza y se completa la información respondiendo a la se-
gunda pregunta sobre la magnitud de la diferencia (pequeña, modera-
da, grande…).
La estadística inferencial más tradicional se limita con frecuencia a res-
ponder a la primera pregunta, pero también es importante (y a veces más im-
portante) analizar la magnitud de la diferencia (cuestión a la que no suelen
responder muchos libros de texto).
Tercera pregunta
¿Cuál es la relevancia, el interés que puede tener la diferencia que hemos
encontrado? Para valorar la relevancia tenemos que responder a las dos pre-
guntas anteriores (la diferencia ¿está dentro de lo normal? ¿es grande, peque-
ña…?) y además hay ya que tener en cuenta otro tipo de información más
cualitativa: contexto, finalidad de la comparación, etc.
3. EL MODELO TEÓRICO DEL CONTRASTE DE MEDIAS: LA DISTRIBUCIÓN MUESTRAL DE
DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIÓN
Lo que vamos a comprobar es cuándo una diferencia es mayor de lo que
se podría esperar por azar si entre los dos grupos no hubiera más diferencias
que las puramente casuales (o explicadas por el error muestral, dicho en
términos más académicos).
Nuestro modelo teórico es la distribución muestral de las diferencias en-
tre medias de muestras que proceden de la misma población: entre estas
medias no hay, por hipótesis, más diferencias que las puramente aleatorias.
Esta distribución es un modelo teórico análogo al de la distribución mues-
tral de la media que ya hemos visto; ahora ya no se trata de medias, sino de
diferencias entre medias.
En este modelo se supone lo siguiente:
1º De una misma población extraemos un número indefinido (muy
grande) de pares de muestras y calculamos la diferencia entre sus
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
256
medias: la media de la primera muestra menos la media de la segun-
da muestra.
Unas veces la diferencia será positiva (la media de la primera muestra
es mayor que la de la segunda muestra), otras negativa (la media de la
segunda muestra es mayor que la media de la primera muestra) y otras
veces la diferencia será cero.
2º Al tener muchas diferencias entre medias (un número indefinido, se
trata de un modelo teórico), por hipótesis tendremos que:
1. Estas diferencias tendrán una distribución normal (que se deno-
mina distribución muestral de las diferencias entre medias de
muestras que proceden de la misma población).
2. La media de esta distribución será cero porque las diferencias po-
sitivas anulan a las negativas (cuando no hay más diferencias que las
puramente aleatorias).
3. La desviación típica de esta distribución (que como se trata de una
distribución muestral se denomina error típico) podemos estimarla
a partir de los valores del tamaño y de las desviaciones típicas de las
muestras (esto es demostrable aunque aquí no pongamos la demos-
tración; se trata del teorema del límite central ya mencionado).
4. La mayoría de estas diferencias (el 95%) estará entre –1.96 errores
típicos y + 1.96 errores típicos; convencionalmente situamos la
normalidad entre estos límites.
Lo que vamos a hacer es comprobar si nuestra diferencia (la que hemos
calculado entre dos medias) está dentro de lo normal, si pertenece a esa dis-
tribución (o población) de diferencias cuya media es cero. En ese caso con-
cluiremos que la diferencia está dentro de lo normal y aleatorio (no es esta-
dísticamente significativa).
Figura 1
EL CONTRASTE DE MEDIAS
257
En la figura 1 tenemos representada la distribución de las diferencias entre
medias cuando la media de las diferencias es cero porque no hay más dife-
rencias que las puramente casuales.
Entre –1.96 errores típicos (o desviaciones típicas) y + 1.96 errores típicos
tendremos el 95% de las diferencias. A estas diferencias las consideramos nor-
males porque están dentro de los límites que convencionalmente hemos de-
terminado como criterio de lo que suele suceder cuando no hay más diferen-
cias que las aleatorias o casuales.
Al comparar dos medias podemos encontrar una de las dos posibilidades
representadas en la figura 2, cada posibilidad nos llevará a una conclusión
distinta.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
258
Figura 2
¿Cuándo podemos afirmar que las dos
muestras pertenecen a la misma
población?
¿Cuándo podemos afirmar que las dos
muestras proceden de poblaciones
distintas?
Afirmamos que las dos muestras
pertenecen a la misma población
cuando la diferencia está dentro de lo
normal o frecuente;
Afirmamos que las dos muestras
proceden de poblaciones distintas
cuando la diferencia es atípica, poco
frecuente, se sale de lo normal
Es decir, cuando se trata de una
diferencia probable en el caso de que las
dos muestras procedan de la misma
población (m1 = m2 = m)
Es decir, cuando se trata de una
diferencia poco probable. En ese caso
podremos afirmar que las medias
pertenecen a muestras de poblaciones
distintas, con distinta media (m1 m2)
4. CÓMO COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIÓN DE DIFERENCIAS
CUYA DIFERENCIA MEDIA ES CERO
4.1. Modelo y fórmula básica
Hacemos esta comprobación verificando en cuántos errores típicos (des-
viaciones típicas) se aparta nuestra diferencia de la diferencia media de cero.
Si nuestra diferencia se aparta mucho (1.96 errores típicos si seguimos el
criterio habitual) de la diferencia media de cero:
1. Podremos deducir que esa diferencia es improbable si las dos medias
proceden de la misma población.
2. Y afirmaremos por lo tanto que las muestras proceden de poblaciones
distintas con distinta media. Difieren más de lo que consideramos nor-
mal cuando no hay más diferencias que las puramente aleatorias.
¿Cómo sabemos que la diferencia está dentro de lo probable? (probable
en la hipótesis de que ambas muestras procedan de la misma población):
Verificando en cuántos errores típicos se aparta nuestra diferencia de la di-
ferencia media de cero.
Para esto nos basta calcular la puntuación típica de esa diferencia (z, t de
Student) que nos indicará si la diferencia es probable (p .05) o improbable
(p.05) (en este caso el nivel de confianza, o probabilidad de error al afir-
mar la diferencia, es de a =.05).
Esta puntuación típica, expresada en términos no convencionales, será:
La fórmula, expresada en símbolos convencionales es:
En esta fórmula [1]:
El numerador equivale de hecho a la diferencia entre dos medias
(entre las medias de dos diferencias); restamos una diferencia en-
tre dos medias de una diferencia media de cero.
EL CONTRASTE DE MEDIAS
259
Los programas de ordenador suelen indicar la probabilidad exacta que co-
rresponde a cada valor de z (p =.03, p = .002, etc.) y es el dato que se debe
manifestar si está disponible (la probabilidad exacta del valor de z (o t) tam-
bién se encuentra fácilmente en programas de Internet)2
.
El denominador (símbolo del error típico de la diferencia entre
medias), varía según se trate de muestras independientes o relacio-
nadas, grandes o pequeñas; las fórmulas específicas para cada caso
están en el apartado 4.7.
Lo que hacemos es calcular la puntuación típica (z) de una diferencia: com-
probar en cuántas desviaciones típicas (errores típicos) se aparta esa diferencia
de la diferencia media de cero. Esta puntuación típica nos dirá la probabilidad
de que ocurra nuestra diferencia cuando la media de las diferencias es cero.
¿Cuándo es grande la probabilidad de que ocurra una diferencia? El límite
es convencional; habitualmente se acepta que más de 5 veces de cada 100 son
ya muchas veces; en ese caso se interpreta como una diferencia normal cuan-
do las medias pertenecen a muestras de la misma población. Este límite es el
nivel de significación (.05) o nivel de confianza (.95), como en plantea-
mientos análogos, y a cada nivel de confianza le corresponde un valor de z. Se
trata de una aplicación directa de la distribución normal.
El nivel de significación se expresa así: a = .05, y en este caso necesitaremos
un valor de z igual o superior a 1.96 (en pruebas bilaterales, que son las que uti-
lizamos normalmente como explicamos más adelante, y con muestras grandes;
si se trata de muestras pequeñas consultaremos las tablas de la t de Student).
El nivel de significación expresa la probabilidad de equivocarnos al afir-
mar la diferencia y el nivel de confianza expresa la probabilidad de acertar
(.05+.95 = 1; 100%); ambas expresiones vienen a decir lo mismo.
Si nuestro nivel de significación es a = .01, necesitaremos un valor de z
superior a 2.57, y si es a = .001, el valor de z debe ser igual o superior a 3.30.
Según el valor de z que se obtenga, los resultados suelen expresarse de es-
ta forma:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
260
2
Pueden verse los programas de Internet del anexo 4 de este capítulo.
p  .05 cuando el valor de z no llega a 1.96 (o diferencia no estadísticamen-
te significativa)
p . 05 cuando z  1.96 (a partir de z = 1.96 solemos decir que la diferencia
es estadísticamente significativa, porque el nivel de confianza habi-
tual es a = .05)
p  .01 cuando z  2.56
p .001 cuando z  3.30
Con muestras pequeñas la fórmula utilizada se denomina usualmente t de
Student (que nos remite a las tablas para muestras pequeñas, anexo 3); con
muestras grandes suele denominarse z (y también es usual mantener la ex-
presión t de Student, aunque con menos propiedad) y en todos los casos tam-
bién se utiliza a veces el término genérico de Razón Crítica (R.C.).
Con muestras pequeñas las probabilidades de ocurrencia en los extre-
mos son algo mayores (los valores exactos dependen del número de sujetos),
por eso necesitamos consultar las tablas específicas para muestras pequeñas
(las tablas de la t de Student)3
pero según va aumentando el número de suje-
tos las probabilidades se van pareciendo más a las de la distribución normal.
4.2. Hipótesis Nula e Hipótesis Alterna
En este contexto es útil recordar, o introducir, los conceptos de Hipótesis
Nula e Hipótesis Alterna.
Aquí es importante entender dos puntos: 1º a qué llamamos Hipótesis Nu-
la e Hipótesis Alterna, y 2º por qué hacemos esta distinción.
1º Qué son las Hipótesis Nula y Alterna
La Hipótesis Alterna es la del investigador: que existe una diferencia (o
una relación), que la diferencia es mayor de lo que se puede esperar por
azar, etc.
La Hipótesis Nula es la negación de la Hipótesis Alterna: la diferencia es-
tá dentro de lo normal y probable, no se aparta significativamente de una
diferencia media de cero.
Los conceptos (y los términos) de Hipótesis Alterna e Hipótesis Nula son
importantes y conviene que estén muy claros. La Hipótesis Nula es siempre la
negación de la Hipótesis Alterna, que es en principio nuestra hipótesis. Por
ejemplo:
Hipótesis Alterna (mi hipótesis): El método A es mejor que el método B
Hipótesis Nula: El método A no es mejor que el
método B
Para formular la Hipótesis Nula nos basta poner un no delante del verbo
utilizado en la Hipótesis Alterna.
EL CONTRASTE DE MEDIAS
261
3
Las probabilidades de la tabla para muestras pequeñas se la debemos a William S.
Gosset que firmaba con el seudónimo the Student, de ahí el término t de Student y el sím-
bolo t en vez de z (conceptualmente se trata de lo mismo)
La formulación de la Hipótesis Nula quedaría más clara si añadimos (al me-
nos mentalmente): porque si hay alguna diferencia entre las medias de los
dos grupos, esta diferencia está dentro de lo normal y se explica suficiente-
mente por el error muestral, por factores aleatorios, etc.
Utilizando los símbolos convencionales expresaríamos así estas hipótesis
(m es el símbolo de la media de una población):
Hipótesis Nula Ho: m1 = m2 (o lo que es lo mismo m1 - m2 = 0)
Hipótesis Alterna: podemos expresarla de dos maneras
H1: m1 m2 (no especificamos la dirección de la
diferencia)
H1: m1  m2 o m1  m2 (sí especificamos la dirección
de la diferencia)
2º Por qué distinguimos entre estos dos tipos de hipótesis (nula y alterna)
A primera vista puede parecer que la única hipótesis que tenemos es la
alterna (que hay una diferencia, que un método es mejor que otro, etc.) y
es ésta la hipótesis que probamos o dejamos de probar. Sin embargo la hi-
pótesis que ponemos a prueba es la Hipótesis Nula: es la que aceptamos
(o más bien fracasamos en el intento de rechazarla y afirmamos que la di-
ferencia está dentro de lo normal, o no es extrapolable…) o la que recha-
zamos.
Aunque no tengamos hipótesis formuladas y prescindamos de las hipóte-
sis nula y alterna, cuando contrastamos dos medias y encontramos una dife-
rencia estadísticamente significativa, implícitamente estamos rechazando la
hipótesis nula, lo digamos o no. Estas hipótesis nulas de ‘no diferencia’ están
implícitas en el mismo modelo y procedimiento.
Una manera sencilla (aunque quizás incompleta) de entender y recordar
estos conceptos puede ser ésta:
Identificar la Hipótesis Nula con diferencia casual, normal, aleatoria, pro-
bable, etc.,
Identificar la Hipótesis Alterna con diferencia improbable, no casual, etc.
(improbable si las dos muestras proceden de la misma población, sin más
diferencias que las puramente aleatorias o casuales).
En definitiva lo que vamos a hacer es determinar la probabilidad de que se
dé una determinada diferencia entre dos muestras en el caso de que ambas
procedan de la misma población, con la misma media y sin más diferencias
que las que pueden explicarse por la variabilidad normal que hay en cualquier
grupo (eso significa pertenecer a la misma población).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
262
Si la probabilidad de que ocurra la diferencia es grande, afirmamos que
ambas muestras proceden de la misma población, y que la diferencia está
dentro de lo aleatorio (se explica por el error muestral, por la variabilidad
normal que hay en cualquier conjunto de datos) y lo solemos expresar di-
ciendo que aceptamos la Hipótesis Nula, aunque con más propiedad habría
que decir que no rechazamos la Hipótesis Nula (propiamente nunca demos-
tramos que la Hipótesis Nula es verdadera; simplemente no demostramos
que es falsa).
Si esta probabilidad es pequeña (menos del 5% o p  .05 si señalamos ese ni-
vel de confianza o a = .05) rechazamos que las muestras procedan de la misma
población con idéntica media (no aceptamos la Hipótesis Nula) y podremos
afirmar que las dos muestras proceden de poblaciones distintas con distinta me-
dia (y decimos entonces que la diferencia es estadísticamente significativa).
Una cuestión distinta es identificar automáticamente diferencia estadísti-
camente significativa con hipótesis de investigación demostrada (si la dife-
rencia es mayor de lo normal, es que este método es mejor que el otro, etc.);
del hecho de la diferencia no se deduce sin más que la causa o explicación
de la diferencia sea la propuesta como hipótesis por el investigador; simple-
mente afirmamos la diferencia.
Así, si hacemos un contraste de medias con un nivel de confianza de
a = .05:
Si la diferencia es probable (p .05)
[probable en el caso de que las
muestras procedan de la misma
población]
Si la diferencia es improbable
(p .05) [improbable en el caso de que
las muestras procedan de la misma
población]
Aceptamos (no rechazamos) la
Hipótesis Nula; o lo que es lo mismo:
Rechazamos (no aceptamos) la
Hipótesis Nula y aceptamos la Hipótesis
Alterna, o lo que es lo mismo:
Afirmamos que las muestras pertenecen
a la misma población (m1 = m2)
Afirmamos que las muestras proceden
de poblaciones distintas (m1 m2)
Afirmamos que la diferencia no es
estadísticamente significativa.
Afirmamos que la diferencia sí es
estadísticamente significativa (es muy
improbable que las muestras
pertenezcan a la misma población).
EL CONTRASTE DE MEDIAS
263
4.3. Contrastes unilaterales y bilaterales
Hemos visto que hay dos tipos de hipótesis alternas (una hipótesis es m1
m2 y otra hipótesis es m1  m2 o m1  m2).
Porejemplo, no es lo mismo tener como hipótesis:
Niños y niñas son diferentes en… Símbolo: m1 m2; (afirmamos la
diferencia, pero no la dirección de la
diferencia)
que tener como hipótesis:
Los niños aventajan a las Símbolo: m1  m2; (especificamos la
niñas en… dirección de la diferencia, quién es
más que quién)
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
264
Cuando no afirmamos como hi-
pótesis la dirección de la diferen-
cia (los niños y las niñas son dis-
tintos en…)
Cuando sí afirmamos como hipó-
tesis la dirección de la diferencia
(las niñas aventajan a los niños
en…)
tenemos lo que se denominan
contrastes (o hipótesis) bilatera-
les, bidireccionales o de dos colas.
tenemos lo que se denominan
contrastes (o hipótesis) unilate-
rales, unidireccionales o de una
cola.
▼
▼
¿Dónde está en la práctica la importancia entre estos dos tipos de hipótesis?
Antes hemos mencionado que cuando al comparar dos medias obtene-
mos una z de 1.96 o más, rechazamos el azar como explicación de la diferen-
cia ¿Por qué exactamente 1.96?
Porque por encima de 1.96 caen el 2.5% de los casos y por debajo de -1.96
otro 2.5% de los casos (figura 1): nos fijamos en los dos extremos (o en las
dos colas) de la distribución. No señalamos la dirección de la diferencia y es-
tamos por lo tanto en una hipótesis bilateral, tal como se muestra en la figu-
ra 3 (semejante a la figura 1).
Si nuestra hipótesis es unilateral, nos fijaremos en un lado de la distribu-
ción, y en vez de z = 1.96 necesitaremos llegar solamente a 1.64, porque por
encima de z = 1.64 (o por debajo de z = - 1.64) cae el 5% de los casos, tal co-
mo se muestra en la figura 4.
Figura 3
Figura 4
Naturalmente es más fácil encontrar un valor de 1.64 que de 1.96 por lo
que se confirman con más facilidad las hipótesis unilaterales.
Aquí no entramos más en esta distinción porque habitualmente nos vamos
a referir a hipótesis bilaterales (o bidireccionales, o de dos colas), porque es la
práctica más común y aconsejada, por eso mantendremos z = 1.96 como crite-
rio; a partir de ese valor es cuando afirmamos que una diferencia es muy impro-
bable en el caso de que ambas muestras procedan de la misma población4
.
4
Aunque nuestras hipótesis nos parezcan con frecuencia lógicamente unidirecciona-
les (este método es ‘mejor que’…) y así las formulemos, se suelen utilizar de manera habi-
EL CONTRASTE DE MEDIAS
265
4.4. Esquema-resumen del proceso de verificación de hipótesis
Es útil disponer de un cuadro-resumen que nos clarifique estos conceptos
y nos resuma el proceso de verificación de hipótesis (figura 5). Partimos de
nuestra hipótesis (la hipótesis alterna) pero lo que realmente ponemos a
prueba es la negación de nuestra hipótesis (la hipótesis nula); lo que hace-
mos en definitiva es determinar las probabilidades de que se dé una determi-
nada diferencia (o en su caso relación).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
266
tual los valores de z (o de la t de Student) propios de las hipótesis bidireccionales; una ex-
plicación más amplia de estos dos tipos de hipótesis, direccionales y no direccionales, y
por qué se utilizan habitualmente hipótesis bidireccionales puede verse en Morales (pági-
na Web) (2008; sobre las hipótesis direccionales y no direccionales).
Figura 5
4.5. Interpretación del significado de aceptar o no aceptar la hipótesis
nula: tipos de errores
Es fácil interpretar mal las conclusiones que se derivan del aceptar o no
aceptar la Hipótesis Nula (la hipótesis de no diferencia) y que ya están sucin-
tamente expuestas en los apartados anteriores.
4.5.1 Cuando no aceptamos la Hipótesis Nula
No aceptamos la Hipótesis Nula cuando es muy improbable que por azar
se dé esa diferencia entre las muestras cuando las poblaciones no difieren
(m1 = m2, ó m1 - m2 = 0; se trata de la misma población). Al decir que recha-
zamos la Hipótesis Nula exactamente queremos decir esto:
Una probabilidad pequeña de que la diferencia sea aleatoria (y que corres-
ponde a un valor grande de z o t), es decir una diferencia estadísticamente
significativa:
1º Nos da más seguridad para afirmar esta diferencia; para extrapolar es-
tos resultados a la población: con muestras semejantes hubiéramos ob-
tenido una diferencia distinta de cero;
2º Pero, como acabamos de indicar, no probamos que entre otros pares
de muestras semejantes obtendríamos necesariamente una diferencia
de magnitud semejante.
3º Un valor grande de z o t no quiere decir que la diferencia entre las
muestras sea grande; la magnitud de la diferencia y su valoración es al-
go distinto. Una diferencia muy significativa (ese muy tan frecuente se
presta a interpretaciones equívocas y es preferible evitarlo) no es sinó-
nimo de diferencia grande o importante; esto nos lo dirá la magnitud
del efecto (o magnitud de la diferencia expresada en términos cuan-
titativamente más fácilmente interpretables, y que veremos después) y
otras consideraciones de carácter más cualitativo que nos permitirán
valorar esa magnitud de la diferencia.
4º Si no aceptamos la Hipótesis Nula (el azar o el error muestral como
explicación de la diferencia) podremos aceptar la Hipótesis Alterna, es
decir, podemos afirmar que la diferencia es muy improbable en el caso
de que las muestras procedan de la misma población con idéntica me-
dia, pero, y esto es importante, una cosa es afirmar la diferencia (y has-
ta ahí hemos llegado) y otra distinta es que esté claro el por qué de la
diferencia.
Conviene estudiar o recordar todo lo referente a los diseños o plantea-
mientos de investigación. El que una diferencia sea estadísticamente signifi-
cativa no prueba sin más, por ejemplo, que en un colegio se enseña mejor
EL CONTRASTE DE MEDIAS
267
que en otro (los alumnos de un colegio, o de una universidad, pueden ir ya
mejor preparados…), o que un método sea mejor que otro (puede ser que
quien sea mejor es el profesor, con cualquier método…). Con un buen dise-
ño de investigación lo que pretendemos es excluir otras explicaciones.
4.5.2. Cuando aceptamos la Hipótesis Nula
Aceptar (o no rechazar) la Hipótesis Nula es lo mismo que aceptar que la
diferencia es normal, que está dentro de lo aleatorio: en comparaciones se-
mejantes podemos encontrarnos con una diferencia de cero.
Hay dos puntos en los que conviene insistir y que son aplicables cuando
aceptamos (o con más propiedad no rechazamos) la Hipótesis Nula de no
diferencia:
1º Una cosa es “no probar” que hay una diferencia (como sucede cuan-
do no rechazamos la Hipótesis Nula) y otra distinta es “probar que no” hay
diferencia.
En este punto es fácil hacer interpretaciones erróneas. Lo veremos con fa-
cilidad con un ejemplo. Vamos a suponer que tenemos la hipótesis (alterna)
de que a los italianos les gusta más la ópera que a los españoles (o sin hipó-
tesis formuladas formalmente queremos verificar si existe alguna diferencia).
Responden a una escala de actitudes hacia la ópera una muestra de 10 italia-
nos y otra de 10 españoles (igualados en nivel socio-cultural y económico).
Encontramos que la diferencia favorece a los italianos pero no es estadística-
mente significativa (está dentro de lo normal):
• ¿Hemos probado que hay diferencia? (es decir, ¿podemos extrapolar el
hecho de la diferencia a la población general representada por esas
muestras?) La respuesta es no; no hemos probado que a los italianos
les gusta la ópera más que a los españoles.
• ¿Hemos probado que no hay diferencia? Tampoco. Es muy posible que
la diferencia, si la hay, quede clara con muestras mayores.
Con muestras grandes es muy fácil no aceptar la Hipótesis Nula de no di-
ferencia, por eso siempre (y más con muestras pequeñas) interesa verificar si
el signo de la diferencia favorece a nuestra hipótesis, porque con muestras
mayores es muy posible que dejemos las cosas claras.
2º Una diferencia que no es estadísticamente significativa puede ser
importante.
Pensemos en un método de enseñanza o en un tipo de terapia aplicado a
muy pocos sujetos. Podemos comparar nuestro grupo experimental (partici-
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
268
pan en el método, en la terapia), con otro grupo que nos sirve de compara-
ción (grupo de control o de contraste)5
para verificar si el método o la terapia
son eficaces. A simple vista podemos observar que el método sí es eficaz, ve-
mos el cambio en los sujetos, etc., pero al hacer la comparación podemos
comprobar que la diferencia está dentro de lo aleatorio y no rechazamos la
Hipótesis Nula. Esto puede suceder, y sucede con frecuencia, con muestras
pequeñas.
En estos casos: 1º nos abstendremos de extrapolar el hecho de la diferen-
cia, pero 2º si la diferencia es grande (y a favor de nuestro grupo experimen-
tal) podemos pensar que algo importante está pasando aquí con estos su-
jetos. De ahí la importancia de disponer de un método que nos permita
apreciar cuándo una diferencia es grande (y lo veremos después). Posible-
mente aumentando el tamaño de la muestra (o acumulando pequeñas mues-
tras) podremos rechazar (no aceptar) la Hipótesis Nula.
4.5.3. Tipos de errores
Con respecto a la Hipótesis Nula podemos cometer dos tipos de errores
objetivos:
1. Error tipo I: podemos no aceptar la Hipótesis Nula (y aceptar la dife-
rencia entre las medias) cuando en realidad la Hipótesis Nula es verda-
dera (y esa diferencia está dentro de lo normal…).
Este posible error objetivo lo controlamos con los niveles de con-
fianza; un nivel de confianza de a = .05 (un 5% de probabilidades
de equivocarnos al afirmar la diferencia) se acepta como suficiente-
mente seguro.
2. Error tipo II: podemos aceptar la Hipótesis Nula (y no afirmamos la dife-
rencia) cuando en realidad la Hipótesis Nula es falsa (y sí hay diferencia).
Se trata de un error que no solemos controlar. Las probabilidades
de cometer este error en el contraste de medias son muy altas pe-
ro se pueden minimizar utilizando un número grande de sujetos.
Con muchos sujetos se detectan con más facilidad las diferencias
entre grupos, incluso las diferencias pequeñas (las diferencias gran-
des se detectan con facilidad comparando muestras pequeñas).
5
En términos más propios cuando hablamos de grupo de control estamos suponien-
do que los sujetos han sido asignados aleatoriamente a los dos grupos, experimental y de
control; cuando esto no es así (como no suele serlo en muchas comparaciones porque tra-
bajamos con grupos hechos) es preferible denominar al grupo que nos sirve como térmi-
no de comparación grupo de contraste.
EL CONTRASTE DE MEDIAS
269
6
Esta analogía está inspirada en la película doce hombres sin piedad, en la que un ju-
rado tiene que decidir por unanimidad sobre la inocencia (por falta de pruebas) o la culpa-
bilidad de un presunto culpable.
Los dos tipos de errores están resumidos en la figura 6.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
270
Figura 6
Figura 7
En principio se pretende minimizar el error tipo I (como es afirmar la dife-
rencia cuando realmente no la hay) y por eso se insiste en los niveles de con-
fianza: es más seguro (es la postura más conservadora) decir no hay dife-
rencia cuando realmente sí la hay, que decir sí hay diferencia cuando
realmente no la hay.
Una sencilla analogía nos puede ayudar a entender la importancia relati-
va de estos dos errores: en un juicio un error puede ser condenar a un ver-
dadero inocente y otro error puede ser absolver a un verdadero culpable
(figura 7)6
.
Siempre interesa tomar la decisión correcta, pero el error más grave y que
se pretende minimizar es el error Tipo I; volviendo al contraste de medias es
preferible y más seguro concluir la diferencia no está probada (aunque en la
realidad sí se dé la diferencia) que concluir la diferencia está probada cuan-
do realmente no existe esa diferencia. Con niveles de significación más estric-
tos (.01, .001) aumentan las probabilidades de cometer el error tipo II (en ge-
neral se estima que a = .05 es un nivel de significación razonable). El error
objetivo Tipo II es más fácil que suceda con muestras pequeñas.
4.6. Observaciones sobre el contraste de medias: limitaciones y
requisitos previos
4.6.1. Presupuestos teóricos para poder utilizar el contraste de
medias
El modelo teórico que utilizamos en el contraste de medias supone deter-
minados presupuestos teóricos como son la homogeneidad de varianzas en
las muestras y distribución normal en la población; sin embargo está sufi-
cientemente demostrado que las denominadas pruebas paramétricas (como
la t de Student y el análisis de varianza) permiten rechazar la Hipótesis Nula
(hipótesis de no diferencia) cuando es falsa, aunque se violen los presupues-
tos del modelo teórico, excepto cuando se dan a la vez estas circunstancias:
1º Muestras más bien pequeñas (a partir de N  20 suelen considerarse
pequeñas, aunque estos límites son arbitrarios),
2º Muestras de tamaño muy desigual (como cuando una muestra es tres
veces mayor que la otra),
3º Muestras con varianzas muy desiguales (algún autor pone el límite de
que una varianza sea más de 10 veces mayor que la otra… con mues-
tras grandes las varianzas muy desiguales importan menos; aun así la
homogeneidad de varianzas es el presupuesto más importante).
En estos casos al menos (cuando se dan simultáneamente dos o tres de las
circunstancias mencionadas) son preferibles los métodos no paramétricos
para datos ordinales (alternativas a la t de Student; la U de Mann-Whitney pa-
ra muestras independientes y la T de Wilcoxon para muestras relacionadas).
La homogeneidad de varianzas es el presupuesto más importante; aun así
el que las varianzas sean distintas importa menos si las muestras son de idén-
tico o parecido tamaño y en contrastes bilaterales (que son los habituales)7
.
7
Cuando se hace un contraste de medias con el SPSS el programa verifica el presu-
puesto de la homogeneidad de varianzas, y da las probabilidades asumiendo y sin asumir la
igualdad de varianzas; en general las diferencias no son muy apreciables. Sobre estos su-
puestos previos y sobre el requisito de disponer de una unidad de intervalo pueden verse
más citas y comentarios en Morales (2006, Cap. 1).
EL CONTRASTE DE MEDIAS
271
Los modelos teóricos suponen que las muestras son aleatorias (y por lo
tanto representativas de la población) y esto no sucede con frecuencia por-
que se trata de grupos hechos, sin que los sujetos hayan sido escogidos alea-
toriamente de una población mayor; en estos casos tenemos que pensar en la
población que pueda estar representada por esas muestras concretas.
4.6.2. ¿Es suficiente verificar si una diferencia es estadísticamente
significativa?
Podemos pensar que el limitarse a aceptar o rechazar la Hipótesis Nula
(de no diferencia) es poco informativo, porque la diferencia puede ser signifi-
cativa y pequeña o no ser significativa por falta de sujetos o no ser significativa
y a la vez grande (frecuente con pocos sujetos) … En buena medida así es, limi-
tarse a afirmar que una diferencia es (o no es) estadísticamente significativa es
poco e incompleto a pesar de la práctica más habitual en investigación, de ahí
la necesidad de los cálculos complementarios, sobre la magnitud de la diferen-
cias, que trataremos más delante. Es aquí donde se pone ahora el énfasis.
4.6.3. Cuando tenemos más de dos muestras en el mismo plantea-
miento: análisis de varianza
Con las fórmulas del contraste de medias (t de Student) podemos compa-
rar medias de dos en dos; pero cuando en el mismo planteamiento hay más
de dos muestras tenemos que acudir a otros procedimientos (análisis de va-
rianza). No se pueden comparar las diversas muestras de dos en dos porque
en este caso las probabilidades de error al rechazar la Hipótesis Nula son más
de las que indican las tablas (como queda explicado al tratar del análisis de va-
rianza; aquí basta con advertir que no se debe utilizar la t de Student cuando
hay más de dos muestras)8
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
272
8
Cuando tenemos sólo dos grupos pero vamos a compararlos en muchas variables o
rasgos también puede suceder que algún contraste estadísticamente significativo realmen-
te se deba a factores aleatorios (la probabilidad de error es pequeña, pero no podemos te-
ner una absoluta seguridad). En estos casos algunos autores recomiendan los llamados con-
trastes de Bonferroni (la publicación de Carlo Emilio Bonferroni es de 1936), por eso no
sobra una nota aclaratoria. En estos contrastes se utiliza la misma t de Student pero con un
nivel de confianza más estricto: se utiliza la probabilidad (p) que expresa nuestro nivel de
confianza dividida por el número de comparaciones previstas, así si nuestro nivel de con-
fianza es .05 y tenemos tres comparaciones previstas utilizaremos como nivel de confianza
.05/3 = .0167. También si conocemos la probabilidad exacta (p) podemos multiplicarla por
el número de contrastes para ver si llega a .05 (así si tenemos tres contrastes y p = .0167
tendremos p = (.0167)(3) = .05). La crítica hecha a este contraste es que es muy conserva-
dor; tiene poca potencia para rechazar la Hipótesis Nula cuando realmente es falsa (por
Estamos suponiendo que habitualmente calculamos la s de la muestra di-
vidiendo por N-1; si la hubiéramos calculado dividiendo por N, en los deno-
minadores tendríamos N y no N-1
10
.
4.7. Fórmulas del contraste de medias9
La fórmula básica es la fórmula [1] ya vista antes: una diferencia entre dos
medias dividida por el error típico de las diferencias:
ejemplo y entre otros, Hancock y Klockars, 1996). Una crítica bien razonada a los ajustes de
Bonferroni puede verse en Perneger (1998): this paper advances the view, widely held by
epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, de-
leterious to sound statistical inference… The main weakness is that the interpretation of
a finding depends on the number of other tests performed …The likelihood of type II
errors is also increased, so that truly important differences are deemed non-significant…
Bonferroni adjustments imply that a given comparison will be interpreted differently ac-
cording to how many other tests were performed. También se proponen estos niveles de
confianza más estrictos cuando tenemos muchos coeficientes de correlación, pero la críti-
ca que puede hacerse es la misma
9
Podemos llevar a cabo un contraste de medias, sin necesidad de conocer las fórmu-
las, con programas como EXCEL o SPSS, y también con los programas que podemos en-
contrar en Internet (anexo 4); sin embargo debemos entender qué estamos haciendo.
10
En los programas estadísticos (como el SPSS) lo normal es utilizar la desviación típi-
ca de la población (dividiendo por N-1; con muestras relativamente grandes la diferencia
entre dividir por N o N-1 puede ser irrelevante).
Nos falta conocer el valor del denominador ( es solamente un sím-
bolo).
La fórmula general del denominador de la fórmula [1] (error típico de la
diferencia entre medias) es:
Como el error típico de la media es siempre la fórmula [2]
se puede expresar así:
EL CONTRASTE DE MEDIAS
273
Es útil conocer de dónde viene esta fórmula [2] (o [3]; es la misma). La va-
rianza de un compuesto, por ejemplo la varianza de la suma de los tests 1 y 2,
no es igual a la varianza del test 1 más la varianza del test 2, sino ésta otra:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
274
Podemos ver el parecido de esta expresión con el cuadrado de un bino-
mio (de eso se trata):
Si no se trata de un compuesto (o suma), sino de una diferencia, sabemos
que (a-b)2
=a2
+b2
-2ab. Éste es nuestro caso: no se trata del cuadrado de una
suma (a+b), sino del cuadrado de una diferencia (a-b), de ahí el signo menos
en el denominador de las fórmulas [2] y [3].
Lo que tenemos en esta fórmula (del error típico o desviación típica de las
diferencias entre medias de muestras de la misma población) es la suma de
los dos errores típicos de las medias menos dos veces su covarianza (recorde-
mos que r12s1s2 es la fórmula de la covarianza).
Este denominador [2] no lo utilizaremos habitualmente. Si se trata de
muestras independientes (sujetos distintos) el valor de la correlación que
aparece en la fórmula es cero, con lo que el denominador queda muy simpli-
ficado. El denominador [2] es válido cuando de trata de comparar medias de
muestras relacionadas (los mismos sujetos medidos antes y después en el
caso más frecuente), pero aun en este caso tenemos un procedimiento alter-
nativo más sencillo en el que no tenemos que calcular la correlación, como
veremos más adelante.
En el apartado siguiente están todas las fórmulas necesarias para el con-
traste de medias. Aunque habitualmente utilicemos programas informáticos
no siempre es así y en cualquier caso las fórmulas nos ayudan a entender lo
que estamos haciendo.
4.7.1. Diferencia entre la media de una muestra y la media de una
población
En este caso conocemos todos los datos de la muestra (número de suje-
tos, media y desviación); de la población conocemos solamente la media (que
puede ser una media hipotética, o deducida de otros estudios, etc.).
En el numerador de todas estas fórmulas tenemos siempre una diferencia
entre medias menos cero; naturalmente este menos cero se puede omitir
porque no va a alterar el resultado, sin embargo es preferible ponerlo porque
recordamos lo que estamos haciendo: comparar una diferencia entre dos me-
dias con una diferencia media de cero.
Otra manera de abordar el mismo planteamiento es calcular los intervalos
de confianza de la media. Ya vimos en el capítulo anterior (sobre el error tí-
pico de la media, apartado 4.3) que a partir de los datos de una muestra po-
demos conocer entre qué límites probables se encuentra la media de la po-
blación representada por esa muestra. Si queremos comprobar si existe una
diferencia estadísticamente significativa entre la media de una muestra y la
media de una población (m), nos basta calcular los intervalos de confianza de
la media de la muestra y ver si la media de la población se encuentra com-
prendida entre esos intervalos.
4.7.2. Diferencia entre dos medias de muestras independientes
(sujetos físicamente distintos)
1º Muestras grandes y de distinto tamaño
t = Valor de la t de Student (o z cuando se
utilizan muestras grandes); también se
utiliza el símbolo más genérico de R.C.
(Razón Crítica); con muestras pequeñas
se utilizan las tablas de la t de Student
m = media de la población
X
–
= (media) s (desviación típica) y N (núme-
ro de sujetos o tamaño de la muestra)
son los datos de la muestra;
El denominador es el error
típico de la media de la
muestra
Como en todas estas fórmulas, si las des-
viaciones están calculadas dividiendo por
N-1, ahora el denominador será N.
Es práctica común el considerar una mues-
tra grande cuando pasa de 30 sujetos aun-
que este criterio es un tanto arbitrario;
más seguro es poner el límite en torno a
los 50 sujetos, o considerar que la muestra
es pequeña siempre que se puedan con-
sultar las tablas de la t de Student.
EL CONTRASTE DE MEDIAS
275
De esta manera la primera parte del denominador se convierte en una
constante que basta calcular una sola vez.
3º Diferencia entre dos medias de muestras independientes (grandes o
pequeñas) y de idéntico tamaño
Cuando las muestras son de idéntico tamaño (N = N) las fórmulas anterio-
res quedan muy simplificadas (se trata de la fórmula [5] simplificada porque
los denominadores son idénticos):
La interpretación, cuando se trata de muestras grandes, se hace consultan-
do las tablas de la distribución normal (o en programas de Internet, anexo 4),
con grados de libertad igual a N1+N2-2. Como por lo general los niveles de
confianza que utilizamos son .05, .01 y .001, no necesitamos acudir a las ta-
blas, pues ya conocemos los valores de referencia para muestras grandes:
Los valores de z utilizados habitualmente con muestras grandes son:
Si z es mayor que 1.96 2.57 3.30
La probabilidad de que la diferencia sea
aleatoria es inferior a .05 .01 .001
2º Muestras pequeñas y de distinto tamaño
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
276
Esta fórmula puede utili-
zarse con muestras de
cualquier tamaño;
La interpretación se hace
consultando las tablas de la
t de Student, con grados
de libertad igual a N1+N2- 2
Cuando se van a hacer muchos contrastes de medias con el mismo par de
muestras, y por lo tanto los valores de N van a ser constantes, es más cómo-
do y rápido transformar la fórmula [6] en ésta otra [7]:
También se puede utilizar el denominador puesto en la fórmula [2] o [3],
y así aparece en muchos textos, pero el utilizar la fórmula [9] es un método
más claro y sencillo.
Esta fórmula es válida tanto para muestras grandes como pequeñas; con
muestras pequeñas se consultan las tablas de la t de Student.
4.7.3. Diferencia entre medias de muestras relacionadas (compro-
bación de un cambio)
Tenemos muestras relacionadas cuando los sujetos son los mismos, y de
cada sujeto tenemos dos datos en la misma variable; son dos muestras de da-
tos procedentes de los mismos sujetos. En la situación más frecuentemente
estos datos los obtenemos en la misma variable antes y después de alguna ex-
periencia o proceso y se desea comprobar si ha habido un cambio11
.
Cuando se dispone de una calculadora estadística (con la media y la des-
viación típica programadas), lo más sencillo es calcular para cada sujeto su
puntuación diferencial (diferencia entre las dos puntuaciones, entre antes y
después) y aplicar esta fórmula:
El término muestras relacionadas (y las fórmulas correspondientes) tam-
bién se aplica cuando tenemos sujetos distintos pero igualados en variables
importantes, tal como se estudia en el contexto de los diseños experimenta-
les; en estos caso tenemos una muestra de parejas de sujetos.
En este caso N1 = N2 = N, que es el número de
sujetos en cada grupo; los grados de libertad
son como en los casos anteriores: N1+ N2 -2
(número total de sujetos, restando un sujeto a
cada grupo).
X
–
D = Media de las diferencias,
s2
D = Varianza de las diferencias,
N = número de sujetos o de pares de pun-
tuaciones; los grados de libertad son N-1.
EL CONTRASTE DE MEDIAS
277
11
Aunque si no hay un grupo de control o de contraste (término de comparación) es-
ta comprobación de un cambio puede ser cuestionable; conviene estudiar cuál debe ser el
diseño apropiado en estos casos. Otros métodos para verificar un cambio los tenemos en
el capítulo siguiente, la prueba de los signos (nº 8.2.3) y la prueba de McNemar (nº 10.2);
también tenemos la prueba no paramétrica de la T de Wilcoxon que no tratamos aquí.
Podemos observar la semejanza de esta fórmula [9] con la fórmula [4]. En
realidad se trata del mismo planteamiento: comparar la media en cambio de
una muestra, con la media m = 0 de una población que no hubiera cambiado
nada.
Los grados de libertad son N-1 o número de pares de observaciones me-
nos uno (es decir, N = número de sujetos, pues cada uno tiene dos puntua-
ciones). Con muestras grandes se consultan las tablas de la distribución nor-
mal, y con muestras pequeñas las de la t de Student.
Podemos ver la aplicación de esta fórmula [9] con un ejemplo ficticio.
Cuatro sujetos han respondido a una pregunta (respuestas de 1 a 6) antes y
después de una experiencia.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
278
Antes Después Diferencia
2 4 4-2 = 2
3 3 3-3 = 0
4 5 5-4 = 1
5 6 6-5 = 1
Media 3.5 4.5 1.0
s 1.118 1.118 .707
Utilizando la media y desvia-
ción en cambio (después me-
nos antes) y aplicando la fór-
mula 12, tendremos:
La correlación entre antes y después es r = .80; si utilizamos el denomina-
dor de la fórmula [3] tendríamos:
El resultado es el mismo, pero es claro que en este caso (muestras rela-
cionadas) es preferible utilizar la fórmula [9].
4.8. Variables que influyen en el valor de t (o z)
Los valores máximos y mínimos que solemos encontrar en las puntuacio-
nes típicas (y en la t de Student que es una puntuación típica, la puntuación
típica de una diferencia) suelen oscilar (pueden ser mucho mayores) entre –3
y +3; lo que queda fuera de ±1.96 lo consideramos ya atípico, poco proba-
ble (sólo en el 5% de los casos se supera por azar un valor de ±1.96).
Sin embargo al calcular la t de Student nos encontramos con frecuencia con
valores muy altos, sobre todo cuando el número de sujetos es muy grande.
El cociente aumentará si aumenta el numerador (si la diferencia es gran-
de), pero también aumentará, aunque el numerador sea pequeño (diferencia
cuantitativamente pequeña) si disminuye el denominador…
¿Qué factores influyen en que disminuya el denominador y que por lo tan-
to el cociente sea mayor?
En el denominador tenemos otro quebrado:
a) El cociente disminuirá si disminuye el numerador (la varianza de los
grupos).
A mayor homogeneidad en los grupos (menor varianza), la diferencia se-
rá significativa con más probabilidad. Esto es además conceptualmente razo-
nable: no es lo mismo una diferencia determinada entre dos grupos muy he-
terogéneos (mucha diversidad dentro de cada grupo) que entre dos grupos
muy uniformes… Una diferencia entre las medias de dos grupos muy hetero-
géneos puede variar si tomamos otras dos muestras igualmente muy hetero-
géneas, pero si la diferencia procede de dos muestras con sujetos muy pare-
cidos, con pequeñas diferencias entre sí, hay más seguridad en que se
mantenga la diferencia entre otros pares semejantes de grupos.
b) El cociente disminuirá si aumenta el denominador del denominador,
que es el número de sujetos. Con muestras grandes es más fácil encontrar di-
ferencias significativas.
¿Qué podemos decir sobre el hecho de que aumentando el número de suje-
tos encontramos fácilmente diferencias estadísticamente significativas? ¿Que
con un número grande de sujetos podemos demostrar casi lo que queramos…?
1º En parte sí; con números grandes encontramos con facilidad diferen-
cias significativas. Pero esto no tiene que sorprendernos porque de he-
cho hay muchas diferencias entre grupos que se detectan con más faci-
lidad cuando los grupos son muy numerosos. En la vida real la
Hipótesis Nula (m1 = m2) suele ser falsa y cuando no la rechazamos sue-
le ser por falta de sujetos.
¿Qué factores influyen en que encontremos una t de Student grande o
simplemente estadísticamente significativa?
Este punto es sencillo e importante porque nos facilita la interpretación
de nuestros resultados e incluso proponer nuevas hipótesis…
Observamos la fórmula general [5] (para
muestras grandes e independientes y de
tamaño distinto):
EL CONTRASTE DE MEDIAS
279
2º Estas diferencias significativas que descubrimos, sobre todo con mues-
tras grandes, son con frecuencia diferencias pequeñas y a veces trivia-
les. Una diferencia estadísticamente significativa no es una diferencia
necesariamente grande o relevante.
3º Disponer de un número grande de sujetos es como mirar de cerca:
vemos incluso las cosas pequeñas. Disponer de un número pequeño
de sujetos es como mirar de lejos: sólo vemos las cosas grandes. Dife-
rencias grandes y obvias las descubrimos con pocos sujetos. Con mu-
chos sujetos (si miramos de cerca) descubrimos muchas diferencias
entre grupos que pueden no tener mayor importancia.
4º Una diferencia no significativa, sobre todo si es grande y con muestras
pequeñas, puede ser importante en una situación dada (aunque no se
pueda extrapolar, puede decir algo relevante de la situación analizada
o permite establecer como hipótesis que con muestras mayores sí po-
dríamos encontrar una diferencia estadísticamente significativa).
¿Qué hacer entonces?
a) Por lo menos deberíamos utilizar siempre las expresiones apropiadas y
no hablar simplemente de diferencias significativas, sino de diferen-
cias ‘estadísticamente’ significativas. El adverbio estadísticamente ya
expresa los límites de nuestras conclusiones. También se debe evitar la
expresión diferencia ‘muy’ significativa, porque ese muy invita a pen-
sar en diferencias grandes o relevantes: a mayor valor de z o t tenemos
más seguridad, menos probabilidad de error al afirmar la diferencia
(que la diferencia no es cero), pero sin referencia directa a la magnitud
o a la relevancia de esa diferencia. Por otra parte esa mayor seguridad
es con frecuencia irrelevante pues ya ponemos el umbral de la seguri-
dad (nivel de confianza) suficientemente alto.
b) Muchas veces nos bastará con saber si hay o no hay una diferencia esta-
dísticamente significativa entre dos grupos, es decir, si difieren más de
lo que podemos esperar casualmente entre muestras de la misma po-
blación y podemos extrapolar el hecho de la diferencia (una diferencia
distinta de cero) a otros pares de muestras semejantes. Muchos plan-
teamientos de investigación se quedan aquí (y por eso con frecuencia se
quedan cortos; no se aprovechan bien los datos disponibles).
c) Aun en estos casos un valor significativo de t (una diferencia estadísti-
camente significativa) no debemos asumirla ingenuamente como un
criterio de certeza. Tenemos que considerar a qué poblaciones pueden
representar esas muestras para no hacer extrapolaciones poco pruden-
tes; con frecuencia no son muestras aleatorias (porque se trata de gru-
pos hechos, son las muestras que están disponibles). La interpretación
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
280
mínima prudente es concluir que la diferencia entre estos dos grupos es
muy poco probable que se deba al azar.
d) Como criterio general no debemos limitarnos a comprobar si una dife-
rencia es o no es estadísticamente significativa. Es lo más frecuente,
pero no es una buena práctica. Además debemos buscar un dato más
claro sobre cuál es la magnitud de la diferencia, para poder interpre-
tarla y valorarla como grande, moderada, pequeña… y poder juzgar
mejor sobre su relevancia.
Para poder valorar la magnitud de la diferencia tenemos el cálculo del tama-
ño del efecto que nos cuantifica la magnitud de la diferencia en valores fácilmen-
te interpretables. Además se expresa en unos valores que nos permiten compa-
rar unas diferencias con otras aunque provengan de instrumentos distintos y de
escalas métricas distintas. Disponemos además de criterios para valorar su mag-
nitud. Todo lo referido a la magnitud de la diferencia (tamaño del efecto) lo ex-
ponemos en al apartado siguiente (nº 6) sobre análisis complementarios.
5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES)
El contraste entre proporciones (o porcentajes multiplicando por 100) es
un caso particular del contraste entre medias; en este caso la media oscilará
entre 0 y 1.
Introducimos el contraste entre proporciones con un ejemplo. Dos gru-
pos distintos responden sí o no a la misma pregunta:
Grupo A Grupo B uniendo ambos grupos
Responden sí: 65 (81%) 52 (58%) 117 (69%)
Responden no 15 (19%) 38 (42%) 53 (31%)
Total de sujetos en cada grupo: 80 (100%) 90 (100%) 170 (100%)
La pregunta que nos hacemos es ésta: la diferencia en responder sí entre
estos dos grupos (entre el 81% del grupo A y el 58% del grupo B) ¿Es mayor
de lo que podríamos esperar por azar? ¿Existe una diferencia estadísticamen-
te significativa entre los dos porcentajes?
Para comparar proporciones tanto entre muestras independientes como
entre muestras relacionadas, posiblemente el procedimiento más utilizado es
la prueba del ji cuadrado12
, que por otra parte es muy sencillo. Con ambos
procedimientos se llega a las mismas conclusiones. Tratando del contraste de
medias es oportuno ver también cómo se aplica al contraste de proporciones.
EL CONTRASTE DE MEDIAS
281
12
La prueba del ji cuadrado la tratamos en el capítulo siguiente.
La probabilidad de que la diferencia sea aleatoria es casi del 1 por mil.
6. ANÁLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CÓMO CUANTIFICAR LA MAGNITUD
DE LA DIFERENCIA
6.1. Finalidad del tamaño del efecto
Para obviar las limitaciones del mero contraste de medias, se ha ido impo-
niendo el cálculo del denominado tamaño del efecto (effect size en inglés).
Aunque los resultados los expresemos frecuentemente en porcentajes
(%), los cálculos se hacen con proporciones. El procedimiento es análogo al
del contraste de medias: dividimos una diferencia entre proporciones por el
error típico de la diferencia entre dos proporciones, que está en el denomi-
nador de la fórmula [10]. En rigor lo que tenemos en el numerador no es la
diferencia entre dos proporciones, sino la diferencia entre una diferencia (la
nuestra) y una diferencia de cero.
En la fórmula [10] tenemos en el denominador el error típico de la dife-
rencia entre dos proporciones13
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
282
13
En muchos textos la fórmula aducida para el contraste de proporciones indepen-
dientes es la misma fórmula vista para el contraste de medias (fórmula [5]), con la salve-
dad de que se utiliza pq para expresar las varianzas de los dos grupos (p1q1 y p2q2 en vez de
esta fórmula es correcta cuando p y q tienen valores parecidos; cuando los va-
lores de p o q son muy extremos, y siempre en general, la fórmula preferible es la puesta
aquí (en Downie y Heath, 1971, puede verse una explicación más amplia); además es uti-
lizando esta fórmula cuando la equivalencia con el ji cuadrado (tablas 2x2) es exacta (z2
=
c2
). Este contraste de proporciones y procedimientos alternativos (ji cuadrado) puede
verse también en el capítulo IX.
Y aplicando la fórmula [10] a nuestros datos:
La expresión es quizás poco afortunada; el término tamaño ya expresa que se
trata de cuantificar una diferencia; del efecto se refiere al resultado de un tra-
tamiento experimental o consecuencia de una determinada variable indepen-
diente, pero estos términos se utilizan también en los casos en los que hay un
simple contraste de medias, sin un diseño experimental propiamente dicho14
.
Como ya hemos indicado anteriormente, al comparar dos medias nos ha-
cemos dos preguntas:
1ª ¿Podemos afirmar que la diferencia encontrada entre dos muestras es ex-
trapolable a las poblaciones representadas por esas muestras? A esta pre-
gunta respondemos con el contraste de medias habitual (t de Student).
2ª ¿Cuáles la magnitud de la diferencia? ¿Grande, pequeña…? La magni-
tud nos servirá además para juzgar sobre la relevancia de la diferencia.
La información que nos da el tamaño del efecto nos ayuda a responder a
esta segunda pregunta. Cuando se trata de una diferencia entre proporcio-
nes, las diferencias posibles oscilan entre 0 y 1; en este caso no hay mayor
problema tanto para apreciar la magnitud de la diferencia como para compa-
rar unas diferencias con otras, pero esta comparación directa no es posible
cuando las escalas métricas utilizadas son distintas.
6.2. Procedimientos en el cálculo del tamaño del efecto
Los procedimientos más utilizados (hay otros) son dos (que a su vez admi-
ten variantes):
1º El cálculo de coeficientes de correlación (que como todo coeficiente
de correlación cuantifican de 0 a 1 los resultados);
2º Una diferencia tipificada, que es lo que con más propiedad, o al me-
nos más habitualmente, se denomina tamaño del efecto.
6.2.1. El coeficiente de correlación biserial- puntual
Una manera de cuantificar la magnitud de la diferencia en términos
más interpretables consiste en convertir el valor de t en un coeficiente de co-
rrelación biserial-puntual (rbp) en el que una variable es dicotómica (perte-
14
El cálculo del tamaño del efecto lo exige ya la política editorial de buenas revistas
(como Educational and Psychological Measurement, Thompson, 1996, y muchas otras
como Journal of Experimental Education y Journal of Applied Psychology, Hubbard y
Ryan, 2000; Huberty (2002) menciona 19 revistas en las que se exige presentar el tamaño
del efecto) y figura en las orientaciones (guidelines) de la American Psychological Asso-
ciation (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs,
1999, American Psychological Association, 2001).
EL CONTRASTE DE MEDIAS
283
Disponemos los datos de la manera usual (dos columnas, x e y):
necer a uno u otro grupo, 1 ó 0), y la otra variable es continua (la utilizada al
comparar las medias). Estos coeficientes son semejantes al coeficiente de co-
rrelación de Pearson (r) y se interpretan de manera semejante; el término bi-
serial-puntual indica que una de las dos variables es dicotómica.
La conversión del valor de t en un coeficiente de correlación se hace me-
diante esta fórmula:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
284
Si los grupos son de idéntico tamaño, tendríamos el mismo resultado si
calculáramos directamente la correlación entre pertenecer a uno u otro gru-
po (1 ó 0) y la puntuación de cada sujeto en la variable dependiente (la que
hemos medido).
Podemos verlo con ejemplo sencillo: tenemos estas dos muestras de cua-
tro sujetos cada una y calculamos la t de Student para contrastar las medias:
grupo A grupo B Calculamos la t de Student:
9 5
9 9
7 6
8 6
X
–
= 8.25 6.50
s = .83 1.5
Podemos pensar ahora en términos de correlación entre la variable que
hemos medido (X) y el pertenecer o no a uno de los grupos (Y): pertenecer
al grupo A = 1 y B (no pertenecer al grupo A) = 0
X Y
9 1
9 1
7 1
8 1
5 0
9 0
6 0
6 0
A este coeficiente de correlación también se le denomina genéricamente
tamaño del efecto, aunque la expresión tamaño del efecto se suele reservar
para la diferencia tipificada que veremos después. Algunos autores, para dis-
tinguir ambos cálculos, denominan a esta correlación magnitud del efecto.
La finalidad y utilidad de este coeficiente de correlación es clara:
1º Es un dato sobre la magnitud y no sobre si una diferencia es simple-
mente estadísticamente significativa o no (si es o no es extrapolable a
la población el hecho de una diferencia distinta de cero).
2º Dos valores de t obtenidos en pares de muestras de tamaño distinto, o
en variables distintas, no son fácilmente comparables entre sí; en cam-
bio esta conversión nos traduce el resultado (una diferencia) a térmi-
nos comparables y más fácilmente interpretables. Los juicios sobre si
una diferencia es o no es relevante, de importancia práctica, etc., no
dependen solamente de que sea estadísticamente significativa (a veces
nos puede bastar con eso), sino también de que sea grande o peque-
Si calculamos la correlación (que denominamos biserial-puntual porque
una de las dos variables es dicotómica) tenemos que r = .585
Ahora calculamos el mismo coeficiente a partir del valor de t, fórmula [11]:
; hemos llegado al mismo resultado
Un mismo valor de t va a equivaler a coeficientes de correlación más bajos
según aumente el número de sujetos (aumentará el denominador y disminui-
rá el cociente). Podemos verlo en este ejemplo (tabla 1) en que se mantiene
constante el valor de t (en todos los casos p  .01) y se van variando los gra-
dos de libertad (número de sujetos).
N1 N2 gl t rbp r
20 20 38 3.60 .50 .25
50 50 98 3.60 .34 .12
100 100 198 3.60 .25 .06
500 500 998 3.60 .11 .01
Tabla 1
EL CONTRASTE DE MEDIAS
285
Los símbolos para expresar el tamaño del efecto varían según las fórmulas
utilizadas para calcular la desviación típica del denominador; en la fórmula [12]
utilizamos el símbolo d porque corresponde a una de las fórmulas más utiliza-
das (de Cohen). Con frecuencia se utiliza d como símbolo genérico del tamaño
del efecto, pero hay otros símbolos que iremos viendo (como g y D) y que co-
rresponden a otras fórmulas; a veces se utiliza ES (del inglés Effect Size).
Aunque la desviación típica del denominador se puede calcular de diver-
sas maneras (a partir de las desviaciones típicas que ya conocemos en las
muestras) es en todo caso una estimación de la desviación típica de la pobla-
ción común a ambos grupos. Lo que es importante ahora es captar que el ta-
maño del efecto es una diferencia tipificada: una diferencia entre dos me-
dias dividida por una desviación típica. Viene a ser lo mismo que una
puntuación típica (z) (como podemos ver por la fórmula [12]), por lo que su
interpretación es sencilla y muy útil.
Antes de ver las fórmulas específicas de la desviación típica del denomina-
dor, es de especial interés entender las interpretaciones y usos del tamaño
del efecto, que se derivan del hecho de que se puede interpretar como una
ña…; incluso una diferencia no estadísticamente significativa puede ser
importante en una situación dada si es grande.
Cuando nos planteamos un contraste de medias podemos plantearnos co-
mo análisis alternativo el simple cálculo de la correlación entre la pertenencia
a un grupo u otro (1 ó 0) y la variable dependiente; por lo que respecta a re-
chazar o no la Hipótesis Nula, las conclusiones van a ser las mismas.
6.2.2. Tamaño del efecto (diferencia tipificada)
6.2.2.1. Concepto y fórmula general
El cálculo más frecuente para cuantificar la diferencia entre dos medias y
apreciar mejor su magnitud lo tenemos expresado por la fórmula general (ad-
mite variantes que veremos después)15
:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
286
15
Una presentación completa del tamaño del efecto en Coe (2000) (en Internet); tam-
bién se encuentra ampliado en Morales (2007c, El tamaño del efecto (effect size): análi-
sis complementarios al contraste de medias).
Tamaño del efecto (muestras independientes): [12]
puntación típica (realmente es una diferencia expresada en desviaciones
típicas).
6.2.2.2. Interpretación y utilidad del tamaño del efecto (diferencia tipificada)
Antes de exponer los diversos modos de hallar la desviación típica del de-
nominador podemos aclarar cómo se interpreta este tamaño del efecto y
cuál es su utilidad.
1º Comparación de diferencias que provienen de medidas obtenidas con ins-
trumentos distintos
Lo que obtenemos mediante estas fórmulas es una diferencia tipificada: nos
dice a cuántas desviaciones típicas equivale la diferencia entre dos medias.
La primera consecuencia que se deriva de esta transformación es que el
valor de este tamaño o magnitud es independiente de las puntuaciones
originales; todas las diferencias quedan expresadas en el mismo sistema
de unidades y por lo tanto estos valores son comparables entre sí aun
cuando vengan de estudios distintos e incluso aunque se hayan utilizado
instrumentos distintos. Es lo mismo que sucede con las puntuaciones típi-
cas convencionales: vengan de donde vengan sus magnitudes son compa-
rables entre sí.
Si, por ejemplo, hemos comparado dos grupos en autoestima utilizan-
do en una ocasión una escala con 4 respuestas, y en otra ocasión, con otros
dos grupos, hemos hecho la misma comparación utilizando una escala con
6 respuestas o con otros ítems, las diferencias entre las medias no son
comparables directamente entre sí, pero sí lo son las diferencias tipifica-
das. Si utilizamos métodos distintos de aprendizaje con dos grupos y com-
paramos después su rendimiento en dos asignaturas distintas, con tests
distintos, etc., las diferencias entre estos grupos no se pueden comparar
directamente entre sí (puede haber incluso un número distinto de pregun-
tas en cada test), pero sí podemos comparar los dos tamaños del efecto, y
comprobar en qué asignatura uno de los métodos ha sido mejor que el
otro.
2º Síntesis cuantitativas de resultados que provienen de estudios distintos
Como todos los valores del tamaño del efecto son comparables entre sí,
de estos valores se puede calcular la media procedente de estudios diferen-
tes, para resumir todos los resultados en un único dato. Este es el precisa-
mente el procedimiento utilizado en el meta-análisis para integrar los resul-
tados de diversos estudios. La técnica del meta-análisis se utiliza para
establecer el estado de la cuestión en un determinado tema, integrando los
EL CONTRASTE DE MEDIAS
287
resultados de estudios múltiples, con un menor peligro de subjetivismo que
en las revisiones puramente cualitativas (que tampoco se excluyen).
Sin necesidad de hacer un meta-análisis en sentido propio, cualquier in-
vestigador que haya hecho varios estudios comparando diversos pares de me-
dias en la misma variable, puede calcular la media de los tamaños del efecto
para presentar una síntesis de sus resultados. También puede verificar qué ca-
racterísticas (por ejemplo de la situación, de la muestra, etc.) están asociadas
al tamaño del efecto (calculando coeficientes de correlación, o haciendo aná-
lisis equivalentes, entre estas características y el tamaño del efecto; cada estu-
dio o comparación particular se convierte en el sujeto del nuevo análisis).
Esta posible integración de estudios o experimentos pequeños puede ser
de mucho interés. Cada estudio en particular puede ser poco conclusivo o te-
ner muchas limitaciones, o pueden tener resultados bastante distintos de
otros semejantes (diferencia grande en una ocasión, pequeña en otra, etc.),
pero la posibilidad integrar todos los resultados revaloriza los pequeños estu-
dios o experimentos y los hace más útiles16
.
3º Valoración de la relevancia y significación práctica de las diferencias
Si suponemos que la distribución es normal en la población (y en princi-
pio podemos suponerlo), esta diferencia tipificada nos da una información
adicional que nos permite valorar mejor la relevancia de nuestros resultados.
El que una diferencia sea estadísticamente significativa puede no decir mu-
cho en términos de relevancia; además tampoco es fácil formular juicios so-
bre la magnitud de una diferencia observando solamente la diferencia en tér-
minos absolutos. Y sin una idea clara sobre la magnitud es difícil formular
juicios sobre relevancia práctica.
Para interpretar y valorar el tamaño del efecto nos basta saber que en de-
finitiva se trata de una puntuación típica, su relación con la distribución nor-
mal nos es aquí muy útil. Para interpretar el tamaño del efecto buscamos en
las tablas de la distribución normal (en el área mayor) cuantos sujetos caen
por debajo de la puntuación típica que es igual a nuestro tamaño del efecto.
Si, por ejemplo, obtenemos un tamaño del efecto de d = 1 al comparar
dos medias, la diferencia entre las dos medias es de una desviación típica
(figura 8).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
288
16
Una exposición más amplia sobre el origen del meta-análisis y su utilidad puede ver-
se en Morales (1993).
a) La media del grupo con media mayor se aparta una desviación típi-
ca de la media del grupo con media más pequeña. La media más pe-
queña es ahora igual a 0 y la media mayor es igual a 1 (se aparta 1s de
la otra media).
b) Según las proporciones que nos indica la tabla de la distribución nor-
mal, el sujeto medio del grupo con media mayor, supera al 84% de los
sujetos del grupo con media menor (con frecuencia el grupo de con-
trol). La misma puntuación que en un grupo (el de media mayor) equi-
vale al Percentil 50, en el otro grupo (con media menor) corresponde
al Percentil 84: el mismo sujeto medio del grupo con media mayor su-
pera a un 34% más de sujetos si lo incluimos en el grupo con media
más baja.
Sobre cuándo se puede considerar grande o pequeño un determinado valor
del tamaño del efecto, suelen aceptarse estas orientaciones (Cohen, 1988)17
:
d = .20 (pequeño),
d = .50 (moderado)
d = .80 (grande).
Estas orientaciones son un tanto arbitrarias aunque son muy aceptadas co-
mo razonables y citadas en la bibliografía experimental.
EL CONTRASTE DE MEDIAS
289
17
Otras valoraciones y su justificación pueden verse en Lane, David (Rice University)
(2007) (en 18. Measuring Effect Size).
Figura 8
La interpretación basada en la distribución normal es sólo literalmente vá-
lida si las distribuciones observadas en los dos grupos son normales; pero si
se apartan de la distribución normal cabe hablar de aproximaciones; en cual-
quier caso se trata de un dato sobre la magnitud de la diferencia, una magni-
tud expresada en desviaciones típicas y en el número de sujetos que caen por
debajo de esa puntuación típica.
La justificación de estas valoraciones va en esta línea:
a) Las diferencias pequeñas (en torno a d = .20) pueden parecer muy
pequeñas como referencia útil y ciertamente su relevancia práctica
puede ser nula o escasa, pero estas pequeñas diferencias pueden igual-
mente ser de interés en muchas situaciones: en áreas nuevas de inves-
tigación, en estudios meramente explorativos (para ver si merece la pe-
na continuar…), cuando los diseños son muy modestos y no se
controlan bien otras variables, o cuando se utilizan instrumentos de
medición muy limitados o en período de experimentación, etc.; en es-
te tipo de situaciones podemos suponer que con mejores instrumen-
tos y diseños estas diferencias podrían mayores18
.
b) Por diferencias moderadas (en torno a d = .50) se entienden aquí aque-
llas diferencias entre grupos que pueden detectarse por simple observa-
ción o aquellas diferencias que la experiencia nos hace caer en la cuenta
de que efectivamente están allí (por ejemplo, un determinado tipo de
alumnos suele terminar mejor que los demás, etc.); traducidas estas dife-
rencias a coeficientes de correlación, estos coeficientes pueden tener un
valor en torno a .25 ó .30.
Siguiendo las valoraciones de Cohen tenemos que (tabla 2):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
290
18
Como nota el autor (Cohen, 1988), en la investigación sobre personalidad, psicolo-
gía clínica, etc., es normal encontrar diferencias (o correlaciones) pequeñas en parte por
los problemas de validez en los instrumentos utilizados y en buena parte también por la
complejidad de las situaciones, interacción entre variables, etc. Cohen (1988) justifica bien
estas valoraciones que propone simplemente como orientadoras.
El sujeto medio del grupo con media mayor
Tamaño del efecto supera en su propio supera en el grupo
grupo al con media inferior al
d = .20 50 % 58 % (diferencia pequeña)
d = .50 50 % 69 % (diferencia moderada)
d = .80 50 % 79 % (diferencia grande)
Tabla 2
Convencionalmente suele considerarse un valor de d = .50 como de
significación práctica (importante); cuando se trata de resultados
de rendimiento escolar o de investigación educacional se conside-
ran de relevancia práctica valores en torno a .30 (Borg, Gall, y Gall,
1993; Valentine y Cooper, 2003).
c) El considerar una diferencia grande a partir de d = .80 puede parecer
poco a simple vista; es muy frecuente encontrar tamaños del efecto
mucho mayores. Lo que se tiene aquí en cuenta al valorar como gran-
de una magnitud que no lo es mucho en términos absolutos, es que no
merece la pena limitarse a definir como grandes aquellas diferencias
tan obvias que prácticamente hacen inútil el análisis estadístico19
.
Con frecuencia es más informativo comparar unos valores con otros
cuando tenemos varios tamaños del efecto en una misma investigación
o en el mismo planteamiento, o buscar como referencia qué valor suele
obtenerse en estudios similares. En cualquier caso el comprobar el per-
centil del sujeto medio del grupo con media mayor (en el que estaría en
el percentil 50 en su propio grupo) cuando le situamos en el grupo con
media inferior nos permite apreciar mejor si la diferencia es importante.
4º El tamaño del efecto cuando la diferencia no es estadísticamente
significativa
El proceso normal en un contraste de medias es 1º descartamos el azar
(verificamos si la diferencia es estadísticamente significativa) y 2º verifica-
mos la magnitud de la diferencia (tamaño del efecto). Cuando el valor de t no
es estadísticamente significativo el tamaño del efecto suele ser también muy
pequeño, pero no siempre es éste el caso, sobre todo con muestras peque-
ñas. Una diferencia grande calculada en muestras pequeñas puede darnos un
valor de t que no es estadísticamente significativo, por esta razón merece la
pena calcular el tamaño del efecto cuando la diferencia no es estadísticamen-
te significativa, sobre todo si se trata de muestras pequeñas.
El que el valor de t no sea estadísticamente significativo quiere decir que la
diferencia no es extrapolable a las poblaciones representadas por esas dos mues-
tras, al menos con los sujetos disponibles, y no se puede presentar como un re-
sultado o conclusión según el nivel de confianza especificado previamente, pe-
ro puede tener su importancia en una situación concreta, en la que además, si
contáramos con más sujetos, la diferencia sería probablemente estadísticamen-
te significativa; esto es algo que al menos se puede proponer como hipótesis.20
EL CONTRASTE DE MEDIAS
291
19
Cohen (1988) cita aquí un comentario de Tukey: el confirmar diferencias muy gran-
des y obvias con análisis estadísticos equivale a una canonización estadística.
20
Sobre si se debe o no calcular y exponer el tamaño del efecto cuando la diferencia
no es estadísticamente significativa es algo discutido entre autores (Gliner, Leech y Mor-
Un ejemplo real21
:
Para evaluar la eficacia de una terapia familiar se comparan un grupo
experimental (N = 10) con un grupo de control (N = 11). El valor de t es
1.62, claramente no significativo; con estos datos no podemos afirmar que la
diferencia en las poblaciones sea distinta de cero. Con tan pocos sujetos (la
unidad de análisis no es propiamente cada sujeto individual, sino cada fami-
lia) no es tan fácil obtener diferencias estadísticamente significativas, aunque
la diferencia está favor del grupo experimental (y de la eficacia de la terapia).
Encontramos sin embargo que el tamaño del efecto (al comparar los dos
grupos en nivel de conflicto familiar después de la terapia) es d = .69. Por
debajo de z = .69 cae el 75 % de los casos; esto quiere decir que la familia
media del grupo experimental supera en ausencia o disminución de conflic-
tos al 75 % de las familias del grupo de control. Es una diferencia de tamaño
moderado-alto que indica que algo positivo y de interés está sucediendo
aquí; es un buen resultado que se puede quizás confirmar con mayor segu-
ridad en estudios semejantes. Esta es una conclusión más sensata que el limi-
tarse a enunciar sin más que la diferencia no es estadísticamente significati-
va, no ha habido cambio, aceptamos la hipótesis nula, etc. Por otra parte la
mera diferencia entre las dos medias no nos dice nada de particular si no la
traducimos al tamaño del efecto para apreciar mejor la magnitud de esa di-
ferencia. Una diferencia de magnitud apreciable (tal como lo vemos en el ta-
maño del efecto) pero que no es estadísticamente significativa nos permite al
menos proponer y justificar hipótesis para futuras investigaciones.
5º Tamaño del efecto y tamaño de la muestra
El tamaño de la muestra suele plantearse cuando interesa extrapolar los
resultados a la población con un margen de error pequeño o al menos tolera-
ble. Esto es lo que sucede con los sondeos de opinión de carácter sociológi-
co, y de este punto hemos tratado brevemente a propósito del error típico de
la media.
Frecuentemente no estamos interesados directamente en extrapolar
nuestros resultados a una población grande, sino en detectar posibles dife-
rencias entre determinadas muestras; por ejemplo nos puede interesar veri-
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
292
gan, 2002). Las recomendaciones de la A.P
.A. son sin embargo muy claras ‘always’ report
effect sizes (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Af-
fairs, 1999); una razón para calcular el tamaño del efecto, aunque la diferencia no sea esta-
dísticamente significativa, es además que facilita el integrar los resultados de cualquier in-
vestigación en un meta-análisis.
21
Tomado de Olalla, Consuelo (1993), Relaciones familiares y su modificación a tra-
vés de la terapia familiar sistémica. Tesis doctoral, Madrid, Universidad Pontificia Comillas.
ficar un cambio en función de un tratamiento, o verificar diferencias entre
grupos en planteamientos de evaluación, etc. En estos casos el tamaño de la
muestra depende (no solamente) de la magnitud de la diferencia que nos
interesa detectar.
Es importante captar la relación entre tamaño de la muestra y la magni-
tud de la diferencia en la que estamos interesados. Las diferencias grandes
se detectan con facilidad en muestras pequeñas. Un ejemplo sencillo: para
comprobar si pigmeos y escandinavos difieren en altura no necesitamos
muestras grandes: la diferencia la veremos con muy pocos sujetos porque se
trata de una diferencia que se aprecia a simple vista. Para captar diferencias
pequeñas y sutiles entre grupos, necesitaremos muestras mayores. Ya lo he-
mos indicado al tratar sobre las variables que influyen en el valor de t. Con
muestras grandes minimizamos la posibilidad de no ver diferencias cuando sí
las hay, aunque sean pequeñas.
En la práctica no solemos estar muy interesados en detectar diferencias
muy pequeñas, por ejemplo un cambio pequeño en función de un método o
tratamiento; en ese caso necesitaríamos muchos sujetos. Si nos interesan so-
lamente diferencias (tamaños del efecto) grandes, necesitaremos menos su-
jetos, aunque dejaremos fuera la posibilidad de encontrar diferencias no muy
grandes, pero que pueden ser de interés. En la práctica podemos buscar un
punto de equilibrio y buscar el número de sujetos suficiente para encontrar
diferencias de magnitud moderada.
Como criterio orientador, en la tabla 3 tenemos el tamaño de la muestra
necesario según el tamaño del efecto que estemos interesados en detectar, a
un nivel de confianza de a = .05 ó .01 (como es usual, un 5% de probabilida-
des de no equivocarnos al rechazar la hipótesis nula de no diferencia), y una
probabilidad del 80% de aceptar la hipótesis alterna cuando es verdadera22
.
EL CONTRASTE DE MEDIAS
293
22
Estas cifras (redondeándolas) las tomamos de Cohen (1988). Una exposición detalla-
da de las variables que influyen en el tamaño de la muestra, incluido el tamaño del efecto
deseado o previsto, y de las fórmulas apropiadas para calcularlo pueden verse en otros
autores como Kirk (1995), Hinkle, Wiersma y Jurs (1998) y en otros autores.
nivel de d =.20 d = .30 d =.50 d = .70 d =.80 d =.1.0 d =1.20
confianza
.05 392 174 63 32 25 16 12
.01 586 260 93 48 36 23 18
Tabla 3
Si por ejemplo estamos interesados en detectar diferencias grandes (d =
.80) con un nivel de confianza de a = .05 (5% de probabilidades de no encon-
trarlas si las hay), nos bastan grupos de 25 sujetos; si nos interesa encontrar
diferencias aunque sean pequeñas (como d = .30) nos harán falta muestras
mucho mayores (de unos 174 sujetos). Naturalmente de hecho podemos de-
tectar diferencias de estas magnitudes con muestras más pequeñas, pero tam-
bién nos exponemos a no verlas por falta de sujetos.
6.2.2.3. Fórmulas del tamaño del efecto: desviación típica del denominador
Vamos a distinguir cuatro posibilidades
1º Diferencia entre las medias de dos muestras independientes, cuando
no se trata de un diseño experimental (no hay un grupo de control
propiamente dicho).
2º Diferencia entre las medias de dos muestras relacionadas (diferencia
entre el pre-test y el post-test de la misma muestra).
3º Diferencia entre las medias de un grupo experimental y otro de control
(diseño experimental).
4º Diferencia entre las medias de un grupo experimental y otro de control
cuando los dos han tenido pre y post-test.
1º Dos muestras independientes
Éste es el caso posiblemente más frecuente. Tenemos dos maneras muy
parecidas de calcular la desviación típica combinada, la de Cohen (1977,
1988) y la de Hedges y Olkin (1985).
En la fórmula del tamaño del efecto de Cohen (símbolo d) se utilizan las
desviaciones típicas de las muestras, dividiendo por N (aquí las simbolizamos
como sn).
En la fórmula del tamaño del efecto de Hedges (símbolo g) se utilizan las
desviaciones típicas de la población, dividiendo por N-1 (aquí las simboliza-
mos como sn-1)
23
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
294
23
El símbolo g lo pone Hedges en homenaje a Gene Glass, autor importante en el
campo del meta-análisis.
Cohen: d = donde [13]
Las desviaciones típicas de la fórmula [13] (Cohen) se calculan divi-
diendo por N (desviación típica de las muestras)
Las desviaciones típicas de la fórmula [14] (Hedges) se calculan divi-
diendo por N-1 (estimación de la desviación típica de las poblaciones)
Estas desviaciones típicas del denominador del tamaño del efecto no son
otra cosa que una combinación de las desviaciones típicas de las dos mues-
tras; por eso suelen denominarse desviación típica combinada (en inglés
pooled standard deviation). Podemos verlo fácilmente (en la fórmula de Co-
hen se ve con más facilidad): utilizamos ahora la varianza en vez de la desvia-
ción típica para eliminar la raíz cuadrada:
EL CONTRASTE DE MEDIAS
295
Hedges: g= donde [14]
Sabemos que s2
= de donde
scombinada [15]
Para combinar dos desviaciones típicas sumamos los dos numeradores y
los dos denominadores, que es lo que tenemos en las fórmulas anteriores (en
el caso de la g de Hedges se utiliza N-1 en vez de N, como es usual cuando se
trata de la estimación de la desviación típica de la población).
Cuando N = N (muestras de idéntico tamaño) en ambos casos (fórmulas
[13] y [14]) la desviación típica combinada es igual a la raíz cuadrada de la me-
dia de las varianzas:
Podemos ver la diferencia entre las dos fórmulas en un ejemplo concreto
(ficticio, tabla 3). Tenemos dos grupos (muestra A y muestra B) de cuatro su-
jetos cada una. Calculamos en cada muestra la media y las dos desviaciones tí-
picas; para diferenciarlas utilizamos los subíndices n (dividimos por N) y n-1
(dividimos por N-1).
En este caso la diferencia no es estadísticamente significativa (t =1.987,
p = .094) pero el tamaño del efecto, calculado con cualquiera de las dos
fórmulas, puede considerarse como grande; esto no es inusual en muestras
pequeñas.
No podemos afirmar que ambas muestras procedan de poblaciones distin-
tas (no afirmamos una diferencia distinta de cero en la poblaciones) , pero
tampoco debemos ignorar la diferencia entre estos dos grupos de sujetos
concretos.
Vamos a calcular los dos tamaños del efecto (Cohen y Hedges):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
296
Muestra A Muestra B
16 18
12 14
14 16
14 18
Media 14 16.5
sn 1.414 1.658
sn-1 1.633 1.915
Tabla 3
Desviación típica combinada tamaño del efecto
Cohen: s = d =
Hedges: s = g =
Es natural que el tamaño del efecto sea mayor con la fórmula de Cohen
porque el denominador es menor (las desviaciones típicas de las muestras
son menores que las desviaciones típicas estimadas en la población).
Como en este ejemplo se trata de muestras de idéntico tamaño, podemos
utilizar la fórmula [15] para calcular la desviación típica combinada:
Lo habitual es combinar la desviación típica de dos grupos, pero también
pueden ser más de dos grupos24
.
Podemos utilizar cualquiera de las dos fórmulas (Cohen y Hedges); posi-
blemente la de uso más frecuente es la de Cohen [13], que se puede utilizar
rutinariamente.
Ya hemos visto (fórmulas [16] y [17]) que de una desviación típica pode-
mos pasar a la otra (de la desviación típica de la muestra sn a la de la pobla-
ción sn-1 y viceversa); de manera análoga podemos pasar de un tamaño del
efecto al otro (de d a g y de g a d). Ambas fórmulas del tamaño del efecto se
relacionan de esta manera (Rosenthal, 1994):
Cohen: s =
Hedges: s =
De cualquiera de estas dos fórmulas de la desviación típica combinada
([13] y [14]) podemos pasar a la otra:
sCohen = sHedges [16] sHedges =
[17]
sCohen = sHedges=
Con los datos del ejemplo anterior:
EL CONTRASTE DE MEDIAS
297
24
Si en el mismo planteamiento tenemos más de dos grupos, como sucede en el aná-
lisis de varianza, podemos calcular la magnitud del efecto (o diferencia tipificada) entre
cualesquiera dos grupos utilizando en el denominador la desviación típica combinada de
todos ellos. En el análisis de varianza para muestras independientes los cuadrados me-
dios dentro de los grupos (el denominador de la razón F) es precisamente la combinación
de las varianzas de los diversos grupos; esto se ve, naturalmente, al tratar del análisis de va-
rianza, pero no sobra indicarlo aquí
También es frecuente utilizar en el denominador la desviación típica com-
binada de antes y después; en cualquier caso conviene indicar qué desviación
típica se ha utilizado.
3º Diferencia entre las medias de un grupo experimental y otro de control
(diseño experimental) sin pre-test
La fórmula habitual (y con D, delta mayúscula, como símbolo) es la pro-
puesta por Glass, McGaw y Smith (1981), en la que se utiliza la desviación tí-
pica del grupo de control (dividiendo por N -1):
Las fórmulas [18] y [19] son semejantes a las fórmulas [16] y [17], substi-
tuyendo el valor de la desviación típica combinada por el tamaño del efecto.
2º Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la
misma muestra)
Cuando se trata de muestras relacionadas, se utiliza en el denominador
la desviación típica del post-test; en estos casos se verifica la magnitud del
cambio:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
298
[18]
[20]
[21]
[19]
a) La alternativa a utilizar en el denominador la desviación típica del gru-
po de control, es la desviación típica combinada de los dos o más
grupos (fórmulas [12] o [13]); ésta es también una práctica muy co-
mún y autorizada.
b) El utilizar la desviación típica del grupo de control es más recomenda-
ble cuando hay varios grupos experimentales con desviaciones típicas
muy distintas, o cuando el grupo de control es muy grande.
4º Grupos experimental y de control cuando los dos han tenido pre y
post-test
Cuando tenemos dos grupos, experimental y de control, y los dos con pre
y post-test, hay varios procedimientos25
pero es aceptable utilizar la fórmula
[13] o [14] con los datos del post-test, sobre todo si no hay diferencias impor-
tantes en el pre-test.
6.3. Transformaciones de unos valores en otros
Los valores de la t de Student, coeficiente de correlación (r) y diferencia ti-
pificada (d o g) están relacionados entre sí, de manera que a partir de cual-
quiera de ellos podemos pasar a los otros. Estas transformaciones pueden ser
muy útiles.
Ya hemos visto antes cómo calcular el coeficiente de correlación a partir
de la t de Student (fórmula [11]), y cómo calcular el tamaño del efecto de Co-
hen (d) a partir del tamaño del efecto de Hedges (g) (y viceversa, fórmulas
[16] y [17]).
Cuando se ha calculado previamente la t de Student se puede calcular di-
rectamente el tamaño del efecto (d ó g), de la misma manera que del tama-
ño del efecto podemos pasar a la t de Student:
[22] [23]
[24] [25]
Si se trata del tamaño del efecto g de Hedges (14], para calcularlo a partir
de la t de Student podemos distinguir cuando se trata de muestras de tamaño
idéntico o desigual26
:
con muestras de idéntico tamaño con muestras de tamaño desigual
También podemos pasar de la magnitud del efecto a un coeficiente de
correlación.
EL CONTRASTE DE MEDIAS
299
25
Expuestos y discutidos en Glass, McGaw y Smith (1981).
26
Fórmulas tomadas de Mahadevan (2000), pero es fácil encontrarlas en otros autores.
Sobre estas conversiones de unos valores en otros:
a) Los resultados son los mismos solamente cuando el número de sujetos
en los dos grupos es idéntico; en este caso da lo mismo calcular el ta-
maño del efecto con las fórmula directas que calcularlos a partir de la t
de Student.
b) Cuando el número de sujetos es desigual, la fórmulas del tamaño del
efecto calculadas a partir de t dan sólo una aproximación, pero muy
cercana al valor exacto del tamaño del efecto cuando los grupos no son
muy distintos en tamaño, del orden del 40% en uno y el 60% en el otro
(Rosenthal, 1987).
Todas estas conversiones27
pueden ser útiles por estas razones:
a) A veces facilitan las operaciones; lo más cómodo puede ser calcular el
valor del tamaño del efecto a partir del valor de t (fórmula [21]), sobre
todo cuando los tamaños de las muestras son iguales o muy parecidos.
En la fórmula [27] p es igual a la proporción de sujetos que corresponde a
uno de los dos grupos (n1/(n1+n2)) y q es igual a 1-p o la proporción de suje-
tos en el otro grupo. Si los grupos son de idéntico tamaño tenemos que p =
q = .5 y 1/pq = 4, tal como aparece en la fórmula [26].
Si se trata de convertir el valor de g (tamaño del efecto de Hedges) en un
coeficiente de correlación, la fórmula propuesta es la [28] (Mahadevan, 2000):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
300
27
Estas y otras conversiones pueden encontrarse en diversos autores, por ejemplo en
Rosenthal, 1987, 1991, 1994; Wolf, 1986; Hunter y Schmidt, 1990, Kirk, 1996, y otros.
[28]
[29]
[26] [27]
También podemos calcular el valor de d (tamaño del efecto de Cohen) a
partir del coeficiente de correlación.
b) Aunque prefiramos un enfoque determinado, el utilizar otro enfoque
puede ayudar a la interpretación. Lo más frecuente es calcular una dife-
rencia tipificada, pero el coeficiente de correlación elevado al cuadrado
nos dice la proporción de varianza debida a la variable experimental o
a pertenecer a un grupo o a otro y es también un dato de interés para
interpretar los resultados.
c) Puede interesar presentar con la misma métrica resultados que pro-
vienen de diversos estudios en los que se han utilizado análisis distin-
tos (t, r, etc.,). Esto es útil para hacer comparaciones y para calcular
medias como resumen de los resultados de estudios distintos pero to-
dos expresados en términos del tamaño del efecto (es lo que se hace
en el meta-análisis o integración cuantitativa de los resultados de va-
rios estudios o experimentos, y que se utiliza sobre todo para exponer
el estado de la cuestión en un determinado tema).
6.4. Utilidad del tamaño del efecto: resumen
El cálculo del tamaño del efecto es de especial utilidad por varias razones:
1º El tamaño del efecto informa sobre la magnitud de la diferencia y no
sobre la probabilidad de que esté dentro de lo aleatorio. Diferencias es-
tadísticamente significativas pueden ser muy pequeñas y poco relevan-
tes. Aporta una información básica para apreciar la relevancia de la di-
ferencia en una situación dada, y esto incluso aunque la diferencia no
sea estadísticamente significativa.
2º Se utiliza una métrica común que permite presentar diversos resulta-
dos, obtenidos de maneras distintas, incluso con instrumentos distintos,
en pares de muestras distintos, con los mismos estadísticos, de manera
que las magnitudes de las diferencias sean comparables directamente.
3º Permite calcular la media de varios tamaños del efecto, procedentes
de estudios distintos, para presentar una síntesis cuantitativa (como
se hace en la técnica del meta-análisis, o síntesis integradoras de los
resultados de varios estudios) y dejar así más claro el estado de la cues-
tión cuando disponemos de varias investigaciones sobre la misma va-
riable aunque haya sido medida con instrumentos distintos.
EL CONTRASTE DE MEDIAS
301
ANEXO 1: MODELO DEL CONTRASTE DE MEDIAS, RESUMEN
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
302
1º Preguntas que nos hacemos
1ª Estas dos medias, ¿Pertenecen a muestras de
la misma población? ¿O pertenecen a mues-
tras de poblaciones distintas que tienen dis-
tinta media?
2ª La diferencia entre estas dos medias ¿Es ma-
yor de la que se puede esperar por puro
azar? Porque si la diferencia está dentro de lo
normal, habrá que concluir que ambas me-
dias pertenecen a muestras de la misma po-
blación; no habrá que interpretar la diferen-
cia como una verdadera diferencia, ya que el
error muestral explica suficientemente esa
diferencia.
3ª Esta diferencia entre dos medias, ¿Se aparta
mucho, más de lo normal de la diferencia
cero? Si no se aparta significativamente de la
diferencia cero habrá que interpretarla como
una no diferencia entre las poblaciones.
Estas tres preguntas son
equivalentes: lo que nos
preguntamos, de diversas
maneras, es si las dos
muestran pertenecen o
no a la misma población.
Teoría subyacente:
distribución muestral de
las diferencias entre
medias; error típico de la
distribución muestral.
2º Proceso para llegar a una respuesta
1º Calculamos una diferencia entre dos medias
(d = |X
–
1 – X
–
2|);
2º Esta diferencia, en el caso de que las mues-
tras pertenezcan a la misma población, ¿Es
probable o es improbable? (es decir es nor-
mal o rara, esperable o no esperable…)
Para comprobarlo debemos calcular en
cuántas sigmas (aquí errores típicos) se
aparta esa diferencia de la diferencia media
de cero, que es la media de las diferencias
cuando las dos muestras pertenecen a la
misma población y no hay más diferencias
que las casuales.
Para comprobar si esta diferencia es normal
calculamos su puntuación típica: z = (d - 0)/sd
que nos dirá si la diferencia está dentro de lo
normal y probable
Teoría subyacente:
relación entre
puntuaciones típicas y
probabilidad de
ocurrencia en la
distribución normal.
La media es 0 en este
caso; sd es el error típico
(desviación típica) de la
distribución de las
diferencias entre medias
de la misma población.
3º Interpretación de la Razón crítica (z o t)
El valor de z (o de t)
escogido como límite
entre lo probable e
improbable dependerá
de nuestro nivel de
confianza.
4º Conclusiones
La Hipótesis Nula establece que si hay diferencia, ésta se explica por el error
muestral (que podemos convencionalmente denominar azar). Un sí o un no a la
Hipótesis Nula es lo único que afirmamos (con una determinada probabilidad de
error; el sí o el no no son absolutos) mediante el cálculo de la t de Student (o z).
Aceptaremos la Hipótesis Alterna si rechazamos (no aceptamos) la Hipótesis Nu-
la, pero en este paso puede haber otras fuentes de error (un mal diseño, muestra
inadecuada, etc.). Tampoco concluimos si la diferencia es grande o pequeña; sim-
plemente afirmamos que es muy improbable que esa diferencia sea cero en la po-
blación. Para apreciar la magnitud de la diferencia calculamos el tamaño del
efecto.
1º se rechaza o no se re-
chaza la Hipótesis Nula
(o el azar como expli-
cación de la diferen-
cia);
2º consecuentemente se
acepta o no se acepta
la Hipótesis Alterna.
z (o t) grande
La diferencia es muy
improbable si ambas
muestras pertenecen a
la misma población.
Luego es más probable
que las muestras proce-
dan de poblaciones
distintas.
z (o t) pequeña
La diferencia está den-
tro de lo normal y pro-
bable si ambas muestras
pertenecen a la misma
población.
Luego es más probable
que las muestras proce-
dan de la misma pobla-
ción.
1ª Rechazo el azar
(error muestral) co-
mo explicación de la
diferencia.
2ª Acepto que las
muestras pertene-
cen a poblaciones
distintas.
1ª No rechazo el azar
(error muestral) co-
mo explicación de la
diferencia
2º No acepto que las
muestras pertene-
cen a poblaciones
distintas.
EL CONTRASTE DE MEDIAS
303
ANEXO 2: CONCEPTOS BÁSICOS DE ESTADÍSTICA INFERENCIAL
(REFERIDOS AL CONTRASTE DE MEDIAS PERO EXTRAPOLABLES A OTROS PLANTEA-
MIENTOS)
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
304
Diferencia estadísticamente significativa
La diferencia entre dos medias (o entre dos proporciones, etc.) es mayor de lo
que se puede esperar por azar, es mayor de lo que ocurre normalmente cuando
no hay más diferencia que la puramente aleatoria, es una diferencia muy im-
probable cuando las muestras proceden de la misma población: si hacemos la
misma comparación entre muestras semejantes, la diferencia no será cero.
Si probamos que una diferencia es estadísticamente significativa, no por eso
probamos que la diferencia es grande o importante.
Nivel de confianza:
Seguridad con que afirmamos que una diferencia es mayor de lo que se pue-
de esperar por azar;
El nivel de confianza se simboliza como ? y se establece antes de analizar los da-
tos; a = .05 significa que ponemos en un 5% las probabilidades de equivocarnos al
afirmar que hay diferencia entre dos medias (que la diferencia se aparta mucho de la
diferencia media de cero; que las muestras proceden de poblaciones distintas con
distinta media); a = .01 significa que ponemos el límite en un 1% las probabilidades
de error al afirmar que dos medias difieren significativamente, etc. (la probabilidad
de que la diferencia sea aleatoria la expresamos así: p  .05, p  .01, p  .001; si las
probabilidades son mayores del 5%: p .05).
Razón Crítica:
Es el valor de z (o de t de Student en muestras pequeñas, las tablas son distin-
tas pero el concepto y la interpretación son las mismas) que nos permite estable-
cer la probabilidad (simbolizada como p) de que una diferencia sea aleatoria;
en muestras grandes si z  1.96 tendremos que p  .05
z  2.57 tendremos que p  .01
z  3.30 tendremos que p  .001
Hipótesis Nula:
Es la negación de la hipótesis del investigador
Si mi hipótesis es: el método A es mejor que el método B,
la hipótesis nula será el método A no es mejor que el B
Aceptar la Hipótesis Nula = Diferencia no estadísticamente significativa
Diferencia dentro de lo aleatorio; se interpreta
como una no diferencia; en el sentido de que el
hecho de la diferencia no se puede extrapolar a la
población; en comparaciones semejantes pode-
mos encontrarnos con una diferencia de cero
En sentido estricto no probamos que no hay dife-
rencia, (quizás con un N mayor se podría no
aceptar la Hipótesis Nula); simplemente fracasa-
mos en el intento de probar que sí la hay.
Hipótesis Alterna:
Es la hipótesis del investigador, se acepta la Hipótesis Alterna (hay una diferen-
cia distinta de cero) si no se acepta la Hipótesis Nula (se excluye el azar o el error
muestral como explicación de la diferencia)
Aceptar la Hipótesis = La diferencia es estadísticamente significativa;
Alterna
La diferencia es mayor de lo que se puede esperar por azar en caso de no di-
ferencia; se puede extrapolar a las poblaciones representadas por esas muestras;
la diferencia entre las medias de las poblaciones representadas por esas muestras
es distinta de cero
Las medias pertenecen a muestras que proceden de poblaciones distintas
con distinta media.
EL CONTRASTE DE MEDIAS
305
ANEXO 3: TABLAS DE LA T DE STUDENT
Grados de libertad:
Muestras independientes: N1
1 + N2
2 -2
Muestras relacionadas: N - 1
(habitualmente utilizamos pruebas bilaterales, o bidireccionales o de dos
colas)
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
306
Grados de 0.05 0.025 0.005 0.0005 (1)
libertad: .10 .05 .01 .001 (2)
1 6.313752 12.70620 63.65674 636.6192
2 2.919986 4.30265 9.92484 31.5991
3 2.353363 3.18245 5.84091 12.9240
4 2.131847 2.77645 4.60409 8.6103
5 2.015048 2.57058 4.03214 6.8688
6 1.943180 2.44691 3.70743 5.9588
7 1.894579 2.36462 3.49948 5.4079
8 1.859548 2.30600 3.35539 5.0413
9 1.833113 2.26216 3.24984 4.7809
10 1.812461 2.22814 3.16927 4.5869
11 1.795885 2.20099 3.10581 4.4370
12 1.782288 2.17881 3.05454 4.3178
13 1.770933 2.16037 3.01228 4.2208
14 1.761310 2.14479 2.97684 4.1405
15 1.753050 2.13145 2.94671 4.0728
16 1.745884 2.11991 2.92078 4.0150
17 1.739607 2.10982 2.89823 3.9651
18 1.734064 2.10092 2.87844 3.9216
19 1.729133 2.09302 2.86093 3.8834
20 1.724718 2.08596 2.84534 3.8495
21 1.720743 2.07961 2.83136 3.8193
22 1.717144 2.07387 2.81876 3.7921
23 1.713872 2.06866 2.80734 3.7676
24 1.710882 2.06390 2.79694 3.7454
25 1.708141 2.05954 2.78744 3.7251
(1) Pruebas de una cola (unilaterales)
(2) Pruebas de dos colas (bilaterales)
Grados de 0.05 0.025 0.005 0.0005 (1)
libertad: .10 .05 .01 .001 (2)
26 1.705618 2.05553 2.77871 3.7066
27 1.703288 2.05183 2.77068 3.6896
28 1.701131 2.04841 2.76326 3.6739
29 1.699127 2.04523 2.75639 3.6594
30 1.697261 2.04227 2.75000 3.6460
⬁ 1.644854 1.95996 2.57583 3.2905
Tablas adaptadas de STATSOFT, INC. (2002). Electronic Statistics Textbook. Tulsa,
OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html
ANEXO 4: EL CONTRASTE DE MEDIAS EN INTERNET
Entre otros muchos programas que se pueden localizar en Internet disponemos
de los siguientes:
I. Si lo que deseamos es solamente conocer si un valor de t es estadísticamente
significativo tenemos en Internet varios programas
1. SURFSTAT.AUSTRALIA: AN ONLINE TEXT IN INTRODUCTORY STATISTICS surfstat-main.
http://www.anu.edu.au/nceph/surfstat/surfstat-home/ (buscar Tables en el
menú de la izquierda)
2. DEPARTMENT OF OBSTETRICS AND GYNAECOLOGY, THE CHINESE UNIVERSITY OF HONG
KONG http://department.obg.cuhk.edu.hk/index.asp?scr=1024 (buscar en
el menú Statistics Tool Box escoger Statistical Tests y escoger Statistical Sig-
nificance).
3. INSTITUTE OF PHONETIC SCIENCES (IFA)AMSTERDAM (h
ht
tt
tp
p:
:/
//
/f
fo
on
ns
sg
g3
3.
.l
le
et
t.
.
u
uv
va
a.
.n
nl
l/
/W
We
el
lc
co
om
me
e.
.h
ht
tm
ml
l) en el menu: D
De
em
mo
os
s,
, t
te
es
st
ts
s,
, e
ex
xp
pe
er
ri
im
me
en
nt
ts
s y
escoger Statistics) o directamente en The Student-t distribution
h
ht
tt
tp
p:
:/
//
/f
fo
on
ns
sg
g3
3.
.l
le
et
t.
.u
uv
va
a.
.n
nl
l/
/S
Se
er
rv
vi
ic
ce
e/
/S
St
ta
at
ti
is
st
ti
ic
cs
s/
/S
St
tu
ud
de
en
nt
t-
-t
t_
_d
di
is
st
tr
ri
ib
bu
u-
-
t
ti
io
on
n.
.h
ht
tm
ml
l
II. Para calcular la t de Student
1. Introduciendo o copiando todos los datos individuales
COLLEGE OF SAINT BENEDICT, SAINT JOHN’S UNIVERSITY h
ht
tt
tp
p:
:/
//
/w
ww
ww
w.
.p
ph
hy
ys
si
ic
cs
s.
.
c
cs
sb
bs
sj
ju
u.
.e
ed
du
u/
/s
st
ta
at
ts
s/
/t
t-
-t
te
es
st
t.
.h
ht
tm
ml
l o Student’s t-Test, en h
ht
tt
tp
p:
:/
//
/w
ww
ww
w.
.p
ph
hy
y-
-
s
si
ic
cs
s.
.c
cs
sb
bs
sj
ju
u.
.e
ed
du
u/
/s
st
ta
at
ts
s/
/ (muestras independientes y relacionadas)
2. Introduciendo solamente la media, desviación y número de sujetos de ca-
da grupo (muestras independientes y relacionadas
GENE V. GLASS h
ht
tt
tp
p:
:/
//
/g
gl
la
as
ss
s.
.e
ed
d.
.a
as
su
u.
.e
ed
du
u/
/s
st
ta
at
ts
s/
/o
on
nl
li
in
ne
e.
.h
ht
tm
m (Delta
COE502, Intro to Quant Methods, h
ht
tt
tp
p:
:/
//
/g
gl
la
as
ss
s.
.e
ed
d.
.a
as
su
u.
.e
ed
du
u/
/s
st
ta
at
ts
s/
/i
in
n-
-
EL CONTRASTE DE MEDIAS
307
d
de
ex
x.
.h
ht
tm
ml
l , O
On
nl
li
in
ne
e s
st
ta
at
ti
is
st
ti
ic
ca
al
l c
ca
al
lc
cu
ul
la
at
to
or
rs
s t
th
ha
at
t c
ca
an
n p
pe
er
rf
fo
or
rm
m m
ma
an
ny
y
d
di
if
ff
fe
er
re
en
nt
t a
an
na
al
ly
ys
se
es
s.
.) (no calcula el tamaño del efecto)
The Significance of the Difference Between Two Independent Sample Me-
ans introduciendo M, s y N) http://glass.ed.asu.edu/stats/analysis/
t2test.html
The Significance of the Difference Between Two Dependent Means using
the t-test (introduciendo N, M y s de las diferencias) http://glass.ed.
asu.edu/stats/analysis/tdtest.html
UNIVERSITÄT ULM-MEDIZINISCHE FAKULTÄT, SEKTION INFORMATIK IN DER PSYCHOTHE-
RAPIE (SOFTWARE UND WERKZEUGE) h
ht
tt
tp
p:
:/
//
/s
si
ip
p.
.m
me
ed
di
iz
zi
in
n.
.u
un
ni
i-
-u
ul
lm
m.
.d
de
e/
/i
in
nf
fo
or
r-
-
m
ma
at
ti
ik
k/
/p
pr
ro
oj
je
ek
kt
te
e/
/O
Od
dd
ds
s/
/e
es
st
t.
.h
ht
tm
ml
l (Calcula la t de Student y el tamaño
del efecto).
3. Para todos estos casos tenemos también GRAPHPAD, FREE ONLINE CALCULATORS
FOR SCIENTISTS (h
ht
tt
tp
p:
:/
//
/g
gr
ra
ap
ph
hp
pa
ad
d.
.c
co
om
m/
/q
qu
ui
ic
ck
kc
ca
al
lc
cs
s/
/i
in
nd
de
ex
x.
.c
cf
fm
m) t test Cal-
culator, h
ht
tt
tp
p:
:/
//
/g
gr
ra
ap
ph
hp
pa
ad
d.
.c
co
om
m/
/q
qu
ui
ic
ck
kc
ca
al
lc
cs
s/
/t
tt
te
es
st
t1
1.
.c
cf
fm
m?
?F
Fo
or
rm
ma
at
t=
=5
50
0
III. Tamaño del efecto.
1. LEE A. BECKER,
, EFFECT SIZE CALCULATORS. h
ht
tt
tp
p:
:/
//
/w
we
eb
b.
.u
uc
cc
cs
s.
.e
ed
du
u/
/l
lb
be
ec
ck
ke
er
r/
/
P
Ps
sy
y5
59
90
0/
/e
es
sc
ca
al
lc
c3
3.
.h
ht
tm
m (consultado 25, 03, 08).
En muestras de idéntico tamaño calcula el tamaño del efecto (de Cohen) y
el coeficiente de correlación 1º a partir de los valores de las medias y de las
desviaciones típicas, 2º a partir del valor de t y de los grados de libertad
(N+N-2). (For a discussion of these effect size measures see E
Ef
ff
fe
ec
ct
t S
Si
iz
ze
e
L
Le
ec
ct
tu
ur
re
e N
No
ot
te
es
s)
2. COE, ROBERT (2000) Effect Size Resources (Durham University, Cem Centre)
h
ht
tt
tp
p:
:/
//
/w
ww
ww
w.
.c
ce
em
mc
ce
en
nt
tr
re
e.
.o
or
rg
g/
/R
Re
en
nd
de
er
rP
Pa
ag
ge
e.
.a
as
sp
p?
?L
Li
in
nk
kI
ID
D=
=3
30
03
31
10
00
00
00
0
(revisado 1, Enero, 2007)
3. MILLS, MICHAEL E. (Loyola Marymount University, Los Angeles), http://myweb.
lmu.edu/mmills/, en el índice de la izquierda Software y effect size calcula-
tion (consultado 25, 03, 08).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
308
CAPÍTULO 9
ANÁLISIS DE VARIABLES NOMINALES:
LA PRUEBA DE JI CUADRADO (c2
),
LA DISTRIBUCIÓN BINOMIAL,
EL CONTRASTE DE PROPORCIONES
1. PLANTEAMIENTO GENERAL
Tenemos variables nominales o categóricas cuando el dato disponible de
los sujetos es a qué categoría de clasificación pertenecen, como vamos a ver
en numerosos ejemplos. No disponemos de una puntuación individual en
sentido propio; los datos son simplemente categorías de clasificación y fre-
cuencias en cada categoría. Aunque habitualmente hablamos de sujetos, pue-
de tratarse también de sucesos, objetos, etc.
La prueba del ji cuadrado1
(con su propia distribución y sus propias tablas)
nos va a servir para analizar este tipo de datos, y va ser el método central en es-
ta exposición porque es válido para todas las situaciones que vamos a presentar.
El ji cuadrado y sus variantes metodológicas (como la prueba exacta de
Fisher y el test de McNemar) no es por otra parte el único método de análi-
sis cuando tenemos a los sujetos clasificados en categorías; según el plantea-
miento que tengamos disponemos también de otras alternativas de análisis,
como son las aplicaciones de:
a) La distribución binomial
b) El contraste de proporciones
309
1
En inglés chi square y a veces en español el anglicismo chi cuadrado; la letra grie-
ga utilizada como símbolo es c que se pronuncia como la jota española.
Con frecuencia estos análisis son una alternativa más sencilla al ji cuadra-
do. En vez de ver por separado estos métodos (como es usual) los expondre-
mos cuando sean aplicables, ya que con frecuencia los mismos datos se pue-
den analizar de diversas maneras con resultados idénticos o equivalentes y que
llevan a las mismas conclusiones. De esta manera se facilita el que cada uno es-
coja el método que prefiera, y no se ven en contextos distintos métodos de
análisis que son válidos en las mismas situaciones y con los mismos datos.
La presentación que hacemos es por lo tanto por situaciones o modos de
organizar los datos, y no por métodos de análisis.
Las situaciones son sujetos clasificados en categorías de diversas maneras
y cada situación está representada por un tipo de cuadro o tabla que permite
visualizar dónde encajan nuestros datos y nuestras preguntas. Los cuadros de
doble entrada, con dos criterios de clasificación, se denominan también ta-
blas de contingencia.
Podemos distinguir los cuatro modelos básicos puestos en la figura 1. Aun-
que iremos poniendo numerosos ejemplos más adelante, es útil ver desde el
comienzo los diversos tipos o modelos de cuadros o tablas porque van cen-
trando la atención en las posibilidades que tenemos para analizar este tipo de
datos. Estas tablas de la figura 1 representan las distintas posibilidades.
Todas las denominadas preguntas básicas puestas en la figura 1 podemos
hacerlas preguntando por una diferencia (¿difieren los grupos A y B en sus
preferencias, en sus respuestas, etc.?) o preguntando por una relación (¿tie-
ne que ver el pertenecer al grupo A o B con escoger una u otra opción?).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
310
Figura 1
Con el ji cuadrado y sus variantes metodológicas podemos analizar todos
estos planteamientos aunque en algunos casos disponemos de otras alterna-
tivas equivalentes, como el contraste entre proporciones.
En realidad lo que nos dice el ji cuadrado es si los sujetos que observa-
mos en cada celda son los que veríamos si no hubiera diferencias ni relacio-
nes entre los criterios de clasificación. Al ji cuadrado se le denomina por es-
ta razón prueba de independencia (o lo contrario, de asociación), porque
verificamos si los criterios de clasificación son independientes.
La prueba del ji cuadrado nos va a decir si lo que observamos:
a) Está dentro de lo normal y probable; en ese caso afirmaremos que no
hay diferencia ni relación (aceptamos la Hipótesis Nula dicho en otros
términos; aceptamos que los resultados están dentro de lo normal y
aleatorio).
b) Es atípico y poco normal en el caso de no diferencia o relación; en es-
te caso sí afirmaremos que hay relación entre los criterios de clasifica-
ción o que los grupos son distintos (no aceptamos la Hipótesis Nula).
Mediante la prueba estadística del ji cuadrado podemos abordar todos es-
tos planteamientos, para detectar diferencias y relaciones, por eso centra-
mos el análisis de los datos nominales en la prueba del ji cuadrado.
Como ya hemos indicado, en algunos casos, no en todos, hay otros méto-
dos de análisis, como la aplicación directa de la distribución binomial y el
contraste de proporciones, que son equivalentes y los iremos introduciendo
en cada caso como alternativas de análisis. Además, aunque hay una fórmu-
la general del ji cuadrado aplicable en todos los casos, algunas situaciones re-
presentadas en estos cuadros admiten fórmulas más sencillas.
Para visualizar mejor los procedimientos que vamos a ver, podemos repe-
tir los cuadros o tablas con los modos habituales de presentar los datos (tal
como están en la figura 1), indicando los modos de análisis aplicables en cada
caso (figura 2) aunque no siempre son intercambiables.
Figura 2
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
311
Se trata en definitiva de verificar la probabilidad de que ocurra casual-
mente lo que nos hemos encontrado en el caso de que no hubiera ni diferen-
cias ni relaciones en la población representada por esos datos. De la misma
manera que hay una distribución normal que ya hemos aplicado en otros ca-
sos (medias, diferencias entre medias), hay otra distribución normal para es-
tos planteamientos2
.
Como en otros casos semejantes procedemos de esta manera:
1º Calculamos un valor (en este caso denominado ji cuadrado)
2º Consultamos una tablas para comprobar si ese valor es probable o im-
probable
3º También, y como sucede en el contraste de medias, después de verifi-
car si un valor de ji cuadrado es significativo (poco probable si no hay
relación o diferencia), podemos cuantificar el grado de relación me-
diante una serie de coeficientes para poder apreciar si la relación es
grande o pequeña e interpretar mejor los resultados.
2. QUÉ COMPROBAMOS MEDIANTE EL c2
Vamos a centrar la explicación del c2
en uno de los casos más sencillos y
frecuentes, cuando tenemos a los sujetos clasificados en dos categorías de
clasificación y cada categoría tiene dos niveles o subcategorías.
Qué comprobamos mediante el c2
podemos verlo de manera intuitiva.
Por ejemplo clasificamos a un grupo de sujetos según la variable sexo (ser
hombre o ser mujer) y según sus respuestas (sí o no) a una pregunta que es
la otra categoría de clasificación.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
312
2
Es la distribución multinomial denominada de ji cuadrado y que se la debemos a
Karl Pearson, a quien ya conocemos a propósito del coeficiente de correlación r de Pearson.
60
(75%)
30
(25%)
20
(25%)
90
(75%)
hombre mujer totales
90
110
200
Sí
No
total 80 (100%) 120 (100%)
Preguntas que nos hacemos:
¿Tiene que ver el sexo con el responder sí o no a esa pregunta? ¿Existe aso-
ciación entre estas dos variables o criterios de clasificación?
También podemos preguntarnos lo mismo de esta forma: ¿Son distintos
hombres y mujeres en sus respuestas a esa pregunta?
A primera vista podríamos responder a estas preguntas que sí hay relación
entre la pregunta y el sexo: el 75% de los hombres dice que sí frente a sólo un
25% de las mujeres.
Para entender lo que nos dice el c2
lo más sencillo es situarnos ante dos
posibilidades extremas cuya interpretación no dejaría lugar a dudas:
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
313
40
(50%)
60
(50%)
40
(50%)
60
(50%)
hombre mujer totales
100
100
200
Sí
No
totales 80
(100%)
120
(100%)
80
(100%)
0
0
120
(100%)
hombre mujer totales
100
100
200
Sí
No
totales 80
(100%)
120
(100%)
P
Po
os
si
ib
bi
il
li
id
da
ad
d A
A P
Po
os
si
ib
bi
il
li
id
da
ad
d B
B
En cada grupo la mitad dice que sí
y la otra mitad dice que no:
Es la distribución más probable
en el caso de no asociación. El sexo
no tiene nada que ver con el conte-
nido de la pregunta.
El valor de c2
que obtengamos se-
rá bajo, como de manera análoga un
valor bajo de la t de Student nos indi-
ca una diferencia normal y probable.
En este caso:
Hipótesis Nula aceptada; es
una distribución probable cuando las
Todos los hombres dicen que sí y
todas las mujeres dicen que no:
Es la distribución menos probable
en el caso de no asociación. El sexo
sí parece que tiene que ver con el
contenido de la pregunta.
El valor de c2
que obtengamos se-
rá alto, como de manera análoga un
valor alto de la t de Student nos indi-
ca una diferencia mayor de lo normal.
En este caso:
Hipótesis Nula no aceptada
(no aceptamos el azar); es la distri-
El ji cuadrado se utiliza con dos tipos de hipótesis que se denominan así:
a) Pruebas de independencia, cuando hay dos criterios de clasificación
(como en los ejemplos anteriores, con cuadros de doble entrada sub-
divididos en dos o más niveles);
b) Pruebas de bondad de ajuste, cuando tenemos un solo criterio de cla-
sificación (como cuando tenemos un grupo de sujetos, o de objetos,
subdividido en varias categorías).
3. FRECUENCIAS OBSERVADAS (O EMPÍRICAS) Y FRECUENCIAS TEÓRICAS (O ESPERADAS)
En todos los casos es importante la distinción entre dos tipos de frecuen-
cias (o número de casos) porque en definitiva lo que hacemos mediante el ji
cuadrado es comparar estos dos tipos de frecuencias.
a) Frecuencias observadas (también denominadas empíricas), que son
las que observamos y anotamos,
b) Frecuencias teóricas (también denominadas esperadas), que son las
más probables (y ciertamente las más claras) en el caso de no relación
o no diferencia.3
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
314
3
Posiblemente los términos más claros son frecuencias observadas (más claro que
frecuencias empíricas) y frecuencias esperadas (más claro que teóricas). Aquí utiliza-
mos los términos frecuencias observadas y frecuencias teóricas simplemente porque los
símbolos (fo y ft) no se prestan a confusión (fe podría ser tanto frecuencia empírica co-
mo esperada).
dos variables son independientes;
cuando una variable no tiene que ver
con la otra (en este ejemplo: cuando
no hay relación entre el sexo y la res-
puesta a la pregunta).
Las frecuencias observadas (las co-
dificadas) no se apartan mucho de las
frecuencias teóricas, que son las más
probables en caso de no asociación.
Hipótesis Alterna no acepta-
da; el ser hombre o mujer no tiene
que ver con cómo se responde a esa
pregunta.
bución menos probable cuando las
dos variables son independientes; es
una distribución fuera de lo normal
(en el caso en que el sexo y el respon-
der sí o no no tuvieran nada que ver).
Las frecuencias observadas (las
codificadas) se apartan mucho de las
frecuencias teóricas, las frecuencias
observadas son poco probables en
caso de no asociación.
Hipótesis Alterna aceptada; el
sexo sí tiene que ver con las respues-
tas a esa pregunta.
En los casos como los que nos han servido de ejemplo (tablas 2x2 o mayo-
res) se trata de pruebas de independencia, y lo que comprobamos se puede
formular de dos maneras y es útil verlo así:
1º Si existe relación o asociación entre las dos variables que han servido
de criterio de clasificación;
2º Si dos o más grupos (la pertenencia a un grupo es un criterio de clasi-
ficación) difieren en el otro criterio de clasificación (en realidad se tra-
ta del mismo planteamiento).
En cualquier caso lo que comprobamos es si las frecuencias observadas
(representadas en el apartado anterior como posibilidad B) se apartan signifi-
cativamente de las frecuencias teóricas o esperadas en el caso de no relación
o no diferencia (representadas en el apartado anterior como posibilidad A).
El c2
lo que nos dice es si las frecuencias observadas están dentro de lo
probable en el caso de no asociación. A mayor valor de c2
corresponde una
menor probabilidad, por eso con un valor grande de c2
diremos que ese re-
sultado es muy improbable si no hubiera relación, y por lo tanto decimos
que sí la hay.
Para expresarlo en términos muy simples. En el apartado anterior hemos
visto dos posibilidades extremas A y B. Esos resultados hipotéticos son muy
claros, pero tan claros es difícil que los encontremos. El valor de c2
nos viene
a decir lo siguiente:
a) Un valor de c2
pequeño nos dice que nuestros resultados podemos
equipararlos a la posibilidad A (no hay relación); las frecuencias que
observamos se parecen mucho a las teóricas o esperadas, a las que ten-
dríamos en caso de no asociación o no diferencia).
b) Un valor de c2
grande nos dice que nuestros resultados podemos in-
terpretarlos como la posibilidad B (sí hay relación), las frecuencias
que observamos se apartan mucho de las teóricas o esperadas, las que
tendríamos en caso de no asociación o no diferencia.
4. CONDICIONES PARA UTILIZAR EL c2
1º Se trata siempre de observaciones independientes: al clasificar los su-
jetos (u objetos) en cada casilla debe haber sujetos distintos; no pue-
de haber sujetos repetidos en más de una casilla. Esta condición es
esencial; en ningún caso debe haber sujetos clasificados en más de un
lugar.
2º La segunda condición es ahora muy discutida: que las frecuencias teó-
ricas o esperadas en cada casilla de clasificación no sean inferiores a 5.
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
315
Recordamos que las frecuencias teóricas o esperadas son las que ha-
bría (o las más probables) en el caso de que no hubiera relación entre
las variables (o diferencias entre los grupos clasificados). Es tolerable
que un 20% de las casillas tengan una frecuencia teórica inferior a 5, pe-
ro no deben ser muy inferiores. Cuando las frecuencias teóricas (ya ve-
remos cómo se calculan) son muy pocas, se pueden juntar columnas o
filas adyacentes (si hay más de dos) en una sola categoría, con tal de
que tenga sentido lógico el hacerlo. Además con muestras muy peque-
ñas (N20) y en tablas 2x2 tenemos como alternativa la prueba exac-
ta de Fisher mencionada más adelante.
Esta segunda condición (necesidad de un número mínimo de frecuencias
teóricas) la discuten ahora bastantes autores y se puede no tener en cuenta
(lo veremos más adelante a propósito de la corrección de Yates); sí conviene
mencionarla porque responde a una práctica muy generalizada y figura en
muchos textos.
5. CÁLCULO DE LAS FRECUENCIAS TEÓRICAS
El cálculo de las frecuencias teóricas es necesario porque estas frecuencias
entran en la fórmula básica del ji cuadrado, además con un número de suje-
tos muy pequeño (N  25, como criterio más bien liberal) si hay frecuencias
teóricas inferiores a 5 ya hemos visto que el uso del ji cuadrado es discutible.
Al calcular las frecuencias teóricas (o esperadas) conviene dejar al menos
tres decimales.
a) Cuando tenemos un solo criterio de clasificación dividido en varias
categorías
El cálculo de las frecuencias teóricas es sencillo:
número total de sujetos N
frecuencias teóricas en cada casilla: –––––––––––––––––––––– (=) ––
número de clasificaciones k
Por ejemplo tenemos un grupo de 300 sujetos clasificados en una catego-
ría (preferencia por un color) dividida en tres niveles (tres colores: verde,
azul y rojo que pueden ser los colores del envase de un producto comercial;
tabla 2).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
316
Estas son las frecuencias observadas, ¿Cuáles serían las frecuencias teóri-
cas o esperadas si los tres colores fueran igualmente atrayentes? Los 300 su-
jetos se repartirían por igual, y cada color tocaría a 100 sujetos; las frecuen-
cias teóricas son por lo tanto 300/3 = 100.
Estas frecuencias teóricas o esperadas podrían ser otras distintas en otras
hipótesis; en definitiva lo que hacemos es comprobar si las frecuencias obser-
vadas se ajustan a las esperadas, por esta razón también se denomina a esta
comprobación prueba de bondad de ajuste, porque comprobamos si nues-
tra distribución se ajusta a un modelo teórico.
b) Cuando hay dos criterios de clasificación (cuadros de doble entrada)
Las frecuencias teóricas de cada casilla son iguales al producto de las su-
mas marginales dividido por el número total de sujetos. En el caso de dos
categorías con dos niveles de clasificación (podrían ser más) tendríamos
(tabla 3):
Verde Azul Rojo
160 100 40
total
prefieren
el color… 300
Tabla 2
Tabla 3
¿De dónde viene esta fórmula para calcular las frecuencias teóricas?; en las
frecuencias teóricas hacemos un reparto proporcional de las frecuencias
observadas en la hipótesis de no diferencia o relación. Es un sencilla regla de
tres si nos fijamos en el cuadro anterior:
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
317
Si nos da un valor igual o superior a 5 ya no hay por qué seguir calculan-
do frecuencias teóricas a no ser que sean necesarias para calcular el valor de
c2
(y no son necesarias en cuadros con cuatro casillas, 2x2, porque admiten
una fórmula más sencilla).
Es importante caer en la cuenta de que la suma de las frecuencias obser-
vadas debe ser igual a la suma de las frecuencias teóricas: se trata del mis-
mo número de sujetos (u objetos) repartidos con dos criterios: lo que obser-
vamos y lo que observaríamos en el caso de no diferencia. Estas dos sumas
(de todas las frecuencias observadas y de todas las frecuencias teóricas) con
frecuencia no son idénticas porque redondeamos los decimales o no utiliza-
mos todos, pero deben ser muy parecidas.
6. GRADOS DE LIBERTAD
Los grados de libertad son necesarios para consultar las tablas de la dis-
tribución de c2
.
Recordamos el concepto de grados de libertad: el número de valores que
pueden variar libremente manteniendo o imponiendo previamente unas de-
terminadas restricciones a los datos. Dicho de una manera más sencilla y apli-
cable a este caso y a otros muchos: los grados de libertad son igual al número
de valores o datos que pueden variar libremente dado un determinado resul-
Si de un total de N sujetos… .............................. responden sí (a+b)
De un total de (a+c) sujetos .............................. responderán sí X sujetos
(a + b) (a + c)
Por lo tanto X (ó frecuencias teóricas de a): .... = ––––––––––––––––––
N
Es decir, multiplicamos las dos frecuencias marginales y dividimos el pro-
ducto por el N total. Cuando solamente hay cuatro casillas (tabla 2x2 como
en este ejemplo) lo único que nos puede interesar saber es si todas las fre-
cuencias teóricas son superiores a 5; ya que es recomendable que las fre-
cuencias teóricas no sean muy pequeñas; para esto basta empezar calculan-
do la frecuencia teórica más pequeña, y si es superior a 5 ya no hay que
hacer más cálculos.
Para calcular la frecuencia teórica más pequeña y comprobar que es igual
o superior a 5:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
318
tado (o resultados). El concepto se entenderá mejor al ver cuáles son los gra-
dos de libertad precisamente en el ji cuadrado.
En los planteamientos más frecuentes (no son los únicos) se calculan de
este modo:
a) Cuando hay un solo criterio de clasificación
Grados de libertad = k -1 (número de categorías menos una)
En el ejemplo anterior en el que 300 sujetos están clasificados según elijan
A, B ó C (tres categorías de clasificación) los grados de libertad serán 3-1 = 2.
Si partimos de un total de 300 sujetos divididos en tres categorías, en dos
de ellas podemos poner cualquier número (sus frecuencias pueden variar li-
bremente) pero en la tercera ya no hay libertad para poner cualquier valor:
habrá que poner lo que nos falte para llegar a 300.
b) Cuando hay dos criterios de clasificación
Es decir, tenemos varias columnas y varias filas:
Grados de libertad = (f -1)(c -1)
(número de filas menos una) por (número de columnas menos una).
En el primer ejemplo que hemos puesto (cuadro 2x2): dos columnas
(hombre/mujer) y dos filas (sí/no), los grados de libertad serán (2-1)(2-1) = 1.
En este caso partimos de los totales marginales como datos fijos y previos,
éstas son las restricciones. En una tabla 2x2, con cuatro clasificaciones, pode-
mos variar libremente solamente la frecuencia (número) de una de las casi-
llas: las demás vendrán forzadas para mantener los totales marginales (si par-
timos de que a + b = 90, uno de los dos, a ó b, pueden variar libremente,
pero el otro valor debe ser necesariamente lo que falte para llegar a 90).
7. FÓRMULA GENERAL DEL JI CUADRADO4
Hay una fórmula general aplicable a todos los planteamientos del ji cuadra-
do, pero hay también fórmulas más sencillas para planteamientos particulares,
que son por otra parte los más frecuentes y de interpretación más sencilla.
Ponemos en primer lugar la fórmula general de c2
, aplicable en todos los
casos:
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
319
4
El ji cuadrado en todas sus variantes lo tenemos en programas de ordenador y en
numerosas direcciones de Internet que pueden verse en el Anexo II.
Este análisis es muy útil pues es muy normal presentar a un grupo una se-
rie de preguntas con respuestas sí o no mutuamente excluyentes ¿Cuándo
predomina una de las dos respuestas más allá de lo probable por azar?
La pregunta que nos hacemos en nuestro ejemplo es si existe una diferen-
cia estadísticamente significativa (por encima de lo puramente aleatorio) en-
tre 40 y 20 (o entre dos proporciones o porcentajes obtenidos en la misma
muestra).
Tenemos dos maneras de llegar a una respuesta; una a través del ji cua-
drado, y otra utilizando la distribución binomial; con ambas llegamos al
mismo resultado. Aunque aparentemente haya muchas fórmulas, en reali-
dad todas son equivalentes y muy sencillas; posiblemente con la [2] o con la
[5] podemos resolver todas las situaciones en las que queramos hacer este
análisis.
El valor resultante de esta suma se consulta en las tablas de c2
según los
grados de libertad que correspondan.
Aunque esta fórmula es válida para todos los casos, hay planteamientos,
que son también los más frecuentes (como las tablas 2x2), que admiten
fórmulas más sencillas. Vamos a ver ahora los casos más frecuentes con sus
fórmulas específicas.
8. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN DIVIDIDO
EN DOS NIVELES
Por ejemplo, preguntamos a un grupo de N = 60 si está a favor o en con-
tra de una determinada proposición y obtenemos estos resultados (tabla 4):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
320
fo son las frecuencias observadas,
ft son las frecuencias teóricas.
La fracción
se calcula en cada casilla y se suman todos
estos valores.
A favor En contra total
40 20 60
Tabla 4
Esta fórmula [2] podemos aplicarla siempre que N sea  25; con números
más bajos (N  25) también suele recomendarse aplicar la corrección de Ya-
tes, que consiste en restar una unidad al numerador antes de elevarlo al cua-
drado (fórmula [3]). De todas maneras ya veremos que la eficacia de esta co-
rrección es muy discutida (porque corrige en exceso).
8.1. Ji cuadrado
Tenemos dos sencillas fórmulas que dan idéntico resultado.
1. Podemos aplicar en primer lugar la fórmula [1], que es la fórmula gene-
ral del ji cuadrado. Lo primero que tenemos que hacer es calcular las fre-
cuencias teóricas, que en este caso son 60/2 = 30: si no hubiera más diferen-
cia entre las dos respuestas que la puramente casual, la frecuencia teórica más
probable sería la que resulta de repartir por igual el número de sujetos entre
las dos categorías.
En las tablas vemos que con un grado de libertad (= k -1) los valores crí-
ticos de c2
son estos:
si c2
 3.841 tenemos que p  .05
 6.635 p  .01
 10.827 p  .001
En nuestro ejemplo p  .01: no aceptamos la Hipótesis Nula y aceptamos
que la diferencia entre 40 (a favor) y 20 (en contra) es superior a lo que se
puede encontrar por azar en el caso de que no hubiera una diferencia mayor
de lo casual entre las dos posturas representadas por estas respuestas (a favor
o en contra o cualesquiera otras dos alternativas mutuamente excluyentes).
2. Sin entrar ahora en más explicaciones podemos ver que en estos casos
(un grado de libertad) c2
= z2
; el valor correspondiente de z para a = .05 re-
cordamos que es 1.96 y 1.962
= 3.841, que es el valor correspondiente de c2
.
En estos casos, un mismo grupo dividido en dos niveles de clasificación,
tenemos sin embargo una fórmula más sencilla [2], en la que f1 y f2 son las dos
frecuencias, 40 y 20:
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
321
8.2. Aplicación de la distribución binomial
Cuando tenemos un grupo dividido en dos categorías podemos aplicar di-
rectamente la distribución binomial. Cuando un grupo (sujetos, respuestas,
objetos) de tamaño N se divide en dos categorías que se excluyen mutuamen-
te (como antes, a favor o en contra) podemos ver si la proporción de sujetos
en cada categoría (p y q) se aparta significativamente de p = q = .50 (que se-
ría la Hipótesis Nula: idéntico número de sujetos encada categoría). Vamos a
verlo con muestras pequeñas (N  25) y muestras que ya van siendo mayores
(N  25).
8.2.1. Cuando N  25
En estos casos no necesitamos hacer ningún cálculo (ni aplicar la fórmula
[3]); nos basta consultar las tablas de la distribución binomial que nos dan
la probabilidad exacta que tenemos de encontrar por azar cualquier división
de N sujetos (N  25) en dos categorías. Estas tablas podemos encontralas en
numerosos textos de estadística y también disponemos de cómodos progra-
mas en Internet (Anexo II)5
.
En estas tablas tenemos los valores de N y de X (número de sujetos en
cualquiera de las dos categorías) y la probabilidad de encontrar X en N suje-
tos o casos. Suponemos que en principio p = q, es decir que hay dos catego-
rías con idéntica probabilidad (p = q = .50).
8.2.2. Cuando N  25
Cuando aumenta el número de casos o sujetos, la distribución binomial se
va pareciendo a la distribución normal. En estos casos podemos hacer algo
análogo al contraste de medias.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
322
5
Un programa muy cómodo es GRAPHPAD; basta introducir el número total de sujetos
(objetos, etc.) y el número de los clasificados en una de las dos categorías.
Con números pequeños es sin embargo preferible prescindir de esta co-
rrección y acudir directamente a las tablas de la distribución binomial, que
nos dan directamente la probabilidad un obtener una determinada diferencia
entre dos frecuencias cuando N es muy bajo.
Esta distribución normal y aleatoria (la que podemos esperar si entre las
dos categorías no hay más diferencias que las casuales) tiene su media y su
desviación típica:
Media (los sujetos tienden a repartirse por igual en las
dos categorías)
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
323
Desviación típica
Pero como en este caso p = q = .50, tenemos que pq = .25, por lo tanto
la desviación típica será igual a:
Desviación típica
Podemos utilizar cualquiera de estas expresiones para calcular la desvia-
ción típica.
Ahora podemos comparar nuestra media (cualquiera de las dos frecuen-
cias; número de sujetos en cualquiera de las dos categorías) con la media más
probable por azar y que es N/2:
Donde X es cualquiera de las dos frecuencias; con
las dos llegamos al mismo resultado aunque con
distinto signo, como podemos comprobar:
donde X = los 40 que están a favor
donde X = los 20 que están en contra
En nuestro ejemplo (40 a favor y 20 en contra, total N = 60) tendremos:
En estos casos (un grupo dividido en dos categorías) c2
= z2
y z = ;
Podemos verificarlo: z2
= 2.5822
= 6.67, que es el valor de c2
encontrado
antes (y las probabilidades son las mismas, p.01)
La fórmula [4] es la más clara porque expresa lo que estamos haciendo
(una diferencia entre medias dividida por una desviación típica), pero pue-
de simplificarse notablemente si utilizamos la fórmula [5] (f1 y f2 son las dos
frecuencias):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
324
De todas estas fórmulas ¿Cuál es la preferible? La que resulte más cómoda;
la única salvedad es que todas estas fórmulas son adecuadas cuando N no es
muy bajo (preferiblemente no menos de N = 50).
Ya hemos indicado que:
a) Cuando N es igual o inferior a 20, podemos acudir directamente a las
tablas de la distribución binomial (que nos da la probabilidad de obte-
ner cualquier valor de X para cualquier valor de N hasta 20 o incluso
más, según las tablas de que dispongamos).
b) Cuando N está entre 20 y 50 podemos aplicar la fórmula [3], o la [5]
(más cómoda que la [4]), pero restando una unidad al numerador (en
valores absolutos), o podemos aplicar la fórmula [4] con la llamada co-
rrección por continuidad, tal como aparece en la fórmula [6]
Sumamos o restamos .5 de manera que el nu-
merador sea menor en términos absolutos.
8.2.3. La prueba de los signos: aplicación de la distribución binomial
para comprobar cambios
Una aplicación popular y sencilla para verificar cambios es la conocida co-
mo prueba de los signos que es útil introducir aquí.
Lo veremos con un ejemplo. De un grupo de sujetos tenemos sus res-
puestas a una simple pregunta, por ejemplo sobre la utilidad de la asignatu-
Podemos aplicar ahora cualquiera de los procedimientos anteriores (ji
cuadrado, distribución binomial) según el número de sujetos (número de
cambios) que tengamos.
Es obvio que estamos teniendo en cuenta solamente la dirección del
cambio y no la magnitud del cambio; aprovechamos mejor la información
disponible con otros métodos de análisis, como un contraste de medias. Aun
así con medidas pobres, a veces improvisadas y que no nos inspiran mucha
confianza, la prueba de los signos puede ser una buena alternativa. También
cabría hacer una única pregunta al final, como un sondeo rápido de opinio-
nes o impresiones de este estilo: ¿Ves ahora la asignatura más útil que al
comienzo del curso? Con unas respuestas muy simples, más útil (cambio po-
sitivo), menos útil (cambio negativo), igual de útil (sin cambio).
El número de sujetos es N = 6, pero tenemos en cuenta solamente el
número de cambios, por lo tanto N = 5 porque un sujeto (el nº 3) no ha
cambiado.
Podemos disponer los datos de esta manera (tabla 7, semejante a la tabla 4):
Tabla 6
sujeto Respuesta Respuesta Signo de la
antes después diferencia
1 3 4 +
2 1 3 +
3 2 2 0
4 4 2 -
5 4 5 +
6 2 4 +
ra, con respuestas graduadas de este estilo: ninguna, alguna, bastante y
mucha. Los sujetos responden al comienzo del curso (antes) y al finalizar el
curso (después) (tabla 5).
Cambios positivos Cambios negativos Total de cambios
4 1 5
Tabla 7
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
325
9. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN DIVIDIDO
EN MÁS DE DOS NIVELES (PRUEBAS DE BONDAD DE AJUSTE)
A esta aplicación del ji cuadrado se le denomina también prueba de bon-
dad de ajuste porque comprobamos si una distribución de frecuencias obser-
vadas se ajusta a una distribución teórica.
9.1. Cuando las frecuencias esperadas son las mismas
El planteamiento más frecuente lo veremos con un ejemplo: 600 perso-
nas eligen entre tres marcas, A, B y C de un mismo producto, su marca pre-
ferida (tabla 8): ¿Hay diferencias entre las marcas por encima de lo puramen-
te aleatorio?
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
326
Tabla 8
A A C total
170 200 230 600
200 200 200 600
frecuencias observadas:
frecuencias teóricas:
Las frecuencias teóricas son las que habría si no hubiera diferencias entre
las marcas; es la distribución teórica más probable en caso de no diferencia:
número total de casos dividido por el número de categorías de clasificación,
600/3 = 200 (las tres marcas son igualmente preferidas).
En este caso se aplica la fórmula general del ji cuadrado (fórmula [1])
que además se puede utilizar en todos los casos:
Grados de libertad: número de categorías de clasificación menos una:
3-1 = 2 grados de libertad.
En las tablas tenemos que con dos grados de libertad y c2
= 9; p .05 (su-
peramos el valor de 5.99 que tenemos en las tablas). La probabilidad de que
la distribución de las frecuencias observadas (170/200/230) sea casual, en el
que caso de que las marcas fueran igualmente preferidas, es inferior al 5% (de
hecho es inferior al 2%), por lo que concluimos que sí hay diferencias signifi-
cativas entre las marcas. Cabría ahora parcializar los datos y comparar las mar-
cas de dos en dos; (al menos podemos afirmar que la marca A es significati-
vamente menos preferida que la marca C).
Podríamos haber hecho otra agrupación distinta, de manera que en cada
intervalo tuviéramos el 20% de los casos, o podríamos tener intervalos con
frecuencias esperadas distintas, como sucede cuando utilizamos los estani-
nos o los pentas.
Si en cada intervalo vamos a tener el 10% de las frecuencias teóricas y te-
nemos N = 200, en cada intervalo tendríamos 20 sujetos en las frecuencias
teóricas; a cada sujeto le calculamos su puntuación típica, y lo situamos en el
intervalo que le corresponda: estas son nuestras frecuencias observadas, y
aplicamos por último la fórmula [1].
Grados de libertad:
En este caso debemos tener en cuenta para consultar las tablas que los
grados de libertad son igual al número de intervalos menos tres (k-3), por-
que partimos de tres restricciones iniciales: los valores de N, de la media y de
la desviación típica.
En esta comprobación lo que nos interesa comprobar es que el valor de c2
es inferior al de las tablas: en este caso no habría diferencia entre las frecuen-
cias observadas y las del modelo teórico, y podemos concluir que nuestra dis-
tribución se aproxima a la distribución normal. Un resultado estadísticamen-
te significativo nos diría que la distribución no puede considerarse normal.
9.2. Cuando las frecuencias esperadas son las de la distribución
normal
Esta prueba de bondad de ajuste se utiliza también para comprobar si una
distribución se ajusta a la distribución normal.
En este caso las categorías de clasificación son intervalos y las frecuencias
teóricas son las que corresponderían en la distribución normal.
Aunque una distribución puede dividirse en intervalos de muchas mane-
ras, lo más cómodo es dividir la distribución en intervalos que tengan un
idéntico número de sujetos, para facilitar las operaciones. Si se divide en 10
intervalos, puede quedar como aparece en la tabla 9.
Tabla 9
frecuencias teóricas:
z: -1.28 -0.84 -0.52 -.025 0.00 +0.25 +0.52 +0.84 +1.28
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
327
¿Es práctico o importante hacer esta comprobación de normalidad de
una distribución? Por lo general no; nos puede bastar una inspección de los
datos para ver si una distribución se aparta apreciablemente de la distribución
normal, pero en muchos planteamientos de análisis podemos necesitar la ve-
rificación de que las distribuciones en la población son normales. Cuando es-
to es necesario o bien nos lo hacen ya los programas de ordenador, o hay mé-
todos no paramétricos más sencillos (como el de Kolmogorov-Smirnov). Aun
así es útil conocer estas pruebas de bondad de ajuste para entender lo que
nos puede dar hecho un programa de ordenador.
10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIÓN CON DOS NIVELES CADA UNO
Es éste uno de los planteamientos más frecuentes y útiles, como los ejem-
plos puestos al comienzo para introducir el c2
. En general los cuadros de do-
ble entrada (cruzar los datos) son muy útiles para detectar ya de manera in-
tuitiva diferencias y relaciones.
Podemos distinguir dos planteamientos: para muestras independientes (el
más habitual) y para muestras relacionadas. En ambos casos la disposición
de los datos es la misma.
10.1. Tablas 2x2 para muestras independientes
10.1.1. Modelos de tablas 2x2: cómo clasificar a los sujetos
El uso más frecuente del ji cuadrado está seguramente en el análisis de
este tipo de tablas (2x2; dos criterios de clasificación cada uno dividido en
dos niveles), por esta razón exponemos diversos criterios que pueden emple-
arse para clasificar a los sujetos en dos categorías.
Proponemos cuatro modos de clasificar a los sujetos; realmente todos son
equivalentes, pero el tener a la vista ejemplos distintos nos puede sugerir pre-
guntas a las que podemos responder con estos análisis.
a) Sujetos clasificados según dos grupos de pertenencia o dos características
personales
Los sujetos pueden pertenecer a dos grupos a la vez; el término grupo hay
que entenderlo con amplitud, y viene a ser lo mismo que participar de una ca-
racterística común.
Por ejemplo, en una universidad podemos tener alumnos de primer curso
que pertenecen a una facultad o carrera (un grupo de pertenencia) y a la vez
pueden estar estudiando en su lugar habitual de residencia o pueden haber
venido de otra localidad (tabla 10).
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
328
La pregunta que nos hacemos es ésta: ¿Es una carrera más atractiva que la
otra para los que viven fuera? En la carrera A hay más alumnos de fuera que
en la carrera B; ¿Es esta diferencia superior a lo que podríamos encontrar por
azar?
Los porcentajes dentro de cada celda pueden estar referidos a los totales
de las filas o a los totales de las columnas (o a ambos), lo que resulte más in-
formativo en cada caso.
b) Sujetos clasificados según 1º grupo de pertenencia y 2º respuestas a una
pregunta
El grupo de pertenencia puede ser también una característica personal,
etc. y la pregunta puede expresar conocimientos, actitudes, etc.; realmente
se trata del mismo caso anterior, pero una presentación matizada y con ejem-
plos de estos criterios para clasificar a los sujetos sugiere más posibilidades de
análisis con los datos que tenemos o que podemos fácilmente obtener.
Por ejemplo podemos preguntar al terminar el curso a los alumnos del pri-
mer curso de dos carreras si están de acuerdo con esta afirmación: la estadís-
tica me va a ser muy útil en mi trabajo profesional (si en las dos carreras se
cursa la misma asignatura) (tabla 11).
Tabla 10
Tabla 11
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
329
Como antes, podemos preguntarnos por la diferencia entre las dos carre-
ras en aprecio de una asignatura; o lo que es lo mismo, podemos preguntar-
nos si hay relación entre estudiar una carrera y juzgar que una asignatura es
útil.
La pregunta anterior podemos proponerla con dos respuestas (de acuer-
do o en desacuerdo) o con más respuestas (desde muy en desacuerdo has-
ta muy de acuerdo); en este caso dicotomizamos (agrupamos en dos catego-
rías) las respuestas. Cuando varias respuestas las reducimos a dos solamente,
estamos prescindiendo de información que de hecho tenemos disponible, y
en estos casos el ji cuadrado puede que no sea el método más apropiado pa-
ra analizar los datos. De todas maneras el agrupar las respuestas en dos posi-
bilidades para hacer un cuadro 2x2 es útil para simplificar la información.
Cuando dicotomizamos las respuestas, una manera de hacerlo es utilizan-
do la mediana (y en la zona del acuerdo y del desacuerdo quedará más o me-
nos el mismo número de sujetos), o podemos agrupar las respuestas según
su significado literal; en cualquier caso debemos exponer qué es lo que he-
mos hecho.
c) Prueba de la mediana
Con este término, prueba de la mediana, se denomina otra manera de cla-
sificar a los sujetos. que quedan clasificados en estos dos criterios: 1º según
grupo de pertenencia y 2º según estén por encima o por la debajo de la me-
diana común en un mismo test o escala.
En el ejemplo anterior (tabla 11) veíamos la posibilidad de dicotomizar las
respuestas a una sola pregunta. En este caso (tabla 12) no se trata ya de una
pregunta sino de todo un test, escala, etc., que mide de manera más clara y
fiable una determinada característica. Este análisis tiene incluso su propio
nombre: prueba de la mediana.
El proceso es el siguiente:
1º Todo los sujetos, pertenecientes a dos grupos, responden al mismo
instrumento (test, escala).
2º Calculamos la mediana común a todos los sujetos (la puntuación que
divide a todos lo sujetos, juntándolos en un solo grupo, en dos mitades
iguales aproximadamente).
En un ejemplo similar anterior (tabla 11) podríamos sustituir la pregun-
ta sobre una asignatura por una escala de actitudes hacia la asignatura de
estadística.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
330
En términos simples, la pregunta que nos hacemos es la siguiente:
Uno de los dos grupos ¿Coloca más sujetos que el otro por encima de la
mediana común, en la mitad superior?
Si en el caso anterior advertíamos que dicotomizar las respuestas a una
pregunta supone perder información, en este caso la pérdida es mucho ma-
yor. En vez de utilizar la puntuación individual de cada sujeto en el test o es-
cala, sólo nos fijamos si está por encima o por debajo de la mediana común.
En este caso el análisis en principio más idóneo no sería el ji cuadrado sino
un contraste de medias entre las dos carreras. Sin embargo este análisis tam-
bién puede ser oportuno, bien como complemento informativo a un con-
traste de medias, o porque nos parece suficiente, o porque la medida utiliza-
da es poco fiable y es más seguro dicotomizar las respuestas en dos grandes
categorías.
d) Un mismo grupo clasificado según sus respuestas a dos ítems o preguntas
Seguimos con el mismo esquema; en los casos anteriores siempre tenía-
mos dos grupos (o un grupo que lo consideramos como dos grupos en fun-
ción de alguna característica que nos permite dividir a los sujetos en dos sub-
grupos); lo que pretendíamos es en última instancia verificar diferencias
entre grupos. Ahora tenemos un solo grupo y el énfasis lo ponemos en el
análisis de la relación entre las preguntas.
Por ejemplo (el ejemplo es real, tabla 13), los alumnos de una clase expre-
san su grado de acuerdo con estas dos afirmaciones: la suerte influye mucho
en los exámenes y me divierte estudiar. Si las respuestas son más de dos, las
podemos agrupar en dos categorías (con la consiguiente pérdida de informa-
ción pero no por eso deja de ser útil este análisis).
Tabla 12
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
331
¿Están relacionadas las dos opiniones o actitudes o son independientes?
Este planteamiento del ji cuadrado suele denominarse prueba de inde-
pendencia.
También podemos conceptualizar este planteamiento como el de una
comprobación de diferencias entre dos grupos: el grupo que cree en la suer-
te ¿se diferencia en actitud hacia el estudio del grupo de los que no creen en
la suerte?
Salta a la vista que si tenemos puntuaciones continuas el cálculo que en
principio parece más oportuno es un coeficiente de correlación, pero esta
disposición de los datos es también muy informativa.
Si los datos son genuinamente dicotómicos (1 ó 0) también disponemos
de un coeficiente de correlación (f) que veremos después y que podemos
calcular directamente o como complemento al ji cuadrado.
10.1.2. Cómo analizar los datos
En estos casos (cuadros 2x2, muestras independientes) podemos abordar
el análisis al menos con dos enfoques que nos llevan a los mismos resultados:
1º Ji cuadrado (y prueba exacta de Fisher para muestras muy pequeñas)
2º Contraste de proporciones entre muestras independientes
Del ji cuadrado podemos pasar al cálculo de coeficientes de correlación o
de asociación (puestos en el apartado nº 12).
Cuando el número total de sujetos es muy pequeño (N  20), podemos
aplicar la prueba exacta de Fisher, que no requiere ningún cálculo, sino sim-
plemente consultar las tablas apropiadas6
.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
332
Tabla 13
6
La prueba exacta de Fisher la exponemos más adelante. Estos enfoques metodológi-
cos (ji cuadrado y contraste de proporciones) suelen estar en los textos en apartados dis-
La fórmula [7] es la habitual, y la que se utiliza siempre, al menos cuando
N no es muy inferior a 40.
b) Observación sobre la corrección de Yates y el número de sujetos
La fórmula [8] incluye la llamada corrección de Yates (restar N/2 a la dife-
rencia entre ad y bc en valores absolutos antes de elevarla al cuadrado)7
, y
1º Ji cuadrado
a) Planteamiento y fórmulas
Disponemos los datos como es usual (e incluyendo los porcentajes si es
conveniente con fines informativos).
Una observación importante: Convencionalmente las frecuencias de las
cuatro casillas las simbolizamos con las cuatro letras a, b, c y d. Conviene po-
nerlas siempre de la misma manera porque en las fórmulas asociadas a este
planteamiento se supone que se han puesto en ese orden; en alguna fórmu-
la que veremos esto es especialmente importante.
Cuando los datos se codifican como 1 ó 0 (sí o no, bien o mal, etc.), y el
cero significa mal, en desacuerdo, no, etc., es importante que el no, mal,
etc. (lo que codificamos con un 0) estén puestos en la fila c y d (para una va-
riable), y en la columna a y c (para la otra variable), tal como lo ponemos
aquí. Los dos ceros confluyen en c; en ese ángulo se sitúan los valores meno-
res cuando se trata de coordenadas. Naturalmente el 0 y el 1 no tienen senti-
do como juicio de valor cuando sólo significan pertenecer a un grupo u otro
(varón o mujer, un curso u otro, etc.).
Aunque podemos aplicar la fórmula [1], disponemos de fórmulas más sen-
cillas, como son las fórmulas [7] y [8].
tintos y posiblemente es lo más apropiado desde una perspectiva más teórica. Como alter-
nativa y complemento, y con un enfoque quizás más pragmático, preferimos poner aquí
juntos los distintos procedimientos cuando son válidos para analizar los mismos datos.
7
Frank Yates, británico, propuso esta corrección en 1934 (Yates, F (1934). “Contin-
gency table involving small numbers and the ¯2
test”. Journal of the Royal Statistical So-
ciety (Supplement) 1: 217-235).
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
333
suele recomendarse cuando los sujetos son pocos (N  40) o cuando alguna
frecuencia teórica no llega a 5.
Aunque esta corrección de Yates (y el requisito de que las frecuencias
teóricas no sean inferiores a 5) viene rutinariamente en muchos textos (y
en programas de ordenador), hace tiempo que se cuestiona su necesidad
o conveniencia porque una serie de estudios muestran que con esta co-
rrección la prueba del ji cuadrado se convierte en una prueba demasiado
conservadora (no se rechaza la Hipótesis Nula cuando se podría rechazar
legítimamente)8
.
La recomendación tradicional es a) aplicar la corrección de Yates en ta-
blas 2x2 cuando una frecuencia teórica es inferior a 5 y b) no utilizar el ji cua-
drado en tablas mayores si el más del 20% de las frecuencias teóricas es infe-
rior a 5.
c) Orientaciones prácticas para tablas 2x2
Posiblemente la práctica más aconsejable en tablas 2x2 es:
1) Prescindir de esta corrección (fórmula [8]) y utilizar habitualmente la
[7]. Cuando no aplicamos esta corrección en las situaciones en las que
suele o solía ser recomendada, tenemos una prueba más liberal9
.
2) No utilizar el ji cuadrado con pocos sujetos (no muy inferior a N = 40
es una recomendación segura).10
3) Con muestras muy pequeñas (en torno a N = 20) utilizar la prueba
exacta de Fisher (en el apartado siguiente)
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
334
8
A pesar de que esta fórmula [8] se sigue recomendando, ya se va viendo cuestiona-
da en bastantes textos (como el de Daniel, 1981), suprimida y no recomendada en otros
como innecesaria (como en el de Runyon y Haber, 1984; Rosenthal y Rosnow, 1991; Spatz,
1993; Hinkle, Wiersma y Jurs, 1998), y esta no recomendación es elogiada en recensiones
publicadas en revistas de prestigio en este campo (Morse, 1995). Estos autores mencionan
las investigaciones en las que se apoyan, y aquí los citamos a título de ejemplo (se pueden
buscar más citas autorizadas) porque la supresión de esta corrección de Yates (que data de
1934) todavía supone ir en contra de una práctica muy generalizada. El consensus parece
ser que esta corrección hace del ji cuadrado una prueba excesiva e innecesariamente con-
servadora (Black, 1999:580). Otros autores (Heiman, 1996) siguen recomendando el que
las frecuencias teóricas sean superiores a 5 (en tablas 2x2) pero omiten la corrección de Ya-
tes. Un comentario más amplio y matizado sobre la corrección de Yates y otras alternativas
puede verse en Ato García y López García (1996).
9
El programa de VassarStats (Internet, Anexo II) calcula el ji cuadrado con y sin la co-
rrección de Yates.
10
No hay un acuerdo claro sobre el número mínimo de sujetos en el ji cuadrado; Ro-
senthal y Rosnow (1991:514) mencionan N = 20 pero advierten que frecuencias teóricas
muy bajas pueden funcionar bien en muestras todavía más pequeñas.
d) Ejemplo resuelto
Podríamos utilizar la fórmula [1], que se puede aplicar siempre, pero es
mucho más cómoda la fórmula [7] que es la que generalmente se utiliza en
estos casos.
Tenemos 161 sujetos clasificados según el grupo al que pertenecen (A o B)
y sus respuestas a una pregunta (sí o no). Disponemos los datos en un cua-
dro de doble entrada (tabla 14).
Tabla 14
La probabilidad de que estas frecuencias sean aleatorias son inferiores al
1/1000 (p  .001), ya que nos pasamos del valor señalado en las tablas
(10.827).
Podemos concluir que las dos variables que han servido de criterio de cla-
sificación (responder sí o no a una pregunta y pertenecer a uno u otro grupo)
están relacionadas (o lo que es lo mismo, los grupos difieren significativamen-
te en sus respuestas).
e) Cálculo complementario: coeficiente de correlación
Un valor grande de c2
nos da mucha seguridad para afirmar que existe
asociación entre las dos variables, pero no nos dice si la relación es grande o
pequeña. Para cuantificar el grado de relación tenemos que acudir a alguno
de los coeficientes relacionados con el c2
puestos al final (apartado nº 12).
Los grados de libertad son: (columnas menos una) por (filas menos una)
= (2-1) (2-1) = 1 totales 90 (100%) 71 (100%).
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
335
La relación entre pertenencia a un grupo u otro y responder sí o no a esa
pregunta es moderada. Si hacemos que pertenecer al grupo A = 1, y pertene-
cer al grupo B = 0, y decir que sí = 1 y decir que no = 0 y calculamos el co-
eficiente r de Pearson, obtendremos el mismo resultado.
Disponemos también de otros coeficientes de relación para tablas mayo-
res (el coeficiente de contingencia C es el más popular aunque no el único);
los exponemos y valoramos brevemente en el apartado nº 12.
2º Prueba exacta de Fisher
En tablas 2x2 y con un N bajo (ciertamente  20) es preferible la prueba
exacta de Fisher: basta consultar las tablas apropiadas, en las que vienen to-
das las combinaciones posibles de a, b, c y d con N = 20 o menos (una tabla
para cada valor posible de N). Las tablas nos indican qué combinaciones tie-
nen una probabilidad de ocurrir por azar inferior al 5% o al 1%11
. Otra alterna-
tiva cómoda (además de los programas informáticos más comunes) es utilizar
alguno de los varios programas disponibles en Internet12
.
3º Contraste entre proporciones (muestras independientes)
Como alternativa que da idénticos resultados, podemos utilizar el contras-
te entre proporciones (o entre porcentajes si multiplicamos por 100) para
muestras independientes (fórmula [9]). Obtendremos un valor de z, pero ya
sabemos que en estos casos z2
= c2
El procedimiento ya está explicado en el contraste de medias pero es útil
repetirlo en este contexto para ver su equivalencia con el c2
: dividimos una di-
ferencia entre proporciones por el error típico de la diferencia entre dos
proporciones, que está en el denominador de la fórmula [9]. En rigor lo que
En el caso de tablas 2x2 y con variables dicotómicas (que se excluyen mu-
tuamente) el coeficiente apropiado es el coeficiente ? (fi, fórmula [15] que re-
petimos aquí), que es el mismo coeficiente r de Pearson cuando las dos varia-
bles son dicotómicas (1 y 0):
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
336
11
Estas tablas se encuentran en algunos textos (como el de Siegel, 1972; Siegel y Cas-
tellan, 1988 [tabla 35]; Langley, 1973; Leach, 1982) o en compendios de tablas estadísticas
(como en Meredith, 1971 y en Ardanuy y Tejedor, 2001, tabla I).
12
Anexo II; en estos programas (como GRAPHPAD)
) basta introducir en el cuadro de diá-
logo las cuatro frecuencias a, b, c y d.
Ya sabemos que con un grado de libertad c2
= z2
: 5.2892
= 27.97; llegamos
a la misma conclusión que con la prueba del c2
. Los resultados son idénticos
si utilizamos todos los decimales.
10.2. Tablas 2x2 para muestras relacionadas
10.2.1. Procedimientos
a) Ji cuadrado (prueba de McNemar)
Las fórmulas vistas hasta ahora, y referidas al ji cuadrado, son todas equi-
valentes a la fórmula [1]. Las fórmulas para muestras relacionadas nos sir-
ven para comparar dos proporciones (o porcentajes) cuando los mismos su-
jetos pueden estar incluidos en los dos grupos (y en este sentido se trata de
muestras relacionadas, como se puede apreciar con claridad en los ejem-
plos específicos que ponemos después para ilustrar las aplicaciones de este
procedimiento).
tenemos en el numerador no es la diferencia entre dos proporciones, sino la
diferencia entre una diferencia (la nuestra) y una diferencia de cero.
En la fórmula [9] tenemos en el denominador el error típico de la diferen-
cia entre dos proporciones.
Utilizamos como ejemplo los mismos datos de la tabla anterior [14].
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
337
Y aplicando la fórmula [9] a nuestros datos:
Estas fórmulas corresponden a la denominada prueba de McNemar (y así
figura en muchos textos). En estos casos los grados de libertad son igual a 1.
Recordamos la observación importante que ya hemos hecho sobre los
símbolos utilizados: a y d son las celdillas donde se sitúan las frecuencias dis-
crepantes a y d (sí/no y no/sí; 0/1/ y 1/0), por lo que esas fórmulas, expresadas
con estos símbolos, sólo tienen sentido si los datos están bien dispuestos.
b) Contraste entre proporciones relacionadas
Podemos también hacer un contraste de proporciones para muestras re-
lacionadas; como en estos casos (tablas 2x2, un grado de libertad) c2
= z2
, la
fórmula queda simplificada así:
Veremos la utilidad de estas fórmulas con dos ejemplos referidos a dos
planteamientos útiles y frecuentes.
10.2.2. Aplicaciones específicas
a) Para comprobar cambios
Clasificamos a los sujetos según hayan respondido sí o no (o de acuerdo
o en desacuerdo, 1 ó 0, etc.) en dos ocasiones distintas.
Podemos suponer que hemos preguntado a nuestros alumnos si les inte-
resa la asignatura en dos ocasiones, primero al comenzar el curso y más
adelante al terminar el curso (tabla 15).
La fórmula [10] se utiliza cuando (a + d) es
igual o mayor de 10;
La fórmula [11] se utiliza cuando (a + d) 
10; se resta una unidad al numerador po-
niendo el signo + a la diferencia; se trata de
disminuir esta diferencia antes de elevarla al
cuadrado.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
338
Tabla 15
Si queremos saber si una pregunta está relacionada con la otra (si el sa-
ber una supone saber también la otra) utilizaremos la fórmula convencional;
en este caso la [1] o la [7].
Pero si lo que queremos es comprobar si una pregunta es más difícil que
la otra (como en este ejemplo), estamos en el mismo caso anterior (muestras
relacionadas, lo mismo que para comprobar un cambio)
La pregunta 1ª la ha respondido correctamente el 65% (39 alumnos), y la
2ª el 17% (10 alumnos). Como algunos alumnos han respondido bien las dos,
tenemos muestras relacionadas.
En ambos casos aplicamos la fórmula [10] porque a + d = 41 (10), y te-
nemos que:
Al comenzar el curso la asignatura interesa a 10 alumnos (17% del total); al
terminar les interesa a 39 (65% del total).
Nos interesa comprobar si este 65% es significativamente superior al 17%
inicial.
Se trata de muestras relacionadas porque hay sujetos que están en los
dos grupos (como los 4 sujetos en (b), interesados tanto antes como después
y los 15 en (c) a quienes no interesa la asignatura ni al comienzo ni al final).
En todas estas tablas hay que prestar atención a la disposición de los datos
de manera que en la celda (c) coincidan los dos ceros y en la celda (b) los dos
unos.
b) Para comprobar una diferencia entre proporciones relacionadas
Se trata del mismo caso anterior pero nos formulamos la pregunta de otra
manera. Repetimos los mismos datos, pero ahora se trata de dos preguntas
de un examen, y respondidas por lo tanto en la misma ocasión (no antes y
después) y que pueden estar bien o mal respondidas; queremos comparar su
nivel de dificultad; ver si una es más difícil que la otra (tabla 16).
Tabla 16
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
339
Con un grado de libertad tenemos que p .001; nuestra conclusión es
que ha habido cambio en el primer ejemplo y que una pregunta es más difí-
cil que la otra en el segundo ejemplo. En ambos casos la diferencia entre
[a+b] y [b+d] es superior a lo que se puede esperar por azar.
Si preferimos un contraste de proporciones para muestras relacionadas,
podemos utilizar la fórmula [12] para obtener el valor de z:
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
340
10.2.3. Adaptación de la prueba de McNemar (muestras relacio-
nadas) para tablas mayores (nxn)
La fórmula de McNemar es apropiada para tablas 2x2, pero se puede adap-
tar para tablas mayores, como en este ejemplo para comprobar un supuesto
cambio. La pregunta que se ha hecho antes y después admite en este caso
tres respuestas: sí, no sé y no (podrían ser otras categorías de respuesta o de
observación, como bien, regular y mal si hay criterios claros para este tipo de
clasificación).
Como en tablas semejantes, los noes (el nivel más bajo) deben coincidir en
la celda inferior izquierda y los síes (el nivel más alto) en la celda superior de-
recha (tabla 17a). Lo que hemos hecho (tabla 17b) es agrupar los cambios ne-
gativos (de sí a no y a no sé, y de no sé a no) y los cambios positivos (de no a
no sé y sí y de no sé a sí), y ya tenemos los dos valores, a y d, de la fórmula [10].
(32 – 10)2
Ahora podemos aplicar la fórmula [10]: c2
= ––––––––– = 11.52, p  .001;
32 + 10
Tabla 17a Tabla 17b
; el resultado es el mismo
Podemos concluir que sí ha habido un cambio positivo superior a lo que
cabría esperar por azar.13
11. DOS CRITERIOS DE CLASIFICACIÓN, CADA UNO DIVIDIDO EN DOS O MÁS NIVELES
(TABLAS NXN)
En este caso se aplica la fórmula general [1].
El procedimiento es el siguiente:
1º En cada casilla se calcula la frecuencia teórica (tal como se ve en el
apartado nº 4)
2º En cada casilla se calcula el valor correspondiente de ji cuadrado,
3º Por último se suman todos estos valores de ji cuadrado de cada casi-
lla en un valor único de ji cuadrado que es el que consultamos en las
tablas.
Lo veremos con un ejemplo14
. Se ha hecho una encuesta de opinión entre
los accionistas de una determinada empresa, para ver si su posición frente a
una posible fusión con otra empresa era independiente o no del número de
acciones que cada uno de ellos tiene. Tenemos las respuestas de 200 accionis-
tas clasificados según el número de acciones (tabla 18); debajo de cada fre-
cuencia observada se pone el tanto por ciento con respecto al total de la fila
(número de acciones), porque resulta más informativo (también cabría poner
los tantos por ciento con respecto al total de la columna).
Tabla 18
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
341
13
Otra alternativa para tablas 3x3 y muestras relacionadas podemos verla en Hinkle,
Wiersma y Jurs (1998).
14
Ejemplo tomado de W
. Mendenhall y James E. Reinmouth (1978), Estadística para
administración y economía, México, Grupo Editorial Iberoamericana.
El cálculo del c2
está en la tabla 19. Las frecuencias teóricas o esperadas
(ft) de cada casilla las calculamos tal como se indicó anteriormente:
(marginal de la fia) (marginal de la columna)
ft = –––––––––––––––––––––––––––––––––––––––
(número total de sujetos)
(99) (58)
así en (a) tendremos: ft = –––––––––– = 28.71
200
(fo - ft)2
(37 - 28.71)2
Y el c2
correspondiente a (a) será igual a = ––––––– = –––––––––– = 2.3937
ft 28.71
Comprobamos que la suma de las frecuencias observadas es igual a la su-
ma de las frecuencias teóricas o esperadas; se trata de los mismos sujetos re-
partidos con distintos criterios: los que observamos en cada casilla, y los que
tendríamos si no hubiera relación entre los dos criterios de clasificación. Es-
tas dos sumas no coinciden siempre exactamente, depende de cómo haya-
mos redondeado los decimales, pero deben ser casi iguales.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
342
Tabla 19
La relación es más bien baja, aunque se puede afirmar con mucha seguri-
dad que sí hay relación.
Si queremos interpretar con más detalle la información disponible, pode-
mos fijarnos en qué casillas hay una mayor discrepancia entre las frecuencias
observadas y las teóricas; esto nos lo indican los mismos valores del ji cua-
drado, que son mayores en unas casillas que en otras. Lo que está más claro
es la discrepancia:
En la casilla h (entre los que tienen más de 500 acciones hay más en
contra de la fusión que los que podríamos esperar),
En la casilla a (entre los que tienen menos de 100 acciones hay más a fa-
vor de la fusión)
En la casilla b (entre los que tienen menos de 100 acciones hay menos
en contra de la fusión).
En los cuadros 2x2 la interpretación suele ser más fácil e intuitiva, en cua-
dros grandes no siempre es tan sencillo y hay que fijarse cómo se distribuyen
las frecuencias. Hay métodos específicos para parcializar estos cuadros y ha-
cer una interpretación más matizada15
.
Los grados de libertad son (3-1)(3-1) = 4. Con cuatro grados de libertad
rechazamos la Hipótesis Nula con una probabilidad de error inferior al 5%
(p.05; el valor de las tablas es 9.488 y nosotros lo superamos; en realidad la
probabilidad es p.02).
Podemos afirmar con mucha seguridad que el número de acciones que
uno tiene en la empresa está relacionado con la postura frente a la posible fu-
sión de la empresa con otra.
Coeficientes de asociación
Para comprobar si la relación es grande o pequeña acudimos a alguno
de los coeficientes de asociación relacionados con el ji cuadrado (en el
apartado siguiente Coeficientes de relación asociados al c2
se comentan
estos coeficientes).
En este caso (tablas mayores de 2x2) el coeficiente más utilizado es el co-
eficiente de contingencia (fórmula [13]):
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
343
15
Pueden verse en Linton, Gallo Jr. y Logan (1975).
Con estos mismos datos podríamos calcular también el coeficiente de co-
rrelación r de Pearson. Para esto podríamos codificar los datos así:
número de acciones: 1 (menos de 100), opinión: 3 (a favor),
2 (entre 100 y 500) 2 (sin opinión)
3 (más de 500) 1 (en contra).
Posiblemente para calcular este coeficiente sería preferible tener a los su-
jetos agrupados en más categorías según el número de acciones que tengan,
o sencillamente no agruparlos. Cuando agrupamos a los sujetos (y elimina-
mos diferencias individuales) los valores del coeficiente de correlación no son
los mismos (suelen ser más bajos) que si no agrupamos a los sujetos. Lo que
sucede es que a veces los únicos datos disponibles son los datos agrupados,
como los de este ejemplo.
12. COEFICIENTES DE RELACIÓN ASOCIADOS AL c2
Un valor alto de c2
nos da seguridad para afirmar que hay asociación o re-
lación entre dos variables (o una diferencia entre dos o más grupos), pero no
nos dice si la relación es grande o pequeña (como tampoco nos dice si es im-
portante). Con un N grande es relativamente fácil obtener valores altos (esta-
dísticamente significativos) de c2
, sin que esto quiera decir que la relación
entre las dos variables sea grande o importante.
Para apreciar la magnitud de la asociación existen varios coeficientes de-
rivados del c2
Estos coeficientes aportan una información análoga a la del ta-
maño del efecto en el contraste de medias. Los más utilizados son:
a) El coeficiente f (fi) cuando las dos variables son genuinamente dicotó-
micas (no dicotomizadas); en estos casos es el preferible.
b) El coeficiente de contingencia (C) con tablas nxn (más de dos nive-
les al menos en uno de los dos criterios) pero hay otros que pueden
ser más adecuados. Se pueden examinar las peculiaridades de cada
uno de los coeficientes disponibles para utilizar el que creamos más
conveniente.
Para comparar coeficientes de relación asociados al c2
dentro de un mis-
mo estudio se debe utilizar el mismo coeficiente, porque los valores de los
distintos coeficientes no son estrictamente comparables entre sí.
Exponemos a continuación algunos de los coeficientes más utilizados indi-
cando sus particularidades para poder escoger el que en cada caso nos parez-
ca más conveniente.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
344
a) Coeficiente de contingencia
Valor máximo de C cuando el número de filas (f)
es igual al de columnas (c):
Es válido para cuadros de cualquier tamaño;
Es estadísticamente significativo en el mismo grado en que lo es el c2
;
El valor mínimo es 0, pero su valor máximo depende del tamaño de la ta-
bla; por esta razón estos coeficientes sólo se pueden comparar entre sí cuan-
do proceden de tablas del mismo tamaño; en el caso de un grado de libertad
(tablas 2x2), su valor máximo es .707; en tablas 3x3 su valor máximo es .816
No es comparable con el coeficiente r de Pearson.
Su valor es siempre positivo; el signo de la asociación se deduce de la ob-
servación directa de los datos
b) Coeficiente f
Cuando se calcula a partir de los datos de una tabla de contingencia 2x2
su fórmula es:
El coeficiente f es un caso particular del coeficiente r de Pearson (y pue-
den emplearse las mismas fórmulas o una calculadora programada con el co-
eficiente r); es estadísticamente significativo (no aleatorio) en el grado en
que lo es el valor de c2
;
Se utiliza con datos dicotómicos (1 ó 0) en cuadros 2x2; no es válido para
datos dicotomizados (cuando los datos originales son continuos); en este ca-
so podemos utilizar el c2
pero no este coeficiente.
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
345
Es de uso frecuente para calcular correlaciones entre ítems dicotómicos
(tests, pruebas objetivas).
Si se calcula a partir de c2
su signo será siempre positivo; el signo es real-
mente positivo si bc  ad (en b y c están los datos que indican relación posi-
tiva; 1 en las dos variables ó 0 en las dos).
Una limitación de este coeficiente es que su valor máximo no es 1 necesaria-
mente; sólo cuando la proporción de unos es idéntica en las dos variables.
c) Coeficiente f de Cramer
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
346
k es el número de filas o de columnas, el que sea menor de los dos.
Este coeficiente varía de 0 a 1, independientemente del tamaño de la tabla,
por lo que puede ser una alternativa preferible al coeficiente de contingencia
(aunque se utiliza menos).
Es estadísticamente significativo si lo es el valor de c2
correspondiente.
d) Coeficiente T de Tschuprow
f = número de filas y c = número de columnas;
Este coeficiente puede alcanzar el valor máximo de 1 solamente cuando f =
c (el número de filas es igual al número de columnas).
Es estadísticamente significativo si lo es el valor de c2
correspondiente.
13. VALORACIÓN DEL JI CUADRADO
1º El ji cuadrado es un método muy utilizado y muy útil cuando los datos
disponibles son realmente nominales (o categóricos): lo único que sa-
bemos de los sujetos es en qué categoría podemos clasificarlos.
2º Frecuentemente sabemos algo más de los sujetos: no solamente, por
ejemplo, si están por encima o por debajo de la media (o apto o no
apto) sino una puntuación exacta. O los tenemos clasificados según
respuestas que admiten un código en números (como nada, poco,
mucho… que pueden equivaler a 1, 2 y 3). Muchas veces el uso del ji
cuadrado supone una pérdida de información, y debemos preguntar-
nos si en vez de o además del ji cuadrado no disponemos de otros
métodos preferibles de análisis (como puede ser un coeficiente de co-
rrelación) porque aprovechamos mejor la información que de hecho
tenemos.
3º El ji cuadrado es muy sensible al número de sujetos (como sucede en
todas las pruebas de significación estadística): con facilidad obtenemos
unos valores no solamente estadísticamente significativos, sino de una
magnitud muy grande. Esto no quiere decir que la diferencia o la rela-
ción sea grande, puede ser muy pequeña. Como otros métodos de aná-
lisis que nos remiten a una probabilidad, conviene calcular siempre al-
gún coeficiente que nos cuantifique mejor la magnitud de la relación
o de la diferencia. En tablas 2x2 y con datos genuinamente dicotómi-
cos, el coeficiente f es el preferible.
4º El encontrar un valor significativo de ji cuadrado no quiere decir que
haya una relación lineal entre las dos variables que han servido para
clasificar a los sujetos (es decir que a más de una más de la otra, cuan-
do tenga sentido hablar de más y menos). Para interpretar bien los re-
sultados hay que observar las frecuencias, y ayuda convertirlas en por-
centajes con respecto a los totales marginales, como hemos hecho en
casi todos los ejemplos presentados.
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
347
ANEXO I. TABLAS DEL JI CUADRADO
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
348
Grados p = p = p = Grados p = p = p = Grados p = p = p =
de 0.05 0.01 0.001 de 0.05 0.01 0.001 de 0.05 0.01 0.001
libertad libertad libertad
1 3.84 6.64 10.83 13 22.36 27.69 34.53 24 36.42 42.98 51.18
3 7.82 11.35 16.27 14 23.69 29.14 36.12 25 37.65 44.31 52.62
4 9.49 13.28 18.47 15 25.00 30.58 37.70 26 38.89 45.64 54.05
5 11.07 15.09 20.52 16 26.30 32.00 39.25 27 40.11 46.96 55.48
6 12.59 16.81 22.46 17 27.59 33.41 40.79 28 41.34 48.28 56.89
7 14.07 18.48 24.32 18 28.87 34.81 42.31 29 42.56 49.59 58.30
8 15.51 20.09 26.13 19 30.14 36.19 43.82 30 43.77 50.89 59.70
9 16.92 21.67 27.88 20 31.41 37.57 45.32 40 55.76 63.69 73.41
10 18.31 23.21 29.59 21 32.67 38.93 46.80 50 67.51 76.15 86.66
11 19.68 24.73 31.26 22 33.92 40.29 48.27 60 79.08 88.38 99.62
12 21.03 26.22 32.91 23 35.17 41.64 49.73 70 90.53 100.42 112.31
Tablas adaptadas y abreviadas de Alexei Sharov, Virginia Tech, Blacksburg, VA, Quantitative Po-
pulation Ecology, On-Line Lectures [ http://www.ento.vt.edu/~sharov/PopEcol/] http://www.en-
to.vt.edu/~sharov/PopEcol/tables/chisq.html
Tablas más completas y las probabilidades exactas de cualquier valor de ji cua-
drado pueden verse en varias direcciones de Internet:
INSTITUTE OF PHONETIC SCIENCES (IFA) (Statistical tests h
ht
tt
tp
p:
:/
//
/f
fo
on
ns
sg
g3
3.
.l
le
et
t.
.u
uv
va
a.
.n
nl
l/
/S
Se
er
r-
-
v
vi
ic
ce
e/
/S
St
ta
at
ti
is
st
ti
ic
cs
s.
.h
ht
tm
ml
l), The Chi-square distribution h
ht
tt
tp
p:
:/
//
/f
fo
on
ns
sg
g3
3.
.l
le
et
t.
.
u
uv
va
a.
.n
nl
l/
/S
Se
er
rv
vi
ic
ce
e/
/S
St
ta
at
ti
is
st
ti
ic
cs
s/
/C
Ch
hi
iS
Sq
qu
ua
ar
re
e_
_d
di
is
st
tr
ri
ib
bu
ut
ti
io
on
n.
.h
ht
tm
ml
l (calcula la pro-
babilidad introduciendo los valores de ji cuadrado y los grados de libertad).
JONES, JAMES, Statistics: Lecture Notes http://www.richland.edu/james/lecture/m170/
http://www.richland.cc.il.us/james/lecture/m170/tbl-chi.html
LOWRY, RICHARD, Vassar Stats http://faculty.vassar.edu/lowry/VassarStats.html (buscar
en el menú: distributions)
SHAROV
, ALEXEI, On-line lectures Department of EntomologyVirginia Tech, Blacksburg,
VA [http://www.ento.vt.edu/~sharov/PopEcol/ Statistical Tables] http://www.en-
to.vt.edu/~sharov/PopEcol/tables/chisq.html (tablas de c2
hasta 100 grados de
libertad, p = .05, .01 y .001).
STOCKBURGER , DAVID W. Introduction to Statistics: Concepts, Models, and Aplications
CRITICAL VALUES FOR THE CHI-SQUARE DISTRIBUTION http://www.
psychstat.smsu.edu/introbook/chisq.htm
WALKER, JOHN, RetroPsychoKinesis Project Home http://www.fourmilab.ch/rpkp/expe-
riments/analysis/chiCalc.html [calcula la probabilidad (p) de c2
a partir de los
valores de c2
y de los grados de libertad, y el valor de c2
a partir de p (probabili-
dad) y grados de libertad].
ANEXO II. JI CUADRADO Y ANÁLISIS AFINES EN INTERNET
ARSHAM, HOSSEIN Europe Mirror Site Collection, [Tablas hasta 6x6] http://home.
ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm#rmenu (menú Chi-
square Test for Relationship)
COLLEGE OF SAINT BENEDICT, SAINT JOHN’S UNIVERSITY, Contingency Tables http://www.
physics.csbsju.edu/stats/contingency.html
LOWRY, RICHARD, Vassar Stats [Tablas 2x2, con y sin corrección de Yates, coeficiente phi],
http://faculty.vassar.edu/lowry/VassarStats.html (menú: frequency data)
LOWRY, RICHARD, Vassar Stats [Tablas hasta 5x5] http://faculty.vassar.edu/lowry/VassarS-
tats.html (buscar en el menú: frequency data)
PREACHER, KRISTOPHER J. (May, 2001) The Ohio State University, Calculation for the Chi-
Square Test, An interactive calculation tool for chi-square tests of goodness of
fit and independence (Tablas hasta 10x10, válido para una sola fila o columna)
http://www.psych.ku.edu/preacher/chisq/chisq.htm (consultado 28, 03, 08)
Prueba exacta de Fisher
COLLEGE OF SAINT BENEDICT, SAINT JOHN’S UNIVERSITY, http://www.physics.csbsju.
edu/stats/fisher.form.html
LOWRY, RICHARD, Vassar Stats, Fisher’s Exact Probability Test http://faculty.vassar.edu/
lowry/fisher.html (Vassar Stats Web Site for Statistical Computation: http://fa-
culty.vassar.edu/lowry/VassarStats.html) [Vassar College, Poughkeepsie, New
York]
ØYVIND LANGSRUD, Fisher’s Exact Test http://www.langsrud.com/fisher.htm ,
PREACHER, KRISTOPHER J. and BRIGGS, NANCY E., Calculation for Fisher’s Exact Test,
http://www.psych.ku.edu/preacher/ (o directamente http://www.psych.ku.edu/
preacher/fisher/fisher.htm
SISA, Simple Interactive Statistical Analysis FisherExact http://home.clara.net/sisa/fis-
her.htm y Fisher 2 by 5 http://home.clara.net/sisa/fiveby2.htm
McNemar, Binomial, prueba de los signos
GRAPHPAD, Free Calculators for Scientists Sign and binomial test http://graphpad.
com/quickcalcs/binomial1.cfm (índice de todos los análisis: http://graphpad.
com/quickcalcs/index.cfm)
GRAPHPAD, Free Calculators for Scientists [http://www.graphpad.com/quickcalcs/
index.cfm] McNemar’s test to analyze a matched case-control study
http://www.graphpad.com/quickcalcs/McNemar1.cfm
SISA, Simple Interactive Statistical Analysis Pairwise T-test | Wilcoxon | Signs test |
Mc-Nemar http://home.clara.net/sisa/pairwhlp.htm
ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2
)
349
REFERENCIAS BIBLIOGRÁFICAS
AMERICAN PSYCHOLOGICAL ASSOCIATION (2001), Publication manual of the American
Psychological Association (5th
Edit). Washington D.C.: Author.
ANSCOMBE F. J. (1973), Graphs in Statistical Analysis. American Statistician, 27 (Feb
1973), 17-21.
ARDANUY ALBAJA, R. y TEJEDOR TEJEDOR, F. J. (2001), Tablas estadísticas. Madrid: La Mura-
lla.
ATO GARCÍA, M. y LÓPEZ GARCÍA, J. J. (1996), Análisis estadístico para datos categóricos.
Madrid: Síntesis.
BEHRENS, JOHN T. (1997), Toward a Theory and Practice of Using Interactive Graphics in
Statistics Education. In GARFIEL, J. B. and BURRILL G. (Eds.) Research on the Role
of Technology in Teaching and Learning Statistics (pp. 111-121). Voorburg, The
Netherlands: Internacional Statistical Institute http://www.stat.auckland.
ac.nz/~iase/publications/8/10.Behrens.pdf (consultado 16, 04, 07).
BERK, R. A. (1978), A consumers’ guide to criterion-referenced tests item statistics.
NCME: Measurement in Education, 9. 1.
BLACK, T. R. (1999), Doing Quantitative Research in the Social Sciences. London:
Sage.
BORG, W
. R., GALL, J. O.,  GALL, M. D. (1993), Applying educational research: A prac-
tical guide. (3rd ed.) New York: Longman.
BURTON, R. F. (2004), Multiple Choice and true/false tests: reliability measures and so-
me implications of negative marking. Assessment  Evaluation in Higher Edu-
cation. 29 (5), 585-595.
CATTELL, R. B. (1964), Validity and Reliability: a Proposed More Basic Set of Concepts.
Journal of Educational Psychology, 55, 1-22.
CHARTER, R. A. (2001), It Is Time to Bury the Spearman-Brown “Prophecy” Formula for
Some Common Applications. Educational and Psychological Measurement, 61
(4). 690-696.
COE, R. (2000), Effect Size Resources http://www.cemcentre.org/RenderPage. asp?Lin-
kID=30310000 (consultado 1, Enero, 2007).
351
COHEN J. (1988), Statistical Power Analysis for the Behavioral Sciences, second edi-
tion. Hillsdale, N.J.: Lawrence Erlbaum.
COHEN, J. (1960), A Coefficient of Agreement for Nominal Scales, Educational and
Psychological Measurement, 20, 1, 36-46.
COHEN, J. (1977), Statistical Power Analysis for the Behavioral Sciences. New York:
Academic Press, [2nd. edit., 1988, Hillsdale, N.J.: Erlbaum].
COHEN, P
. A. (1981), Student Ratings of Instruction and Student Achievement: A Meta-
analysis of Multisection Validity Studies. Review of Educational Research, 51,
281-309.
CRONBACH, L. J. (1951), Coefficient Alpha and the Internal Structure of Tests. Psycho-
metrika, 16, 297-334.
CRONBACH, L. J. and SHAVELSON, R. J. (2004), My Current Thoughts on Coefficient Alpha
and Succesor Procedures. Educational and Psychological Measurement, 64
(3), 391-418.
DALLAL, G. E. (last revision 2001), The Little Handbook of Statistical Practice (en Frank
Anscombe’s Regression Examples http://www.StatisticalPractice.com (consulta-
do 16, 04, 07).
DANIEL, W
. W. (1981), Estadística con aplicaciones a las ciencias sociales y a la edu-
cación. Bogotá: McGraw-Hill Latinoamericana.
DOWNIE, N. M. y HEATH, R. W
. (1971), Métodos estadísticos aplicados: México: Harper;
(Madrid: Editorial del Castillo).
DUHACHEK, A. and IACOBUCCI, D. (2004), Alpha’s Standard Error (ASE): An Accurate and
Precise Confidence Interval Estimate. Journal of Applied Psychology, Vol. 89 Is-
sue 5, p792-808.
ETXCHEBERRIA, J. (1999), Regresión múltiple. Madrid: La Muralla.
FAN, X. and THOMPSON, B. (2001), Confidence Intervals About Score Reliability Coeffi-
cients, please: An EPM Guidelines Editorial. Educational and Psychological Me-
asurement, 61 (4), 517-531.
FELDT, L. S. (1975), Estimation of the Reliability of a Test Divided into Two Parts of Une-
qual Length, Psychometrika, 40, 4, 557-561.
FELDT, L. S. and KIM, S. (2006), Testing the Difference Between Two Alpha Coefficients
With Small Samples of Subjects and Raters. Educational and Psychological Me-
asurement, 66 (4), 589-600.
FINK, A. (1998), Conducting Research Literature Reviews, From Paper to the Internet.
Thousand Oaks  London: Sage Publications.
FOX, J. (1993), Regression diagnostics: An Introduction. En LEWIS-BECK, MICHAEL S.
(Ed.). Regression Analysis. International Handbooks of Quantitative Applica-
tions in the Social Sciences, Volume 2. London: SAGE Publications, 245-334.
GARDNER, P
. L. (1970), Test Length and the Standard Error of Measurement. Journal of
Educational Measurement 7 (4), 271–273.
GLASS, G. V
., MCGAW
, B. and SMITH, M. L. (1981), Meta-Analysis in Social Research. Be-
verly Hills, Cal.: Sage Publications.
GLINER, J. A.; LEECH, N. L. and MORGAN, G. A. (2002), Problems With Null Hypothesis
Significance Testing (NHST): What Do the Textbooks Say? The Journal of Expri-
mental Education. 71 (1), 83-92.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
352
GÓMEZ FERNÁNDEZ, D. (1981), El “ESP-E”, un nuevo cuestionario de personalidad a dis-
posición de la población infantil española. Revista de Psicología General y Apli-
cada, 36, 450-472.
GUILFORD, J. P. (1954), Psychometric Methods, New York: McGraw-Hill;
GUILFORD, J. P. and FRUCHTER, B. (1973), Fundamental Statistics in Psychology and
Education. New York: McGraw-Hill (en español, Estadística aplicada a la psi-
cología y la educación, 1984, México: McGraw-Hill).
HANCOCK, G. R. and KLOCKARS, A. J. (1996), The Quest for?: Developments in Multiple
Comparison Procedures in the Quarter Century Since Games (1971). Review of
Educational Research, 66, (3). 269 - 306.
HEDGES, L. V. and OLKIN, I. O. (1985), Statistical Methods for Meta-Analysis. Orlando,
FL: Academic Press.
HEIMAN, G. W
. (1996), Basic Statistics for the Behavioral Sciences, 2nd edit. Boston:
Houghton Mifflin.
HERNÁNDEZ SAMPIERI, R. FERNÁNDEZ COLLADO, C. y BAPTISTA LUCIO, P
. (2000), Metodología
de la Investigación. Segunda Edición. México: McGraw-Hill.
HINKLE, D. E.; WIERSMA, W
. and JURS, S. G. (1998), Applied Statistics for the Behavioral
Sciences, fourth edition. Boston: Houghton-Mifflin.
HOLLEY, J.W
. and LIENERT, G. A. (1974), The G Index of Agreement in Multiple Ratings,
Educational and Psychological Measurement, 34, 817-822.
HORST, P. (1953), Correcting the Kuder-Richardson Reliability for Dispersion of Item
Difficulties, Psychological Bulletin, 50, 371-374.
HOYT, C. J. (1941), Test Reliability Estimated by Analysis of Variance, Psychometrika, 3,
153-160.
HOYT, C. J. (1952), Estimation of Test Reliability for Un-Restricted Item Scoring Me-
thods, Educational and Psychological Measurement, 12, 752-758.
HUBBARD, R. and RYAN, P
. A. (2000), The Historical Growth of Statistical Significance Tes-
ting in Psychology-and Its Future Prospects. Educational and Psychological
Measurement, Vol. 60 (5), 661-681.
HUBERTY, C. J. (2002), A History of Effect Size Indices. Educational and Psychological
Measurement, Vol. 62 (2), 227-240.
HUNTER, J. E. and SCHMIDT, F. L. (1990), Methods of Meta-Analysis. Newbury Park: Sage
Publications.
JOURARD, S. M. (1971), Self-Disclosure, An Experimental Analysis of the Transparent
Self. New York: Wiley-Interscience.
KERLINGER, F. N., Investigación del Comportamiento. México: Interamericana.
KIRK, R. E. (1995), Experimental Design, Procedures for the Behavioral Sciences,
third edit. Pacific Grove: Brooks/Cole.
KIRK, R. E. (1996), Practical Significance: A Concept Whose Time Has Come. Educatio-
nal and Psychological Measurement, 56 (5), 746-759.
KRISTOF, W
. (1974), Estimation of the Reliability and True Score Variance from a Split of
a Test into Three Arbitrary Parts, Psychometrika, 39, 4, 491-499.
LANE, D. (Rice University) (2007), HyperStat Online Statistics Textbook http://davidm-
lane.com/hyperstat/index.html (consultado 25, 03, 08).
LANE, D. History of Normal Distribution http://cnx.rice.edu/content/m11164/latest/
(Last edited by David Lane on Jun 1, 2007; consultado 25, 03, 08).
REFERENCIAS BIBLIOGRÁFICAS
353
LANGLEY, R. (1973), Practical Statistics for Non-Mathematical People. New York: Drake.
LEACH, C. (1982), Fundamentos de estadística, enfoque no paramétrico para cien-
cias sociales. México: Limusa.
LIGHT, R. J., SINGER, J. D. and WILLETT, J. B. (1990), By Design, Planning Research on
Higher Education. Cambridge, Mass.: Harvard University Press.
LINTON, M., GALLO JR., PHILLIP S. and LOGAN, C. A. (1975), The Practical Statistician, Sim-
plified Handbook of Statistics. Monterey: Brooks/Cole.
MAGNUSSON, D. (1976), Teoría de los Tests, México: Trillas.
MAHADEVAN, L. (2000), The Effect Size Statistic: Overview of Various Choices. Paper
presented at the annual meeting of the Southwest Educational Research Asso-
ciation, Dallas (January 27-29, 2000) (http://eric.ed.gov/ERICDocs/data/eric-
docs2/content_storage_01/0000000b/80/10/b7/3a.pdf (consultado 1 de Enero
2007) (ERIC ED438308).
MCMORRIS, R. F. (1972), Evidence of the Quality of Several Approximations for Com-
monly Used Measurement Statistics, Journal of Educational Measurement, 9,
2, 113-122.
MCNEMAR, Q. (1962), Psychological Statistics, 3rd edit., New York: John Wiley and
Sons.
MEHRENS, W
. A. and LEHMANN, I. J. (1973), Measurement and Evaluation in Education
and Psychology (3rd edition). New York: Holt, Rinehart and Winston.
MEREDITH, W
. M. (1971), Manual de tablas estadísticas. México: Trillas.
MORALES VALLEJO, P
. (1993), Líneas actuales de investigación en métodos cuantitativos,
el meta-análisis o síntesis integradoras. Revista de Educación (Ministerio de
Educación y Ciencia), Enero-Abril, 300, 191-221.
MORALES VALLEJO, P
. (2006), Medición de actitudes en Psicología y Educación. 3ª edi-
ción. Madrid: Universidad Pontificia Comillas.
MORALES VALLEJO, P. (2007a), Análisis de varianza para muestras relacionadas.
www.upcomillas.es/personal/peter/Muestrasrelacionadas.pdf
MORALES VALLEJO, P
. (2007b), Tamaño necesario de la muestra: ¿Cuántos sujetos necesi-
tamos? http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf
MORALES VALLEJO, P
. (2007c), El tamaño del efecto (effect size): análisis complementa-
rios al contraste de medias http://www.upcomillas.es/personal/peter/investiga-
cion/Tama%F1oDelEfecto.pdf
MORALES VALLEJO, PEDRO (2008). Sobre las hipótesis direccionales y no direccionales.
http://www.upco.es/personal/peter/investigacion/Hipotesis.pdf
MORALES VALLEJO, P
. UROSA SANZ, B. y BLANCO BLANCO, Á. (2003), Construcción de escalas
de actitudes tipo Likert. Una guía práctica. Madrid: La Muralla.
MORSE, D. T. (1995), Book Review of Spatz, Chris, (1993), Basic Statistics: Tales of Dis-
tributions (5th Edit.). Pacific Grove, CA: Brooks/Cole. Educational and Psycho-
logical Measurement, 55 (1), 140-146.
MOSS, P
. A. (1994), Can There Be Validity Without Reliability? Educational Researcher,
23, 2, 5-12.
NUNNALLY, J. C. (1978), Psychometric Theory. New York: McGraw-Hill.
NUNNALLY, J. C. and BERNSTEIN, I. H. (1994), Psychometric Theory, 3rd. Ed. New York:
McGraw-Hill.
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
354
OSBORNE, J. W. (2003), Effect sizes and the disattenuation of correlation and regression
coefficients: lessons from educational psychology. Practical Assessment, Rese-
arch  Evaluation, 8(11) http://PAREonline.net/getvn.asp?v=8n=11.
OSBORNE, J. W
. and OVERBAY, A. (2004), The power of outliers (and why researchers
should always check for them). Practical Assessment, Research  Evaluation,
9(6). Retrieved August 26, 2007 from http://PAREonline.net/getvn.asp?v=9n=6
PERNEGER, T. V
. (1998), What’s wrong with Bonferroni adjustments. British Medical Jour-
nal 1998;316:1236-1238 (disponible en http://www.bmj.com/cgi/content/full/
316/7139/1236, consultado 31, 03, 08).
PFEIFFER, J. W
.; HESLIN, R. AND JONES, J. E. (1976), Instrumentation in Human Relations
Training. La Jolla, Ca.: University Associates.
RANDOLPH, J. J. and EDMONDSON, R. S. (2005), Using the Binomial Effect Size Display
(BESD) to Present Magnitude of Effect Sizes to the Evaluation Audience. Prac-
tical Assessment, Research  Evaluation, 10 (4), http://pareonline.net/pdf/
v10n14.pdf
RODRÍGUEZ OSUNA, J. (1993), Métodos de muestreo. Casos prácticos. Cuadernos meto-
dológicos. Madrid: Centro de Investigaciones Sociológicas (CIS).
ROSENTHAL, R. (1987), Judgment Studies, Design, analysis and meta-analysis. Cam-
bridge: Cambridge University Press.
ROSENTHAL, R. (1991), Meta-Analysis Procedures for Social Research. Beverly Hills, CA:
Sage Publications.
ROSENTHAL, R. (1994), Parametric Measures of Effect Size. En COOPER, HARRIS and HED-
GES, L. V. (Eds.), The Handbook of Research Synthesis. New York: Russell Sage
Foundation, 231-244.
ROSENTHAL, R. and ROSNOW
, R. L. (1991), Essentials of Behavioral Research, Methods
and Data Analysis. Boston: McGraw-Hill.
ROSENTHAL, R. and RUBIN, D. B. (1979), A Note on Percent Variance Explained as A Me-
asure of the Importance of Effects. Journal of Applied Social Psychology, 9 (5),
395-396.
RUNYON, R. P
. y HABER, A. (1984), Estadística para las Ciencias Sociales. México: Fon-
do Educativo Interamericano.
SALKIND, N. J. (1998), Métodos de Investigación, 3ª edición, México: Prentice-Hall.
SAUPE, J. L. (1961), Some Useful Estimates of the Kuder-Richardson formula number
20 Reliability Coefficient, Educational and Psychological Measurement, 21, 1,
63-71.
SCHMITT, N. (1996), Uses and abuses of Coefficient Alpha. Psychological Assessment, 8
(4), 350-353 (http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf).
SHROUT, P
. E. AND FLEISS, J. L. (1979), Intraclass Correlations: Uses in Assessing Rater Re-
liability, Psychological Bulletin, 86, 420-428.
SIEGEL, S. N. (1972), Estadística no paramétrica aplicada a las ciencias de la con-
ducta. México: Trillas. (La primera edición en inglés es de 1956, New York:
McGraw-Hill).
SIEGEL, S. N. and CASTELLAN JR., N. JOHN (1988), Nonparametric Statistics For the Beha-
vioral Sciences. Second edition. New York: McGraw-Hill.
SPATZ, C. (1993), Basic Statistics: Tales of Distributions, 5th Edit. Pacific Grove, CA:
Brooks/Cole.
REFERENCIAS BIBLIOGRÁFICAS
355
STATPAC, INC (2003), Questionnaires  Survey Design http://www.statpac.com/
surveys/index.htm#toc
STATSOFT, INC. (2002), Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB:
http://www.statsoft.com/textbook/stathome.html
STEMLER, S. E. (2004), A comparison of consensus, consistency, and measurement ap-
proaches to estimating interrater reliability. Practical Assessment, Research 
Evaluation, 9(4) http://pareonline.net/getvn.asp?v=9n=4
STREINER, D. L. (2003), Staring at the Beginning: An Introduction to Coefficient Alpha
and Internal Consistency. Journal of Personality Assessment, 80 (1), 99-103.
THOMPSON, B. (1994), Guidelines for authors. Educational and Psychological Measu-
rement, 54, 837-847.
THOMPSON, B. (1996), AERA Editorial Policies Regarding Statistical Significance Testing:
Three Suggested Reforms. Educational Researcher, Vol. 25 (2) 26-30.
THORNDIKE, R. L. (1982), Applied Psychometrics, Boston: Houghton Mifflin.
TRAUB, R. E. (1994), Reliability for the Social Sciences: Theory and Applications, New-
bury Park, N. J.: Sage.
TRAUB, R. E. and ROWLEY, G. L., (1991), Understanding Reliability, Educational Measu-
rement: Issues and Practice, 10 (1) 37-45.
UEBERSAX, J.,
, Statistical Methods for Rater Agreement http://ourworld.compuserve.
com/homepages/jsuebersax/agree.htm (Last updated: 19 Feb 2008, consultado
30, 03, 08.
VALENTINE, J. and COOPER, H. (2003), Effect Size Substantive Interpretation Guidelines:
Issues in the Interpretation of Effect Sizes. Washington, D.C.: What Works Clea-
ring House www.whatworks.ed.gov/reviewprocess/essig.pdf (consultado 24,
Nov. 2006).
WILKINSON, LELAND and TASK FORCE ON STATISTICAL INFERENCE APA BOARD OF SCIENTIFIC AF-
FAIRS (1999), Statistical Methods in Psychology Journals: Guidelines and Explana-
tions American Psychologist August 1999, Vol. 54, No. 8, 594–604 http://www.lo-
yola.edu/library/ref/articles/Wilkinson.pdf (consultado 1, Enero, 2007) y en
http://www.uic.edu/classes/psych/psych242/APAPublicationGuide.html
WOLF, F. M. (1986), Meta-Analysis, Quantitative Methods for Research Synthesis. Be-
verly Hills, CA: Sage Publications.
Selección de direcciones de Internet con programas de análisis estadísticos
En la mayoría de los capítulos incluimos algún anexo con direcciones de Internet
referidas a los análisis específicos tratados en ese capítulo. En esta selección figuran
en parte las mismas direcciones y también otras en las que se pueden encontrar otros
muchos análisis de interés y enlaces a otras direcciones.
Arsham, Hossein Europe Mirror Site Collection, http://home.ubalt.edu/ntsbarsh/
Business-stat/otherapplets/Normality.htm#rmenu
Becker, Lee A. Effect size calculators. http://web.uccs.edu/lbecker/Psy590/
escalc3.htm
Coe, Robert (2000) Effect Size Resources (Durham University, Cem Centre)
http://www.cemcentre.org/RenderPage.asp?LinkID=30310000
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
356
College of Saint Benedict, Saint John’s University http://www.physics.csbsju.
edu/stats/
Creative Research Systems. The Survey System Sample Size Calculator http://www.
surveysystem.com/sscalc.htm
Custominsight.com. Survey Random Sample Calculator http://www.customin-
sight.com/articles/random-sample-calculator.asp
Department of Obstetrics and Gynaecology, The Chinese University of Hong
Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp
Dimension Research, Inc.
. Resources http://www.dimensionresearch.com/re-
sources/resources_overview.html
Glass, Gene V. (Arizona State University College of Education) (Delta COE502, Intro
to Quant Methods, http://glass.ed.asu.edu/stats/index.html, Online statistical
calculators that can perform many different analyses.
GraphPad, Free Online Calculators for Scientists, http://graphpad.com/quick-
calcs/index.cfm
Preacher, Kristopher J. (May, 2001) The Ohio State University, Calculation for the
Chi-Square Test, http://www.psych.ku.edu/preacher/chisq/chisq.htm
Kristopher J. Preacher, University of Kansas, quantpsy.org, http://www.psych.
ku.edu/preacher/
SISA, Simple Interactive Statistical Analysis http://home.clara.net/sisa/index.
htm#TOP
Soper, Daniel homepage; statistical calculators, http://www.danielsoper.com/de-
fault. aspx
Statistics Calculators, University of California, Los Angeles, Department of Statis-
tics, http://calculators.stat.ucla.edu/
StatPages.net, Web Pages that Perform Statistical Calculations, http://statpages.org/in-
dex.html (John C. Pezzullo’s Home Page http://statpages.org/JCPhome.html Inter-
active Statistics Pages))
Surfstat.australia: an online text in introductory Statistics http://www.anu.
edu.au/nceph/surfstat/surfstat-home/
Universität Ulm-Medizinische Fakultät, Sektion Informatik in der Psycho-
therapie (Software und Werkzeuge) http://sip.medizin.uni-ulm.de/infor-
matik/projekte/Odds/est.html
VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar College
Poughkeepsie, NY USA http://faculty.vassar.edu/lowry/VassarStats.html
REFERENCIAS BIBLIOGRÁFICAS
357
359
TABLAS DE LA DISTRIBUCIÓN NORMAL
Proporción de casos por debajo: percentil (multiplicando por 100) corres-
pondiente a cada puntuación típica;
Puntuación típica positiva: área mayor
Puntuación típica negativa: área menor
Área mayor
Área menor
Proporción de casos por debajo Proporción de casos por encima
Proporción de casos por encima Proporción de casos por debajo
Puntuación típica positiva Puntuación típica negativa
z Área Área
mayor menor
0.00 0.50 0.50
0.01 0.504 0.496
0.02 0.508 0.492
0.03 0.512 0.488
0.04 0.516 0.484
0.05 0.5199 0.4801
0.06 0.5239 0.4761
0.07 0.5279 0.4721
0.08 0.5319 0.4681
0.09 0.5359 0.4641
z Área Área
mayor menor
0.10 0.5398 0.4602
0.11 0.5438 0.4562
0.12 0.5478 0.4522
0.13 0.5517 0.4483
0.14 0.5557 0.4443
0.15 0.5596 0.4404
0.16 0.5636 0.4364
0.17 0.5675 0.4325
0.18 0.5714 0.4286
0.19 0.5753 0.4247
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
360
z Área Área
mayor menor
0.20 0.5793 0.4207
0.21 0.5832 0.4168
0.22 0.5871 0.4129
0.23 0.591 0.409
0.24 0.5948 0.4052
0.25 0.5987 0.4013
0.26 0.6026 0.3974
0.27 0.6064 0.3936
0.28 0.6103 0.3897
0.29 0.6141 0.3859
0.30 0.6179 0.3821
0.31 0.6217 0.3783
0.32 0.6255 0.3745
0.33 0.6293 0.3707
0.34 0.6331 0.3669
0.35 0.6368 0.3632
0.36 0.6406 0.3594
0.37 0.6443 0.3557
0.38 0.648 0.352
0.39 0.6517 0.3483
0.40 0.6554 0.3446
0.41 0.6591 0.3409
0.42 0.6628 0.3372
0.43 0.6664 0.3336
0.44 0.67 0.330
0.45 0.6736 0.3264
0.46 0.6772 0.3228
0.47 0.6808 0.3192
0.48 0.6844 0.3156
0.49 0.6879 0.3121
0.50 0.6915 0.3085
0.51 0.695 0.305
0.52 0.6985 0.3015
0.53 0.7019 0.2981
0.54 0.7054 0.2946
0.55 0.7088 0.2912
0.56 0.7123 0.2877
0.57 0.7157 0.2843
0.58 0.719 0.281
0.59 0.7224 0.2776
0.60 0.7257 0.2743
0.61 0.7291 0.2709
z Área Área
mayor menor
0.62 0.7324 0.2676
0.63 0.7357 0.2643
0.64 0.7389 0.2611
0.65 0.7422 0.2578
0.66 0.7454 0.2546
0.67 0.7486 0.2514
0.68 0.7517 0.2483
0.69 0.7549 0.2451
0.70 0.758 0.242
0.71 0.7611 0.2389
0.72 0.7642 0.2358
0.73 0.7673 0.2327
0.74 0.7703 0.2297
0.75 0.7734 0.2266
0.76 0.7764 0.2236
0.77 0.7794 0.2206
0.78 0.7823 0.2177
0.79 0.7852 0.2148
0.80 0.7881 0.2119
0.81 0.791 0.209
0.82 0.7939 0.2061
0.83 0.7967 0.2033
0.84 0.7995 0.2005
0.85 0.8023 0.1977
0.86 0.8051 0.1949
0.87 0.8078 0.1922
0.88 0.8106 0.1894
0.89 0.8133 0.1867
0.90 0.8159 0.1841
0.91 0.8186 0.1814
0.92 0.8212 0.1788
0.93 0.8238 0.1762
0.94 0.8264 0.1736
0.95 0.8289 0.1711
0.96 0.8315 0.1685
0.97 0.834 0.166
0.98 0.8365 0.1635
0.99 0.8389 0.1611
1.00 0.8413 0.1587
1.01 0.8438 0.1562
1.02 0.8461 0.1539
1.03 0.8485 0.1515
z Área Área
mayor menor
1.04 0.8508 0.1492
1.05 0.8531 0.1469
1.06 0.8554 0.1446
1.07 0.8577 0.1423
1.08 0.8599 0.1401
1.09 0.8621 0.1379
1.10 0.8643 0.1357
1.11 0.8665 0.1335
1.12 0.8686 0.1314
1.13 0.8708 0.1292
1.14 0.8729 0.1271
1.15 0.8749 0.1251
1.16 0.877 0.123
1.17 0.879 0.121
1.18 0.881 0.119
1.19 0.883 0.117
1.20 0.8849 0.1151
1.21 0.8869 0.1131
1.22 0.8888 0.1112
1.23 0.8907 0.1093
1.24 0.8925 0.1075
1.25 0.8944 0.1056
1.26 0.8962 0.1038
1.27 0.898 0.102
1.28 0.8997 0.1003
1.29 0.9015 0.0985
1.30 0.9032 0.0968
1.31 0.9049 0.0951
1.32 0.9066 0.0934
1.33 0.9082 0.0918
1.34 0.9099 0.0901
1.35 0.9115 0.0885
1.36 0.9131 0.0869
1.37 0.9147 0.0853
1.38 0.9162 0.0838
1.39 0.9177 0.0823
1.40 0.9192 0.0808
1.41 0.9207 0.0793
1.42 0.9222 0.0778
1.43 0.9236 0.0764
1.44 0.9251 0.0749
1.45 0.9265 0.0735
z Área Área
mayor menor
1.46 0.9279 0.0721
1.47 0.9292 0.0708
1.48 0.9306 0.0694
1.49 0.9319 0.0681
1.50 0.9332 0.0668
1.51 0.9345 0.0655
1.52 0.9357 0.0643
1.53 0.937 0.063
1.54 0.9382 0.0618
1.55 0.9394 0.0606
1.56 0.9406 0.0594
1.57 0.9418 0.0582
1.58 0.9429 0.0571
1.59 0.9441 0.0559
1.60 0.9452 0.0548
1.61 0.9463 0.0537
1.62 0.9474 0.0526
1.63 0.9484 0.0516
1.64 0.9495 0.0505
1.65 0.9505 0.0495
1.66 0.9515 0.0485
1.67 0.9525 0.0475
1.68 0.9535 0.0465
1.69 0.9545 0.0455
1.70 0.9554 0.0446
1.71 0.9564 0.0436
1.72 0.9573 0.0427
1.73 0.9582 0.0418
1.74 0.9591 0.0409
1.75 0.9599 0.0401
1.76 0.9608 0.0392
1.77 0.9616 0.0384
1.78 0.9625 0.0375
1.79 0.9633 0.0367
1.80 0.9641 0.0359
1.82 0.9656 0.0344
1.81 0.9649 0.0351
1.83 0.9664 0.0336
1.84 0.9671 0.0329
1.85 0.9678 0.0322
1.86 0.9686 0.0314
1.87 0.9693 0.0307
TABLAS DE LA DISTRIBUCIÓN NORMAL
361
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
362
z Área Área
mayor menor
1.88 0.9699 0.0301
1.89 0.9706 0.0294
1.90 0.9713 0.0287
1.91 0.9719 0.0281
1.92 0.9726 0.0274
1.93 0.9732 0.0268
1.94 0.9738 0.0262
1.95 0.9744 0.0256
1.96 0.975 0.025
1.97 0.9756 0.0244
1.98 0.9761 0.0239
1.99 0.9767 0.0233
2.00 0.9772 0.0228
2.01 0.9778 0.0222
2.02 0.9783 0.0217
2.03 0.9788 0.0212
2.04 0.9793 0.0207
2.05 0.9798 0.0202
2.06 0.9803 0.0197
2.07 0.9808 0.0192
2.08 0.9812 0.0188
2.09 0.9817 0.0183
2.10 0.9821 0.0179
2.11 0.9826 0.0174
2.12 0.983 0.017
2.13 0.9834 0.0166
2.14 0.9838 0.0162
2.15 0.9842 0.0158
2.16 0.9846 0.0154
2.17 0.985 0.015
2.18 0.9854 0.0146
2.19 0.9857 0.0143
2.20 0.9861 0.0139
2.21 0.9864 0.0136
2.22 0.9868 0.0132
2.23 0.9871 0.0129
2.24 0.9875 0.0125
2.25 0.9878 0.0122
2.26 0.9881 0.0119
2.27 0.9884 0.0116
2.28 0.9887 0.0113
2.29 0.989 0.011
z Área Área
mayor menor
2.30 0.9893 0.0107
2.31 0.9896 0.0104
2.32 0.9898 0.0102
2.33 0.9901 0.0099
2.34 0.9904 0.0096
2.35 0.9906 0.0094
2.36 0.9909 0.0091
2.37 0.9911 0.0089
2.38 0.9913 0.0087
2.39 0.9916 0.0084
2.40 0.9918 0.0082
2.41 0.992 0.008
2.42 0.9922 0.0078
2.43 0.9925 0.0075
2.44 0.9927 0.0073
2.45 0.9929 0.0071
2.46 0.9931 0.0069
2.47 0.9932 0.0068
2.48 0.9934 0.0066
2.49 0.9936 0.0064
2.50 0.9938 0.0062
2.51 0.994 0.006
2.52 0.9941 0.0059
2.53 0.9943 0.0057
2.54 0.9945 0.0055
2.55 0.9946 0.0054
2.56 0.9948 0.0052
2.57 0.9949 0.0051
2.58 0.9951 0.0049
2.59 0.9952 0.0048
2.60 0.9953 0.0047
2.61 0.9955 0.0045
2.62 0.9956 0.0044
2.63 0.9957 0.0043
2.64 0.9959 0.0041
2.65 0.996 0.004
2.66 0.9961 0.0039
2.67 0.9962 0.0038
2.68 0.9963 0.0037
2.69 0.9964 0.0036
2.70 0.9965 0.0035
2.71 0.9966 0.0034
z Área Área
mayor menor
2.72 0.9967 0.0033
2.73 0.9968 0.0032
2.74 0.9969 0.0031
2.75 0.997 0.003
2.76 0.9971 0.0029
2.77 0.9972 0.0028
2.78 0.9973 0.0027
2.79 0.9974 0.0026
2.80 0.9974 0.0026
2.81 0.9975 0.0025
2.82 0.9976 0.0024
2.83 0.9977 0.0023
2.84 0.9977 0.0023
2.85 0.9978 0.0022
2.86 0.9979 0.0021
2.87 0.9979 0.0021
2.88 0.998 0.002
2.89 0.9981 0.0019
2.90 0.9981 0.0019
2.91 0.9982 0.0018
2.92 0.9982 0.0018
2.93 0.9983 0.0017
2.94 0.9984 0.0016
2.95 0.9984 0.0016
2.96 0.9985 0.0015
2.97 0.9985 0.0015
2.98 0.9986 0.0014
2.99 0.9986 0.0014
3.00 0.9987 0.0013
3.01 0.9987 0.0013
3.02 0.9987 0.0013
3.03 0.9988 0.0012
3.04 0.9988 0.0012
3.05 0.9989 0.0011
3.06 0.9989 0.0011
3.07 0.9989 0.0011
3.08 0.999 0.001
3.09 0.999 0.001
3.10 0.999 0.001
3.11 0.9991 0.0009
3.12 0.9991 0.0009
3.13 0.9991 0.0009
z Área Área
mayor menor
3.14 0.9992 0.0008
3.15 0.9992 0.0008
3.16 0.9992 0.0008
3.17 0.9992 0.0008
3.18 0.9993 0.0007
3.19 0.9993 0.0007
3.20 0.9993 0.0007
3.21 0.9993 0.0007
3.22 0.9994 0.0006
3.23 0.9994 0.0006
3.24 0.9994 0.0006
3.25 0.9994 0.0006
3.26 0.9994 0.0006
3.27 0.9995 0.0005
3.28 0.9995 0.0005
3.29 0.9995 0.0005
3.30 0.9995 0.0005
3.31 0.9995 0.0005
3.32 0.9995 0.0005
3.33 0.9996 0.0004
3.34 0.9996 0.0004
3.35 0.9996 0.0004
3.36 0.9996 0.0004
3.37 0.9996 0.0004
3.38 0.9996 0.0004
3.39 0.9997 0.0003
3.40 0.9997 0.0003
3.41 0.9997 0.0003
3.42 0.9997 0.0003
3.43 0.9997 0.0003
3.44 0.9997 0.0003
3.45 0.9997 0.0003
3.46 0.9997 0.0003
3.47 0.9997 0.0003
3.48 0.9997 0.0003
3.49 0.9998 0.0002
3.50 0.9998 0.0002
TABLAS DE LA DISTRIBUCIÓN NORMAL
363

estadistica-aplicada-a-las-ciencias-sociales.pdf

  • 2.
  • 3.
    ESTADÍSTICA APLICADA ALAS CIENCIAS SOCIALES
  • 4.
    PUBLICACIONES DE LA UNIVERSIDAD PONTIFICIACOMILLAS PEDIDOS: Servicio de Publicaciones c/ Universidad Comillas, 3 Tel.: 91 734 39 50 - Fax: 91 734 45 70
  • 5.
    Pedro MoralesVallejo ESTADÍSTICA APLICADAA LAS CIENCIAS SOCIALES 2008
  • 6.
    © 2008 PEDROMORALES VALLEJO © 2008 UNIVERSIDAD PONTIFICIA COMILLAS Universidad Comillas, 3 28049 MADRID Diseño de cubierta : Belén Recio Godoy ISBN: ISBN 978-84-8468-355-1 EDICIÓN DIGITAL Reservados todos los derechos. Queda totalmente prohibida la reproduc- ción total o parcial de este libro por cualquier procedimiento electrónico o mecánico, incluyendo fotocopia, grabación magnética o cualquier sistema de almacenamiento o recuperación de la información, sin permiso escrito GHOD8QLYHUVLGDG3RQWLÀFLDRPLOODV
  • 7.
    ÍNDICE Págs. INTRODUCCIÓN .............................................................................................. 21 CAPÍTULO1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS ......................................................................................................... 23 1. ORGANIZACIÓN DE LOS DATOS .......................................................................... 23 1.1. La distribución de frecuencias ......................................................... 24 1.2. Agrupación en intervalos ................................................................. 25 1.3. Número de intervalos ...................................................................... 25 1.4. Valor del intervalo ............................................................................ 26 1.5. Cómo comenzar la agrupación en intervalos ................................. 26 2. REPRESENTACIONES GRÁFICAS ........................................................................... 26 2.1. Polígono de frecuencias ................................................................... 27 2.2. Polígono de frecuencias relativas .................................................... 29 2.3. Histograma ....................................................................................... 31 2.4. Diagrama de cajas ............................................................................. 32 CAPÍTULO 2. MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN ............................................................................................ 35 1. MEDIDAS DE TENDENCIA CENTRAL ..................................................................... 35 1.1. La media aritmética .......................................................................... 35 7
  • 8.
    Págs. 1.2. La mediana........................................................................................ 36 1.3. La moda ............................................................................................. 36 1.4. Comparación de las medidas de tendencia central ....................... 36 2. MEDIDAS DE DISPERSIÓN: SU UTILIDAD .............................................................. 39 2.1. La desviación media ......................................................................... 40 2.2. La desviación típica y la varianza ..................................................... 42 2.2.1. La desviación típica ............................................................ 42 2.2.2. La varianza .......................................................................... 44 2.2.3. Ventajas de la desviación típica y de la varianza como me- didas de dispersión ............................................................ 45 2.2.4. Propiedades de la desviación típica y de la varianza ........ 46 2.2.5. Usos e interpretaciones de la desviación típica ............... 47 2.2.6. Media y desviación típica de los datos dicotómicos ........ 50 2.2.7. Combinación de medias y desviaciones típicas ............... 53 1º Para combinar dos o más medias ............................... 53 2º Para combinar dos o más desviaciones típicas o va- rianzas .......................................................................... 54 a) Muestras de tamaño desigual ............................... 55 b) Muestras de idéntico tamaño ............................... 55 2.3. El coeficiente de variación (V) ......................................................... 57 2.4. La desviación semi-intercuartílica ................................................... 58 2.5. La amplitud o recorrido ................................................................... 60 2.6. Relación entre la amplitud y la desviación típica ........................... 60 3. MEDIDAS DESCRIPTIVAS BÁSICAS: RESUMEN .......................................................... 61 CAPÍTULO 3. LA DISTRIBUCIÓN NORMAL ................................................... 65 1. APROXIMACIÓN INTUITIVA A LA DISTRIBUCIÓN NORMAL ........................................ 65 2. CARACTERÍSTICAS Y PROPIEDADES DE LA DISTRIBUCIÓN NORMAL ........................... 67 3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIÓN NORMAL .......................... 68 4. CÓMO DIBUJAR LA CURVA ANORMAL ................................................................... 72 5. CÓMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIÓN NORMAL ................................... 73 5.1. Puntuaciones típicas positivas (superiores a la media) ................. 73 5.2. Puntuaciones típicas negativas (inferiores a la media) .................. 75 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 8
  • 9.
    Págs. 5.3. Puntuaciones típicaspositivas o negativas (en términos abso- lutos) ................................................................................................. 76 6. BREVE NOTA HISTÓRICA ................................................................................... 77 Anexo: La distribución normal en Internet .................................................... 78 CAPÍTULO 4. TIPOS DE PUNTUACIONES INDIVIDUALES ........................... 81 1. LAS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIÓN .......................................... 81 2. PROPORCIÓN DE RESPUESTAS CORRECTAS ........................................................... 82 3. PUNTUACIONES DIFERENCIALES ......................................................................... 83 4. PUNTUACIONES TÍPICAS .................................................................................... 83 4.1. Qué son las puntuaciones típicas .................................................... 83 4.2. Propiedades de las puntuaciones típicas ........................................ 85 4.3. Utilidad de las puntuaciones típicas ............................................... 87 4.4. Puntuaciones tipificadas (puntuaciones típicas transformadas) ... 91 5. PERCENTILES ................................................................................................... 92 5.1. Concepto e interpretación .............................................................. 92 5.2. Cálculo de los percentiles ................................................................ 97 5.2.1. Cálculo directo ................................................................... 98 5.2.2. Cálculo por interpolación .................................................. 99 5.2.3. Cálculo de los percentiles mediante la representación gráfica de las frecuencias relativas acumuladas ................ 101 6. PUNTUACIONES NORMALIZADAS ......................................................................... 104 6.1. Puntuaciones típicas normalizadas ................................................. 104 6.2. Puntuaciones típicas normalizadas y agrupadas: los estaninos y otras puntuaciones ........................................................................... 106 6.2.1. Los estaninos ...................................................................... 107 6.2.2. Las pentas ........................................................................... 109 6.2.3. Otras puntuaciones normalizadas .................................... 110 6.3. Percentiles normalizados: cálculo de los percentiles a partir de la media y de la desviación típica .................................................... 113 6.4. Equivalencias de diversos tipos de puntuaciones en la distribución normal ............................................................................................... 115 ÍNDICE 9
  • 10.
    Págs. 7. PUNTUACIONES TÍPICASY SUS PUNTUACIONES DERIVADAS: RESUMEN ...................... 116 8. RESUMEN DEL CÁLCULO DE LAS PUNTUACIONES DERIVADAS ................................... 117 CAPÍTULO 5. CORRELACIÓN Y COVARIANZA .............................................. 119 1. CONCEPTO DE CORRELACIÓN Y COVARIANZA ....................................................... 119 1.1. Relación y variación conjunta ....................................................... 119 1.2. Los diagramas de dispersión ........................................................... 120 1.3. Otras maneras de visualizar la correlación ..................................... 121 1.4. Correlación, covarianza y dispersión: importancia de las dife- rencias ......................................................................................................... 122 1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r de Pearson ........................................................................................ 123 1.6. Tipos de variables con las que se puede utilizar el coeficiente r de Pearson .............................................................................................. 123 2. LA MEDIDA DE LA RELACIÓN ............................................................................. 124 2.1. Cómo cuantificamos o medimos el grado de relación .................. 124 2.2. Otras fórmulas y procedimientos ................................................... 127 3. INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN R DE PEARSON ..................... 128 3.1. Interpretación básica ....................................................................... 128 3.2. Correlación y causalidad .................................................................. 131 3.3. Cómo calcular la media de varios coeficientes de correlación ..... 132 3.4. El coeficiente de determinación ..................................................... 133 3.5. La significación estadística de los coeficientes de correlación ... 134 3.5.1. Qué es un coeficiente de correlación estadísticamente significativo......................................................................... 134 3.5.2. El modelo teórico ............................................................... 135 3.5.3. Interpretación de una correlación estadísticamente signi- ficativa ................................................................................. 137 3.5.4. Cómo comprobamos si un coeficiente de correlación es estadísticamente significativo .......................................... 138 a) Con muestras de 100 sujetos o menos ...................... 139 b) Con muestras de más de 100 sujetos ......................... 140 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 10
  • 11.
    Págs. c) Cuando delos mismos sujetos tenemos varios coefi- cientes de correlación ................................................. 141 3.6. Los intervalos de confianza: magnitud de la correlación en la población .......................................................................................... 142 3.7. Cómo valorar la magnitud de la correlación .................................. 146 3.7.1. Orientaciones generales .................................................... 146 3.7.2. Sobre la interpretación y utilidad de los coeficientes de correlación bajos ................................................................ 147 3.7.3. Explicaciones posibles de coeficientes de correlación muy bajos .................................................................................... 150 a) Poca fiabilidad, o poca precisión, en los instru- mentos de medición ................................................... 150 b) Homogeneidad de la muestra .................................... 151 c) Instrumentos poco discriminantes ............................ 151 3.8. Los coeficientes de correlación cuando unimos o separamos sub- muestras ............................................................................................ 151 3.9. Influjo en la correlación de las puntuaciones extremas (outliers) ... 156 4. COEFICIENTES DE CORRELACIÓN CORREGIDOS ..................................................... 158 4.1. Correlación y fiabilidad: los coeficientes de correlación corregidos por atenuación ................................................................................ 159 4.1.1. Fórmula de corrección por atenuación ............................ 159 4.1.2. Cuándo debe hacerse esta corrección por atenuación ... 160 4.1.3. Otras estimaciones de la correlación modificando la fiabilidad ............................................................................. 162 4.1.4. Relación entre longitud del test y fiabilidad y longitud del test y correlación ................................................................ 163 4.2. Los coeficientes de correlación corregidos por restricción de la amplitud ........................................................................................... 164 4.3. Corrección de las correlaciones de una parte con el todo .......... 166 5. CORRELACIONES PARCIALES ............................................................................... 168 5.1. Utilidad de las correlaciones parciales ............................................ 168 5.2. Fórmula de las correlaciones parciales de primer orden .............. 168 5.3. Cuándo una correlación parcial es estadísticamente significativa ... 170 6. CÓMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS ............. 171 ÍNDICE 11
  • 12.
    Págs. 7. COEFICIENTES DECORRELACIÓN MÁS IMPORTANTES ............................................. 176 1. Coeficiente de correlación r de Pearson ......................................... 177 2. Coeficiente de correlación biserial puntual ................................... 177 3. Coeficiente de correlación biserial ................................................. 178 4. Coeficiente de correlación tetracórica ............................................ 179 5. Coeficiente de correlación rho (r) de Spearman .......................... 179 6. Coeficiente de correlación tau (t) de Kendall ............................... 179 7. Coeficiente de correlación phi (f) .................................................. 179 8. Coeficiente de correlación phi (f) de Cramer ............................... 180 9. Coeficiente de Contingencia (C) ..................................................... 180 10. Coeficiente eta (h) ........................................................................... 180 8. COEFICIENTE DE CORRELACIÓN: RESUMEN .......................................................... 180 Anexo I: Tablas de la correlación ............................................................... 183 Anexo II: La correlación en Internet ......................................................... 184 CAPÍTULO 6. LA FIABILIDAD DE LOS TESTS Y ESCALAS ............................ 187 1. CONCEPTOS PRELIMINARES BÁSICOS .................................................................... 187 1.1. Equivocidad del concepto de fiabilidad ......................................... 187 1.2. Fiabilidad y precisión de la medida ................................................. 188 1.3. Fiabilidad y margen de error en al medida .................................... 188 1.4. Fiabilidad y predictibilidad .............................................................. 188 1.5. Fiabilidad y validez ........................................................................... 189 1.6. Fiabilidad y validez: errores sistemáticos y errores aleatorios ...... 189 1.7. La fiabilidad no es una característica de los instrumentos ............ 190 1.8. Fiabilidad y diferencias: teoría clásica de la fiabilidad .................... 191 2. ENFOQUES Y MÉTODOS EN EL CÁLCULO DE LA FIABILIDAD .................................... 191 2.1. Método: Test-retest .......................................................................... 191 2.2. Método: Pruebas paralelas ............................................................... 192 2.3. Método: Coeficientes de consistencia interna ............................... 193 3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FÓRMULA BÁSICA DE LA FIABILIDAD ................................................................................................. 193 4. REQUISITOS PARA UNA FIABILIDAD ALTA .............................................................. 196 5. LAS FÓRMULAS KUDER -RICHARDSON 20 Y a DE CRONBACH ............................... 201 6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD ........... 203 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 12
  • 13.
    Págs. 7. INTERPRETACIÓN DELOS COEFICIENTES DE CONSISTENCIA INTERNA ....................... 204 8. CUÁNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO .................... 207 9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD .................................................. 208 9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretación unidi- mensional del rasgo medido .......................................................... 209 9.1.1. Una fiabilidad alta no es prueba inequívoca de que todos los ítems miden lo mismo: necesidad de controles con- ceptuales ............................................................................. 211 9.1.2. Fiabilidad y número de ítems ............................................ 212 9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido .. 213 9.2. El error típico de la medida ............................................................. 213 9.2.1. Concepto y fórmula del error típico ................................. 214 9.2.2. Las puntuaciones verdaderas ........................................... 216 9.2.3. Los intervalos de confianza de las puntuaciones indi- viduales .............................................................................. 217 9.3. Los coeficientes de correlación corregidos por atenuación ......... 218 10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO ..................................... 219 10.1. Inadecuada formulación de los ítems ............................................. 219 10.2. Homogeneidad de la muestra ......................................................... 219 10.3. Definición compleja del rasgo medido ........................................... 220 10.4. Utilidad del error típico cuando la fiabilidad es baja ..................... 220 11. LA FIABILIDAD EN EXÁMENES Y PRUEBAS ESCOLARES ............................................ 221 11.1. Fiabilidad y validez ........................................................................... 221 11.2. Fiabilidad y diferencias entre los sujetos ........................................ 222 11.3. Fiabilidad y calificación .................................................................... 223 12. FÓRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ................................ 224 12.1. Fórmulas basadas en la partición del test en dos mitades ............ 224 12.1.1. Cómo dividir un test en dos mitades ................................ 224 12.1.2. Fórmulas ............................................................................. 225 12.2. Fórmulas de Kuder-Richardson y a de Cronbach .......................... 226 12.3. Fórmulas que ponen en relación la fiabilidad y el número de ítems .................................................................................................. 228 ÍNDICE 13
  • 14.
    Págs. 12.3.1. Cuánto aumentala fiabilidad al aumentar el número de ítems .................................................................................... 229 12.3.2. En cuánto debemos aumentar el número de ítems para alcanzar una determinada fiabilidad ................................. 229 12.4. Estimación de la fiabilidad en una nueva muestra cuya varianza conocemos a partir de la varianza y fiabilidad calculadas en otra muestra ............................................................................................. 230 13. RESUMEN: CONCEPTO BÁSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA ... 231 14. COMENTARIOS BIBLIOGRÁFICOS ........................................................................ 233 CAPÍTULO 7. ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA ............................................................................................................... 237 1. INTRODUCCIÓN: ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL: ESTADÍSTICOS Y PARÁMETROS, POBLACIONES Y MUESTRAS ........................................................... 237 2. LAS DISTRIBUCIONES MUESTRALES Y EL ERROR TÍPICO .......................................... 238 3. EL ERROR TÍPICO DE LA MEDIA .......................................................................... 240 4. UTILIDAD DEL ERROR TÍPICO DE LA MEDIA .......................................................... 241 4.1. Establecer entre qué limites (intervalos de confianza) se encuen- tra la media (m) de la población (establecer parámetros poblacio- nales) ................................................................................................. 242 4.2. Establecer los intervalos de confianza de una proporción ........... 245 4.3. Comparar la media de una muestra con la media de una po- blación ............................................................................................... 247 4.4. Calcular el tamaño N de la muestra para extrapolar los resultados a la población .................................................................................... 249 Anexo: Los intervalos de confianza de la media y de las proporciones en Internet ............................................................................................................. 251 CAPÍTULO 8. EL CONTRASTE DE MEDIAS .................................................... 253 1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS GRUPOS .......................................................................................................... 253 2. A QUÉ PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS ..................... 254 3. EL MODELO TEÓRICO DEL CONTRASTE DE MEDIAS: LA DISTRIBUCIÓN MUESTRAL DE DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIÓN .................... 256 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 14
  • 15.
    Págs. 4. CÓMO COMPROBAMOSSI NUESTRA DIFERENCIA PERTENECE A LA POBLACIÓN DE DIFERENCIAS CUYA DIFERENCIA MEDIA ES CERO ................................................... 259 4.1. Modelo y fórmula básica .................................................................. 259 4.2. Hipótesis Nula e Hipótesis Alterna ................................................. 261 1º Qué son las Hipótesis Nula y Alterna ..................................... 261 2º Por qué distinguimos entre estos dos tipos de hipótesis (nula y alterna) ....................................................................... 262 4.3. Contrastes unilaterales y bilaterales ................................................ 264 4.4. Esquema-resumen del proceso de verificación de hipótesis ........ 266 4.5. Interpretación del significado de aceptar o no aceptar la hipótesis nula: tipos de errores ....................................................................... 267 4.5.1. Cuando no aceptamos la Hipótesis Nula ......................... 267 4.5.2. Cuando aceptamos la Hipótesis Nula ............................... 268 4.5.3. Tipos de errores ................................................................. 269 4.6. Observaciones sobre el contraste de medias: limitaciones y re- quisitos previos ................................................................................ 271 4.6.1. Presupuestos teóricos para poder utilizar el contraste de medias ................................................................................. 271 4.6.2. ¿Es suficiente verificar si una diferencia es estadísticamente significativa? ........................................................................ 272 4.6.3. Cuando tenemos más de dos muestras en el mismo plan- teamiento: análisis de varianza .......................................... 272 4.7. Fórmulas del contraste de medias .................................................. 273 4.7.1. Diferencia entre la media de una muestra y la media de una población ..................................................................... 274 4.7.2. Diferencia entre dos medias de muestras independientes (sujetos físicamente distintos) .......................................... 275 1º Muestras grandes y de distinto tamaño ..................... 275 2º Muestras pequeñas y de distinto tamaño .................. 276 3º Diferencia entre dos medias de muestras independien- tes (grandes o pequeñas) y de idéntico tamaño ..... 276 4.7.3. Diferencia entre dos medias de muestras relacionadas (comprobación de un cambio) ........................................ 277 4.8. Variables que influyen en el valor de t (z, Razón Crítica) .............. 278 5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES) .......................... 281 6. ANÁLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CÓMO CUANTIFICAR LA MAGNITUD DE LA DIFERENCIA ............................................................................ 282 ÍNDICE 15
  • 16.
    Págs. 6.1. Finalidad deltamaño del efecto ...................................................... 282 6.2. Procedimientos en el cálculo del tamaño del efecto ..................... 283 6.2.1. El coeficiente de correlación biserial puntual ................ 283 6.2.2. Tamaño del efecto (diferencia tipificada): ..................... 286 6.2.2.1. Concepto y fórmula general ............................... 286 6.2.2.2. Interpretación del tamaño del efecto (diferencia tipificada) ............................................................ 287 1º Comparación de diferencias que provienen de medidas obtenidas con instrumentos distintos ......................................................... 287 2º Síntesis cuantitativas de resultados que provienen de estudios distintos .................. 287 3º Valoración de la relevancia y significación práctica de las diferencias ........................... 288 4º El tamaño del efecto cuando la diferencia no es estadísticamente significativa ............. 291 5º Tamaño del efecto y tamaño de la muestra .. 292 6.2.2.3. Fórmulas del tamaño del efecto: desviación típica del denominador ....................................... 294 1º Dos muestras independientes ..................... 294 2º Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la misma muestra) ... 298 3º Diferencia entre las medias de un grupo experimental y otro de control (diseño experimental) sin pre-test ............................ 298 4º Grupos experimental y de control cuando los dos han tenido pre y post-test ............... 299 6.3. Transformaciones de unos valores en otros ................................... 299 6.4. Utilidad del tamaño del efecto: resumen ....................................... 301 ANEXO 1: Modelo del contraste de medias, resumen ..................................... 302 ANEXO 2: Conceptos básicos de estadística inferencial .................................. 304 ANEXO 3: Tablas de la t de Student ................................................................... 306 Anexo 4: El contraste de medias en Internet ................................................. 307 CAPÍTULO 9. ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) LA DISTRIBUCIÓN BINOMIAL, EL CONTRASTE DE PROPORCIONES .............................................................................................. 309 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 16
  • 17.
    Págs. 1. PLANTEAMIENTO GENERAL................................................................................ 309 2. QUÉ COMPROBAMOS MEDIANTE EL JI CUADRADO ................................................. 312 3. FRECUENCIAS OBSERVADAS (O EMPÍRICAS) Y FRECUENCIAS TEÓRICAS (O ESPERADAS) .. 314 4. CONDICIONES PARA UTILIZAR EL JI CUADRADO ..................................................... 315 5. CÁLCULO DE LAS FRECUENCIAS TEÓRICAS ........................................................... 316 a) Cuando tenemos un solo criterio de clasificación dividido en varias categorías ............................................................................................... 316 b) Cuando hay dos criterios de clasificación (cuadros de doble entrada) .. 317 6. GRADOS DE LIBERTAD ...................................................................................... 318 a) Cuando hay un solo criterio de clasificación ....................................... 319 b) Cuando hay dos criterios de clasificación .......................................... 319 7. FÓRMULA GENERAL DEL JI CUADRADO ................................................................. 319 8. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN DIVIDIDO EN DOS NIVELES ................................................................................ 320 8.1. Ji cuadrado ........................................................................................ 321 8.2. Aplicación de la distribución binomial ......................................... 322 8.2.1. Cuando N 25 .................................................................. 322 8.2.2. Cuando N 25 .................................................................. 322 8.2.3. La prueba de los signos: aplicación de la distribución bi- nomial para comprobar cambios ...................................... 324 9. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN dividido en más de dos niveles (pruebas de bondad de ajuste) ........... 326 9.1. Cuando las frecuencias esperadas son las mismas ........................ 326 9.2. Cuando las frecuencias esperadas son las de la distribución normal .............................................................................................. 327 10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIÓN CON DOS NIVELES CADA UNO ....... 328 10.1. Tablas 2x2 para muestras independientes ...................................... 328 10.1.1. Modelos de tablas 2x2: cómo clasificar a los sujetos ....... 328 a) Sujetos clasificados según dos grupos de pertenencia o dos características personales ................................. 328 ÍNDICE 17
  • 18.
    Págs. b) Sujetos clasificadossegún 1º grupo de pertenencia y 2º respuestas a una pregunta .................................. 329 c) Prueba de la mediana ................................................ 330 d) Un mismo grupo clasificado según sus respuestas a dos ítems .................................................................. 331 10.1.2. Cómo analizar los datos ..................................................... 332 1º Ji cuadrado .................................................................. 333 a) Planteamiento y fórmulas ..................................... 333 b) Observación sobre la corrección de Yates y el número de sujetos ................................................ 333 c) Orientaciones prácticas para tablas 2x2 ............... 334 d) Ejemplo resuelto ................................................... 335 e) Cálculo complementario: coeficiente de correla- ción ......................................................................... 335 2º Prueba exacta de Fisher .............................................. 336 3º Contraste entre proporciones (muestras indepen- dientes) ........................................................................ 336 10.2. Tablas 2x2 para muestras relacionadas ........................................... 337 10.2.1. Procedimientos .................................................................. 337 a) Ji cuadrado (prueba de McNemar) ............................ 337 b) Contraste entre proporciones relacionadas ............. 338 10.2.2. Aplicaciones específicas ..................................................... 338 a) Para comprobar cambios ............................................ 338 b) Para comprobar una diferencia entre proporciones relacionadas ................................................................ 339 10.2.3. Adaptación de la prueba de McNemar (muestras relacio- nadas) para tablas mayores (nxn) .................................... 340 11. DOS CRITERIOS DE CLASIFICACIÓN, CADA UNO DIVIDIDO EN DOS O MÁS NIVELES (TABLAS NXN) ................................................................................................. 341 12. COEFICIENTES DE RELACIÓN ASOCIADOS AL JI CUADRADO ..................................... 344 a) Coeficiente de contingencia ........................................................... 345 b) Coeficienteo f .................................................................................. 345 c) Coeficiente f de Cramer ................................................................. 346 d) Coeficiente T de Tschuprow ............................................................ 346 13. VALORACIÓN DEL JI CUADRADO .......................................................................... 347 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 18
  • 19.
    Págs. ANEXO I: TABLASDEL JI CUADRADO.......................................................................... 348 ANEXO II: JI CUADRADO Y ANÁLISIS AFINES EN INTERNET: JI CUADRADO, PRUEBA EXACTA DE FISHER PRUEBA DE MCNEMAR, DISTRIBUCIÓN BINOMIAL, PRUEBA DE LOS SIGNOS .... 349 REFERENCIAS BIBLIOGRÁFICAS..................................................................... 351 Selección de direcciones de Internet con programas de análisis estadís- ticos XII .................................................................................................................... 356 TABLAS DE DISTRIBUCIÓN NORMAL ........................................................... 359 ÍNDICE 19
  • 21.
    INTRODUCCIÓN Esta publicación estápensada para un primer curso en carreras vinculadas al campo de la educación, de la psicología y de la intervención social, aunque se trata de análisis estadísticos comunes a otras muchas disciplinas; de hecho algunas de las direcciones de Internet citadas (y utilizadas con frecuencia) son de Facultades de Medicina. No se trata por lo tanto de cubrir todo el es- pectro temático que cabría en un texto o curso completo de metodología de la investigación sobre todo en Psicología y Educación. En cambio, y dada la importancia que tienen los tests e instrumentos de medición en general en la práctica profesional de la Psicología y de la Educación, hay dos capítulos más centrados en psicometría: uno corresponde a los tipos de puntuaciones y confección de baremos o normas de interpretación (cap. 4), y otro a la fiabi- lidad (cap. 6). El capítulo sobre la fiabilidad de tests y escalas viene a continua- ción del dedicado a la correlación (cap. 5) dada la proximidad conceptual y metodológica entre ambos temas. Los métodos de análisis estadístico y verificación de hipótesis tratados son básicamente tres: los coeficientes de correlación (cap. 5), el contraste de me- dias (cap. 8) y el ji cuadrado y métodos afines (cap. 9); con estos análisis se pueden abordar ya muchas preguntas de investigación. Al tratar sobre el con- traste de medias damos especial importancia (y extensión) al denominado ta- maño del efecto para cuantificar de manera más fácilmente interpretable la diferencia entre dos medias; se trata de un punto importante (y sencillo) que no lo vemos tratado en muchos textos. Si la selección de contenidos es limitada y orientada a un curso básico, el tratamiento dado a algunos temas puede parecer excesivamente amplio para un primer curso. Como profesor nunca he pretendido que mis alumnos su- pieran todo lo que en un principio fueron apuntes de clase, pero sí que pu- dieran disponer de un texto de referencia para aclarar dudas, poder justificar 21
  • 22.
    si llega elcaso algunas fórmulas y procedimientos de uso común, ampliar al- gún punto de especial interés, ver qué más se puede hacer con unos datos o resultados de unos análisis, y quizás sobre todo contar con una ayuda tanto para escoger un procedimiento adecuado de análisis como para interpretar correctamente lo que con el paso del tiempo se va olvidando. Con esta finali- dad hay apartados referidos directamente a la interpretación de determina- dos resultados estadísticos; además abundan en algunos capítulos notas a pie de página y se van citando autores que puede venir bien consultar en un mo- mento dado, incluso para disponer de justificaciones y fuentes de autoridad a las que poder acudir en algunos puntos controvertidos o que simplemente pueden no estar tan claros. La terminología y estilo se apartan con frecuencia del lenguaje convencional de corte más académico o se utilizan simultánea- mente expresiones equivalentes más informales. No hay en esta publicación una distinción nítida entre estadística descrip- tiva y estadística inferencial aunque la estadística inferencial se trata de mane- ra más formal a partir del capítulo dedicado a los intervalos de confianza de la media (cap. 7). Los conceptos básicos se van repitiendo en diversos contex- tos sin dar por hecho que en cada momento se recuerda y entiende todo lo visto en los capítulos precedentes. Al tratar de la correlación ya se introduce la significación estadística de estos coeficientes, para no presentar por separa- do lo que lógicamente va unido cuando se hace un análisis de este tipo o cuando posteriormente es necesario repasarlo. En varios capítulos hay un anexo dedicado a programas de análisis estadís- ticos de diverso tipo localizables en Internet y al final un listado de direccio- nes con más recursos. Se trata en cada caso de una breve selección porque estos programas son muy abundantes. Aunque hojas de cálculo como EXCEL son ya un recurso común y programas informáticos como el SPSS están fácil- mente disponibles (tampoco siempre y en todas las situaciones), son muchas las instituciones, departamentos de Universidades y otras de diverso carácter, que tienen en Internet programas de uso muy sencillo y que además pueden ser muy útiles en la misma clase con una finalidad meramente didáctica. Para muchos análisis los programas de Internet pueden ser la opción de cálculo más cómoda. Estos programas suelen estar pensados para alumnos que traba- jan en su casa o para profesionales no expertos; no suplen la versatilidad del SPSS pero son indudablemente útiles. Como las fuentes de Internet son con frecuencia inestables, procuramos dar más de una dirección para cada tipo de análisis; además a partir de las direcciones reseñadas es fácil buscar otras. El índice general está hecho pretendidamente de manera muy detallada, con muchos apartados y subapartados, para que de alguna manera cumpla la fun- ción de un índice de materias y se pueda localizar con facilidad lo que interese. PEDRO MORALES VALLEJO ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 22
  • 23.
    CAPÍTULO 1 ORGANIZACIÓN DELOS DATOS Y REPRESENTACIONES GRÁFICAS 1. ORGANIZACIÓN DE LOS DATOS Organizar los datos, e incluso hacer alguna representación gráfica como las que iremos viendo, es muy importante porque: a) Nos hacemos una idea preliminar de la situación, nos da una visión de conjunto muy útil, b) Se facilitan cálculos posteriores, y, aunque los hagamos con un progra- ma informático, una buena sistematización de los datos puede sugerir- nos posibles cálculos y análisis; c) Se facilita la presentación y comunicación de todo tipo de resultados. Tanto la distribución de frecuencias (cuántos sujetos han obtenido cada puntuación) como las representaciones gráficas que vamos a exponer (y mu- chas otras) las tenemos ya programadas en programas de ordenador y hojas de cálculo, pero aun así conviene saber cómo se hacen por varias razones: a) No siempre tenemos todos los datos individuales introducidos en un ordenador o en una hoja de cálculo; b) A veces partimos de una distribución de frecuencias ya hecha previa- mente (o que encontramos publicada); c) En cualquier caso es útil ver paso a paso y entender cómo se hacen es- tas distribuciones de frecuencias y representaciones gráficas. 23
  • 24.
    1.1. La distribuciónde frecuencias El primer paso es siempre organizar la distribución de frecuencias. La frecuencia es el número de casos o sujetos que ha obtenido cada puntua- ción. Para hacer esta distribución ponemos en dos columnas la puntuación directa (X) y la frecuencia (f) o número de casos. En el ejemplo de la tabla 1 tenemos la distribución de frecuencias de 40 sujetos que han respondido a una escala de actitudes1 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 24 1 Intuitivamente parece más natural comenzar por arriba con la puntación o interva- lo mayor; en los programas informáticos (EXCEL, SPSS) se comienza por defecto con la puntuación más baja. X f 77 | 1 76 0 75 | 1 74 | 1 73 || 2 72 | 1 71 0 70 || 2 69 0 68 || 2 67 0 66 0 65 ||| 3 64 || 2 63 ||| 3 62 || 2 61 | 1 60 | 1 59 || 2 58 0 X f 57 | 1 56 ||| 3 55 || 2 54 | 1 53 | 1 52 | 1 51 0 50 0 49 | 1 48 || 2 47 0 46 | 1 45 0 44 0 43 0 42 | 1 41 0 40 0 39 | 1 38 | 1 El número de intervalos se calcula por tanteo. El primer paso es calcular el recorrido o amplitud que es igual a la puntuación más alta menos la puntuación más baja más uno. Tabla 1.
  • 25.
    1.2. Agrupación enintervalos Cuando las posibles puntuaciones son muchas, podemos agruparlas en intervalos para simplificar su presentación e interpretación. Los datos de la tabla 1 están sin agrupar. Podemos agruparlas de dos en dos, de tres en tres, etc. Cada agrupación se denomina un intervalo. 1.3. Número de intervalos El criterio general es que no haya menos de 10 intervalos o agrupaciones, porque con menos de 10 intervalos se pierde mucha información; además al- gunos cálculos posteriores se hacen tomando como dato el punto medio del intervalo y resultan muy inexactos si los intervalos son muy pocos. Tampoco es aconsejable que haya más de 20 intervalos, porque se matiza más de lo que con frecuencia es necesario y los gráficos resultantes pueden quedar poco claros, sin resumir bien la información. Sumamos una unidad a la diferencia entre las puntuaciones más alta y más baja porque el recorrido o amplitud se calcula a partir de los límites extre- mos; por esto sumamos .5 a la puntuación más alta y restamos .5 a la puntua- ción más baja: suponemos que la puntua- ción mayor no es en este caso 77, sino 77.5, y que la más baja no es 38, sino 37.5 (sobre la amplitud o recorrido tratare- mos en el contexto de las medidas de dis- persión). En los datos de la tabla 1 la amplitud es 77.5 - 37.5 (ó 77 - 38 + 1) = 40. Tene- mos en principio 40 intervalos, que son demasiados. Si agrupamos las puntua- ciones de dos en dos tendríamos 20 in- tervalos, también demasiados quizás en este caso, con sólo 40 sujetos; si las agrupamos de tres en tres tenemos 14 intervalos, que es lo que hemos hecho en la agrupación que figura en la tabla 2. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS 25 Tabla 2. X f 75-77 || 2 72-74 |||| 4 69-71 || 2 66-68 || 2 63-65 |||||||| 8 60-62 |||| 4 57-59 ||| 3 54-56 |||||| 6 51-53 || 2 48-50 ||| 3 45-47 | 1 42-44 | 1 39-41 | 1 36-38 | 1
  • 26.
    1.4. Valor delintervalo El valor del intervalo (simbolizado por la letra i) es el número de puntua- ciones que entran en cada intervalo (y que no hay que confundir con el nú- mero de intervalos). En la tabla 1, el valor del intervalo es i = 1 (datos sin agrupar); en los datos de la tabla 2 en cada intervalo hay tres puntuaciones, por lo que i = 3. El va- lor del intervalo se debe indicar siempre (como información y también por- que entra en algunos cálculos, como el de los percentiles por interpolación, como se verá en su lugar). Es más cómodo que el valor del intervalo (i) sea un número impar, porque de esta manera el punto central del intervalo será un número entero, sin deci- males. Esto resulta más cómodo porque el punto central del intervalo se utiliza en operaciones hechas a partir de datos agrupados. De hecho no puede hablar- se de ninguna norma o regla; los valores de i más frecuentes son 2, 3, 5, 10 y 20. Por otra parte el hacer cálculos (como la media y otros) a partir de puntua- ciones agrupadas y utilizando el punto medio del intervalo está menos justifi- cado dada la facilidad de cálculo que nos dan las calculadoras programadas y los programas de ordenador. Estos cálculos pueden hacerse siempre a partir de las puntuaciones sin agrupar. 1.5. Cómo comenzar la agrupación en intervalos Para comenzar la agrupación suele empezarse por las puntuaciones más bajas, las correspondientes al intervalo inferior. No se suele comenzar a partir de la puntuación más baja de hecho, sino por la inmediatamente inferior que sea múltiplo del valor del intervalo (i). Esta norma (que la puntuación más ba- ja sea múltiplo del intervalo) responde a lo que suele proponerse y hacerse; se trata de una convención que no se sigue siempre. En nuestro ejemplo (tabla 1) la puntuación más baja es 38, que no es múl- tiplo de 3 (en este caso i = 3, tabla 2), y tampoco lo es 37; por eso comenza- mos a partir de 36, que sí es múltiplo de 3 (36/3 = 12, número entero). El último intervalo, el superior, se completa hasta incluir tres puntuacio- nes (pues 3 es el valor de i en este caso). Como la puntuación más alta es 77, no ha habido que añadir puntuaciones que de hecho nadie ha obtenido. 2. REPRESENTACIONES GRÁFICAS A partir de la distribución de frecuencias podemos hacer diversos tipos de re- presentaciones gráficas. Estas representaciones gráficas son especialmente útiles: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 26
  • 27.
    a) Para disponerde una visión de conjunto que sin más cálculos nos per- mite hacernos una idea de la situación, comparar de manera intuitiva varios grupos, etc. b) Para comunicar resultados de manera intuitiva y fácilmente compren- sible. La mera distribución de frecuencias ya puede cumplir con estos propósi- tos, pero los distintos tipos de gráficos son una ayuda importante. Aquí nos limitamos a exponer tres de los tipos de representaciones gráfi- cas más comunes, polígonos de frecuencias, histogramas y diagrama de ca- jas. Estas y otras representaciones gráficas también se encuentran ya progra- madas en hojas de cálculo como EXCEL. 2.1. Polígono de frecuencias Es una representación gráfica sencilla y clara; en la figura I tenemos el polígono de frecuencias hecho a partir de las frecuencias agrupadas de la tabla 2 Eje vertical (Y, o eje de las ordenadas): corresponde a las frecuen- cias o número de casos; Eje horizontal (X, o eje de las abscisas): corresponde a las puntua- ciones. Para mayor claridad en la presentación del gráfico, el eje horizontal suele ser un 50% más largo que el eje vertical; si el eje Y (vertical) mide 10, el eje X (horizontal) medirá 15 aproximadamente. Pasos que seguimos para construir un polígono de frecuencias: 1º En el eje de las abscisas (horizontal) se señalan los puntos inferiores de cada intervalo, añadiendo un intervalo más en cada extremo para mayor claridad. En la figura I el primer punto señalado es el 33: es el punto inferior del intervalo añadido al comienzo (intervalo 33-35), con una frecuencia de 0. En el extremo superior la última puntuación señalada es 78, ya que es el límite inferior del intervalo siguiente (78-80), también con fre- cuencia 0. Añadiendo dos intervalos extremos con frecuencia 0 se consigue que el polígono llegue hasta la línea horizontal de las abscisas; la figura queda cerrada y clara; ésta es la razón por la que se añade un intervalo más en cada extremo. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS 27
  • 28.
    2º Sobre elpunto medio de cada intervalo señalamos la frecuencia, a la al- tura que corresponda del eje vertical de las ordenadas (que represen- ta las frecuencias). Si unimos los puntos con líneas rectas, tenemos un polígono de frecuencias, si los unimos con un trazo curvo, tendremos una curva. En la tabla 3 y figura II hemos reducido el número de intervalos, agru- pando las puntuaciones de 5 en 5 (i = 5). En este caso el intervalo más bajo comienza con 35 (múltiplo de 5). Nos quedan 9 intervalos. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 28 7 6 5 4 3 2 1 0 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 X Y Figura I X X X X X X X X X X X X X X i = 5 X f 75-79 || 2 70-74 |||||| 6 65-69 ||||| 5 60-64 ||||||||| 9 X f 55-59 |||||||| 8 50-54 ||| 3 45-49 |||| 4 40-44 | 1 35-39 || 2 Tabla 3 Fig. I POLÍGONO DE FRECUENCIAS
  • 29.
    Al reducir elnúmero de intervalos el polígono queda simplificado y tiene menos picos; la figura queda suavizada y tenderá a parecerse más a la distri- bución normal. Es importante caer en la cuenta de que a menor número de intervalos se pierde información aunque se puede ganar en claridad. En la figura I hay dos picos centrales que sugieren una distribución bimo- dal; y que han quedado reducidos a uno solo en la figura II. La figura queda más clara y suavizada. El hacer esto o no hacerlo (reducir el número de inter- valos, simplificar la información) dependerá del tipo de información que se quiere dar. Para dar una impresión gráfica general, y sin pretender mucho ma- tiz, es preferible en principio reducir el número de intervalos. 2.2. Polígono de frecuencias relativas Los polígonos de frecuencias son especialmente útiles para comparar gráficamente dos o más grupos. Los polígonos se superponen en el mismo gráfico y queda una representación clara de los grupos. Cuando los grupos son de distinto tamaño, el incluir más de un polígono de frecuencias en el mismo gráfico se presta a confusión. En este caso, para compa- rar gráficamente dos o más grupos, lo correcto no es utilizar frecuencias absolu- tas (el simple número de sujetos que hay en cada intervalo) sino frecuencias re- lativas: el tanto por ciento de sujetos que hay en cada intervalo. Estos tantos por ciento son las frecuencias relativas. El cálculo de las frecuencias relativas es muy sencillo: el número de sujetos (o frecuencia, f) de cada intervalo se divide por el número total de sujetos (N) y se multiplica por cien: ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS 29 Fig. II 30 Figura II 9 8 7 6 5 4 3 2 1 0 35 40 45 50 55 60 65 70 75 80 85 X X X X X X X X X X X
  • 30.
    100f frecuencias relativas (%)= –––– N En la tabla 4 y figura III tenemos un ejemplo de dos polígonos de frecuen- cias relativas de dos grupos con distinto número de sujetos. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 30 X i = 6 75-79 69-74 63-68 57-62 51-56 45-50 39-44 grupo A f % 1 7 2 13 4 27 5 33 3 20 N = 15 grupo B f % 1 5 6 30 5 25 2 10 4 20 2 10 N = 20 Grupo A 40% 35% 30% 25% 20% 15% 10% 5% 0% Punto medio de cada intervalo 35.5 42.5 47.5 53.5 59.5 65.5 71.5 77.5 82.5 Figura III. POLÍGONOS DE FRECUENCIAS RELATIVAS DE DOS GRUPOS CON DISTINTO NÚMERO DE SUJETOS Tabla 4
  • 31.
    El utilizar frecuenciarelativas (tanto por ciento de sujetos en cada intervalo) permite hacer gráficos comparativos cuando los grupos tienen un número dis- tinto de sujetos (comparamos tantos por ciento, no números absolutos). 2.3. Histograma Otra representación gráfica sencilla y de frecuente uso es el histograma. En el histograma cada intervalo de frecuencias está representado por una barra. Cómo hacer un histograma puede verse fácilmente en la figura IV , donde aparece un histograma hecho a partir de los mismos datos de la tabla 3. En el eje de las abscisas (la base horizontal) se señalan los valores inferiores de cada intervalo. En el eje de ordenadas (eje vertical) se señalan las frecuencias o número de casos. En el histograma de la figura IV se ha superpuesto un polígono de fre- cuencias para facilitar la comparación y ver las diferencias entre el histograma y el polígono de frecuencias. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS 31 Figura IV 7 6 5 4 3 2 1 0 30 35 40 45 50 55 60 65 70 75 80 85 8 9 Figura IV HISTOGRAMA CON POLÍGONO DE FRECUENCIAS SUPERPUESTO
  • 32.
    2.4. Diagrama decajas Para construir un diagrama de cajas se toman como referencia las puntua- ciones que dividen al grupo en cuatro partes iguales en número de sujetos; un 25 % en cada parte. En la figura V tenemos las puntuaciones de corte pa- ra dividir al grupo. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 32 Puntuación más alta Percentil 25 (Q1) Puntuación más baja Mediana (Percentil 50) Percentil 75 (Q3) 25% 25% 25% 25% Figura V La figura V no es un diagrama de cajas, simplemente nos dice qué puntua- ciones debemos calcular para hacer el diagrama. La mediana (o percentil 50) divide al grupo en dos mitades con idéntico número de sujetos, entre el per- centil 75 (o cuartil 3, Q3) y la puntuación más alta tenemos un 25 % de suje- tos y entre el percentil 25 (o cuartil 2, Q2) y la puntuación más baja tenemos otro 25 %. Los percentiles y su cálculo se entenderán mejor al ver los distintos tipos de puntuaciones, pero el concepto de percentil (tanto por ciento de su- jetos que caen debajo de una puntuación) se capta con facilidad. En los diagramas de cajas se visualiza el espacio que ocupa cada 25% del grupo en términos de puntuaciones directas (columna de la izquierda). Estos diagramas de cajas son especialmente útiles para hacer una compa- ración visual en dos tipos de situaciones: a) Cuando tenemos dos o más grupos medidos en la misma variable; éste es probablemente el caso más frecuente.
  • 33.
    En la figuraVI tenemos el gráfico que corresponde a tres grupos de alumnos universitarios (Psicología, N = 65; Derecho, N = 65; Ingenie- ría N = 69) medidos con una escala de autoeficacia académica. La lí- nea que divide el recuadro corresponde a la mediana. De un golpe de vista vemos dónde están las puntuaciones más altas y más bajas y ence- rrado en un recuadro dónde se sitúa el 50% central del grupo (entre los percentiles 75 y 25). La línea doble dentro del recuadro indica dón- de está la mediana, que divide al grupo en dos mitades iguales. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS 33 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 Puntaje más alto Percentil 75 Mediana Percentil 25 Puntaje más bajo Ing. Derch. Psic. 25% 50% 25% Figura VI b) Cuando tenemos un mismo grupo medido en varias variables, como sucede en el ejemplo de la figura VII. Cada variable está medida por un idéntico número de ítems, por lo que son comparables las puntuacio- nes absolutas de cada subescala. En la figura VII tenemos el gráfico correspondiente a un único grupo de 283 sujetos que han respondido a un sencillo test que mide cinco variables propias del Análisis Transaccional. Cada variable está medi- da por ocho ítems con respuestas de 1 (nada) a 6 (mucho), por lo que las puntuaciones máxima y mínima posibles son 48 y 8.
  • 34.
    De un golpede vista vemos que en Padre Nutricio el 50% central está con- centrado en unas pocas puntuaciones (aproximadamente entre 35 y 40) y que son además las más altas en términos comparativos. Vemos también que el límite inferior del 50% central en Adulto coincide con el límite superior del 50% central en Padre Punitivo (entre 28 y 29), etc. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 34 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 Puntaje más alto Percentil 75 Mediana Percentil 25 Puntaje más bajo Ing. Derch. Psic. 25% 50% 25% Figura VII
  • 35.
    CAPÍTULO 2 MEDIDAS DESCRIPTIVASBÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN 1. MEDIDAS DE TENDENCIA CENTRAL 1.1. La media aritmética Todos estamos familiarizados con la media aritmética como valor repre- sentativo de un conjunto de puntuaciones; con frecuencia describimos un grupo de manera sintética diciendo cuál es su media; si estamos hablando de una clase no es lo mismo decir esta clase tiene una media de 7, que decir en esta clase la media es 5… La fórmula de la media no necesita demostración porque expresa el mis- mo concepto de media: cuánto correspondería a cada sujeto (u objeto) si to- dos tuvieran el mismo valor: sumamos todos los valores y dividimos esta su- ma por el número de sujetos. 兺X Media aritmética: X= –––– [1] N El símbolo habitual de la media es el mismo utilizado en las puntuaciones directas (generalmente una X mayúscula) con una raya horizontal encima (pero también se utilizan otros símbolos como la letra M). De la media podemos enunciar dos propiedades que también nos podrían servir para definirla. a) Si a cada sujeto le calculamos su diferencia con respecto a la media (X- X), la suma de estas diferencias es igual a cero: la suma de las diferen- cias positivas es igual a la suma de las diferencias negativas. 35
  • 36.
    b) Si estasdiferencias con respecto a la media las elevamos al cuadrado (y todas serán positivas) y las sumamos, esta suma será menor que la su- ma de las diferencias, también elevadas al cuadrado, con respecto a cualquier otro valor distinto de la media. Esta propiedad de la media nos permite definirla como el valor central que hace que la suma de los cuadrados de las desviaciones con respecto a este valor sea el mínimo posible. El método de localizar la media buscando el valor mínimo de la suma de cuadrados (de las diferencias con respecto a la media elevadas al cuadrado) recibe el nombre de método de los cuadrados mínimos; no tiene especial importancia ahora, pero sí lo tiene en otras apli- caciones de la estadística (como en la recta de regresión) y es útil estar ya fa- miliarizados con este término. 1.2. La mediana La mediana es el valor que divide las frecuencias en dos mitades iguales: por encima de la mediana y por debajo de la mediana encontramos el mismo número de sujetos. La mediana es otro valor de tendencia central muy útil. La mediana pode- mos buscarla, al menos de manera aproximada, por simple inspección de los datos en una distribución de frecuencias; el cálculo preciso lo veremos en el contexto de los percentiles (la mediana corresponde al percentil 50: el valor que deja por debajo a la mitad de la muestra). 1.3. La moda La moda es simplemente la puntuación que tiene una mayor frecuencia (donde encontramos un mayor número de casos). Como medida de tendencia central es muy poco rigurosa. Además podemos encontrarnos con que puede haber más de una puntuación con idéntico núme- ro de casos, o al menos dos o más puntuaciones con una frecuencia que supe- ran notablemente al resto de los valores de la distribución (y por eso hablamos de distribuciones bimodales, o plurimodales; si dibujamos la curva o un polí- gono de frecuencias, nos encontraremos con dos o más picos pronunciados). 1.4. Comparación de las medidas de tendencia central Los conceptos de media, mediana y moda son sencillos; lo que más nos interesa ahora es apreciar sus diferencias y características; sobre todo nos in- teresa comparar la media y la mediana. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 36
  • 37.
    1. Cuando ladistribución no es normal (no es simétrica) y hay más sujetos por encima o por debajo de la media, la mediana es arrastrada hacia la zona de la distribución donde hay un mayor número de sujetos (ejemplos en la tabla 1). MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 37 M Mo od da a = 2 (puntuación con mayor número de casos M Mo od da a = 7 M Me ed di ia a = 4.5 M Me ed di ia an na a = 5.5 M Me ed di ia an na a = 2.5 (idéntico número de sujetos por encima y por debajo M Me ed di ia a = 3.42 Cuando la mediana es distinta de la media (la distribución no es simétrica, está sesgada hacia un lado de la distribución), el valor de la mediana nos indi- ca el sesgo de la distribución: si la mediana es mayor que la media, hay más su- jetos en la parta alta de la distribución, y si la mediana es menor que la media, hay más sujetos en la parte baja de la distribución. Precisamente en esta dife- rencia entre la media y la mediana se basan algunas medidas de asimetría de la distribución. 2. La mediana no se ve afectada por las puntuaciones extremas de la distribución. Esta característica de la mediana es la que hay que tener en cuenta para va- lorar cuándo nos puede interesar más la mediana que la media (o además de la media) como medida de tendencia central. Lo vemos fácilmente en estos dos ejemplos ficticios (tabla 2): Cuando hay más sujetos por debajo de la media que por encima (como en este ejemplo, 8 por debajo y 4 por encima) la mediana es menor que la media 1 2 2 3 3 4 4 5 5 6 6 7 7 Cuando hay menos sujetos por debajo de la media que por encima (como en este ejemplo, 5 por debajo y 7 por encima) la mediana es mayor que la media 1 2 2 3 3 4 4 5 5 6 6 7 7 Tabla 1 Tabla 2 Caso 1º 6 |||||||||| (10) 5 ||||| (5) 4 ||||| (5) 3 2 1 La mediana es 5,5; es la puntuación que divide a la nuestra en dos mitades iguales (10 sujetos por encima y 10 sujetos por debajo); la media es 5.25 Caso 2º 6 |||||||||| (10) 5 ||||| (5) 4 3 2 1 ||||| (5) La mediana sigue siendo 5,5 (10 sujetos por encima y 10 sujetos por debajo), aunque la media baja a 4,5
  • 38.
    Nos interesará utilizarla mediana cuando creamos que los sujetos con puntuaciones extremas desvirtúan la media en cuanto medida representa- tiva de dónde está un grupo; las puntuaciones muy extremas (y que pue- den ser atípicas) influyen en la media (en el cálculo de la media entran to- das las puntuaciones), pero no en la mediana. Éste puede ser el caso de los ítems de evaluación del profesorado; un pequeño número de alumnos po- co representativos puede sesgar la media en una dirección (positiva o nega- tiva) que no refleja el sentir o la opinión claramente mayoritaria de un gru- po. En cualquier caso siempre es posible aportar ambos datos, la media y la mediana. La moda (en los dos casos de la tabla 2 corresponde a la puntuación 6) tampoco se ve afectada por puntuaciones muy extremas, pero la alternativa de interés a la media suele ser la mediana, no la moda. En general nos interesará la mediana en vez de la media cuando los datos sean claramente ordinales y siempre que interese no tener en cuenta puntua- ciones muy extremas. La mediana es el valor utilizado en algunos análisis es- pecíficos1 . 3. La media se presta a muchos más análisis estadísticos de interés. Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre las otras medidas de tendencia central, y es la que utilizaremos rutinaria- mente; además en el cálculo de la media se utiliza toda la información disponible. Esta razón tiene más peso en estadística inferencial, cuando pretende- mos inferir la media de una población (al menos ver entre qué limites proba- bles se encuentra) a partir de los datos de una muestra; con este plantea- miento (y en otros semejantes) solemos utilizar la media; con un propósito meramente descriptivo utilizaremos la medida que más nos convenga (o más de una). 4. En la distribución normal coinciden los valores de la media, la me- diana y la moda. En los ejemplos puestos hasta ahora, la media, la mediana y la moda tie- nen valores distintos; cuando la distribución es normal (simétrica, acampa- nada) los tres valores de tendencia central son idénticos: la media es también el valor con un mayor número de sujetos y divide a la muestra en dos mitades iguales, como podemos ver en la distribución de frecuencias de la tabla 3 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 38 1 La mediana se utiliza en el análisis de ítems en las escalas de Thurstone y para de- terminar las puntuaciones de corte (apto/no apto) cuando varios jueces examinan los ítems de una prueba objetiva (métodos de Angoff y Nedelsky); en ambos casos se preten- de prescindir de los juicios extremos; son temas que no tratamos aquí pero que ejemplifi- can la utilidad de la mediana.
  • 39.
    Como veremos acontinuación, cada medida de tendencia central se utiliza junto con otra medida de dispersión o de variabilidad, que completa el tipo de información o resumen aportado por estas medidas de tendencia central. 2. MEDIDAS DE DISPERSIÓN: SU UTILIDAD Todos estamos familiarizados con las medidas de tendencia central, como lo es la media aritmética. Es muy normal describir grupos o resultados calcu- lando la media. Hemos visto otras medidas de tendencia central, como son la mediana (la puntuación que divide al grupo en dos mitades iguales) y la mo- da o puntuación más frecuente. Sin embargo la medida más utilizada como dato descriptivo que resume dónde está un grupo es la media aritmética. La limitación de la media aritmética (y de otras medidas semejantes) como dato que describe adecuadamente los resultados obtenidos en un grupo, po- demos verlo con un sencillo ejemplo. Imaginemos que a dos clases (de cuatro alumnos cada una, para simplifi- car el ejemplo) les ponemos un examen de 20 preguntas objetivas. Cada pre- gunta puede estar bien (y vale 1) o mal (y vale 0). Obtenemos los resultados puestos en la tabla 4 y vemos que los dos grupos tienen idéntica media. MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 39 9 | 8 ||| 7 |||| 6 |||||||| 5 |||||||||| 5 = 4 |||||||| 3 |||| 2 ||| 1 | Grupo A Grupo B 20 10 20 10 0 10 0 10 media = 10 media = 10 { media mediana moda Tabla 3 Tabla 4
  • 40.
    ¿Podemos decir quese trata de dos grupos muy parecidos porque tie- nen la misma media? No, son grupos muy distintos. El grupo A es muy he- terogéneo, en este grupo A se puede decir que hay dos subgrupos muy di- ferenciados; el grupo B en cambio es muy homogéneo, todos tienen idéntica puntuación. Las medidas de dispersión complementan la información que nos da tanto la media (aquí vamos a poner el énfasis por ser la medida más útil y utilizada) como la mediana o la moda; estas medidas de dispersión expre- san en qué grado los grupos son más bien homogéneos, con los sujetos muy parecidos unos a otros (como en el grupo B), o más bien se trata de grupos heterogéneos, con mayores diferencias entre los sujetos (como en el grupo A). La medida de dispersión más útil y utilizada es la desviación tí- pica, que se utiliza siempre que se calcula la media como la medida de ten- dencia central. Las medidas de dispersión que vamos a ver son las siguientes: a) En relación con la media: 1. La desviación media, que se utiliza poco pero es sencilla y nos sir- ve de introducción para la desviación típica. 2. La desviación típica y la varianza (que es la desviación típica eleva- da al cuadrado), que son las más importantes; 3. El coeficiente de variación, que se calcula a partir de la media y de la desviación típica, y que tiene su utilidad específica en determina- das situaciones. b) En relación con la mediana La desviación semi-intercuartílica, que expresa la dispersión o hete- rogeneidad en el 50% central del grupo (y en la que, lo mismo que la mediana, se prescinde de las puntuaciones extremas). c) En relación con la moda: La amplitud o recorrido, de menor importancia que las otras medidas de dispersión. 2.1. La desviación media La medida de dispersión más sencilla y fácil de comprender es la desvia- ción media; aunque apenas se utiliza es útil comprender el significado de la desviación media como punto de partida sobre todo para entender la desvia- ción típica, que es la medida de dispersión más utilizada. La desviación me- dia la entenderemos fácilmente comparando las dos representaciones pues- tas la figura 1. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 40
  • 41.
    1. Tenemos dosgrupos, A y B, cada uno con cuatro sujetos. Las puntuaciones del grupo A son 3, 4, 6 y 7. Las puntuaciones del grupo B son 2, 3, 7 y 8. 2. Ambos grupos tienen idéntica media, X= 5 3. Cada sujeto tiene una desviación (d) con respecto a la media (X) de su grupo: unos porque no llegan a la media y otros porque se pasan y tie- nen una puntuación superior a la media. Si un sujeto tuviera una pun- tuación idéntica a la media, su desviación valdría d = 0, pero sigue siendo válido el concepto de desviación con respecto a la media (ce- ro en este caso). 4. Si dentro de cada grupo sumamos las desviaciones individuales (en va- lores absolutos, prescindiendo del signo) y dividimos esta suma por el número de sujetos, tendremos la desviación media del grupo (d) MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 41 1 2 3 4 5 6 7 8 9 d = -2 d = -2 d = -1 d = -1 Grupo A media = 5 Diferencia media con respecto a la media grupal = 1.5 1 2 3 4 5 6 7 8 9 d = -3 d = +3 d = -2 d = +2 Grupo B media = 5 Diferencia media con respecto a la media grupal = 2 .5 Fig. 1 |2+1+1+2| Desviación media del grupo A =––––––––––––= 1.5 4 |3+2+2+3| Desviación media del grupo B =––––––––––––= 2.5 4 5. Aunque ambos grupos tienen idéntica media, son grupos muy distin- tos. A simple vista se observa que el grupo A es más homogéneo que el grupo B; en el grupo B los sujetos se apartan más de la media. Aunque los dos grupos tienen idéntica media, la dispersión del grupo B es ma-
  • 42.
    yor que ladispersión del grupo A (o, lo que es lo mismo, el grupo A es más homogéneo que el grupo B). Consecuentemente el grupo A tiene una desviación media más pequeña. La desviación media nos indica por lo tanto el grado de dispersión, de homogeneidad, de parecido de unos sujetos a otros. Una misma media de 5 puede proceder de un grupo en el que todos tienen un 5 (dispersión = 0, grupo muy homogéneo, todos los sujetos son igua- les), y una media de 5 también puede proceder de un grupo en el que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una misma media puede corresponder a grupos muy distintos y dar por lo tanto una información descriptiva incompleta que se presta a con- clusiones falsas o equívocas (por ejemplo, una renta media per capi- ta muy elevada es compatible con importantes bolsas de pobreza en la población). 2.2. La desviación típica y la varianza 2.2.1. La desviación típica 1. En la práctica, y como medida de dispersión, no se usa la desviación media (aunque inicialmente se entiende con mayor facilidad) sino prefe- rentemente la desviación típica, que es otra medida que indica igualmen- te el grado de dispersión o de heterogeneidad de las puntuaciones indivi- duales. 2. Para calcular la desviación típica las desviaciones individuales se elevan al cuadrado antes de sumarlas (y con esta operación desaparecen los signos negativos), y después de dividir esta suma por el número de sujetos, se extrae la raíz cuadrada. El símbolo habitual de la desviación típica es la letra ese grie- ga minúscula (sigma: s; también es común denominar la desviación típica por el nombre del símbolo, sigma, o desviación estándar, del inglés stan- dard deviation).2 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 42 2 Sobre el símbolo de la desviación típica hacemos una observación para evitar con- fusiones. Aquí utilizamos siempre la letra ese griega minúscula (s) como símbolo de la desviación típica de la muestra, que es la que vamos a utilizar habitualmente, incluso es frecuente designar a la desviación típica por el nombre del símbolo (sigma). Aunque no hay una práctica uniforme, sí conviene advertir que también es frecuente utilizar este sím- bolo (s) para expresar la desviación típica estimada de la población (N-1 en el denomina- dor), y reservar la letra s, ese latina, para expresar la desviación típica de la muestra (N en el denominador). En algunas calculadoras se distinguen bien los dos símbolos con subín- dices: sn y sn-1. En el programa EXCEL la desviación típica de la muestra (dividiendo por N) se denomina desvestp y la desviación típica de la población (dividiendo por N-1) se deno- mina desvest.
  • 43.
    Fórmulas Distinguimos dos fórmulassegún se trate de la desviación típica de la muestra o de una estimación de la desviación típica de la población represen- tada por esa muestra. 1º Cuando se trata de la desviación típica que describe la dispersión de una muestra (que es lo que hacemos normalmente) utilizamos la fór- mula [3]: MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 43 s = desviación típica de la muestra S = sumatorio, suma de (letra ese griega mayúscula) X = cada una de las puntuaciones individua- les (X mayúscula), X = media aritmética N =número de sujetos [3] [4] La fórmula de la desviación típica también suele expresarse así: (d = desviaciones con respecto a la media) o también La letra x (equis minúscula) es un símbolo habitual de la puntuación di- ferencial de cada sujeto, que es simplemente la desviación o diferencia de ca- da sujeto con respecto a la media, d = x = X 2º Cuando se trata de la estimación de la desviación típica de la pobla- ción representada por una muestra se utiliza la fórmula [4]. La fórmula es casi idéntica; dividimos por N-1 (en vez de por N) con lo que el valor de la desviación típica será algo mayor. En este caso se trata de la estimación de la desviación típica de una pobla- ción calculada a partir de los datos de una muestra. Al dividir por N-1 (y dis- minuir el denominador) aumenta el cociente: la desviación típica de una po- blación suele ser mayor que la desviación típica de una muestra, porque al aumentar el número de sujetos es más probable que haya sujetos con puntua- ciones muy extremas (o muy altas o muy bajas) y consecuentemente aumenta-
  • 44.
    De estas fórmulases de especial utilidad la [6] porque algunos programas de ordenador dan rutinariamente la desviación típica de la población (sn-1) cuando la que con frecuencia interesa es la desviación típica que describe la dispersión de la muestra (sn). 2.2.2. La varianza 1. La varianza es simplemente la desviación típica elevada al cuadrado: rá la desviación típica. Con números grandes apenas hay diferencia (a efectos prácticos da lo mismo dividir por 100 que dividir por 99), pero con números muy pequeños la diferencia puede ser importante3 . De la fórmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y vice- versa se pasa con facilidad. La desviación típica [3] la simbolizamos ahora co- mo sn y la desviación típica de la fórmula [4] la simbolizamos como sn-1 para evitar confusiones. El paso de [3] a [4] se capta con facilidad. Si despejamos S(X - X)2 en la fórmula [3] tenemos que y substituyendo S(X - X)2 por en la fórmula [4] tendremos que: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 44 3 En EXCEL (herramientas) en análisis de datos (estadística descriptiva) calcula la desviación típica de la población (dividiendo por N-1) lo mismo que en el SPSS (por defecto). [5] y de manera análoga tenemos que [6] Podemos ver estas transformaciones en un sencillo ejemplo: Tenemos estas tres puntuaciones 8, 12 y 14 (N = 3) cuyas desviaciones son: sn = 2.494 sn-1 = 3.055 sn a partir de sn-1: sn-1 a partir de sn
  • 45.
    De esta manerase simplifican bastante algunas operaciones del análisis de varianza que no vemos en este momento. Este numerador de la varianza se denomina también suma de cuadrados. 2. La varianza se interpreta de la misma manera que la desviación típica: cuantifica la dispersión de una serie de puntuaciones. La interpretación de la desviación típica y de la varianza es la misma, aunque obviamente las magni- tudes serán distintas. La varianza es mayor que la desviación típica cuando la desviación típica es 1, La varianza es menor que la desviación típica cuando la desviación típica es 1 Como dato descriptivo es más frecuente el uso de la desviación típica que el de la varianza (aunque se utilizan los dos). 2.2.3. Ventajas de la desviación típica y de la varianza como medidas de dispersión La razón de utilizar la desviación típica (o la varianza) en vez de la desvia- ción media (u otras medidas de dispersión como son la amplitud o la desvia- ción semi-intercuartílica) son varias: 1. El cálculo de la desviación típica se basa en todas las puntuaciones. Otras medidas de dispersión, como la amplitud y la desviación semi-intercuartílica, utilizan menos datos y dicen menos, aportan una información más limitada. La amplitud (o recorri- do) se basa solamente en las dos puntuaciones extremas y la desviación semi-intercuartílica (Q) expresa la dispersión en el 50% central del grupo. Estas medidas de dispersión también tie- nen su utilidad, pero la medida que en principio es preferible utilizar la desviación típica. La desviación típica y la varianza tienen mucha estabilidad, al menos en términos comparativos, cuando la utilizamos para estimar la variabi- lidad de una población; cuando se calcula en varias muestras aleatorias varía relativamente poco. 2. De la relación existente entre la desviación típica y la distribución nor- mal se derivan numerosas aplicaciones muy útiles: si conocemos en cuántas desviaciones típicas se aparta un sujeto de la media, conoce- Ya hemos visto que el numerador de la varianza (la suma de las desviacio- nes individuales elevadas previamente al cuadrado) puede expresarse así: MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 45
  • 46.
    mos las probabilidadesde que se dé por azar esa puntuación; así pode- mos detectar qué resultados, por ser muy altos o muy bajos, son muy improbables por azar. Este cálculo de probabilidades es especialmen- te útil en estadística inferencial, ya más en planteamientos de investiga- ción. Estos puntos se tratan en extensión en el lugar apropiado, al tra- tar más adelante de la distribución normal. 3. La desviación típica y la varianza se calculan con facilidad con sencillas calculadoras con programación estadística y en los programas informá- ticos como EXCEL. Existen además varios métodos simplificados para calcular la desvia- ción típica, pero estos métodos sólo dan aproximaciones y dada la faci- lidad con que pueden utilizarse las calculadoras y programas de orde- nador, estos métodos son ya menos útiles y justificables. 2.2.4. Propiedades de la desviación típica y de la varianza La desviación típica y la varianza tienen además propiedades matemáticas que las hacen más útiles. 1. Si a las puntuaciones directas les sumamos una constante, la desviación típica y la varianza no varían. Esto es obvio porque no varían las distancias in- ter-individuales. Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 46 Caso A Caso B (= A+2) 1 3 5 7 9 11 media 5 7 desviación típica 3.266 3.266 Tabla 5 En el caso B hemos sumado dos puntos a cada sujeto del caso A; las me- dias son distintas (sube en dos puntos en el caso B), pero la desviación típica es la misma porque las diferencias interindividuales son las mismas. 2. Si multiplicamos las puntuaciones directas por una constante, la desvia- ción típica queda multiplicada por esa misma constante y la varianza queda multiplicada por el cuadrado de esa constante. Lo vemos también con un ejemplo: las puntuaciones del caso A las multi- plicamos por 2 (tabla 6).
  • 47.
    3. La varianzaen particular tiene una propiedad que la hace sumamente útil en algunos análisis: la varianza se puede descomponer según diversos orí- genes de la variación. Estas aplicaciones se ven en las técnicas de análisis de varianza. 2.2.5. Usos e interpretaciones de la desviación típica 1. En principio, y como ya hemos visto, la desviación típica describe el gra- do de homogeneidad de los datos: será más baja en la medida en que los da- tos estén más próximos a la media, aumentará si hay puntuaciones extremas muy alejadas de la media, etc. Como dato puramente descriptivo suele utili- zarse la desviación típica con preferencia a la varianza (que también puede utilizarse). La media y la desviación típica aportan datos descriptivos complementa- rios. Si se trata de datos escolares (y lo mismo con otros tipos de datos) per- miten hacer diagnósticos rápidos de un grupo. Media baja y desviación típica pequeña: examen difícil para todos, o el profesor califica muy bajo a todos, etc.; media baja y desviación típica grande puede indicar que hay un subgru- po demasiado bajo, etc.; se trata al menos de pistas razonables, pues para ha- cerse una idea más cabal de la situación habrá que inspeccionar los datos (la distribución de frecuencias). 2. Al valorar e interpretar la desviación típica hay que tener en cuanta de dónde vienen los datos: no es lo mismo el número respuestas correctas en un examen que calificaciones puestas por un profesor. Más en concreto es interesante pensar por qué podemos encontrar desviaciones pequeñas don- de cabría esperar que fueran mayores. Así una desviación típica muy pequeña puede indicar: a) El grupo (el conjunto de datos) es muy homogéneo, todos los sujetos (u objetos) se parecen mucho entre sí. En un test de inteligencia pues- MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 47 Caso A Caso B (= A x 2) 1 2 5 10 9 18 media 5 10 desviación típica 3.266 6.53 ( = 3.266 x 2) varianza 10.67 42.67 ( = 10.67 x 22 ) Tabla 6
  • 48.
    to a unamuestra de sujetos muy inteligentes tendremos una desvia- ción típica más pequeña que la que podemos encontrar en una mues- tra normal, donde hay de todo. Ésta es la interpretación en principio más obvia porque es lo que ex- presa directamente la desviación típica, pero, sobre todo cuando tene- mos una desviación mucho menor de lo esperado o de lo que es usual encontrar en otras situaciones, cabe siempre el buscar alguna explica- ción, como indicamos en los apartados siguientes. b) Los sujetos pueden ser potencialmente muy distintos, pero pueden también estar igualados por la facilidad o dificultad de la prueba (examen, test, etc.). El test o instrumento, del tipo que sea, puede ser poco discriminante y consecuentemente no detecta diferencias que de hecho hay. El grupo puede ser muy homogéneo pero sólo tal como lo mide un instrumento determinado. Por ejemplo, no es lo mismo po- ner como respuestas de un cuestionario sí o no (a lo mejor todos res- ponden sí) que poner sí, más bien sí, más bien no y no: puede suce- der que los que responden sí (si sólo pueden escoger entre sí y no) se dividan entre el sí y el más bien sí. De manera semejante una desviación típica muy pequeña en un test de conocimientos puede indicar no que el grupo es realmente muy ho- mogéneo (sujetos muy iguales) sino que el examen es muy fácil (todos o casi todos saben todo) o muy difícil (casi nadie sabe nada…): puede haber diferencias en esos conocimientos que no se detectan con ese test; el grupo es más heterogéneo de lo que manifiesta esa desviación típica pequeña. c) Si se trata de calificaciones, una desviación típica pequeña puede indi- car que el profesor matiza poco, pone notas muy iguales. En general una desviación típica pequeña puede indicar que el proce- dimiento o instrumento utilizado para recoger los datos no recoge su- ficientemente diferencias que de hecho existen. El no detectar diferen- cias repercute por otra parte en otros análisis estadísticos (por ejemplo en el cálculo de coeficientes de correlación: no se detectan relaciones si no hay diferencias claras entre los sujetos). 3. No hay un valor ideal de la desviación típica que pueda servir de refe- rencia; cuándo es grande o pequeña se aprecia comparando unas con otras. Dos desviaciones típicas pueden compararse entre sí directamente (lo mismo que dos varianzas) si provienen de datos comparables (unidades compara- bles, la misma escala métrica). En ocasiones puede ser de utilidad conocer cuál es el valor máximo po- sible de la desviación típica; este valor máximo posible es igual a: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 48
  • 49.
    puntuación máxima posible- puntuación más baja posible –––––––––––––––––––––––––––––––––––––––––––––––––– [8] 2 Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de acuerdo, 4 = de acuerdo, 3 = indiferente, 2 = en desacuerdo y 1 = en total desacuerdo), la puntuación máxima posible es 5 y la puntuación más baja po- sible es 1; en este caso la desviación típica mayor posible es (5 - 1)/2 = 2. Esta referencia suele ser poco útil porque este valor máximo es difícilmen- te alcanzable en la mayoría de las situaciones. Cuando los valores son 1 y 0 (sí o no, bien o mal, etc.), la desviación típica mayor posible es (1 - 0)/2 = .50. Esta referencia con este tipo de datos es especialmente útil, porque en estos casos (respuesta 1 ó 0) sí es más frecuente que la desviación típica obtenida sea la mayor posible o se aproxime mucho a la mayor posible (ampliamos es- tos comentarios al tratar después de las puntuaciones dicotómicas). 4. La desviación típica indica qué puntuación parcial pesa más en una me- dia final; a mayor desviación típica, mayor peso en la media final. En determi- nadas situaciones esta información puede ser muy útil. El que la puntuación parcial con una mayor desviación típica pese más en una media final es por otra parte lógico: si todos reciben la misma o casi la misma puntuación (lo que supone una desviación típica muy pequeña), no se establecen diferencias; si por el contrario se asignan puntuaciones muy distin- tas a los sujetos (desviación típica grande) en una puntuación parcial, las dife- rencias en la media final dependerán más de esas ocasiones en las que se asig- naron puntuaciones (o notas) muy distintas. Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Suponga- mos que tres examinadores (A, B y C) califican a tres sujetos en lo mismo (en- tre paréntesis el número de orden de cada sujeto con cada examinador y en la media final): MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 49 Tabla 7 Podemos observar que el orden (entre paréntesis) de los alumnos en la media final coincide con el orden del examinador A, que es el que tiene una mayor desviación típica.
  • 50.
    El sujeto nº1, el de media final más alta, es el mismo que el del examina- dor A, a pesar de que este examinador A está en minoría ya que para los exa- minadores B y C el sujeto nº 1 es el que tiene una calificación más baja. Pero como el examinador A ha diferenciado más sus calificaciones, está influyendo más en quién queda en el primer o en el último lugar. El que la puntuación parcial con una mayor desviación típica tenga tam- bién un peso mayor en la media final puede ser de especial importancia en al- gunas ocasiones, como cuando del número de orden de los examinados se siguen consecuencias importantes (concesión de becas, procesos de admi- sión o cualquier otro tipo de ventaja). Los que califican de manera muy uniforme, sin diferenciar mucho, influ- yen menos: sumar a todos una misma cantidad no establece diferencias. Lo mismo sucede si no se trata de examinadores distintos, sino del mismo exa- minador pero que ha calificado de manera muy distinta en distintas ocasiones o con distintos tipos de pruebas. Este peso distinto de las puntuaciones directas, según sea mayor o menor la desviación típica, se puede obviar de varias maneras; sobre todo utilizando puntuaciones típicas como veremos más adelante. 5. La desviación típica entra en otros muchos cálculos que iremos vien- do (fiabilidad, error típico, error típico de la media, contraste de medias, etc.). 6. La desviación típica permite el cálculo de las puntuaciones típicas indi- viduales de las que tratamos más adelante. Además la relación entre la desvia- ción típica, y las puntuaciones típicas, y la distribución normal nos abrirá la puerta a la estadística inferencial. 2.2.6. Media y desviación típica de los datos dicotómicos Datos dicotómicos, o puntuaciones dicotómicas, son aquellos en los que solamente hay dos categorías de respuesta o de clasificación mutuamente excluyentes. Cuando hay más de dos posibilidades se trata de datos o puntua- ciones continuas. En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o da- tos, o variables) dicotómicas. Además de los datos propiamente dicotómicos (dos respuestas que se ex- cluyen mutuamente) también podemos dicotomizar los datos continuos di- vidiéndolos en dos categorías, por ejemplo por encima de la media y por de- bajo de la media (o de la mediana), o apto (= 1) y no apto (= 0), etc., aunque en principio es preferible utilizar todas las respuestas sin reducirlas a dos categorías. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 50
  • 51.
    La media (X)de los datos dicotómicos es igual a la proporción de res- puestas correctas o de unos, y el símbolo que suele utilizarse es p. El concepto de media es el mismo que cuando se trata de otros tipos de pun- tuaciones: calculamos la media sumando todas las puntuaciones individuales (que en este caso serán 1 ó 0) y dividimos esta suma por el número de sujetos. MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 51 Figura 2: EJEMPLOS DE DATOS DICOTÓMICOS número de unos Por lo tanto la media es: p = proporción de unos =––––––––––––––– [9] N La proporción de ceros (de respuestas incorrectas, de noes, etc.) se sim- boliza como q, y es igual al número de ceros dividido por el número de suje- tos, o más sencillamente, q = 1-p, ya que p + q = 1 (ó síes + noes o unos + ceros = el 100% de las respuestas). número de ceros q = proporción de ceros = ––––––––––––––– [10] N Si, por ejemplo, de 50 sujetos 30 responden sí (o bien en la pregunta de un examen) y 20 responden no (o mal a una pregunta): 30 La media será: p =–––––= .60 50 20 El valor de q será: q =–––––= .40 50 Si multiplicamos por cien la proporción de respuestas correctas (p), tene- mos un tanto por ciento o un porcentaje: el 60% ha respondido correcta- mente (o ha respondido sí). Si los 50 sujetos responden sí (o correctamente),
  • 52.
    ESTADÍSTICA APLICADA ALAS CIENCIAS SOCIALES 52 la proporción de unos (la media) será 50/50 = 1 (ó el 100% de los sujetos ha respondido correctamente o ha respondido sí). La desviación típica y la varianza de los datos dicotómicos (unos o ceros) se puede calcular a partir de los valores de p y q: Desviación típica: [11] Varianza: s2 = pq [12] Es habitual utilizar pq como símbolo de la varianza de los datos dicotómi- cos. En el mismo ejemplo anterior, la desviación típica será igual a = .489, y la varianza será igual a .4892 = .239 (ó .24 redondeando los decimales). La varianza mayor posible se dará cuando el 50% responde correctamen- te (o responde sí) y el otro 50% responde incorrectamente (o responde no), es decir, cuando el 50% de las respuestas se codifica con un uno y el otro 50% con un cero. Es entonces cuando se da el mayor número de diferencias inter- individuales. En este caso tenemos que p = q = .50; la media es p =.50, la desviación típica será igual a la varianza será igual a .50 2 = .25, También se utilizan los símbolos convencionales (X, s); sin embargo los símbolos p (media), pq (varianza) y (desviación típica) son muy utiliza- dos con este tipo de datos; realmente tanto pq como son las fórmulas que también se utilizan como símbolos. En los ítems dicotómicos el valor máximo que puede alcanzar la desviación tí- pica es .50 y el valor máximo de la varianza es .502 =.25. Como ya se indicó an- tes, el valor máximo que puede alcanzar la desviación típica (con cualquier tipo de puntuación) es igual a la diferencia entre la puntuación máxima posible y la puntuación más baja posible dividida por dos; en este caso (1-0)/2 = .50. El que la máxima varianza con estos datos (1 ó 0) es .25 podemos verlo de manera intuitiva en los datos simulados de la tabla 8, donde tenemos todos los posibles resultados que podemos obtener si cuatro sujetos (N = 4) res- ponden a una pregunta (respuestas: sí = 1, no = 0). Si todos responden sí (1) o todos responden no (0), nadie se diferencia de nadie y la varianza es cero. Si la mitad (el 50%) responde sí y la otra mitad res- ponde no es cuando tenemos el máximo número de diferencias y la máxima va- rianza. Si multiplicamos el número de los que responden sí por el número de los que responden no tenemos el número de diferencias entre los sujetos, y si multiplicamos las proporciones tenemos la varianza. La unanimidad (todos responden sí o todos responden no) coincide con la varianza cero, y la máxima diversidad coincide con la varianza máxima, que es (.50)(.50) = .25.
  • 53.
    El entender quela varianza máxima (lo más lejano a la unanimidad en las respuestas) es .25 tiene su importancia, no sólo como referencia útil, sino por- que se trata de un valor que entra en la fórmula para calcular el tamaño necesa- rio de la muestra para extrapolar los resultados a la población (por ejemplo en las encuestas pre-electorales); en estos casos suponemos que la varianza de la población es la máxima posible e igual a .25. La razón está en que a mayor varian- za hará falta una muestra mayor y para mayor seguridad nos ponemos en la si- tuación de que la varianza es la mayor posible (si la varianza fuera = 0, nos bas- taría preguntar a un solo sujeto, porque todos van a responder lo mismo)4 . La media y la desviación típica de los datos dicotómicos pueden calcularse con las calculadoras que tienen programación estadística y programas infor- mático, de la misma manera que se calculan cuando las puntuaciones son continuas (las fórmulas son las mismas; si las puntuaciones son dicotómicas, nos limitaremos a introducir unos y ceros). 2.2.7. Combinación de medias y desviaciones típicas Con frecuencia acumulamos datos y cálculos de diversos grupos. Las fór- mulas que combinan medias de diversos grupos en una media común y diver- sas desviaciones típicas en una desviación típica común son muy útiles. 1º Para combinar dos o más medias: MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 53 Tabla 8 Xtotal = media total, o común a varios grupos; SXN = en cada grupo multiplicamos la media por su N y sumamos estos productos (esta suma es igual a la suma de todas las puntuaciones); SN = suma de todos los N 4 En la ficha técnica de las encuestas, que suele aparecer publicada en periódicos y revistas, se suele especificar que el tamaño de la muestra se ha calculado suponiendo que p = q = .50 (también se empelan letras mayúsculas, P y Q).
  • 54.
    Cuando las muestrasson de idéntico tamaño calculamos la media de las medias: Cuando las muestras son de tamaño desigual: La fórmula [13] es obvia (se trata de una media ponderada por el núme- ro de sujetos): Si la media es ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 54 tenemos que SX = XN; que es el numerador de esta fórmula [13] (suma de todas las pun- tuaciones); el denominador (SN) es la suma de todos los sujetos de todos los grupos. Cuando el número de sujetos es el mismo en todas las muestras, la media total es simplemente la media de las medias. Lo vemos en dos ejemplos (tabla 9), que utilizaremos también para ver có- mo se combinan desviaciones típicas. Tabla 9 2º Para combinar dos o más desviaciones típicas o varianzas: Lo que no se puede hacer es calcular la media de las desviaciones típicas; para combinar las desviaciones típicas de varios grupos como si se tratara de un solo grupo aplicamos las fórmulas [14] (muestras desiguales) y [15] (muestras iguales).
  • 55.
    a) Muestras detamaño desigual MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 55 5 El numerador se calcula fácilmente con una calculadora con programación estadís- tica, introduciendo todas las medias y todas las desviaciones típicas, en la función Sx2 . stotal = desviación típica total, de todos los grupos unidos en uno solo; Xtotal = media del total, de todos los grupos unidos en uno solo. 1º En cada grupo multiplicamos cada N por la suma de la media y de la desviación típica elevadas al cuadrado [N(X2 + s2 )], 2º suma- mos estos productos; 3º dividimos esta suma por el número to- tal de sujetos (SN) y restamos la media total elevada al cuadra- do (y que se supone calculada previamente). Si no extraemos la raíz cuadrada, lo que tenemos es la varianza común a todos los grupos. b) Muestras de idéntico tamaño Si las muestras son de idéntico tamaño, en la fórmula [14] tendríamos que el denominador será Nk, donde N es el número de sujetos que hay en cada grupo y k es el número de grupos, por lo que la fórmula [14] queda simplifi- cada como se indica en [15]. En el numerador nos limitamos a sumar todas las medias y todas las desviaciones previamente elevadas al cuadrado. Con los datos mismos datos de la tabla 9 calculamos las desviaciones típi- cas uniendo todas las muestras. Muestras de tamaño desigual [14]: Muestras de idéntico tamaño [15]5 :
  • 56.
    ¿De dónde vienenestas fórmulas para combinar desviaciones típicas a partir de los valores de las desviaciones, medias y número de sujetos de diver- sos grupos? La fórmula [14]6 es fácilmente demostrable, y no sobra conocer esta de- mostración porque nos introduce en otras fórmulas frecuentes de la desvia- ción típica. La fórmula más directa de la desviación típica es Esta fórmula no se demuestra en sentido propio (lo mismo que la de la media aritmética), simplemente expresa el concepto. Hay otras fórmulas, que se derivan de [16], para calcular la desviación típi- ca sin necesidad de calcular las puntuaciones diferenciales (X-X). Lo que su- cede es que estas fórmulas que simplifican operaciones son menos útiles, ya que disponemos de programas informáticos y calculadoras con programación estadística. Una de estas fórmulas para calcular la desviación típica a partir de las pun- tuaciones directas y de la media, es la que nos interesa para poder demostrar la fórmula que nos permite combinar desviaciones típicas de varios grupos; es la fórmula [17] que viene en muchos textos; a partir de esta fórmula [17] llegamos con facilidad a la fórmula [14] para combinar desviaciones típicas o varianzas. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 56 Vamos a ver cómo de la fórmula [17] llegamos a la fórmula [14], que es la propuesta para combinar desviaciones típicas; después veremos de dónde sa- le esta fórmula [17]. Para simplificar esta demostración utilizamos la varianza en vez de la des- viación típica, así si elevamos al cuadrado la desviación típica expresada en [17] tendremos que la varianza será Si en [18] despejamos SX2 tendremos SX2 =N(s2 + X2 ) [19] La expresión que tenemos en [19] podemos verla ya en la fórmula [14]. Si de dos muestras conocemos los valores de N, X y s, podemos utilizar la fór- 6 Esta fórmula la tomamos de McNemar (1962, pág. 24).
  • 57.
    mula [17] paracalcular la desviación típica de las dos muestras combinadas en una única muestra. En esta fórmula [17] utilizada para combinar dos (o más) desviaciones típicas tenemos ahora que: N = N1 + N2; La media será la media total de las dos (o más) muestras SX 2 será la expresión [19] calculada en las dos (o más) muestras y su- madas. Es decir, substituyendo [19] en [18] tenemos la fórmula [14] para combi- nar desviaciones típicas. Podemos preguntarnos ahora de dónde viene la fórmula [17], que es la que estamos utilizando para llegar a la fórmula [14] y calcular la desviación tí- pica de dos (o más) muestras combinadas en una sola. En la fórmula de la desviación típica tenemos en el numerador un binomio elevado al cuadrado. No hay más que aplicar la fórmula usual: (a - b)2 = a2 - 2ab + b2 , y así llegamos a [18] y [17]: Utilizando la varianza para simplificar, tenemos que: MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 57 Como en [17] tenemos que y que Tendremos que y así llegamos a [18] y [17] 2.3. El coeficiente de variación (V) Otra medida de dispersión, menos utilizada, es el coeficiente de varia- ción. En principio se utiliza para comparar dispersión cuando los instrumen- tos o unidades de medida son distintas, o cuando las medias de dos grupos son muy desiguales. La desviación típica viene expresada en las mismas unidades empleadas en la medición, por lo tanto dos desviaciones calculadas con instrumentos y uni- dades distintas no son comparables entre sí directamente. Lo mismo sucede cuando las medias son muy distintas (por ejemplo cuando las medias de dos exámenes son muy distintas porque el número de preguntas es distinto). En estos casos se utiliza el coeficiente de variación o de variabilidad rela- tiva: consiste sencillamente en dividir la desviación típica por la media (es de- cir, se trata de la desviación relativa a la media); es habitual multiplicar por 100 este cociente.
  • 58.
    Coeficiente de variación:[21] Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (pe- so en Kg.) media desviación chicos 66.87 6.99 chicas 51.06 5.10 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 58 Aparentemente los chicos difieren más entre sí que las chicas entre sí (su desviación típica es mayor; los chicos tienen de manera natural más ámbito de variación), pero también es ver- dad que las medias son muy distintas. Si calculamos el coeficiente de variación (haciendo las desviaciones relati- vas a la media) tenemos estos resultados: 6.69 V (chicos) =––––– (100) = 10.45 66.87 5.51 V (chicas) =––––– (100) = 10.79 51.06 Teniendo en cuenta la diferencia en- tre las medias, entre las chicas encon- tramos más variabilidad en peso (aun- que no mucha más). El uso de este coeficiente de variación en medidas educacionales o psico- lógicas es muy cuestionable, porque su valor depende de la media, que a su vez depende de la facilidad o dificultad de las preguntas, test, etc. Su inter- pretación se presta a ambigüedades. Si por ejemplo a un test de 10 preguntas le añadimos otras 10 muy fáciles, subirá la media y bajará el valor de V . Este coeficiente puede utilizarse y es especialmente útil cuando se dan es- tas circunstancias: 1º Cuando las unidades lo son en sentido propio (como peso, altura, con una unidad clara); menos aconsejable es utilizarlo en las medi- das educacionales y psicológicas habituales; 2º Cuando las medias son muy desiguales (como en el ejemplo ante- rior, peso en chicos y chicas). 3º Cuando las medidas son distintas (por ejemplo; ¿dónde hay más va- riabilidad, en peso o en altura?). En el campo de los tests en general, puede ser útil para comparar la varia- bilidad de un grupo en el mismo test aplicado en circunstancias distintas. 2.4. La desviación semi-intercuartílica Nos hemos centrado fundamentalmente en la desviación típica y en la varianza porque se trata de dos conceptos fundamentales para el resto de
  • 59.
    los análisis estadísticos.Son medidas de dispersión que se utilizan cuando se utiliza la media aritmética como medida de tendencia central. Se utilizan también otros pares de medidas, tanto de tendencia central (que ya hemos visto, como la mediana y la moda) como de dispersión, que son ya de utilidad más limitada, aunque tienen su lugar como descriptores de un conjunto de puntuaciones. La desviación semi-intercuartílica es la medida de dispersión apropiada cuando la medida de tendencia central es la mediana, y expresa la disper- sión del 50% central del grupo, por lo que, lo mismo que la mediana, se pres- cinde también de las puntuaciones extremas. El concepto es claro y podemos verlo en la distribución de frecuencias de la tabla 10. Hemos dividido la muestra en cuatro partes con idéntico número de suje- tos (el 25% en cada una); los límites de estas cuartas partes se denominan cuartiles: Límite superior del cuartil 3 (queda por debajo el 75 % del total) (Q3) = 12.5 Límite superior del cuartil 1 (queda por debajo el 25 % del total) (Q1) = 6.5 MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 59 Tabla 10 Es decir, y dicho de manera más sencilla, entre 6.5 y 12.5 está el 50% cen- tral de los sujetos; la desviación semi-intercuartílica (Q) será: [22] en este ejemplo tendríamos Este ejemplo está puesto para explicar el concepto; lo normal es que los lí- mites del 50% central no estén tan claros a simple vista; el cálculo exacto lo veremos al tratar de los percentiles, pues se trata simplemente de calcular por interpolación los percentiles 25 y 75, como se explica en su lugar.
  • 60.
    2.5. La amplitudo recorrido La amplitud o recorrido (ambos términos son usuales)7 es la medida de dispersión que se utiliza cuando la moda es la medida de tendencia central. Su cálculo es muy simple: Amplitud = (puntuación más alta menos la puntuación más baja) + 1 [23] En el ejemplo de la tabla 10: amplitud = (15-4) + 1 =12 Observaciones sobre la amplitud: 1. Sumamos una unidad a la diferencia entre las puntuaciones extremas (se trata de una convención aceptada) porque nos situamos en los lí- mites extremos de ambas puntuaciones: el límite superior de 15 sería 15.5 y el límite inferior de 4 sería 3.5; la amplitud será pues 15.5 - 3.5 = 12 (ó 15 - 4 + 1). 2. Como indicador de dispersión es una medida débil, pues se basa en só- lo dos puntuaciones, que además pueden ser atípicas, poco represen- tativas, y grupos semejantes pueden parecer muy distintos en disper- sión, simplemente porque en algún grupo hay uno o dos sujetos con puntuaciones inusualmente altas o bajas. 2.6. Relación entre la amplitud y la desviación típica En muestras relativamente grandes (de 500 o 600 sujetos) la amplitud o recorrido suele comprender unas seis desviaciones típicas (entre -3 y +3), por lo que un cálculo aproximado de la desviación típica consiste en dividir la amplitud entre seis. Según va bajando N (número de sujetos, tamaño de la muestra) la amplitud comprende menos desviaciones típicas y si sube N la amplitud suele comprender más de seis desviaciones. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 60 7 A veces, y de manera errónea, se denomina rango a la amplitud, por confusión con el inglés (amplitud o recorrido en inglés es range). El término rango significa propiamen- te número de orden (rank en inglés). Tabla 11
  • 61.
    En la tabla11 tenemos cuántas desviaciones típicas podemos esperar que comprenda la amplitud: dividiendo la amplitud por esa cantidad (x) ten- dríamos una aproximación del valor de la desviación típica8 . Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que la amplitud o recorrido equivalga aproximadamente a 3.1 desviaciones, y con 1000 sujetos a 6.5 desviaciones. Esta tabla no es útil para calcular la desviación típica; en primer lugar porque es muy sencillo calcular el valor exacto de la desviación (utilizando un progra- ma de ordenador o una calculadora con programación estadística) y porque, como ya hemos indicado, la amplitud es una medida muy pobre que depende solamente de dos puntuaciones que además pueden ser atípicamente altas o bajas. Sin embargo el hacer una estimación del valor de la desviación a partir de la amplitud puede ser ocasionalmente útil por varias razones. Para hacernos una idea de por dónde puede ir el valor aproximado de la desviación típica si en un momento dado no disponemos de medios para cal- cularla directamente, Para ponernos sobre la pista de algún error de bulto en el cálculo, Para apreciar si la desviación típica exacta y bien calculada es mucho ma- yor o menor de lo que cabría esperar en un grupo de un determinado tama- ño. Si la desviación típica calculada es apreciablemente mayor de la esperada, podemos comprobar si se debe a unos pocos sujetos con puntuaciones extre- mas muy atípicas. 3. MEDIDAS DESCRIPTIVAS BÁSICAS: RESUMEN de tendencia central de dispersión MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 61 8 La tabla está tomada de Guilford y Fruchter (1973, pág. 73). La media es el centro de gravedad de la distribución: la suma de todas las diferencias individuales con respecto a la media es igual a cero. La desviación típica será mayor en la medida en que las puntuaciones indi- viduales se aparten más de la media (X-X). La desviación típica elevada al cuadrado (s2 ) se denomina varian- za, también se utiliza como medida de dispersión y tiene propiedades es- pecíficas que la hacen muy útil.
  • 62.
    de tendencia centralde dispersión ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 62 En el cálculo de la media y de la desviación típica intervienen todas las puntua- ciones individuales; son las dos medidas más estables: si calculamos estas me- didas en una serie de muestras de la misma población, fluctúan menos que las demás medidas. Permiten además otras muchas operaciones de gran interés y son en principio las medidas descriptivas preferibles. La mediana es igual al Percentil 50; es la puntuación que divide la distribu- ción en dos partes iguales: la mitad de los sujetos tiene una puntuación superior a la mediana y la otra mitad una puntuación inferior. En distribuciones asimétricas o con puntuaciones extremas muy atípicas (muy extremas) puede dar una idea mejor que la media ya que la media puede verse afectada por puntuacio- nes muy extremas y no representativas. La mediana en cambio no se ve altera- da por las puntuaciones extremas. La desviación semi-intercuartílica (Q) se calcula solamente con el 50% central de la distribución: es la media de dos puntuaciones: la que corres- ponde al percentil 75 (deja por arriba el 25% de los sujetos) y la que corres- ponde al percentil 25 (deja por deba- jo el 25% de los sujetos). Como quedan excluidos en el cálculo el 25% superior y el 25% inferior, tam- poco se ve afectada por las puntuacio- nes extremas. Ambas medidas, media- na y Q son las apropia- das: 1º en principio cuando se trata de puntuaciones puramente ordinales; 2º siempre que se prefiera prescindir de los suje- tos extremos porque distorsionan la información. Ejemplos de uso de la mediana y Q: en el proceso de construcción de escalas de Thurstone; los ítems son evaluados por jueces y para evitar que pesen de- masiado juicios extremos, se calculan la mediana y Q (en vez de la y ?) en ca- da ítem. También se utilizan a veces en los cuestionarios de evaluación del pro- fesorado, cuando interesa la opinión del centro de la clase y prescindir de los extremos. La mediana y los percentiles 25 y 75 (Q1 y Q3, o primer y tercer cuartil) permi- ten además hacer determinadas representaciones gráficas. Los percentiles se calculan en estos casos por interpolación.
  • 63.
    de tendencia centralde dispersión MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRALY DE DISPERSIÓN 63 Moda: puntuación con una frecuencia mayor La moda es simplemente la puntua- ción con la mayor frecuencia, la ob- tenida por el mayor número de suje- tos. Puede haber varias puntuaciones con esta característica (distribuciones bimodales, plurimodales). Como me- dida de tendencia central es poco ri- gurosa, sobre todo en distribuciones asimétricas. Se basa en las puntuacio- nes de dos sujetos que si son muy ex- tremas y atípicas desvirtúan la infor- mación. La moda y la amplitud son las medi- das menos rigurosas aunque pueden tener su interés descriptivo. Amplitud = [valor más alto - valor más bajo] +1 La amplitud (o recorrido, y mal lla- mada a veces rango) es igual a la dife- rencia entre la puntuación más alta y la puntuación más baja. Habitualmen- te se suma una unidad a esta diferen- cia porque se calcula a partir de los lí- mites de los valores extremos (si las puntuaciones extremas son, por ejemplo, 20 y 5, la amplitud no es igual a 20 - 5 sino igual a 20.5 - 4.5 = [(20 - 5) + 1]. Es una medida muy in- estable porque depende solamente de los dos valores extremos. En muestras semejantes la amplitud pue- de ser muy diferente; basta que haya sujetos muy atípicos en los extremos. En la distribución normal (simétrica, acampanada) media, mediana y moda coinciden en un idéntico valor.
  • 65.
    CAPÍTULO 3 LA DISTRIBUCIÓNNORMAL 1. APROXIMACIÓN INTUITIVA A LA DISTRIBUCIÓN NORMAL Posiblemente ya estamos familiarizados con la denominada distribución normal (o curva normal): la distribución simétrica y de forma acampana- da que nos indica que la mayoría de los sujetos (u objetos) de una población determinada no se aparta mucho de la media: en la medida en que los sujetos se van apartando más de la media (porque se pasan o porque no llegan) van siendo menos y menos. Si representamos esta distribución mediante un histograma simplificado, tendríamos algo parecido a lo que vemos en la figura 1. 65 Los sujetos que se van apartando más y más de la media van siendo menos La mayoría de los sujetos se encuentran próximos a la media de su grupo El apartarse mucho de la media va siendo ya muy raro… Figura 1
  • 66.
    Lo primero quedebemos captar es que la distribución normal nos remite a nuestra propia experiencia. Si nos fijamos en la estatura de la gente que nos encontramos por la calle, vemos que la mayoría de la gente es de estatura normal, y aquí llamamos normal a lo más frecuente; de hecho si vemos a al- guien que se aparta mucho de la media (de lo habitual) no pasa desapercibi- do y nos llama la atención. En la experiencia de cada día, normal y frecuen- te, aplicado a cualquier rasgo, son expresiones casi sinónimas. Cuando decimos que alguien es muy abierto y sociable, lo que queremos decir es que es más abierto y sociable de lo que es normal, de lo que solemos encontrar habitualmente, de la misma manera que decimos que una persona es muy ca- llada cuando habla mucho menos que la mayoría de la gente. Casi sin darnos cuenta estamos haciendo juicios relativos a lo que es nor- mal encontrar en la generalidad de las personas: el mucho y el poco, o el muy, sobre todo aplicados a las características de las personas, dependen de lo que es más frecuente encontrar en nuestro medio. Si el muy abunda mu- cho, deja de ser muy para pasar a ser normal o frecuente y ya no merece el muy que solemos reservar para lo excepcional que viene a ser lo raro o infre- cuente. Estos juicios, y esta distribución normal, son relativos a cada población: un pigmeo de una estatura normal, cercana a la media de su población y muy frecuente en su propio grupo, pasa a ser muy bajito y excepcional si lo incluimos en una población de escandinavos: se aparta mucho de la media de esa población y será muy difícil encontrar un escandinavo con esa estatura. Sin embargo ese pigmeo tiene una estatura normal, que no se aparta mucho de la estatura media de su grupo. En ambos grupos, escandinavos y pigmeos, encontraremos una distribución normal en estatura, aunque las medias de los dos grupos sean muy distintas. Esta consideración (la normalidad es relativa a cada población) nos lle- vará más adelante a una serie de aplicaciones relevantes en la investigación psicológica y educacional, no solamente para poder valorar si un resultado o dato individual es atípico (si se aparta mucho de lo normal o esperado), sino, por ejemplo, para determinar si unos sujetos que han pasado por una deter- minada experiencia pueden considerarse normales en la población de los que no han pasado por esa experiencia (en ese caso es posible que esa expe- riencia haya sido inútil). La distribución normal que representamos mediante la curva normal, es un modelo matemático teórico al que de hecho tienden a aproximarse las distribuciones que encontramos en la práctica: estadísticas biológicas, datos antropométricos, sociales y económicos, mediciones psicológicas y educacionales, errores de observación, etc.; es un modelo muy útil por su relación con el cálculo de probabilidades que nos va a permitir hacer infe- rencias y predicciones. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 66
  • 67.
    2. CARACTERÍSTICAS YPROPIEDADES DE LA DISTRIBUCIÓN NORMAL El hecho de que las magnitudes según se van apartando de la media (en cualquiera de las dos direcciones) van siendo mucho menos frecuentes lo ex- presamos gráficamente mediante la curva normal, que es la representación gráfica de una función matemática que nos indica la probabilidad de encon- trar (de que se dé por azar, por factores aleatorios) cualquier magnitud (o puntuación) si conocemos en cuántas desviaciones típicas se aparta de la me- dia de su distribución. La diferencia con respecto a la media, medida en des- viaciones típicas, es lo que llamamos una puntuación típica (z = X - X/s): a cada puntuación típica le corresponde una probabilidad de ocurrencia y es- ta relación entre diferencia con respecto a la media y probabilidad nos va a ser de la máxima utilidad; ampliamos la explicación en el apartado siguiente. La distribución normal es simétrica, unimodal, de forma acampanada (figura 2); su altura máxima (que indica el mayor número de sujetos) se en- cuentra en la media, que coincide con la moda y la mediana (expresado en términos más académicos, la ordenada máxima (Y) corresponde a una abs- cisa (X) igual a la media). LA DISTRIBUCIÓN NORMAL 67 Figura 2 La distribución normal es continua, válida para cualquier valor de X (para cualquier puntuación o magnitud, representada en el eje horizontal de las abscisas). En la figura 2 están señalados los puntos que corresponden a la media (0) y a tres desviaciones típicas por encima y por debajo de la media. La distribución normal es asintótica, es decir, los extremos de la curva se extienden indefinidamente en ambas direcciones; la curva no toca el eje (ho-
  • 68.
    3. PROPORCIONES YPROBABILIDADES EN LA DISTRIBUCIÓN NORMAL Ya hemos indicado que si conocemos en cuántas desviaciones típicas se aparta un sujeto (o una observación cualquiera) de la media, podemos cono- rizontal) de las abcisas (siempre cabe la posibilidad de una magnitud muy ex- trema)1 . En la práctica se considera que todos los casos están comprendidos entre -3 y +3 desviaciones típicas; las probabilidades de que un valor exceda estos límites son del .0026% (2.6 por mil); la amplitud de la distribución es por lo tanto de unas 6 desviaciones típicas (a efectos prácticos, aunque esto no es exacto y depende del número de sujetos). Los puntos de inflexión de la curva (puntos A y B en la figura 2) están a una desviación típica de la media. Atendiendo al grado de apuntamiento o curtosis que presenta, decimos de la curva normal que es mesocúrtica (representada por la línea continua en la fi- gura 3). Para determinar la curtosis de cualquier otra distribución la compara- mos con este modelo (figura 3), y así calificamos a las distribuciones más apun- tadas que la normal leptocúrticas y a las menos apuntadas platicúrticas2 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 68 1 Asintótica viene del griego asímptotos, (asumptwtos que quiere decir que no coincide, que no toca. 2 Curtosis (kurtwsis) significa en griego curvatura; los prefijos griegos leptos, me- sos y platys significan respectivamente delgado, medio y ancho. Mesocúrtica Leptocúrtica Platicúrtica Figura 3
  • 69.
    La distribución normalnos permite conocer la probabilidad de que se dé una determinada magnitud expresada en puntuaciones típicas. Si nos fijamos en la figura 4, vemos que la probabilidad de que se dé una puntuación supe- rior a z = 2 es el 2.15% (y otro 2.15% de probabilidades de que se dé una pun- tuación inferior a z = -2); la probabilidad de encontrar una puntuación supe- rior a z = 1 es del 15.74% (13.59 + 2.15), etc. Estas probabilidades las tenemos en las tablas de la distribución nor- mal, donde podemos ver la proporción de casos que caen por encima o por debajo de cualquier puntuación típica (o, lo que es lo mismo, la proba- bilidad de obtener una puntuación cualquiera por encima o por debajo de cualquier puntuación típica o entre dos puntuaciones típicas). Antes de acercarnos a las tablas y aprender a manejarlas es útil observar las figuras 5 y 6. Los porcentajes puestos en estas figuras son sólo aproximados (eliminando decimales); para muchos usos estas aproximaciones son un dato suficiente; en cualquier caso estas figuras nos ayudan en un primer momento a comprender la utilidad de la distribución normal y a utilizar las tablas en las que encontraremos los valores exactos. cer la probabilidad que tiene de ocurrir. La proporción (o porcentaje si mul- tiplicamos por 100) de casos esperados entre dos puntuaciones típicas deter- minadas (o por encima o por debajo de cualquier puntuación típica) es siem- pre el mismo. Vemos en la figura 4 que, por ejemplo, entre la media (z = 0) y una desviación típica (z = + ó - 1) se encuentra el 34.13% de los casos, o, di- cho de otra manera, la probabilidad de que una observación se encuentre en- tre la media y una desviación típica es de .34 LA DISTRIBUCIÓN NORMAL 69 2.15% 34.13% 34.13% 2.15% -3 -2 -1 0 +1 +2 +3 13.59% 13.59% Figura 4
  • 70.
    En la figura5 tenemos: a) La base (el eje de las abscisas, X) la hemos dividido en segmentos que comprenden media desviación típica (.5s). El punto central corres- ponde a la media y tiene obviamente un valor de cero (no se aparta de la media, coincide con la media, z = 0). b) Vemos una serie de filas divididas en segmentos con distintos criterios, pero utilizando la desviación típica como unidad; y en cada segmento encontramos el porcentaje (aproximado) de casos que podemos es- perar. Por ejemplo, si nos fijamos en algunas de estas filas: En la primera fila (comenzando por debajo) vemos que entre la media y media desviación típica (entre 0 y ±.5 s; la tabla es simétrica) cae aproxi- madamente un 20% de los casos, entre 1s y 1.5 s tenemos el 9 % de los ca- sos, y por encima o por debajo de 2 s el 2% de los casos (también podemos decir que la probabilidad de obtener una puntuación típica superior a 2 es el de 2%, etc.). En la segunda fila entre -.5 s y +.5 s tenemos el 38% de los casos, por en- cima o por debajo de 1.5 s cae el 7 % de los casos. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 70 Figura 5 PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS LÍMITES DE LA CURVA NORMAL
  • 71.
    En la tercerafila tenemos las mismas proporciones (redondeadas) ya vis- tas en la figura 4 pues los segmentos son de 1s En la quinta fila vemos otro criterio para dividir la distribución: entre -.25s y +.25 s (en el centro de la distribución) tenemos el 20% de los casos, entre .+25 s y +.75 s (lo mismo que entre -.25 s y -.75 s) tenemos el 17% de los ca- sos; etc. Cada segmento comprende .5 s (menos los dos extremos) y tene- mos en total nueve agrupaciones; si numeramos estas agrupaciones de 1 (co- menzando por la derecha) a 9, en su momento veremos que se trata de los estaninos o eneatipos, unas puntuaciones muy utilizadas. En la sexta fila (o cuarta por arriba) vemos que por debajo de 2 s tenemos el 2% de los casos, y por encima el 98% de los casos, etc. Esta figura 5 no es de gran utilidad práctica, pero nos ayuda a entender la distribución normal y las tablas correspondientes que encontraremos en los textos. LA DISTRIBUCIÓN NORMAL 71 15% 70% 15% 5% 90% 5% 2.5% 95% 2.5% -1.96 -1.65 -1.04 +1.04 +1.65 +1.96 Figura 6 PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS LÍMITES DE LA CURVA NORMAL La figura 6 es análoga a la figura 5 aunque está hecha con otros criterios; si nos fijamos con un poco de atención podemos ver: • El 70% central de los casos cae entre ± 1.04 s; y las probabilidades de ob- tener unas puntuaciones mayores que +1.04 s ó –1.04 s son del 15%.
  • 72.
    • El 90%central de los casos caen entre ± s 1.65 s; y las probabilidades de obtener unas puntuaciones mayores que +1.65 s o –1.65 s son del 5%; naturalmente las probabilidades de encontrar una puntuación que supere 1.65 s independientemente del signo son del 10% (un 5% en cada extremo de la distribución). • El 95% central de los casos caen entre ± 1.96 s (1.957 con más exacti- tud); y las probabilidades de obtener unas puntuaciones mayores que +1.96 s o –1.96 s son del 2.5%; y las probabilidades de encontrar una puntuación que supere 1.96 s independientemente del signo son del 5% (un 2.5% en cada extremo de la distribución). • El 99% de los casos los tenemos entre ± 2.57 s y solamente un 1% de los casos supera este valor (.5% en cada extremo de la distribución). De todos estos valores hay dos que encontraremos con frecuencia en el es- tudio de los análisis estadísticos; son 1.96 y 2.57; la probabilidad de encontrar va- lores superiores (independientemente del signo) son respectivamente el 5% y el 1%, que son probabilidades aceptadas como límite convencional de lo probable. 4. CÓMO DIBUJAR LA CURVA NORMAL La altura (Y, y que representa la frecuencia o número de casos) en cual- quier curva normal y en cualquiera de sus puntos (los valores de X, que repre- sentan la magnitud) guarda siempre una determinada proporción con la al- tura máxima (que corresponde a la media). Esos puntos están determinados en puntuaciones típicas (z): conocida una z, sabemos qué altura tiene la cur- va en ese punto con respecto a la altura máxima (o mayor frecuencia) que co- rresponde a de la media (z = 0). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 72 -3 -2,5 -2 -1,5 -1 -0,5 0,5 0 1 1,5 2 2,5 3 13,5% 4,4% 1,1% 32,5% 88,2% 100% 60,7% 88,2% 60,7% 32,5% 13,5% 4,4% 1,1% Figura 7
  • 73.
    En la figura7 se dan las alturas de algunos puntos concretos; son unos puntos de referencia suficientes para dibujar la curva. Si por ejemplo la altu- ra máxima es de 8 cm (la altura absoluta se escoge arbitrariamente), la altura correspondiente a +1 y -1 desviaciones típicas (los puntos de inflexión) será el 60.7% de 8cm, que es igual a 4.85 cm ([8/100]x 60.7). 5. CÓMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIÓN NORMAL Las tablas de la distribución se pueden presentar de maneras distintas y hay que examinarlas en cada caso, pero la información es siempre la misma. Lo que habitualmente interesa conocer es la probabilidad de obtener una puntuación mayor o menor que una determinada puntuación típica. Recordamos que una puntuación típica indica la distancia o diferencia de una puntuación (u observación) con respecto a la media expresada en desvia- ciones típicas. La media corresponde siempre a z = 0; las puntuaciones típi- cas superiores a la media tienen el signo más y las puntuaciones típicas infe- riores a la media tienen el signo menos. Cómo se utilizan las tablas de la distribución normal lo veremos con unos ejemplos3 . 5.1. Puntuaciones típicas positivas (superiores a la media) Por ejemplo z = +1.64 1. Lo primero que tenemos que hacer es imaginar o dibujar una curva normal (figura 8) en la que la media (z = 0) divide la distribución en dos áreas de idéntico tamaño; por encima de la media cae el 50% de los casos y por debajo tenemos el otro 50% de los casos. LA DISTRIBUCIÓN NORMAL 73 3 Las tablas de la distribución normal se encuentran al final de esta publicación. Figura 8
  • 74.
    2. Como z= +1.64 es superior a la media, trazamos una línea por dónde más o menos cae z = +1.64, lo que importa es dibujarla a la derecha de la media (figura 9) que es donde están todos los valores positivos (figura 9). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 74 Figura 9 Observamos que el área total de la distribución queda dividida en dos par- tes, área mayor y área menor. Al menos estas áreas mayor y menor suelen figurar en todas las tablas. Vamos a las tablas para ver los valores que corresponden a z = 1.64: Puntuación Área de la Área de la típica parte mayor parte menor 1.64 .9495 .0505 Cómo se interpreta: Área de la parte mayor. a) La proporción de casos que caen por debajo de + 1.64 es de .9495 o (multiplicando por 100) el 94.95 % de los casos tienen una puntuación inferior a z = + 1.64. b) Si redondeamos los decimales tenemos que una puntuación de z = + 1.64 supera al 95 % de los casos o, lo que es lo mismo, que en la distri- bución normal una puntuación típica de +1.64 corresponde al Per- centil 95. Área de la parte menor. a) La proporción de casos que caen por encima de + 1.64 es de .0505 o (multiplicando por 100 y redondeando) el 5 % de los casos tienen una puntuación superior a z = + 1.64.
  • 75.
    b) La probabilidadde obtener una puntuación típica superior a + 1.64 es de .05 (sólo el 5 % de los casos superan a z = + 1.64), o, lo que es lo mismo, en la distribución normal una puntuación típica de -1.64 co- rresponde al Percentil 5. 5.2. Puntuaciones típicas negativas (inferiores a la media) Por ejemplo z = -1.64 (figura 10). Como z = -1.64 es inferior a la media (= 0), trazamos una línea por dónde más o menos cae z = -1.64, lo que importa ahora es dibujarla a la izquierda de la media (z = 0) que es donde están todos los valores negativos, como ya he- mos visto en la figura 4. LA DISTRIBUCIÓN NORMAL 75 Figura 10 Puntuación Área de la Área de la típica parte mayor parte menor 1.64 .9495 .0505 Ahora las áreas mayor y menor están invertidas (la curva es simétrica). Como en las tablas las puntuaciones típicas están sin signo más o menos, los valores son los mismos. Lo que va a variar cuando la puntuación típica es negativa (inferior a la media) es la interpretación de las áreas mayor y menor.
  • 76.
    Área de laparte mayor El 95 % de los casos caen por encima de z = –1.64, o la probabilidad de obtener una puntuación superior a –1.64 es de .95 (o del 95 %). Área de la parte menor. a) La probabilidad de obtener una puntuación típica inferior a –1.64 es de .05 (o del 5 %) b) Una puntuación típica igual a –1.64 supera al 5 % de los casos, o, lo que es lo mismo, en la distribución normal una puntuación típica de z = –1.64 equivale al Percentil 5. Las interpretaciones más útiles y frecuentes son las que están puestas en cursiva: 1. Probabilidad de obtener una puntuación típica superior si es positiva o inferior si es negativa. En ambos casos nos fijamos en el área menor. 2. Percentil equivalente a cualquier puntuación típica, o tanto por ciento de casos que caen por debajo porque son superados por esa puntua- ción típica: percentil Si la puntuación típica es positiva área mayor Si la puntuación típica es negativa área menor 5.3. Puntuaciones típicas positivas o negativas (en términos absolutos) Con frecuencia nos interesa conocer las probabilidades de obtener una puntuación mayor en términos absolutos (superiores con signo más e infe- riores con signo menos). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 76 Figura 11
  • 77.
    La probabilidad deencontrar una puntuación superior a 1.96 (positiva o nega- tiva, en términos absolutos) es del 5% (2.5% + 2.5%). El apartarse en 1.96 desvia- ciones típicas de la media (independientemente del signo) se considera ya muy inusual, muy poco probable; en muchos planteamientos de investigación los re- sultados convencionalmente normales (el 95%) se sitúan entre –1.96 y +1.96. 6. BREVE NOTA HISTÓRICA4 La distribución normal ha sido descubierta y estudiada por diferentes per- sonas de manera independiente, y no siempre se le ha atribuido a la misma persona. En lo que podríamos llamar historia de la distribución normal pode- mos destacar estos nombres. 1. Abraham De Moivre (último tercio del siglo XVII y primera mitad del XVIII) es el primer autor en publicar una explicación de la distribución En estos casos multiplicamos por dos el área menor, porque nos fijamos en los dos extremos de la distribución (figura 11). La probabilidad de obtener una puntuación superior a 1.64 en términos absolutos es de .10 o del 10 %; un 5 % por encima de +1.64 y otro 5 % por de- bajo de –1.64. Un caso de especial interés en estadística inferencial es el de la tabla 12, que corresponde a z = 1.96 LA DISTRIBUCIÓN NORMAL 77 4 Sobre la historia de la Distribución Normal puede verse Lane, David (2007) (en la referencias bibliográficas; dirección de Internet). Figura 12
  • 78.
    normal (en 1733)tal como la entendemos ahora5 . El objetivo y el con- texto son los juegos de azar (probabilidades de ganar…), aunque la preocupación de De Moivre era más teológica (el aparente desorden del Universo es consistente con un plan inteligente; el caos es aparen- te porque tiene sus normas, etc.). 2. El marqués de Laplace y Carlos Federico Gauss (matemáticos y astró- nomos; ambos entre los siglos XVIII y primera mitad del XIX; Gauss fue un prodigio de las matemáticas) también estudiaron y desarrollaron la distribución normal (también denominada campana de Gauss), sobre todo, aplicada a la observación astronómica. Gauss denominó a esta distribución distribución de errores (en sus observaciones sobre la ór- bita de los asteroides); de Gauss es también el concepto de error típi- co de la media. 3. Quetelet (astrónomo belga) y Galton (ambos ya en el siglo XIX) son los primeros en descubrir y estudiar las aplicaciones de la distribución nor- mal a las medidas de antropometría (altura, etc.) y a los fenómenos so- ciales, y de ahí se pasó a otro tipo de medidas (como de inteligencia y a otras ya en el campo de la psicología, educación, etc.). 4. Finalmente a Karl Pearson (1857-1936) le debemos el término de cur- va normal. ANEXO: LA DISTRIBUCIÓN NORMAL EN INTERNET En Internet existen varios programas sencillos en los que dada una puntuación tí- pica nos dan las probabilidades exactas de obtener una puntuación típica: a) inferior (percentil) b) superior, c) entre dos puntuaciones típicas (la misma con distinto signo). d) superior en términos absolutos (fijándonos en las dos áreas menores, como en las figura 11 y 12) Un dirección muy cómoda es la de Surfstat.australia: an online text in introduc- tory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el menú Tables y escogemos Standard Normal (hay otras opciones) que presenta gráfi- camente las diversas opciones (figura 13). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 78 5 De Moivre deriva la distribución normal como una expansión de la distribución bi- nomial.
  • 79.
    Basta señalar laopción deseada en las representaciones de la distribución normal e introducir el valor de la puntuación típica (z value). En probability tendremos la probabilidad de que se dé una puntuación en el área sombreada (o tanto por ciento si multiplicamos por 100). Las dos opciones más frecuentes las vemos en la figura 14 LA DISTRIBUCIÓN NORMAL 79 0 Z 0 Z 0 Z -Z 0 Z -Z Figura 13 Figura 14 a b c d z value probability 0 Z 0 Z -Z Probabilidad de obtener una puntuación inferior (cualquiera que sea el signo). Si multiplicamos por 100 y eliminamos los decimales tenemos el percentil que corresponde a una puntuación típica en la distribución normal. Probabilidad de obtener una puntuación superior independientemente del signo. Se utiliza habitualmente en estadística inferencial para determinar si es muy improbable que un resultado sea casual.
  • 81.
    CAPÍTULO 4 TIPOS DEPUNTUACIONES INDIVIDUALES 1. LAS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIÓN La media, la desviación típica, y otros estadísticos, son medidas grupales: nos describen cómo es una muestra, pero en principio no nos dicen nada so- bre cada sujeto concreto. Ahora nos ocupamos de los sujetos individuales que han respondido a un test de personalidad o de cualquier otro tipo, o han hecho un examen ¿Qué podemos decir de cada sujeto individual? ¿Qué in- formación útil e interpretable se puede dar de cada sujeto?1 Una puntuación directa2 es el dato aportado directamente por el instru- mento de medida, por ejemplo: Una altura de 1.65 m., Un total de 25 respuestas correctas en un test objetivo Un 5, que es como se ha codificado la respuesta muy de acuerdo en un cuestionario Un 32, que es la suma de las respuestas a una escala de actitudes El símbolo habitual de las puntuaciones directas es X (equis mayúscula). Estas puntuaciones directas no son siempre fáciles de interpretar, y tam- poco son comparables entre sí a no ser que procedan de un instrumento si- milar. Por ejemplo no es lo mismo X = 20 o 20 respuestas correctas en un test de 25 preguntas, que X = 20 o 20 respuestas correctas en un test de 50 pre- guntas. Tampoco es lo mismo responder correctamente a 20 preguntas fáci- les que a 20 preguntas difíciles. 81 1 Tanto este capítulo como el de la fiabilidad son importantes en psicometría. 2 En inglés raw store también se traduce como puntaje bruto (en América Latina).
  • 82.
    Las puntuaciones directasnecesitan con frecuencia algún tipo de transfor- mación para que aporten información útil o simplemente para poder inter- pretarlas con facilidad, o para poder comparar resultados individuales obteni- dos con instrumentos distintos. Es muy útil tanto entender estas transformaciones como saber hacerlas por estas razones: a) Para poder interpretar adecuadamente las normas de los tests. Estas normas o baremos son las claves para interpretar los resultados indivi- duales; el usuario de los tests debe estar familiarizado con estos siste- mas de transformación e interpretación de puntuaciones individuales. b) No se trata ya solamente de poder interpretar adecuadamente las nor- mas de un test, sino también de construirlas, es decir, de preparar las claves de interpretación para otros usuarios. Aunque los tests vienen ya con sus normas, el preparar este tipo de normas o claves de interpreta- ción puede ser necesario por una serie de razones profesionales: 1. En tests o escalas de construcción propia; 2. Los tests publicados vienen con sus propias normas de interpreta- ción (en el manual del test); estas normas están hechas a partir de los datos obtenidos en una determinada muestra, pero si se utiliza el test con una muestra muy distinta, puede ser necesario rehacer esas normas con esa nueva muestra, ya que la muestra original pue- de no ser la adecuada como término de comparación en un nuevo grupo; lo mismo sucede cuando un test se adapta (o se traduce) pa- ra ser utilizado en otros ámbitos culturales. 3. Con el paso del tiempo las normas de interpretación pueden que- dar obsoletas debido a diversos cambios sociales (puede variar in- cluso la capacidad lectora media, o las actitudes sociales, etc.); ha- brá que preparar normas actualizadas con una nueva muestra normativa (suele estimarse que la duración media de las normas de un test puede estar en torno a 10 años). c) Estas transformaciones de las puntuaciones directas también pueden ser útiles en planteamientos de evaluación o calificación. No deben en- tenderse o interpretarse estas modalidades de transformación de las puntuaciones directas como sistemas o modos de calificación, pero la información que aportan puede ser también útil con esta finalidad. 2. PROPORCIÓN DE RESPUESTAS CORRECTAS En el caso de tests de rendimiento (pruebas objetivas) una transforma- ción sencilla de las puntuaciones directas consiste en calcular la proporción ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 82
  • 83.
    (porcentaje si multiplicamospor 100) de respuestas correctas. 20 respuestas correctas de un total de 25 es igual al 80 % de respuestas correctas (20/25 = .80); en cambio 20 respuestas correctas de un total de 50 es igual al 40 % de respuestas correctas (20/50= .40). Esta proporción de respuestas correctas aporta una información sobre ca- da sujeto que no es relativa al grupo y es especialmente útil en exámenes y otras pruebas de rendimiento académico (pruebas tipo test), cuando va a se- guir una calificación. Pero no siempre hay respuestas correctas en sentido propio (por ejemplo en un test de personalidad o en una escala de actitudes). Otros tipos de puntuaciones que son relativas al grupo (como los per- centiles) son más útiles en otro tipo de medidas (tests de variables no cogni- tivas) y en cualquier caso, incluso en tests de rendimiento académico, apor- tan un tipo distinto de información que con frecuencia es de interpretación más útil y sencilla, o la única apropiada. 3. PUNTUACIONES DIFERENCIALES Se denominan puntuaciones diferenciales a la diferencia entre cada pun- tuación directa y la media de su distribución. Un símbolo frecuente de estas puntuaciones es x (equis minúscula) y también, para evitar confusiones con el símbolo de las puntuaciones directas (X, equis mayúscula), a veces se utiliza d: x = d = (X -X) Las puntuaciones superiores a la media tendrán signo positivo, y las infe- riores tendrán signo negativo. Estas puntuaciones no suelen utilizarse como expresión habitual de resultados individuales, pero intervienen en el cálcu- lo de las puntuaciones típicas (y de la desviación típica como ya se vio en su lugar). 4. LAS PUNTUACIONES TÍPICAS 4.1. Qué son las puntuaciones típicas Una puntuación típica expresa en cuántas desviaciones típicas se apar- ta una puntuación individual de la media de su grupo. Las puntuaciones típicas son por lo tanto puntuaciones diferenciales (dife- rencias con respecto a la media) expresadas tomando como unidad la desvia- ción típica (s). En las puntuaciones típicas sí se puede decir que hay una uni- dad, que es la desviación típica. TIPOS DE PUNTUACIONES INDIVIDUALES 83
  • 84.
    El símbolo delas puntuaciones típicas es z (zeta minúscula); también suelen denominarse simplemente puntuaciones zeta y a veces puntuaciones estandarizadas (standard score en inglés). Su fórmula es: Puntuación obtenida-media Puntuación típica (z) = –––––––––––––––––––––– desviación típica Y en símbolos convencionales [1] ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 84 El valor de z indica por lo tanto cuántas desviaciones típicas contiene la di- ferencia X - X (a cuántas desviaciones típicas equivale esa diferencia); la des- viación típica es ahora nuestra unidad de medición; el dato individual lo ex- presamos en términos de desviaciones típicas por encima o por debajo de la media. Por ejemplo imaginemos los resultados de tres sujetos (suponemos que la muestra es mayor) en un examen; la media es X = 10 y la desviación típica es s = 2 (tabla 1) Tabla 1 La puntuación directa de estos tres sujetos ha quedado transformada en un nuevo valor. En este ejemplo ya podemos ir viendo que: a) Si un sujeto tiene un resultado igual a la media, su puntuación típica será igual a cero; al restar a todos la media, el que tenga como resulta- do personal la media se queda en cero. b) Todos los que tengan una puntuación directa superior a la media, ten- drán una puntuación típica con signo positivo; c) Todos los que tengan una puntuación directa inferior a le media, ten- drán una puntuación típica con signo negativo.
  • 85.
    Todos los datosquedan por lo tanto distribuidos en torno a una media = 0. El orden de los sujetos es naturalmente el mismo (el primero sigue siendo el primero, etc.), pero los valores absolutos son muy distintos. Por lo general estos valores, de signo más y signo menos, tienen decimales (se suelen conservar dos decimales) y los valores extremos tienden a estar en- tre -3 y + 3 cualquiera que sea la magnitud de las puntuaciones originales; es muy difícil superar estos valores por encima o por debajo como se ha visto al tratar de la distribución normal. Ya podemos ir intuyendo la utilidad de estas puntuaciones típicas, por ejem- plo para comparar y valorar resultados individuales. De todas las puntuaciones derivadas, las puntuaciones típicas son probablemente las más interesantes y las más útiles. Su relación con la distribución normal las hace sumamente útiles. 4.2. Propiedades de las puntuaciones típicas Las puntuaciones típicas tienen propiedades que las hacen especialmente útiles: 1º La suma de las puntuaciones típicas elevadas al cuadrado es igual al número de sujetos: Sz2 = N porque Esta propiedad no tiene especial interés práctico, pero se utiliza en algu- nas demostraciones (por ejemplo, para demostrar que la desviación típica de las puntuaciones típicas es igual a 1, lo mismo que el valor máximo del coefi- ciente de correlación de Pearson). 2º La media de las puntuaciones típicas es igual a cero: Sz Z = 0 porque z = –––––= 0 N las zetas negativas y positivas se anulan mutuamente. Si la media de las puntuaciones típicas es cero, todas las puntuacio- nes directas superiores a la media tendrán una puntuación típica positiva, y si son inferiores a la media, tendrán una puntuación típi- ca negativa. 3º La desviación típica y la varianza de las puntuaciones típicas es igual a la unidad: TIPOS DE PUNTUACIONES INDIVIDUALES 85
  • 86.
    El que ladesviación típica de las puntuaciones típicas sea igual a 1 tiene consecuencias importantes. En una combinación de puntuaciones parciales, la que pesa más en la media final es aquella con una mayor desviación típica. Si calculamos una media a partir de las puntuaciones típicas, todas las puntua- ciones parciales pesarán lo mismo, porque todas tendrán idéntica desviación típica. 4º Si sumamos a todas las puntuaciones directas una constante, la des- viación típica permanece idéntica, porque se mantienen idénticas las distancias con respecto la media. Lo podemos ver en las tres series de puntuaciones puestas en la tabla [2]. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 86 En B hemos sumado 12 puntos a cada sujeto con respecto a A, y en C he- mos sumado 80 a las puntuaciones de B. Naturalmente las medias son distin- tas, pero las desviaciones típicas son idénticas porque las distancias inter-indi- viduales son las mismas: el grado de homogeneidad (diferencias de los sujetos con respecto a su media) de los tres grupos es el mismo. 5º Si multiplicamos todas las puntuaciones directas por una constante, la desviación típica queda multiplicada por esa constante, porque en esa cantidad ha aumentado la diferencia con respecto a la media. Lo vemos en este ejemplo: grupo A: 8 10 12 media: 10 s = 1.63 grupo B (= Ax2): 16 20 24 media: 20 s = 3.26 Al multiplicar por dos las puntuaciones del grupo A, la desviación típica (lo mismo que la media) también queda multiplicada por dos (1.63 x 2 = 3.26). Estas dos propiedades son importantes porque nos permiten transformar las puntuaciones típicas en otras más cómodas; son las puntuaciones tipifi- cadas que veremos más adelante. Tabla 2
  • 87.
    6º En ladistribución normal hay una relación exacta entre cada pun- tuación típica y el número de casos que caen por encima y por deba- jo de cada puntuación, o lo que es lo mismo: a) En la distribución normal conocemos la probabilidad que tiene de ocurrir cada puntuación típica, b) En la distribución normal a cada puntuación típica le corresponde siempre el mismo percentil (o proporción de sujetos o casos que caen por debajo de esa puntuación). En estas propiedades radican muchas de las ventajas y de los usos de estas puntuaciones y de sus puntuaciones derivadas, que veremos a continuación, como son las puntuaciones tipificadas y las puntuaciones normalizadas. 4.3. Utilidad de las puntuaciones típicas 1. Al traducir todas las puntuaciones directas a puntuaciones típicas tene- mos una única escala métrica cualquiera que sea la magnitud de las puntua- ciones originales, por lo que podemos comparar unos resultados con otros con más objetividad y realismo que si lo hacemos con las puntuaciones direc- tas. Podemos comparar, por ejemplo, peso con altura (¿qué es más, 58 Km. de peso ó 1.69 m de altura?) o 20 respuestas correctas en un examen de 30 pre- guntas con otro resultado de 20 respuestas correctas en un examen de 50 preguntas. Todo tipo de puntuación, cualquiera que sea la unidad original, queda transformado en un sistema común; por lo tanto se puede comparar todo con todo: resultados de exámenes con niveles de dificultad muy distintos, ca- lificaciones puestas con criterios de exigencia distintos, etc., y también resul- tados que provienen de instrumentos distintos cuyas puntuaciones directas no serían comparables (por ejemplo si el número de preguntas es distinto, o si una es una prueba objetiva y otra una prueba abierta, etc.). Además ya sabe- mos que en las puntuaciones típicas la media es siempre 0 y la desviación tí- pica es siempre 1 por lo que las puntuaciones superiores a la media son po- sitivas, y las puntuaciones inferiores a la media son negativas. Una puntuación que coincida con la media del grupo, equivale siempre a una puntuación tí- pica de cero. 2. Concretamente en el caso de exámenes (y en otros casos, pero el ejem- plo de los exámenes es muy claro) las puntuaciones típicas reflejan mejor dónde está un sujeto (en términos relativos, comparado con el resto de los sujetos) independientemente de la facilidad o dificultad del examen. Tenemos por ejemplo estos datos de dos exámenes de 20 preguntas (con distinta media e idéntica desviación típica): TIPOS DE PUNTUACIONES INDIVIDUALES 87
  • 88.
    examen fácil examendifícil media: 18 8 desviación típica 1.6 1.6 Un alumno que en el examen fácil tenga 13 respuestas correctas tendrá esta puntuación típica: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 88 3 Ciudades más fáciles: Londres, Oporto, Venecia, Canberra, Dublín, Milán, Coimbra y Bruselas. Ciudades menos fáciles: Montreal, Toronto, Madrás (ahora Chennai), Macao, Yakarta, Bucarest, Praga y Orán. Ciudades difíciles: Iquitos, Manaos, Zamboanga, Sanaa, Cahabón, Chichicastenango, Champerico y Kuala-Lampur (Iquitos está en Perú, Manaos es la capital de la amazonía bra- sileña, Zamboanga está en la isla filipina de Mindanao, Sanaa es la capital del Yemen, Kua- la-Lampur es la capital de la Federación Malaya; Cahabón, Chichicastenango y Champerico no tienen especial dificultad si se conoce Guatemala). No es un mal resultado en términos absolutos (65% de respuestas correctas) pero la puntuación típica es muy baja; no sabe lo que sabe la mayoría de sus compañeros. Un alumno que en el examen difícil también tenga 13 respuestas correc- tas tendrá esta puntuación típica: Tiene también un 65% de respuestas correctas, pero la puntuación típica es muy alta; este alumno sabe lo que no sabe la mayoría de sus compañeros. Estas puntuaciones típicas reflejan mejor lo que saben estos alumnos te- niendo en cuenta la facilidad o dificultad del examen. Vamos a verlo con un ejemplo real: 48 alumnos responden a tres supues- tos exámenes; cada examen consta de 8 preguntas, que son los nombres de otras tantas ciudades; los alumnos tienen que responder identificando el pa- ís donde está cada ciudad. En un examen se trata de ciudades fáciles, en otro de ciudades menos fáciles y en el tercero de ciudades pretendidamente difí- ciles. En la tabla 3 tenemos las distribuciones de frecuencias, la media y desvia- ción de cada examen y la puntuación típica que corresponde a cada resultado en cada uno de los tres exámenes3 .
  • 89.
    Qué podemos observaren estos datos. Al menos podemos fijarnos en que la puntuación típica más alta es z = 5.99 en el examen más difícil: saber tres ciudades difíciles es mucho más que saber las ocho fáciles (z = 1.57), e incluso conocer una sola ciudad difícil (z = 1.82) supone más que conocer las ocho fáciles. También conocer donde están cuatro ciudades de las menos fáciles (z = 1.64) es más que conocer todas las fáciles. Si nos fijamos en las puntuaciones típicas más bajas de cada examen, vemos que la más baja corresponde a conocer dos ciudades fáciles (z = -2.61) y el no conocer ninguna ciudad difícil tiene una puntuación mayor (z = -.26) que conocer solamente cinco ciudades fáciles (z = -.52). Cuando las medias de dos exámenes (por ejemplo) son idénticas (o muy pa- recidas) pero las desviaciones típicas son muy distintas, las puntuaciones típicas que corresponden a cada puntuación directa pueden ser también muy distintas. Vamos a suponer que tenemos tres puntuaciones directas, 14, 12 y 10, ob- tenidas en dos exámenes distintos y que son en este ejemplo el número de respuestas correctas de tres alumnos (tabla 4). En los dos exámenes la media es la misma (e igual a 12; lo suponemos así) pero las desviaciones típicas son muy distintas (s = 2 en el examen A y s = 4 en el examen B). En cada caso el mismo número de respuestas correctas (puntuación directa) va a equivaler a puntuaciones típicas muy distintas. TIPOS DE PUNTUACIONES INDIVIDUALES 89 Tabla 3 Tabla 4
  • 90.
    Aquí vemos queun resultado de: 14 respuestas correctas vale más en el examen A (z = +1) que en el exa- men B (z = +0.5) 10 respuestas correctas vale menos en el examen A (z = -1) que en el exa- men B (z = -0.5) Es decir, una misma diferencia con respecto a la media equivale a una pun- tuación típica mayor (positiva o negativa) en la medida en que la desviación típica es más pequeña. Dicho de otra manera, una diferencia con respecto a la media es mayor al convertirla en una puntuación típica cuando el grupo es más homogéneo (y tiene una desviación típica pequeña). Y el estar por de- bajo de la media resulta en una puntuación típica también más baja cuando el grupo es más bien homogéneo. 3. Las puntuaciones típicas permiten calcular medias, si se desea, sin que ninguna puntuación parcial pese más que otra, pues en todas las puntuacio- nes parciales la desviación típica es la misma (siempre s = 1 en las puntuacio- nes típicas). Esto puede ser especialmente útil cuando las calificaciones (u otro tipo de datos) proceden de profesores distintos, o de exámenes o situaciones muy distintas: podemos calcular la puntuación típica de cada sujeto en cada situa- ción y calcular la puntuación típica media; en este caso todas las puntuacio- nes parciales pesan en principio lo mismo. Si se desea que alguna puntuación parcial pese más por alguna razón, se puede ponderar después esa puntua- ción parcial ya convertida en típica (o tipificada como veremos después). Es- tas puntuaciones típicas medias se pueden convertir después en calificacio- nes convencionales. 4. Las puntuaciones típicas permiten apreciar resultados atípicos, objeti- var mejor resultados extremos ya que sabemos las probabilidades de ocu- rrencia de cada puntuación típica. Esto es posible dada la relación entre las puntuaciones típicas y la distribu- ción normal. Si conocemos el valor de una puntuación típica, podemos conocer la probabilidad que tiene de darse por azar (nos basta consultar las tablas de la distribución normal). En general un 68% del grupo está entre +1 y -1 puntuacio- nes típicas (entre esos límites se puede considerar que está aproximadamente la normalidad estadística), y puntuaciones que superen +2 o no lleguen a -2 son aproximadamente el 5%. Prácticamente el 100% de los casos está comprendido entre z = +3 y z = -3. En un ejemplo ilustrativo puesto antes, 13 respuestas co- rrectas en el examen fácil es un resultado atípicamente bajo, y en el examen difícil 13 respuestas correctas es un resultado atípicamente alto. En los exáme- nes de ciudades de la tabla 3, conocer 7 ciudades de las no tan fáciles o 3 de las más difíciles son resultados anormalmente altos. 5. Las puntuaciones típicas pueden ser un buen marco de referencia (aunque no necesariamente) para establecer criterios de calificación, pero ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 90
  • 91.
    teniendo siempre encuenta que se trata de puntuaciones relativas al gru- po, por lo que es discutible utilizarlas para establecer el nivel mínimo para el apto (que es preferirle determinar con otros criterios; el que sabe menos puede saber lo suficiente). Es menos cuestionable su uso para asignar las calificaciones más altas (una puntuación típica en torno a +2, e incluso me- nor, indica ya un resultado excelente para lo que de hecho da de sí un de- terminado grupo). 6. Para interpretar debidamente las puntuaciones típicas hay que tener en cuenta de qué tipo de datos se trata: no es lo mismo número de respuestas correctas en una prueba objetiva que las calificaciones puestas por el profe- sor al corregir un examen abierto, notas, etc. En principio estos cálculos son de interpretación más clara cuando están hechos a partir de puntuaciones o resultados directos más que cuando los números expresan calificaciones o juicios de valor. 4.4. Puntuaciones tipificadas (puntuaciones típicas transformadas) Las puntuaciones tipificadas son puntuaciones derivadas de las puntuacio- nes típicas. El símbolo general de las puntuaciones tipificadas es Z (zeta ma- yúscula); algunas puntuaciones tipificadas tienen sus símbolos particulares. Las puntuaciones típicas son incómodas para expresar resultados porque: a) Prácticamente siempre tienen decimales, b) Más o menos la mitad de las puntuaciones típicas tienen signo menos (todas las inferiores a la media). Por estas razones, y sobre todo para poder expresar resultados de tests de manera más fácilmente comprensible, suelen transformarse en otras puntua- ciones más cómodas. Se trata de una transformación linear, cuya fórmula genérica es Z = (z • a) + b [2] donde a y b son dos constantes. Es decir, todas las puntuaciones típicas: 1º Se multiplican por una cantidad constante (a) y así se eliminan los de- cimales (estas puntuaciones se redondean y se expresan sin decima- les); 2º Se les suma una cantidad constante (b) y así se elimina el signo menos. Entre las puntuaciones tipificadas son muy utilizadas las puntuaciones T: T = 10z + 50 [3] También es frecuente hacer estas transformaciones: Z = 20z + 100 Z = 15z + 100 Z = 100z + 500 TIPOS DE PUNTUACIONES INDIVIDUALES 91
  • 92.
    Al tipificar unaserie de puntuaciones, automáticamente tenemos una nue- va media y una nueva desviación típica, que son siempre las mismas cual- quiera que sea la escala métrica de las puntuaciones directas originales: 1. La nueva media es igual a la constante que se suma a todas las pun- tuaciones. Un sujeto cuya puntuación directa coincidiera con la media de la distri- bución, tendría z = 0, y su puntuación T (fórmula [3]) sería 10(0) + 50 = 50; si la constante que se suma es 100, la media sería 100, etc. 2. La nueva desviación típica es igual a la constante por la que se han multiplicado las puntuaciones típicas. Un sujeto cuya puntuación directa supere en una desviación típica a la media, tendría una puntuación típica de z = 1, y su puntuación T sería T = 10(1) + 50 = 60 (la media, 50, + 1s = 50 +10). Podemos establecer que los valores de la media y de la desviación sean los que queramos. Si deseamos transformar las puntuaciones de manera que la media sea 20 y la desviación típica valga 5, tendremos que Z = 5z + 20, etc. Lo mismo que en las puntuaciones típicas, a cada puntuación tipificada le corresponde en la distribución normal el mismo percentil. Las puntuaciones tipificadas resultan mucho más fáciles de interpretar que las puntuaciones directas, sobre todo cuando se trata de tests. Si los resulta- dos de un test de inteligencia se han transformado de esta manera (como es frecuente) Z = 20z + 100: Un sujeto con una puntuación de 100 está en la media (porque a la media le corresponde una z igual a 0: (20)(0)+100 = 100. Un sujeto que tenga 160 supera a la media en tres desviaciones típicas (100 +20 +20 +20); que es ya excepcional. Un sujeto que tenga 60 (100 - 20 -20) está a dos desviaciones típicas por debajo de la media, y ya se va apartando mucho de la normalidad. 5. PERCENTILES 5.1. Concepto e interpretación 1º Los percentiles indican el tanto por ciento de sujetos que están por deba- jo de cada puntuación. Los percentiles son por lo tanto fáciles de interpretar, de entender y de co- municar. Si un sujeto con una puntuación de 19 (en un test, en una prueba objetiva, etc.) supera al 45% de su grupo: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 92
  • 93.
    La puntuación 19es el percentil 45 (P45), Del sujeto se dice que tiene un rango percentil de 45. El percentil indica la posición relativa del sujeto en el grupo, sin referen- cia a niveles absolutos. En sentido propio no se trata de una puntuación por- que no está referido al rasgo o variable que se ha medido; no hay una uni- dad: entre dos percentiles contiguos no hay la misma distancia en aquello que estamos midiendo. Así si un sujeto en un examen está en el Percentil 80, no podemos decir que sabe el doble del que esté en el Percentil 40, sino que tiene por debajo el doble número de sujetos. Por ejemplo, un sujeto que tenga en un examen de conocimientos un ran- go percentil de 98 supera al 98% de su clase, pero esto no quiere decir que se- pa mucho en términos absolutos, sino que sabe más que la mayoría. Y a la inversa, un sujeto puede estar en el Percentil 5 (el 95% está mejor que él) y saber lo suficiente. Por esta razón los percentiles pueden ser muy discutibles como dato para establecer calificaciones. Naturalmente si los percentiles de un test de conocimientos se han calcu- lado en una muestra muy amplia (no en una clase normal), tiene más senti- do decir que el que esté en el percentil 95 sabe mucho y que el que esté en el percentil 5 sabe poco, pero en definitiva siempre hay que sobrentender com- parado con los demás que han respondido a ese test y con los que se calcu- laron esos percentiles. Si no se trata de un examen de conocimientos, sino, por ejemplo, de un test de neuroticismo posiblemente podemos decir, y tiene sentido, que el su- jeto que esté en el percentil 95 es muy neurótico, porque en el lenguaje con- vencional solemos decir que una persona es muy simpática, o muy sociable, etc. cuando es más simpática, sociable, etc. de lo normal, y lo normal es lo que solemos ver en la mayoría de la gente. Pero hay que tener claro que siem- pre se trata de valoraciones relativas al grupo cuyas respuestas han servido para calcular esos percentiles. 2º Para interpretar adecuadamente los percentiles individuales, estos tienen que estar calculados en una muestra de referencia apropiada. Como el marco de referencia para interpretar los percentiles es el grupo, no se debe comparar (y evaluar, juzgar) a un sujeto tomando como referen- cia un grupo que no sea o no pueda ser el suyo. Hace falta siempre un gru- po de referencia apropiado. Las normas de interpretación (o baremos) que vienen publicadas en mu- chos tests son con frecuencia percentiles (puede tratarse de otro tipo de pun- tuaciones) calculados previamente en una muestra distinta. Siempre hay que considerar si esa muestra es un buen grupo de referencia (y por lo tanto un buen término de comparación) para los nuevos sujetos que responden al TIPOS DE PUNTUACIONES INDIVIDUALES 93
  • 94.
    test. En cualquiercaso este tipo de normas de interpretación (percentiles y otras) hay que renovarlos cada cierto tiempo (como ya hemos indicado, la edad media de un test, o más bien de sus baremos o normas de interpreta- ción, puede no ser superior a 10 años; con el tiempo pueden variar actitudes sociales, niveles educativos, capacidad lectora, etc.). Con frecuencia es preferible calcular unos nuevos percentiles para mues- tras quizás muy distintas de las que sirvieron para hacer los baremos origina- les (y esta observación es válida también para otros tipos de normas de los tests, no sólo para los percentiles). 3º Algunos percentiles tienen nombres y símbolos específicos: 1. Deciles: son los percentiles 10, 20, etc., y se simbolizan D1, (= P10), D2, (= P20), etc. 2. Cuartiles: son los percentiles que dividen al grupo en cuatro partes con idéntico número de sujetos (el 25%): Q3 (tercer cuartil) = P75: por encima está el 25 % de la muestra; Q2 (segundo cuartil) = P50; se trata de la mediana, que se utiliza como medida de tendencia central; divide al grupo en dos partes iguales Q1 (primer cuartil) = P25: por debajo está el 25% de la muestra Estos tres valores se calculan a veces como puntos de referencia y para ha- cer determinadas representaciones gráficas (como los diagramas de cajas). 4º Con los valores de Q1 y Q3 se calcula la desviación semi-intercuartílica: Desviación semi-intercuartílica: [4] a) La desviación semi-intercuartílica Q es la medida de dispersión que se utiliza cuando la medida de tendencia central es la mediana. Mi- de la dispersión en el 50% central de la muestra. Lo podemos ver con los datos concretos de un test en la figura 1. b) Tanto los deciles como los cuartiles se calculan por el método de inter- polación que veremos más adelante. c) Los valores de Q1 y Q3 se calculan con decimales cuando se van a utili- zar en el cálculo de Q. d) La mediana y Q, como medidas de tendencia central y dispersión, se utilizan preferentemente con distribuciones muy asimétricas y en cual- quier caso son medidas descriptivas complementarias, aunque menos utilizadas que la media y la desviación típica; e) La mediana y Q, como medidas de tendencia central y dispersión, son especialmente útiles siempre que se prefiera que sujetos con puntua- ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 94
  • 95.
    ciones muy extremasno influyan en las medidas de tendencia central y de dispersión porque en su cálculo sólo se tiene en cuenta el 50% cen- tral de la muestra. 5º Una limitación importante es que entre percentil y percentil no hay una unidad constante en sentido propio y referida a aquello que se está mi- diendo. Del Percentil 95 al 90 no hay la misma distancia que del Percentil 45 al 40; sí hay una proporción igual de sujetos (un 5%), pero no una cantidad de ciencia (o de otra variable o rasgo) igual. Por la misma razón no se puede afirmar que el que esté en el Percentil 80, si se trata de un test de conocimientos, sabe el do- ble del que esté en el Percentil 40 (o que es el doble de neurótico si se trata de un test de neuroticismo). De hecho las distancias en la variable medida son mu- cho mayores entre los percentiles extremos (muy altos o muy bajos) que entre los percentiles del centro de la distribución (entre el Percentil 80 y el 85, o en- tre el 10 y el 15, hay más distancia que entre el Percentil 40 y el 45). Al no haber una unidad no se pueden sumar y calcular percentiles medios pues se prestan a interpretaciones equívocas. Si los diversos percentiles son muy parecidos, la información del percentil medio ofrece menos distorsión, pero en principio no se deben hacer manipulaciones aritméticas con los percentiles porque se trata de puntuaciones ordinales; para hacer operacio- nes aritméticas con los percentiles se deben convertir antes en puntuaciones típicas (que a su vez se pueden después convertir en percentiles según la dis- tribución normal). Una manera de entender o más bien de visualizar que entre percentiles contiguos no hay una unidad en sentido propio es imaginarlos como una es- TIPOS DE PUNTUACIONES INDIVIDUALES 95 Figura 1
  • 96.
    calera de peldañosde altura desigual: los peldaños de los extremos (los más altos y los más bajos) son mayores, de mayor altura que en el centro. Esto se entiende mejor al ver la relación entre percentiles y puntuaciones típicas en la distribución normal. 6º En la distribución normal existe una correspondencia exacta entre per- centiles y puntuaciones típicas. En la distribución normal, a cada percentil le corresponde siempre la mis- ma puntuación típica. El que por ejemplo supere a la media en una desvia- ción típica (z = 1), estará en el Percentil 84 (aproximadamente). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 96 Tabla 5 En la tabla 5 podemos ver: 1º Cómo a una puntuación típica de z = 0 (la media), le corresponde el percentil 50 (caen por debajo el 50% de los sujetos); a una z = 1, le co- rresponde el percentil 84 (caen por debajo el 84% de los sujetos), etc.; en las tablas de la distribución normal podemos encontrar los percen- tiles exactos para cada puntuación típica. 2º Cómo los percentiles se acumulan en el centro de la distribución; por ejemplo, entre z = 0 y z = 1 hay 34 percentiles, en cambio entre z = +1 y z = +2 hay 14 percentiles, y por encima de z = +2 (como por de- bajo de z = -2) solamente hay dos percentiles. La misma cantidad (de lo que se esté midiendo) está repartida de manera desigual; dicho en términos simples, los percentiles extremos tocan a más (como se pue- de observar en la tabla 5). Esto es lo que quiere decir que entre los percentiles no hay una unidad, y que la distancia entre percentil y percentil en aquello que se mide (no en nú- mero de sujetos) es mayor en los extremos de la distribución. Un percentil más o un percentil menos por el centro de la distribución, no supone una di- ferencia importante, pero sí en los extremos. Por esta razón en la interpreta- ción de los tests (por ejemplo de personalidad) hay que prestar más atención a los percentiles extremos.
  • 97.
    En la figura2 podemos ver también (gráficamente y de manera aproxima- da) cómo una misma diferencia en percentiles no corresponde a diferencias iguales en puntuaciones típicas, donde sí cabe hablar de una unidad (la des- viación típica). TIPOS DE PUNTUACIONES INDIVIDUALES 97 Figura 2 Entre los percentiles 95 y 75 existe la misma diferencia en percentiles que entre los percentiles 75 y 55, pero si substituimos los percentiles por las puntuaciones típicas que les corresponden, las diferencias son muy desigua- les. Del percentil 75 al 95 hay una distancia mayor (.97 s) que del percentil 55 al 75 (.55 s) cuando utilizamos como unidad la desviación típica. 5.2. Cálculo de los percentiles Hay varios métodos para calcular los percentiles: 1. El cálculo directo; es el más frecuente y se utiliza siempre que desea- mos calcular los percentiles para la interpretación de resultados indivi- duales. 2. El cálculo por interpolación: se utiliza sobre todo cuando interesa co- nocer el valor de percentiles específicos que quizás (y frecuentemente) ningún sujeto ha obtenido (como la mediana, o Percentil 50 y los Per- centiles 75 y 25, y otros como los deciles). 3. También podemos calcular los percentiles mediante el gráfico de las frecuencias relativas acumuladas. 4. Podemos calcular también los percentiles a partir de los valores de la media y de la desviación típica (y puede ser muy útil cuando no dis-
  • 98.
    ponemos de todoslos datos de todos los sujetos), pero ya veremos que en este caso se trata de percentiles normalizados (los que corres- ponden a la distribución normal, y lo veremos al tratar las puntuacio- nes normalizadas). 5.2.1. Cálculo directo Es el cálculo habitual de los percentiles. Lo explicamos con un ejemplo re- suelto en la tabla 6. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 98 Los símbolos utilizados son: X = Puntuaciones directas, ordenadas de mayor a menor. En este ejemplo están agrupadas de tres en tres para que no haya un núme- ro excesivo de intervalos o de divisiones. Lo habitual es agrupar las puntuaciones directas para que no haya un número excesivo de in- Tabla 6
  • 99.
    tervalos; unos 10ó 12 es lo normal; más de 15 puede ser ya excesi- vo (cómo hacer esta agrupación está explicado al comienzo, al tra- tar de la distribución de frecuencias). i = Valor o amplitud del intervalo; aquí i = 3 porque las puntuaciones están agrupadas de tres en tres. Si las puntuaciones estuvieran sin agrupar (una sola puntuación en cada intervalo) tendríamos i =1. No hay que confundir el número de intervalos (10 en este caso), con el valor del intervalo (que interviene en algunas fórmulas, co- mo en el cálculo de percentiles por interpolación). f = Frecuencia, o número de casos en cada intervalo. fa = Frecuencias acumuladas: se van sumando las frecuencias de abajo arriba. La frecuencia acumulada en el intervalo superior debe ser igual al número de sujetos (es útil caer en la cuenta para detectar posibles errores; en este caso N = 40 = fa en el intervalo más alto). fam= Frecuencias acumuladas al punto medio; a cada frecuencia acu- mulada se le resta la mitad de su f correspondiente. También se calculan a veces los percentiles a partir de las frecuencias acumuladas (P = [fa/N] 100), pero lo convencional es hacerlo a par- tir de las frecuencias acumuladas al punto medio. La razón de hacer- lo así es porque suponemos que cada uno de los que están en cada intervalo (si pudiéramos matizar mucho la medición) superan a la mitad de los que tienen idéntica puntuación y tienen por encima a la otra mitad. Se supone que los que aparecen igualados en realidad son distintos y así aparecerían si los midiéramos matizando más. P = Percentil, o tanto de por ciento de sujetos que caen debajo de ca- da puntuación. Los percentiles se redondean y se presentan sin decimales. En la tabla 6 vemos que un sujeto con una puntuación directa (número de respuestas correctas, suma de todas sus respuestas, etc.) que esté entre 26 y 28, tiene un rango percentil de 72, o tiene por debajo (supera) al 72% del grupo en el que se han calculado los percentiles. 5.2.2. Cálculo por interpolación Con frecuencia interesa conocer el valor de determinados percentiles; por ejemplo: La mediana o P50, y los percentiles 75 y 25 (P75 o Q3 y P25 o Q1) como datos descriptivos o para calcular la medida de dispersión Q, Los deciles (P10, P20, P30, etc. también simbolizados como D1, D2, D3, etc.) para simplificar la interpretación de un test, dando sólo estos percentiles como referencia. TIPOS DE PUNTUACIONES INDIVIDUALES 99
  • 100.
    El cálculo directode los percentiles no suele darnos estos valores a no ser que un sujeto los haya obtenido, por lo que es necesario hacer el cálculo por interpolación. El procedimiento puede parecer complicado a primera vista, pero es muy simple si se procede con orden y se tiene a la vista un ejemplo resuelto, como lo hacemos aquí con los datos de la tabla 7. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 100 Tabla 7 Vamos a calcular, por ejemplo, el Percentil 75. Corresponderá a la puntua- ción que deje por debajo al 75% de la muestra. 1º Calculamos el número de sujetos que necesitamos. El 75% de 58 es igual a (58)(.75) = 43.5. El Percentil 75 será la puntuación que deje por debajo a 43.5 sujetos o 75% de 58. 2º Buscamos en las frecuencias acumuladas, el número de sujetos que necesitamos, que son 43.5 En este caso, como ninguna puntuación deja por debajo a 43.5 sujetos, localizamos la frecuencia acumulada inmediatamente inferior a la que vamos buscando, que es 42; en la siguiente, que es 50, ya nos he- mos pasado. 3º Identificamos el límite superior de la puntuación que corresponde a la frecuencia acumulada localizada en el paso 2º; en este caso el percentil 75 tendrá un valor de por lo menos 16.5 (sumamos medio punto, .5, al valor superior del intervalo). 4º Calculamos el número de sujetos que todavía nos faltan.
  • 101.
    Tenemos 42 ynecesitamos 43.5, por lo tanto nos faltan 1.5 sujetos (= número de sujetos que necesito [paso 1º] menos número de sujetos que tengo [paso 2º]). 5º Del intervalo siguiente tomamos la parte proporcional de sujetos que necesitamos; para esto dividimos el número de sujetos que nos faltan por la frecuencia (o número de sujetos) del intervalo inmediatamen- te superior: 1.5/8 = .1875 6º Esta cantidad la multiplicamos por el valor del intervalo. El valor del intervalo es igual al número de puntuaciones que hay en cada interva- lo; en este caso este valor es igual a 1 porque las puntuaciones van de una en una. Si estuvieran agrupadas de dos en dos (9-10, 11-12, etc.) el valor del intervalo sería igual a dos. 7º La cantidad calculada en el paso anterior la sumamos al límite su- perior del intervalo inferior al que contiene el percentil buscado (pa- so 3º), con lo que el valor del Percentil 75 será igual a 16.5 +.1875 = 16.69. Expresando todas las operaciones hechas tendríamos que: Si vamos a utilizar este valor para interpretar las puntuaciones de un test o como dato descriptivo, redondeamos los decimales y obtendremos P75 = 17. Si vamos a utilizar este valor para otros cálculos (por ejemplo para calcular le valor de Q), dejamos los decimales. La fórmula de los percentiles calculados por interpolación podemos ex- presarla tal como se indica en la figura 3 TIPOS DE PUNTUACIONES INDIVIDUALES 101 Figura 3 5.2.3. Cálculo de los percentiles mediante la representación gráfica de las frecuencias relativas acumuladas Una representación gráfica frecuente de las puntuaciones directas es la de las frecuencias relativas acumuladas. La utilidad de esta representación grá- fica está en que permite un localizar de manera muy aproximada, sin hacer
  • 102.
    ningún cálculo, lospercentiles correspondientes a cada puntuación directa o a cada intervalo. Posiblemente es preferible calcular los percentiles directamente, sin ayuda de gráficos, dada la facilidad de cálculo que permiten las calculadoras y pro- gramas de ordenador. Aun así este método puede ser útil, sobre todo cuando los sujetos son muchos; utilizando papel milimetrado da resultados muy exactos. En cualquier caso la representación gráfica de las frecuencias acumu- ladas puede ser de utilidad independientemente de que se estimen los per- centiles con este procedimiento. En primer lugar hay que calcular las frecuencias acumuladas relativas o percentiles (frecuencias acumuladas de cada intervalo divididas por el núme- ro de sujetos). En la tabla 8 están los datos que han servido para hacer (de manera aproximada) el gráfico de las frecuencias acumuladas. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 102 Tabla 8 fa: Frecuencias acumuladas. Vamos sumando de abajo arriba, de mane- ra que cada valor de fa (frecuencia acumulada) indica el número de sujetos que tienen una puntuación igual o inferior a la del intervalo. Así a la puntuación directa 51-53 le corresponde una frecuencia acu- mulada de 9: 9 sujetos tienen una puntuación de 53 o más baja. Cuando calculamos los percentiles por el método habitual, las frecuen- cias suelen acumularse al punto medio, como hemos visto ya en el cál- culo directo. (fa/N)/100: Es el tanto por ciento de sujetos que tienen esa puntuación o más baja; son las frecuencias acumuladas relativas. Si no multiplica-
  • 103.
    mos por 100,lo que tenemos es la proporción (no porcentaje) de su- jetos que tienen esa puntuación o una puntuación menor Las columnas X y f son las mismas que hemos visto antes (X = puntuacio- nes directas agrupadas y f = frecuencia o número de casos en cada intervalo). Estas frecuencias relativas acumuladas suelen redondearse, sin poner decimales. Una vez que tenemos las frecuencias acumuladas relativas o percentiles, podemos hacer ya un gráfico como el de la figura 4 El procedimiento para construir el gráfico de las frecuencias acumuladas es el siguiente: 1º En primer lugar calculamos los percentiles o frecuencias acumuladas relativas que corresponden a cada puntuación (tabla 8). Este cálculo también puede hacerse sin agrupar las puntuaciones (con intervalos de i = 1), pero normalmente las agrupamos para tener un número de in- tervalos manejable. 2º En el eje vertical (eje Y, de las ordenadas) no ponemos las frecuencias, sino los porcentajes. Dividimos este eje vertical (Y) de 1 a 100. Ya he- mos indicado que estos gráficos es preferible hacerlos con papel mili- metrado, que simplifica mucho la confección del cuadro y se gana en exactitud. 3º En el eje horizontal (X, de las abscisas) señalamos los límites superio- res de cada intervalo (y esto por el mismo concepto de frecuencia acumulada, nos situamos en el límite superior de cada posible puntua- ción). 4º Por cada intervalo situamos el punto donde confluyen el límite supe- rior del intervalo y la frecuencia acumulada relativa calculada previa- mente. Los puntos resultantes se unen mediante una curva (en el ejemplo se ha hecho con rectas y sólo de manera aproximada). Si la distribución es simétrica el gráfico tenderá a tener la forma de una S. Observando el gráfico que nos sirve de ejemplo puede verse cómo se cal- culan los percentiles, sin necesidad de operaciones. Basta con trazar desde cualquier percentil (los porcentajes del eje vertical) una paralela al eje X de las puntuaciones directas, y desde donde esta paralela corta la curva se traza una perpendicular al eje X, que nos indicará la puntuación directa correspon- diente al percentil buscado. En este caso la mediana (o percentil 50) es igual a 61: los que tienen una puntuación de 61 superan al 50% del grupo. TIPOS DE PUNTUACIONES INDIVIDUALES 103
  • 104.
    6. PUNTUACIONES NORMALIZADAS Laspuntuaciones normalizadas equivalen a las puntuaciones (típicas o tipificadas, o percentiles) que habría si la distribución fuera normal. Por eso mismo se denominan normalizadas: se supone que la distribución es nor- mal. Si de hecho la distribución original se aparta mucho de la distribución normal, es discutible hacer esta transformación. Frecuentemente la distribu- ción observada es parecida a la normal, y aumentando el número de sujetos podemos suponer que la distribución no se desviaría mucho de la distribu- ción normal. Las puntuaciones normalizadas pueden ser o puntuaciones típicas o per- centiles. Lo más frecuente es que se trate de puntuaciones típicas (o de sus puntuaciones derivadas), pero los percentiles normalizados pueden ser su- mamente útiles en ocasiones 6.1. Puntuaciones típicas normalizadas El proceso de cálculo es semejante al cálculo directo de los percentiles; re- almente seguiremos el mismo proceso, con la diferencia final de que no uti- lizaremos el percentil sino la puntuación típica correspondiente a cada per- centil en la distribución normal. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 104 • • • • • • • • • • • • • • 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 Q3 = P75 = 65 M = P50 = 61 Q2 = P25 = 54 38.5 41.5 44.5 47.5 50.5 53.5 56.5 59.5 62.5 68.5 71.5 74.5 77.5 65.5 Figura 4: GRÁFICO DE LAS FRECUENCIAS RELATIVAS ACUMULADAS (OJIVA)
  • 105.
    1º Se calculala proporción de sujetos que caen debajo de cada puntua- ción. Esta proporción de sujetos se calcula así para cada puntuación (como se ha hecho en la tabla 6): Proporción de sujetos que caen frecuencia acumulada al punto medio fam =–––––––––––––––––––––– = ––––– por debajo de cada puntuación número de sujetos N Si multiplicáramos esta proporción por cien, tendríamos el percentil (cálculo directo). En ocasiones también se utiliza fa/N, o frecuencia acumula- da (no al punto medio) dividida por N, pero posiblemente es preferible calcu- lar fam/N, tal como se hace en el cálculo habitual de los percentiles (con un número muy grande de sujetos los resultados son casi los mismos); la con- vención más aceptada es utilizar frecuencias acumuladas al punto medio. Por qué acumulamos las frecuencias al punto medio está explicado al tratar del cálculo directo de los percentiles. Para hacer los cálculos disponemos los datos como figuran en la tabla 9 (que es semejante a la tabla 8; aquí utilizamos un ejemplo ficticio, N = 10). TIPOS DE PUNTUACIONES INDIVIDUALES 105 Tabla 9 En esta tabla 9: X = puntuaciones directas f = frecuencia o número de casos fa = frecuencias acumuladas fam = frecuencias acumuladas al punto medio (fa-f/2) fam/N= fam dividido por el número de sujetos (N) El procedimiento lo hemos visto con más detalle al ver el cálculo directo de los percentiles (tabla 6), y podemos recordar que: a) Las frecuencias acumuladas divididas por el número de sujetos (fam/N) indican la proporción de sujetos que caen debajo de cada puntuación directa. b) Si multiplicamos estas proporciones por 100, tenemos el tanto por ciento de sujetos superados por cada puntuación: en este ejemplo el
  • 106.
    que tuviera unapuntuación directa de 39 supera al 60% de sujetos del grupo; la puntuación 39 corresponde en este caso al percentil 60. Tam- bién es frecuente denominar percentil a la proporción (sin multiplicar por 100). Una vez conocida la proporción de sujetos que caen debajo de cada pun- tuación, se consulta en las tablas de la distribución normal a qué puntua- ción típica corresponde esa proporción4 . Por ejemplo: un sujeto con una puntuación directa de 38 (en la tabla 9) su- pera a una proporción de sujetos del .25 (ó 25%). En las tablas de la distribu- ción normal una proporción de .25 corresponde a una puntuación típica de z = -.68: esta puntuación típica es ya una puntuación típica normalizada: es la que correspondería a una puntuación directa de 38 si suponemos que dis- tribución es normal. 6.2. Puntuaciones típicas normalizadas y agrupadas: los estaninos y otras puntuaciones Un tipo de puntuaciones muy utilizado consiste en: 1º Agrupar estas puntuaciones típicas en intervalos; el criterio para ha- cer esta agrupación es que cada intervalo comprenda una misma mag- nitud en desviaciones típicas. 2º Numerar estos intervalos de manera consecutiva, y esta numeración es la nueva puntuación normalizada, y así tenemos los estaninos, pentas, etc. Con estas agrupaciones minimizamos pequeñas diferencias inter-indivi- duales y reducimos el número total de puntuaciones distintas; hacemos más manejable el uso e interpretación de las puntuaciones de un test. Las puntuaciones normalizadas (y las tipificadas) se utilizan mucho en la interpretación de tests, en evaluaciones de diverso tipo, y también como da- to previo para pensar en una calificación convencional, etc. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 106 4 Podemos consultar las tablas de la distribución normal o podemos acudir a alguna fuente de Internet como Surfstat.australia: an online text in introductory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el menú Tables y es- cogemos Standard Normal (figura 13 en el capítulo de la distribución normal) y señala- mos la curva identificada con la letra a; también a partir de la columna fam/N de la tabla 9 podemos identificar el estanino correspondiente como veremos en el próximo apartado.
  • 107.
    6.2.1. Los estaninos5 Losestaninos dividen la distribución normal en nueve intervalos cada uno de los cuales comprende media desviación típica excepto los dos extremos (el 1 y el 9). Realmente cada estanino no es una puntuación sino un intervalo relativa- mente amplio. Al utilizar la desviación típica como unidad (.5 s en este caso) una misma diferencia entre dos pares de estaninos equivale aproximadamen- te a la misma diferencia en la variable que se esté midiendo. TIPOS DE PUNTUACIONES INDIVIDUALES 107 5 El término estanino (stanine en inglés) se deriva del inglés STAndard NINE-point scale, nueve puntuaciones tipificadas o estandarizadas; en español también se emplea el término eneatipo, de la raíz griega enea que significa nueve. Este tipo de puntuaciones lo desarrolló y popularizó la Fuerza Aérea de EE. UU. en 1942, durante la segunda guerra mundial. Para interpretar muchos tests nueve intervalos puede ser suficiente; además se pretendía que todas las puntuaciones fueran de una sola cifra. Tabla 10
  • 108.
    En la tabla10 tenemos: a) Los límites de los estaninos en la distribución normal, en puntuaciones típicas y en percentiles (aquí proporción de casos que caen por deba- jo en la distribución normal). La primera columna de las puntuaciones típicas nos indica la puntuación típica que equivale a cada percentil en la distribución normal, pero como referencia para localizar las puntua- ciones normalizadas es más cómodo calcular las proporciones de la se- gunda columna (que corresponden a la columna fam/N de la tabla 6)6 . b) El valor del estanino; se numeran los nueve intervalos. La media es 5 (intervalo central) y la desviación vale 2 aproximadamente. c) En la columna siguiente se puede observar cómo cada estanino compren- de media desviación típica, excepto los dos extremos que quedan abiertos. d) En la última columna tenemos el porcentaje de casos en cada estanino en la distribución normal. Limitaciones de los estaninos. a) Aunque de estanino a estanino podemos suponer que hay un incre- mento idéntico (de .5 s), esto no sucede en las puntuaciones extre- mas, 1 y 9, pues tienen los límites abiertos. En estas puntuaciones ex- tremas puede haber sujetos muy distintos; se matiza menos en los extremos de la distribución y esto puede ser una limitación (aunque es- ta limitación afecta a muy pocos sujetos). b) Otra limitación es que se pueden magnificar pequeñas diferencias en los casos límite entre estaninos contiguos. Si deseamos un nivel mayor de matiz (no siempre deseable) podemos cal- cular puntuaciones típicas normalizadas (consultando las tablas de la distri- bución normal) en las que a cada percentil le corresponde una puntuación tí- pica, o podemos utilizar otros criterios para dividir la distribución normal (como puede verse más adelante en la tabla 12). Podemos calcular los estaninos de diversas maneras. 1. Si calculamos las puntuaciones típicas de los sujetos y las agrupamos en intervalos según los límites de cada estanino en puntuaciones típicas (prime- ra columna de la tabla 10), tendremos estaninos pero sin normalizar; este pro- cedimiento es además muy laborioso y no suele utilizarse. 2. Podemos ordenar las puntuaciones de más a menos y seguimos los porcentajes puestos en la última columna de la tabla 10: al 4% más alto le asig- namos el estanino 9, al 7 % siguiente el estanino 8, etc. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 108 6 También podríamos utilizar la última columna de la tabla 8, sin multiplicar por 100.
  • 109.
    3. Otra manerade calcular los estaninos es partir de la mediana: 1º Calculamos, como punto de partida, la mediana, la puntuación que divide al grupo en dos mitades iguales, 2º Al 10% por encima de la mediana y al 10% por debajo de la mediana, se les asigna el estanino 5 (que es la media de los estaninos, la pun- tuación central), 3º Al 17% siguiente por encima se le asigna el estanino 6 y al 17% si- guiente por debajo el estanino 4, y así sucesivamente. Los estaninos pueden presentar el problema de que sujetos con idéntica puntuación directa nos pueden quedar en estaninos distintos si queremos mantener las proporciones exactas que corresponden a cada estanino; sin embargo y de manera aproximada puede ser un sistema válido con muestras grandes. 4. El sistema más cómodo es utilizar como referencia la columna de los percentiles de la tabla 10 que señala los límites de cada nueva puntuación. En esta columna tenemos la proporción de casos que caen por debajo; son per- centiles en sentido propio si multiplicamos estas proporciones por 100. En la tabla 9 tenemos cómo hacerlo: calculamos la proporción de casos que caen por debajo de cada puntuación directa y utilizamos estas proporcio- nes o percentiles como límites de los estaninos. Así por ejemplo: Todas las puntuaciones directas (X) cuyo percentil sea superior a .226 e in- ferior a .401, le asignaremos el estanino 4, que será la nueva puntuación nor- malizada. Si a una puntuación directa le corresponde, por ejemplo, un percentil (o frecuencia acumulada dividida por N) de .780, como .780 está entre 773 y .894, le corresponderá el estanino 7. En ocasiones el percentil puede caer en el mismo límite; si disponemos de un cuarto decimal nos sacará de dudas. 6.2.2. Las pentas Las pentas7 son puntuaciones análogas a los estaninos, pero en este caso dividimos todos los casos solamente en cinco intervalos, y cada penta com- prende una desviación típica excepto en los dos extremos. En la tabla 11 tenemos la información relativa a las pentas, semejante a la de los estaninos. TIPOS DE PUNTUACIONES INDIVIDUALES 109 7 Del griego, penta = cinco.
  • 110.
    Como sucede conlos estaninos, en las dos puntaciones extremas (5 ó 1 en el caso de las pentas) pueden quedar igualados con la misma puntuación sujetos muy distintos entre sí. Naturalmente las pentas agrupan los datos en menos intervalos y se pier- de más información sobre cada sujeto, pero puede ser un sistema muy útil si no se desea gran precisión. Cuando los datos (de tests de diverso tipo) nos vienen en percentiles puede ser de interés agrupar a los sujetos en grandes bloques. Esto puede ser de más interés cuando los datos provienen de tests o cuestionarios de no gran calidad (pueden ser sobre actitudes, etc.) y no con- viene exagerar pequeñas diferencias individuales. En cualquier caso estos sis- temas son con mucho preferibles a utilizar determinados percentiles como puntos de corte, como si hubiera una unidad en los percentiles, sin tener en cuenta su equivalencia en puntuaciones típicas. 6.2.3. Otras puntuaciones normalizadas Caben otras puntuaciones normalizadas que son en realidad puntuaciones típicas agrupadas con diversos criterios, pero siempre tomando la desviación ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 110 Tabla 11
  • 111.
    típica (o unafracción) como criterio. En la tabla 12 vemos varios tipos de pun- tuaciones que podemos comparar con facilidad. Las puntuaciones típicas y los percentiles que están subrayados son los lími- tes de los estaninos, así el estanino 9 comienza a partir de z = + 1.75 o p = .959. La escala 11 son los estaninos ya vistos, pero subdividiendo los intervalos extremos donde puede haber sujetos muy diferentes; quedan en total 11 di- visiones (de 0 a 10, o si se prefiere evitar el cero, de 1 a 11); puede ser una buena alternativa a los estaninos y también es utilizada. La escala 20 (de 1 a 20, o de 0 a 19) es menos usual pero tiene un mayor nivel de matiz; cada in- tervalo comprende .25 s. TIPOS DE PUNTUACIONES INDIVIDUALES 111 Tabla 12 PUNTUACIONES NORMALIZADAS: LÍMITES Y EQUIVALENCIAS ¿Qué puntuación normalizada debemos utilizar? Depende de nuestro juicio prudencial, del nivel de matiz que deseemos. Los estaninos son muy utilizados: nos dividen el grupo en nueve subgrupos; nueve puntuaciones puede ser suficiente en muchos casos.
  • 112.
    Ya hemos indicadoque una limitación de los estaninos está en que en los extremos (estaninos 1 y 9) puede haber sujetos muy distintos (y con mayor razón en los pentas). Con la escala 11 matizamos mejor en los extremos (los estaninos 9 y 1 se subdividen y quedan 11 puntuaciones distintas). Si nos bas- ta una clasificación menos matizada, podemos utilizar los pentas. En todos es- tos casos se trata de puntuaciones agrupadas para minimizar pequeñas dife- rencias. Lo que sí es claro es que si se desea dividir un grupo en subgrupos según sus resultados en algún tipo de un test (no necesariamente para calificar) no hay que buscar que cada subgrupo tengo un idéntico número de sujetos. En la tabla 13 tenemos un grupo dividido en cinco subgrupos según dos crite- rios. Los juicios verbales (muy bien, bien, etc.) son en este caso arbitrarios. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 112 Tabla 13 En un caso tomamos los percentiles como unidad: 20% de sujetos en cada subgrupo; en el otro caso utilizamos las pentas y consecuentemente el crite- rio de división son las puntuaciones típicas. Este segundo caso (pentas en este ejemplo) es el que podemos conside- rar correcto a pesar de la aparente lógica de dividir el grupo en cinco subgru- pos con idéntico número de sujetos. Dentro de cada subgrupo los sujetos es- tán mejor igualados cuando el criterio de división es la desviación típica, sin buscar el que haya un número idéntico de sujetos en cada subgrupo. Si el dato disponible es el percentil (como es frecuente o en cualquier ca- so es de cálculo sencillo) y queremos dividir el grupo en cinco subgrupos po- demos utilizar como puntos de corte los percentiles que corresponden a las
  • 113.
    puntuaciones típicas queseparan las pentas (por encima del percentil 93 co- rresponde un 5, entre los percentiles 93 y 64, corresponde un 4, etc.) (tablas 11 y 12). 6.3. Percentiles normalizados: cálculo de los percentiles a partir de la media y de la desviación típica Cuando de un grupo solamente conocemos la media y la desviación típi- ca en cualquier test y deseamos dar a los sujetos una clave de interpretación individual, podemos hacerlo a partir de estos datos, calculando una serie de percentiles normalizados. Hemos visto que si conocemos el percentil correspondiente a una determi- nada puntuación directa, podemos ver en las tablas de la distribución normal a qué puntuación típica corresponde. Si una puntuación deja por debajo el 84% de los casos (o una proporción de .84), ya sabemos que en la distribución nor- mal a esa puntuación directa le corresponde una puntuación típica de z = 1 (porque por debajo de z =1 cae el 84% de los casos). A z = 0 (cuando la pun- tuación directa coincide con la media), le corresponderá el percentil 50. De manera inversa, si conocemos una puntuación típica, ya sabemos a qué percentil corresponde en la distribución normal: si un sujeto tiene una pun- tuación típica de z = 1, ya sabemos que está en el percentil 84. Se trata de un percentil normalizado: el que tendría ese sujeto si la distribución fuera nor- mal. Sobre estos percentiles normalizados: a) El cálculo es muy sencillo: nos basta calcular las puntuaciones típicas de cada puntuación directa y ver en las tablas el percentil correspon- diente (en las tablas viene en forma de proporción; multiplicamos por 100, redondeamos decimales, y ya tenemos el percentil en su expre- sión habitual). Por ejemplo si la media es igual a 20.5 y la desviación típica es igual a 3.5 ¿A qué percentil corresponderá una puntuación directa de 21? 21-20.5 La puntuación típica de X = 21 será igual a z=–––––––––––– = .14 3.5 En las tablas vemos que por debajo de z = .14 cae una proporción de casos de .555; multiplicando por 100 y eliminando los decimales tene- mos que a X = 21 le corresponde el percentil 55. b) Al consultar las tablas no hay que olvidar que si la puntuación típica es positiva encontraremos el percentil en el área mayor, y si la puntua- ción típica es negativa, encontraremos el percentil en el área menor. TIPOS DE PUNTUACIONES INDIVIDUALES 113
  • 114.
    c) Si ladistribución de las puntuaciones reales, observadas, se aparta no- tablemente de la distribución normal, estos percentiles pueden quedar muy distorsionados. Con muestras razonablemente grandes el cálculo de estos percentiles normalizados tiene más sentido. d) Una utilidad clara de estos percentiles normalizados, y que es la que realmente justifica este apartado, la tenemos cuando de un grupo só- lo conocemos la media y la desviación típica en algún test o escala, y deseamos preparar unas normas o baremos para interpretar las pun- tuaciones individuales. En estos casos nos puede bastar buscar las puntuaciones directas que corresponden a una serie de percentiles previamente escogidos como referencia suficiente. En la tabla 14 tenemos una serie de percentiles y las puntuaciones típicas que les corresponden en la distribución nor- mal; nuestra tarea será localizar las puntuaciones directas (X) que co- rresponden a esas puntuaciones típicas. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 114 Tabla 14 Ahora tenemos que calcular la puntuación directa (X) que corresponda a las puntuaciones típicas seleccionadas: X - X Si z =––––––– tendremos que X = (s)(z)+X [6] s Como en [6] conocemos todos los valores (s, y z lo buscamos en la tabla 14), podemos calcular el valor de X, o puntuación directa que corresponde a determinados percentiles.
  • 115.
    Por ejemplo, sila media es igual a 20.8 y la desviación típica es igual a 5: La puntuación directa correspondiente al Percentil 75: X = (3.5)(.67)+20.8 = 23.14 (艑 23) 50: X = (3.5)(0) +20.8 = 20.8 (艑 21) 25: X = (3.5)(-.67)+20.8 = 18.45 (艑 18) De esta manera podemos preparar con toda facilidad una tabla con los percentiles normalizados que corresponden a una serie de puntuaciones di- rectas; si un sujeto tiene una puntuación directa que no coincide con ningu- na de las escogidas, se puede estimar por interpolación cuál es su percentil aproximado. 6.4. Equivalencias de diversos tipos de puntuaciones en la distribu- ción normal Ya hemos visto que en la distribución normal se pasa fácilmente de unas puntuaciones a otras; todas tienen su equivalente en otros sistemas. Podemos visualizar esta equivalencia en la figura 5. TIPOS DE PUNTUACIONES INDIVIDUALES 115 Figura 5
  • 116.
    7. PUNTUACIONES TÍPICAS,Y SUS PUNTUACIONES DERIVADAS: RESUMEN Las ventajas de las puntuaciones típicas y de sus puntuaciones derivadas (tipificadas, normalizadas) son muchas (más claras en unos tipos de puntua- ciones que en otros), por ejemplo: a) Aunque las puntuaciones originales vengan de instrumentos distintos (o de exámenes que difieren en dificultad, número o tipo de pregun- tas), todas quedan homogeneizadas con idéntica media, idéntica des- viación e idénticas puntuaciones extremas posibles. b) De manera intuitiva dicen más que las puntuaciones directas originales, porque sabemos cuál es la media (sin calcularla) o cuándo una puntua- ción es muy extrema o atípica. c) Consecuentemente permiten hacer comparaciones con facilidad (entre sujetos, o entre varias puntuaciones del mismo sujeto, dónde está más alto, más bajo, etc.). d) Suelen ser puntuaciones cómodas para comunicar y explicar resultados individuales; e) Permiten calcular medias individuales cuando de los mismos sujetos se disponen puntuaciones distintas, ya que se dispone de una unidad (la desviación típica), y ninguna puntuación parcial pesa más que otra (to- das tienen idéntica desviación típica). Las puntuaciones directas en cambio no suelen representar una es- cala de unidades iguales, o lo hacen con menos propiedad que estas puntuaciones. Las preguntas (o ítems) no representan por lo general unidades iguales, porque unas son más fáciles, otras más difíciles, etc., no todas miden lo mismo, y como unidades de ciencia (o de actitud, personalidad, etc.) resultan ambiguas. f) La relación de estas puntuaciones con la distribución normal resulta también muy útil. Con facilidad podemos verificar en cuántas desvia- ciones se aparta de la media cualquier resultado individual, y apreciar así si se trata de un resultado normal, o poco frecuente, etc. g) No hay que olvidar, sin embargo, que se trata de puntuaciones rela- tivas al grupo y sobre todo si se trata de exámenes o pruebas que se van a calificar, puede ser preferible apreciar el rendimiento en térmi- nos absolutos (objetivos conseguidos), aunque en todo caso las pun- tuaciones típicas y sus puntuaciones derivadas, y otras como los per- centiles, aportan una información complementaria que también es útil. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 116
  • 117.
    8. RESUMEN DELCÁLCULO DE LAS PUNTUACIONES DERIVADAS A partir de una distribución de frecuencias es muy sencillo calcular todas las puntuaciones que hemos viendo y otras variantes. Podemos visualizar el proceso en el esquema-resumen de la figura 6. TIPOS DE PUNTUACIONES INDIVIDUALES 117 Figura 6
  • 118.
    Por qué hacemosestas transformaciones: Disponemos de una nueva media y de una nueva desviación típica (ex- cepto en el caso de los percentiles en los que no se calculan estas medi- das) que son siempre las mismas cualquiera que sea la magnitud de las puntuaciones originales; unificamos el tipo de medida, los valores extre- mos posibles son los mismos, etc., y todo esto: facilita la comunicabilidad de los datos; facilita su interpretación: 1º Tenemos más información: Localizamos puntuaciones atípicas (puntuaciones típicas extre- mas), Situamos al sujeto dentro de su grupo (posición relativa; percentiles). 2º Podemos hacer comparaciones aunque los datos se recojan con instrumentos distintos: entre sujetos intra-individuales Por este tipo de razones los diversos tipos de puntuaciones constitu- yen el lenguaje de los tests (de inteligencia, de habilidades, de personali- dad, de actitudes, etc.); las normas o baremos de interpretación vienen expresadas en alguna de estas puntuaciones. También son útiles en el contexto de la evaluación. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 118
  • 119.
    CAPÍTULO 5 CONCEPTO DECORRELACIÓN Y COVARIANZA 1. CONCEPTO DE CORRELACIÓN Y COVARIANZA 1.1. Relación y variación conjunta El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están re- lacionadas porque los más altos pesan más y los más bajos pesan menos. De- cimos por lo tanto que existe relación en la medida en que los sujetos ocu- pan la misma posición relativa en las dos variables. Si los valores altos en una variable coinciden con valores bajos en otra va- riable, tenemos una relación negativa; por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física). La correlación se define por lo tanto por la co-variación (co = con, jun- tamente: variar a la vez). Correlación y covarianza son términos concep- tualmente equivalentes, expresan lo mismo. La covarianza es también una medida de relación, lo mismo que el coeficiente de correlación. Habitual- mente se utiliza el coeficiente de correlación (r de Pearson), pero es útil en- tender simultáneamente qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación. 119
  • 120.
    El concepto derelación y qué se mide exactamente con estos coeficientes, lo veremos mejor con un ejemplo (tabla 1) donde tenemos los datos de tres situaciones o casos distintos: 1) En cada caso tenemos cuatro sujetos (ejemplo reducido para poder ver todos los datos con facilidad) con puntuaciones en dos variables, X (un test de inteligencia) e Y (una prueba objetiva de rendimiento). 2) Junto a la puntuación de cada sujeto en las dos variables, X e Y, pone- mos su número de orden: 1º al que tenga la puntuación más alta, 2º al que tenga la siguiente más alta, etc.: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 120 En el caso 1º la relación es positiva y la máxima posible (los sujetos tienen el mismo orden en X e Y); si el orden es inverso, como en el caso 2º, tenemos también una relación, pero negativa. Esta variación conjunta o co-varia- ción, puede ser clara y alta (como en los casos 1º y 2º de la tabla 1), puede ser moderada o baja o puede no haber relación (como en el caso 3º). 1.2. Los diagramas de dispersión La representación gráfica de estos pares de puntuaciones se denomina diagrama de dispersión, y también nos ayuda a entender el mismo con- cepto de relación (ejemplos en la figura 1). Cada punto representa la posición de un sujeto (donde confluyen sus dos puntuaciones). En la medida en que hay relación, los puntos tienden a situar- se en una recta diagonal; cuando no hay relación o es muy pequeña la nube de puntos aparece sin una dirección clara. Tabla 1
  • 121.
    1.3. Otras manerasde visualizar la correlación Los diagramas de dispersión (como los de la figura 1) nos permiten ver con facilidad qué entendemos por correlación (o simplemente relación), pe- ro otras maneras de presentar los datos también son útiles para visualizar y comunicar la relación entre dos variables. En la tabla 2 tenemos un ejemplo real. Los mismos alumnos han respondi- do a dos series de cinco preguntas: a) cinco preguntas sobre datos dicotómicos (respuestas1 ó 0; p y q) b) cinco preguntas sobre la interpretación de los percentiles. En la tabla 2 podemos ver con facilidad que a mayor número de respues- tas correctas sobre datos dicotómicos corresponde una media más alta en las preguntas sobre percentiles. Los alumnos que saben más y menos de ambos temas, tienden a ser los mismos (los que responden correctamente las 5 pre- guntas sobre datos dicotómicos tienen una media de 3.9 en las preguntas so- bre percentiles, etc.) . CONCEPTO DE CORRELACIÓNYCOVARIANZA 121 Tabla 2 Figura 1 DIAGRAMAS DE DISPERSIÓN Y Y Y Y X X X X relación positiva alta relación positiva moderna relación negativa alta ausencia de relación
  • 122.
    También podemos reducirla información a un cuadro de doble entrada, como tenemos en la tabla 3. Tenemos a los mismos alumnos clasificados con estos criterios: a) Número de fórmulas que recuerdan de memoria sin haberlas estudia- do, puestas al final de un examen y sin contar para nota. Los alumnos están divididos en dos grupos, los que recuerdan 5 ó 6 fórmulas y los que recuerdan 4 o menos. b) Número de respuestas correctas en el examen de 45 preguntas: 37 o más y 36 o menos. En la tabla 3 figura el número y el tanto por ciento de alumnos en cada cla- sificación; el tanto por ciento está referido a los dos totales según el número de fórmulas recordadas: el 67 % de los que recuerdan 5 ó 6 fórmulas tienen 37 o más respuestas correctas en el examen, frente a sólo el 33 % de los que tienen 36 o menos respuestas correctas. Es clara la relación entre fórmulas recordadas de memoria y buenos re- sultados en el examen. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 122 Tabla 3 En esta disposición de los datos hemos dicotomizado el grupo por la me- diana de respuestas correctas (15 alumnos 36 o menos y otros 15 alumnos 37 o más). Con este planteamiento (sujetos agrupados en categorías) caben otros análisis que veremos en al capítulo del ji cuadrado. 1.4. Correlación, covarianza y dispersión: importancia de las diferencias Es importante caer en la cuenta desde el principio de la importancia de las diferencias interindividuales para poder comprobar relaciones: sin dife- rencias en los sujetos (u objetos) no podemos ver relaciones. Sin diferencias
  • 123.
    en las dosvariables no podemos encontrar variación conjunta: si todos los sujetos tienen idéntica puntuación en X no podemos ver si los altos en X son también altos en Y, porque en X son todos iguales. Si, por ejemplo, queremos comprobar si la altura está relacionada con la capacidad de encestar (jugando al baloncesto) necesitaremos jugadores de distintas alturas, para ver si los más altos encestan más y los más bajos ences- tan menos. Si todos los jugadores tienen la misma altura, no podemos com- probar esa relación; no podemos comprobar si las diferencias en altura se co- rresponden con diferencias en la habilidad de encestar porque todos tienen idéntica altura. Y también necesitaremos que unos encesten más y otros me- nos. Los sujetos deben ser distintos en las dos características cuya relación queremos comprobar. La correlación y la covarianza dicen de dos variables lo mismo que la va- rianza (o la desviación típica) dice de una variable: hasta qué punto los suje- tos son distintos simultáneamente en las dos variables. De la misma manera que la varianza es una medida de dispersión en una variable, la correlación (y la covarianza) son también medidas de dispersión, pero de dos variables tomadas a la vez. 1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r de Pearson El coeficiente de correlación comprueba y cuantifica solamente relaciones lineares, como las expresadas en los ejemplos y diagramas de dispersión an- teriores. No comprueba por lo tanto relaciones curvilíneas, las que expresa- das gráficamente mostrarían una curva. Por ejemplo la relación entre edad (tomando un espectro amplio de edades) y fuerza física sería curvilínea: pri- mero sería positiva (a más edad mayor fuerza física), y luego negativa (a ma- yor edad, menos fuerza). 1.6. Tipos de variables con las que se puede utilizar el coeficiente r de Pearson Para poder utilizar el coeficiente de correlación r de Pearson: las dos varia- bles deben ser: a) Las dos continuas, b) Una continua y otra dicotómica (1 ó 0). c) Las dos dicotómicas (1 ó 0). La correlación entre una variable continua y otra dicotómica se deno- mina correlación biserial-puntual (rbp) pero el cálculo y la interpretación CONCEPTO DE CORRELACIÓNYCOVARIANZA 123
  • 124.
    son los mismosque cuando las dos variables son continuas (y podemos utili- zar calculadoras y programas informáticos que tienen ya programada la corre- lación r de Pearson). Cuando las dos variables son dicotómicas no se trata propiamente del co- eficiente de Pearson (en principio referido a dos variables continuas) sino del coeficiente f (fi); se puede incluir aquí porque realmente equivale al coefi- ciente de Pearson calculado con datos dicotómicos aunque también tiene fór- mulas específicas1 . También tiene sus peculiaridades (el valor máximo no es siempre 1). En un apartado final (nº 7) explicamos brevemente éste y otros ti- pos de coeficientes de relación. 2. LA MEDIDA DE LA RELACIÓN 2.1. Cómo cuantificamos o medimos el grado de relación Es sencillo y útil entender cómo podemos cuantificar (medir) esta varia- ción conjunta y además ayuda a la comprensión e interpretación de estas medidas de relación. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 124 Si las dos variables están relacionadas y esta relación es positiva los sujetos tenderán a estar por encima o por debajo de la media en las dos variables a la vez Si las dos variables están relacionadas y esta relación es negativa los sujetos tenderán a estar por encima de la media en una variable y por debajo de la media en la otra variable Si las dos variables no están relacionadas el estar por encima o por debajo de la media en una variable es independiente del estar por encima o por debajo de la media en la otra variable Este estar por encima o por debajo de la media en dos variables simul- táneamente nos va a permitir cuantificar el grado de relación, tal como se ex- plica en la figura 3. Lo explicamos por pasos: 1º La distancia, o diferencia, de un sujeto con respecto a la media pode- mos expresarla de dos maneras: 1 Si en una calculadora con programación estadística introducimos unos y ceros, el valor de r que nos dé es el valor de f, por eso tiene sentido incluir aquí este coeficiente.
  • 125.
    En puntuaciones directas(restando cada d = (X - X) puntuación de la media) En puntuaciones típicas (la misma (X - X) diferencia pero dividida por z = ––––––– la desviación típica): s Estas diferencias con respecto a la media (puntuaciones diferenciales) (en la figura 3 sólo están puestos los signos de la diferencia): serán positivas si la puntuación directa (X) es superior a la media (X), serán negativas si la puntuación directa (X) es inferior a la media (X) 2º Si a cada sujeto le multiplicamos sus dos puntuaciones diferenciales (dxdy o zxzy) tendremos que unas veces los productos tendrán signo más y otras signo menos a) Cuando hay relación positiva: todos los productos (o la mayoría, de- penderá del grado de relación) serán de idéntico signo positivo (más por más y menos por menos = más); b) Cuando hay relación negativa: los productos serán de idéntico signo negativo (más por menos o menos por más = menos); c) Cuando no hay relación: unos productos serán de idéntico signo y otros de distinto signo. CONCEPTO DE CORRELACIÓNYCOVARIANZA 125 Figura 3
  • 126.
    3º. La sumade los productos cruzados de las puntuaciones diferenciales (directas Sdxdy ó típicas Szxzy), ya nos está indicando el grado de relación; la suma será mayor (con signo más o signo menos) cuando haya una mayor re- lación porque habrá más sumandos de idéntico signo. La mera suma de estos productos no nos es muy útil porque no podemos compararla con otras su- mas, pero si la dividimos por el número de sujetos lo que tenemos es una me- dia comparable con cualquier otra media obtenida con un número distinto de sujetos (esta explicación figura en la figura 3). Si dividimos esta suma por el número de sujetos (= media de los produc- tos cruzados) tenemos la fórmula de la covarianza (utilizando puntuaciones directas) o de la correlación (utilizando puntuaciones típicas). Covarianza: [1] Correlación: [2] Por lo tanto correlación (símbolo rxy o simplemente r) y covarianza (sím- bolo sxy) expresan lo mismo: cuantifican el grado de covariación y a ese gra- do de covariación le denominamos relación. Realmente el coeficiente de correlación no es otra cosa que la covarianza calculada con puntuacio- nes típicas. Correlación y covarianza se relacionan mediante estas fórmulas: sxy rxy (correlación) = ––––– [3] sxy (covarianza) = rxy sxsy [4] sx sy Como medida de relación se pueden utilizar tanto la covarianza como el coeficiente de correlación (r de Pearson). El utilizar preferentemente el coe- ficiente de correlación se debe a estas razones: 1) El utilizar puntuaciones típicas permite comparar todo con todo; dos coeficientes de correlación son comparables entre sí cualquiera que sea la magnitud original de las puntuaciones directas. La magnitud de la covarianza va a depender de la unidad utilizada y no se pueden comparar dos covarianzas, para comprobar dónde hay mayor relación, cuando las unidades son distintas. 2) El coeficiente de correlación r varía entre 0 (ausencia de relación) y un valor máximo de 1 (con signo + ó -). El que los valores extremos sean 0 y 1 facilita el uso y la valoración de la magnitud de estos coeficientes. La demostración de que el valor máximo de r es igual a 1 (±1) es sencilla: 1º La suma de las puntuaciones típicas elevadas al cuadrado es igual al número de sujetos (N): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 126
  • 127.
    2º Si sediera una relación perfecta, tendríamos que para cada sujeto zx = zy con lo que zxzy sería igual a z2 , y como Sz2 = N, tendríamos que: 2.2. Otras fórmulas y procedimientos Hay muchas fórmulas, pero todas equivalen a la fórmula básica (fórmula [2]: rxy = (Szxzy)/N). Esta fórmula básica es muy laboriosa de cálculo. Hay otras fórmulas más sencillas en las que sólo se utilizan puntuaciones directas, pero tampoco resultan prácticas, ya que la correlación puede encontrarse ya programada en muchas calculadoras sencillas (y en hojas de cálculo y en pro- gramas de ordenador o de Internet). Si se dispone de una calculadora con la desviación típica programada, una fórmula sencilla es ésta: [5] Para el cálculo disponemos los datos tal como están en la tabla 4 CONCEPTO DE CORRELACIÓNYCOVARIANZA 127 Tabla 4 Se calculan las desviaciones de las dos variables y de la suma de ambas y se aplica la fórmula anterior [5]: Esta fórmula puede ser la más cómoda cuando tenemos pocos sujetos y una calculadora con programación estadística; con muestras grandes, o cuan- do hay calcular varios coeficientes con los mismos datos, hay que acudir a ho- jas de cálculo o a programas de ordenador, que es lo que haremos habitual- mente.
  • 128.
    3. INTERPRETACIÓN DELCOEFICIENTE DE CORRELACIÓN R DE PEARSON En principio la interpretación del coeficiente de correlación es sencilla; nos basta mirar los diagramas de dispersión ( figura 1) para caer en la cuenta de qué estamos cuantificando o midiendo: en qué grado ambas variables va- rían conjuntamente (es decir, en qué grado están relacionadas). En este apartado recogemos de manera más sistemática todo aquello que nos puede ayudar a interpretar y a aprovechar los coeficientes de correlación que nos encontremos. Hay información que es obvia y viene dada por el mis- mo coeficiente; otro tipo de información adicional podemos extraerlo de los datos que ya tenemos, y por último hay hipótesis y conjeturas razonables que pueden enriquecer la interpretación o nos pueden poner en la pista pa- ra buscar otras cosas. De alguna manera este apartado viene a ser una guía que podemos repa- sar cuando nos interese, para interpretar y utilizar mejor la información que nos aportan los coeficientes de correlación. 3.1. Interpretación básica a) El coeficiente de correlación expresa en qué grado los sujetos (u obje- tos, elementos…) están ordenados de la misma manera en dos varia- bles simultáneamente. b) Los valores extremos son 0 (ninguna relación) y ±1 (máxima rela- ción). Si r = 1, el orden (posición relativa) de los sujetos es el mismo en las dos variables. Aunque hablaremos después sobre cómo valorar la magnitud de estos coeficientes, si los valores extremos son 0 y 1 (ó -1), ya podemos ver que coeficientes próximos a 0 expresan poca relación, y los coeficientes cercanos al 1 expresan mucha relación. c) La magnitud del coeficiente es independiente del signo. r =-.95 expresa más relación que r = +.75; el que la relación sea po- sitiva o negativa es algo distinto de que sea grande o pequeña. d) Dos ítems (o sujetos, variables, etc.) que tengan entre sí una relación muy alta, pueden ser valorados de manera muy distinta en términos absolutos. En este punto hay con cierta frecuencia errores de interpre- tación. El suponer que una correlación muy alta entre dos variables quiere de- cir que las dos tienen una media parecida es un error muy común; una correlación alta significa simplemente que las dos variables son or- denadas de manera parecida, pero no que tengan valores absolutos parecidos. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 128
  • 129.
    En este ejemplo: Unatentación es afirmar que entre Física y Matemáticas hay una rela- ción muy alta, sin embargo la correlación entre Física y Matemáticas es cero; no se puede decir que los alumnos tengan el mismo orden en las El coeficiente de correlación entre A y B es exactamente r = 1, la máxi- ma relación posible; sin embargo sus medias son muy distintas: el per- sonaje A tiene una media de 5.5 (muy alta en una escala de 1 a 6, gusta a todos) y el personaje B muy baja (1.5, no gusta a nadie). Lo que suce- de es que los que valoran mejor al personaje A también valoran mejor (en términos relativos) al personaje B y viceversa: los sujetos que valo- ran menos al personaje A también valoran menos al personaje B. El personaje C tiene una media de 4, su relación con A es r = 0 y su re- lación con B es también r = 0: cómo valoran los sujetos a los persona- jes A y B no tiene nada que ver con cómo valoran al personaje C2 . En la tabla 6 tenemos otro ejemplo de cuatro alumnos con calificacio- nes en cuatro asignaturas. Lo vemos con facilidad en un ejemplo ficticio. Supongamos que cuatro sujetos valoran en una escala de 1 (no me gusta nada) a 6 (me gusta mucho) a tres personajes políticos o a tres profesores (y así vemos un ejemplo en el que no hay tests ni exámenes; tabla 5): CONCEPTO DE CORRELACIÓNYCOVARIANZA 129 Tabla 5 Tabla 6 2 Si quisiéramos medir la proximidad o parecido en valores absolutos entre estos personajes, habría que utilizar otra técnica que se estudia en relación con el Diferencial Semántico de Osgood, la denominada distancia euclidiana (simbolizada D; puede verse Morales, Urosa y Blanco, 2003, pág. 38). Un coeficiente de correlación alto indica orden se- mejante, no medias semejantes.
  • 130.
    dos asignaturas porqueno hay orden, no se puede ordenar a los que están igualados. Necesitaríamos calificaciones distintas en las dos asig- naturas para verificar si coinciden en ambas asignaturas los que están mejor o peor. La correlación entre Historia y Lengua es la máxima posible (r = 1), porque los alumnos tienen el mismo número de orden en ambas asig- naturas; sin embargo en términos absolutos las calificaciones no se pa- recen: son muy altas en Historia y muy bajas en Lengua. e) Un coeficiente de correlación no equivale a una proporción. Una correlación de r =.50 no quiere decir que haya un 50% de varia- bilidad común o de varianza común entre las dos variables. f) No es necesario que las dos variables (X e Y) estén medidas en la mis- ma escala o en las mismas unidades, ya que, como hemos visto, el cálculo se hace a partir de puntuaciones típicas. La correlación entre edad y peso o entre pluviosidad y altura sobre el nivel del mar (en este caso los sujetos serían comarcas) oscilará entre 0 y 1 aunque todas estas variables se midan con unidades muy diferen- tes (esto no sucede con la covarianza, en la que mantenemos las uni- dades originales). De la misma manera podemos calcular la correlación entre un test de rendimiento de 50 preguntas y la actitud hacia el estu- dio medida con una sencilla escala, etc. g) En los coeficientes de correlación no hay unidad en sentido propio. Por esta razón un coeficiente de .50 no expresa el doble de relación que otro de .25. La distancia en relación es mayor entre dos coeficien- tes altos que entre dos coeficientes bajos. Veremos la diferencia entre dos coeficientes con más exactitud si los elevamos al cuadrado: entre .95 y .90 (coeficientes muy altos, .952 - .902 = .0925) hay una mayor distancia que entre .15 y .10 (coeficientes muy bajos, .152 - .102 = .0125). Este punto lo veremos al hablar del co- eficiente de determinación. h) La correlación de una variable (como un test de inteligencia) con un criterio (por ejemplo un examen) se denomina frecuentemente coefi- ciente de validez. El término validez aplicado a los tests es mucho más complejo y tiene más significados; en este caso se trata de un simple coeficiente de co- rrelación entre dos variables. i) La correlación entre dos variables es relativa a los instrumentos utili- zados. Cuando decimos que la inteligencia tiene una correlación determina- da con rendimiento académico, habría que especificar inteligencia ‘tal como’ la mide ese test… rendimiento tal como lo mide este tipo de examen… ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 130
  • 131.
    No medimos rasgoso características puras o abstractas, por eso los coe- ficientes de correlación hay que interpretarlos teniendo en cuenta có- mo han sido medidos esos rasgos. Cuando decimos que la autocon- fianza está relacionada con el rendimiento académico, hay que sobrentender tal como medimos o expresamos estas variables con es- tos instrumentos. Ésta es una razón (entre otras) por la que entre las mismas variables podemos encontrar coeficientes de correlación muy distintos: a veces (cuando las medimos con instrumentos distintos) no se trata realmente de las mismas variables exactamente, salvo en un sentido muy genérico. 3.2. Correlación y causalidad La causalidad merece un comentario específico porque en el contexto de la correlación es fácilmente fuente de errores de interpretación (al menos es una tentación el interpretar algunas correlaciones como pruebas de causalidad). El concepto de causa es complejo y el lugar propio para su estudio está más en la filosofía que en los análisis estadísticos. En nuestro contexto pode- mos dar una definición puramente operacional de causalidad para su uso li- mitado a la investigación experimental: establecemos una relación de causa a efecto cuando podemos mostrar que una variable independiente sistemá- ticamente produce cambios (influye) en una variable dependiente, una vez controlado el influjo de otras variables extrañas. Con esta noción de causalidad sí podemos hacer unos comentarios sobre correlación y causalidad. a) Una correlación no puede interpretarse como prueba de una relación causal; el que dos variables covaríen, se den juntas, no quiere decir que una sea causa de la otra. Una correlación sí nos puede dar pistas para proponer hipótesis sobre posibles relaciones causales. Aunque de hecho hubiera una relación de causa a efecto, esta relación no queda demostrada por un coeficiente de relación. b) Para poder hablar de causalidad, al menos como hipótesis, hay que po- der excluir otras explicaciones. Frecuentemente la explicación de por qué dos variables están relacionadas entre sí es que ambas están a su vez relacionadas con una tercera variable (que tampoco es necesaria- mente causa de las otras dos pero sí puede ser una buena explica- ción). Peso y altura estarán relacionadas en una muestra de niños de 2 a 10 años porque tanto el peso como la altura están relacionados con la edad. c) El coeficiente de correlación trata las dos variables como simétricas: nos da lo mismo calcular la correlación de A con B que la de B con A. Si CONCEPTO DE CORRELACIÓNYCOVARIANZA 131
  • 132.
    fuéramos a interpretarun coeficiente de correlación como indicador de una relación de causa a efecto, no sabríamos cuál es la causa y cuál es el efecto en función solamente de ese coeficiente. Si entre fumar y enfermedades coronarias encontramos una relación alta, podríamos concluir que las enfermedades coronarias son la causa del fumar… En ejemplos no tan obvios es fácil cometer errores de interpretación y dar por establecidas relaciones de causa a efecto sin fundamento. d) Para establecer relaciones de causa-efecto, al menos como hipótesis ra- zonable, se requieren cuatro condiciones: 1º Que a un aumento en el predictor (supuesta causa) se siga un aumento en el criterio (supuesto efecto); 2º Que se puedan excluir otras explicaciones plausibles; 3º Que se pueda establecer algún tipo de teoría o justificación que ex- plique la relación causal; 4º Que se pueda replicar el mismo resultado en otras poblaciones y con otras características3 . Por lo general en estos estudios (para verificar hipótesis causales) se utili- zan diseños experimentales y no simples estudios correlacionales, que por otra parte pueden ser buenos estudios piloto que pueden a su vez orientar otros tipos de investigación. 3.3. Cómo calcular la media de varios coeficientes de correlación Como no hay una unidad en sentido propio no se debería calcular en principio la media aritmética de varios coeficientes; por otra parte es útil la in- formación que puede darnos una media de varios coeficientes de correlación. El método tradicional que se suele proponer en muchos textos para cal- cular una correlación media es el siguiente: 1º Se transforma el valor de r en el valor Z de Fisher (el símbolo es zeta mayúscula; hay tablas apropiadas); 2º Se opera con estos valores Z (se calcula el valor medio de Z); 3º El valor de Z resultante se reconvierte en un valor de r (con las mismas tablas), que será en este caso la verdadera correlación media. Sin embargo esta práctica habitual se puede substituir sin especial proble- ma por el simple cálculo de la media aritmética: si disponemos de varios co- eficientes de correlación calculados en muestras distintas, la mejor estima- ción de la correlación en la población es la media ponderada de los distintos coeficientes: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 132 3 Light, Singer y Willett, (1990)
  • 133.
    [6] Tenemos, por ejemplo,estos dos coeficientes de correlación calculados en las mismas dos variables en dos muestras distintas: En una muestra de N = 60 r = .45 En una muestra de N = 120 r = .30 Correlación media: Esta media ponderada es de cálculo sencillo, de fácil comprensión y no distorsiona más la verdadera media que lo que la distorsiona la transforma- ción de Fisher4 . Si el número de sujetos es el mismo se calcula directamente la media aritmética. También es frecuente utilizar la mediana en vez de la media (el uso de la mediana es siempre apropiado) cuando se dispone de una serie de coeficien- tes de correlación y se quiere indicar una medida de tendencia central. Como siempre que se utiliza la mediana en vez de la media hay que re- cordar dónde está la diferencia entre ambos estadísticos. Como la mediana es simplemente el valor central que divide a la muestra (de coeficientes en este caso) en dos mitades iguales, no se ve afectada por valores extremos que sí se influyen y se notan en la media. Unos pocos coeficientes atípicos (o muy al- tos o muy bajos), o un solo coeficiente muy atípico, pueden sesgar la media como valor representativo en una dirección. En estos casos puede ser prefe- rible utilizar la mediana, o ambos valores, la media y la mediana. 3.4. El coeficiente de determinación El coeficiente de correlación elevado al cuadrado (r2 ) se denomina coefi- ciente de determinación e indica la proporción (o porcentaje si multipli- camos por 100) de variabilidad común: indica la proporción de varianza de una variable determinada por o asociada a la otra variable. En términos más simples, r2 indica el tanto por ciento (r2 x 100) de acuer- do, de área común o de variabilidad común entre ambas variables. Un co- eficiente de r = .50 indica un 25% de varianza común entre ambas variables (.502 =.25). Una correlación de r = .50 entre un test de inteligencia abstracta CONCEPTO DE CORRELACIÓNYCOVARIANZA 133 4 La transformación de Fisher tiene un sesgo positivo: la media resultante es ligeramen- te mayor de lo que debería ser. Con la media ponderada por el número de sujetos (fórmula [6]) la media que resulta es ligeramente menor, pero la desviación es menor en términos ab- solutos que la que provoca la transformación de Fisher, y con muestras grandes (a partir de N = 40) el margen de error es muy bajo y sólo afecta al tercer decimal (Hunter y Schmidt, 1990).
  • 134.
    y rendimiento enmatemáticas, indica que el 25% de las diferencias en mate- máticas (propiamente el 25% de la varianza en matemáticas) tiene que ver con (depende de o se explica por) las diferencias en el test de inteligencia abstracta. Un coeficiente de .30 expresa solamente un .302 o un 9% de variabi- lidad en una variable asociada a la variabilidad o diferencias en la otra variable. Los valores de r2 sí pueden compararse entre sí directamente; por ejemplo: r = .20 indica un 4% de acuerdo entre las dos variables (.202 =.04); r = .40 indica un 16% de acuerdo entre las dos variables (.402 =.16); r = .60 indica un 36% de acuerdo entre las dos variables (.602 =.36). Se ve con claridad que de r =.60 a r =.40 (del 16% al 36%) hay más distan- cia que de r =.40 a r =.20 (del 16% al 4%), aunque aparentemente las dife- rencias sean idénticas (de .20). El elevar al cuadrado el valor del coeficiente de correlación ayuda a interpretarlo. Los valores de r bajan drásticamente cuando los trasformamos en r2 y esto puede hacernos pensar que las correlaciones bajas son de menor importancia. Por ejemplo r = .32 significa solamente un 10% (.322 ) de varianza común; muy poco, solamente el 10% de la variabilidad (o de las diferencias) en una variable está asociada a diferencias en otra variable. A pesar de esto no conviene infrava- lorar la importancia potencial de los coeficientes pequeños pues pueden apor- tar información de mucho interés o decir más de lo que parece (lo veremos al tratar de la valoración de la magnitud de estos coeficientes). Aun así y en tér- minos generales, los coeficientes más bien bajos (inferiores a .30) suelen tener poco interés práctico aunque si son estadísticamente significativos (qué signi- fica esta expresión lo vemos en el próximo apartado) se pueden prestar a una buena elaboración teórica e interpretativa. 3.5. La significación estadística de los coeficientes de correlación 3.5.1. Qué es un coeficiente de correlación estadísticamente significativo Lo primero en lo que solemos fijarnos es en la magnitud del coeficiente de correlación. Antes podemos comprobar si el coeficiente es mayor de lo que se puede esperar por puro azar.5 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 134 5 Hasta aquí hemos tratado de la correlación dentro de la estadística descriptiva; ahora estamos ya en estadística inferencial, tema que retomaremos al tratar del error tí- pico de la media y del contraste de medias. En muchos textos la estadística meramente descriptiva y la estadística inferencial se tratan en capítulos o partes distintas; aquí preferi- mos tratar conjuntamente todo lo referido a la correlación, al menos lo que juzgamos más importante para interpretar adecuadamente estos coeficientes.
  • 135.
    Podemos entenderlo conun ejemplo muy simple. Entre dos variables ob- viamente no relacionadas (como día de nacimiento y número de plantas que uno tiene en su casa) difícilmente obtendremos r = 0.0000. Por simple casualidad obtendremos algún valor, positivo o negativo, distinto de cero. Con 5 sujetos un valor de r =.30 puede ser casual (una mera coincidencia; un sujeto con muchas ventanas en su casa nació a finales de mes) y en cam- bio con 100 sujetos es muy improbable obtener r =.20 por casualidad, sin que exista alguna relación. Ya podemos intuir que con pocos sujetos necesi- taremos un valor mayor para poder rechazar la casualidad, y que con mu- chos sujetos un valor pequeño es muy improbable que sea casual (o explica- ble por el error muestral, en términos más propios). 3.5.2. El modelo teórico Es importante entender el modelo teórico en el que nos basamos para lle- gar a la conclusión de que un coeficiente de correlación es mayor de lo que podríamos esperar por azar y poder afirmar por lo tanto que con toda proba- bilidad expresa una verdadera relación (o correlación estadísticamente sig- nificativa). El mismo modelo lo veremos también en planteamientos seme- jantes. Lo exponemos paso a paso, de manera muy sucinta. 1) Suponemos que calculamos el coeficiente de correlación entre dos varia- bles que no están relacionadas (podemos pensar en el ejemplo anterior, día de nacimiento y número de plantas que uno tiene en su casa). 2) Suponemos también que esta correlación la calculamos en un número muy grande de muestras (realmente no calculamos nada, se trata de un modelo teórico). 3) Aunque la correlación esperada sea igual a cero (estamos suponiendo que no hay relación) no siempre obtendremos r = 0; por puro azar unas veces tendremos una correlación distinta de cero y positiva y otras veces tendremos una correlación distinta de cero y negativa, aunque lo normal es que se trate de valores muy pequeños. 4) Al calcular muchos coeficientes de correlación entre estas dos variables que no están relacionadas tendremos una distribución normal de los coeficientes de correlación. Esta distribución tendrá su media y su des- viación típica. 5) Estas distribuciones se denominan distribuciones muestrales (no es la distribución de unas puntuaciones individuales sino de estadísticos o medidas de muchas muestras hipotéticas; también hablaremos de la distribución muestral de la media). 6) La media de esta distribución será igual a cero (éste es nuestro su- puesto en caso de no relación); los valores positivos y negativos se anu- lan mutuamente. CONCEPTO DE CORRELACIÓNYCOVARIANZA 135
  • 136.
    7) Cuando nospreguntamos si un coeficiente de correlación es estadísti- camente significativo, lo que nos preguntamos es si es probable que ocurra cuando no hay relación, o, lo que es lo mismo, si es probable que ocurra cuando la media de las posibles correlaciones entre esas dos variables es cero. Si nuestro coeficiente es muy poco probable cuando no hay relación, es entonces cuando concluiremos que el coeficiente de correlación es estadísticamente significativo: es demasiado grande para ese número de sujetos como para que sea casual y expresa por lo tanto una verda- dera relación distinta de cero. Dicho de otra manera, no pertenece a la población de coeficientes cuya media es cero. 8) Para decidir si un coeficiente de correlación es probable o improbable cuando la media de los posibles coeficientes de correlación es cero, ne- cesitamos un criterio (en qué punto empieza lo improbable). El criterio convencionalmente aceptado es que lo que por azar sucede más de 5 veces de cada 100 está dentro de lo probable, y lo que por La desviación típica de esta distribución no la conocemos pero sí po- demos estimarla. En estos planteamientos (distribuciones muestrales hipotéticas) la desviación típica se denomina error típico. La interpretación es la misma que hacemos de la desviación típica en la distribución normal, así por ejemplo el 95% de los casos caerán en- tre la media (= 0) más menos 1.96 errores típicos, y solamente el 5% de los coeficientes de correlación se apartará de una media de cero en +1.96 errores típicos o en –1.96 errores típicos, tal como aparece en la figura 4. La mayoría de los valores estarán en torno a cero. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 136 -1.96 errores típicos correlación media = 0 +1.96 errores típicos El 95% de los coeficientes de correlación caen entre más menos 1.96 errores típicos Figura 4
  • 137.
    azar sucede 5o menos de 5 veces de cada 100 lo consideramos ya im- probable o fuera de lo normal. A este criterio le denominamos nivel de confianza, y se expresa a = .05 cuando consideramos poco probable lo que sucede menos del 5% de las veces (también se expresa a veces así: nivel de confianza del 95% que son las probabilidades de no equi- vocarnos al afirmar la relación). 9) Ya sabemos que en la distribución normal el 95% de los casos están entre la media (que es igual a cero en nuestro modelo de la figura 4) y más me- nos 1.96 errores típicos. Diremos por lo tanto que un coeficiente de co- rrelación es estadísticamente significativo cuando se aparte de la media cero en más de 1.96 errores típicos. Volviendo a la figura 4, un coeficien- te de correlación es estadísticamente significativo si no está en el 95% central de los posibles coeficientes de correlación cuya media es cero. Cuando la probabilidad de que ocurra en el caso de no relación es infe- rior al 5% se expresa así: p .05; si esta probabilidad es superior al 5% lo expresamos así: p .05. 10) Aunque nuestro nivel de confianza sea .05, también es informativo indi- car si las probabilidades de que la correlación son inferiores al 1% (p.01) o al 1/1000 (p .001). Lo que se suele recomendar es indicar la probabilidad exacta (por ejemplo p = .02) sin limitarse a poner si es su- perior o inferior (p.05 o p.05) a una determinada probabilidad previa- mente especificada6 . 3.5.3. Interpretación de una correlación estadísticamente significativo Es importante entender bien qué significa el decir que una correlación es o no es estadísticamente significativa. Una correlación estadísticamente significativa, por ejemplo p .05, quiere decir que si no hay relación en la población (es decir, si se da esa condición importante de ausencia de relación) la probabilidad de obtener un coeficiente de esa magnitud por puro azar es inferior al 5%. En la práctica, y cuando una correlación es estadísticamente significativa (porque p .05 si .05 es nuestro nivel de confianza): a) Podemos afirmar con mucha seguridad que en la población esa corre- lación no es cero: si no hubiera ningún tipo de relación es muy impro- bable obtener el coeficiente que hemos obtenido. Podemos afirmar el hecho de la relación. CONCEPTO DE CORRELACIÓNYCOVARIANZA 137 6 Las probabilidades exactas, si no nos las da ya un programa de ordenador, se bus- can fácilmente en alguna de las direcciones de Internet puestas en el Anexo II.
  • 138.
    b) Lo queno podemos afirmar es que en muestras semejantes (de la mis- ma población) obtendríamos coeficientes de magnitud semejante (in- terpretación frecuente y errónea). Para hablar de la magnitud de la co- rrelación en general (en la población) necesitamos acudir a los intervalos de confianza de los que trataremos enseguida. Cuando una correlación no es estadísticamente significativa (porque p .05): a) Una correlación no significativa es una correlación que no podemos generalizar sin más. Con los datos que tenemos no podemos afirmar que en la población (en otras muestras semejantes) hay una relación, aunque sea pequeña, y distinta de cero. b) Por otra parte una correlación no significativa no es prueba de no rela- ción en la población (podríamos encontrarla quizás en muestras mayo- res, o utilizando otras medidas más precisas, etc.; no probar que hay relación no es lo mismo que probar que no hay relación). Con muestras muy pequeñas podemos encontrar coeficientes de correla- ción relativamente grandes pero no estadísticamente significativos (el cero es un valor probable; no nos permiten extrapolar el hecho de la relación a otras muestras de la misma población). Aunque con frecuencia los coeficientes de correlación no estadísticamen- te significativos suelen ser pequeños (sobre todo en muestras grandes) cuan- do el signo de la relación está en la dirección esperada y la muestra es pe- queña, es posible que obtengamos una correlación estadísticamente significativa en muestras mayores (al menos se puede proponer como hipó- tesis razonable). Los coeficientes de correlación estadísticamente significativos pero muy bajos (caso frecuente en muestras relativamente grandes) suelen ser de poca relevancia práctica, aunque no podemos despreciar sin más los coeficientes pequeños (si son estadísticamente significativos) porque pueden dar buen juego interpretativo desde una perspectiva más teórica o metodológica, co- mo veremos después. 3.5.4. Cómo comprobamos si un coeficiente de correlación es estadísticamente significativo El primer paso por lo tanto para interpretar un coeficiente de correlación es comprobar si es mayor de lo que podría esperarse por azar, o utilizando la ex- presión habitual, comprobar si es estadísticamente significativo. Una correla- ción estadísticamente significativa es una correlación muy improbable por ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 138
  • 139.
    Vemos .576 enla columna correspondiente a .05; esto quiere decir que con 12 sujetos (10 grados de libertad) una correlación tan alta como .576 la obtendríamos por azar, sin que hubiera relación entre las dos variables, 5 ve- ces de cada 100 (y nuestra conclusión será que sí hay relación; no ha sido una casualidad). Debajo de .01 vemos r = .7079, que es el valor de la correlación que podría- mos obtener por azar 1 vez cada 100, y debajo de .001 vemos r = .8233, la co- rrelación que podríamos obtener por azar 1 vez cada 1000 veces. azar (en la hipótesis de no relación); la consecuencia es que podemos suponer que en la población (en otras muestras semejantes) seguiremos encontrando una correlación distinta de cero. Esto lo veremos también después desde otra perspectiva al tratar de los intervalos de confianza de la correlación. La teoría subyacente a esta comprobación es la misma que la de plantea- mientos semejantes en estadística (¿cuándo podemos considerar que una di- ferencia entre dos medias es mayor de lo puramente casual y aleatorio?). Lo que hacemos es dividir nuestro coeficiente de correlación (o con más propie- dad |r – 0|, la diferencia entre la correlación obtenida y una correlación me- dia de cero) por el error típico de la correlación (fórmulas [10] y [11]) pa- ra ver en cuántos errores típicos se aparta nuestro coeficiente de una correlación media de cero7 . a) Con muestras de 100 sujetos o menos Lo más práctico es consultar las tablas apropiadas (anexo I, al final del ca- pítulo)8 , en las que se indica la probabilidad de obtener un determinado coe- ficiente por azar, sin que haya relación entre las dos variables. Para consultar las tablas tenemos que tener en cuenta los grados de liber- tad, que en el caso de la correlación son N-2. Por ejemplo, con N = 12 los grados de libertad son 10. En las tablas y con 10 grados de libertad vemos: CONCEPTO DE CORRELACIÓNYCOVARIANZA 139 7 Aunque consultemos tablas o vayamos a direcciones de Internet que nos lo dan re- suelto, conviene entender qué estamos haciendo. 8 Tablas semejantes figuran en muchos textos; también podemos consultar las direc- ciones de Internet puestas en el Anexo II. Grados de libertad = N -2 .05 .01 .001 10 .5760 .7079 .8233
  • 140.
    Siempre que elvalor de nuestra correlación sea igual o mayor que el valor indicado en la columna .05, podemos concluir que la correlación es estadís- ticamente significativa (improbable por azar; ese coeficiente de correlación lo podríamos encontrar, sin que se dé relación, 5 veces o menos de cada 100). Si supera los valores de las columnas .01 ó .001 se indica de esta manera: p .01 ó p .001. Ya hemos indicado en el apartado anterior que este 5% es el límite conven- cional y aceptado para rechazar el azar (el error muestral en términos más apropiados) como explicación, por lo que podríamos concluir que sí hay re- lación aunque ésta puede ser pequeña y de poco valor práctico. Una corre- lación estadísticamente significativa no significa una correlación grande. El poner un 5% de probabilidades de error (para afirmar que sí hay rela- ción) es un criterio usual aunque arbitrario; si uno desea más seguridad pue- de poner como límite un 1% de probabilidad de error; son los dos límites convencionales más utilizados. b) Con muestras de más de 100 sujetos Vemos en cuántas desviaciones típicas (errores típicos) se aparta nuestro co- eficiente de correlación de una correlación media de cero; es decir calculamos la puntuación típica (z) correspondiente a nuestro coeficiente de correlación: [7] Lo que tenemos en el denominador es la fórmula del error típico de los coeficientes de correlación (en muestras grandes). Esta fórmula queda simplificada así: [8] En la tabla 6 están los valores críticos para interpretar los resultados. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 140 Tabla 6 En el numerador de la fórmula [7] tenemos la diferencia entre nuestra co- rrelación y una correlación media de cero; lo que tenemos en el denomina-
  • 141.
    dor es elerror típico (o desviación típica) de la distribución de las correlacio- nes cuando la correlación media es cero. Lo que hemos hecho es por lo tanto calcular una puntuación típica: nos indica, utilizando los términos con- vencionales, en cuántas desviaciones típicas (o errores típicos) se aparta nuestra correlación de una correlación media de cero. Y ya sabemos (por las tablas de la distribución normal) que un valor que se aparte de la media en más de 1.96 desviaciones (fijándonos en ambos extremos de la distribución) sólo ocurre por azar 5 veces de cada 100 o menos. Por ejemplo: encontramos una correlación de r = .14 en una muestra de 275 sujetos; aplicando la fórmula [8] (más sencilla que la [7]) tendremos que que supera el valor de z = 1.96 por lo que podemos concluir que una correlación de r = .14 en esa muestra, en el caso de no rela- ción, la obtendríamos por azar menos de cinco veces de cada 100 (p .05); nuestra conclusión será que esa correlación es estadísticamente significativa. c) Cuando de los mismos sujetos tenemos varios coeficientes de correlación En vez de aplicar la fórmula [7] o la fórmula [8] a cada coeficiente, pode- mos construir nuestras propias tablas, cuando el número de sujetos es siem- pre el mismo y los valores de z de interés también son siempre los mismos (los que figuran en la tabla 6). En la fórmula [7] podemos despejar los valores de r que nos interesan: Si podemos despejar r; Esta fórmula queda simplificada de esta manera: [9] Por ejemplo, si nuestros sujetos son N = 212, nuestras tablas serán estas9 : Para p ⭐ .05 Para p ⭐ .01 Para p ⭐ .001 CONCEPTO DE CORRELACIÓNYCOVARIANZA 141 9 Dado un número determinado de sujetos (N) los valores correspondientes a .05, .01 y .001 nos lo da directamente Department of Obstetrics and Gynaecology, The Chine- se University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correla- tion.asp, buscando minimum r to be significant. Esta dirección, y otras que nos dan la misma información, también está en el Anexo II.
  • 142.
    3.6. Los intervalosde confianza: magnitud de la correlación en la población Si calculamos el coeficiente de correlación, por ejemplo, entre una medi- da de motivación y otra de rendimiento escolar, encontraremos un valor de- terminado en nuestra muestra. Puede ser que nuestro interés no esté en co- nocer el grado de relación entre estas dos variables en una muestra concreta, sino en la población más general representada por esa muestra10 . Si lo que nos interesa es la magnitud de la correlación en la población (y no solamente en nuestros sujetos), el valor exacto de la correlación en la po- blación no podemos saberlo, pero sí podemos estimar entre qué valores má- ximo y mínimo se encuentra. Estos valores extremos se denominan, muy apropiadamente, intervalos de confianza. El modelo teórico es semejante al visto antes para ver si una correlación es estadísticamente significativa; la diferencia está en que antes (figura 4) supo- níamos una correlación media de cero en la población y ahora (figura 5) la co- rrelación media estimada en la población es la obtenida en una muestra. Si calculamos el coeficiente de correlación entre las mismas dos variables en un gran número de muestras, tendríamos una distribución normal de los coeficientes de correlación entre las dos variables. La correlación calculada en nuestra muestra la tomamos como una esti- mación de la media en la población. Esta estimación será más ajustada si la muestra es realmente representativa. El error típico (desviación típica) de esta distribución lo estimamos a par- tir de los datos de una muestra concreta y las fórmulas son: para muestras grandes sr = [10] para muestras pequeñas sr = [11] El error típico, lo mismo que una desviación típica, nos indica el margen de variabilidad probable (de oscilación) de los coeficientes de correlación si los calculáramos en muchas muestras. Como suponemos una distribución normal, el 95% de los casos de los coeficientes de correlación caen entre la correlación obtenida en la muestra (la media de la distribución) más 1.96 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 142 10 En este apartado, lo mismo que en el anterior, no nos limitamos a hablar de la co- rrelación obtenida en una muestra concreta que describe la relación entre dos variables en esa muestra, sino que estamos tratando de la correlación en la población. Cuando a par- tir de los datos obtenidos en una muestra deducimos los valores probables en la población (extrapolamos) estamos ya en estadística inferencial y no meramente descriptiva.
  • 143.
    Por ejemplo: enuna muestra de 102 sujetos encontramos una correlación de r = .20; Aplicando la fórmula [8] tendríamos z = = 2.01, p .05 (su- peramos el límite de 1.96, tabla 6). La correlación de .20 en una muestra de 102 sujetos es estadísticamente significativa (no es cero en la población). Si calculamos la correlación entre las mismas dos variables en una serie in- definida de muestras ¿Entre qué límites oscilarían los coeficientes de correla- ción? El error típico de los coeficientes de correlación (con N = 102) sujetos es (fórmula [10]): errores típicos y la correlación obtenida menos 1.96 errores típicos. Estos son los intervalos de confianza de la correlación, como podemos ver represen- tado en la figura 5 (con un nivel de significación de .05). CONCEPTO DE CORRELACIÓNYCOVARIANZA 143 -1.96 errores típicos Correlación obtenida en la muestra = estimación de la correlación en la población +1.96 errores típicos Límite máximo probable en la población 95% de los coeficientes de correlación en muestras de la misma población Límite mínimo probable en la población Figura 5 Límite más bajo de la correlación en la población: .20 (media) – (1.96)(.099) = .005 Límite más alto de la correlación en la población: .20 (media) + (1.96)(.099) = .394 Asumiendo la correlación que hemos encontrado de r = .20 como una esti- mación de la correlación media, podemos afirmar que el coeficiente de corre- lación en la población representada por esta muestra estará entre.005 y .394.
  • 144.
    Vemos que entreestos límites extremos probables no se encuentra el ce- ro, por eso la correlación es estadísticamente significativa (distinta de cero en la población), aunque el límite inferior es casi cero. Vamos a ver un ejemplo de correlación no estadísticamente significativa. En una muestra de N = 120 y r = .14 vemos que (fórmula [8]) z = .14 120 – 1 = 1.53 Como no llegamos al valor crítico de 1.96 concluimos que p .05; la pro- babilidad de obtener un coeficiente de esa magnitud es superior al 5%. Nues- tra conclusión será que esta correlación no es estadísticamente significativa. Calculamos ahora los límites extremos (intervalos de confianza) de ese coeficiente en la población: 1 Límite inferior: .14 – 1.96 (–––––––––) = .14 - .179 = -.04 120 – 1 1 Límite superior: .14 + 1.96 (–––––––––) = .14 + .179 = +.319 120 – 1 En la población esa correlación estará entre -.04 y + .319; como el límite inferior es negativo (-.04) entre esos intervalos está la posibilidad de encon- trar r = 0, por eso decimos que no es estadísticamente significativa; porque puede ser r = 0 en la población. Siempre que los límites extremos son de dis- tinto signo, la correlación no es estadísticamente significativa (el cero es un valor probable porque está comprendido entre esos límites). Cuando un coeficiente de correlación calculado en una muestra es esta- dísticamente significativo, la información que tenemos sobre la magnitud de la correlación en la población representada por esa muestra es por lo tanto muy imprecisa, aunque podemos afirmar que no es cero. Para esti- mar la magnitud de la correlación en la población con una mayor preci- sión (entre unos límites estrechos) nos hacen falta muestras muy grandes porque al aumentar el tamaño de la muestra disminuye el error típico. Podemos verlo de manera más gráfica calculando los intervalos de confian- za (límites máximo y mínimo en la población) de un coeficiente de .20 calcu- lado en muestras de tamaño progresivamente mayor (tabla 7). Un coeficiente de correlación de r = .20 calculado con una muestra gran- de nos da una idea más precisa (límites extremos más estrechos) de dónde se encuentra este valor en la población. Con frecuencia vemos en la literatura experimental resultados conflictivos: correlaciones grandes y positivas en una muestra y bajas o incluso negativas en ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 144
  • 145.
    otras muestras… estaconflictividad suele ser aparente como podemos com- probar si calculamos entre qué límites pueden oscilar estos coeficientes: cual- quiera de los dos coeficientes podrían caer dentro de los límites del otro11 . Aquí es oportuno hacer dos observaciones: 1. Cuando calculamos los intervalos de confianza de un coeficiente de correlación (o de cualquier otro estadístico) estamos comprobando también si ese coeficiente de correlación es estadísticamente significativo (si está dentro de lo probable una correlación igual a cero en la población). Por ejemplo, con N = 120 obtenemos una correlación de r = .15. Este co- eficiente lo hemos calculado en una muestra concreta y ahora nos pregunta- mos entre qué límites se encuentra ese coeficiente de correlación en la pobla- ción representada por esa muestra. El error típico es (fórmula [10]) 1 / 120 –1 = .0916, luego los límites es- tarán entre .15 ± (1.96)(.0916); como (1.96)(.0916) = .179, los límites estarán entre .15 ± .179: Límite mínimo: .15-.179 = -.03 Límite máximo: .15 + .179 = .33 En la población esa correlación de .15, calculada en 120 sujetos, se en- cuentra entre -.03 y + .33, el límite mínimo tiene signo menos, luego cero es un valor posible; no se trata por lo tanto de una correlación estadísticamente CONCEPTO DE CORRELACIÓNYCOVARIANZA 145 11 Los intervalos de confianza del coeficiente de correlación también podemos cal- cularlos muy fácilmente en programas de Internet (Anexo II; uno muy cómodo es el de VassarStats). Tabla 7
  • 146.
    Las valoraciones anteriores,y otras semejantes que pueden encontrarse en libros de texto, son orientadoras y hay que interpretarlas con cautela. Es- tas valoraciones suelen darse teniendo en cuenta la mera magnitud, pero una correlación baja puede tener interés interpretativo12 . 12 Cohen (1988:77-81) establece (y justifica) como criterio orientador (y provisional) es- tas valoraciones: correlación pequeña r = .10, media r = .30 y grande r = .50. Basa sus va- significativa. Siempre que entre los valores extremos posibles (máximo y mí- nimo) de la correlación hay un cambio de signo, entra como posible el valor cero y la correlación ya no es en ese caso estadísticamente significativa (pue- de ser cero en la población). 2. Los intervalos de confianza son más informativos que el decir simple- mente si un coeficiente de correlación es o no es estadísticamente significa- tivo; nos dicen entre qué valores probables puede oscilar ese coeficiente en la población representada por la muestra. Lo que suele recomendarse es aportar también los intervalos de confianza. 3.7. Cómo valorar la magnitud de la correlación ¿Cuándo un coeficiente de correlación es suficientemente alto? No vamos a tener una respuesta clara y de aplicación universal, pero sí se pueden dar orientaciones para valorar la magnitud de estos coeficientes. 3.7.1. Orientaciones generales Una vez que hemos comprobado que un coeficiente de correlación es es- tadísticamente significativo (= muy improbable por azar y que por lo tanto se puede interpretar como indicador de una verdadera relación distinta de cero), la cuestión siguiente es valorar la magnitud del coeficiente. Como criterio orientador (sin convertirlo en norma) se suelen sugerir las valoraciones indicadas en la tabla 8. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 146 un valor de r entre: indica una relación: 0 y .20 ...................................... muy baja, .20 y .40 .................................... baja .40 y .60 .................................... moderada .60 y .80 .................................... apreciable, más bien alta .80 y 1 ....................................... alta o muy alta Tabla 8
  • 147.
    a) Una correlaciónno significativa o simplemente muy baja, puede ser tan informativa e interesante como una correlación alta. El descubrir una no relación puede tener tanto interés como verificar que sí exis- te relación. También puede suceder que se dé una clara relación, pe- ro no linear sino curvilínea, y esto puede apreciarse en un diagrama de dispersión (el coeficiente eta, h, es el apropiado para relaciones curvilíneas). b) Un coeficiente de correlación puede también calificarse como alto o ba- jo añadiendo y matizando en este contexto. Las correlaciones muy ba- jas a veces se deben no a que las relación es efectivamente baja, sino a que medimos mal las variables, con instrumentos poco precisos que no detectan bien las diferencias entre los sujetos, etc. En un cuadro gene- ral de coeficientes más bien bajos, obtenidos con instrumentos seme- jantes y en un mismo planteamiento de investigación, pueden destacar los coeficientes altos en términos relativos. c) Para valorar la magnitud de un coeficiente de correlación, r2 (o coefi- ciente de determinación, que expresa la proporción de variación conjunta) puede parecer más útil que el valor de r (y así suele a veces indicarse) ya que aparentemente este valor expresa el impacto de una variable sobre la otra variable. Como los valores de r2 son mucho más bajos que los de r (si r = .30, r2 = .09) el utilizarlos como criterio para valorar la magnitud o la importancia de un coeficiente de correlación tiene sus riesgos porque los coeficientes bajos pueden ser también in- formativos o sugerir preguntas de interés como indicamos en el apar- tado siguiente. 3.7.2. Sobre la interpretación y utilidad de los coeficientes de correlación bajos Los coeficientes de correlación altos o moderadamente altos no ofrecen es- peciales problemas; en general resultan gratificantes para el investigador. Son los coeficientes bajos, aunque sean estadísticamente significativos, los que a ve- ces nos cuesta interpretar adecuadamente. Por eso les dedicamos una especial atención (en el apartado siguiente sugerimos posibles causas que pueden expli- car coeficientes muy bajos donde cabría esperarlos mayores). La primera observación sobre estos coeficientes muy bajos (como cuando son mucho menores de .30), es que simplemente expresan una relación en- CONCEPTO DE CORRELACIÓNYCOVARIANZA 147 loraciones en que en las ciencias de la conducta las correlaciones suelen ser bajas. Este autor es conocido (y citado) por las valoraciones que hace sobre las magnitudes de determinados estadísticos (son citadas sobre todo sus valoraciones sobre el tamaño del efecto). En otro apartado (3.7.3.) damos posibles explicaciones de coeficientes de correlación bajos.
  • 148.
    tre las dosvariables (matizando siempre tal como la medimos) que es muy pequeña. Con muestras grandes es normal encontrar correlaciones estadísti- camente significativas pero tan pequeñas que pueden ser prácticamente irre- levantes. Aun así estos coeficientes pequeños pueden darnos información útil o buenas pistas para pensar al menos por qué no encontramos una relación apreciable donde cabría esperarla (este punto lo tratamos en el apartado si- guiente). Además, dadas las limitaciones de nuestros instrumentos de medi- ción, la relación real puede ser mayor de la que somos capaces de cuantificar (una imagen que nos puede ayudar es la de un iceberg: lo que somos capaces de ver y cuantificar es mucho menor que lo que está sumergido). 1º Los coeficientes bajos (por ejemplo de .30) son poco útiles (o inútiles) desde una perspectiva práctica; por ejemplo para predecir resultados. Si dos variables están relacionadas, conociendo la puntuación de un sujeto en una variable, podemos predecir (o estimar) cuál será su puntuación en la otra va- riable. Por eso se habla de la validez predictiva de los tests (admisiones, se- lección, etc.). Aun así tests con baja validez predictiva pueden ser predictores útiles unidos a otros en correlaciones múltiples (que no tratamos ahora), pe- ro esta utilidad habría que comprobarla13 . En estos casos (validez predictiva de los tests) también hay que tener en cuenta lo que explicamos en el aparta- do los coeficientes de correlación corregidos por restricción de la amplitud. 2º Coeficientes de correlación muy pequeños, si son significativos (es de- cir, que probablemente no son cero en la población), pueden estar indicando alguna ley psicológica14 ; el que la correlación sea pequeña puede significar no que sea realmente pequeña sino que medimos muy pobremente las variables o que esta correlación está contaminada por otras variables que no tenemos en cuenta; casi nunca medimos variables puras (así la inteligencia, tal como la medimos, puede estar contaminada por niveles de educación, capacidad lec- tora, etc.). 3º Algunos autores15 señalan que una correlación de .30 (aparentemente baja) viene a indicar el tipo de relación que un observador puede detectar ca- sualmente; es una relación detectable a simple vista; por ejemplo, cuando un profesor cae en la cuenta, al cabo de los años, de que entre los alumnos que se sientan en las últimas filas y junto a una ventana hay más suspensos que en- tre los que se sientan en la primera fila… esa relación observable podría ser del orden de r = .30 y ciertamente relevante. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 148 13 El tema de la predicción, obviamente muy relacionado con la correlación, no lo es- tamos tratando aquí; puede verse tratado en el documento correlación y regresión (www.upcomillas.es/personal/peter). 14 Guilford y Fruchter (1973: 92). 15 Por ejemplo Cohen P. (1981) y Cohen J. (1988:80), y también otros autores hacen la misma observación. Cohen J. (1988:80) cita coeficientes de correlación importantes que son de este tipo de magnitud (.30).
  • 149.
    4º Cuando lasdos variables son dicotómicas (una puede ser participar o no participar en una terapia, en un nuevo método, experiencia, etc. y la otra mejorar o no mejorar, sobrevivir o no sobrevivir, etc.) el coeficiente de co- rrelación es igual al tanto por ciento de éxito; así una correlación de .20 (que indica que solamente hay un 4% de varianza común) quiere decir que con ese tratamiento han mejorado, sobrevivido, etc., un 20% más de los que hubie- ran sobrevivido de no seguir ese tratamiento16 . Este es un dato importante pa- ra valorar los coeficientes de correlación, que aunque sean bajos pueden in- dicar un éxito cualitativamente importante (¿es despreciable un 4% de supervivientes (si r = .04) que de otra manera no hubieran sobrevivido?). Sobre esta última valoración e interpretación de los coeficientes de corre- lación hacemos dos observaciones: 1ª Aunque literalmente se refiere a la correlación entre dos variables dico- tómicas (un caso especial de la correlación de Pearson que en principio requiere que al menos una variable sea continua), esta interpretación es también válida cuando las variables son continuas (como escalas ti- po Likert).17 2ª Aunque este tipo de comprobaciones (por ejemplo eficacia de una te- rapia) las hacemos habitualmente comparando medias (comparando dos grupos, uno experimental y otro de control) los resultados (t de Student) se pueden convertir fácilmente en un coeficiente de correla- ción que añade una información complementaria que no nos aporta la t de Student, pues nos permite valorar la magnitud (y por lo tanto la importancia) de la diferencia.18 Aunque estos planteamientos no sean los que más nos interesen ahora mismo al tratar de la correlación de Pearson, no sobra intuir el valor informa- tivo que puede tener una correlación pequeña. CONCEPTO DE CORRELACIÓNYCOVARIANZA 149 16 Esta interpretación (denominada Binomial Effect Size Display, BESD) elaborada por Rosenthal y Rubin (1979, 1982; Rosenthal, 1987); la recogen también otros autores (por ejemplo Hunter y Schmidt, 1990:202; Cohen, 1988:533) que revalorizan la informa- ción que pueden aportar a veces coeficientes pequeños de correlación en determinadas si- tuaciones. En los primeros autores citados pueden encontrarse una explicación más deta- llada y tablas que facilitan esta interpretación. Sobre el Binomial Effect Size Display puede verse en Internet Randolph y Edmondson (2005), que exponen su utilidad y limitaciones y también cómo calcular este Binomial Effect Size Display a partir del tamaño del efecto (d de Cohen) si se ha hecho un contraste de medias (la t de Student puede transformarse en un coeficiente de correlación). 17 Rosenthal (1987: 114-115). 18 Las fórmulas para convertir los valores de t en r y viceversa suelen verse tratando del tamaño del efecto en el contexto del contraste de medias.
  • 150.
    5º Hay quetener en cuenta la situación y el uso del coeficiente. Un valor pequeño (por ejemplo de r =.20) puede ser poco útil (o nada útil) con fines predictivos, y ser sin embargo de interés en una investigación teórica; a veces lo que interesa es constatar si se da alguna relación. Estas consideraciones sobre los coeficientes pequeños de correlación hay que complementarlas con otras sobre las posibles causas de estos valores ba- jos, sobre todo si cabría esperar que fueran mayores. Nos introducen en otras reflexiones útiles para el investigador. 3.7.3. Explicaciones posibles de coeficientes de correlación muy bajos Una correlación baja puede significar simplemente eso, que la relación en- tre esas dos variables es pequeña. Sin embargo una correlación baja donde hubiéramos esperado un valor mayor nos invita a preguntarnos el por qué de esa correlación baja o nula. Puede que sea baja tal como la hemos medido y además en una determinada muestra, pero que en la realidad, en la vida, la relación sea mayor y más clara. Explicaciones posibles de coeficientes de correlación bajos. Las posibles explicaciones (más que causas) de los coeficientes de corre- lación muy bajos pueden ayudarnos en su interpretación y explicación. a) Poca fiabilidad, o poca precisión, en los instrumentos de medición Entre dos variables puede haber una verdadera relación, pero no detecta- ble si medimos con poca precisión, sin diferenciar adecuadamente a unos sujetos de otros. Debemos tener en cuenta que a veces intentamos medir sentimientos, profundos, recuerdos del pasado, valoraciones difíciles de ha- cer, etc., con preguntas sencillas, que los sujetos a veces responden rápida- mente y sin especial cuidado19 ; quizás no tenemos otra manera mejor de ha- cerlo en un momento dado, pero en cuanto instrumentos de medición resultan muy pobres (aunque pueden ser muy útiles). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 150 19 Con las preguntas de muchos cuestionarios lo que hacemos con frecuencia es inten- tar atrapar sentimientos con un cazamariposas. A veces podemos sospechar que una co- rrelación muy pequeña, sobre todo detectada con instrumentos muy pobres, es simple- mente la punta del iceberg; la realidad sumergida (o sugerida como hipótesis) puede ser mucho mayor. Para Cohen (1988:79) muchas de las correlaciones que podemos buscar en las ciencias blandas de la conducta son del orden de .10 ya que en las variables, tal como las operacionalizamos, hay muchos ruidos (falta de fiabilidad o de fidelidad al construc- to teórico, etc.). El mismo autor cita a Thurstone cuando dice que en psicología medimos a los hombres por sus sombras.
  • 151.
    Es posible aplicarlas fórmulas de corrección por atenuación que dan una estimación de la correlación que podríamos obtener si la fiabilidad fuera perfecta. De estas fórmulas (que suponen una comprensión adecuada de lo que es la fiabilidad) tratamos más adelante. b) Homogeneidad de la muestra La relación verificada (que es lo que indica el coeficiente de correlación) supone diferencias entre los sujetos en las variables cuya relación nos intere- sa comprobar. Con muestras muy homogéneas los coeficientes son bajos; con muestras heterogéneas es más fácil detectar relaciones. Por ejemplo la re- lación comprobada mediante el coeficiente r entre inteligencia y rendi- miento escolar puede ser muy baja o nula si los alumnos han sido selecciona- dos precisamente por su inteligencia (no hay diferencias, o muy pequeñas, en una de las variables). c) Instrumentos poco discriminantes También puede suceder que el poco matiz de algunas medidas no recoge las diferencias que de hecho se dan, e impide encontrar coeficientes de corre- lación altos. Se trata en definitiva de limitaciones en el instrumento de medi- da. Con frecuencia es éste el caso cuando: a) Una de las variables son calificaciones escolares que apenas diferencian a los alumnos, o son notas medias que tienen a parecerse mucho en- tre sí. b) Cuando medimos una variable con unas preguntas que admiten pocas respuestas (como sí o no, o poco, algo, mucho, cuando los sujetos po- drían matizar más) y que por lo tanto no recogen la diversidad que de hecho puede estar presente en la muestra. La homogeneidad de la muestra puede estar provocada por el mismo ins- trumento, que no discrimina lo suficiente, y sin diferencias claras en la mues- tra y en ambas variables no se detectan relaciones. Este punto hay que tener- lo en cuenta en la construcción de instrumentos de medida (tests, escalas, cuestionarios…). 3.8. Los coeficientes de correlación cuando unimos o separamos submuestras Este apartado es de interés porque muchas veces los sujetos de nuestras muestras se pueden subdividir de muchas maneras (cursos, carreras, profe- siones, sexos, procedencia), y también en las variables que correlacionamos CONCEPTO DE CORRELACIÓNYCOVARIANZA 151
  • 152.
    cabe distinguir variassubvariables (por ejemplo, en vez de, o además de, una nota media como criterio de rendimiento se pueden utilizar las notas de las distintas asignaturas y también otros criterios disponibles). En dos muestras distintas podemos encontrar una correlación alta entre, por ejemplo, un test de inteligencia y calificaciones en una asignatura, y al unir las dos muestras podemos encontrarnos con que la correlación baja apreciablemente. Esto puede suceder si las medias en esa asignatura son muy distintas en las dos muestras (como puede suceder si se trata de profesores distintos, o con distinto criterio para calificar, etc.) Calculando coeficientes de correlación uniendo muestras distintas o separándolas podemos hacer que aumenten o disminuyan las diferencias en una o en las dos variables y esto na- turalmente afecta a los coeficientes de correlación. Presentamos (de manera un tanto exagerada para que quede más claro) algunos casos típicos que ponen de relieve lo que puede suceder al unir o se- parar muestras. Cuando una muestra está compuesta por submuestras (ambos sexos, di- versas edades, o una muestra subdividible por cualquier otra variable) puede merecer la pena calcular la correlación dentro de cada submuestra; con fre- cuencia aparecen correlaciones en subgrupos concretos sin que aparezcan en la muestra general; y al revés, puede no haber una relación apreciable en una submuestra y aparecen relaciones importantes cuando las unimos en una so- la muestra. Los gráficos siguientes (diagramas de dispersión, con datos ficticios) ilus- tran situaciones que pueden ser frecuentes y en las que los coeficientes de correlación varían mucho si los calculamos en submuestras distintas o en to- da la muestra20 . En el diagrama I (figura 6) tenemos que dentro de cada muestra r = 0, en cambio si unimos las dos muestras en una sola, la correlación pasa a ser muy alta. Una muestra tiene las dos medias más altas que la otra, y al unirlas en una sola muestra tienden a coincidir los altos y los bajos en las dos variables. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 152 20 De hecho un mismo coeficiente de correlación puede corresponder a diagramas de dispersión muy distintos en los que el mismo coeficiente no se podría interpretar de la misma manera, por eso para interpretar estos coeficientes es muy aconsejable tener a la vista el diagrama de dispersión. Un ejemplo muy ilustrativo son los cuatro diagramas de dispersión que con datos ficticios publicó Anscombe (1973); los cuatro diagramas de dis- persión son muy distintos pero corresponden a un idéntico coeficiente de correlación de .82; estos diagramas los reproducen con su explicación algunos autores (por ejemplo Fox; 1993:246 y Etxcheberria, 1999:49) y también podemos encontrarlos con facilidad en Inter- net (por ejemplo Behrens, 1997); también en Internet Dallal (2001) reproduce (en corre- lation coefficients) ocho diagramas muy distintos que corresponden a un mismo coefi- ciente de correlación de .70
  • 153.
    Éste podría serel caso de la correlación entre peso (X) y edad (Y) en un grupo de niños de cinco años y en otro de diez años. En cada grupo la co- rrelación es cero; las diferencias en edad (meses, semanas) y en peso son pe- queñas y sobre todo no son sistemáticas (dos meses más de edad no implica pesar medio kilo más…). En cambio si juntamos los dos grupos y calculamos la correlación con todos sube a .82 (muy alta): ahora coinciden altos en edad- altos en peso y bajos en edad-bajos en peso. Como ejemplo puede ser irrele- vante, pero es claro En el diagrama II (figura 7) tenemos el caso opuesto: dentro de cada gru- po la correlación es alta, pero baja apreciablemente al unirlos en un solo grupo. Posiblemente ambos grupos proceden de poblaciones distintas por lo que respecta a las medias en la variable X (y esto podría comprobarse). CONCEPTO DE CORRELACIÓNYCOVARIANZA 153 Figura 6: DIAGRAMA I Y X 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Subgrupo A, r = 0.00 Subgrupo B, r = 0.00 Todos, r = 0.82 Caso 1º
  • 154.
    En el ejemplodel diagrama II (figura 7) la variable Y podría ser un test de inteligencia abstracta, y la variable X notas en matemáticas. En ambos gru- pos las medias en Y (inteligencia) son parecidas, pero las medias en X (no- tas en matemáticas) son claramente diferentes. En ambos casos los más inte- ligentes según ese test son también los que mejores notas sacan; en cada clase hay una relación alta y clara entre el test (Y) y las notas (X), pero esta re- lación baja si calculamos la correlación juntando las dos clases en un mismo grupo. ¿Por qué? En este ejemplo podría tratarse de profesores distintos, uno califica más bajo y el otro más alto… al juntar a todos los alumnos de las dos clases se neutralizan las diferencias y queda menos claro lo de altos en las dos o bajos en las dos… En un caso como éste se podría calcular la correlación por separado en cada muestra y luego calcular la correlación media. Esto es frecuente también que suceda cuando una de las variables es la no- ta media de varias asignaturas; estas notas medias neutralizan las diferencias en rendimiento académico. En estos casos puede ser preferible comprobar la correlación en cada muestra por separado y calcular después la correlación media. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 154 Figura 7: DIAGRAMA II Y X 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Subgrupo A Subgrupo B Todos, r = 0.30 Caso 2º r = 0.84 r = 0.84
  • 155.
    En el diagramaIII (figura 8) tenemos un caso distinto pero frecuente cuando ha habido procesos de selección. En toda la muestra la correlación es muy alta, sin embargo si la calculamos en la submuestra con puntuaciones más altas en una o las dos variables, la correlación baja e incluso puede ser negativa. Si una variable es un test de inteligencia (X) utilizado para seleccionar can- didatos en una universidad, y la otra variable (Y) es rendimiento académico, tendríamos que dentro de los seleccionados (los únicos de los que tenemos datos en las dos variables) la correlación obtenida entre inteligencia y rendi- miento es muy baja e incluso puede ser negativa. Con la selección elimina- mos diferencias en una variable (X), y sin diferencias sistemáticas en las dos variables no hay relación comprobable. Éste es un caso típico cuando se de- sea ver si los tests utilizados en las pruebas de admisión (o cualquier otro da- to de entrada) tiene que ver con el éxito posterior. En el caso representado en la figura 8 no han sido admitidos los que no han llegado a 6 en la prueba de admisión (X) con lo que tenemos datos en X de todos (admitidos y no admitidos), pero en Y (éxito académico) sólo tene- mos datos de los admitidos. Hemos homogeneizado la muestra y entre los CONCEPTO DE CORRELACIÓNYCOVARIANZA 155 Figura 8: DIAGRAMA III Y X 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Subgrupo A, r = 0.83 Subgrupo B, r = 0.00 Todos, r = 0.92 Caso 3º
  • 156.
    seleccionados no sedetecta ninguna relación entre el test de admisión (X, un presunto predictor) y éxito académico. Veremos métodos para calcular una estimación de la correlación entre las dos variables en toda la muestra, si disponemos de la correlación en el gru- po seleccionado (en el que tenemos datos de las dos variables) y además la varianza de toda la muestra en una de las dos variables (en este caso del test de inteligencia utilizado en la selección). Estas estimaciones son útiles pa- ra poder apreciar y valorar la eficacia de un test supuestamente predictivo, independientemente de las correlaciones (quizás muy bajas) que hayamos obtenido (volvemos a este punto al tratar de los coeficientes de correlación corregidos por restricción de la amplitud, nº 4.2). 3.9. Influjo en la correlación de las puntuaciones extremas (outliers) Una puntuación extrema o atípica (outlier en inglés) es la que se aparta mucho de las demás. Si una variable es la edad y la muestra es de niños de 12 a 14 años, si incluimos un sujeto de 40 años se trata evidentemente de una puntuación extrema en la variable edad. Estas puntuaciones extremas o atípi- cas pueden influir mucho en el coeficiente de correlación. Lo vemos clara- mente en el diagrama IV de la figura 9. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 156 Figura 9: DIAGRAMA IV Y X 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 r = .64 r = .00
  • 157.
    En los sujetosencerrados en el recuadro vemos una correlación más bien alta (r = .71) que baja a .15 si incluimos un solo sujeto con una puntuación muy alta en una variable (en X) y muy baja en la otra (en Y). El efecto de estas puntuaciones atípicas (outliers) es muy grande en mues- tras pequeñas (como en las de estos ejemplos ficticios); en muestras muy grandes puede ser inapreciable, pero aun así estas puntuaciones que se salen de lo normal pueden distorsionar la información de un coeficiente de corre- lación. Estas puntuaciones pueden estar indicando a veces respuestas inten- cionadamente exageradas o simplemente que el sujeto no entendió la pre- gunta, pero también pueden reflejar respuestas sinceras de sujetos realmente atípicos. Si calculamos la correlación con los sujetos encerrados en el recuadro te- nemos r = 0, no hay ninguna relación como se aprecia a simple vista en el diagrama, pero si añadimos un sujeto más con puntuaciones muy altas en las dos variables (altas en términos relativos, comparadas con los de los demás sujetos), la correlación sube de 0 a .64. También pueden bajar como podemos ver en el diagrama V de la figura 10. CONCEPTO DE CORRELACIÓNYCOVARIANZA 157 Figura 10: DIAGRAMA V Y X 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 r = .71 r = .15
  • 158.
    Con respecto aestas puntuaciones atípicas: a) Puede ser de interés hacer un análisis cualitativo de los sujetos con es- te tipo de respuestas ¿Qué característica tienen en común? Aquí puede haber resultados interpretables. b) Se puede presentar el valor de la correlación con o sin estos sujetos atí- picos; esto puede ser más aconsejable en muestras pequeñas. c) Ciertamente en muchos estudios se prescinde de estos sujetos porque distorsionan el valor de los coeficientes de correlación y no muestran la relación entre las variables que podemos esperar en sujetos normales; por alguna razón estas respuestas no son normales y es preferible no contabilizar a esos sujetos. En estos casos conviene indicarlo, lo mismo que el criterio que se ha seguido para identificar los datos atípicos21 . d) Sobre cuándo una puntuación se aparta realmente de lo normal no hay unanimidad en los criterios, pero una norma aceptable es prescindir de los sujetos que en cualquiera de las variables tengan una puntuación tí- pica superior a 3 (positiva o negativa)22 . 4. COEFICIENTES DE CORRELACIÓN CORREGIDOS Los coeficientes de correlación pueden resultar a veces de alguna manera deformados (demasiado altos o demasiado bajos) por diversas causas, de ma- nera que no dan una idea clara sobre la verdadera relación entre dos variables. Tenemos por ejemplo estos tres casos de los que vamos a tratar a conti- nuación: 1º Una baja relación donde la esperamos mayor puede deberse a la baja fiabilidad de los instrumentos de medición, y no tanto a que las varia- bles no estén claramente relacionadas; al menos las correlaciones se- rían mayores con una fiabilidad mayor en los instrumentos. 2º También una baja relación puede deberse a que la muestra en la que se ha calculado ha sido artificialmente homogeneizada, han disminuido ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 158 21 En grandes estudios correlacionales se suele prescindir de estos sujetos atípicos (por ejemplo con puntuaciones típicas en alguna variable superiores a z = 2), e incluso es- ta supresión está prevista en programas como el SPSS. 22 Orientación de Osborne y Overbay (2004) que recomiendan la exclusión de estas puntuaciones (there are strong arguments for removal or alteration of outliers) y expo- nen los diversos posibles orígenes de estos outliers. Otra alternativa propuesta por otros autores consiste en recodificar los outliers y sustituir estas puntuaciones por las puntua- ciones máxima y mínima presentes en el resto de los datos (truncation). Estas puntuacio- nes atípicas también afectan a la t de Student y al análisis de varianza.
  • 159.
    las diferencias enuna de las variables y naturalmente bajan los coefi- cientes de correlación (explicado antes a propósito del diagrama III, fi- gura 8). 3º Cuando calculamos la correlación entre una parte y el todo (como en- tre un ítem y la puntuación total de la que forma parte ese ítem) en es- te caso la correlación sube artificialmente y da una idea incorrecta so- bre la verdadera relación entre esa parte y el todo. Para estas situaciones, que son frecuentes, disponemos de fórmulas co- rrectoras que nos dan una estimación de la verdadera correlación (o la corre- lación exacta como en el caso 3º). 4.1. Correlación y fiabilidad: los coeficientes de correlación corregidos por atenuación Ya hemos indicado antes que la verdadera relación puede ser mayor que la que muestra un determinado coeficiente, debido a la falta de fiabilidad de los instrumentos de medición. Si el instrumento (test, escala, etc.) no detecta con precisión las diferencias que hay entre los sujetos, la correlación calculada pue- de ser inferior a la real (o superior en el caso de las correlaciones parciales)23 . Este apartado, que es importante situarlo en el contexto de los coeficien- tes de correlación, supone un estudio previo de lo que son los coeficientes de fiabilidad, pero se puede entender con sólo una noción básica de lo que es la fiabilidad (precisión en la medida). 4.1.1. Fórmula de corrección por atenuación Disponemos de unas fórmulas que nos permiten estimar cual sería el co- eficiente de correlación si la fiabilidad fuera perfecta. Se denominan fórmulas de corrección por atenuación porque el coeficiente de correlación está ate- nuado (disminuido) por la falta de fiabilidad de los instrumentos. La fórmula general de la correlación corregida por atenuación es: CONCEPTO DE CORRELACIÓNYCOVARIANZA 159 23 Una buena exposición de los efectos de la baja fiabilidad en los coeficientes de co- rrelación y de la corrección por atenuación puede verse en Osborne (2003). rxx y ryy son los coeficientes de fiabilidad de cada medida; en el denominador pue- de estar también sólo la fiabilidad de uno de los instrumentos si la del otro nos es desconocida, como aparece más adelante en la fórmula [13].
  • 160.
    Para poder aplicaresta fórmula con resultados fiables: 1) Los coeficientes de fiabilidad que aparecen en el denominador deben estar calculados en muestras grandes24 . 2) Los coeficientes de fiabilidad deben calcularse mediante los procedi- mientos que dan las mejores estimaciones de la fiabilidad (como las fórmulas Kuder-Richardson 20 y el coeficiente a de Cronbach). Cuando el coeficiente de fiabilidad es más bien una estimación pobre y aproxi- mada, la correlación corregida por atenuación puede incluso superar el valor de 1. 3) Los coeficientes de fiabilidad deben calcularse solamente en medidas claramente unidimensionales, es decir, que miden un único rasgo25 . 4.1.2. Cuándo debe hacerse esta corrección por atenuación 1º Cuando interese saber hasta qué punto dos variables están relaciona- das, independientemente de los errores de medición de los instrumentos uti- lizados. Esto sucede en muchos planteamientos de investigación teórica. Si por ejemplo calculamos la correlación entre autoeficacia académica y autorregulación en el estudio, lo que realmente nos interesa conocer es has- ta qué punto ambas variables van juntas. Si las medidas que de hecho utiliza- mos (tests, escalas, etc.) tienen una fiabilidad baja (clasifican mal a los sujetos) la correlación sin corregir puede sugerir que las dos variables están menos re- lacionadas que lo que de hecho están. Estos coeficientes de correlación corregidos son interesantes para apre- ciar lo que podemos estimar que es el verdadero valor de una relación, pe- ro no tienen utilidad práctica (por ejemplo para hacer estudios de predic- ción) porque de hecho medimos con los instrumentos que tenemos, con Por ejemplo: tenemos un coeficiente de correlación entre dos variable de .25; los coeficientes de fiabilidad de los dos instrumentos son .70 uno (sufi- cientemente alto) y .40 (muy bajo) el otro. Podemos preguntarnos ¿Cuál es la estimación de la correlación entre estas dos variables si las midiéramos con una fiabilidad ideal?: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 160 24 Según Nunnally (1978) no deben ser inferiores a N =300. 25 Cuando se utiliza esta corrección por atenuación en medidas que no son unidi- mensionales, el valor de la fiabilidad puede superar el valor de 1 (Schmitt, 1996).
  • 161.
    Si comparamos estafórmula con la anterior, vemos que hemos suprimido del denominador la fiabilidad del predictor; sólo se ha corregido la correla- ción por la falta de fiabilidad en el criterio. Lo que nos interesa conocer en estos casos es la correlación entre el pre- dictor (X, por ejemplo un examen de ingreso), con los errores y la fiabilidad que de hecho tenga, y el criterio (Y) si tuviera la máxima fiabilidad. Esta correlación nos indicará mejor la calidad del predictor. En los problemas de predicción, la fiabilidad del predictor impone un lími- te en su capacidad de predecir, y con esa limitación hay que contar. En cam- bio la falta de fiabilidad del criterio lo que hace es obscurecer la capacidad todas sus imperfecciones y en este caso es preferible no hacer estas correc- ciones por atenuación. 2º También suele aplicarse la fórmula de corrección por atenuación cuando se calcula la correlación entre dos formas paralelas del mismo test, como una forma de fiabilidad (para comprobar si las dos versiones del mis- mo test ordenan a los sujetos de manera semejante). En este caso es discutible el calcular el error típico (que se calcula a par- tir de los coeficientes de fiabilidad, que en este caso es un coeficiente de co- rrelación), porque este error (o margen de oscilación de las puntuaciones in- dividuales si los sujetos respondieran varias veces al mismo test) puede parecer menor de lo que realmente es. En general siempre que de estos cálculos se derivan de alguna manera datos que van a influir en decisiones o diagnósticos de sujetos, hay que tener en cuenta los errores de medición (la falta de fiabilidad de los instrumentos) en vez de suponer que no existen. Pa- ra la toma de decisiones tenemos que asumir las limitaciones que nuestros instrumentos tienen de hecho. 3º Otra serie de aplicaciones de la corrección por atenuación tienen que ver con lo que suele denominarse validez predictiva, o correlación entre un predictor X y un criterio Y. El predictor puede ser, por ejemplo, un examen o un test de admisión, y el criterio (que se desea predecir) pueden ser califi- caciones, un examen final, o cualquier otra medida que refleje éxito. En estos casos el problema está en el criterio: la falta de fiabilidad del cri- terio hace bajar la correlación entre predictor y criterio, y el test predictor puede parecer menos válido de lo que realmente es. En estos casos se aplica esta fórmula: CONCEPTO DE CORRELACIÓNYCOVARIANZA 161 rxy = correlación calculada entre el predictor (X) y el criterio (Y) ryy = fiabilidad del criterio
  • 162.
    predictora del testo instrumento utilizado como predictor. Muchos de los lla- mados coeficientes de validez (que en este caso no son otra cosa que coefi- cientes de correlación entre predictor y criterio) aportan de hecho poca in- formación o son de interpretación ambigua porque no se ha tenido en cuenta la fiabilidad del criterio. Un problema que suele encontrarse en estos planteamientos es la dificul- tad de calcular la fiabilidad del criterio. Frecuentemente todo el interés se centra en el predictor (qué test se utiliza, etc.) y se descuida la calidad y fia- bilidad del criterio (o variable que se pretende predecir, por ejemplo notas, éxito académico, etc.)26 4.1.3. Otras estimaciones de la correlación modificando la fiabilidad Existen otras fórmulas para estimar la correlación que obtendríamos entre un predictor (X) y un criterio (Y), no si tuvieran la máxima fiabilidad, sino sim- plemente una fiabilidad distinta. Por fiabilidad distinta no hay que entender una fiabilidad mayor necesariamente, también podría ser menor. Puede suce- der que con tests más breves (y probablemente de una fiabilidad menor pe- ro con el consiguiente ahorro económico, de tiempo, etc.) obtengamos casi los mismos resultados que con tests más largos. Este planteamiento puede tener su interés porque la fiabilidad depende (en parte) del número de ítems (otras fórmulas relacionan la longitud del test y fia- bilidad). La fiabilidad perfecta no la tenemos nunca, pero sí podemos conseguir que aumente mejorando la calidad de los ítems y aumentando su número. Aunque este tipo de planteamientos se presentan sobre todo cuando inte- resa predecir el éxito (en selección de personal, por ejemplo) estas fórmulas son aplicables también para analizar cualquier coeficiente de correlación en- tre dos variables que en un sentido más propio no puedan calificarse como predictor y criterio. Lo que se plantea con más frecuencia es estimar la correlación entre X e Y si aumentamos la fiabilidad de ambos instrumentos (añadiendo más ítems). La fórmula aplicable en estos casos es la siguiente: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 162 26 Cuando se pretende predecir éxito académico (a partir de un test, de datos pre- vios) el criterio suele ser nota media final con frecuencia poco fiable o de fiabilidad impo- sible de calcular. En estos casos (y otros) conviene disponer de varios criterios de éxito (número de sobresalientes, de suspensos, notas en determinadas asignaturas, etc.)
  • 163.
    rxy = correlaciónobtenida entre X e Y r’xx = coeficientes de fiabilidad en X distinto rxx = coeficientes de fiabilidad obtenido en X El coeficiente de fiabilidad de X distinto puede ser menor, por ejemplo en una versión reducida (y más económica o más cómoda) del mismo test. En este caso (frecuente) podemos suponer que no nos es fácil modificar, e inclu- so calcular, la fiabilidad del criterio. 4.1.4. Relación entre longitud del test y fiabilidad y longitud del test y correlación Existen otras fórmulas que relacionan: a) El número de ítems y la fiabilidad de cualquier test (al aumentar el nú- mero de ítems la fiabilidad tiende a aumentar); las fórmulas que rela- cionan el número de ítems y la fiabilidad suelen verse en el contexto de la fiabilidad. b) La correlación entre X e Y y el número de ítems (la longitud) de X (X es el test predictor que se controla con más facilidad). Estas fórmulas, y otras (como las que vemos en el apartado siguiente), pueden encontrarse con facilidad en textos de psicometría y de estadística aplicada a la educación27 . Cuando se trata de aumentar el número de ítems (para que suban la fiabi- lidad o un coeficiente de correlación), se supone que los nuevos ítems son del mismo estilo (miden lo mismo, son de formulación parecida y de seme- rxy = correlación obtenida entre X e Y r’xx y r’yy = coeficientes de fiabilidad distintos (nuevos, deseados) rxx y ryy = coeficientes de fiabilidad obtenidos de hecho Si solamente vamos a modificar el coeficiente de fiabilidad de uno de los dos instrumentos (X en este caso, pero podría ser Y) la fórmula es ésta: CONCEPTO DE CORRELACIÓNYCOVARIANZA 163 27 Las fórmulas que relacionan la fiabilidad y el número de ítems pueden verse en Mo- rales, Urosa y Blanco (2003).
  • 164.
    jante dificultad, etc.)que los que ya tenemos; como esto no suele ser así exactamente, habría que hablar de estimaciones de la nueva fiabilidad o co- rrelación al aumentar el número de ítems. Estas fórmulas son de una utilidad en general muy limitada, pero pueden tener su interés cuando nos interesa construir o modificar un test para que tenga una clara validez predictiva o al menos una mayor validez (es decir, una mayor correlación entre el predictor y el criterio) que la que disponemos (por ejemplo en procesos de selección, admisiones, etc.; buscamos una co- rrelación clara con criterios definidos); a la vez podemos controlar la fiabili- dad del test predictivo aumentando el número de ítems. Estas fórmulas suelen aplicarse: a) En aquellos tests que se pueden manipular con facilidad porque resul- ta fácil aumentar el número de ítems, como puede ser un examen ob- jetivo de conocimientos. b) En situaciones en las que es de gran interés la validez predictiva (co- mo en procesos de admisión o selección, que por otra parte tampoco suelen limitarse a un test). No es habitual utilizar estas fórmulas con otros tipos de tests (por ejemplo en tests de personalidad, inteligencia, etc.) ya hechos y publicados, y que ya tienen el número de ítems decidido por el constructor del test. 4.2. Los coeficientes de correlación corregidos por restricción de la amplitud Ya hemos visto que cuando la muestra es más homogénea (los sujetos son muy parecidos unos a otros en las dos o en una de las dos variables) baja el valor del coeficiente de correlación. No se comprueban relaciones si los suje- tos no son distintos en las dos variables. El que los coeficientes de correlación sean menores cuando la muestra es homogénea plantea también problemas de validez predictiva en situaciones de selección. Vamos a suponer que ponemos un test de selección (el test X, el predic- tor) para admitir a los futuros alumnos de una universidad y nos quedamos con los mejores, los que puntúan muy alto en el test X. Entre los alumnos ad- mitidos habrá menos diferencias en lo que mida el test X que entre todos los que se presentaron a las pruebas de admisión; hemos homogeneizado la muestra mediante el proceso de selección. Posteriormente queremos comprobar la validez del test X, y calculamos la correlación entre el test X y el criterio Y (por ejemplo calificaciones, o una ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 164
  • 165.
    Rxy = estimaciónde rxy si la calculáramos en toda la muestra inicial; rxy = correlación entre X e Y obtenida en la muestra seleccionada; si = desviación típica en X calculada en toda la muestra inicial (ad- mitidos y no admitidos) ss = desviación típica calculada en X en la muestra seleccionada (ad- mitidos solamente) Ésta es la fórmula que suele encontrarse en los textos (y por esta razón la ponemos aquí), pero esta otra expresión [17] de la misma fórmula [16] pue- de resultar más sencilla28 : prueba objetiva de rendimiento). Podemos encontrarnos con que la correla- ción es muy pequeña y concluir que el test no es válido (hay una relación muy pequeña entre el predictor y el criterio). Esta conclusión puede ser discutible: la correlación la hemos calculado solamente con los alumnos admitidos y no con todos los que se presentaron inicialmente y de los que tenemos datos en el test X. La varianza en X de los admitidos es lógicamente más pequeña que la varianza calculada en todos los que se presentaron, admitidos y no admiti- dos, y una varianza menor (grupo más homogéneo) hace bajar la correlación entre X e Y. En estas situaciones podemos estimar la correlación entre X e Y en el ca- so de que todos hubieran sido admitidos. Esta correlación (se trata de una es- timación), calculada con todos los presentados, es la que podría darnos una idea mejor sobre la validez predictiva del test X. Esta correlación estimada se puede calcular mediante esta fórmula: CONCEPTO DE CORRELACIÓNYCOVARIANZA 165 28 Puede verse comentada en Hunter y Schmidt (1990, pp.125ss); los coeficientes de correlación corregidos por restricción de la amplitud están bien tratados en Guilford y Fruchter (1973) si donde U = –––– ss y Rxy y rxy como antes
  • 166.
    Por ejemplo: enun test de selección para entrar en una universidad en- contramos que En la muestra inicial (todos los candidatos que se presentan a la selec- ción, incluidos naturalmente los que no admitidos) la desviación típica es sinicial = 6 En la muestra seleccionada la desviación típica es sseleccionada = 3 La correlación entre el test de selección y un criterio (por ejemplo, nota media al terminar el primer curso) es de .30; esta correlación la calculamos solamente en la muestra seleccionada, como es natural. Podemos preguntar- nos ¿Cuál hubiera sido esta correlación si la hubiéramos podido calcular en toda la muestra que se presentó al examen de admisiones? Substituyendo tenemos: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 166 En la primera fórmula [16]: En la segunda fórmula [17] (U = 6/3 = 2) El diferente redondeo de los decimales en los diferentes pasos hace que los resultados no sean siempre exactamente iguales, pero la diferencia es pe- queña. Vemos que la correlación ha subido de .31 (calculada con los seleccio- nados) a .41 (una estimación de la que hubiéramos obtenido si todos hubie- ran sido admitidos). 4.3. Corrección de las correlaciones de una parte con el todo A veces nos interesa conocer la correlación entre una parte y un total al que esa parte también contribuye. El ejemplo más común (no el único posible) es cuando calculamos la co- rrelación entre cada uno de los ítems de un test o escala y el total del test. Es- te cálculo es interesante: a mayor correlación entre un ítem y el total, más tie- ne que ver ese ítem con lo que miden los demás ítems (son los que
  • 167.
    ri(T-i) = Correlaciónentre un ítem (o parte de un total) y el total me- nos ese ítem (o correlación entre un ítem y la suma de todos los demás) riT = Correlación ítem-total si y sT: desviaciones típicas del ítem y del total Sobre esta corrección: a) Suponemos que la correlación de cada ítem con el total (con la suma de todos los ítems, riT) está calculada con un programa de ordenador, lo mismo que las desviaciones típicas de los ítems y de los totales. Con estos datos es fácil aplicar esta fórmula [18] (o programarla). b) Cuando los ítems son muchos la diferencia entre riT y ri(T-i) es pequeña. c) En estas situaciones y para valorar estos coeficientes, es útil estimar cuál sería el valor medio de la correlación de cada ítem con el total cuando 1) realmente no hay relación (correlación cero entre los ítems) y 2) todos los ítems o partes tuvieran igual varianza; en este caso la fórmula [18] nos da la estimación de la correlación de cada ítem con el total 31 : donde k es el número de ítems discriminan más, y los que mejor representan el constructo subyacente o ras- go que se desea medir). En la construcción y análisis de instrumentos de me- dición este paso es de mucho interés. El problema surge del hecho de que ese ítem también está sumado en el total, con lo que la correlación resultante es artificialmente alta. En realidad lo que nos interesa es la correlación de cada ítem con la suma de todos los de- más, es decir, con el total menos el ítem en cuestión. En algunos programas de ordenador29 ya está programada la correlación de cada ítem con el total menos el ítem, pero no siempre disponemos de es- tos programas. A veces lo más cómodo (cuando no se dispone de un progra- ma adecuado) es calcular la correlación de cada ítem con el total, sin más30 . En este caso estas correlaciones artificialmente altas podemos dejarlas en su magnitud exacta aplicando después la fórmula [18]. CONCEPTO DE CORRELACIÓNYCOVARIANZA 167 29 Como en el SPSS, en Analizar-Escalas-Análisis de la Fiabilidad. 30 Podemos hacerlo fácilmente con una hoja de cálculo tipo EXCEL. 31 Guilford y Fruchter, 1973:321.
  • 168.
    5. CORRELACIONES PARCIALES Unacorrelación parcial entre dos variables es una correlación que anula o neutraliza una tercera variable (o más variables): es la correlación entre dos variables igualando a todos los sujetos en otras variables. Aquí tratamos solamente de las correlaciones parciales de primer orden. Se denominan correlaciones parciales de primer orden aquellas en la que neutralizamos (o mantenemos constante) solamente una tercera variable; en las correlaciones parciales de segundo orden neutralizamos dos variables; el procedimiento es similar aunque la fórmula es algo más complicada si no la tenemos ya programada. En cambio las correlaciones parciales de primer or- den son sencillas y muy útiles. La correlación parcial, como todos los coeficientes de correlación relacio- nados con el coeficiente r de Pearson, comprueba solamente relaciones rec- tilíneas. 5.1. Utilidad de las correlaciones parciales La correlación parcial es útil para controlar variables y puede substituir determinados diseños experimentales en los que se pretende no tener en cuenta el influjo de una o dos determinadas variables Los casos en que se utiliza más son aquellos en los que se pretende con- trolar variables como la edad y la inteligencia. Por ejemplo la correlación entre peso y altura en un grupo de niños de distinta edad se verá influida por la edad. Los niños mayores en edad también serán de más peso y de mayor estatura. La misma correlación entre peso y al- tura en grupo de niños de la misma edad será menor. La diversidad en edad hace que la relación entre peso y altura aumente. Si queremos conocer la relación entre peso y altura independientemente de la edad, podríamos hacer el cálculo utilizando una muestra de la misma edad, o comprobando la correlación por separado en grupos homogéneos en edad. Otra manera de calcular la correlación entre peso y altura prescindien- do de la edad (o suponiendo que todos los sujetos tienen la misma edad) es a través de las correlaciones parciales. 5.2. Fórmula de las correlaciones parciales de primer orden ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 168
  • 169.
    Vemos que lacorrelación entre Inglés y Matemáticas baja de .338 a .240 cuando neutralizamos las diferencias en inteligencia verbal. Podemos preguntarnos lo mismo con respecto a la inteligencia abstracta, ¿cual será la relación entre Inglés y Matemáticas suponiendo que todos los su- jetos están igualados en inteligencia abstracta? Utilizamos la misma fórmula, pero teniendo en cuenta que el sufijo 3 de la fórmula denota ahora la variable 4 que corresponde a la inteligencia abstrac- ta, por lo que en la fórmula podemos substituir el 3 por el 4 para evitar confu- siones. r12.3 es la correlación entre las variables 1 y 2 neutralizando la variable 3 (como si todos los sujetos estuvieran igualados en la variable 3) Lo veremos en un ejemplo32 . En la tabla 9 tenemos las correlaciones entre Inglés, Matemáticas (dos exámenes) y dos tests de inteligencia, abstracta y verbal. El número de sujetos es de 2172 (datos reales). CONCEPTO DE CORRELACIÓNYCOVARIANZA 169 32 También podemos calcular las correlaciones parciales en programas de Internet (Anexo II) como VassarStats, lo mismo que las correlaciones múltiples de las que no es- tamos tratando. 1. Inglés 2. Matemáticas 3 Intel. verbal 4.Intel. abstracta 1. Inglés 1 2. Matemáticas .338 1 3. Intel. Verbal .330 .392 1 4. Intel. Abstracta .224 379 .423 1 Tabla 9 Entre Inglés y Matemáticas tenemos una correlación de .338. Podemos pensar que en buena medida esta relación está influida por la inteligencia ver- bal. ¿Cuál sería la correlación entre Inglés y Matemáticas si todos los sujetos tuvieran idéntica inteligencia verbal (tal como la mide un test determinado)? Aplicamos la fórmula anterior; los subíndices 1 y 2 corresponden a las va- riables 1 y 2 (Inglés y Matemáticas); la variable 3 es la inteligencia verbal (r12.3: después del punto se pone el símbolo de la variable anulada).
  • 170.
    En las tablasde la distribución normal vemos: z 1.96, p .05 z 2.56, p .01 z 3.30, p .001 El denominador de la fórmula (1/ N-m) es el error típico (desviación típi- ca) de la distribución de correlaciones parciales cuando la media es cero. También podemos calcular directamente el valor necesario de r para unos grados de libertad (N -m) determinados, así para p .05, necesitamos este valor de r: La correlación entre Inglés y Matemáticas también baja (de .338 a .281) cuando igualamos a todos los sujetos en inteligencia abstracta, pero menos que cuando los igualamos en inteligencia verbal, ya que el Inglés tiene una mayor relación con la inteligencia verbal (.330) que con la abstracta (.224). Si quisiéramos neutralizar simultáneamente las dos variables de inteligen- cia tendríamos que utilizar la fórmula de las correlaciones parciales de segun- do orden. 5.3. Cuándo una correlación parcial es estadísticamente significativa Los grados de libertad son en este caso N - m, donde N es el número de sujetos y m el número de variables. En nuestro ejemplo (cuatro variables) los grados de libertad son N - 4; en este caso 2172 - 3 = 2168. Para verificar si un coeficiente de correlación parcial es estadísticamente sig- nificativo podemos aplicar esta fórmula (con más seguridad cuando N 100): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 170 N = número de sujetos m = número de variables.
  • 171.
    En los ejemplosutilizados, con un número tan grande de sujetos, todos los coeficientes son claramente significativos, independientemente de que su magnitud la juzguemos grande o pequeña. También pueden calcularse correlaciones parciales de segundo orden (y tercer orden, etc.) con las que neutralizamos más de una variable; las fórmu- las son parecidas pero algo más complejas y normalmente se hacen con pro- gramas de ordenador. 6. CÓMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS33 Qué pretendemos con el cluster analysis: simplemente simplificar la in- formación de una matriz de correlaciones, verificando cómo tienden a agruparse las variables. Se trata por lo tanto de reducir la información para facilitar la interpretación. Si las distintas variables se pueden agrupar en unos pocos conjuntos en los que podemos ver un significado común a un ni- vel más genérico, resulta más fácil la interpretación, sobre todo cuando hay muchos ítems. Al final del proceso vamos a agrupar los ítems que tienden a tener corre- laciones más altas entre sí que con los demás, dándonos una idea de la estruc- tura subyacente. Hay varios procedimientos para hacer este cluster analysis, algunos más complicados que el expuesto aquí, pero éste es sencillo y con frecuencia su- ficientemente orientador. Ya a otro nivel tenemos el análisis factorial, que podemos hacer con programas de ordenador, pero el cluster analysis que ex- plicamos aquí puede dar una buena idea sobre la estructura de una serie de variables a partir de la matriz de intercorrelaciones. Lo explicamos con un ejemplo. Los datos (tabla 10) corresponden a un cuestionario de comunicación interpersonal34 ; los ítems son temas posibles de conversación (puestos aquí de manera abreviada; son temas pretendida- mente distintos en niveles de intimidad); una puntuación alta en un ítem quiere decir que uno se abre con facilidad en ese ámbito temático. CONCEPTO DE CORRELACIÓNYCOVARIANZA 171 33 Cluster analysis es obviamente una expresión inglesa; en español suele traducirse como análisis de agrupamientos y quizás más frecuentemente análisis de clusters; tam- bién está aceptado el uso de la expresión inglesa, cluster analysis. 34 El cuestionario es una adaptación de uno de los que presenta Jourard (1971).
  • 172.
    2 3 45 6 7 8 9 10 11 12 13 14 15 1. Política .392 .371 .291 .256 .105 .211 .234 .193 .316 .222 .190 .335 .297 .282 2. Lo que me gusta 1 .327 .268 .315 .158 .117 .251 .260 .254 .287 .261 .455 .295 .243 de TV. 3. Moral sexual .327 1 .673 .466 .355 .391 .337 .426 .348 .384 .359 .469 .243 .401 4. Lo que me gusta .226 .673 1 .473 .415 .321 .315 .503 .490 .435 .562 .450 .246 .398 en el otro sexo 5. Limitac. propias .315 .466 .473 1 .391 .188 .310 .557 .522 .347 .566 .393 .229 .514 6. Limit. en mis .158 .335 .415 .391 1 .237 .334 .409 .333 .328 .368 .374 .478 .304 padres 7. Problemas sexuales .117 .391 .321 .188 .237 1 .261 .312 .300 .156 .346 .170 .290 .313 8. Dinero de que .251 .237 .315 .310 .334 .261 1 .378 .388 .405 .254 .320 .599 .220 dispongo 9. Mi aspecto .260 .426 .503 .557 .409 .312 .378 1 .487 .333 .437 .359 .291 .475 físico 10. Lo que más me .254 .348 .490 .522 .333 .300 .388 .487 1 .330 .453 .382 .290 .435 gusta en mí 11. Plan fut. profesional .287 .384 .435 .347 .328 .156 .405 .333 .330 1 .271 .457 .260 .129 12. Mis depresiones .261 .359 .562 .566 .368 .346 .254 .437 .453 .271 1 .319 .235 .551 13. Divers. favoritas .455 .469 .450 .393 .374 .170 .320 .359 .382 .457 .319 1 .223 .395 14. Economía familiar .295 .243 .246 .229 .478 .290 .599 .291 .290 .260 .235 .223 1 .269 15. Sentim. profundos .243 .401 .398 .514 .304 .313 .220 .475 .435 .129 .551 .395 .269 1 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 172 Tabla 10: MATRIZ DE INTERCORRELACIONES (CUESTIONARIO DE COMUNICACIÓN N = 158, ALUMNAS DE LA UNIV . COMILLAS, 1990)
  • 173.
    1. Como pasoprevio se anota cuál es la correlación mayor de cada ítem (no es necesario teniendo la matriz a la vista, pero se facilita el proceso). El tener a la vista las segundas correlaciones mayores también ayuda. En este caso, las correlaciones mayores de cada ítem las tenemos en la tabla 11. CONCEPTO DE CORRELACIÓNYCOVARIANZA 173 Ítem nº Tiene su mayor correlación con Item nº Tiene su mayor el ítem nº correlación con el ítem nº 1 2 (.392) 9 5 (.557) 2 13 (.455) 10 5 (.522) 3 4 (.673) 11 13 (.457) 4 3 (.673) 12 5 (.566) 5 12 (.566) 13 3 (.469) 6 14 (.478) 14 8 (.599) 7 3 (.391) 15 12 (.551) 8 14 (.599) Tabla 11: 2. Y uno se pregunta ¿cual es la mayor correlación de todas? Y se dibuja a modo de sociograma. En este caso la correlación mayor está entre el 3 y el 4: 3 4 3. Y ahora nos preguntamos: de los ítems que quedan ¿hay alguno que ten- ga su correlación más alta con el 3 o con el 4? Pues sí, el 7 tiene su corre- lación mayor con el 3, y también el 13 tiene su mayor relación con el 3 y además no la tiene baja con el 4, con lo que el cluster quedaría así: 3 4 7 13 Aquí tenemos ya un curioso primer cluster provisional que habrá que examinar mejor más adelante, porque el ítem nº 2 tiene su mayor co- rrelación con el 13 (atendiendo al contenido el 13 (diversiones) pega más con el 2). Los ítems 3, 4 y 7 son de un contenido más íntimo. Ya podemos ir intuyendo a dónde nos va a llevar este cluster analysis 4. Ya no queda ningún ítem que tenga su mayor relación con el nº 3 o con el nº 4. Volvemos a comenzar para localizar un segundo cluster: de las
  • 174.
    correlaciones mayores decada ítem que nos quedan, ¿cual es la ma- yor? Es la correlación entre el 8 y el 14, y ya tenemos el núcleo de un segundo cluster. 8 14 Y nos preguntamos como antes: de las correlaciones mayores de los ítems que nos quedan ¿alguna lo es con el ítem 8 o 14? Sí, el 6, que tie- ne su mayor relación con el 14; y tenemos un segundo cluster de tipo familiar-económico. 8 14 6 5. Continuamos con nuestra búsqueda y de todas las correlaciones má- ximas de cada ítem que nos van quedando observamos que la mayor es la del 5 y 12, y que además el 9 y el 10 tienen su mayor relación con el 5, y el 15 la tiene con el 12, con lo que nos queda un tercer cluster que emerge del yo secreto y confidencial: 5 12 9 10 15 6. Vamos a por otro cluster. La correlación mayor que nos queda es la del ítem 2 y 13. Pero resulta que el 13 ya está en el primer cluster. De todas maneras vamos a ver qué pasa con este cluster; el 13 habrá que dejar- lo en este cluster o en el primero de todos. 2 13 Los ítems que tienen su mayor correlación con el 2 o con el 13 son el 1 (con el 2), y el 11 (con el 13); además el 1 no va mal con el 13, tiene ahí su tercera mayor correlación y no muy baja en este contexto. Nos quedaría provisionalmente algo así: 2 13 1 11 Este cluster tiene coherencia conceptual pues se trata de ítems que pertenecen aparentemente al yo abierto. Sin embargo el 13 nos estro- pea el conjunto porque también está en el primer cluster. Dentro de la ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 174
  • 175.
    imprecisión de estosmétodos, una segunda regla para asignar un ítem a un cluster es meterlo con el que tenga una correlación media ma- yor. Vamos a ver qué pasa con el ítem 13: Correlaciones del 13 con el primer cluster: .469 (con el 3) .450 (con el 4) correlación media = .363 .170 (con el 7) Correlaciones del 13 con el último cluster: .455 (con el 2) .335 (con el 1) correlación media = .416 .457 (con el 11) Decididamente el 13 tiene que ver más con los ítems del último cluster; lo dejamos en éste y lo quitamos del primer cluster que hemos localizado. Nos quedan finalmente los clusters puestos en la tabla 12; en cada uno se puede calcular la correlación media (que indica claridad, consistencia inter- ítem): CONCEPTO DE CORRELACIÓNYCOVARIANZA 175 cluster 1º cluster 2º cluster 3º cluster 4º 3 4 8 14 5 12 2 13 7 6 9 10 15 1 11 correlación correlación correlación correlación media: media: media: media: r = .462 r = .438 r = .499 r = .358 relación con dinero y cosas más temas el sexo familia personales fáciles Tabla 12 El procedimiento es sencillo: 1º Para comenzar en cada ítem buscamos con qué otro ítem tiene su ma- yor correlación (su pareja más clara; y no viene mal tener presente también con qué ítem su segunda mayor correlación) 2º Se localiza la correlación mayor de todas, y ya tenemos dos ítems que serán el núcleo del primer cluster; 3º Se localizan los ítems que tienen sus mayores correlaciones con cual- quiera de los dos ítems localizados en el paso anterior, y ya tenemos el primer cluster
  • 176.
    4º Buscamos lacorrelación mayor de las que nos quedan, y ya tenemos el nú- cleo de un segundo cluster, y se sigue el proceso visto en el paso anterior. 5º Los ítems dudosos los situamos en el cluster con el que tiene su mayor correlación media Este método es sencillo pero puede ser un tanto impreciso (depende de los datos). Ahora vendría el análisis cualitativo (intentando encontrar sentido a los ítems que van juntos en el mismo cluster) y análisis cuantitativos adicionales: 1º Una correlación media más alta indica cluster (análogo a los factores ro- tados del análisis factorial) más claro, más definido; 2º Las medias de cada cluster (no medias de las correlaciones sino de los ítems) darían el nivel de apertura o secretismo de estos clusters; 3º Habría que ver o explorar relaciones inter-cluster. 4º Un estudio más completo nos llevaría a explorar diferencias entre gru- pos (por ejemplo según el sexo) en los distintos factores (clusters) o en cada ítem; también se podrían explorar relaciones entre ítems o clusters y otras variables conocidas. 7. COEFICIENTES DE CORRELACIÓN MÁS IMPORTANTES Nos hemos centrado en el coeficiente r de Pearson, pero hay otros mu- chos coeficientes de relación o asociación. En la tabla 13 damos una breve in- formación sobre los más utilizados. Esta información puede servir de guía o de referencia rápida, aunque para utilizar algunos de estos coeficientes sea necesario buscar información adicional. De estos coeficientes el más utilizado e importante es el primero, el coe- ficiente r de Pearson. Los coeficientes 2, 3 y 4 podemos decir que pertenecen a la familia de los coeficientes de Pearson; son aplicaciones especiales de este coeficiente. Los coeficientes 5 y el 6 (rho y tau) son apropiados para datos ordinales, cuando el dato que manejamos es el rango o número de orden del sujeto (u objeto) y son especialmente útiles con muestras pequeñas o muy pequeñas35 . Los coeficientes 7, 8 y 9 son apropiados para datos nominales (sujetos cla- sificados en categorías) y están relacionados con el ji cuadrado, de hecho se utilizan como complemento del ji cuadrado. El coeficiente 7 (phi), para da- tos genuinamente dicotómicos (1 ó 0) podemos también calcularlo con las mismas fórmulas que el coeficiente r de Pearson. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 176 35 Estos coeficientes para datos ordinales suelen venir bien explicados en los textos de métodos estadísticos no paramétricos.
  • 177.
    CONCEPTO DE CORRELACIÓNYCOVARIANZA 177 coeficientevariables comentarios 1 Coeficiente r las dos de Pearson continuas (producto- momento) 2 Coeficiente una continua biserial y otra puntual (rbp) dicotómica • Es el coeficiente mejor en conjunto, el más estable y el más utilizado; cuando no se especifica otra cosa se supone que es éste el coeficiente calculado; • Supone que la distribución de las va- riables es normal (en la población, no en la muestra utilizada; esta suposi- ción también es necesaria en otros co- eficientes derivados del de Pearson); • Aunque hay varias fórmulas para su cálculo, ninguna es cómoda; el cálcu- lo suele estar programado en calcula- doras y programas estadísticos; • Existen tablas para comprobar el nivel de significación en muestras peque- ñas, o se utiliza la fórmula apropiada en muestras grandes; • El coeficiente r de Pearson puede transformase en el estadígrafo Z de Fisher (mediante tablas) que permite resolver determinados problemas, co- mo calcular medias de correlaciones (aunque es preferible calcular la me- dia ponderada, multiplicando cada coeficiente por su N) o comprobar si dos coeficientes de correlación son estadísticamente distintos; • Se trata siempre de correlaciones line- ares, como todos los demás, excepto el coeficiente h (eta) para relaciones curvilíneas. • Se trata de un caso particular del coe- ficiente r de Pearson, y aunque hay fórmulas específicas y métodos rápi- dos mediante gráficos (ábaco de Dingman) se pueden utilizar las fór- mulas de la r de Pearson y las calcula- doras y programas que tienen este co- eficiente ya programado; Tabla 13
  • 178.
    coeficiente variables comentarios 2Coeficiente una continua biserial y otra puntual (rbp) dicotómica 3 Coeficiente una variable de correlación continua, y otra biserial (rb) dicotomizada artificialmente (continua pero dividida en dos categorías, como apto y no apto) ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 178 • Para comprobar el nivel de significación se pueden utilizar las mismas fórmulas y tablas que con la r de Pearson; • Aunque es en todo equivalente al coe- ficiente r de Pearson, el término con que se denomina (biserial-puntual) indica que una de las variables es di- cotómica (1 ó 0); • Este coeficiente se puede utilizar cuando una variable es genuinamente dicotómica, es decir, no dicotomizada artificialmente (como puede ser clasi- ficar a los sujetos entre apto y no ap- to); en estos casos el coeficiente apro- piado es el biserial; • Tenemos variables dicotómicas en sen- tido propio cuando sólo hay dos clasifi- caciones que se excluyen mutuamente, como varón-mujer, verdadero-falso, acierto-error (en tests objetivos), etc.; también pueden tratarse como varia- bles dicotómicas las que teóricamente son continuas (como alcohólico-no al- cohólico, apto-no apto, bueno-malo) cuando existe un claro punto de infle- xión, una distribución bimodal que permite clasificar a los sujetos en una genuina dicotomía (1 ó 0). • Es una estimación de la r de Pearson, pero menos fiable que la r o la rpb; para los mismos datos da un coefi- ciente mayor que rpb; • A veces el coeficiente máximo es ma- yor que 1 (en distribuciones no nor- males, bimodales); • En general no es aconsejable si hay otras alternativas, y en caso de duda es preferible r o rpb; a veces puede ser útil el dicotomizar una variable por falta de datos fiables; en este caso se debe dicotomizar la variable conti- nua por la mediana.
  • 179.
    coeficiente variables comentarios 4Coeficiente las dos variables de correlación continuas tetracórica (rt) pero dicotomizadas artificialmente 5 Coeficiente las dos variables rho (r) de continuas Spearman pero ordenadas (también se por rangos utiliza el (el rango o símbolo sr). número de orden es el dato que se utiliza) 6 Coeficiente las dos variables Tau (t) de continuas y Kendall ordenadas por rangos 7 Coeficiente las dos variables phi (f) dicotómicas CONCEPTO DE CORRELACIÓNYCOVARIANZA 179 • Es una estimación aproximada del co- eficiente r de Pearson y menos fiable; no se debe emplear con pocos casos (200 sujetos o más); no es fácil com- probar su nivel de significación; • Si se puede, es preferible utilizar otra alternativa (r de Pearson o f) • Es la mejor alternativa no paramétrica al coeficiente r de Pearson; se trata del coeficiente r calculado con los rangos o número de orden de cada puntuación; • Da un coeficiente algo inferior a la r de Pearson calculado con los mismos datos directos; • Fácil y rápido de cálculo; muy útil con datos ordinales y con no más de 30 sujetos o pares de puntuaciones; • Existen tablas y fórmulas para com- probar su significación. • No es comparable directamente con el coeficiente r de Pearson; • Fácil y útil con muestras muy peque- ñas (10 sujetos o menos; si son más es preferible el coeficiente ? de Spear- man); • Existen tablas y fórmulas para com- probar su significación; una modali- dad es el coeficiente de correlación parcial con el mismo método. • Relacionado con el ?2 ; el valor de sig- nificación es el mismo que el de ?2 ; no admite valores negativos; • Una limitación es que el valor máximo no es 1 necesariamente; sólo se pue- de alcanzar cuando la proporción de unos es idéntica en las dos variables; • Especialmente útil para calcular las correlaciones entre ítems dicotómi- cos (de pruebas objetivas, tests, etc.).
  • 180.
    coeficiente variables comentarios 8Coeficiente las dos variables phi (F) de categóricas Cramer pero con más de dos criterios de clasificación en una o en las dos variables (k = número de columnas o filas, el que sea menor) 9 Coeficiente C las dos variables de Contingencia divididas en dos o más categorías 10 Coeficiente las dos variables eta (h) continuas ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 180 • Derivado también del c2 , el valor de significación es el mismo que el de c2 ; es el coeficiente apropiado cuando hay más de dos filas o columnas. Un coeficiente semejante es el coeficien- te T de Tschuprow; • Varía de 0 a 1 independientemente del tamaño de la tabla y por esto es una alternativa preferible al coeficien- te C de Contingencia; no admite valo- res negativos. • Es el coeficiente relacionado con c2 más utilizado aunque no es siempre el preferible; es significativo si lo es el c2 ; • El valor máximo nunca es 1 y depen- de del número de filas y columnas por lo que sólo son comparables los coeficientes que proceden de cuadros con idéntico número de filas y colum- nas; no admite valores negativos. • Es el coeficiente apropiado para rela- ciones curvilíneas; si se calcula el co- eficiente r de Pearson cuando hay re- lación curvilínea, el valor resultante es más bajo; • El valor de h es siempre positivo. 8. COEFICIENTE DE CORRELACIÓN: RESUMEN 1. El coeficiente de correlación expresa en qué grado los sujetos (u obje- tos, elementos…) están ordenados de la misma manera en dos variables si- multáneamente; así en el caso de relación positiva y alta los sujetos tienen puntuaciones altas o bajas en las dos variable simultáneamente. 2. Correlación y covarianza expresan grado de relación; su interpretación es básicamente la misma; el coeficiente de correlación se calcula con puntua- ciones típicas y la covarianza con puntuaciones directas.
  • 181.
    3. Un coeficientede correlación se puede interpretar sin entender por qué o cómo cuantifica el grado de relación; sin embargo es fácil entenderlo y ayuda a la interpretación porque pone de relieve la importancia de las diferencias. Po- demos cuantificar (medir) el grado de relación entre dos variables porque: a) Si hay relación positiva 1. Los sujetos tenderán a estar o por encima de la media en las dos va- riables o por debajo de la media en las dos variables; 2. Las diferencias (expresadas en puntuaciones z) con respecto a las dos medias serán del mismo signo, luego el producto de estas dife- rencias será positivo y su suma grande (y dividida por N nos da el coeficiente de correlación). b) Si hay relación negativa Los sujetos tenderán a estar simultáneamente por encima de la media en una variable y por debajo de la media en la otra; las diferencias con respecto a la media tenderán distinto signo y al multiplicar una por la otra el signo será negativo (- por +); la suma de estos productos será grande pero con signo menos. c) si no hay relación 1. Unos sujetos estarán por encima de la media en las dos variables, otros por debajo de la media en las dos variables, otros por encima de la media en una variable y por debajo de la media en la otra varia- ble… 2. Las diferencias (expresadas en puntuaciones z) con respecto a las dos medias serán unas del mismo signo (y su producto positivo) y otras de signos distintos (y su producto negativo). la suma de estos productos tenderá hacia cero en la medida en que no haya relación. 4. Los valores extremos posibles son 0 (ausencia de relación) y ±1 (máxi- ma relación). Si r = 1, el orden (posición relativa) de los sujetos es el mismo en las dos variables. Como conocemos los valores más altos y más bajos po- sibles, podemos apreciar y valorar la magnitud de la relación (poca hasta .30, alta a partir de .75…). 5. La magnitud del coeficiente es independiente del signo; r =-.95 expre- sa más relación que r = +.75; el que la relación sea positiva o negativa es al- go distinto de que sea grande o pequeña. 6. Una correlación no puede interpretarse como prueba de una relación causal. CONCEPTO DE CORRELACIÓNYCOVARIANZA 181
  • 182.
    7. Un coeficientede correlación estadísticamente significativo quiere de- cir que es muy improbable si no hay relación en la población: en muestras se- mejantes obtendríamos un coeficiente de correlación distinto de cero (pero no necesariamente de magnitud semejante al que hemos obtenido en nues- tra muestra). 8. A partir del coeficiente de correlación obtenido en una muestra y del tamaño N de esa muestra, podemos estimar entre qué límites se encuentra esa correlación en la población (intervalos de confianza). 9. Un coeficiente de correlación no significativo no es prueba de que no haya relación en la población (podríamos encontrarla quizás en muestras mayores, o utilizando otras medidas más precisas, etc.) 10. Los coeficientes de correlación tienden a bajar cuando: a) Las muestras son homogéneas (sin diferencias en ambas variables no se detectan relaciones). b) Los instrumentos de medición discriminan poco (no establecen bien las diferencias entre los sujetos). c) La fiabilidad de los instrumentos es baja. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 182
  • 183.
    ANEXO I CONCEPTO DECORRELACIÓNYCOVARIANZA 183 Tablas del coeficiente de correlación r de Pearson (N entre 3 y 102) Grados de libertad. 05 .01 .001 = N-2 1 .9969 .9998 .9999 2 .9500 .9900 .9990 3 .8783 .9587 .9911 4 .8114 .9172 .9740 5 .7545 .8745 .9507 6 .7067 .8343 .9249 7 .6664 .977 .8982 8 .6319 .7646 .8721 9 .6021 .7348 .8471 10 .5760 .7079 .8233 11 .5529 .6835 .8010 12 .5324 .6614 .7800 13 .5139 .6411 .7603 14 .4973 .6226 .7420 15 .4821 .6055 .7246 16 .4683 .5897 .7084 17 .4555 .5751 .6932 18 .4438 .5614 .6787 19 .4329 .5487 .6652 20 .4227 .5368 .6523 25 .3809 .4869 .5974 30 .3494 .4487 .5541 35 .3246 .4182 .5189 40 .3044 .3932 .4896 45 .2875 .3721 .4648 50 .2732 .3541 .4433 55 .2609 .3386 .4244 60 .2500 .3248 .4078 65 .2405 .3127 .3931 70 .2319 .3017 .3799
  • 184.
    Grados de libertad .05.01 .001 = N-2 75 .2242 .2919 .3678 80 .2172 .2830 .3568 85 .2108 .2748 .3468 90 .2050 .2673 .3375 95 .1996 .2604 .3291 98 .1986 .2591 .3274 100 .1946 .2540 .3211 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 184 Con muestras grandes: y consultar las tablas de la distribución normal; z 1.96, p.05 z 2.56, p.01 z 3.3, p.001 o consultar alguna dirección de Internet (Anexo siguiente). ANEXO II: LA CORRELACIÓN EN INTERNET (Los números entre paréntesis corresponden a las direcciones puestas al final). 1. La probabilidad exacta de cualquier valor de r http://graphpad.com/quickcalcs/PValue1.cfm (1) (se introducen el valor de r y los grados de libertad o N-2) http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation_coeff.asp (2) (se introduce el valor de r y el tamaño N de la muestra). http://faculty.vassar.edu/lowry/VassarStats.html (3) 2. Valores mínimos de r estadísticamente significativos (p =.05, .01 y .001 para cualquier valor de N) http://department.obg.cuhk.edu.hk/ResearchSupport/Minimum_correlation.asp (2) 3. Intervalos de confianza (dados r y N) http://faculty.vassar.edu/lowry/VassarStats.html (3) http://glass.ed.asu.edu/stats/analysis/rci.html (6)
  • 185.
    4. Correlación parcial http://faculty.vassar.edu/lowry/par.html(3) (se introducen los coeficientes de correlación entre tres variables (o cuatro) y calcula la correlación parcial ente dos coeficientes igualando a los sujetos en las variables restantes). http://home.clara.net/sisa/correl.htm (ver help correlation) (4) 5. Correlación múltiple http://home.clara.net/sisa/correl.htm (ver help correlation) (4) 6. Diferencias estadísticamente significativas entre dos (o más) coefi- cientes de correlación http://department.obg.cuhk.edu.hk/ResearchSupport/HomoCor.asp (2) (calculados en muestras distintas) http://faculty.vassar.edu/lowry/VassarStats.html (3) (calculados en muestras distintas) http://home.clara.net/sisa/correl.htm (ver help correlation) (4) (de la misma muestra o de distintas muestras) http://www.psych.ku.edu/preacher/corrtest/corrtest.htm (en muestras distin- tas) (7) 7. Cálculo del coeficiente de correlación http://calculators.stat.ucla.edu/correlation.php (5) http://faculty.vassar.edu/lowry/VassarStats.html (3) Direcciones originales (‘Home’): (1) GraphPad, Free Online Calculators for Scientists, http://graphpad.com/quickcalcs/index.cfm (2) Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Corre- lation.asp (3) VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar College Poughkeepsie, NY USA http://faculty.vassar.edu/lowry/VassarStats.html (4) SISA, Simple Interactive Statistical Analysis http://home.clara.net/sisa/index.htm#TOP (5) Statistics Calculators, UCLA Department of Statistics, http://calculators.stat.ucla.edu/ (6) Glass, Gene. V., Arizona State University College of Education, Online Analysis of Data http://glass.ed.asu.edu/stats/analysis/ (o Gene V Glass Intro to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources for Statistics, en Online statistical calculators that can perform many diffe- rent analyses. (7) quantpsy.org, Kristopher J. Preacher, University of Kansas http://www.psych.ku.edu/preacher/ CONCEPTO DE CORRELACIÓNYCOVARIANZA 185
  • 187.
    CAPÍTULO 6 LA FIABILIDADDE LOS TESTS Y ESCALAS 1. CONCEPTOS PRELIMINARES BÁSICOS Antes de entrar en explicaciones muy precisas y en fórmulas concretas, nos es útil hacer una aproximación conceptual a lo que entendemos por fia- bilidad en nuestro contexto (los tests, la medición en las ciencias sociales) porque lo que entendemos aquí por fiabilidad es de alguna manera análogo a lo que entendemos por fiabilidad en otras situaciones de la vida corriente. También es útil desde el principio distinguir la fiabilidad de conceptos como el de validez que utilizamos en los mismos contextos y situaciones y en refe- rencia al uso de los tests. 1.1. Equivocidad del concepto de fiabilidad El concepto de fiabilidad, tal como lo aplicamos en la medición en las ciencias humanas, desemboca en diversos métodos o enfoques de compro- bación que se traducen en unos coeficientes de fiabilidad que a su vez supo- nen conceptos o definiciones distintas de lo que es la fiabilidad, por lo que te- nemos en principio un concepto equívoco más que unívoco (salvo en un sentido muy genérico). Por esta razón cuando en situaciones aplicadas se ha- bla de la fiabilidad o de coeficientes de fiabilidad, hay que especificar de qué fiabilidad se trata. Esto quedará más claro al hablar de los distintos enfoques, pero conviene tenerlo en cuenta desde el principio. 187
  • 188.
    1.2. Fiabilidad yprecisión de la medida Aun así cabe hablar de un concepto más genérico de fiabilidad con el que se relacionan los otros conceptos más específicos. En principio la fiabilidad expresa el grado de precisión de la medida. Con una fiabilidad alta los suje- tos medidos con el mismo instrumento en ocasiones sucesivas hubieran que- dado ordenados de manera semejante. Si baja la fiabilidad, sube el error, los resultados hubieran variado más de una medición a otra. Ninguna medición es perfecta; en otro tipo de ámbitos una manera de ve- rificar la precisión es medir lo mismo varias veces, o varios observadores in- dependientes miden lo mismo para obtener una media que se estima más precisa que lo que un único observador ha estimado, como cuando se desea comprobar la densidad de una determinada especie animal en un determi- nado hábitat. En la medición psicológica y educacional, que es la que nos in- teresa aquí, no es posible o no es tan fácil utilizar procedimientos o estrate- gias que se utilizan más en otros campos de la ciencia; tendremos que buscar otros enfoques para apreciar e incluso cuantificar la precisión de nuestras medidas (como puede ser la precisión de un instrumento para medir cono- cimientos, actitudes, un rasgo de personalidad, etc.). Lo que importa desta- car aquí es la asociación entre los conceptos de fiabilidad y precisión o exactitud. 1.3. Fiabilidad y margen de error en al medida Ya hemos indicado que si fiabilidad significa precisión, a menor fiabilidad subirá el margen de error de nuestras medidas. En muchas aplicaciones prác- ticas el interés de los coeficientes de fiabilidad está precisamente en que nos permiten calcular ese margen de error que a su vez nos permiten relativizar los resultados individuales, por eso junto a la fiabilidad hay que estudiar el error típico de la medida (apartados 9.2 y 11, referido a resultados escolares). 1.4. Fiabilidad y predictibilidad Otro concepto que nos ayuda a comprender qué entendemos por fiabili- dad es el de consistencia o predictibilidad. Nos fiamos de un amigo cuando sabemos cómo va a reaccionar ante un problema que le llevemos, y esto lo sa- bemos porque tenemos experiencias repetidas. De manera análoga un juga- dor de fútbol es fiable si sabemos de antemano que va a hacer un buen parti- do, y de nuevo esto lo sabemos porque ya ha jugado bien en otras muchas ocasiones (aunque esto no quiere decir que siempre juegue bien). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 188
  • 189.
    Podemos imaginar ados tiradores apuntando a un blanco. Cuando hay va- lidez (figura 1, cuando el tiro es válido) se apunta al blanco aunque puede haber poca precisión en el tiro. Los errores son aleatorios (falta de fiabilidad; 1.5. Fiabilidad y validez El concepto de fiabilidad es distinto del concepto de la validez. En el sen- tido más usual del término (no el único), un instrumento es válido si com- prueba o mide aquello que pretendemos medir. Un instrumento puede ser válido, porque mide lo que decimos que mide y queremos medir, pero lo puede medir con un margen de error grande; con instrumentos parecidos o en mediciones sucesivas hubiéramos obtenido resultados distintos. También puede haber una fiabilidad alta (los sujetos están clasificados, ordenados, con poco margen de error) y a la vez el instrumento puede carecer de vali- dez, porque no mide lo que se pretende o lo que se dice que se está midien- do (por ejemplo si un test de inteligencia lo que mide realmente es en bue- na parte capacidad lectora, o si un examen supuestamente de comprensión lo que se verifica es memoria y repetición, etc.)1 . 1.6. Fiabilidad y validez: errores sistemáticos y errores aleatorios En estos dibujos (figuras 1 y 2) tenemos dos representaciones gráficas que pueden ayudarnos a comprender lo que es validez y lo que es fiabilidad. Validez: Controlamos los errores sistemáticos Fiabilidad: Controlamos los errores aleatorios Figura 1 Figura 2 LA FIABILIDAD DE LOS TETS Y ESCALAS 189 1 El tema de la validez no lo tratamos de manera expresa; puede verse tratado en Mo- rales, Urosa y Blanco (2003. págs 126 y ss.) y de manera más extensa en Morales (2006, cap. 12 y 13).
  • 190.
    fruto de defectosdel arma, inestabilidad en el pulso, etc.), pero no son siste- máticos (apuntamos al blanco que queremos). Cuando hay fiabilidad hay precisión en el tiro. En este ejemplo (figura 2) no hay validez: se apunta sistemáticamente fuera del blanco, aunque hay una mayor fiabilidad o precisión (los tiros están más próximos entre sí). Para evitar los errores aleatorios (y que aumente la fiabilidad) habrá que mejorar el instrumento. Para evitar los errores sistemáticos habrá que apun- tar bien al blanco, y para eso hay que saber dónde está, y no a otro sitio. La comprobación de la validez sigue otros métodos distintos (análisis del conte- nido de los ítems, verificar determinadas hipótesis sobre el significado pre- tendido, etc.) y salvo en casos específicos (como cuando se habla de validez predictiva) no se concreta en el cálculo de un coeficiente determinado. De lo que vamos diciendo se desprende que en primer lugar nos debe preocupar la validez más que la precisión: podemos medir muy bien lo que no queríamos medir (memoria en vez de comprensión, por ejemplo en un examen). 1.7. La fiabilidad no es una característica de los instrumentos La fiabilidad no es una característica de un instrumento; es una caracterís- tica de unos resultados, de unas puntuaciones obtenidas en una muestra determinada. Esto es importante aunque en el lenguaje habitual nos refira- mos a la fiabilidad como si fuera una propiedad del instrumento. Esta mane- ra de hablar (este test tiene una fiabilidad de…) es muy frecuente, pero hay que entender lo que realmente queremos decir. Lo que sucede es que un mismo instrumento puede medir o clasificar bien a los sujetos de una mues- tra, con mucha precisión, y mal, con un margen de error grande, a los sujetos de otra muestra. Con un mismo instrumento se mide y se ordena mejor a los sujetos cuando estos sujetos son muy distintos entre sí, y al revés, baja la fia- bilidad si la muestra es más homogénea. Podemos visualizarlo con la imagen de una balanza de poca precisión: si pesamos objetos que pesan entre 4 Kg. y 10 Kg. no establecerá diferencias en peso entre objetos que pesan casi lo mismo y sólo se diferencian en miligramos; en cambio esa misma balanza dis- tinguirá bien entre objetos con diferencias en peso de varios kilos. La balan- za es la misma, pero su precisión (fiabilidad al distinguir según unos objetos pesen más o menos) depende de las diferencias en peso de los objetos. La fiabilidad se debe calcular con cada nueva muestra, sin aducir la fia- bilidad obtenida con otras muestras como aval o prueba de la fiabilidad del instrumento2 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 190 2 El calcular el coeficiente de fiabilidad en cada nueva muestra es una de las recomen- daciones de la American Psychological Association (Wilkinson and Task Force on Statisti-
  • 191.
    Todo esto quedarámejor entendido al examinar las variables que inciden en que un coeficiente de fiabilidad sea alto o bajo, pero es importante ver desde el principio que en sentido propio la fiabilidad no es la propiedad de un determinado instrumento, sino del conjunto de puntuaciones con él ob- tenido y que puede variar de una situación a otra (y como en el ejemplo de la balanza, va a estar en función de las diferencias entre los sujetos). 1.8. Fiabilidad y diferencias: teoría clásica de la fiabilidad En última instancia lo que nos va a decir un coeficiente de fiabilidad es si el instrumento diferencia adecuadamente a los sujetos en aquello que mide el test o escala. Con un test o escala pretendemos diferenciar a los sujetos; establecer quién tiene más o menos del rasgo que medimos. Los tests, sobre todo los que miden rasgos psicológicos, no nos serían útiles si de alguna ma- nera no establecieran diferencias entre los sujetos. Ya veremos que, por lo tanto, no hay fiabilidad sin diferencias. Por estas razones la fiabilidad de un test de conocimientos o de un examen (prueba objetiva) no se puede inter- pretar automáticamente como un indicador de la calidad del test, como co- mentamos en el apartado 11 sobre la interpretación de estos coeficientes cuando se trata de medir conocimientos. A esta teoría de la fiabilidad basada en las diferencias se le suele denominar teoría clásica de la fiabilidad. 2. ENFOQUES Y MÉTODOS EN EL CÁLCULO DE LA FIABILIDAD En el cálculo de la fiabilidad hay tres enfoques que, aunque parten de mo- delos teóricos idénticos o parecidos, siguen procedimientos distintos y sus resultados no pueden interpretarse exactamente del mismo modo; por eso hemos dicho al principio que el concepto de fiabilidad es en cierto modo equívoco. Estos tres enfoques son 1º) el test-retest, 2º) el de las pruebas pa- ralelas y 3º) los coeficientes de consistencia interna. 2.1. Método: Test-retest Los sujetos responden dos veces al mismo test, dejando entre las dos ve- ces un intervalo de tiempo. El coeficiente de correlación entre las dos ocasiones es lo que denominamos coeficiente de fiabilidad test-retest. El in- tervalo de tiempo puede ser de días, semanas o meses, pero no tan grande LA FIABILIDAD DE LOS TETS Y ESCALAS 191 cal Inference, APA Board of Scientific Affairs (1999); American Psychological Association (2001) y también está recomendado por la política editorial de buenas revistas (Thomp- son, 1994).
  • 192.
    que los sujetoshayan podido cambiar. Una correlación grande indica que en las dos veces los sujetos han quedado ordenados de la misma o parecida ma- nera. El intervalo de tiempo debe especificarse siempre (y suele estar en tor- no a las dos o tres semanas). a) Este método corresponde al concepto más intuitivo de fiabilidad: un ins- trumento es fiable si en veces sucesivas aporta los mismos resultados. b) No tiene sentido utilizarlo cuando está previsto un cambio en los suje- tos, o cuando entre la primera y segunda vez se puede dar un aprendi- zaje. Por esto no es un método apto para comprobar la fiabilidad de un instrumento de medición escolar porque puede haber aprendizaje de una vez a otra, aprendizaje que puede incluso estar provocado por el mismo instrumento. La fiabilidad del tipo test-retest tiene más sentido en la medición de rasgos y actitudes más estables. c) Este coeficiente de correlación podemos entenderlo como un coefi- ciente o indicador de estabilidad o de no ambigüedad en la medi- da en que ambas ocasiones los resultados son parecidos (los sujetos entendieron lo mismo de la misma manera y respondieron de manera idéntica o casi idéntica). d) Una fiabilidad alta de este tipo no es garantía de una fiabilidad alta con otro de los enfoques, sobre todo con el de consistencia interna que veremos enseguida y que es el más importante. Puede haber una fiabi- lidad alta de este tipo, test-retest, con ítems que preguntan cosas muy distintas (como peso, altura, sexo, gusto por la música, año de naci- miento, etc.), pero con poca (o ninguna) consistencia interna porque se están preguntando cosas distintas cuyas respuestas no tendría senti- do sumar en un total. 2.2. Método: Pruebas paralelas Se utiliza cuando se preparan dos versiones del mismo test; los ítems son distintos en cada test pero con ambos se pretende medir lo mismo. En este caso el coeficiente de fiabilidad es la correlación entre las dos for- mas paralelas, respondidas por los mismos sujetos. a) Puede interpretarse como un coeficiente o indicador de equivalen- cia entre los dos tests: si la correlación es alta, las dos formas del mis- mo test dan resultados parecidos, ordenan a los sujetos de manera pa- recida, ambas formas son intercambiables. Si la correlación entre las dos formas (respondidas con días u horas de diferencia) es baja, la conclusión más razonable no es que los sujetos han cambiado, sino que las dos formas no están equilibradas en sus contenidos y de algu- na manera miden cosas distintas o con énfasis distintos. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 192
  • 193.
    b) Una confirmaciónadicional de que las dos formas son realmente para- lelas es comprobar si la correlación media inter-ítem dentro de cada forma es de magnitud similar, lo mismo que la correlación de los ítems de una forma con los de la otra versión. c) Este tipo de fiabilidad, o prueba de equivalencia, es necesario siempre que se disponga de dos o más versiones del mismo test, y su uso que- da en la práctica restringido a esta circunstancia no frecuente. 2.3. Método: Coeficientes de consistencia interna3 Este es el enfoque más utilizado y al que le vamos a dar una mayor exten- sión. Hay que hablar de enfoque más que de método pues son muchas las po- sibles fórmulas en que se puede concretar en el cálculo de la fiabilidad. Cuan- do se habla de fiabilidad sin más matizaciones, hay que entender que se trata de fiabilidad en el sentido de consistencia interna. Lo que expresan directamente estos coeficientes es hasta qué punto las respuestas son lo suficientemente coherentes (relacionadas entre sí) como para poder concluir que todos los ítems miden lo mismo, y por lo tanto son sumables en una puntuación total única que representa, mide un rasgo bien definido. Por esta razón se denominan coeficientes de consistencia interna, y se aducen como garantía de unidimensionalidad, es decir, de que un úni- co rasgo subyace a todos los ítems. Hay que advertir sin embargo que un al- to coeficiente de fiabilidad no es prueba de unidimensionalidad (tratado con más amplitud en el apartado 9.1). El resto de la teoría sobre la fiabilidad que exponemos a continuación res- ponde fundamentalmente a la fiabilidad entendida como consistencia inter- na. Cuando se habla de la fiabilidad de un instrumento y no se especifica otra cosa, suele entenderse que se trata de la fiabilidad entendida como consisten- cia interna. 3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FÓRMULA BÁSICA DE LA FIABILIDAD Como punto de partida podemos pensar que cuando observamos dife- rencias entre los sujetos, estas diferencias, que se manifiestan en que sus LA FIABILIDAD DE LOS TETS Y ESCALAS 193 3 Los coeficientes de consistencia interna también suelen denominarse coeficientes de homogeneidad como si se tratara de términos sinónimos, pero este término (coefi- ciente de homogeneidad) es impropio (como advierte Schmitt, 1996). La consistencia in- terna se refiere a las correlaciones entre los ítems (relación empírica) y la homogeneidad se refiere a la unidimensionalidad (relación lógica, conceptual) de un conjunto de ítems que supuestamente expresan el mismo rasgo.
  • 194.
    puntuaciones totales (alsumar todas sus respuestas a los ítems) son distin- tas, se deben: 1º En parte a que los sujetos son distintos en aquello que se les está mi- diendo; si se trata de un examen hay diferencias porque unos saben más y otros saben menos. 2º Las diferencias observadas se deben también en parte a lo que llama- mos genéricamente errores de medición; por ejemplo, en este caso, las respuestas distintas pueden estar ocasionadas por preguntas ambi- guas, por la diferente capacidad lectora de los sujetos, etc.; no todo lo que hay de diferencia se debe a que unos saben más y otros saben menos. La puntuación total de un sujeto podemos por lo tanto descomponerla así: Xt = Xv + Xe [1] ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 194 Xt = puntuación total de un sujeto, puntua- ción observada; Xv = puntuación verdadera, que representa lo que un sujeto realmente sabe o sien- te (depende de qué se esté preguntan- do o midiendo). Xe = puntuación debida a errores de medi- ción, que puede tener signo más o sig- no menos. Lo que decimos de cada puntuación individual lo podemos decir también de las diferencias entre todos los sujetos: Diferencias observadas entre los sujetos = + Diferencias verdaderas los sujetos son distin- tos en lo que estamos midiendo. Diferencias falsas (errores de medición) Hablando con propiedad, más que de diferencias concretas hay que hablar de varianza, que cuantifica todo lo que hay de diferencia entre los sujetos. La fórmula básica de la fiabilidad parte del hecho de que la varianza se puede descomponer. La varianza de las puntuaciones totales de un test podemos descomponerla así [2]: s2 t = s2 v + s2 e [2]
  • 195.
    s2 v = Varianzatotal, expresa todo lo que hay de diferente en las puntua- ciones totales; unos sujetos tienen puntuaciones totales más altas, otros más bajas, etc.; la varianza será mayor si los sujetos difieren mu- cho entre sí. Si lo que pretendemos con un instrumento de medida es clasificar, detectar diferencias, una varianza grande estará asociada en principio a una mayor fiabilidad. s2 e = Varianza verdadera; expresa todo lo que hay de diferente debido a que los sujetos son distintos en lo que pretendemos medir, o dicho de otra manera, expresa todo lo que hay de diferente debido a lo que los ítems tienen en común, de relación, y que es precisamente lo que queremos medir. El término verdadero no hay que entenderlo en un sentido cuasi filosófico, aquí la varianza verdadera es la que se debe a respuestas coherentes (o respuestas relacionadas), y esta coherencia (o relación verificada) en las respuestas suponemos que se debe a que todos los ítems del mismo test miden lo mismo. s2 t = Varianza debida a errores de medición, o debida a que los ítems mi- den en parte cosas distintas, a lo que no tienen en común. Puede ha- ber otras fuentes de error (respuestas descuidadas, falta de motiva- ción al responder, etc.), pero la fuente de error que controlamos es la debida a falta de relación entre los ítems, que pueden medir cosas distintas o no muy relacionadas. El error aquí viene a ser igual a inco- herencia en las respuestas, cualquiera que sea su origen (incoheren- cia sería aquí responder no cuando se ha respondido sí a un ítem de formulación supuestamente equivalente). Suponemos que los errores de medición no están relacionados con las puntuaciones verdaderas; no hay más error en las puntuaciones más altas o menos en las más bajas y los errores de medición se reparten aleatoriamente; con este supuesto la fórmula [2] es correcta. La fiabilidad no es otra cosa que la proporción de varianza verdadera, y la fórmula básica de la fiabilidad [3] se desprende de la fórmula anterior [2] (r11 es el símbolo general de los coeficientes de fiabilidad): s2 v r11 = ––––– [3] s2 t Por varianza verdadera entendemos lo que acabamos de explicar; la va- rianza total no ofrece mayor problema, es la que calculamos en los totales de todos los sujetos; cómo hacemos operativa la varianza verdadera lo vere- mos al explicar las fórmulas (de Cronbach y Kuder-Richardson). Expresando la fórmula [3] en términos verbales tenemos que LA FIABILIDAD DE LOS TETS Y ESCALAS 195
  • 196.
    todo lo quediscriminan los ítems por lo que tienen de relacionados fiabilidad = ——————————————————————————— todo lo que discriminan de hecho al sumarlos en una puntuación total o expresado de otra manera varianza debida a lo que hay de coherente en las respuestas fiabilidad = ——————————————————————————— varianza debida tanto a lo que hay de coherente como de no coherente en las respuestas Por respuestas coherentes hay que entender que no se responde de mane- ra distinta a ítems que supuestamente y según la intención del autor del instru- mento, expresan el mismo rasgo. En una escala de actitud hacia la música se- ría coherente estar de acuerdo con estos dos ítems: me sirve de descanso escuchar música clásica y la educación musical es muy importante en la formación de los niños; lo coherente es estar de acuerdo con las dos afirma- ciones o no estar tan de acuerdo también con las dos. Un sujeto que esté de acuerdo con una y no con la otra es de hecho incoherente según lo que pre- tende el autor del instrumento (medir la misma actitud a través de los dos ítems). Esta incoherencia de hecho no quiere decir que el sujeto no sea cohe- rente con lo que piensa; lo que puede y suele suceder es que los ítems pueden estar mal redactados, pueden ser ambiguos, medir cosas distintas, etc.; por es- tas razones la fiabilidad hay que verificarla experimentalmente. En la varianza total (todo lo que hay de diferencias individuales en las puntuaciones totales) influye tanto lo que se responde de manera coheren- te o relacionada, como lo que hay de incoherente o inconsistente (por la causa que sea); la fiabilidad expresa la proporción de consistencia o cohe- rencia empírica. En el denominador tenemos la varianza de los totales, por lo tanto la fia- bilidad indica la proporción de varianza debida a lo que los ítems tienen en común. Una fiabilidad de .80, por ejemplo, significa que el 80% de la varian- za se debe a lo que los ítems tienen en común (o de relacionado de hecho). 4. REQUISITOS PARA UNA FIABILIDAD ALTA Si nos fijamos en la fórmula anterior [3] (y quizás con más claridad si nos fijamos en la misma fórmula expresada con palabras), vemos que aumentará la fiabilidad si aumenta el numerador; ahora bien, es importante entender que aumentará el numerador si por parte de los sujetos hay respuestas distin- tas (no todos los sujetos responden de la misma manera) y a la vez relacio- nadas, de manera que tendremos una fiabilidad alta: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 196
  • 197.
    1º Cuando hayadiferencias en las respuestas a los ítems, es decir, cuando los ítems discriminan; si las respuestas son muy parecidas (to- dos de acuerdo, o en desacuerdo, etc.) la varianza de los ítems baja y también la fiabilidad; 2º Y además los ítems (las respuestas) estén relacionadas entre sí, hay coherencia, consistencia interna; cuando si se responde muy de acuerdo a un ítem, también se responde de manera parecida a ítems distintos pero que expresan, suponemos, el mismo rasgo; hay una tendencia generalizada responder o en la zona del acuerdo o en la zona del desacuerdo. Entender cómo estos dos requisitos (respuestas distintas en los sujetos y relacionadas) influyen en la fiabilidad es también entender en qué consiste la fiabilidad en cuanto consistencia interna. Esto lo podemos ver con facilidad en un ejemplo ficticio y muy simple en el que dos muestras de cuatro sujetos responden a un test de dos ítems con respuestas sí o no (1 ó 0) (tabla 1). Tabla1 Podemos pensar que se trata de una escala de integración familiar com- puesta por dos ítems y respondida por dos grupos de cuatro sujetos cada uno. Los ítems en este ejemplo podrían ser: 1. En casa me lo paso muy bien con mis padres [sí=1 y no =0] 2. A veces me gustaría marcharme de casa [sí = 0 y no = 1] En estos ejemplos podemos observar: 1º Las desviaciones típicas (lo mismo que las varianzas, s2 ) de los ítems son idénticas en los dos casos, además son las máximas posibles (por- que el 50% está de acuerdo y el otro 50% está en desacuerdo, máxima dispersión). Desviaciones típicas grandes en los ítems (lo que supone LA FIABILIDAD DE LOS TETS Y ESCALAS 197
  • 198.
    que distintos sujetosresponden de distinta manera al mismo ítem) contribuyen a aumentar la fiabilidad, pero vemos que no es condición suficiente: con las mismas desviaciones típicas en los ítems el coeficien- te de fiabilidad es 1 (grupo A) en un caso y 0 en otro (grupo B). 2º La diferencia entre los grupos A y B está en las correlaciones inter-ítem: la máxima posible en A (r = 1), y la más baja posible en B (r = 0). La co- rrelación es grande cuando las respuestas son coherentes, cuando se responde básicamente de la misma manera a todos los ítems; la corre- lación es pequeña cuando las respuestas son incoherentes. Cuando las respuestas son coherentes (simplificando: unos dicen que sí a todo y otros dicen que no a todo), la puntuación total está más diversificada porque se acumulan puntuaciones muy altas o muy bajas en los ítems; conse- cuentemente la desviación típica (o la varianza) de los totales será mayor. Con respuestas diferentes y además coherentes, los sujetos quedan más diversifi- cados, mejor clasificados por sus puntuaciones totales, y esta diversidad de los totales se refleja en una mayor desviación típica o varianza. Esta diversidad coherente de las respuestas (y que la vemos de manera exagerada en el grupo A del ejemplo anterior) queda recogida en la fórmula de la fiabilidad o de consistencia interna. Para que suba la fiabilidad hace falta por lo tanto lo que ya hemos indicado antes: 1º que unos y otros sujetos respondan de manera distinta a los ítems 2º y que además esas respuestas a los ítems de cada sujeto sean coherentes. Si esto es así, las diferencias en los totales se deberán a que los sujetos han respondido de manera distinta y coherente a los distintos ítems. Esto hace que los totales sean distintos, para unos sujetos y otros, según tengan más o menos del rasgo que deseamos medir. unos van acumulando valores altos en sus respuestas, y otros van acumulando valores bajos. Lo que significa la fiabilidad, y las condiciones de una fiabilidad alta, pode- mos verlo en otro ejemplo (obviamente ficticio, tabla 2). Imaginemos que se trata ahora de una escala de actitud hacia la música compuesta por tres ítems, con respuestas continuas de 1 (máximo desacuerdo) a 5 (máximo acuerdo) respondida por seis sujetos: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 198
  • 199.
    Qué vemos fácilmenteen estos datos: 1. Los ítems miden lo mismo conceptualmente; al menos es lo que inten- tamos al redactarlos; 2. Los sujetos son distintos en las respuestas a cada ítem, por eso hay va- rianza (diferencias) en los ítems; a unos les gusta más la música, a otros menos; 3. Los ítems están relacionados: si tomamos los ítems de dos en dos ve- mos que los sujetos tienden a puntuar alto en los dos o bajo en los dos (más o menos). Esta relación podemos verificarla experimentalmente calculando los coeficientes de correlación: r12 = .95, r13 = .81 y r23 = .734 (en ejemplos reales, con más ítems y más sujetos, no suelen ser tan altos). 4. Consecuentemente el puntuar alto en un ítem supone un total más al- to en toda la escala; esto podemos verificarlo experimentalmente cal- culando la correlación de cada ítem con la suma de los otros dos (co- rrelación ítem-total): r1t = .93, r2t = .88 y r3t = .79. Un procedimiento que nos daría la misma información es comparar en cada ítem a los sujetos con totales más altos y totales más bajos; si los mismos ítems diferencian simultáneamente a los mismos sujetos, es que los ítems están relacionados. 5. Los sujetos van acumulando puntuaciones altas o bajas en cada ítem, por lo tanto quedan muy diferenciados en la puntuación total: están bien ordenados o clasificados. 6. Nos encontramos con una coherencia global en las respuestas, todos los ítems están relacionados; esta coherencia global es la que estima- mos en los coeficientes de fiabilidad (de consistencia interna; en el ejemplo ficticio de la tabla 2 el coeficiente de fiabilidad es a = .9244 . 7. Esta relación entre los ítems es la que comprobamos experimental- mente y nos permite sumarlos en una sola puntuación total porque Tabla 2 4 Sobre cómo construir escalas de actitudes y cómo hacer estos análisis puede verse Morales, Urosa y Blanco (2003). LA FIABILIDAD DE LOS TETS Y ESCALAS 199
  • 200.
    nos confirma (aunqueno necesariamente) que todos miden lo mismo. Si un ítem no está claramente relacionado con los demás, puede ser que esté midiendo otra cosa. 8. La relación conceptual (homogeneidad de los ítems) la suponemos (procuramos que todos los ítems expresen el mismo rasgo, aunque po- demos equivocarnos), pero la comprobamos empíricamente en cada ítem (mediante la correlación de cada ítem con todos los demás) y en el conjunto de todo el instrumento (coeficiente de fiabilidad). Sin embargo puede haber relación empírica (un ítem correlaciona bien con los demás) sin que eso signifique que hay una clara relación con- ceptual. Si él ejemplo de la tabla 2 en vez del ítem me entusiasma la ópera (que claramente expresa gusto por la música) ponemos en mi casa tengo un piano, que podría expresar gusto por la música pero también, y con más claridad, indica nivel económico (algo distinto al gusto por la música, con unas respuestas no sumables con las demás), y los dos melómanos del ejemplo son además ricos y tienen un piano en casa y los dos a quienes no gusta o gusta menos la música son de ni- vel económico inferior y por supuesto no tienen un piano en su casa, tendríamos que este ítem, en mi casa tengo un piano, está contribu- yendo a la fiabilidad de la escala sin que podamos decir que está mi- diendo lo mismo que los demás. Los números no entienden de signifi- cados, de ahí la insistencia en los controles conceptuales. 9. El coeficiente de fiabilidad aumenta por lo tanto: a) si hay diferencias en las respuestas a cada ítem b) y si además hay relación entre los ítems (es decir, hay coherencia en las respuestas). 10.La fiabilidad supone también que los sujetos son distintos en aquello que es común a todos los ítems. El mismo test o escala, con los mismos ítems, puede tener una fiabilidad alta en una muestra y baja en otra: si todos responden a los ítems de idéntica manera: a) los ítems tendrán varianzas pequeñas y b) interrelaciones pequeñas, y por lo tanto baja- rá la fiabilidad. La fiabilidad viene a expresar la capacidad del instru- mento para discriminar, para diferenciar a los sujetos a través de sus respuestas a todos los ítems. Es más probable encontrar una fiabilidad alta en una muestra grande, porque es más probable también que haya sujetos más extremos en lo que estamos midiendo. En sentido propio la fiabilidad no es una propiedad del test o escala, sino de las puntua- ciones obtenidas con el instrumento en una muestra dada. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 200
  • 201.
    5. LAS FÓRMULASDE KUDER RICHARDSON 20 Y a DE CRONBACH Las dos fórmulas posiblemente más utilizadas son las de Kuder-Richardson 20 y el coeficiente a de Cronbach. En realidad se trata de la misma fórmula, una (Kuder-Richardson) expresada para ítems dicotómicos (con respuestas de unos y ceros) y otra (Cronbach) para ítems continuos (con varias respues- tas graduadas de menos a más, como en las escalas de actitudes). Los nom- bres distintos se deben a que los autores difieren en sus modelos teóricos, aunque estén relacionados, y los desarrollaron en tiempos distintos (Kuder y Richardson en 1937, Cronbach en 1951). Para hacer operativa la fórmula [3] s2 v r11 = ––––– [3] s2 t El denominador no ofrece mayor problema, se trata de la varianza de las puntuaciones totales del test o instrumento utilizado. El numerador, o varianza verdadera, lo expresamos a través de la suma de las covarianzas de los ítems. Es útil recordar aquí qué es la co-varianza. Conceptualmente la co-varianza es lo mismo que la co-relación; en el coe- ficiente de correlación utilizamos puntuaciones típicas y en la covarianza uti- lizamos puntuaciones directas, pero en ambos casos se expresa lo mismo y si entendemos qué es la correlación, entendemos también qué es la covarianza o variación conjunta. La varianza verdadera la definimos operativamente como la suma de las covarianzas de los ítems. La covarianza entre dos ítems expresa lo que dos ítems discriminan por estar relacionados, esto es lo que denominamos en estas fórmulas varianza verdadera, por lo tanto la fórmula [3] podemos expresarla poniendo en el numerador la suma de las covarianzas entre los ítems: o lo que es lo mismo ya que La covarianza entre dos ítems (sxy) es igual al producto de su correlación (rxy) por sus desviaciones típicas (sx y sy): ahí tenemos la varianza verdade- ra: diferencias en las respuestas a los ítems (expresadas por las desviaciones típicas) y relacionadas (relación expresada por los coeficientes de correla- ción entre los ítems). Se trata por lo tanto de relaciones empíricas, verifica- das, no meramente lógicas o conceptuales. LA FIABILIDAD DE LOS TETS Y ESCALAS 201
  • 202.
    Esta fórmula [5]de la fiabilidad no es, por supuesto cómoda para calcular- la (tenemos otras alternativas) pero pone de manifiesto qué es lo que influye en la fiabilidad, por eso es importante. Aumentará la fiabilidad si aumenta el numerador. Y lo que tenemos en el numerador (fórmula [5]) es la suma de las covarianzas de los ítems (Ssxy = Srxysxsy) que expresa a) todo lo que discriminan los ítems (y ahí están sus desviaciones típicas) y b) por estar relacionados (y tenemos también las co- rrelaciones inter-ítem). Si nos fijamos en la fórmula [5] vemos que si los ítems no discriminan (no establecen diferencias) sus desviaciones típicas serán pequeñas, bajará el nu- merador y bajará la fiabilidad. Pero no basta con que haya diferencias en los ítems, además tienen que es- tar relacionados; la correlación entre los ítems también está en el numerador de la fórmula [5]: si las desviaciones son grandes (como en el grupo B de la tabla 1) pero los ítems no están relacionados (= respuestas no coherentes), bajará la fiabilidad, porque esa no relación entre los ítems hace que las pun- tuaciones totales estén menos diferenciadas, como sucede en el grupo B. En este caso vemos que cuando las desviaciones de los ítems son muy grandes, pero la correlación inter-ítem es igual a 0, la fiabilidad es también igual a 0. La fiabilidad expresa por lo tanto cuánto hay de diferencias en los totales debidas a respuestas coherentes (o proporción de varianza verdadera o de- bida a que los ítems están relacionados). Por eso se denomina a estos coefi- cientes coeficientes de consistencia interna: son mayores cuando las relacio- nes entre los ítems son mayores. La expresión varianza verdadera puede ser equívoca; en este contexto varianza verdadera es la debida a que los ítems están relacionados, son respondidos de manera básicamente coherente, pe- ro no prueba o implica que de verdad todos los ítems midan lo mismo. Esta relación empírica, verificable, entre los ítems nos sirve para apoyar o confirmar (pero no probar) la relación conceptual que debe haber entre los ítems (ya que pretendidamente miden lo mismo), aunque esta prueba no es absoluta y definitiva y requerirá matizaciones adicionales (dos ítems pue- den estar muy relacionados entre sí sin que se pueda decir que miden lo mis- mo, como podrían ser edad y altura). La fórmula [4] puede transformarse en otra de cálculo más sencillo. Se puede demostrar fácilmente que la varianza de un compuesto (como la va- rianza de los totales de un test, que está compuesto de una serie de ítems que se suman en una puntuación final) es igual a la suma de las covarianzas en- tre los ítems (entre las partes del compuesto) más la suma de las varianzas de los ítems: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 202 de donde
  • 203.
    La expresión [k/(k-1)](k= número de ítems) la añadimos para que el va- lor máximo de este coeficiente pueda llegar a la unidad. El segundo miembro de esta fórmula [8], que es el que realmente cuantifica la proporción de va- rianza debida a lo que los ítems tienen en común o de relacionado, puede al- canzar un valor máximo de [(k-1)/k] y esto solamente en el caso improbable de que todas las varianzas y covarianzas sean iguales. Como [(k-1)/k] x [k/(k- 1)]= 1, al añadir a la fórmula el factor [k/(k-1)] hacemos que el valor máximo posible sea 1. La fórmula [8], tal como está expresada, corresponde al a de Cronbach (para ítems continuos); en la fórmula Kuder-Richardson 20 (para ítems dico- tómicos, respuesta 1 ó 0) sustituimos Ss2 i por Spq pues pq es la varianza de los ítems dicotómicos (p = proporción de unos y q = proporción de ceros). La parte de la fórmula [8] que realmente clarifica el sentido de la fiabilidad está en el segundo miembro que, como hemos visto, equivale a Srxysxsy/s2 t (suma de las covarianzas de todos los ítems dividida por la varianza de los to- tales, fórmulas [4] y [5]). 6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD Es útil tener a la vista los factores o variables que inciden en coeficientes de fiabilidad altos. Cuando construimos y probamos un instrumento de me- dición psicológica o educacional nos interesa que su fiabilidad no sea baja y conviene tener a la vista qué podemos hacer para obtener coeficientes altos. Además el tener en cuenta estos factores que inciden en la magnitud del co- eficiente de fiabilidad nos ayuda a interpretar casos concretos. En general los coeficientes de fiabilidad tienden a aumentar: y sustituyendo en [4] tenemos que de donde número de ítems suma de las varianzas de los ítems varianza de los totales La fórmula que sin embargo utilizamos es esta otra y que corresponde al coeficiente s de Cronbach [8]: LA FIABILIDAD DE LOS TETS Y ESCALAS 203
  • 204.
    1º Cuando lamuestra es heterogénea; es más fácil clasificar a los su- jetos cuando son muy distintos entre sí. Con muestras de sujetos muy parecidos en el rasgo que queremos medir, todos responderán de ma- nera parecida, y las varianzas de los ítems y sus intercorrelaciones serán pequeñas. 2º Cuando la muestra es grande porque en muestras grandes es más probable que haya sujetos muy distintos (es la heterogeneidad de la muestra, y no el número de sujetos, lo que incide directamente en la fiabilidad); aunque también podemos obtener un coeficiente alto en muestras pequeñas si los sujetos son muy diferentes en aquello que es común a todos los ítems y que pretendemos medir. 3º Cuando las respuestas a los ítems son más de dos, porque en este caso hay una mayor probabilidad de que las respuestas difieran más, de que se manifiesten las diferencias que de hecho existen. Cuan- do el número de respuestas supera la capacidad de discriminación de los sujetos, la fiabilidad baja porque las respuestas son más inconsisten- tes; en torno a 6 ó 7, e incluso menos, suele situarse el número óptimo de respuestas. Lo más claro experimentalmente es que la fiabilidad su- be al pasar de dos respuestas a tres. 4º Cuando los ítems son muchos (más oportunidad de que los sujetos queden más diferenciados en la puntuación total) aunque un número de ítems grande puede dar una idea equívoca de la homogeneidad del instrumento como indicaremos más adelante (muchos ítems poco re- lacionados entre sí pueden llevar una fiabilidad alta en todo el instru- mento sin que quede muy claro qué se está midiendo). 5º Cuando la formulación de los ítems es muy semejante, muy re- petitiva (si hay diferencias entre los sujetos, aparecerán en todos los ítems y subirán sus intercorrelaciones) aunque ésta no es una caracte- rística necesariamente deseable en un instrumento (que mediría un constructo definido con límites muy estrechos). En general los cons- tructos o rasgos definidos con un nivel alto de complejidad requerirán ítems más diversificados y la fiabilidad tenderá a ser menor. 7. INTERPRETACIÓN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA Basándonos en estas fórmulas y en sus modelos teóricos, estos coeficien- tes podemos interpretarlos de las siguientes maneras (unas interpretaciones se derivan de las otras): 1. Expresa directamente lo que ya hemos indicado: la proporción de varianza debida a lo que los ítems tienen de relacionado, de co- ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 204
  • 205.
    mún; un coeficientede .70 indica que el 70% de la varianza (diferencias en los totales, que es lo que cuantifica la varianza) se debe a lo que los ítems tienen en común (de estar relacionado, de coherencia en las respuestas), y un 30% de la varianza se debe a errores de medición o a lo que de hecho tienen los ítems de no relacionado. De esta interpretación podemos decir que es una interpretación literal, que se desprende directamente de la lectura de la fór- mula (Suma de covarianzas/Varianza total). Estos coeficientes, dicho en otras palabras, expresan en qué grado los ítems discriminan o diferencian a los sujetos simultáneamente. De alguna manera son un indicador de relación global entre los ítems (aunque no equivalen a la correlación media entre los ítems). 2. Consecuentemente interpretamos estos coeficientes como indicado- res de la homogeneidad de los ítems (es decir, de que todos los ítems miden lo mismo, por eso se denominan coeficientes de consistencia inter- na); pero esto es ya una interpretación: suponemos que si las respuestas es- tán relacionadas es porque los ítems expresan o son indicadores del mismo rasgo, aunque no hay que confundir relación empírica (verificada, re- lación de hecho en las respuestas y es esto lo que cuantificamos con estas fór- mulas) con homogeneidad conceptual. Esta relación o consistencia inter- na comprobada de los ítems es la que legitima su suma en una puntuación total, que es la que utilizamos e interpretamos como descriptor del rasgo (ciencia, una actitud, un rasgo de personalidad, etc.) que suponemos presen- te en todos los ítems. 3. Son una estimación del coeficiente de correlación que pode- mos esperar con un test similar, con el mismo número y tipo de ítems. Esta interpretación se deriva directamente del modelo teórico propuesto por Cronbach. De un universo o población de posibles ítems hemos escogi- do una muestra de ítems que es la que conforma nuestro instrumento. Si la fiabilidad es alta, con otra muestra de ítems de la misma población de ítems obtendríamos unos resultados semejantes (los sujetos quedarían ordenados de manera similar). Un uso importante de estos coeficientes es poder comunicar hasta qué punto los resultados obtenidos con un determinado instrumento son repeti- bles, en el sentido de si con un test semejante los resultados hubieran sido si- milares. La fiabilidad es en este sentido un indicador de la eficacia del instru- mento. Si estos coeficientes son una estimación de la correlación del test con otro similar, podemos concluir que con otro test semejante los sujetos hubie- ran quedado ordenados, clasificados, de manera parecida. 4. En términos generales el coeficiente de fiabilidad nos dice si un test discrimina adecuadamente, si clasifica bien a los sujetos, si detec- ta bien las diferencias que existen entre los sujetos de una muestra. Diferen- cias ¿En qué? En aquello que es común a todos los ítems y que es lo que pre- LA FIABILIDAD DE LOS TETS Y ESCALAS 205
  • 206.
    tendemos medir. Esmás, sin diferencias entre los sujetos no puede haber un coeficiente de fiabilidad alto. La fiabilidad es una característica positiva siem- pre que interese detectar diferencias que suponemos que existen. Esto suce- de cuando medimos rasgos de personalidad, actitudes, etc., medir es, de al- guna manera, establecer diferencias. 5. Una observación importante: la interpretación de estos coeficientes, como característica positiva o deseable, puede ser distinta cuando se trata de comprobar resultados escolares en los que no hay diferencias o no se preten- de que existan, por ejemplo en un examen de objetivos mínimos, o si se tra- ta de verificar si todos los alumnos han conseguido determinados objetivos. A la valoración de la fiabilidad en exámenes y pruebas escolares le dedicamos más adelante un comentario específico (apartado 11). La valoración de una fiabilidad alta como característica positiva o de cali- dad de un test es más clara en los tests de personalidad, inteligencia, etc., o en las escalas de actitudes: en estos casos pretendemos diferenciar a los su- jetos, captar las diferencias que de hecho se dan en cualquier rasgo; digamos que en estos casos las diferencias son esperadas y legítimas. Además en este tipo de tests también pretendemos medir (en un sentido analógico) un úni- co rasgo expresado por todos los ítems, mientras que en el caso de un exa- men de conocimientos puede haber habilidades muy distintas, con poca rela- ción entre sí, en el mismo examen (aunque tampoco esto es lo más habitual). Aun con estas observaciones, en un examen largo, tipo test, con muchos o bastantes alumnos, entre los que esperamos legítimamente que haya diferen- cias, una fiabilidad baja sí puede ser un indicador de baja calidad del instru- mento, que no recoge diferencias que probablemente sí existen. 6. Índice de precisión. Hemos visto que el coeficiente de fiabilidad ex- presa una proporción, la proporción de varianza verdadera o varianza debi- da a lo que los ítems tienen en común. También sabemos que un coeficiente de correlación elevado al cuadrado (r2 , índice de determinación) expresa una proporción (la proporción de varianza compartida por dos variables). Es- to quiere decir que la raíz cuadrada de una proporción equivale a un coefi- ciente de correlación (si r2 = proporción, tenemos que = r). En este caso la raíz cuadrada de un coeficiente de fiabilidad equivale al co- eficiente de correlación entre las puntuaciones obtenidas (con nuestro ins- trumento) y las puntuaciones verdaderas (obtenidas con un test ideal que midiera lo mismo). Este coeficiente se denomina índice de precisión (tam- bién índice, no coeficiente, de fiabilidad). índice de precisión ó robservadas.verdaderas = [9] Una fiabilidad de .75 indicaría una correlación de .86 con las puntuaciones verdaderas. Este índice expresa el valor máximo que puede al- ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 206
  • 207.
    Estas valoraciones, comootras similares que pueden encontrarse en libros de texto y en diversos autores, son sólo orientadoras5 . Lo que se quiere poner canzar el coeficiente de fiabilidad. No es de mucha utilidad, pero se puede utilizar junto con el coeficiente de fiabilidad. 7. La interpretación del coeficiente de fiabilidad se complementa con el cálculo y uso del error típico o margen de error; es la oscilación probable de las puntuaciones si los sujetos hubieran respondido a una serie de tests pa- ralelos; a mayor fiabilidad (a mayor precisión) bajará la magnitud del error pro- bable. Tratamos del error típico en otro apartado (9.2); el error típico, como ve- remos, puede ser de utilidad más práctica que el coeficiente de fiabilidad. 8. CUÁNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO Esta pregunta no tiene una respuesta nítida; cada coeficiente hay que va- lorarlo en su situación: tipo de instrumento (define un rasgo muy simple o muy complejo), de muestra (muy homogénea o más heterogénea) y uso pre- tendido del instrumento (mera investigación sobre grupos, o toma de deci- siones sobre sujetos). En la práctica la valoración depende sobre todo del uso que se vaya a ha- cer del instrumento (de las puntuaciones con él obtenidas). Como orienta- ción podemos especificar tres usos posibles de los tests y algunos valores orientadores (tabla 3). Tabla 3 LA FIABILIDAD DE LOS TETS Y ESCALAS 207 5 Nunnally (1978) propone un mínimum de .70; para Guilford (1954:388-389) una fiabi- lidad de sólo .50 es suficiente para investigaciones de carácter básico; Pfeiffer, Heslin y Jones (1976) y otros indican .85 si se van a tomar decisiones sobre sujetos concretos; en algunos tests bien conocidos (de Cattell) se citan coeficientes inferiores a .50 (Gómez Fernández, 1981). No hay un valor mínimo sagrado para aceptar un coeficiente de fiabilidad como ade- cuado; medidas con una fiabilidad relativamente baja pueden ser muy útiles (Schmitt, 1996). Por otra parte coeficientes muy altos; pueden indicar excesiva redundancia en los ítems (muy repetitivos) por esta razón hay autores que recomiendan un máximum de .90 (Strei- ner, 2003). Como referencia adicional podemos indicar que la fiabilidad media en artículos de buenas revistas de Psicología de la Educación está en torno a .83 (Osborne, 2003).
  • 208.
    de manifiesto esque no es lo mismo investigar (comparar medias de grupos, etc.) que tomar decisiones sobre individuos. Si se van a tomar decisiones so- bre sujetos concretos (como aprobar, excluir, recomendar tratamiento psi- quiátrico, etc.) hay que proceder con más cautela, teniendo en cuenta ade- más que no todas las posibles decisiones son de igual importancia. Cuando baja la fiabilidad sube el error típico (o margen de error en la puntuación in- dividual) que con una forma paralela del mismo test o en otra situación, etc., podría ser distinta. Los grupos son más estables que los individuos, y el mar- gen de error que pueda haber es de menor importancia (el error típico de la media es menor que la desviación típica de la muestra). Por lo demás si se trata de tomar decisiones sobre individuos concretos se puede tener en cuenta el error típico y tomar la decisión en función de la banda de posibles puntuaciones individuales más que en función de la pun- tuación concreta obtenida de hecho; de esta manera asumimos la menor fia- bilidad del instrumento. En este sentido importa menos la poca fiabilidad de un test si en la interpretación de los resultados individuales tenemos en cuan- ta el error típico (del que tratamos en 9.2). Por otra parte tampoco se suelen tomar decisiones importantes en función del resultado de un único test. En el caso de informar sobre grupos se pueden especificar los intervalos de confianza de la media (margen de error o de oscilación de la media, que se verá en el lugar apropiado). Los valores del coeficiente de fiabilidad oscilan entre 0 y 1, pero ocasional- mente podemos encontrar valores negativos, simplemente porque no se cumplen en un grado apreciable las condiciones de estos modelos (Black, 1999:286); en este caso (valor negativo) podemos interpretar este coeficiente como cero6 . 9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD Vamos a fijarnos en tres ventajas o usos frecuentes de estos coeficientes: 1º Nos confirman en principio que todos los ítems miden lo mismo, y de hecho estos coeficientes se utilizan como un control de calidad, aun- que esta interpretación es discutible y habrá que entenderla y relativi- zarla. Más bien habría que decir que un coeficiente alto de fiabilidad ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 208 6 Valores negativos del coeficiente de fiabilidad pueden encontrarse cuando hay subs- tanciales correlaciones negativas entre los ítems; esto puede suceder cuando está mal la clave de corrección y hay ítems con una formulación positiva y negativa que tienen la mis- ma clave; también puede suceder que los ítems realmente miden constructos distintos y no hay suficiente varianza compartida; en estos casos la fiabilidad puede considerarse igual a cero (Streiner, 2003).
  • 209.
    apoya (pero noprueba) la hipótesis de que todos los ítems miden bá- sicamente el mismo rasgo o atributo. 2º Los coeficientes de fiabilidad permiten calcular el error típico de las puntuaciones individuales; este error típico puede incluso ser de un interés mayor que el coeficiente de fiabilidad porque tiene aplicaciones prácticas como veremos en su lugar. 3º Los coeficientes de fiabilidad obtenidos nos permiten estimar los coe- ficientes de correlación que hubiéramos obtenido entre dos variables si su fiabilidad fuera perfecta (y que se denominan coeficientes de co- rrelación corregidos por atenuación). 9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretación uni- dimensional del rasgo medido Como vamos exponiendo, la consistencia interna que manifiesta el coe- ficiente de fiabilidad apoya (pero no prueba) la interpretación de que todos los ítems miden lo mismo (es lo que entendemos por unidimensionalidad; que el instrumento mide un único rasgo bien definido); esto es lo que en principio se pretende cuando se construye un test o escala. Ésta es la interpretación y valoración más común de estos coeficientes. Simplificando, lo que decimos es esto: si unos sujetos tienden a estar de acuerdo con todos los ítems y otros responden en la zona del desacuerdo a los mismos ítems, esta coherencia de las respuestas nos dice que todos los ítems miden el mismo rasgo. Esta interpretación, que es válida en principio, hay que relativizarla, porque en la fiabilidad influyen variables ajenas a la re- dacción de los ítems, que por otra parte pueden ser buenos (con criterios conceptuales) pero no para cualquier muestra o para cualquier finalidad. El interpretar una fiabilidad alta como indicador claro de que todos los ítems miden lo mismo no se puede aceptar ingenuamente; el coeficiente de fiabilidad no es una medida de unidimensionalidad. Esto es importante porque precisamente se aduce este coeficiente como prueba de que los ítems miden lo mismo, de que todos los ítems expresan bien un mismo rasgo, y es- to no está siempre tan claro. Por otra parte (como ya se ha indicado en el nº 7) una de las interpretacio- nes standard de estos coeficientes (en la misma línea de apoyo a la unidi- mensionalidad del test) es que expresan la correlación que obtendríamos con un test paralelo. Podemos concebir un test (o escala de actitudes, etc.) como compuesto por una muestra aleatoria de ítems tomada de un univer- so o población de ítems que miden lo mismo: la fiabilidad indicaría la correla- ción de nuestro test con otro de idéntico número de ítems tomados del mis- mo universo. En primer lugar no hay un valor óptimo del coeficiente de fiabilidad y por otra parte esta interpretación (derivada del modelo de Cron- LA FIABILIDAD DE LOS TETS Y ESCALAS 209
  • 210.
    bach) supone almenos una condición que no suele darse en la práctica: que todas las correlaciones ítem-total son de la misma magnitud. En la práctica es preferible hablar de una estimación de esa correlación, que será más exacta si somos muy restrictivos en la selección de los ítems. Hay que matizar la interpretación de estos coeficientes porque no depen- den exclusivamente de la redacción de los ítems, también dependen de la complejidad o simplicidad de la definición del rasgo que queremos medir, y además (y frecuentemente sobre todo) influyen en la fiabilidad característi- cas de la muestra. Hablando con propiedad, la fiabilidad ya sabemos que no es una característica del instrumento de medición sino de las puntuaciones con él obtenidas en una situación dada y con una muestra determinada. En estas observaciones nos fijamos sobre todo en los coeficientes de fia- bilidad más bien altos, porque no indican necesariamente que el instrumen- to es bueno, también prestaremos atención a los coeficientes bajos, que pue- den tener su explicación e incluso ser compatibles con un buen instrumento. Vamos a explicar por qué un coeficiente alto no expresa necesariamente que los ítems son suficientemente homogéneos como para concluir que to- dos miden lo mismo, que hay suficiente homogeneidad conceptual como para sumarlos en una única puntuación que refleja lo un sujeto tiene del ras- go que estamos midiendo y que consideramos expresado por la formulación de los ítems. Nos fijaremos en tres puntos: 1º) Esta consistencia interna que cuantifican los coeficientes de fiabili- dad expresa una relación de hecho, estadística, empírica, entre los ítems, pero la relación empírica no supone necesariamente que hay coherencia conceptual (que todos expresan bien el mismo rasgo). 2º) Una fiabilidad alta puede deberse a un número grande de ítems que en ocasiones no se prestan a una interpretación clara como descripto- res de un único rasgo, bien definido. 3º) Una fiabilidad alta puede deberse también a una concepción del ras- go muy limitada, expresada a través de ítems de contenido casi idén- tico, muy repetitivos. Todo esto hay que tenerlo en cuenta para valorar estos coeficientes y no dar necesariamente por bueno un instrumento porque hemos obtenido una fiabilidad alta7 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 210 7 Sobre los usos y abusos del coeficiente a puede verse Schmitt (1996).
  • 211.
    9.1.1. Una fiabilidadalta no es prueba inequívoca de que todos los ítems miden lo mismo: necesidad de controles concep- tuales Puede suceder que los ítems estén relacionados de hecho pero que expre- sen cosas distintas (o suficientemente distintas) y que por lo tanto sea cues- tionable el sumarlos como si realmente midieran lo mismo; al menos esa puntuación total puede no ser de interpretación clara. Ya lo hemos comenta- do a propósito de dos supuestos ítems de una escala de actitud hacia la mú- sica (apartado nº 4) y que es oportuno repetir aquí: 1. En mi tiempo libre me gusta escuchar música 2. En mi casa tenemos un piano Estos dos ítems son un ejemplo pretendidamente exagerado (porque ob- viamente no describen el mismo rasgo), pero es claro para ilustrar que rela- ción empírica (la que expresan estos coeficientes de fiabilidad) no es lo mis- mo que relación conceptual (que de entrada todos los ítems midan un mismo rasgo interpretable). Si a los que más les gusta la música tienen además un piano en casa, obtendremos una correlación alta entre estos dos ítems pero sería discutible considerar los dos ítems homogéneos como si midieran lo mismo, a pesar de un coeficiente de fiabilidad alto. El tener un piano en ca- sa mide o expresa nivel económico aunque el tener un piano en casa coinci- da de hecho (no necesariamente pero tendría su lógica) con una actitud más favorable hacia la música. Hace falta un control cualitativo y no meramente estadístico de la homogeneidad de los ítems. Además de la fiabilidad que podemos calcular tenemos que considerar la homogeneidad conceptual de los ítems. Aunque esta homogeneidad con- ceptual la suponemos (al menos es lo que se intenta), un índice alto de ho- mogeneidad empírica (consistencia interna), calculada (correlaciones) no es garantía de homogeneidad conceptual. Cuando decimos que todos los ítems miden lo mismo, que son homogéneos, porque la fiabilidad es alta, lo que realmente queremos decir es que las respuestas están de hecho relacio- nadas pero no que los ítems (las preguntas) estén bien redactadas en torno a un mismo constructo o rasgo claramente definido. Hace falta también una evaluación cualitativa y conceptual de los ítems para poder afirmar que to- dos los ítems miden lo mismo, expresan el mismo rasgo tal como lo hemos concebido. Por otra parte varios subconjuntos de ítems muy relacionados entre sí pe- ro marginalmente relacionados con otros subconjuntos de ítems pueden dar un coeficiente de fiabilidad alto en todo el instrumento y sin embargo un aná- lisis conceptual de estos subconjuntos (más otros análisis estadísticos, como LA FIABILIDAD DE LOS TETS Y ESCALAS 211
  • 212.
    el análisis factorial)nos pueden llevar a la conclusión de que los subconjun- tos de ítems miden rasgos suficientemente distintos como para que sea cues- tionable sumarlos en un total único. Consistencia interna (tal como la cuan- tifican estos coeficientes) y unidimensionalidad son conceptos distintos, por eso decimos que un coeficiente alto de fiabilidad es un apoyo pero no una prueba de que el conjunto de ítems que componen el instrumento mi- de un único rasgo bien conceptualizado. 9.1.2. Fiabilidad y número de ítems El coeficiente de fiabilidad aumenta al aumentar el número de ítems; ¿quiere esto decir que los tests más largos son más homogéneos, que sus ítems miden con más claridad el mismo rasgo? Obviamente no; los ítems no están más relacionados entre sí por el mero hecho de ser más en número; el mismo Cronbach (1951) lo expresaba así: un galón de leche no es más homo- géneo que un vaso de leche; un test no es más homogéneo por el mero he- cho de ser más largo. El que al aumentar el número de ítems aumente la fiabilidad se debe, al menos en parte, a un mero mecanismo estadístico: cuando aumenta el núme- ro de ítems (con tal de que estén mínimamente relacionados entre sí) la su- ma de las covarianzas entre los ítems (numerador de la fórmula [4]) aumen- ta proporcionalmente más que la varianza de los totales (denominador de la fórmula [4]). Una fiabilidad alta se puede obtener con muchos ítems con re- laciones bajas entre sí, e incluso con algunas negativas; y puede suceder tam- bién que (como ya hemos indicado) dos (o más) bloques de ítems con claras correlaciones entre los ítems dentro de cada bloque, pero con poca o nula re- lación con los ítems del otro bloque den para todo el test un coeficiente alto de fiabilidad. En este caso la homogeneidad del conjunto, y la interpretación de las puntuaciones como si expresaran un único rasgo bien definido puede ser cuestionable. Por lo tanto: a) No se debe buscar una fiabilidad alta aumentando sin más el número de ítems, sin pensar bien si son realmente válidos para expresar sin confu- sión el rasgo que deseamos medir. Una fiabilidad alta no es un indicador cuasi automático de la calidad de un test, sobre todo si es muy largo; hace falta siempre una evaluación conceptual de los ítems (además de verificar empíricamente su correlación con el total del instrumento). b) Con frecuencia con un conjunto menor de ítems se puede conseguir una fiabilidad semejante o no mucho más baja que si utilizamos todos los ítems seleccionados en primer lugar, y varios subconjuntos de ítems pueden tener coeficientes de fiabilidad muy parecidos. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 212
  • 213.
    c) La fiabilidadtambién sube al aumentar el número de respuestas de los ítems (esto es más claro si pasamos de dos a tres o más respuestas); con un número menor de ítems pero con más respuestas se puede conseguir una fiabilidad semejante a la que conseguiríamos con más ítems y menos respuestas. No hay que olvidar nunca que la validez es más importante que la fiabili- dad; lo que más importa en primer lugar es que los ítems reflejen bien el ras- go que se desea medir. 9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido Un coeficiente alto puede estar indicando que los ítems tienen homoge- neidad conceptual, pero porque son excesivamente repetitivos, porque esta- mos midiendo un constructo o rasgo definido de manera muy limitada. Con pocos ítems muy repetitivos obtenemos con facilidad una fiabilidad alta. Una definición muy simple de un rasgo no es necesariamente una mala característica cuando se trata hacer un instrumento de medición (puede ser incluso preferible según lo que se pretenda medir) pero hay que tener en cuenta esta simplicidad de la concepción del rasgo en la interpretación, y más teniendo en cuenta que los nombres con que designamos a instrumentos y rasgos suelen ser muy genéricos (autoestima, motivación, asertividad) y la interpretación no debe hacerse en función del nombre del instrumento sino del contenido de los ítems que lo componen. Los nombres breves son cómo- dos, pero con frecuencia requieren alguna explicación adicional. Un ejemplo claro y frecuente de un rasgo que a veces se mide de manera muy simple y otras de manera más compleja es la autoestima. Se puede pre- parar un instrumento de autoestima general, que incluirá múltiples aspectos (académico, social, familiar, etc.), o se puede construir un instrumento para medir la autoestima en un sentido muy restringido, como sería la autoestima académica. También se pueden construir instrumentos pluridimensionales: se mide un rasgo complejo con todos los ítems del instrumento, y con una definición más bien genérica pero que tiene sentido (autoestima, asertividad, etc.) pero que a su vez se puede descomponer en subescalas más específicas; la fiabili- dad puede calcularse tanto en todo el instrumento como en las subescalas que miden aspectos más simples. 9.2. El error típico de la medida Una utilidad importante de los coeficientes de fiabilidad puede estar no en la magnitud misma de estos coeficientes, sino en los cálculos posteriores LA FIABILIDAD DE LOS TETS Y ESCALAS 213
  • 214.
    que podemos hacera partir de los mismos. Uno de estos cálculos es el del error típico de la medida. El error típico de la medida es de especial utilidad cuando se van a hacer interpretaciones individuales, sobre todo si se derivan consecuencias im- portantes para los sujetos (aprobar, ser seleccionado para un puesto de tra- bajo, etc.), y con más razón si se juzga que la fiabilidad del instrumento dis- ta de ser óptima. Ya hemos indicado en otro lugar que una fiabilidad alta es importante cuando los resultados (de un test) van a influir en la toma de de- cisiones sobre los sujetos (y el aprobar o suspender a un sujeto es una de- cisión importante). 9.2.1. Concepto y fórmula del error típico El error típico de la medida viene a ser la desviación típica de las pun- tuaciones individuales, e indica el margen de error o variación probable de las puntuaciones individuales. En términos informales podemos decir que el error típico nos indica el margen de oscilación probable de las puntuaciones de una ocasión a otra o entre pruebas hipotéticamente iguales o semejantes. Nos puede servir para relativizar los resultados individuales, y de alguna ma- nera neutralizar la baja fiabilidad de instrumento indicando y teniendo en cuenta los márgenes de error. Vamos a pensar en un ejemplo sencillo, un examen tipo test. Cada alumno tiene un resultado, su número de respuestas correctas. Si cada alumno hubiera respondido a un número indefinido de exámenes, no hubiera obtenido en todos exactamente el mismo resultado; sus posibles resultados se hubieran distribuido según la distribución normal (figura 3). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 214 Figura 3
  • 215.
    Esta distribución hubieratenido su media y su desviación típica o error tí- pico de la medición. Podemos suponer que la puntuación de hecho obteni- da es la media de la distribución (aunque esto no es así exactamente, como veremos después al tratar de las puntuaciones verdaderas). El error típico de la medición se calcula a partir del coeficiente de fiabili- dad, y en muchos casos el mejor uso del coeficiente de fiabilidad es utilizarlo para calcular el error típico, (por ejemplo en exámenes o en cualquier test) cuando interese situar a cada uno en su banda de posibles probables resulta- dos. Esta banda de posibles resultados será más estrecha (con un error típico menor) cuando la fiabilidad sea alta, y será más amplia cuando baje la fiabili- dad. Una baja fiabilidad de un instrumento puede quedar neutralizada si utili- zamos el error típico en la interpretación de las puntuaciones individuales. La fórmula del error típico podemos derivarla con facilidad de las fórmulas [2] y [3]. De la fórmula [2] podemos despejar la varianza verdadera: s2 v = s2 t - s2 e s2 t – s2 e s2 e y substituyendo esta expresión de s2 v en [3]: r11 = ———— = 1- —— s2 t s2 t s2 e de donde —— = 1- r11 y despejando se tenemos que s2 t error típico [10] Esta es la fórmula de la desviación típica de los errores de medición, deno- minada error típico de la medida o de las puntuaciones individuales. Se cal- cula a partir de la desviación típica (de los totales del test) y del coeficiente de fiabilidad calculados en la muestra. Si un sujeto hubiera respondido a una se- rie de tests paralelos semejantes, el error típico sería la desviación típica obte- nida en esa serie de tests. Se interpreta como cualquier desviación típica e in- dica la variabilidad probable de las puntuaciones obtenidas, observadas. El error típico es directamente proporcional al número de ítems y en el ca- so de los tests con respuestas 1 ó 0 (como en las pruebas objetivas) un cálcu- lo rápido (y aproximado) es el dado en la fórmula [11]8 : error típico [11] LA FIABILIDAD DE LOS TETS Y ESCALAS 215 8 Puede verse explicado en Gardner (1970) y en Burton (2004). Hay varias fórmulas que permiten cálculos aproximados del error típico, del coeficiente de fiabilidad y de otros estadísticos que pueden ser útiles en un momento dado (por ejemplo, y entre otros, Sau- pe, 1961; McMorris, 1972).
  • 216.
    Aquí hay quehacer una observación importante. Este error típico se apli- ca en principio a todos los sujetos por igual; hay un error típico que indica la oscilación probable de cada puntuación. Esto no es así exactamente. Pense- mos en un examen: el alumno que sabe todo, en exámenes semejantes segui- ría sabiendo todo, y el alumno que no sabe nada, en exámenes semejantes seguiría sin saber nada: la oscilación probable en los extremos es menor que en el centro de la distribución. Ésta es una limitación de esta medida del error probable individual. Aun así es la medida más utilizada aunque hay otras9 . Si la distribución es normal (o aproximadamente normal) y las pun- tuaciones máximas y mínimas obtenidas no son las máximas o mínimas posi- bles (la amplitud real no es igual a la amplitud máxima posible), éste error tí- pico de la medida es más o menos uniforme a lo largo de toda la escala de puntuaciones. Aquí nos limitamos a exponer el error típico habitual, el que se utiliza nor- malmente y que tiene aplicaciones muy específicas, pero en situaciones apli- cadas (como en exámenes) sí conviene caer en la cuenta de que la posible va- riabilidad individual tiende a ser menor en los extremos de la distribución. 9.2.2. Las puntuaciones verdaderas Un punto importante para el cálculo e interpretación del error típico es que el centro de la distribución de los posibles resultados no es para cada su- jeto la puntuación que ha obtenido. Si un sujeto obtiene una puntuación de 120 y el error típico es de se = 4.47, no podemos concluir que hay un 68% de probabilidades (aproximadamente, es la proporción de casos que suelen dar- se entre ± 1s) de que su verdadera puntuación está entre 120 ± 4.47. El cen- tro de la distribución no es en este caso la puntuación obtenida, sino la deno- minada puntuación verdadera (Xv) que se puede estimar mediante la fórmula [12]: Estimación de la puntuación verdadera: X̄v = [(X-X̄) (r11)] + X̄ [12] En el caso anterior si X̄ = 100 y r11 = .80, la estimación de la puntuación verdadera de un sujeto que tuviera una puntuación de X = 120, sería [(120 - 100)(.80)] + 100 = 116. Si la fiabilidad es igual a 1, la puntuación obtenida es también la que aquí denominamos verdadera. Siguiendo con el mismo ejemplo, de un sujeto con X =120 y una puntua- ción verdadera de 116, podemos decir que sus posibles resultados en ese test ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 216 9 En Mehrens y Lehmann (1973, pág. 106) puede verse cómo calcular el error típico de cada sujeto; es una fórmula poco utilizada porque resulta laborioso calcularla para ca- da sujeto y a efectos prácticos son suficientes las expuestas en el texto.
  • 217.
    (con un 5%de probabilidades de equivocarnos) están entre 116 ± (1.96 erro- res típicos); en este caso entre 116 ± (1.96)(4.47) o entre 107 y 125. Estas puntuaciones verdaderas tienden a ser menores que las obtenidas cuando estas son superiores a la media, y mayores cuando son inferiores a la media. No debemos entender esta puntuación verdadera (aunque éste sea el término utilizado) como expresión de una verdad absoluta, que nos dice exactamente lo que vale o sabe una persona en aquello en la que la hemos medido. Hay que entender más bien esta puntuación verdadera como la puntuación más probable que un sujeto hubiera obtenido si le hubiéramos medido repetidas veces en el mismo rasgo y con el mismo instrumento. Las puntuaciones verdaderas y las puntuaciones observadas tienen una correlación perfecta (el orden de los sujetos es el mismo con las dos puntua- ciones) por lo que el cálculo de estas puntuaciones verdaderas no tiene siempre una especial utilidad práctica; sí puede tenerla cuando se desea pre- cisamente utilizar el error típico para precisar con mayor rigor y exactitud en- tre qué límites o banda de resultados probables se encuentra la verdadera puntuación, como tratamos en el apartado siguiente. 9.2.3. Los intervalos de confianza de las puntuaciones individuales Como el error típico se interpreta como una desviación típica, si el error típico es de 4.47, hay un 68% de probabilidades de que la verdadera puntua- ción estaría entre 116 ± 4.47 (la puntuación verdadera más-menos un error típico; es la proporción de casos que caen en la distribución normal entre la media más una desviación típica y la media menos una desviación típica, co- mo se representa en la figura 1). Podemos establecer intervalos de confianza con mayor seguridad, y así podríamos decir, con un 95% de probabilidades de acertar (z = 1.96) que la puntuación verdadera se encuentra entre 116 ± 1.96se y en nuestro ejemplo entre 116 ± (1.96)(4.47) o entre 116 ± 8.76 (es decir, entre 107 y 125). El error típico nos sirve para relativizar las puntuaciones obtenidas, y más que pensar en una puntuación concreta, la obtenida por cada sujeto, pode- mos pensar en una banda de posibles puntuaciones. La puntuación verdadera exacta de cada sujeto (la que hubiera obtenido respondiendo a todos los ítems del universo e ítems o a muchas pruebas pa- ralelas) no la sabemos, pero sí podemos estimar entre qué límites se encuen- tra, y esto puede ser de utilidad práctica en muchas ocasiones. Cuando en un examen hay una puntuación mínima para el apto, sumando a los que están en el límite un error típico, o margen de oscilación probable, algunos quizás superen holgadamente ese límite; al menos hay un criterio razonablemente objetivo, justificable y común para todos. LA FIABILIDAD DE LOS TETS Y ESCALAS 217
  • 218.
    9.3. Coeficientes decorrelación corregidos por atenuación En buena medida la utilidad de los coeficientes de fiabilidad está en los cálculos adicionales que podemos hacer. Posiblemente el más importante, y de utilidad práctica, es el del error típico de la medida que ya hemos visto. Otra utilidad de estos coeficientes es que nos permiten calcular el valor de un coeficiente de correlación entre dos variables corregido por atenuación. La correlación calculada entre dos variables queda siempre disminuida, atenuada, por culpa de los errores de medición, es decir, por su no perfec- ta fiabilidad. La verdadera relación es la que tendríamos si nuestros instru- mentos midieran sin error. Esta correlación corregida por atenuación es la que hubiéramos obtenido si hubiésemos podido suprimir los errores de me- dición en las dos variables (o al menos en una de las dos; no siempre conoce- mos la fiabilidad de las dos variables). Conociendo la fiabilidad de las dos variables podemos estimar la verdade- ra relación mediante la fórmula [13]: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 218 En esta fórmula rxy es el coeficiente de correlación obtenido entre dos va- riables, X e Y, y rxx y ryy son los coeficientes de fiabilidad de cada variable; si co- nocemos solamente la fiabilidad de una de las dos variables, en el denomina- dor tendremos solamente la raíz cuadrada de la fiabilidad conocida. Por ejemplo si entre dos tests o escalas tenemos una correlación de .30 y los coeficientes de fiabilidad de los dos tests son .50 y .70, la correlación esti- mada corregida por atenuación sería: Vemos que la correlación sube apreciablemente; y expresa la relación en- tre las dos variables independientemente de los errores de medición de los instrumentos utilizados. Sobre estas estimaciones de la correlación entre dos variables (entre las verdaderas puntuaciones de X e Y, sin errores de medición) ya se han hecho una serie de observaciones al tratar sobre los coeficientes de correlación (en el apartado 4.1. del capítulo sobre correlación y covarianza; ése es el contex-
  • 219.
    to apropiado); convienetener en cuenta esas observaciones (que no repeti- mos aquí) sobre 1º en qué condiciones se debe utilizar esta fórmula de correc- ción por atenuación, 2º en qué situaciones es más útil y 3º otras fórmulas dis- tintas de corrección por atenuación. Conviene repasar estas observaciones antes de aplicar estas fórmulas10 . 10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO Un coeficiente de fiabilidad bajo no indica necesariamente que el instru- mento es malo y que no es posible utilizarlo. También puede suceder que ha- ya una razonable homogeneidad conceptual en la formulación de los ítems, y esto se procura siempre, y que esta homogeneidad no se refleje en un coe- ficiente alto de fiabilidad. En cualquier caso con un coeficiente de fiabilidad bajo y si se van a tomar decisiones sobre los sujetos (una decisión puede ser dar un informe) sí conviene incorporar el error típico a la interpretación. Ahora nos interesa examinar de dónde puede venir un bajo coeficiente de fiabilidad. 10.1. Inadecuada formulación de los ítems Puede ser que los sujetos entiendan los ítems de una manera distinta a como lo pretende el autor del instrumento. Un a veces me gustaría mar- charme de casa podría significar para algunos me gusta viajar, etc. y en este caso las respuestas no serían coherentes con el significado pretendido por el constructor del instrumento (me siento mal en casa). La coherencia concep- tual prevista la comprobamos con la coherencia que de hecho encontramos en las respuestas. En el análisis de ítems, al construir un instrumento, pode- mos comprobar si los sujetos que responden, parecen entender la formula- ción con el significado previsto; en caso contrario tendremos que eliminarlos o reformularlos. 10.2. Homogeneidad de la muestra Podemos encontrarnos con una homogeneidad conceptual clara en los ítems y una fiabilidad muy baja. Una causa de la baja fiabilidad puede estar en que apenas hay diferencias entre los sujetos (todos o casi todos responden de manera parecida). Si no hay diferencias tampoco habrá relación clara y verificada entre las respuestas porque sin diferencias entre los sujetos los co- LA FIABILIDAD DE LOS TETS Y ESCALAS 219 10 Una buena exposición de los efectos de la baja fiabilidad en los coeficientes de corre- lación y de la corrección por atenuación puede verse en Osborne (2003).
  • 220.
    eficientes de correlaciónentre los ítems son muy bajos. Por eso la fiabilidad es mayor con muestras heterogéneas, en las que hay mayores diferencias en las respuestas. Con una muestra más variada (o simplemente mayor, donde es más probable que haya sujetos muy diferentes) podemos encontrar una fiabilidad alta. De todas maneras con una fiabilidad baja que no se deba a la mala calidad del instrumento sino a la homogeneidad de la muestra, seguire- mos clasificando mal (diferenciando, midiendo mal) a los sujetos de esa muestra. 10.3. Definición compleja del rasgo medido Por supuesto una fiabilidad baja, sobre todo si la obtenemos con una mues- tra razonablemente heterogénea, puede significar una concepción del rasgo excesivamente compleja o una construcción deficiente del instrumento. Aun así podemos encontrar coeficientes bajos en tests reconocidos como buenos porque miden rasgos definidos con un grado grande de complejidad11 . Rasgos definidos de manera compleja o muy genérica pueden tener ítems poco relacionados entre sí y consecuentemente tendremos una fiabili- dad baja aunque esté presente la unidad conceptual pretendida por el autor. Una consecuencia de definir los rasgos que medimos de manera muy com- pleja es que en estos casos es que se puede llegar a una misma puntuación to- tal por caminos distintos, y esto hay que asumirlo en la interpretación. En cualquier caso la fiabilidad debería estar dentro de unos mínimos aceptables para poder afirmar que estamos midiendo, diferenciando a los sujetos según posean más o menos del rasgo que supuestamente medimos12 . Cuando la fiabilidad es baja, observando la redacción de los ítems y cómo se relacionan entre sí, podemos llegar a la conclusión que es preferible una concepción más simple del rasgo, sin mezclar ideas relacionadas pero no lo suficiente, o dividir el instrumento en dos (o más) instrumentos y medir as- pectos distintos por separado con instrumentos distintos. 10.4. Utilidad del error típico cuando la fiabilidad es baja Una valoración racional del coeficiente de fiabilidad tendrá en cuenta tan- to la homogeneidad de la muestra como la complejidad del instrumento, y en cualquier caso con coeficientes bajos siempre es conveniente utilizar el error tí- ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 220 11 Para Cattell (1964), que prefiere medir en sus tests rasgos complejos, la consistencia in- terna no tiene por que ser la máxima posible, sino la máxima compatible con la complejidad deseada en la misma concepción del constructo (optimum low, en expresión de Cattel). 12 Un tratamiento más extenso de la fiabilidad y de la unidimensionalidad de los tests puede verse en Morales (2006, cap. 9 y 10).
  • 221.
    pico en lainterpretación de los resultados individuales. Cuando se trata de to- mar decisiones sobre sujetos, o de dar un informe de cierta importancia (por ejemplo en un psicodiagnóstico) y la fiabilidad del instrumento es baja, es cuan- do puede ser de especial utilidad (e incluso de responsabilidad ética) no limi- tarse a informar con una puntuación o resultado muy preciso, sino con una banda de puntuaciones probables; esta banda o límites probables de la pun- tuación será mayor cuando el error típico sea mayor (y la fiabilidad más baja). 11. LA FIABILIDAD EN EXÁMENES Y PRUEBAS ESCOLARES En primer lugar recordemos que es relativamente frecuente calcular la fia- bilidad de las pruebas tipo test (estos cálculos, y otros, suelen estar programa- dos), pero también se puede calcular la fiabilidad de un examen compuesto por unas pocas preguntas de respuesta abierta, con tal de que en todas las preguntas se utilice la misma clave de corrección. Las fórmulas adecuadas las veremos después; en las pruebas cuyos ítems puntúan 1 ó 0 (lo habitual con pruebas objetivas) se utiliza alguna de las fórmulas de Kuder-Richardson, y cuando las puntuaciones son continuas (por ejemplo de 0 a 4 o algo similar) se utiliza el coeficiente a de Cronbach. Cuando se trata de exámenes escolares el coeficiente de fiabilidad puede presentar problemas específicos de interpretación. No hay que olvidar que la psicometría clásica trata de las diferencias individuales en medidas psicológi- cas que parten al menos de dos supuestos: a) Todos los componentes (ítems) del test miden el mismo rasgo. b) Los sujetos son distintos en el rasgo que queremos medir. Estos dos supuestos no son aplicables siempre y automáticamente a los di- versos tipos de exámenes y pruebas escolares. En estas pruebas los coeficien- tes de fiabilidad pueden dar información útil, pero hay que tener cuidado en la interpretación. Es importante pensar en la fiabilidad de los exámenes porque se interpre- ta y utiliza habitualmente como un control de calidad, y se estima que siem- pre es bueno que un test de conocimientos (como un examen tipo test) ten- ga una fiabilidad alta. En el caso de los exámenes esto puede ser discutible (aunque no en todas las situaciones) y conviene hacer algunas matizaciones. 11.1. Fiabilidad y validez En primer lugar la característica más importante de una prueba escolar (como de cualquier instrumento de medición) no es la fiabilidad psicométri- LA FIABILIDAD DE LOS TETS Y ESCALAS 221
  • 222.
    ca, sino lavalidez: una prueba de evaluación o cualquier examen es bueno si comprueba los objetivos deseados (y comunicados previamente), si condicio- na en el alumno un estudio inteligente. Con una prueba objetiva se puede conseguir fácilmente una fiabilidad muy alta, pero se pueden estar compro- bando meros conocimientos de memoria cuando quizás el objetivo pretendi- do era (o debería ser) de comprensión, análisis, etc. La validez es por lo tan- to la primera consideración para evaluar la evaluación: en principio un instrumento es válido si mide lo que decimos que mide. 11.2. Fiabilidad y diferencias entre los sujetos Por lo que respecta a la fiabilidad, hay que tener en cuenta que en última instancia la fiabilidad expresa la capacidad diferenciadora de un test, y esto es en principio deseable cuando se trata precisamente de diferenciar. Si un test de inteligencia no diferencia adecuadamente a los más y a los menos inteli- gentes (y lo mismo diríamos de cualquier otra capacidad o rasgo psicológico) sencillamente no nos sirve. En definitiva en estos casos medir es diferenciar. Por eso en todo tipo de tests psicológicos, escalas de actitudes, etc., una fiabi- lidad alta es una característica deseable. Entendiendo bien que la fiabilidad no es una característica de un test (aunque ésta sea la expresión habitual) sino de un conjunto de puntuaciones que quedan mejor o peor diferenciadas. Si pensamos en los tests escolares de conocimientos, podemos preguntar- nos si las diferencias son deseables, si es verdad que un test que distingue, matiza y establece diferencias nítidas entre los alumnos implica que tenemos un buen test y, sobre todo, unos buenos resultados. Una fiabilidad baja en un examen puede provenir de cualquiera de estas dos circunstancias: sujetos muy igualados o preguntas muy distintas (el saber unas no implica saber otras). a) La clase está muy igualada, apenas hay diferencias pronunciadas o sistemáticas entre los alumnos. No se puede clasificar bien a los in- clasificables. Que esto sea bueno o malo deberá juzgarlo el profesor. En un test sencillo de objetivos mínimos un buen resultado es que to- dos sepan todo, y en este caso la fiabilidad psicométrica, sería igual a cero. Lo mismo puede suceder con un test más difícil, sobre todo en grupos pequeños, en los que todos los alumnos tienen un rendimien- to alto. b) Las preguntas son muy distintas y el saber unas cosas no implica saber otras, no hay homogeneidad en los ítems ni se pretende. Esta situación no suele ser la más frecuente en los tests escolares más convenciona- les, pero si no hay homogeneidad en las preguntas de un test (porque se preguntan cosas muy distintas o de manera muy distinta) y el saber ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 222
  • 223.
    unas cosas noimplica saber otras, entonces lógicamente bajará la fia- bilidad de todo el test (debido a la poca relación entre unas y otras pre- guntas o ejercicios). En un examen final más o menos largo, donde hay de todo, fácil y difícil, en una clase relativamente numerosa, en la que hay alumnos más y menos aventajados, una fiabilidad alta en una prueba objetiva nos indicará que de- tectamos bien diferencias que de hecho existen y que además son legítimas o al menos esperables. Cuando todos saben todo en un examen de esas carac- terísticas, esto puede significar que estamos igualando a la clase por su nivel más bajo y que el profesor no da juego a los más capaces. 11.3. Fiabilidad y calificación También hay que pensar que una fiabilidad alta indica en principio diferen- cias consistentes entre los alumnos, pero no indica necesariamente que los de puntuación más baja no lleguen al nivel del apto. Si todos los alumnos es- tán en la parte alta de la distribución pero bien diferenciados, la fiabilidad se- rá alta; en este caso los que saben menos pueden saber lo suficiente; y tam- bién puede suceder lo contrario, que los que saben más que los demás no sepan lo suficiente. Lo que sí parece claro es que una fiabilidad alta es deseable en todo instru- mento de medida cuya función y utilidad está precisamente en que nos per- mite conocer si un sujeto tiene mucho o poco del rasgo que estamos midien- do y además nos interesa diferenciar a unos sujetos de otros, o al menos es razonable esperar diferencias claras entre los sujetos (como ya se ha indicado en 11.2). Lo que sí puede ser siempre de utilidad en cualquier tipo de examen es calcular y utilizar el error típico de la medida o de las puntuaciones obteni- das (para lo cual necesitamos el coeficiente de fiabilidad)13 , porque nos indi- ca la banda probable de resultados en la que se encuentra cada alumno, y es- ta banda, aunque sea más imprecisa, refleja mejor que un número exacto de respuestas correctas por dónde se encuentra cada uno. En lenguaje coloquial podríamos decir que el error típico expresa el margen de mala o buena suerte del alumno ante unas preguntas concretas, y puede ayudar a relativizar una mera suma de respuestas correctas. Si establecemos previamente una puntuación de corte para situar el aprobado, el sumar, por ejemplo, un error LA FIABILIDAD DE LOS TETS Y ESCALAS 223 13 I am convinced that the standard error of measurement… is the most important single piece of information to report regarding an instrument, and not a coefficient (Cronbach y Shavelson, 2004).Ya hemos indicado que un cálculo aproximado y rápido del error típico de la media es .43冑k donde k es el número de ítems (Burton, 2004).
  • 224.
    típico a losalumnos que están en el límite del apto puede ser una buena práctica (como ya se ha indicado en el apartado 9.2.3)14 . 12. FÓRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA Las fórmulas del coeficiente de fiabilidad son muchas, aquí exponemos las más utilizadas. Podemos dividirlas en dos grupos: 1) Fórmulas que se basan en la partición del test en dos mitades 2) Fórmulas en las que se utiliza información de todos los ítems, como las de Kuder-Richardson y Cronbach. En cada uno de los apartados se incluyen otras fórmulas relacionadas o de- rivadas. También exponemos otras formulas de interés, como las fórmulas que relacionan la fiabilidad con el número de ítems. Aunque vamos a repasar una serie de fórmulas, conviene adelantar (y po- dría ser suficiente) que las fórmulas preferibles, y que deben utilizarse habi- tualmente, son las de Kuder-Richardson [18] (para ítems dicotómicos) y el a de Cronbach [20] (para ítems continuos); realmente se trata de la misma for- mula (varían los símbolos) y es la que suele venir programada en los progra- mas informáticos. Como cálculo aproximado y rápido de la fiabilidad la fór- mula más cómoda es la formula [19] que veremos después, pero sólo si los ítems son dicotómicos (puntúan 1 ó 0). 12.1. Fórmulas basadas en la partición del test en dos mitades 12.1.1. Cómo dividir un test en dos mitades 1. Como cualquier test puede dividirse en muchas dos mitades, puede ha- ber muchos coeficientes de distintos de fiabilidad. El resultado es sólo una es- timación que puede infravalorar o supervalorar la fiabilidad. Es habitual la práctica de dividir el test en ítems pares e impares, pero puede dividirse en dos mitades cualesquiera. Cada mitad debe tener el mismo número de ítems o muy parecido. 2. Si al dividir el test en dos mitades emparejemos los ítems según sus con- tenidos (matching), de manera que cada mitad del test conste de ítems muy parecidos, obtendremos una estimación más alta y preferible de la fiabilidad. 14 Si en un examen tipo test sumamos a los que están justo debajo del límite propues- to para el aprobado dos erres típicos nos ponemos prácticamente en el límite máximo pro- bable al que hubiera llegado ese alumno. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 224
  • 225.
    3. Cuando lamitad (o casi la mitad) de los ítems son positivos y la otra mi- tad son negativos (favorables o desfavorables al rasgo medido, con distinta clave de corrección), es útil que las dos mitades estén compuestas una por los ítems positivos y otra por los negativos. En este caso la correlación entre los dos tipos de ítems es muy informativa en sí misma, aunque no se calcule después la fiabilidad por este procedimiento. Una correlación entre los dos subtests en torno a .50 o mayor indica suficiente coherencia entre los dos ti- pos de ítems, y que no se manifiesta de modo apreciable la aquiescencia o tendencia a mostrar acuerdo (o responder sí) a ítems que expresan ideas con- tradictorias. 12.1.2. Fórmulas De estas fórmulas la primera y más clásica es la de Spearman-Brown; am- bos autores derivaron las mismas fórmulas de manera independiente en 1910 (la fórmula básica de estos autores es la [21], de la que se derivan la [14], la [22] y la [23]). La fórmula que se conoce habitualmente como procedimien- to de las dos mitades (vamos a ver que además hay otras fórmulas) y no sue- le faltar en ningún texto cuando se trata de la fiabilidad, es la fórmula [14]. 2r12 r11 = ——— [14] 1 + r12 Fórmula de Spearman-Brown r12 = correlación entre las dos mitades del test. El test se divide en dos mitades y se calcula la correlación entre ambas como si se tratara de dos tests. 1. La correlación entre las dos mitades es la fiabilidad de una de las dos (pruebas paralelas); con esta fórmula [14] se calcula la fiabilidad de todo el test. Observando la fórmula [14] puede verse que si r12 = 1, también tendre- mos que r11 = 1. 2. La fórmula [14] supone que las dos mitades tienen medias y varianzas idénticas; estos presupuestos no suelen cumplirse nunca, y de hecho con es- ta fórmula se sobrestima la fiabilidad; por lo que está desaconsejada (a pesar de su uso habitual); la fórmula de las dos mitades preferible es la conocida co- mo dos mitades alpha (r2a) [15]15 : 15 Esta fórmula la aconsejan buenos autores (incluido el mismo Cronbach). La impor- tancia del cálculo de la fiabilidad por el procedimiento de las dos mitades es sobre todo histórica; el método de las pruebas paralelas (dos pruebas en vez de dos mitades) y el de consistencia interna (en el que cada ítem funciona como una prueba paralela) parten de la intuición original de las dos mitades de Spearman y Brown. Una crítica y valoración de estas fórmulas puede verse en Charter (2001). LA FIABILIDAD DE LOS TETS Y ESCALAS 225
  • 226.
    12.2. Fórmulas deKuder-Richardson y s s de Cronbach Se trata de las fórmulas de consistencia interna que hemos justificado an- teriormente con mayor amplitud; son las más utilizadas17 . a) Son métodos en principio preferibles porque con los métodos de las dos mitades cabe dividir un test en muchas dos mitades con que las que podemos obtener distintos valores del coeficiente de fiabilidad. El resultado que nos dan las fórmulas de Kuder-Richardson y Cronbach 16 Esta fórmula también se conoce como fórmula de Rulon que es el primero que la expuso (en 1939) aunque Rulon se la atribuye a Flanagan (Traub, 1994). 17 Este coeficiente de fiabilidad (Kuder-Richardson o Cronbach) se calcula en el SPSS en la opción analizar, en escalas. En esta fórmula entran también, además de la correlación de las dos mita- des, las desviaciones típicas de cada mitad. 3. Otras fórmulas basadas en la partición de un test en dos mitades, y que suelen encontrarse en algunos textos, son la [16] y la [17], que no requieren el cálculo de la correlación entre las dos mitades; de todas maneras en estos casos (partición del test en dos mitades) es siempre preferible la fórmula [15]. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 226 Fórmula de Flanagan16 s2 1 y s2 2 son las varianzas de las dos mitades, s2 t es la varianza de todo el test s2 d = Es la varianza de la diferen- cia entre las dos mitades. Cada sujeto tiene dos pun- tuaciones, una en cada mi- tad: a cada sujeto se le res- tan ambas puntuaciones y se calcula la varianza de es- tas diferencias.
  • 227.
    equivale a lafiabilidad media que obtendríamos dividiendo un test en todas sus posibles dos mitades; obtenemos un único coeficiente que es una estimación más segura. b) En los modelos teóricos de donde parten estas fórmulas se supone que tanto las varianzas como las intercorrelaciones de los ítems son iguales; esto no suele suceder por lo que estas fórmulas tienden a dar una esti- mación de la fiabilidad algo baja. c) Las fórmulas de Kuder-Richardson son válidas para ítems dicotómicos (0 ó 1), y el coeficiente s de Cronbach para ítems con repuestas conti- nuas (más de dos repuestas). fórmula Kuder-Richardson 20 (para ítems dicotómicos) Como ya sabemos, p es la proporción de unos (aciertos, síes, la respuesta que se codifique con un 1) y q es la proporción de ceros (número de unos o de ceros dividido por el número de sujetos). Con ítems dicotómicos ésta es la fórmula [18] que en principio debe utili- zarse. Si se tienen calculadas las varianzas o desviaciones típicas de cada ítem, no es muy laboriosa. Si el cálculo resulta laborioso y no se tiene ya programada la fórmula com- pleta de la fiabilidad, hay otras alternativas más sencillas; la más utilizada es la fórmula Kuder-Richardson 21. k = número de ítems Spq = suma de las varianzas de los ítems s2 t = varianza de los totales fórmula Kuder-Richardson 21 k es el número de ítems; X – y s2 t son la media y varianza de los totales 1. Esta fórmula [19] se deriva de la anterior [18] si suponemos que todos los ítems tienen idéntica media. En este caso tendríamos que: Haciendo las sustituciones oportunas en [18] llegamos a la fórmula [19]. LA FIABILIDAD DE LOS TETS Y ESCALAS 227
  • 228.
    2. Esta fórmula[19] es sencilla y cómoda, porque solamente requiere el cálculo de la media y varianza de los totales, además del número de ítems, y es- tos son datos que suelen estar siempre disponibles. La suposición de que to- dos los ítems tienen idéntica media no suele cumplirse, por lo que esta fórmu- la sólo da una estimación de la fiabilidad. Se utiliza frecuentemente para calcular la fiabilidad de las pruebas objetivas (exámenes, evaluaciones) hechas por el profesor y por lo menos indica por dónde va la fiabilidad; puede ser su- ficiente para calcular el error típico y relativizar los resultados individuales. Existen otras aproximaciones de la fórmula Kuder-Richardson 20, pero es ésta la más utilizada. Con ítems continuos, con más de una respuesta como los de las escalas de actitudes, la fórmula apropiada es la del coeficiente a de Cronbach que es una generalización de la Kuder-Richardson 20; es la fórmula [8] que ya vimos antes: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 228 a de Cronbach para ítems continuos k = número de ítems Ss2 i = es la suma de las varian- zas de los ítems s2 t = es la varianza de los tota- les rkk = fiabilidad de un test com- puesto por k ítems r - ij = correlación media entre los ítems 12.3. Fórmulas que ponen en relación la fiabilidad y el número de ítems 1. La fórmula [14] se deriva de esta otra, denominada fórmula profética de Spearman-Brown y que es la fórmula original de estos autores: En la fórmula [14] hemos supuesto que k =2 y r - ij = r12. De la fórmula an- terior [21] se derivan otras dos especialmente útiles, y que se pueden utilizar aunque la fiabilidad no se calcule por el método de Spearman-Brown.
  • 229.
    Si en lafórmula [22] hacemos n = 2, tendremos la fórmula [14]; r12 es la fiabilidad de una de las dos mitades, lo que nos dice la fórmula [14] es la fia- bilidad del test entero (formado por las dos mitades)18 . 12.3.2. En cuánto debemos aumentar el número de ítems para alcanzar una determinada fiabilidad Posiblemente es más útil la fórmula siguiente [23]. Si tenemos una fiabili- dad conocida (r11) y queremos llegar a otra más alta (esperada, rnn), ¿En cuán- tos ítems tendríamos que alargar el test? En este caso nos preguntamos por el valor de n, el factor por el que tenemos que multiplicar el número de ítems que ya tenemos. 12.3.1. Cuánto aumenta la fiabilidad al aumentar el número de ítems Disponemos de una fórmula que nos dice (siempre de manera aproxima- da) en cuánto aumentará la fiabilidad si aumentamos el número de ítems multiplicando el número de ítems inicial, que ya tenemos, por un factor n. Es en realidad una aplicación de la misma fórmula. rnn = nuevo coeficiente de fiabilidad esti- mado si multiplicamos el número de ítems que tenemos por el factor n r11 = coeficiente de fiabilidad conocido n = factor por el que multiplicamos el número de ítems multiplicando por 2 el número inicial de ítems llegaríamos a una fiabilidad en torno a .80 Por ejemplo: tenemos una escala de actitudes de 10 ítems y una fiabilidad de .65. La fiabilidad nos parece baja y nos preguntamos cuál será el coeficien- te de fiabilidad si multiplicamos el número de ítems (10) por 2 (n = 2) y lle- gamos así a 20 ítems (del mismo estilo que ya los que ya tenemos). Aplicando la fórmula anterior [22] tendríamos: LA FIABILIDAD DE LOS TETS Y ESCALAS 229 18 A partir de una fiabilidad obtenida con un número determinado de ítems puede ver- se en Morales, Urosa y Blanco (2003) una tabla con la fiabilidad que obtendríamos multi- plicando el número inicial de ítems por un factor n.
  • 230.
    Naturalmente los nuevosítems deben ser parecidos a los que ya tenemos. Si el número de ítems que necesitamos para alcanzar una fiabilidad aceptable es obviamente excesivo, posiblemente los contenidos del núcleo inicial de ítems no representan bien un rasgo definido con claridad (al menos para la población representada por esa muestra) y es preferible intentar otra cosa. 12.4. Estimación de la fiabilidad en una nueva muestra cuya varian- za conocemos a partir de la varianza y fiabilidad calculadas en otra muestra La fiabilidad hay que calcularla en cada muestra. Al obtener los datos con un test en una nueva muestra no se puede aducir la fiabilidad obtenida en otras muestras como prueba o garantía de que en la nueva muestra la fiabili- dad será semejante19 . En definitiva la fiabilidad indica en qué grado el test di- ferencia a unos sujetos de otros y esto depende de la heterogeneidad de la muestra; por lo tanto se puede ordenar bien a los sujetos de una muestra y no tan bien a los de otra muestra distinta en la que los sujetos estén más igua- lados. En nuevas muestras con una varianza menor, lo normal es que la fiabi- lidad baje. Lo que sí se puede hacer es estimar la fiabilidad en una nueva muestra co- nociendo su desviación típica a partir de la fiabilidad obtenida en otra mues- tra de la que también conocemos la desviación típica (Guilford y Fruchter, 1973:420), bien entendido que se trata solamente de una estimación. Si, por ejemplo, con 8 ítems hemos conseguido una fiabilidad de .57 y de- seamos llegar a una fiabilidad aproximada de rnn = .75, ¿Por qué coeficiente n deberemos multiplicar nuestro número inicial de ítems? ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 230 19 El obtener la fiabilidad en cada nueva muestra es una de las recomendaciones de la American Psychological Association (5ª edición, 2001). n = factor por el que debemos multiplicar el número de ítems para conseguir una determinada fiabilidad rnn = fiabilidad deseada r11 = fiabilidad obtenida con el número ori- ginal de ítems
  • 231.
    Por ejemplo, sien una escala de actitudes hemos obtenido en una mues- tra una desviación típica de 6.86 y una fiabilidad de s = .78 ¿qué fiabilidad po- demos esperar en otra muestra cuya desviación típica vemos que es 7.28? 6.682 (1 – .78) Aplicando la fórmula [24]: fiabilidad esperada = 1 – —————— = .8147 7.282 De hecho la fiabilidad calculada en la nueva muestra (ejemplo real) es de 8.15, aunque no siempre obtenemos unas estimaciones tan ajustadas. 13. RESUMEN: CONCEPTO BÁSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA En el cuadro puesto a continuación tenemos un resumen significativo de lo que significa la fiabilidad en cuanto consistencia interna, cómo se interpre- ta y en qué condiciones tiende a ser mayor. LA FIABILIDAD DE LOS TETS Y ESCALAS 231 rnn = fiabilidad estimada en la nue- va muestra so y roo = desviación típica y fiabilidad ya calculadas (observadas) en una muestra sn = desviación típica en la nueva muestra (en la que deseamos estimar la fiabilidad) 1. Cuando ponemos un test o una escala aun grupo de sujetos nos encontramos con diferencias inter-individuales. Estas diferencias o diversidad en sus puntua- ciones totales las cuantificamos mediante la desviación típica (s) o la varianza (s2 ). 2. Esta varianza (diferencias) se debe a las respuestas de los sujetos que pueden ser de dos tipos (fijándonos en los casos extremos; hay grados intermedios): coherentes (relacionadas) o incoherentes, por ejemplo: respuestas respuestas coherentes incoherentes En mi casa me siento mal de acuerdo en desacuerdo A veces me gustaría marcharme de casa de acuerdo de acuerdo
  • 232.
    ESTADÍSTICA APLICADA ALAS CIENCIAS SOCIALES 232 3. La incoherencia aquí quiere decir que la respuesta no está en la dirección de las otras, tal como lo pretende el autor del instrumento (y esto por cualquier razón: pregunta ambigua, el que responde lo entiende de otra manera, etc.). Las respuestas coherentes son las respuestas relacionadas. Diversidad (o varianza) total = diversidad debida a respuestas coherentes + diversidad debida a respuestas incoherentes o en términos más propios, varianza total = varianza verdadera + varianza debida a errores de medición 5. La fiabilidad la definimos como la proporción de varianza verdadera: varianza verdadera fiabilidad = —————————— varianza total En términos más simples: varianza debida a respuestas coherentes (o relacionadas) fiabilidad = ——————————————————————————— varianza debida a respuestas coherentes y no coherentes Decimos respuestas distintas porque suponemos que los sujetos son distintos, unos tienen más y otros menos del rasgo que medimos y decimos repuestas coherentes porque esperamos que cada sujeto responda de manera coheren- te (de manera parecida si todos los ítems expresan lo mismo). 6. El coeficiente de fiabilidad es un indicador de relación global entre las res- puestas; expresa cuánto hay de relación en las respuestas. Esta relación es re- lación verificada, empírica, no es necesariamente conceptual, aunque la in- terpretación que se hace es conceptual (los ítems miden lo mismo) Un coeficiente de, por ejemplo, .80 quiere decir que el 80% de la varianza se debe a respuestas coherentes, a lo que los ítems tienen en común o de relacio- nado; el 80% de la varianza total (de la diversidad que aparece en las puntua- ciones totales) se debe a lo que los ítems tienen de relacionado. 7. La fiabilidad aumentará si aumenta el numerador, es decir 1º si hay diferencias en las respuestas y 2º si además las respuestas son coherentes (respuestas co- herentes: las que de hecho están relacionadas). 8. Cómo se interpreta un coeficiente de fiabilidad alto: a) El test o escala clasifica, ordena bien a los sujetos en aquello que es co- mún a todos los ítems; b) Con un instrumento parecido encontraríamos resultados parecidos, o si los sujetos respondieran muchas veces al mismo test o a tests semejantes, quedarían ordenados de manera similar (el coeficiente de fiabilidad es una estimación de la correlación esperable con un test paralelo).
  • 233.
    14. COMENTARIOS BIBLIOGRÁFICOS 1.La derivación de las fórmulas más conocidas del coeficiente de fiabili- dad y otras relacionadas (como el error típico, etc.) pueden verse en Magnusson (1976). Entre las muchas obras que tratan de estos temas son especialmente recomendables las de Guilford (1954), Guilford y Fruchter, (1973), Nunnally (1978), Nunnally y Bernstein (1994), Thorn- dike (1982), Traub (1994). También disponemos de buenos artículos (Traub y Roley, 1991; Moss, 1994; Cronbach y Shavelson, 2004, del se- gundo autor utilizando notas de Cronbach fallecido en 1997, que resu- men la historia de estos coeficientes). 2. La fórmula Kuder-Richardson 20 (y con más razón Kuder-Richardson 21, las dos más utilizadas con ítems dicotómicos) supone que todos los ítems tienen idéntica dificultad (media) e idéntica varianza; si esto no es así la fiabilidad resultante es una estimación más bien baja. Existen otros métodos que tienen en cuenta la diferente dificultad de los ítems, pero son más complicados; puede verse por ejemplo, en Horst (1953) y en Guilford y Fruchter (1973). 3. Ya hemos indicado que existen una serie de fórmulas de cálculo muy sencillo que simplifican las de Kuder-Richardson y otras como la del error típico. En general estas fórmulas no son recomendables dada la facilidad de cálculo que proporcionan calculadoras y programas infor- máticos y además se trata solamente de estimaciones ya que suponen c) Los ítems miden lo mismo (por eso se llaman coeficientes de consistencia interna); generan respuestas coherentes y a la vez distintas de sujeto a su- jeto. (Que los ítems miden lo mismo hay que interpretarlo con cautela; siempre es necesario un análisis conceptual y cualitativo). 9. La fiabilidad tiende a ser mayor: a) cuando los ítems expresan lo mismo; la definición del rasgo se expresa bien en todos los ítems; b) cuando es mayor el número de ítems, (con tal de que sean más o menos semejantes), c) cuando los ítems tienen un mayor número de respuestas (aunque no necesariamente), d) cuando los sujetos son más diferentes en aquello que se mide (muestra he- terogénea; no se puede clasificar bien a los muy semejantes); e) en muestras grandes (porque hay más probabilidad de que haya sujetos más distintos). LA FIABILIDAD DE LOS TETS Y ESCALAS 233
  • 234.
    unas condiciones queno se suelen darse. Aun así pueden tener su uti- lidad para cálculos rápidos y aproximativos. Pueden encontrarse estas fórmulas en Saupe (1961) y en McMorris (1972), y para el error típico también en Burton (2004). 4. En las pruebas de rendimiento escolar no es siempre fácil dividir un test o prueba en dos mitades equivalentes para calcular la fiabilidad por el procedimiento de las dos mitades. También se puede calcular a par- tir de dos mitades de tamaño desigual o incluso a partir de tres partes (con muestras grandes en este caso). Se trata de procedimientos me- nos conocidos pero que pueden ser de utilidad en un momento dado; pueden encontrarse en Kristof (1974) y en Feldt (1975). 5. En los tests o pruebas objetivas de criterio (en los que hay una pun- tuación de corte para distinguir al apto del no apto y consecuente- mente la distribución deja de ser normal) la fiabilidad se estima de otras maneras (pueden verse diversos índices en Mehrens y Lehmann, 1984, y en Berk, 1978); un índice apropiado y sencillo es el coeficiente de Livingston (puede verse en Mehrens y Lehmann, 1984; Black, 1999:291; en Black, 1999:292, tenemos también el índice de discrimi- nación apropiado en los tests de criterio). 6. El coeficiente de fiabilidad también se puede calcular mediante el aná- lisis de varianza para muestras relacionadas, con los mismos resul- tados que la fórmula del coeficiente a; puede verse en Hoyt (1941, 1952) y un ejemplo resuelto en Kerlinger (1975: 314-317) y en Fan y Thompson (2001). La relación entre fiabilidad y análisis de varianza también está explicada en Nunnally y Bernstein (1994: 274ss) y en Ro- senthal y Rosnow (1991). Posiblemente como mejor se entiende la fia- bilidad es desde el análisis de varianza. 7. Cómo calcular los intervalos de confianza de los coeficientes de fiabi- lidad puede verse en Fan y Thompson (2001); Duhachek y Iacobucci (2004) presentan tablas con el error típico de a para diversos valores del número de sujetos y de ítems y de la correlación media inter-ítem. El aportar estos intervalos de confianza es una de las recomendaciones (guidelines) de la American Psychological Association (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs, 1999). 8. Para verificar si dos coeficientes de fiabilidad (a) difieren significativa- mente puede verse Feldt y Kim (2006). 9. Fiabilidad inter-jueces. Un caso específico es el cálculo de la fiabili- dad (o grado de acuerdo) entre diferentes evaluadores, cuando una serie de jueces evalúan una serie de sujetos, situaciones, etc. Puede uti- lizarse el análisis de varianza para muestras relacionadas que res- ponde a esta pregunta: las diferencias observadas (la varianza total): ¿Se deben a que los jueces son distintos en su forma de evaluar, o a que ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 234
  • 235.
    los sujetos evaluadosson distintos entre sí? De este análisis se deriva un coeficiente que expresa lo mismo que el coeficiente ?, pero la inter- pretación se hace sobre la homogeneidad de los jueces (o, con más propiedad, sobre el grado de acuerdo entre los jueces que aquí son los ítems). Este coeficiente da un valor muy parecido a la correlación me- dia entre jueces (Rosenthal y Rosnow, 1991)20 . Hay también otras medidas de acuerdo entre jueces; pueden verse, entre otros, en Holley y Lienert (1974) y Shrout y Fleiss (1979). El coe- ficiente kappa (k) (Cohen, 1960) para medir el acuerdo entre dos jue- ces (datos dicotómicos, unos y ceros; k = .60 se interpreta ya como un grado de consensus importante) es muy popular (puede encontrarse en numerosos textos, por ejemplo Fink, 1998; y sobre su interpreta- ción Stemler, 2004). En Stemler (2004) pueden verse bien expuestos y valorados los diferentes enfoques para medir la fiabilidad de los jueces (interrater reliability), también es muy informativo Uebersax (Statis- tical Methods for Rater Agreement, last updated: 19 Feb 2008). LA FIABILIDAD DE LOS TETS Y ESCALAS 235 20 La fiabilidad de los jueces calculada a partir del análisis de varianza para muestras relacionadas (disponible en EXCEL) es sencillo y de fácil comprensión por su relación con el coeficiente a de Cronbach; fórmula y explicación en Morales (2007a).
  • 237.
    CAPÍTULO 7 ESTADÍSTICA INFERENCIAL: ELERROR TÍPICO DE LA MEDIA 1. INTRODUCCIÓN: ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL: ESTADÍSTICOS Y PARÁMETROS, POBLACIONES Y MUESTRAS Recordamos algunos conceptos básicos: Una población es un conjunto de elementos (sujetos, objetos) cuyos lími- tes los define el investigador; por ejemplo los alumnos de una universidad, o los de una sola facultad o los de todo el país… Una muestra es un número concreto de elementos extraídos de una po- blación. Una muestra aleatoria es aquella en la que todos los sujetos (u objetos) han tenido la misma probabilidad de ser escogidos; las muestras aleatorias son las que mejor representan las características de la población1 . La estadística descriptiva tiene por objeto describir las muestras: por ejemplo, la media aritmética (una medida de tendencia central) y la desvia- ción típica (una medida de dispersión) son estadísticos o medidas propias de la estadística descriptiva: nos describen cómo es una muestra. La estadística inferencial nos permite hacer inferencias, sacar conclusio- nes con respecto a una población: a partir de los datos descriptivos de una 237 1 Los diversos tipos de muestreo, aleatorio otros, y cómo llevarlos a cabo, pueden ver- se en muchos textos (como Hernández Sampieri, Fernández Collado y Baptista Lucio, 2000; Salkind, 1998) y en monografías específicas (como Rodríguez Osuna, 1993). Una bre- ve exposición de los tipos de muestras puede verse en Internet, en STATPAC INC (2003) (en Sampling Methods).
  • 238.
    muestra, deducimos losdatos o medidas de la población, que en este caso se denominan parámetros. Normalmente el investigador trabaja con muestras, grupos concretos a los cuales tiene acceso o que ha buscado y que puede medir en alguna caracterís- tica. Las poblaciones son en general inasequibles; se trabaja con pequeñas muestras y se generalizan las conclusiones a las poblaciones a las que perte- necen las muestras. Lo que vamos a ver ahora tiene que ver sobre todo (no exclusivamente) con la generalización a la población de los datos que encon- tramos en muestras concretas. 2. LAS DISTRIBUCIONES MUESTRALES Y EL ERROR TÍPICO Dos conceptos previos importantes son los de distribución muestral y error típico. En definitiva nos vamos a encontrar con una aplicación de lo que ya sabemos de la distribución normal y de las puntuaciones típicas: en la distribución normal conocemos las probabilidades de obtener una puntua- ción superior o inferior a cualquier puntuación típica. Ahora se trata básica- mente de una aplicación de esta relación. Básicamente ya lo hemos visto al tratar de la significación estadística de los coeficientes de correlación. Qué es una distribución muestral lo podemos ver con facilidad con un ca- so concreto: 1º Imaginemos una población de sujetos; por ejemplo los alumnos de una universidad. Los límites de la población (qué sujetos, u objetos, pertene- cen a una población) lo determina el que investiga. De la misma manera que ponemos como ejemplo de población a los alumnos de una universidad, po- dríamos decidir que la población que vamos a estudiar son los alumnos de una sola facultad, o los alumnos de todas las universidades del país. 2º De esta población podemos extraer una muestra aleatoria de, por ejemplo, 30 sujetos. Muestra aleatoria quiere decir que todos los sujetos de la población han tenido en principio la misma oportunidad de ser elegidos. Las muestras ale- atorias son en principio las que mejor representan las características de la po- blación. Hay varios métodos para elegir muestras aleatorias pero no los trata- mos aquí. 3º De esta muestra podemos calcular la media. Seguimos extrayendo muestras aleatorias y calculando sus medias. 4º Al disponer de un número grande de medias tendríamos una distribu- ción de estas medias; esa distribución es una distribución muestral: no se trata de una distribución de puntuaciones individuales sino de medias de muestras. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 238
  • 239.
    Un punto importantees que aunque las muestras no tengan una distribu- ción normal, las medias de estas muestras sí tienden a seguir la distribución normal. 5º La desviación típica de estas distribuciones muestrales se denomina error típico y se puede estimar a partir de los datos de una muestra. Por lo tanto un error típico es la desviación típica de una distribución muestral, y se interpreta como cualquier desviación típica. Dos distribuciones muestrales, con sus errores típicos, nos van a interesar de manera especial: 1) la distribución muestral de las medias; 2) la distribución muestral de las diferencias entre medias de la misma población. Estas distribuciones muestrales son modelos teóricos que a partir de los datos de una muestra nos van a permitir inferir conclusiones acerca de la po- blación a la que pertenece la muestra. Conociendo el error típico de estas dis- tribuciones podemos estimar entre qué limites se encuentra la media de la población o si dos muestras proceden de poblaciones distintas con media dis- tinta. Ahora nos centramos en el error típico de la media. Conviene caer en la cuenta desde el principio de la utilidad del error típi- co de la media. Es fácil obtener la media de una muestra en cualquier varia- ble de interés, pero con frecuencia lo que nos interesa no es la media como dato descriptivo de una muestra, sino conocer o tener una idea de por dón- de anda la media en la población representada por esta muestra. La media de la población no la vamos a conocer, pero sí podremos estimar entre qué va- lores se encuentra. La media de una muestra podemos interpretarla como una estimación (solamente una estimación sujeta a error) de la media de la población. Esta estimación será más precisa: 1º Si la muestra es aleatoria porque en ese caso representa mejor las ca- racterísticas de la población, 2º Si la muestra es grande (si la muestra comprendiera a toda la población tendríamos el dato exacto, no una estimación). El error típico, como es la desviación típica de todas las posibles muestras de esa población, nos va a permitir localizar entre qué límites se encuentra la media de la población. Este planteamiento es semejante al que nos encontramos en los sondeos de opinión, como son las encuestas pre-electorales. Si el 48% de los sujetos entrevistados dice que va a votar a un determinado candidato, esto no quie- re decir que el 48% exacto de la población le vaya a votar. Sin embargo los da- tos obtenidos de una muestra nos van a permitir estimar un tanto por ciento ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA 239
  • 240.
    mínimo probable yun tanto por ciento máximo probable de votantes a ese candidato: entre esos dos tantos por ciento se va a encontrar el tanto por ciento definitivo cuando todos hayan votado. De los datos de una muestra ex- trapolamos a la población, por eso se trata de estadística inferencial. De manera análoga podemos pensar en distribuciones muestrales de otros estadísticos como proporciones, medianas, coeficientes de correlación, etc., y también en distribuciones muestrales de las diferencias entre propor- ciones, medianas, coeficientes de correlación, etc., con aplicaciones semejan- tes a las que vamos a ver con respecto a la media que son las de utilidad más inmediata y frecuente. 3. EL ERROR TÍPICO DE LA MEDIA Según el teorema del límite central, si de cualquier población se extraen muestras aleatorias del mismo tamaño N, al aumentar el número de mues- tras sus medias se distribuyen normalmente, con media m y una desviación tí- pica, o error típico Esta distribución muestral de las medias es independiente de la distribu- ción de la población: aunque la distribución en la población no sea normal, las medias de las muestras aleatorias extraídas de esa población sí tienden a tener una distribución normal. El error típico de la media (desviación típica de la distribución muestral de las medias) podemos expresarlo de dos maneras: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 240 En la fórmula [1] la desviación típica del numerador se supone calculada dividiendo por N-1 la suma de cua- drados (o la suma de las puntuacio- nes diferenciales, X- – X, elevadas pre- viamente al cuadrado). En la fórmula [2] la desviación típica se ha calculado dividiendo por N, co- mo es normal hacerlo cuando se cal- cula la desviación típica como dato descriptivo de la muestra. Ambas fór- mulas son equivalentes y dan el mis- mo resultado; la única diferencia está en cuándo se ha restado 1 a N. En principio suponemos que la desviación típica de la muestra la hemos cal- culado dividiendo por N, como dato descriptivo de la dispersión en la muestra, por eso al calcular el error típico de la media utilizaremos la fórmula [2].
  • 241.
    La desviación típicadel numerador en ambas fórmulas es la calculada en la muestra, pero debería ser la desviación típica calculada con todos los suje- tos de la población. Como desconocemos la desviación típica de la pobla- ción, utilizamos la de la muestra como una estimación de la desviación típi- ca de la población. Observando la fórmula del error típico de la media podemos ver que: 1º Es claro que el error típico de la media será menor que la desviación típica de cualquier muestra: el cociente siempre será menor que el nu- merador. Esto quiere decir que las medias de las muestras son más es- tables y tienden a oscilar menos que las puntuaciones individuales; di- cho de otra manera, las medias de muestras de la misma población se parecen entre sí más que los sujetos (u objetos) de una muestra entre sí. 2º Observando las fórmulas vemos también que el error típico de la me- dia será más pequeño en la medida en que N sea grande: si aumenta- mos el denominador, disminuirá el cociente. Es natural que al aumentar el número de sujetos (N) el error sea me- nor: la media de la muestra se aproximará más a la media de la pobla- ción. Si N es muy grande, el error tiende a cero; y si N no comprende a una muestra sino a toda la población, el error sería cero: en este ca- so la media de la población coincide con la media de la muestra y no hay error muestral (o variación esperable de muestra a muestra). 3º Por otra parte si la desviación típica de la muestra es grande, el error tí- pico estimado de la media será también mayor: si aumentamos el nu- merador, el cociente será mayor. También esto es lógico: una desviación típica grande en una muestra quiere decir que las diferencias entre los sujetos son mayores, y conse- cuentemente las medias de las diferentes muestras también diferirán más entre sí. 4. UTILIDAD DEL ERROR TÍPICO DE LA MEDIA Vamos a exponer dos usos del error típico de la media. Aquí el más impor- tante es el primero, establecer los límites probables (intervalos de confian- za) entre los que se encuentra la media de la población, un planteamiento tí- pico y frecuente en estadística inferencial. Veremos también lo mismo aplicado a una proporción, que es la media cuando se trata de datos dicotó- micos (1 ó 0). En segundo lugar el error típico de la media nos permite comprobar si una muestra con una determinada media puede considerarse como perteneciente ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA 241
  • 242.
    a una poblacióncuya media conocemos o establecemos como hipótesis. La media también puede ser una proporción (una proporción es la media cuan- do los datos son unos y ceros). Es conveniente exponerlo aquí brevemente, pero lo volveremos a encontrar al tratar del contraste de medias, pues allí ve- remos un procedimiento más sencillo. Son procedimientos equivalentes. Podemos añadir un tercer uso del error típico de la media, que es determi- nar el número de sujetos que necesitamos en la muestra para extrapolar los resultados a la población. Cuando a partir de los datos de una muestra nos in- teresa extrapolar los resultados a la población (por ejemplo cuántos van a vo- tar a un partido político en unas elecciones), lo hacemos con un margen de error (en cuyo cálculo tenemos en cuenta el error típico y nuestro nivel de confianza): si queremos un margen de error pequeño, necesitaremos más sujetos… por eso en las fórmulas para determinar el número de sujetos de la muestra entrará el error típico. Este punto lo veremos de manera más sucin- ta, porque suele verse con más detalle en otro contexto más práctico, al tratar de las muestras, tipos de muestras, número de sujetos necesario según distin- tas finalidades, etc. 4.1. Establecer entre qué limites (intervalos de confianza) se en- cuentra la media (m) de la población (establecer parámetros poblacionales) La media de una muestra (X – ) es una estimación de la media de la pobla- ción (m); pero decir que es una estimación quiere decir que está sujeta a error. La media exacta de la población no la conocemos; pero sí podemos es- timar entre qué límites extremos se encuentra, y esto a partir de la media de una muestra y del error típico de la media. El error típico de la media no es otra cosa que una estimación de la des- viación típica de las medias (de muestras de la misma población), y se inter- preta de la misma manera; así por ejemplo según la distribución normal, el 95% de las medias se encontrará entre -1.96s y + 1.96s; aquí s es propiamen- te sx -, el error típico de la media. Si tenemos estos datos de una muestra: N = 30, X – = 62.8 y s = 7.9, ten- dremos que (fórmula [2]): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 242 El error típico de la media (o desviación típica de las medias posibles) es en este caso igual a 1.47, y según las probabilidades de la distribución normal podremos afirmar que:
  • 243.
    Hay un 68%de probabilidades de que la media de la población se encuen- tre entre la media de la muestra más menos un error típico: entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27. Hay un 95% de probabilidades de que la media de la población se encuen- tre entre la media de la muestra más menos 1.96 errores típicos: entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68. Si deseamos mayor seguridad al establecer los límites probables entre los que se encuentra la media de la población, podemos tomar como límite 2.57 errores típicos, porque sabemos que entre la media más menos 2.57 desvia- ciones típicas se encuentra el 99% de los casos. En este caso: El límite inferior de la media de la población sería [62.8 - (2.57 x 1.47)] = 59.02 El límite superior de la media de la población sería [62.8 + (2.57 x 1.47)] = 66.58 A estos límites, o valores extremos, superior e inferior, de la media en la población se les denomina intervalos de confianza, porque eso es precisa- mente lo que expresan: entre qué límites podemos situar la media de la po- blación con un determinado grado de confianza o de seguridad (o de pro- babilidades de no equivocarnos). Los intervalos de confianza suelen denominarse en las encuestas de opinión márgenes de error. Estos intervalos de confianza podemos establecerlos con diversos nive- les de seguridad, que vendrán dados por el valor de z que escojamos, por lo que podemos expresarlos así: intervalos de confianza de la media = La cantidad que sumamos y restamos a la media de la muestra podríamos denominarla margen de error al estimar los límites probables de la media en la población y que podemos expresar de esta manera: Como ya hemos indicado estos límites o márgenes de error serán más ajus- tados cuando el número de sujetos sea mayor. Es útil visualizar el efecto del ta- maño de la muestra en los intervalos de confianza (tabla 1). Queremos saber, por ejemplo, entre qué límites se encuentra la media de la población, estimada ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA 243
  • 244.
    a partir deuna muestra pequeña (N = 10) y de una muestra grande (N = 500), y con un niveles de confianza de .05 (que corresponde a z = 1.96). En ambos casos suponemos en las muestras una media = 8 y una desviación típica = 2. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 244 Tabla 1 Tabla 2 Lo vemos con más claridad con una representación gráfica: Límites extremos de la media de la población estimados a partir de N = 10 Límites extremos de la media de la población estimados a partir de N = 500 Con más sujetos los límites son más ajustados, hay más precisión; con 10 sujetos situamos la media de la población entre 6.68 y 9.13 (una diferencia de 2.45 puntos), y con 500 sujetos entre 7.82 y 8.18 (una diferencia entre ambos límites de sólo .36). También con un nivel de confianza más estricto (.01, que corresponde a z = 2.57, en vez de .05) tenemos una menor probabilidad de salir falsos pro- fetas, más seguridad, pero los límites son más amplios (una mayor seguri- dad pero menor precisión). Si en el ejemplo anterior utilizamos .01 en vez de .05 con 500 sujetos veremos la diferencia (tabla 2). Con una menor probabilidad de error (.01 en vez de .05) los límites extremos de la media en la población son 7.77 y 8.23, una diferencia de .46 en vez de .36
  • 245.
    Tanto X – como sson los valores calculados en una muestra. Naturalmente el valor exacto de la media de la población (m) no lo conocemos: puede estar en cualquier punto entre los valores extremos indicados. También puede es- tar fuera de los límites indicados, pero esto va siendo más improbable cuan- do establecemos unos intervalos de confianza más estrictos. Es normal operar con un nivel de confianza del 95% (o, lo que es lo mis- mo, con una probabilidad de error, al situar los límites extremos de la media, de un 5%); en este caso z en la fórmula [3] será igual a 1.96; como se despren- de de esta fórmula, a mayor valor de z (mayor seguridad) los límites serán más extremos. Cuando calculamos la media de una muestra en una variable de interés ¿Es útil calcular además entre qué límites se encuentra la media de la población? Con frecuencia nos bastará conocer la media de una muestra concreta co- mo dato informativo, pero con frecuencia extrapolamos informalmente de la muestra a la población. Siempre es útil relativizar este tipo de informa- ción, y con mayor razón si de hecho (como es frecuente) estamos utilizando la media de una muestra como estimación de la media de la población2 . 4.2. Establecer los intervalos de confianza de una proporción El error típico de una proporción es un caso particular del error típico de la media pero dado el uso frecuente de proporciones y porcentajes es útil ver- lo por separado y con ejemplos ilustrativos. Cuando los datos son dicotómicos (1 ó 0) la media p es la proporción de sujetos que responden sí o que escogen la respuesta codificada con un 1. Si de 200 sujetos 120 responden sí (ó 1) a una pregunta y 80 responden no (0), la media p es igual a 120/200 = .60: el 60% de los sujetos (o una media del 60%) han respondido sí. El error típico de una proporción es el mismo que el error típico de cual- quier media, solo que en este caso la media es p, la varianza es pq [propor- ción de unos por proporción de ceros] y la desviación típica es . La fórmula del error típico de una proporción (sp) será por lo tanto: 2 Una de las recomendaciones de la American Psychological Association es calcular siempre los intervalos de confianza (Wilkinson, Leland and Task Force on Statistical Infe- rence APA Board of Scientific Affairs 1999; American Psychological Association, 2001). ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA 245
  • 246.
    Ahora podemos hacernosesta pregunta: en esa muestra de 200 sujetos han respondido sí 120 sujetos (una media de .60 o el 60%), pero ¿cuántos responderán sí en la población representada por esa muestra? Ya podemos in- tuir la importancia de esta pregunta si pensamos en los sondeos pre-electora- les; lo que interesa realmente no es conocer cuántos sujetos de esa muestra van a votar a un candidato, sino cuántos le votarán el día de las elecciones. La proporción de votantes que dirán sí a ese candidato (o la media de vo- tantes) en la población no la sabemos (habría que preguntar a todos y eso se hará el día de las elecciones), pero sí podemos estimar entre qué límites má- ximo y mínimo se encuentra esa proporción con un determinado nivel de confianza (o seguridad de acertar en la predicción); es decir, podemos esta- blecer los márgenes de error. Para responder a esta pregunta calculamos los intervalos de confianza de la media (p = .60) con un nivel de confianza de .05 (un 5% de probabilidades de equivocarnos) que equivale a z = 1.96. La proporción de los que dirán sí a juzgar por los datos de esa muestra es- tará entre .60 menos 1.96 errores típicos y .60 más 1.96 errores típicos: Límite mínimo: .60 – (1.96)(.0346) = .60 – .0678 = .5322 (el 53%) Límite máximo: .60 + (1.96)(.0346) = .60 + .0678 = .6678 (el 67%) El margen de error en nuestra predicción es .0678 (casi un 7% redonde- ando). En la muestra encuestada ha respondido sí el 60%, pero en la pobla- ción representada por esa muestra esperamos que responda sí entre un 53% y un 67%. El ejemplo de los sondeos pre-electorales pone de relieve la importancia de calcular los intervalos de confianza de una proporción (y es lo que se ha- ce y comunica cuando se publican estas encuestas), pero estos intervalos de confianza son informativos casi en cualquier situación. Cuando se hacen son- deos de opinión en grupos diversos (alumnos, padres de alumnos, grupos En el ejemplo anterior tenemos que N = 200, p =120/200 = .60 y q =.40 (ó 1 - .60) por lo tanto el error típico de la proporción será: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 246 Intervalos de confianza de una proporción = De manera análoga a lo que hemos visto en los intervalos de confianza de la media en variables continuas (fórmulas [3] y [4]), los intervalos de confian- za de una proporción p serán:
  • 247.
    En la tabla3 podemos observar que en las muestras A y B responde afir- mativamente la misma proporción de sujetos (un 60%), pero al extrapolar los resultados a las poblaciones representadas por esas muestras el margen de error es mucho menor en la muestra A porque se trata de más sujetos. Al hablar de extrapolar a la población los resultados de una muestra (en este caso y en cualquier otro) hay que hacer una observación importante. Es- tamos suponiendo que esa muestra es representativa de la población, que no está sesgada, y esto es lo se intenta conseguir con las muestras aleatorias. Cuando éste no es el caso (responden los sujetos disponibles, los que quie- ren, etc.) siempre podemos pensar en la población que pueda estar repre- sentada por esa muestra y ser cautelosos al generalizar los resultados. En cual- quier caso siempre es más seguro informar sobre los intervalos de confianza sin limitarnos a una proporción o porcentaje aparentemente exacto. 4.3. Comparar la media de una muestra con la media de una población Se trata ahora de verificar si podemos considerar que una muestra, cuya media conocemos, pertenece a una población cuya media también conoce- mos. Si tenemos la media de una muestra (X – ) y la media de una población (m), podemos preguntarnos ¿Es posible afirmar que nuestra muestra, cuya profesionales, etc.) prácticamente se tienen muestras (no responde toda la población) pero los resultados suelen interpretarse como si todos hubieran respondido; lo realmente informativo es aportar los intervalos de confianza, o entre qué límites se encuentran con toda probabilidad las respuestas si to- dos hubieran respondido. Cuando distintos grupos responden a la misma pregunta (sí o no en este caso, pero puede tratarse también de respuestas con valores continuos) es útil especificar el error típico de la proporción en cada muestra y los interva- los de confianza entre los que se encuentra la proporción de síes (o unos) en las poblaciones representadas por esas muestras (ejemplo en la tabla 3, con un nivel de confianza de .05 ó z = 1.96). Tabla 3 ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA 247
  • 248.
    media conocemos, pertenecea (es una muestra aleatoria de) una población con media m? Si la respuesta es no, podremos afirmar que la muestra pertene- ce a una población distinta, con una media distinta. Al hablar de diferencias estadísticamente significativas estamos hablando de diferencias no aleatorias, no explicadas por el error muestral, no espera- bles por azar. Esto lo afirmaremos con una determinada probabilidad de error; es el nivel de significación o nivel de confianza. Es más frecuente comparar las medias de dos muestras (para comprobar si proceden de o pertenecen a poblaciones distintas con distinta media), pe- ro también tiene su interés el comparar la media de una muestra con la media de una población cuando ésta es conocida por otras investigaciones o estu- dios, o es la conclusión lógica de una determinada teoría, o simplemente la media de la población es una hipótesis de trabajo; siempre podemos pensar en medias hipotéticas. Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de problemas y obtiene estos resultados: N = 40, X – = 12.6 y s = 4.25. El profe- sor piensa que un resultado óptimo y posible hubiera sido obtener una media de 15, y se pregunta ¿puede considerarse esta muestra de 40 alumnos como una muestra aleatoria de una población cuya media fuera m = 15? Este tipo de planteamientos puede tener su interés cuando la media de la población es una hipótesis plausible o hay datos de otros estudios, etc. Vamos a suponer que el nivel de confianza que nos ponemos es de a = .01 (que co- rresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; sólo el 1% de los casos cae más allá de ±2.57). Podemos solucionar el problema de dos maneras. 1º Nuestra muestra pertenece a una población cuya media en principio desconocemos. Lo que sí podemos hacer es estimar el límite máximo de la media de la población a la que pertenece nuestra muestra, tal como hemos visto antes, y con un riesgo máximo de error del 1%, tal como hemos fijado previamente. 1. Calculamos el error típico de la media, ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 248 2. ¿Cuáles serán los límites superior e inferior de la media de la población, con una probabilidad de error del 1%? El límite superior será X – +(2.57)(sx –) = 12.6 + (2.57)(.68) = 14.35 El límite inferior será X – - (2.57)(sx –) = 12.6 – (2.57)(.68) = 10.85 Podemos considerar que nuestra muestra, con una media de 12.6, per- tenece a una población cuya media estará entre 10.85 y 14.34, y esto podemos afirmarlo con una probabilidad de error del 1%.
  • 249.
    Salta a lavista que la media de la población de referencia (= 15) es mayor que el límite superior de la media de la población representada por esa mues- tra (=14.35). 2º De hecho el procedimiento utilizado habitualmente para comprobar si la media de una muestra difiere significativamente de la media de una pobla- ción suele ser otro que nos permite llegar a las mismas conclusiones. Nos bas- ta calcular una puntuación típica (z), que nos dirá en cuántos errores típicos se aparta nuestra media de la media de la población. El procedimiento y la fórmula apropiada están puestos y explicados como un caso más del contras- te de medias. 4.4. Calcular el tamaño N de la muestra para extrapolar los resultados a la población No es éste el lugar apropiado para tratar con cierta extensión sobre el ta- maño necesario de la muestra, pero sí es útil, tratando del error típico de la media o de una proporción, ver y entender en este contexto la relación entre la magnitud de los intervalos de confianza de la media y el número necesario de sujetos en la muestra para extrapolar los resultados a la población con un determinado margen de error. De manera análoga a lo que hemos visto en [4] y en [6] el margen de error cuando la proporción encontrada en una muestra la extrapolamos a la pobla- ción es: 3. Nuestra conclusión es clara: nuestra muestra con media de 12.6 no per- tenece a una población hipotética cuya media fuera 15 porque el límite máximo de la población de nuestra media es 14.35 y no llega a 15, lue- go nuestra muestra pertenece a otra población con otra media, cuyo límite inferior no es 15. Podemos visualizar el resultado con un sencillo gráfico: Si en [7] despejamos N (el tamaño de la muestra) tendremos: ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA 249
  • 250.
    En [8] conocemostodos los valores que nos interesan para calcular N z Este valor corresponde al nivel de confianza y lo establecemos nos- otros; habitualmente utilizaremos un nivel de confianza del .05 y z = 1.96 (ó z = 2.57 si nuestro nivel de confianza es de .01) pq Es la varianza de la población, no la varianza de la muestra. Esta va- rianza no la conocemos, pero como a mayor varianza en la población hará falta una muestra mayor, nos situamos en la situación en que la varianza es la máxima posible; en este caso p = q = .50, y pq = .25, que es un valor constante. e Es el margen de error que estamos dispuestos a aceptar y también lo establece el investigador. Si por ejemplo estamos dispuestos a aceptar un margen de error del 5%, esto quiere decir que si en la muestra en- cuestada en esta caso responde sí el 35%, en la población esperamos que responda sí entre el 30% y el 40%. Éste 5% lo expresaremos en forma de proporción (o tanto por uno): .05 Vemos de nuevo que si queremos un margen de error pequeño (e, el de- nominador en 8) necesitaremos una muestra mayor. Podemos ver la aplicación de esta fórmula [8] con un ejemplo. Vamos a hacer una encuesta para extrapolar los resultados a una población mayor (muy grande, de tamaño indefinido). El margen de error que estamos dispuestos a aceptar es del 5% (e = .05), de manera que si nos responden sí el 50% de la muestra ya sabemos que en la población el sí estará entre el 45% y el 55% El nivel de confianza es del .05, que corresponde a z = 1.96 (1.96)(.25) Necesitaremos una muestra de este tamaño: N = ––––––––– = 384 sujetos .052 Si el margen de error máximo que nos interesa es del 3% (e = .03), la muestra necesaria sería de 1067 sujetos. Hacemos algunas observaciones ya que el exponer y justificar brevemente estas fórmulas tiene un valor complementario para entender mejor el con- cepto y utilidad del error típico, pero no tratamos aquí de manera expresa so- bre el tamaño de la muestra, tipos de muestreos y cómo hacerlos, etc.3 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 250 3 Puede verse más información en la bibliografía mencionada y en otras muchas publi- caciones; sobre el tamaño de la muestra necesario también con otras finalidades (cons- truir una escala de actitudes, hacer un análisis factorial, etc.) puede verse Morales (2007b).
  • 251.
    a) Estas fórmulaspara calcular el tamaño de la muestra son válidas aun cuando las preguntas no sean dicotómicas (estamos utilizando el error típico de una proporción, cuya varianza máxima es pq = .25). b) Son válidas cuando se hace un muestreo aleatorio simple; hay variantes cuando se utilizan otros tipos de muestreo (como el estratificado). c) Suponemos que la población a la que se extrapolan los resultados es grande, de tamaño indefinido y que podemos no conocer con exacti- tud. Con poblaciones menores y cuyo tamaño conocemos hay fórmu- las más ajustadas; más o menos a partir de poblaciones en torno a los 30.000 sujetos el tamaño necesario de la muestra no varía mucho; al aumentar el tamaño de la población no aumenta proporcionalmente el tamaño necesario de la muestra. ANEXO. LOS INTERVALOS DE LA MEDIA Y DE LAS PROPORCIONES EN INTERNET Varios programas disponibles en Internet nos dan los intervalos de con- fianza de una media o proporción para un determinado nivel de confianza, lo mismo que el tamaño de la muestra necesario para determinados márgenes de error. Entre otras direcciones: LOWRY, RICHARD, VASSARSTATS: WEB SITE FOR STATISTICAL COMPUTATION,Vassar Co- llege, Poughkeepsie, NY, USA; http://faculty.vassar.edu/lowry/VassarS- tats.html (menú en proportions: the confidence interval of a propor- tion; en t test procedures: .95 and .99 Confidence Intervals for the Estimated Mean of a Population). GENE V GLASS Intro to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources for Statistics, en Online statistical calculators that can perform many different analyses. : Confidence Interval on a Proportion http://glass.ed.asu.edu/stats/analysis/ pciform.html Confidence Interval on a Sample Mean http://glass.ed.asu.edu/stats/analy- sis/mci.html Algunas direcciones relacionadas con encuestas de opinión: CREATIVE RESEARCH SYSTEMS. The Survey System Sample Size Calculator http://www.surveysystem.com/sscalc.htm CUSTOMINSIGHT.COM. Survey Random Sample Calculator (Home: http://www. custominsight.com/index.asp) http://www.custominsight.com/articles/ random-sample-calculator.asp DIMENSION RESEARCH, INC. Confident Intervals for Means Calculator http://www.dimensionresearch.com/resources/calculators/conf_me- ans.html (home: http://www.dimensionresearch.com/index.html). ESTADÍSTICA INFERENCIAL: EL ERRORTÍPICO DE LA MEDIA 251
  • 253.
    CAPÍTULO 8 EL CONTRASTEDE MEDIAS 1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS GRUPOS Uno de los planteamientos más frecuentes en análisis estadístico es senci- llamente comparar las medias de dos grupos (hacer un contraste de me- dias)1 . Antes de ver el procedimiento conviene tener una idea general de la utilidad de estos contrastes. a) Muchos diseños experimentales, y planteamientos de evaluación en general, desembocan en una comparación de las medias de dos grupos: un grupo experimental (el que ha seguido nuestra metodología, el que ha tenido una determinada experiencia, formación etc.) lo comparamos con otro grupo de control o de contraste (un grupo comparable al gru- po experimental pero que no ha pasado por esta experiencia, método, etc.). Son varios los diseños experimentales (y cuasi-experimentales) que se pueden proponer y cuyo análisis básico es un simple contraste de medias. En definitiva esperamos que si la experiencia, método, terapia, etc., ha sido provechosa, los sujetos del grupo experimental tendrán una me- dia mayor que la del otro grupo (una media mayor en la variable de- pendiente: aquella característica en la que esperamos que se haya pro- ducido un cambio). Por una media mayor entendemos mayor de lo que cabría esperar por azar o mayor que lo que se puede esperar de la variación natural de una muestra a otra. 253 1 Si tenemos tres grupos o más en el mismo planteamiento y deseamos compararlos de dos en dos, el procedimiento adecuado es el análisis de varianza.
  • 254.
    b) Aunque notengamos un diseño experimental, ni ningún planteamien- to de investigación propiamente dicho, muchas veces exploramos di- ferencias entre grupos, sin hipótesis previas, por simple curiosidad o por interés personal. Tenemos los datos y los aprovechamos para des- cubrir cosas… c) El contraste (comparación) de las medias de los subgrupos con pun- tuación total más alta y más baja (en un examen, en un test, en una es- cala, etc.; en cualquier total que supone la suma de una serie de pre- guntas) tiene aplicaciones específicas: 1) Aporta información de interés (en qué se parecen más y en que se diferencian más los altos y los bajos en cualquier variable…). 2) Es una manera sencilla de analizar los ítems de una escala o test, pa- ra quedarnos con los más discriminantes (los más diferenciado- res…): con estos ítems tenemos una fiabilidad mayor, podemos re- ducir la longitud del instrumento, etc. 2. A QUÉ PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS Es importante tener claro desde el principio a qué preguntas de interés debemos responder (o podemos responder) cuando comparamos dos gru- pos, porque no se trata simplemente de restar una media de la otra para ver la diferencia. Hacemos básicamente dos tipos de cálculos o análisis distintos que responden a otras dos preguntas distintas a las que habrá que añadir otra tercera pregunta sobre la relevancia o interés de la diferencia. Primera pregunta La diferencia entre las medias de estos dos grupos ¿Está dentro de lo nor- mal, dentro de lo que se puede esperar habitualmente cuando no hay más di- ferencia que la puramente aleatoria? ¿O se trata más bien de una diferencia rara, atípica, fuera de lo normal? Si la respuesta es que la diferencia es mayor de lo normal, de lo que se puede esperar por azar, decimos que se trata de una diferencia estadística- mente significativa. En principio podemos tomarnos en serio la diferencia; podemos afirmar que entre las poblaciones representadas por estas muestras sí hay una diferencia distinta de cero. Hay que tener claro tanto lo que queremos expresar cuando decimos que una diferencia es estadísticamente significativa como lo que no podemos decir: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 254
  • 255.
    a) Queremos decirque podemos extrapolar los resultados solamente en este sentido: en situaciones semejantes y con sujetos semejantes, lo probable es que encontremos una diferencia distinta de cero (y que es suficiente para poder decir que los grupos pertenecen a poblaciones distintas en lo que respecta a la variable o rasgo en el que hemos me- dido a los sujetos). b) Lo que no podemos decir es que: 1) en muestras semejantes encontraremos una diferencia de magni- tud semejante (interpretación frecuente pero errónea); es posible que así sea, pero lo que demostramos es que la diferencia en otros pares de muestras no será cero (y esto no es decir mucho), 2) tampoco podemos decir que una diferencia es grande o importan- te por el mero hecho de ser estadísticamente significativa. Por todo esto habrá que completar la información con la respuesta a la se- gunda pregunta que nos haremos a continuación. Una observación: estamos suponiendo que las muestras que compara- mos o son muestras aleatorias o son muestras cuyos sujetos han sido asigna- dos aleatoriamente a las diversas condiciones o grupos. En la práctica fre- cuentemente se trabaja o investiga con grupos hechos, por lo que no se trata de muestras aleatorias. En estos casos tan habituales: 1) Siempre podemos pensar a qué poblaciones pueden representar estos dos grupos y extrapolar los resultados a la población hipotética repre- sentada por estas muestras con la debida cautela (pueden ser mues- tras sesgadas o no representativas de la población general o de la po- blación que en principio nos interesa estudiar). 2) En cualquier caso si la diferencia es estadísticamente significativa po- demos excluir el azar o variabilidad normal como explicación plausible o razonable de esa diferencia. Segunda pregunta ¿Cuál es la magnitud de esta diferencia entre los dos grupos? ¿Es grande, pequeña, moderada…? Una diferencia estadísticamente significativa puede ser de hecho peque- ña y poco relevante (sucede con frecuencia cuando comparamos muestras grandes); lo mismo sucede a la inversa, una diferencia que no es estadística- mente significativa puede ser grande y de importancia en una situación dada (y esto es más probable que suceda cuando comparamos muestras peque- ñas). El dato de la magnitud de la diferencia tiene su cálculo específico que veremos más adelante. La magnitud de la diferencia es un dato importante EL CONTRASTE DE MEDIAS 255
  • 256.
    para interpretar losresultados, para ver si la diferencia es relevante, etc. Sobre todo esto volveremos más adelante, porque la confusión entre estadística- mente significativo y grande o relevante es muy frecuente. En la práctica habitual: 1º Se responde en primer lugar a la primera pregunta: la diferencia ¿Está dentro de lo normal y aleatorio? ¿Es mayor de lo que se podría esperar si ambas muestras pertenecieran a la misma población? 2º Después se matiza y se completa la información respondiendo a la se- gunda pregunta sobre la magnitud de la diferencia (pequeña, modera- da, grande…). La estadística inferencial más tradicional se limita con frecuencia a res- ponder a la primera pregunta, pero también es importante (y a veces más im- portante) analizar la magnitud de la diferencia (cuestión a la que no suelen responder muchos libros de texto). Tercera pregunta ¿Cuál es la relevancia, el interés que puede tener la diferencia que hemos encontrado? Para valorar la relevancia tenemos que responder a las dos pre- guntas anteriores (la diferencia ¿está dentro de lo normal? ¿es grande, peque- ña…?) y además hay ya que tener en cuenta otro tipo de información más cualitativa: contexto, finalidad de la comparación, etc. 3. EL MODELO TEÓRICO DEL CONTRASTE DE MEDIAS: LA DISTRIBUCIÓN MUESTRAL DE DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIÓN Lo que vamos a comprobar es cuándo una diferencia es mayor de lo que se podría esperar por azar si entre los dos grupos no hubiera más diferencias que las puramente casuales (o explicadas por el error muestral, dicho en términos más académicos). Nuestro modelo teórico es la distribución muestral de las diferencias en- tre medias de muestras que proceden de la misma población: entre estas medias no hay, por hipótesis, más diferencias que las puramente aleatorias. Esta distribución es un modelo teórico análogo al de la distribución mues- tral de la media que ya hemos visto; ahora ya no se trata de medias, sino de diferencias entre medias. En este modelo se supone lo siguiente: 1º De una misma población extraemos un número indefinido (muy grande) de pares de muestras y calculamos la diferencia entre sus ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 256
  • 257.
    medias: la mediade la primera muestra menos la media de la segun- da muestra. Unas veces la diferencia será positiva (la media de la primera muestra es mayor que la de la segunda muestra), otras negativa (la media de la segunda muestra es mayor que la media de la primera muestra) y otras veces la diferencia será cero. 2º Al tener muchas diferencias entre medias (un número indefinido, se trata de un modelo teórico), por hipótesis tendremos que: 1. Estas diferencias tendrán una distribución normal (que se deno- mina distribución muestral de las diferencias entre medias de muestras que proceden de la misma población). 2. La media de esta distribución será cero porque las diferencias po- sitivas anulan a las negativas (cuando no hay más diferencias que las puramente aleatorias). 3. La desviación típica de esta distribución (que como se trata de una distribución muestral se denomina error típico) podemos estimarla a partir de los valores del tamaño y de las desviaciones típicas de las muestras (esto es demostrable aunque aquí no pongamos la demos- tración; se trata del teorema del límite central ya mencionado). 4. La mayoría de estas diferencias (el 95%) estará entre –1.96 errores típicos y + 1.96 errores típicos; convencionalmente situamos la normalidad entre estos límites. Lo que vamos a hacer es comprobar si nuestra diferencia (la que hemos calculado entre dos medias) está dentro de lo normal, si pertenece a esa dis- tribución (o población) de diferencias cuya media es cero. En ese caso con- cluiremos que la diferencia está dentro de lo normal y aleatorio (no es esta- dísticamente significativa). Figura 1 EL CONTRASTE DE MEDIAS 257
  • 258.
    En la figura1 tenemos representada la distribución de las diferencias entre medias cuando la media de las diferencias es cero porque no hay más dife- rencias que las puramente casuales. Entre –1.96 errores típicos (o desviaciones típicas) y + 1.96 errores típicos tendremos el 95% de las diferencias. A estas diferencias las consideramos nor- males porque están dentro de los límites que convencionalmente hemos de- terminado como criterio de lo que suele suceder cuando no hay más diferen- cias que las aleatorias o casuales. Al comparar dos medias podemos encontrar una de las dos posibilidades representadas en la figura 2, cada posibilidad nos llevará a una conclusión distinta. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 258 Figura 2 ¿Cuándo podemos afirmar que las dos muestras pertenecen a la misma población? ¿Cuándo podemos afirmar que las dos muestras proceden de poblaciones distintas? Afirmamos que las dos muestras pertenecen a la misma población cuando la diferencia está dentro de lo normal o frecuente; Afirmamos que las dos muestras proceden de poblaciones distintas cuando la diferencia es atípica, poco frecuente, se sale de lo normal Es decir, cuando se trata de una diferencia probable en el caso de que las dos muestras procedan de la misma población (m1 = m2 = m) Es decir, cuando se trata de una diferencia poco probable. En ese caso podremos afirmar que las medias pertenecen a muestras de poblaciones distintas, con distinta media (m1 m2)
  • 259.
    4. CÓMO COMPROBAMOSSI NUESTRA DIFERENCIA PERTENECE A LA POBLACIÓN DE DIFERENCIAS CUYA DIFERENCIA MEDIA ES CERO 4.1. Modelo y fórmula básica Hacemos esta comprobación verificando en cuántos errores típicos (des- viaciones típicas) se aparta nuestra diferencia de la diferencia media de cero. Si nuestra diferencia se aparta mucho (1.96 errores típicos si seguimos el criterio habitual) de la diferencia media de cero: 1. Podremos deducir que esa diferencia es improbable si las dos medias proceden de la misma población. 2. Y afirmaremos por lo tanto que las muestras proceden de poblaciones distintas con distinta media. Difieren más de lo que consideramos nor- mal cuando no hay más diferencias que las puramente aleatorias. ¿Cómo sabemos que la diferencia está dentro de lo probable? (probable en la hipótesis de que ambas muestras procedan de la misma población): Verificando en cuántos errores típicos se aparta nuestra diferencia de la di- ferencia media de cero. Para esto nos basta calcular la puntuación típica de esa diferencia (z, t de Student) que nos indicará si la diferencia es probable (p .05) o improbable (p.05) (en este caso el nivel de confianza, o probabilidad de error al afir- mar la diferencia, es de a =.05). Esta puntuación típica, expresada en términos no convencionales, será: La fórmula, expresada en símbolos convencionales es: En esta fórmula [1]: El numerador equivale de hecho a la diferencia entre dos medias (entre las medias de dos diferencias); restamos una diferencia en- tre dos medias de una diferencia media de cero. EL CONTRASTE DE MEDIAS 259
  • 260.
    Los programas deordenador suelen indicar la probabilidad exacta que co- rresponde a cada valor de z (p =.03, p = .002, etc.) y es el dato que se debe manifestar si está disponible (la probabilidad exacta del valor de z (o t) tam- bién se encuentra fácilmente en programas de Internet)2 . El denominador (símbolo del error típico de la diferencia entre medias), varía según se trate de muestras independientes o relacio- nadas, grandes o pequeñas; las fórmulas específicas para cada caso están en el apartado 4.7. Lo que hacemos es calcular la puntuación típica (z) de una diferencia: com- probar en cuántas desviaciones típicas (errores típicos) se aparta esa diferencia de la diferencia media de cero. Esta puntuación típica nos dirá la probabilidad de que ocurra nuestra diferencia cuando la media de las diferencias es cero. ¿Cuándo es grande la probabilidad de que ocurra una diferencia? El límite es convencional; habitualmente se acepta que más de 5 veces de cada 100 son ya muchas veces; en ese caso se interpreta como una diferencia normal cuan- do las medias pertenecen a muestras de la misma población. Este límite es el nivel de significación (.05) o nivel de confianza (.95), como en plantea- mientos análogos, y a cada nivel de confianza le corresponde un valor de z. Se trata de una aplicación directa de la distribución normal. El nivel de significación se expresa así: a = .05, y en este caso necesitaremos un valor de z igual o superior a 1.96 (en pruebas bilaterales, que son las que uti- lizamos normalmente como explicamos más adelante, y con muestras grandes; si se trata de muestras pequeñas consultaremos las tablas de la t de Student). El nivel de significación expresa la probabilidad de equivocarnos al afir- mar la diferencia y el nivel de confianza expresa la probabilidad de acertar (.05+.95 = 1; 100%); ambas expresiones vienen a decir lo mismo. Si nuestro nivel de significación es a = .01, necesitaremos un valor de z superior a 2.57, y si es a = .001, el valor de z debe ser igual o superior a 3.30. Según el valor de z que se obtenga, los resultados suelen expresarse de es- ta forma: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 260 2 Pueden verse los programas de Internet del anexo 4 de este capítulo. p .05 cuando el valor de z no llega a 1.96 (o diferencia no estadísticamen- te significativa) p . 05 cuando z 1.96 (a partir de z = 1.96 solemos decir que la diferencia es estadísticamente significativa, porque el nivel de confianza habi- tual es a = .05) p .01 cuando z 2.56 p .001 cuando z 3.30
  • 261.
    Con muestras pequeñasla fórmula utilizada se denomina usualmente t de Student (que nos remite a las tablas para muestras pequeñas, anexo 3); con muestras grandes suele denominarse z (y también es usual mantener la ex- presión t de Student, aunque con menos propiedad) y en todos los casos tam- bién se utiliza a veces el término genérico de Razón Crítica (R.C.). Con muestras pequeñas las probabilidades de ocurrencia en los extre- mos son algo mayores (los valores exactos dependen del número de sujetos), por eso necesitamos consultar las tablas específicas para muestras pequeñas (las tablas de la t de Student)3 pero según va aumentando el número de suje- tos las probabilidades se van pareciendo más a las de la distribución normal. 4.2. Hipótesis Nula e Hipótesis Alterna En este contexto es útil recordar, o introducir, los conceptos de Hipótesis Nula e Hipótesis Alterna. Aquí es importante entender dos puntos: 1º a qué llamamos Hipótesis Nu- la e Hipótesis Alterna, y 2º por qué hacemos esta distinción. 1º Qué son las Hipótesis Nula y Alterna La Hipótesis Alterna es la del investigador: que existe una diferencia (o una relación), que la diferencia es mayor de lo que se puede esperar por azar, etc. La Hipótesis Nula es la negación de la Hipótesis Alterna: la diferencia es- tá dentro de lo normal y probable, no se aparta significativamente de una diferencia media de cero. Los conceptos (y los términos) de Hipótesis Alterna e Hipótesis Nula son importantes y conviene que estén muy claros. La Hipótesis Nula es siempre la negación de la Hipótesis Alterna, que es en principio nuestra hipótesis. Por ejemplo: Hipótesis Alterna (mi hipótesis): El método A es mejor que el método B Hipótesis Nula: El método A no es mejor que el método B Para formular la Hipótesis Nula nos basta poner un no delante del verbo utilizado en la Hipótesis Alterna. EL CONTRASTE DE MEDIAS 261 3 Las probabilidades de la tabla para muestras pequeñas se la debemos a William S. Gosset que firmaba con el seudónimo the Student, de ahí el término t de Student y el sím- bolo t en vez de z (conceptualmente se trata de lo mismo)
  • 262.
    La formulación dela Hipótesis Nula quedaría más clara si añadimos (al me- nos mentalmente): porque si hay alguna diferencia entre las medias de los dos grupos, esta diferencia está dentro de lo normal y se explica suficiente- mente por el error muestral, por factores aleatorios, etc. Utilizando los símbolos convencionales expresaríamos así estas hipótesis (m es el símbolo de la media de una población): Hipótesis Nula Ho: m1 = m2 (o lo que es lo mismo m1 - m2 = 0) Hipótesis Alterna: podemos expresarla de dos maneras H1: m1 m2 (no especificamos la dirección de la diferencia) H1: m1 m2 o m1 m2 (sí especificamos la dirección de la diferencia) 2º Por qué distinguimos entre estos dos tipos de hipótesis (nula y alterna) A primera vista puede parecer que la única hipótesis que tenemos es la alterna (que hay una diferencia, que un método es mejor que otro, etc.) y es ésta la hipótesis que probamos o dejamos de probar. Sin embargo la hi- pótesis que ponemos a prueba es la Hipótesis Nula: es la que aceptamos (o más bien fracasamos en el intento de rechazarla y afirmamos que la di- ferencia está dentro de lo normal, o no es extrapolable…) o la que recha- zamos. Aunque no tengamos hipótesis formuladas y prescindamos de las hipóte- sis nula y alterna, cuando contrastamos dos medias y encontramos una dife- rencia estadísticamente significativa, implícitamente estamos rechazando la hipótesis nula, lo digamos o no. Estas hipótesis nulas de ‘no diferencia’ están implícitas en el mismo modelo y procedimiento. Una manera sencilla (aunque quizás incompleta) de entender y recordar estos conceptos puede ser ésta: Identificar la Hipótesis Nula con diferencia casual, normal, aleatoria, pro- bable, etc., Identificar la Hipótesis Alterna con diferencia improbable, no casual, etc. (improbable si las dos muestras proceden de la misma población, sin más diferencias que las puramente aleatorias o casuales). En definitiva lo que vamos a hacer es determinar la probabilidad de que se dé una determinada diferencia entre dos muestras en el caso de que ambas procedan de la misma población, con la misma media y sin más diferencias que las que pueden explicarse por la variabilidad normal que hay en cualquier grupo (eso significa pertenecer a la misma población). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 262
  • 263.
    Si la probabilidadde que ocurra la diferencia es grande, afirmamos que ambas muestras proceden de la misma población, y que la diferencia está dentro de lo aleatorio (se explica por el error muestral, por la variabilidad normal que hay en cualquier conjunto de datos) y lo solemos expresar di- ciendo que aceptamos la Hipótesis Nula, aunque con más propiedad habría que decir que no rechazamos la Hipótesis Nula (propiamente nunca demos- tramos que la Hipótesis Nula es verdadera; simplemente no demostramos que es falsa). Si esta probabilidad es pequeña (menos del 5% o p .05 si señalamos ese ni- vel de confianza o a = .05) rechazamos que las muestras procedan de la misma población con idéntica media (no aceptamos la Hipótesis Nula) y podremos afirmar que las dos muestras proceden de poblaciones distintas con distinta me- dia (y decimos entonces que la diferencia es estadísticamente significativa). Una cuestión distinta es identificar automáticamente diferencia estadísti- camente significativa con hipótesis de investigación demostrada (si la dife- rencia es mayor de lo normal, es que este método es mejor que el otro, etc.); del hecho de la diferencia no se deduce sin más que la causa o explicación de la diferencia sea la propuesta como hipótesis por el investigador; simple- mente afirmamos la diferencia. Así, si hacemos un contraste de medias con un nivel de confianza de a = .05: Si la diferencia es probable (p .05) [probable en el caso de que las muestras procedan de la misma población] Si la diferencia es improbable (p .05) [improbable en el caso de que las muestras procedan de la misma población] Aceptamos (no rechazamos) la Hipótesis Nula; o lo que es lo mismo: Rechazamos (no aceptamos) la Hipótesis Nula y aceptamos la Hipótesis Alterna, o lo que es lo mismo: Afirmamos que las muestras pertenecen a la misma población (m1 = m2) Afirmamos que las muestras proceden de poblaciones distintas (m1 m2) Afirmamos que la diferencia no es estadísticamente significativa. Afirmamos que la diferencia sí es estadísticamente significativa (es muy improbable que las muestras pertenezcan a la misma población). EL CONTRASTE DE MEDIAS 263
  • 264.
    4.3. Contrastes unilateralesy bilaterales Hemos visto que hay dos tipos de hipótesis alternas (una hipótesis es m1 m2 y otra hipótesis es m1 m2 o m1 m2). Porejemplo, no es lo mismo tener como hipótesis: Niños y niñas son diferentes en… Símbolo: m1 m2; (afirmamos la diferencia, pero no la dirección de la diferencia) que tener como hipótesis: Los niños aventajan a las Símbolo: m1 m2; (especificamos la niñas en… dirección de la diferencia, quién es más que quién) ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 264 Cuando no afirmamos como hi- pótesis la dirección de la diferen- cia (los niños y las niñas son dis- tintos en…) Cuando sí afirmamos como hipó- tesis la dirección de la diferencia (las niñas aventajan a los niños en…) tenemos lo que se denominan contrastes (o hipótesis) bilatera- les, bidireccionales o de dos colas. tenemos lo que se denominan contrastes (o hipótesis) unilate- rales, unidireccionales o de una cola. ▼ ▼ ¿Dónde está en la práctica la importancia entre estos dos tipos de hipótesis? Antes hemos mencionado que cuando al comparar dos medias obtene- mos una z de 1.96 o más, rechazamos el azar como explicación de la diferen- cia ¿Por qué exactamente 1.96? Porque por encima de 1.96 caen el 2.5% de los casos y por debajo de -1.96 otro 2.5% de los casos (figura 1): nos fijamos en los dos extremos (o en las dos colas) de la distribución. No señalamos la dirección de la diferencia y es- tamos por lo tanto en una hipótesis bilateral, tal como se muestra en la figu- ra 3 (semejante a la figura 1).
  • 265.
    Si nuestra hipótesises unilateral, nos fijaremos en un lado de la distribu- ción, y en vez de z = 1.96 necesitaremos llegar solamente a 1.64, porque por encima de z = 1.64 (o por debajo de z = - 1.64) cae el 5% de los casos, tal co- mo se muestra en la figura 4. Figura 3 Figura 4 Naturalmente es más fácil encontrar un valor de 1.64 que de 1.96 por lo que se confirman con más facilidad las hipótesis unilaterales. Aquí no entramos más en esta distinción porque habitualmente nos vamos a referir a hipótesis bilaterales (o bidireccionales, o de dos colas), porque es la práctica más común y aconsejada, por eso mantendremos z = 1.96 como crite- rio; a partir de ese valor es cuando afirmamos que una diferencia es muy impro- bable en el caso de que ambas muestras procedan de la misma población4 . 4 Aunque nuestras hipótesis nos parezcan con frecuencia lógicamente unidirecciona- les (este método es ‘mejor que’…) y así las formulemos, se suelen utilizar de manera habi- EL CONTRASTE DE MEDIAS 265
  • 266.
    4.4. Esquema-resumen delproceso de verificación de hipótesis Es útil disponer de un cuadro-resumen que nos clarifique estos conceptos y nos resuma el proceso de verificación de hipótesis (figura 5). Partimos de nuestra hipótesis (la hipótesis alterna) pero lo que realmente ponemos a prueba es la negación de nuestra hipótesis (la hipótesis nula); lo que hace- mos en definitiva es determinar las probabilidades de que se dé una determi- nada diferencia (o en su caso relación). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 266 tual los valores de z (o de la t de Student) propios de las hipótesis bidireccionales; una ex- plicación más amplia de estos dos tipos de hipótesis, direccionales y no direccionales, y por qué se utilizan habitualmente hipótesis bidireccionales puede verse en Morales (pági- na Web) (2008; sobre las hipótesis direccionales y no direccionales). Figura 5
  • 267.
    4.5. Interpretación delsignificado de aceptar o no aceptar la hipótesis nula: tipos de errores Es fácil interpretar mal las conclusiones que se derivan del aceptar o no aceptar la Hipótesis Nula (la hipótesis de no diferencia) y que ya están sucin- tamente expuestas en los apartados anteriores. 4.5.1 Cuando no aceptamos la Hipótesis Nula No aceptamos la Hipótesis Nula cuando es muy improbable que por azar se dé esa diferencia entre las muestras cuando las poblaciones no difieren (m1 = m2, ó m1 - m2 = 0; se trata de la misma población). Al decir que recha- zamos la Hipótesis Nula exactamente queremos decir esto: Una probabilidad pequeña de que la diferencia sea aleatoria (y que corres- ponde a un valor grande de z o t), es decir una diferencia estadísticamente significativa: 1º Nos da más seguridad para afirmar esta diferencia; para extrapolar es- tos resultados a la población: con muestras semejantes hubiéramos ob- tenido una diferencia distinta de cero; 2º Pero, como acabamos de indicar, no probamos que entre otros pares de muestras semejantes obtendríamos necesariamente una diferencia de magnitud semejante. 3º Un valor grande de z o t no quiere decir que la diferencia entre las muestras sea grande; la magnitud de la diferencia y su valoración es al- go distinto. Una diferencia muy significativa (ese muy tan frecuente se presta a interpretaciones equívocas y es preferible evitarlo) no es sinó- nimo de diferencia grande o importante; esto nos lo dirá la magnitud del efecto (o magnitud de la diferencia expresada en términos cuan- titativamente más fácilmente interpretables, y que veremos después) y otras consideraciones de carácter más cualitativo que nos permitirán valorar esa magnitud de la diferencia. 4º Si no aceptamos la Hipótesis Nula (el azar o el error muestral como explicación de la diferencia) podremos aceptar la Hipótesis Alterna, es decir, podemos afirmar que la diferencia es muy improbable en el caso de que las muestras procedan de la misma población con idéntica me- dia, pero, y esto es importante, una cosa es afirmar la diferencia (y has- ta ahí hemos llegado) y otra distinta es que esté claro el por qué de la diferencia. Conviene estudiar o recordar todo lo referente a los diseños o plantea- mientos de investigación. El que una diferencia sea estadísticamente signifi- cativa no prueba sin más, por ejemplo, que en un colegio se enseña mejor EL CONTRASTE DE MEDIAS 267
  • 268.
    que en otro(los alumnos de un colegio, o de una universidad, pueden ir ya mejor preparados…), o que un método sea mejor que otro (puede ser que quien sea mejor es el profesor, con cualquier método…). Con un buen dise- ño de investigación lo que pretendemos es excluir otras explicaciones. 4.5.2. Cuando aceptamos la Hipótesis Nula Aceptar (o no rechazar) la Hipótesis Nula es lo mismo que aceptar que la diferencia es normal, que está dentro de lo aleatorio: en comparaciones se- mejantes podemos encontrarnos con una diferencia de cero. Hay dos puntos en los que conviene insistir y que son aplicables cuando aceptamos (o con más propiedad no rechazamos) la Hipótesis Nula de no diferencia: 1º Una cosa es “no probar” que hay una diferencia (como sucede cuan- do no rechazamos la Hipótesis Nula) y otra distinta es “probar que no” hay diferencia. En este punto es fácil hacer interpretaciones erróneas. Lo veremos con fa- cilidad con un ejemplo. Vamos a suponer que tenemos la hipótesis (alterna) de que a los italianos les gusta más la ópera que a los españoles (o sin hipó- tesis formuladas formalmente queremos verificar si existe alguna diferencia). Responden a una escala de actitudes hacia la ópera una muestra de 10 italia- nos y otra de 10 españoles (igualados en nivel socio-cultural y económico). Encontramos que la diferencia favorece a los italianos pero no es estadística- mente significativa (está dentro de lo normal): • ¿Hemos probado que hay diferencia? (es decir, ¿podemos extrapolar el hecho de la diferencia a la población general representada por esas muestras?) La respuesta es no; no hemos probado que a los italianos les gusta la ópera más que a los españoles. • ¿Hemos probado que no hay diferencia? Tampoco. Es muy posible que la diferencia, si la hay, quede clara con muestras mayores. Con muestras grandes es muy fácil no aceptar la Hipótesis Nula de no di- ferencia, por eso siempre (y más con muestras pequeñas) interesa verificar si el signo de la diferencia favorece a nuestra hipótesis, porque con muestras mayores es muy posible que dejemos las cosas claras. 2º Una diferencia que no es estadísticamente significativa puede ser importante. Pensemos en un método de enseñanza o en un tipo de terapia aplicado a muy pocos sujetos. Podemos comparar nuestro grupo experimental (partici- ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 268
  • 269.
    pan en elmétodo, en la terapia), con otro grupo que nos sirve de compara- ción (grupo de control o de contraste)5 para verificar si el método o la terapia son eficaces. A simple vista podemos observar que el método sí es eficaz, ve- mos el cambio en los sujetos, etc., pero al hacer la comparación podemos comprobar que la diferencia está dentro de lo aleatorio y no rechazamos la Hipótesis Nula. Esto puede suceder, y sucede con frecuencia, con muestras pequeñas. En estos casos: 1º nos abstendremos de extrapolar el hecho de la diferen- cia, pero 2º si la diferencia es grande (y a favor de nuestro grupo experimen- tal) podemos pensar que algo importante está pasando aquí con estos su- jetos. De ahí la importancia de disponer de un método que nos permita apreciar cuándo una diferencia es grande (y lo veremos después). Posible- mente aumentando el tamaño de la muestra (o acumulando pequeñas mues- tras) podremos rechazar (no aceptar) la Hipótesis Nula. 4.5.3. Tipos de errores Con respecto a la Hipótesis Nula podemos cometer dos tipos de errores objetivos: 1. Error tipo I: podemos no aceptar la Hipótesis Nula (y aceptar la dife- rencia entre las medias) cuando en realidad la Hipótesis Nula es verda- dera (y esa diferencia está dentro de lo normal…). Este posible error objetivo lo controlamos con los niveles de con- fianza; un nivel de confianza de a = .05 (un 5% de probabilidades de equivocarnos al afirmar la diferencia) se acepta como suficiente- mente seguro. 2. Error tipo II: podemos aceptar la Hipótesis Nula (y no afirmamos la dife- rencia) cuando en realidad la Hipótesis Nula es falsa (y sí hay diferencia). Se trata de un error que no solemos controlar. Las probabilidades de cometer este error en el contraste de medias son muy altas pe- ro se pueden minimizar utilizando un número grande de sujetos. Con muchos sujetos se detectan con más facilidad las diferencias entre grupos, incluso las diferencias pequeñas (las diferencias gran- des se detectan con facilidad comparando muestras pequeñas). 5 En términos más propios cuando hablamos de grupo de control estamos suponien- do que los sujetos han sido asignados aleatoriamente a los dos grupos, experimental y de control; cuando esto no es así (como no suele serlo en muchas comparaciones porque tra- bajamos con grupos hechos) es preferible denominar al grupo que nos sirve como térmi- no de comparación grupo de contraste. EL CONTRASTE DE MEDIAS 269
  • 270.
    6 Esta analogía estáinspirada en la película doce hombres sin piedad, en la que un ju- rado tiene que decidir por unanimidad sobre la inocencia (por falta de pruebas) o la culpa- bilidad de un presunto culpable. Los dos tipos de errores están resumidos en la figura 6. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 270 Figura 6 Figura 7 En principio se pretende minimizar el error tipo I (como es afirmar la dife- rencia cuando realmente no la hay) y por eso se insiste en los niveles de con- fianza: es más seguro (es la postura más conservadora) decir no hay dife- rencia cuando realmente sí la hay, que decir sí hay diferencia cuando realmente no la hay. Una sencilla analogía nos puede ayudar a entender la importancia relati- va de estos dos errores: en un juicio un error puede ser condenar a un ver- dadero inocente y otro error puede ser absolver a un verdadero culpable (figura 7)6 .
  • 271.
    Siempre interesa tomarla decisión correcta, pero el error más grave y que se pretende minimizar es el error Tipo I; volviendo al contraste de medias es preferible y más seguro concluir la diferencia no está probada (aunque en la realidad sí se dé la diferencia) que concluir la diferencia está probada cuan- do realmente no existe esa diferencia. Con niveles de significación más estric- tos (.01, .001) aumentan las probabilidades de cometer el error tipo II (en ge- neral se estima que a = .05 es un nivel de significación razonable). El error objetivo Tipo II es más fácil que suceda con muestras pequeñas. 4.6. Observaciones sobre el contraste de medias: limitaciones y requisitos previos 4.6.1. Presupuestos teóricos para poder utilizar el contraste de medias El modelo teórico que utilizamos en el contraste de medias supone deter- minados presupuestos teóricos como son la homogeneidad de varianzas en las muestras y distribución normal en la población; sin embargo está sufi- cientemente demostrado que las denominadas pruebas paramétricas (como la t de Student y el análisis de varianza) permiten rechazar la Hipótesis Nula (hipótesis de no diferencia) cuando es falsa, aunque se violen los presupues- tos del modelo teórico, excepto cuando se dan a la vez estas circunstancias: 1º Muestras más bien pequeñas (a partir de N 20 suelen considerarse pequeñas, aunque estos límites son arbitrarios), 2º Muestras de tamaño muy desigual (como cuando una muestra es tres veces mayor que la otra), 3º Muestras con varianzas muy desiguales (algún autor pone el límite de que una varianza sea más de 10 veces mayor que la otra… con mues- tras grandes las varianzas muy desiguales importan menos; aun así la homogeneidad de varianzas es el presupuesto más importante). En estos casos al menos (cuando se dan simultáneamente dos o tres de las circunstancias mencionadas) son preferibles los métodos no paramétricos para datos ordinales (alternativas a la t de Student; la U de Mann-Whitney pa- ra muestras independientes y la T de Wilcoxon para muestras relacionadas). La homogeneidad de varianzas es el presupuesto más importante; aun así el que las varianzas sean distintas importa menos si las muestras son de idén- tico o parecido tamaño y en contrastes bilaterales (que son los habituales)7 . 7 Cuando se hace un contraste de medias con el SPSS el programa verifica el presu- puesto de la homogeneidad de varianzas, y da las probabilidades asumiendo y sin asumir la igualdad de varianzas; en general las diferencias no son muy apreciables. Sobre estos su- puestos previos y sobre el requisito de disponer de una unidad de intervalo pueden verse más citas y comentarios en Morales (2006, Cap. 1). EL CONTRASTE DE MEDIAS 271
  • 272.
    Los modelos teóricossuponen que las muestras son aleatorias (y por lo tanto representativas de la población) y esto no sucede con frecuencia por- que se trata de grupos hechos, sin que los sujetos hayan sido escogidos alea- toriamente de una población mayor; en estos casos tenemos que pensar en la población que pueda estar representada por esas muestras concretas. 4.6.2. ¿Es suficiente verificar si una diferencia es estadísticamente significativa? Podemos pensar que el limitarse a aceptar o rechazar la Hipótesis Nula (de no diferencia) es poco informativo, porque la diferencia puede ser signifi- cativa y pequeña o no ser significativa por falta de sujetos o no ser significativa y a la vez grande (frecuente con pocos sujetos) … En buena medida así es, limi- tarse a afirmar que una diferencia es (o no es) estadísticamente significativa es poco e incompleto a pesar de la práctica más habitual en investigación, de ahí la necesidad de los cálculos complementarios, sobre la magnitud de la diferen- cias, que trataremos más delante. Es aquí donde se pone ahora el énfasis. 4.6.3. Cuando tenemos más de dos muestras en el mismo plantea- miento: análisis de varianza Con las fórmulas del contraste de medias (t de Student) podemos compa- rar medias de dos en dos; pero cuando en el mismo planteamiento hay más de dos muestras tenemos que acudir a otros procedimientos (análisis de va- rianza). No se pueden comparar las diversas muestras de dos en dos porque en este caso las probabilidades de error al rechazar la Hipótesis Nula son más de las que indican las tablas (como queda explicado al tratar del análisis de va- rianza; aquí basta con advertir que no se debe utilizar la t de Student cuando hay más de dos muestras)8 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 272 8 Cuando tenemos sólo dos grupos pero vamos a compararlos en muchas variables o rasgos también puede suceder que algún contraste estadísticamente significativo realmen- te se deba a factores aleatorios (la probabilidad de error es pequeña, pero no podemos te- ner una absoluta seguridad). En estos casos algunos autores recomiendan los llamados con- trastes de Bonferroni (la publicación de Carlo Emilio Bonferroni es de 1936), por eso no sobra una nota aclaratoria. En estos contrastes se utiliza la misma t de Student pero con un nivel de confianza más estricto: se utiliza la probabilidad (p) que expresa nuestro nivel de confianza dividida por el número de comparaciones previstas, así si nuestro nivel de con- fianza es .05 y tenemos tres comparaciones previstas utilizaremos como nivel de confianza .05/3 = .0167. También si conocemos la probabilidad exacta (p) podemos multiplicarla por el número de contrastes para ver si llega a .05 (así si tenemos tres contrastes y p = .0167 tendremos p = (.0167)(3) = .05). La crítica hecha a este contraste es que es muy conserva- dor; tiene poca potencia para rechazar la Hipótesis Nula cuando realmente es falsa (por
  • 273.
    Estamos suponiendo quehabitualmente calculamos la s de la muestra di- vidiendo por N-1; si la hubiéramos calculado dividiendo por N, en los deno- minadores tendríamos N y no N-1 10 . 4.7. Fórmulas del contraste de medias9 La fórmula básica es la fórmula [1] ya vista antes: una diferencia entre dos medias dividida por el error típico de las diferencias: ejemplo y entre otros, Hancock y Klockars, 1996). Una crítica bien razonada a los ajustes de Bonferroni puede verse en Perneger (1998): this paper advances the view, widely held by epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, de- leterious to sound statistical inference… The main weakness is that the interpretation of a finding depends on the number of other tests performed …The likelihood of type II errors is also increased, so that truly important differences are deemed non-significant… Bonferroni adjustments imply that a given comparison will be interpreted differently ac- cording to how many other tests were performed. También se proponen estos niveles de confianza más estrictos cuando tenemos muchos coeficientes de correlación, pero la críti- ca que puede hacerse es la misma 9 Podemos llevar a cabo un contraste de medias, sin necesidad de conocer las fórmu- las, con programas como EXCEL o SPSS, y también con los programas que podemos en- contrar en Internet (anexo 4); sin embargo debemos entender qué estamos haciendo. 10 En los programas estadísticos (como el SPSS) lo normal es utilizar la desviación típi- ca de la población (dividiendo por N-1; con muestras relativamente grandes la diferencia entre dividir por N o N-1 puede ser irrelevante). Nos falta conocer el valor del denominador ( es solamente un sím- bolo). La fórmula general del denominador de la fórmula [1] (error típico de la diferencia entre medias) es: Como el error típico de la media es siempre la fórmula [2] se puede expresar así: EL CONTRASTE DE MEDIAS 273
  • 274.
    Es útil conocerde dónde viene esta fórmula [2] (o [3]; es la misma). La va- rianza de un compuesto, por ejemplo la varianza de la suma de los tests 1 y 2, no es igual a la varianza del test 1 más la varianza del test 2, sino ésta otra: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 274 Podemos ver el parecido de esta expresión con el cuadrado de un bino- mio (de eso se trata): Si no se trata de un compuesto (o suma), sino de una diferencia, sabemos que (a-b)2 =a2 +b2 -2ab. Éste es nuestro caso: no se trata del cuadrado de una suma (a+b), sino del cuadrado de una diferencia (a-b), de ahí el signo menos en el denominador de las fórmulas [2] y [3]. Lo que tenemos en esta fórmula (del error típico o desviación típica de las diferencias entre medias de muestras de la misma población) es la suma de los dos errores típicos de las medias menos dos veces su covarianza (recorde- mos que r12s1s2 es la fórmula de la covarianza). Este denominador [2] no lo utilizaremos habitualmente. Si se trata de muestras independientes (sujetos distintos) el valor de la correlación que aparece en la fórmula es cero, con lo que el denominador queda muy simpli- ficado. El denominador [2] es válido cuando de trata de comparar medias de muestras relacionadas (los mismos sujetos medidos antes y después en el caso más frecuente), pero aun en este caso tenemos un procedimiento alter- nativo más sencillo en el que no tenemos que calcular la correlación, como veremos más adelante. En el apartado siguiente están todas las fórmulas necesarias para el con- traste de medias. Aunque habitualmente utilicemos programas informáticos no siempre es así y en cualquier caso las fórmulas nos ayudan a entender lo que estamos haciendo. 4.7.1. Diferencia entre la media de una muestra y la media de una población En este caso conocemos todos los datos de la muestra (número de suje- tos, media y desviación); de la población conocemos solamente la media (que puede ser una media hipotética, o deducida de otros estudios, etc.).
  • 275.
    En el numeradorde todas estas fórmulas tenemos siempre una diferencia entre medias menos cero; naturalmente este menos cero se puede omitir porque no va a alterar el resultado, sin embargo es preferible ponerlo porque recordamos lo que estamos haciendo: comparar una diferencia entre dos me- dias con una diferencia media de cero. Otra manera de abordar el mismo planteamiento es calcular los intervalos de confianza de la media. Ya vimos en el capítulo anterior (sobre el error tí- pico de la media, apartado 4.3) que a partir de los datos de una muestra po- demos conocer entre qué límites probables se encuentra la media de la po- blación representada por esa muestra. Si queremos comprobar si existe una diferencia estadísticamente significativa entre la media de una muestra y la media de una población (m), nos basta calcular los intervalos de confianza de la media de la muestra y ver si la media de la población se encuentra com- prendida entre esos intervalos. 4.7.2. Diferencia entre dos medias de muestras independientes (sujetos físicamente distintos) 1º Muestras grandes y de distinto tamaño t = Valor de la t de Student (o z cuando se utilizan muestras grandes); también se utiliza el símbolo más genérico de R.C. (Razón Crítica); con muestras pequeñas se utilizan las tablas de la t de Student m = media de la población X – = (media) s (desviación típica) y N (núme- ro de sujetos o tamaño de la muestra) son los datos de la muestra; El denominador es el error típico de la media de la muestra Como en todas estas fórmulas, si las des- viaciones están calculadas dividiendo por N-1, ahora el denominador será N. Es práctica común el considerar una mues- tra grande cuando pasa de 30 sujetos aun- que este criterio es un tanto arbitrario; más seguro es poner el límite en torno a los 50 sujetos, o considerar que la muestra es pequeña siempre que se puedan con- sultar las tablas de la t de Student. EL CONTRASTE DE MEDIAS 275
  • 276.
    De esta manerala primera parte del denominador se convierte en una constante que basta calcular una sola vez. 3º Diferencia entre dos medias de muestras independientes (grandes o pequeñas) y de idéntico tamaño Cuando las muestras son de idéntico tamaño (N = N) las fórmulas anterio- res quedan muy simplificadas (se trata de la fórmula [5] simplificada porque los denominadores son idénticos): La interpretación, cuando se trata de muestras grandes, se hace consultan- do las tablas de la distribución normal (o en programas de Internet, anexo 4), con grados de libertad igual a N1+N2-2. Como por lo general los niveles de confianza que utilizamos son .05, .01 y .001, no necesitamos acudir a las ta- blas, pues ya conocemos los valores de referencia para muestras grandes: Los valores de z utilizados habitualmente con muestras grandes son: Si z es mayor que 1.96 2.57 3.30 La probabilidad de que la diferencia sea aleatoria es inferior a .05 .01 .001 2º Muestras pequeñas y de distinto tamaño ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 276 Esta fórmula puede utili- zarse con muestras de cualquier tamaño; La interpretación se hace consultando las tablas de la t de Student, con grados de libertad igual a N1+N2- 2 Cuando se van a hacer muchos contrastes de medias con el mismo par de muestras, y por lo tanto los valores de N van a ser constantes, es más cómo- do y rápido transformar la fórmula [6] en ésta otra [7]:
  • 277.
    También se puedeutilizar el denominador puesto en la fórmula [2] o [3], y así aparece en muchos textos, pero el utilizar la fórmula [9] es un método más claro y sencillo. Esta fórmula es válida tanto para muestras grandes como pequeñas; con muestras pequeñas se consultan las tablas de la t de Student. 4.7.3. Diferencia entre medias de muestras relacionadas (compro- bación de un cambio) Tenemos muestras relacionadas cuando los sujetos son los mismos, y de cada sujeto tenemos dos datos en la misma variable; son dos muestras de da- tos procedentes de los mismos sujetos. En la situación más frecuentemente estos datos los obtenemos en la misma variable antes y después de alguna ex- periencia o proceso y se desea comprobar si ha habido un cambio11 . Cuando se dispone de una calculadora estadística (con la media y la des- viación típica programadas), lo más sencillo es calcular para cada sujeto su puntuación diferencial (diferencia entre las dos puntuaciones, entre antes y después) y aplicar esta fórmula: El término muestras relacionadas (y las fórmulas correspondientes) tam- bién se aplica cuando tenemos sujetos distintos pero igualados en variables importantes, tal como se estudia en el contexto de los diseños experimenta- les; en estos caso tenemos una muestra de parejas de sujetos. En este caso N1 = N2 = N, que es el número de sujetos en cada grupo; los grados de libertad son como en los casos anteriores: N1+ N2 -2 (número total de sujetos, restando un sujeto a cada grupo). X – D = Media de las diferencias, s2 D = Varianza de las diferencias, N = número de sujetos o de pares de pun- tuaciones; los grados de libertad son N-1. EL CONTRASTE DE MEDIAS 277 11 Aunque si no hay un grupo de control o de contraste (término de comparación) es- ta comprobación de un cambio puede ser cuestionable; conviene estudiar cuál debe ser el diseño apropiado en estos casos. Otros métodos para verificar un cambio los tenemos en el capítulo siguiente, la prueba de los signos (nº 8.2.3) y la prueba de McNemar (nº 10.2); también tenemos la prueba no paramétrica de la T de Wilcoxon que no tratamos aquí.
  • 278.
    Podemos observar lasemejanza de esta fórmula [9] con la fórmula [4]. En realidad se trata del mismo planteamiento: comparar la media en cambio de una muestra, con la media m = 0 de una población que no hubiera cambiado nada. Los grados de libertad son N-1 o número de pares de observaciones me- nos uno (es decir, N = número de sujetos, pues cada uno tiene dos puntua- ciones). Con muestras grandes se consultan las tablas de la distribución nor- mal, y con muestras pequeñas las de la t de Student. Podemos ver la aplicación de esta fórmula [9] con un ejemplo ficticio. Cuatro sujetos han respondido a una pregunta (respuestas de 1 a 6) antes y después de una experiencia. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 278 Antes Después Diferencia 2 4 4-2 = 2 3 3 3-3 = 0 4 5 5-4 = 1 5 6 6-5 = 1 Media 3.5 4.5 1.0 s 1.118 1.118 .707 Utilizando la media y desvia- ción en cambio (después me- nos antes) y aplicando la fór- mula 12, tendremos: La correlación entre antes y después es r = .80; si utilizamos el denomina- dor de la fórmula [3] tendríamos: El resultado es el mismo, pero es claro que en este caso (muestras rela- cionadas) es preferible utilizar la fórmula [9]. 4.8. Variables que influyen en el valor de t (o z) Los valores máximos y mínimos que solemos encontrar en las puntuacio- nes típicas (y en la t de Student que es una puntuación típica, la puntuación típica de una diferencia) suelen oscilar (pueden ser mucho mayores) entre –3 y +3; lo que queda fuera de ±1.96 lo consideramos ya atípico, poco proba- ble (sólo en el 5% de los casos se supera por azar un valor de ±1.96). Sin embargo al calcular la t de Student nos encontramos con frecuencia con valores muy altos, sobre todo cuando el número de sujetos es muy grande.
  • 279.
    El cociente aumentarási aumenta el numerador (si la diferencia es gran- de), pero también aumentará, aunque el numerador sea pequeño (diferencia cuantitativamente pequeña) si disminuye el denominador… ¿Qué factores influyen en que disminuya el denominador y que por lo tan- to el cociente sea mayor? En el denominador tenemos otro quebrado: a) El cociente disminuirá si disminuye el numerador (la varianza de los grupos). A mayor homogeneidad en los grupos (menor varianza), la diferencia se- rá significativa con más probabilidad. Esto es además conceptualmente razo- nable: no es lo mismo una diferencia determinada entre dos grupos muy he- terogéneos (mucha diversidad dentro de cada grupo) que entre dos grupos muy uniformes… Una diferencia entre las medias de dos grupos muy hetero- géneos puede variar si tomamos otras dos muestras igualmente muy hetero- géneas, pero si la diferencia procede de dos muestras con sujetos muy pare- cidos, con pequeñas diferencias entre sí, hay más seguridad en que se mantenga la diferencia entre otros pares semejantes de grupos. b) El cociente disminuirá si aumenta el denominador del denominador, que es el número de sujetos. Con muestras grandes es más fácil encontrar di- ferencias significativas. ¿Qué podemos decir sobre el hecho de que aumentando el número de suje- tos encontramos fácilmente diferencias estadísticamente significativas? ¿Que con un número grande de sujetos podemos demostrar casi lo que queramos…? 1º En parte sí; con números grandes encontramos con facilidad diferen- cias significativas. Pero esto no tiene que sorprendernos porque de he- cho hay muchas diferencias entre grupos que se detectan con más faci- lidad cuando los grupos son muy numerosos. En la vida real la Hipótesis Nula (m1 = m2) suele ser falsa y cuando no la rechazamos sue- le ser por falta de sujetos. ¿Qué factores influyen en que encontremos una t de Student grande o simplemente estadísticamente significativa? Este punto es sencillo e importante porque nos facilita la interpretación de nuestros resultados e incluso proponer nuevas hipótesis… Observamos la fórmula general [5] (para muestras grandes e independientes y de tamaño distinto): EL CONTRASTE DE MEDIAS 279
  • 280.
    2º Estas diferenciassignificativas que descubrimos, sobre todo con mues- tras grandes, son con frecuencia diferencias pequeñas y a veces trivia- les. Una diferencia estadísticamente significativa no es una diferencia necesariamente grande o relevante. 3º Disponer de un número grande de sujetos es como mirar de cerca: vemos incluso las cosas pequeñas. Disponer de un número pequeño de sujetos es como mirar de lejos: sólo vemos las cosas grandes. Dife- rencias grandes y obvias las descubrimos con pocos sujetos. Con mu- chos sujetos (si miramos de cerca) descubrimos muchas diferencias entre grupos que pueden no tener mayor importancia. 4º Una diferencia no significativa, sobre todo si es grande y con muestras pequeñas, puede ser importante en una situación dada (aunque no se pueda extrapolar, puede decir algo relevante de la situación analizada o permite establecer como hipótesis que con muestras mayores sí po- dríamos encontrar una diferencia estadísticamente significativa). ¿Qué hacer entonces? a) Por lo menos deberíamos utilizar siempre las expresiones apropiadas y no hablar simplemente de diferencias significativas, sino de diferen- cias ‘estadísticamente’ significativas. El adverbio estadísticamente ya expresa los límites de nuestras conclusiones. También se debe evitar la expresión diferencia ‘muy’ significativa, porque ese muy invita a pen- sar en diferencias grandes o relevantes: a mayor valor de z o t tenemos más seguridad, menos probabilidad de error al afirmar la diferencia (que la diferencia no es cero), pero sin referencia directa a la magnitud o a la relevancia de esa diferencia. Por otra parte esa mayor seguridad es con frecuencia irrelevante pues ya ponemos el umbral de la seguri- dad (nivel de confianza) suficientemente alto. b) Muchas veces nos bastará con saber si hay o no hay una diferencia esta- dísticamente significativa entre dos grupos, es decir, si difieren más de lo que podemos esperar casualmente entre muestras de la misma po- blación y podemos extrapolar el hecho de la diferencia (una diferencia distinta de cero) a otros pares de muestras semejantes. Muchos plan- teamientos de investigación se quedan aquí (y por eso con frecuencia se quedan cortos; no se aprovechan bien los datos disponibles). c) Aun en estos casos un valor significativo de t (una diferencia estadísti- camente significativa) no debemos asumirla ingenuamente como un criterio de certeza. Tenemos que considerar a qué poblaciones pueden representar esas muestras para no hacer extrapolaciones poco pruden- tes; con frecuencia no son muestras aleatorias (porque se trata de gru- pos hechos, son las muestras que están disponibles). La interpretación ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 280
  • 281.
    mínima prudente esconcluir que la diferencia entre estos dos grupos es muy poco probable que se deba al azar. d) Como criterio general no debemos limitarnos a comprobar si una dife- rencia es o no es estadísticamente significativa. Es lo más frecuente, pero no es una buena práctica. Además debemos buscar un dato más claro sobre cuál es la magnitud de la diferencia, para poder interpre- tarla y valorarla como grande, moderada, pequeña… y poder juzgar mejor sobre su relevancia. Para poder valorar la magnitud de la diferencia tenemos el cálculo del tama- ño del efecto que nos cuantifica la magnitud de la diferencia en valores fácilmen- te interpretables. Además se expresa en unos valores que nos permiten compa- rar unas diferencias con otras aunque provengan de instrumentos distintos y de escalas métricas distintas. Disponemos además de criterios para valorar su mag- nitud. Todo lo referido a la magnitud de la diferencia (tamaño del efecto) lo ex- ponemos en al apartado siguiente (nº 6) sobre análisis complementarios. 5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES) El contraste entre proporciones (o porcentajes multiplicando por 100) es un caso particular del contraste entre medias; en este caso la media oscilará entre 0 y 1. Introducimos el contraste entre proporciones con un ejemplo. Dos gru- pos distintos responden sí o no a la misma pregunta: Grupo A Grupo B uniendo ambos grupos Responden sí: 65 (81%) 52 (58%) 117 (69%) Responden no 15 (19%) 38 (42%) 53 (31%) Total de sujetos en cada grupo: 80 (100%) 90 (100%) 170 (100%) La pregunta que nos hacemos es ésta: la diferencia en responder sí entre estos dos grupos (entre el 81% del grupo A y el 58% del grupo B) ¿Es mayor de lo que podríamos esperar por azar? ¿Existe una diferencia estadísticamen- te significativa entre los dos porcentajes? Para comparar proporciones tanto entre muestras independientes como entre muestras relacionadas, posiblemente el procedimiento más utilizado es la prueba del ji cuadrado12 , que por otra parte es muy sencillo. Con ambos procedimientos se llega a las mismas conclusiones. Tratando del contraste de medias es oportuno ver también cómo se aplica al contraste de proporciones. EL CONTRASTE DE MEDIAS 281 12 La prueba del ji cuadrado la tratamos en el capítulo siguiente.
  • 282.
    La probabilidad deque la diferencia sea aleatoria es casi del 1 por mil. 6. ANÁLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CÓMO CUANTIFICAR LA MAGNITUD DE LA DIFERENCIA 6.1. Finalidad del tamaño del efecto Para obviar las limitaciones del mero contraste de medias, se ha ido impo- niendo el cálculo del denominado tamaño del efecto (effect size en inglés). Aunque los resultados los expresemos frecuentemente en porcentajes (%), los cálculos se hacen con proporciones. El procedimiento es análogo al del contraste de medias: dividimos una diferencia entre proporciones por el error típico de la diferencia entre dos proporciones, que está en el denomi- nador de la fórmula [10]. En rigor lo que tenemos en el numerador no es la diferencia entre dos proporciones, sino la diferencia entre una diferencia (la nuestra) y una diferencia de cero. En la fórmula [10] tenemos en el denominador el error típico de la dife- rencia entre dos proporciones13 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 282 13 En muchos textos la fórmula aducida para el contraste de proporciones indepen- dientes es la misma fórmula vista para el contraste de medias (fórmula [5]), con la salve- dad de que se utiliza pq para expresar las varianzas de los dos grupos (p1q1 y p2q2 en vez de esta fórmula es correcta cuando p y q tienen valores parecidos; cuando los va- lores de p o q son muy extremos, y siempre en general, la fórmula preferible es la puesta aquí (en Downie y Heath, 1971, puede verse una explicación más amplia); además es uti- lizando esta fórmula cuando la equivalencia con el ji cuadrado (tablas 2x2) es exacta (z2 = c2 ). Este contraste de proporciones y procedimientos alternativos (ji cuadrado) puede verse también en el capítulo IX. Y aplicando la fórmula [10] a nuestros datos:
  • 283.
    La expresión esquizás poco afortunada; el término tamaño ya expresa que se trata de cuantificar una diferencia; del efecto se refiere al resultado de un tra- tamiento experimental o consecuencia de una determinada variable indepen- diente, pero estos términos se utilizan también en los casos en los que hay un simple contraste de medias, sin un diseño experimental propiamente dicho14 . Como ya hemos indicado anteriormente, al comparar dos medias nos ha- cemos dos preguntas: 1ª ¿Podemos afirmar que la diferencia encontrada entre dos muestras es ex- trapolable a las poblaciones representadas por esas muestras? A esta pre- gunta respondemos con el contraste de medias habitual (t de Student). 2ª ¿Cuáles la magnitud de la diferencia? ¿Grande, pequeña…? La magni- tud nos servirá además para juzgar sobre la relevancia de la diferencia. La información que nos da el tamaño del efecto nos ayuda a responder a esta segunda pregunta. Cuando se trata de una diferencia entre proporcio- nes, las diferencias posibles oscilan entre 0 y 1; en este caso no hay mayor problema tanto para apreciar la magnitud de la diferencia como para compa- rar unas diferencias con otras, pero esta comparación directa no es posible cuando las escalas métricas utilizadas son distintas. 6.2. Procedimientos en el cálculo del tamaño del efecto Los procedimientos más utilizados (hay otros) son dos (que a su vez admi- ten variantes): 1º El cálculo de coeficientes de correlación (que como todo coeficiente de correlación cuantifican de 0 a 1 los resultados); 2º Una diferencia tipificada, que es lo que con más propiedad, o al me- nos más habitualmente, se denomina tamaño del efecto. 6.2.1. El coeficiente de correlación biserial- puntual Una manera de cuantificar la magnitud de la diferencia en términos más interpretables consiste en convertir el valor de t en un coeficiente de co- rrelación biserial-puntual (rbp) en el que una variable es dicotómica (perte- 14 El cálculo del tamaño del efecto lo exige ya la política editorial de buenas revistas (como Educational and Psychological Measurement, Thompson, 1996, y muchas otras como Journal of Experimental Education y Journal of Applied Psychology, Hubbard y Ryan, 2000; Huberty (2002) menciona 19 revistas en las que se exige presentar el tamaño del efecto) y figura en las orientaciones (guidelines) de la American Psychological Asso- ciation (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs, 1999, American Psychological Association, 2001). EL CONTRASTE DE MEDIAS 283
  • 284.
    Disponemos los datosde la manera usual (dos columnas, x e y): necer a uno u otro grupo, 1 ó 0), y la otra variable es continua (la utilizada al comparar las medias). Estos coeficientes son semejantes al coeficiente de co- rrelación de Pearson (r) y se interpretan de manera semejante; el término bi- serial-puntual indica que una de las dos variables es dicotómica. La conversión del valor de t en un coeficiente de correlación se hace me- diante esta fórmula: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 284 Si los grupos son de idéntico tamaño, tendríamos el mismo resultado si calculáramos directamente la correlación entre pertenecer a uno u otro gru- po (1 ó 0) y la puntuación de cada sujeto en la variable dependiente (la que hemos medido). Podemos verlo con ejemplo sencillo: tenemos estas dos muestras de cua- tro sujetos cada una y calculamos la t de Student para contrastar las medias: grupo A grupo B Calculamos la t de Student: 9 5 9 9 7 6 8 6 X – = 8.25 6.50 s = .83 1.5 Podemos pensar ahora en términos de correlación entre la variable que hemos medido (X) y el pertenecer o no a uno de los grupos (Y): pertenecer al grupo A = 1 y B (no pertenecer al grupo A) = 0 X Y 9 1 9 1 7 1 8 1 5 0 9 0 6 0 6 0
  • 285.
    A este coeficientede correlación también se le denomina genéricamente tamaño del efecto, aunque la expresión tamaño del efecto se suele reservar para la diferencia tipificada que veremos después. Algunos autores, para dis- tinguir ambos cálculos, denominan a esta correlación magnitud del efecto. La finalidad y utilidad de este coeficiente de correlación es clara: 1º Es un dato sobre la magnitud y no sobre si una diferencia es simple- mente estadísticamente significativa o no (si es o no es extrapolable a la población el hecho de una diferencia distinta de cero). 2º Dos valores de t obtenidos en pares de muestras de tamaño distinto, o en variables distintas, no son fácilmente comparables entre sí; en cam- bio esta conversión nos traduce el resultado (una diferencia) a térmi- nos comparables y más fácilmente interpretables. Los juicios sobre si una diferencia es o no es relevante, de importancia práctica, etc., no dependen solamente de que sea estadísticamente significativa (a veces nos puede bastar con eso), sino también de que sea grande o peque- Si calculamos la correlación (que denominamos biserial-puntual porque una de las dos variables es dicotómica) tenemos que r = .585 Ahora calculamos el mismo coeficiente a partir del valor de t, fórmula [11]: ; hemos llegado al mismo resultado Un mismo valor de t va a equivaler a coeficientes de correlación más bajos según aumente el número de sujetos (aumentará el denominador y disminui- rá el cociente). Podemos verlo en este ejemplo (tabla 1) en que se mantiene constante el valor de t (en todos los casos p .01) y se van variando los gra- dos de libertad (número de sujetos). N1 N2 gl t rbp r 20 20 38 3.60 .50 .25 50 50 98 3.60 .34 .12 100 100 198 3.60 .25 .06 500 500 998 3.60 .11 .01 Tabla 1 EL CONTRASTE DE MEDIAS 285
  • 286.
    Los símbolos paraexpresar el tamaño del efecto varían según las fórmulas utilizadas para calcular la desviación típica del denominador; en la fórmula [12] utilizamos el símbolo d porque corresponde a una de las fórmulas más utiliza- das (de Cohen). Con frecuencia se utiliza d como símbolo genérico del tamaño del efecto, pero hay otros símbolos que iremos viendo (como g y D) y que co- rresponden a otras fórmulas; a veces se utiliza ES (del inglés Effect Size). Aunque la desviación típica del denominador se puede calcular de diver- sas maneras (a partir de las desviaciones típicas que ya conocemos en las muestras) es en todo caso una estimación de la desviación típica de la pobla- ción común a ambos grupos. Lo que es importante ahora es captar que el ta- maño del efecto es una diferencia tipificada: una diferencia entre dos me- dias dividida por una desviación típica. Viene a ser lo mismo que una puntuación típica (z) (como podemos ver por la fórmula [12]), por lo que su interpretación es sencilla y muy útil. Antes de ver las fórmulas específicas de la desviación típica del denomina- dor, es de especial interés entender las interpretaciones y usos del tamaño del efecto, que se derivan del hecho de que se puede interpretar como una ña…; incluso una diferencia no estadísticamente significativa puede ser importante en una situación dada si es grande. Cuando nos planteamos un contraste de medias podemos plantearnos co- mo análisis alternativo el simple cálculo de la correlación entre la pertenencia a un grupo u otro (1 ó 0) y la variable dependiente; por lo que respecta a re- chazar o no la Hipótesis Nula, las conclusiones van a ser las mismas. 6.2.2. Tamaño del efecto (diferencia tipificada) 6.2.2.1. Concepto y fórmula general El cálculo más frecuente para cuantificar la diferencia entre dos medias y apreciar mejor su magnitud lo tenemos expresado por la fórmula general (ad- mite variantes que veremos después)15 : ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 286 15 Una presentación completa del tamaño del efecto en Coe (2000) (en Internet); tam- bién se encuentra ampliado en Morales (2007c, El tamaño del efecto (effect size): análi- sis complementarios al contraste de medias). Tamaño del efecto (muestras independientes): [12]
  • 287.
    puntación típica (realmentees una diferencia expresada en desviaciones típicas). 6.2.2.2. Interpretación y utilidad del tamaño del efecto (diferencia tipificada) Antes de exponer los diversos modos de hallar la desviación típica del de- nominador podemos aclarar cómo se interpreta este tamaño del efecto y cuál es su utilidad. 1º Comparación de diferencias que provienen de medidas obtenidas con ins- trumentos distintos Lo que obtenemos mediante estas fórmulas es una diferencia tipificada: nos dice a cuántas desviaciones típicas equivale la diferencia entre dos medias. La primera consecuencia que se deriva de esta transformación es que el valor de este tamaño o magnitud es independiente de las puntuaciones originales; todas las diferencias quedan expresadas en el mismo sistema de unidades y por lo tanto estos valores son comparables entre sí aun cuando vengan de estudios distintos e incluso aunque se hayan utilizado instrumentos distintos. Es lo mismo que sucede con las puntuaciones típi- cas convencionales: vengan de donde vengan sus magnitudes son compa- rables entre sí. Si, por ejemplo, hemos comparado dos grupos en autoestima utilizan- do en una ocasión una escala con 4 respuestas, y en otra ocasión, con otros dos grupos, hemos hecho la misma comparación utilizando una escala con 6 respuestas o con otros ítems, las diferencias entre las medias no son comparables directamente entre sí, pero sí lo son las diferencias tipifica- das. Si utilizamos métodos distintos de aprendizaje con dos grupos y com- paramos después su rendimiento en dos asignaturas distintas, con tests distintos, etc., las diferencias entre estos grupos no se pueden comparar directamente entre sí (puede haber incluso un número distinto de pregun- tas en cada test), pero sí podemos comparar los dos tamaños del efecto, y comprobar en qué asignatura uno de los métodos ha sido mejor que el otro. 2º Síntesis cuantitativas de resultados que provienen de estudios distintos Como todos los valores del tamaño del efecto son comparables entre sí, de estos valores se puede calcular la media procedente de estudios diferen- tes, para resumir todos los resultados en un único dato. Este es el precisa- mente el procedimiento utilizado en el meta-análisis para integrar los resul- tados de diversos estudios. La técnica del meta-análisis se utiliza para establecer el estado de la cuestión en un determinado tema, integrando los EL CONTRASTE DE MEDIAS 287
  • 288.
    resultados de estudiosmúltiples, con un menor peligro de subjetivismo que en las revisiones puramente cualitativas (que tampoco se excluyen). Sin necesidad de hacer un meta-análisis en sentido propio, cualquier in- vestigador que haya hecho varios estudios comparando diversos pares de me- dias en la misma variable, puede calcular la media de los tamaños del efecto para presentar una síntesis de sus resultados. También puede verificar qué ca- racterísticas (por ejemplo de la situación, de la muestra, etc.) están asociadas al tamaño del efecto (calculando coeficientes de correlación, o haciendo aná- lisis equivalentes, entre estas características y el tamaño del efecto; cada estu- dio o comparación particular se convierte en el sujeto del nuevo análisis). Esta posible integración de estudios o experimentos pequeños puede ser de mucho interés. Cada estudio en particular puede ser poco conclusivo o te- ner muchas limitaciones, o pueden tener resultados bastante distintos de otros semejantes (diferencia grande en una ocasión, pequeña en otra, etc.), pero la posibilidad integrar todos los resultados revaloriza los pequeños estu- dios o experimentos y los hace más útiles16 . 3º Valoración de la relevancia y significación práctica de las diferencias Si suponemos que la distribución es normal en la población (y en princi- pio podemos suponerlo), esta diferencia tipificada nos da una información adicional que nos permite valorar mejor la relevancia de nuestros resultados. El que una diferencia sea estadísticamente significativa puede no decir mu- cho en términos de relevancia; además tampoco es fácil formular juicios so- bre la magnitud de una diferencia observando solamente la diferencia en tér- minos absolutos. Y sin una idea clara sobre la magnitud es difícil formular juicios sobre relevancia práctica. Para interpretar y valorar el tamaño del efecto nos basta saber que en de- finitiva se trata de una puntuación típica, su relación con la distribución nor- mal nos es aquí muy útil. Para interpretar el tamaño del efecto buscamos en las tablas de la distribución normal (en el área mayor) cuantos sujetos caen por debajo de la puntuación típica que es igual a nuestro tamaño del efecto. Si, por ejemplo, obtenemos un tamaño del efecto de d = 1 al comparar dos medias, la diferencia entre las dos medias es de una desviación típica (figura 8). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 288 16 Una exposición más amplia sobre el origen del meta-análisis y su utilidad puede ver- se en Morales (1993).
  • 289.
    a) La mediadel grupo con media mayor se aparta una desviación típi- ca de la media del grupo con media más pequeña. La media más pe- queña es ahora igual a 0 y la media mayor es igual a 1 (se aparta 1s de la otra media). b) Según las proporciones que nos indica la tabla de la distribución nor- mal, el sujeto medio del grupo con media mayor, supera al 84% de los sujetos del grupo con media menor (con frecuencia el grupo de con- trol). La misma puntuación que en un grupo (el de media mayor) equi- vale al Percentil 50, en el otro grupo (con media menor) corresponde al Percentil 84: el mismo sujeto medio del grupo con media mayor su- pera a un 34% más de sujetos si lo incluimos en el grupo con media más baja. Sobre cuándo se puede considerar grande o pequeño un determinado valor del tamaño del efecto, suelen aceptarse estas orientaciones (Cohen, 1988)17 : d = .20 (pequeño), d = .50 (moderado) d = .80 (grande). Estas orientaciones son un tanto arbitrarias aunque son muy aceptadas co- mo razonables y citadas en la bibliografía experimental. EL CONTRASTE DE MEDIAS 289 17 Otras valoraciones y su justificación pueden verse en Lane, David (Rice University) (2007) (en 18. Measuring Effect Size). Figura 8
  • 290.
    La interpretación basadaen la distribución normal es sólo literalmente vá- lida si las distribuciones observadas en los dos grupos son normales; pero si se apartan de la distribución normal cabe hablar de aproximaciones; en cual- quier caso se trata de un dato sobre la magnitud de la diferencia, una magni- tud expresada en desviaciones típicas y en el número de sujetos que caen por debajo de esa puntuación típica. La justificación de estas valoraciones va en esta línea: a) Las diferencias pequeñas (en torno a d = .20) pueden parecer muy pequeñas como referencia útil y ciertamente su relevancia práctica puede ser nula o escasa, pero estas pequeñas diferencias pueden igual- mente ser de interés en muchas situaciones: en áreas nuevas de inves- tigación, en estudios meramente explorativos (para ver si merece la pe- na continuar…), cuando los diseños son muy modestos y no se controlan bien otras variables, o cuando se utilizan instrumentos de medición muy limitados o en período de experimentación, etc.; en es- te tipo de situaciones podemos suponer que con mejores instrumen- tos y diseños estas diferencias podrían mayores18 . b) Por diferencias moderadas (en torno a d = .50) se entienden aquí aque- llas diferencias entre grupos que pueden detectarse por simple observa- ción o aquellas diferencias que la experiencia nos hace caer en la cuenta de que efectivamente están allí (por ejemplo, un determinado tipo de alumnos suele terminar mejor que los demás, etc.); traducidas estas dife- rencias a coeficientes de correlación, estos coeficientes pueden tener un valor en torno a .25 ó .30. Siguiendo las valoraciones de Cohen tenemos que (tabla 2): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 290 18 Como nota el autor (Cohen, 1988), en la investigación sobre personalidad, psicolo- gía clínica, etc., es normal encontrar diferencias (o correlaciones) pequeñas en parte por los problemas de validez en los instrumentos utilizados y en buena parte también por la complejidad de las situaciones, interacción entre variables, etc. Cohen (1988) justifica bien estas valoraciones que propone simplemente como orientadoras. El sujeto medio del grupo con media mayor Tamaño del efecto supera en su propio supera en el grupo grupo al con media inferior al d = .20 50 % 58 % (diferencia pequeña) d = .50 50 % 69 % (diferencia moderada) d = .80 50 % 79 % (diferencia grande) Tabla 2
  • 291.
    Convencionalmente suele considerarseun valor de d = .50 como de significación práctica (importante); cuando se trata de resultados de rendimiento escolar o de investigación educacional se conside- ran de relevancia práctica valores en torno a .30 (Borg, Gall, y Gall, 1993; Valentine y Cooper, 2003). c) El considerar una diferencia grande a partir de d = .80 puede parecer poco a simple vista; es muy frecuente encontrar tamaños del efecto mucho mayores. Lo que se tiene aquí en cuenta al valorar como gran- de una magnitud que no lo es mucho en términos absolutos, es que no merece la pena limitarse a definir como grandes aquellas diferencias tan obvias que prácticamente hacen inútil el análisis estadístico19 . Con frecuencia es más informativo comparar unos valores con otros cuando tenemos varios tamaños del efecto en una misma investigación o en el mismo planteamiento, o buscar como referencia qué valor suele obtenerse en estudios similares. En cualquier caso el comprobar el per- centil del sujeto medio del grupo con media mayor (en el que estaría en el percentil 50 en su propio grupo) cuando le situamos en el grupo con media inferior nos permite apreciar mejor si la diferencia es importante. 4º El tamaño del efecto cuando la diferencia no es estadísticamente significativa El proceso normal en un contraste de medias es 1º descartamos el azar (verificamos si la diferencia es estadísticamente significativa) y 2º verifica- mos la magnitud de la diferencia (tamaño del efecto). Cuando el valor de t no es estadísticamente significativo el tamaño del efecto suele ser también muy pequeño, pero no siempre es éste el caso, sobre todo con muestras peque- ñas. Una diferencia grande calculada en muestras pequeñas puede darnos un valor de t que no es estadísticamente significativo, por esta razón merece la pena calcular el tamaño del efecto cuando la diferencia no es estadísticamen- te significativa, sobre todo si se trata de muestras pequeñas. El que el valor de t no sea estadísticamente significativo quiere decir que la diferencia no es extrapolable a las poblaciones representadas por esas dos mues- tras, al menos con los sujetos disponibles, y no se puede presentar como un re- sultado o conclusión según el nivel de confianza especificado previamente, pe- ro puede tener su importancia en una situación concreta, en la que además, si contáramos con más sujetos, la diferencia sería probablemente estadísticamen- te significativa; esto es algo que al menos se puede proponer como hipótesis.20 EL CONTRASTE DE MEDIAS 291 19 Cohen (1988) cita aquí un comentario de Tukey: el confirmar diferencias muy gran- des y obvias con análisis estadísticos equivale a una canonización estadística. 20 Sobre si se debe o no calcular y exponer el tamaño del efecto cuando la diferencia no es estadísticamente significativa es algo discutido entre autores (Gliner, Leech y Mor-
  • 292.
    Un ejemplo real21 : Paraevaluar la eficacia de una terapia familiar se comparan un grupo experimental (N = 10) con un grupo de control (N = 11). El valor de t es 1.62, claramente no significativo; con estos datos no podemos afirmar que la diferencia en las poblaciones sea distinta de cero. Con tan pocos sujetos (la unidad de análisis no es propiamente cada sujeto individual, sino cada fami- lia) no es tan fácil obtener diferencias estadísticamente significativas, aunque la diferencia está favor del grupo experimental (y de la eficacia de la terapia). Encontramos sin embargo que el tamaño del efecto (al comparar los dos grupos en nivel de conflicto familiar después de la terapia) es d = .69. Por debajo de z = .69 cae el 75 % de los casos; esto quiere decir que la familia media del grupo experimental supera en ausencia o disminución de conflic- tos al 75 % de las familias del grupo de control. Es una diferencia de tamaño moderado-alto que indica que algo positivo y de interés está sucediendo aquí; es un buen resultado que se puede quizás confirmar con mayor segu- ridad en estudios semejantes. Esta es una conclusión más sensata que el limi- tarse a enunciar sin más que la diferencia no es estadísticamente significati- va, no ha habido cambio, aceptamos la hipótesis nula, etc. Por otra parte la mera diferencia entre las dos medias no nos dice nada de particular si no la traducimos al tamaño del efecto para apreciar mejor la magnitud de esa di- ferencia. Una diferencia de magnitud apreciable (tal como lo vemos en el ta- maño del efecto) pero que no es estadísticamente significativa nos permite al menos proponer y justificar hipótesis para futuras investigaciones. 5º Tamaño del efecto y tamaño de la muestra El tamaño de la muestra suele plantearse cuando interesa extrapolar los resultados a la población con un margen de error pequeño o al menos tolera- ble. Esto es lo que sucede con los sondeos de opinión de carácter sociológi- co, y de este punto hemos tratado brevemente a propósito del error típico de la media. Frecuentemente no estamos interesados directamente en extrapolar nuestros resultados a una población grande, sino en detectar posibles dife- rencias entre determinadas muestras; por ejemplo nos puede interesar veri- ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 292 gan, 2002). Las recomendaciones de la A.P .A. son sin embargo muy claras ‘always’ report effect sizes (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Af- fairs, 1999); una razón para calcular el tamaño del efecto, aunque la diferencia no sea esta- dísticamente significativa, es además que facilita el integrar los resultados de cualquier in- vestigación en un meta-análisis. 21 Tomado de Olalla, Consuelo (1993), Relaciones familiares y su modificación a tra- vés de la terapia familiar sistémica. Tesis doctoral, Madrid, Universidad Pontificia Comillas.
  • 293.
    ficar un cambioen función de un tratamiento, o verificar diferencias entre grupos en planteamientos de evaluación, etc. En estos casos el tamaño de la muestra depende (no solamente) de la magnitud de la diferencia que nos interesa detectar. Es importante captar la relación entre tamaño de la muestra y la magni- tud de la diferencia en la que estamos interesados. Las diferencias grandes se detectan con facilidad en muestras pequeñas. Un ejemplo sencillo: para comprobar si pigmeos y escandinavos difieren en altura no necesitamos muestras grandes: la diferencia la veremos con muy pocos sujetos porque se trata de una diferencia que se aprecia a simple vista. Para captar diferencias pequeñas y sutiles entre grupos, necesitaremos muestras mayores. Ya lo he- mos indicado al tratar sobre las variables que influyen en el valor de t. Con muestras grandes minimizamos la posibilidad de no ver diferencias cuando sí las hay, aunque sean pequeñas. En la práctica no solemos estar muy interesados en detectar diferencias muy pequeñas, por ejemplo un cambio pequeño en función de un método o tratamiento; en ese caso necesitaríamos muchos sujetos. Si nos interesan so- lamente diferencias (tamaños del efecto) grandes, necesitaremos menos su- jetos, aunque dejaremos fuera la posibilidad de encontrar diferencias no muy grandes, pero que pueden ser de interés. En la práctica podemos buscar un punto de equilibrio y buscar el número de sujetos suficiente para encontrar diferencias de magnitud moderada. Como criterio orientador, en la tabla 3 tenemos el tamaño de la muestra necesario según el tamaño del efecto que estemos interesados en detectar, a un nivel de confianza de a = .05 ó .01 (como es usual, un 5% de probabilida- des de no equivocarnos al rechazar la hipótesis nula de no diferencia), y una probabilidad del 80% de aceptar la hipótesis alterna cuando es verdadera22 . EL CONTRASTE DE MEDIAS 293 22 Estas cifras (redondeándolas) las tomamos de Cohen (1988). Una exposición detalla- da de las variables que influyen en el tamaño de la muestra, incluido el tamaño del efecto deseado o previsto, y de las fórmulas apropiadas para calcularlo pueden verse en otros autores como Kirk (1995), Hinkle, Wiersma y Jurs (1998) y en otros autores. nivel de d =.20 d = .30 d =.50 d = .70 d =.80 d =.1.0 d =1.20 confianza .05 392 174 63 32 25 16 12 .01 586 260 93 48 36 23 18 Tabla 3
  • 294.
    Si por ejemploestamos interesados en detectar diferencias grandes (d = .80) con un nivel de confianza de a = .05 (5% de probabilidades de no encon- trarlas si las hay), nos bastan grupos de 25 sujetos; si nos interesa encontrar diferencias aunque sean pequeñas (como d = .30) nos harán falta muestras mucho mayores (de unos 174 sujetos). Naturalmente de hecho podemos de- tectar diferencias de estas magnitudes con muestras más pequeñas, pero tam- bién nos exponemos a no verlas por falta de sujetos. 6.2.2.3. Fórmulas del tamaño del efecto: desviación típica del denominador Vamos a distinguir cuatro posibilidades 1º Diferencia entre las medias de dos muestras independientes, cuando no se trata de un diseño experimental (no hay un grupo de control propiamente dicho). 2º Diferencia entre las medias de dos muestras relacionadas (diferencia entre el pre-test y el post-test de la misma muestra). 3º Diferencia entre las medias de un grupo experimental y otro de control (diseño experimental). 4º Diferencia entre las medias de un grupo experimental y otro de control cuando los dos han tenido pre y post-test. 1º Dos muestras independientes Éste es el caso posiblemente más frecuente. Tenemos dos maneras muy parecidas de calcular la desviación típica combinada, la de Cohen (1977, 1988) y la de Hedges y Olkin (1985). En la fórmula del tamaño del efecto de Cohen (símbolo d) se utilizan las desviaciones típicas de las muestras, dividiendo por N (aquí las simbolizamos como sn). En la fórmula del tamaño del efecto de Hedges (símbolo g) se utilizan las desviaciones típicas de la población, dividiendo por N-1 (aquí las simboliza- mos como sn-1) 23 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 294 23 El símbolo g lo pone Hedges en homenaje a Gene Glass, autor importante en el campo del meta-análisis. Cohen: d = donde [13] Las desviaciones típicas de la fórmula [13] (Cohen) se calculan divi- diendo por N (desviación típica de las muestras)
  • 295.
    Las desviaciones típicasde la fórmula [14] (Hedges) se calculan divi- diendo por N-1 (estimación de la desviación típica de las poblaciones) Estas desviaciones típicas del denominador del tamaño del efecto no son otra cosa que una combinación de las desviaciones típicas de las dos mues- tras; por eso suelen denominarse desviación típica combinada (en inglés pooled standard deviation). Podemos verlo fácilmente (en la fórmula de Co- hen se ve con más facilidad): utilizamos ahora la varianza en vez de la desvia- ción típica para eliminar la raíz cuadrada: EL CONTRASTE DE MEDIAS 295 Hedges: g= donde [14] Sabemos que s2 = de donde scombinada [15] Para combinar dos desviaciones típicas sumamos los dos numeradores y los dos denominadores, que es lo que tenemos en las fórmulas anteriores (en el caso de la g de Hedges se utiliza N-1 en vez de N, como es usual cuando se trata de la estimación de la desviación típica de la población). Cuando N = N (muestras de idéntico tamaño) en ambos casos (fórmulas [13] y [14]) la desviación típica combinada es igual a la raíz cuadrada de la me- dia de las varianzas: Podemos ver la diferencia entre las dos fórmulas en un ejemplo concreto (ficticio, tabla 3). Tenemos dos grupos (muestra A y muestra B) de cuatro su- jetos cada una. Calculamos en cada muestra la media y las dos desviaciones tí- picas; para diferenciarlas utilizamos los subíndices n (dividimos por N) y n-1 (dividimos por N-1).
  • 296.
    En este casola diferencia no es estadísticamente significativa (t =1.987, p = .094) pero el tamaño del efecto, calculado con cualquiera de las dos fórmulas, puede considerarse como grande; esto no es inusual en muestras pequeñas. No podemos afirmar que ambas muestras procedan de poblaciones distin- tas (no afirmamos una diferencia distinta de cero en la poblaciones) , pero tampoco debemos ignorar la diferencia entre estos dos grupos de sujetos concretos. Vamos a calcular los dos tamaños del efecto (Cohen y Hedges): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 296 Muestra A Muestra B 16 18 12 14 14 16 14 18 Media 14 16.5 sn 1.414 1.658 sn-1 1.633 1.915 Tabla 3 Desviación típica combinada tamaño del efecto Cohen: s = d = Hedges: s = g = Es natural que el tamaño del efecto sea mayor con la fórmula de Cohen porque el denominador es menor (las desviaciones típicas de las muestras son menores que las desviaciones típicas estimadas en la población). Como en este ejemplo se trata de muestras de idéntico tamaño, podemos utilizar la fórmula [15] para calcular la desviación típica combinada:
  • 297.
    Lo habitual escombinar la desviación típica de dos grupos, pero también pueden ser más de dos grupos24 . Podemos utilizar cualquiera de las dos fórmulas (Cohen y Hedges); posi- blemente la de uso más frecuente es la de Cohen [13], que se puede utilizar rutinariamente. Ya hemos visto (fórmulas [16] y [17]) que de una desviación típica pode- mos pasar a la otra (de la desviación típica de la muestra sn a la de la pobla- ción sn-1 y viceversa); de manera análoga podemos pasar de un tamaño del efecto al otro (de d a g y de g a d). Ambas fórmulas del tamaño del efecto se relacionan de esta manera (Rosenthal, 1994): Cohen: s = Hedges: s = De cualquiera de estas dos fórmulas de la desviación típica combinada ([13] y [14]) podemos pasar a la otra: sCohen = sHedges [16] sHedges = [17] sCohen = sHedges= Con los datos del ejemplo anterior: EL CONTRASTE DE MEDIAS 297 24 Si en el mismo planteamiento tenemos más de dos grupos, como sucede en el aná- lisis de varianza, podemos calcular la magnitud del efecto (o diferencia tipificada) entre cualesquiera dos grupos utilizando en el denominador la desviación típica combinada de todos ellos. En el análisis de varianza para muestras independientes los cuadrados me- dios dentro de los grupos (el denominador de la razón F) es precisamente la combinación de las varianzas de los diversos grupos; esto se ve, naturalmente, al tratar del análisis de va- rianza, pero no sobra indicarlo aquí
  • 298.
    También es frecuenteutilizar en el denominador la desviación típica com- binada de antes y después; en cualquier caso conviene indicar qué desviación típica se ha utilizado. 3º Diferencia entre las medias de un grupo experimental y otro de control (diseño experimental) sin pre-test La fórmula habitual (y con D, delta mayúscula, como símbolo) es la pro- puesta por Glass, McGaw y Smith (1981), en la que se utiliza la desviación tí- pica del grupo de control (dividiendo por N -1): Las fórmulas [18] y [19] son semejantes a las fórmulas [16] y [17], substi- tuyendo el valor de la desviación típica combinada por el tamaño del efecto. 2º Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la misma muestra) Cuando se trata de muestras relacionadas, se utiliza en el denominador la desviación típica del post-test; en estos casos se verifica la magnitud del cambio: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 298 [18] [20] [21] [19] a) La alternativa a utilizar en el denominador la desviación típica del gru- po de control, es la desviación típica combinada de los dos o más grupos (fórmulas [12] o [13]); ésta es también una práctica muy co- mún y autorizada. b) El utilizar la desviación típica del grupo de control es más recomenda- ble cuando hay varios grupos experimentales con desviaciones típicas muy distintas, o cuando el grupo de control es muy grande.
  • 299.
    4º Grupos experimentaly de control cuando los dos han tenido pre y post-test Cuando tenemos dos grupos, experimental y de control, y los dos con pre y post-test, hay varios procedimientos25 pero es aceptable utilizar la fórmula [13] o [14] con los datos del post-test, sobre todo si no hay diferencias impor- tantes en el pre-test. 6.3. Transformaciones de unos valores en otros Los valores de la t de Student, coeficiente de correlación (r) y diferencia ti- pificada (d o g) están relacionados entre sí, de manera que a partir de cual- quiera de ellos podemos pasar a los otros. Estas transformaciones pueden ser muy útiles. Ya hemos visto antes cómo calcular el coeficiente de correlación a partir de la t de Student (fórmula [11]), y cómo calcular el tamaño del efecto de Co- hen (d) a partir del tamaño del efecto de Hedges (g) (y viceversa, fórmulas [16] y [17]). Cuando se ha calculado previamente la t de Student se puede calcular di- rectamente el tamaño del efecto (d ó g), de la misma manera que del tama- ño del efecto podemos pasar a la t de Student: [22] [23] [24] [25] Si se trata del tamaño del efecto g de Hedges (14], para calcularlo a partir de la t de Student podemos distinguir cuando se trata de muestras de tamaño idéntico o desigual26 : con muestras de idéntico tamaño con muestras de tamaño desigual También podemos pasar de la magnitud del efecto a un coeficiente de correlación. EL CONTRASTE DE MEDIAS 299 25 Expuestos y discutidos en Glass, McGaw y Smith (1981). 26 Fórmulas tomadas de Mahadevan (2000), pero es fácil encontrarlas en otros autores.
  • 300.
    Sobre estas conversionesde unos valores en otros: a) Los resultados son los mismos solamente cuando el número de sujetos en los dos grupos es idéntico; en este caso da lo mismo calcular el ta- maño del efecto con las fórmula directas que calcularlos a partir de la t de Student. b) Cuando el número de sujetos es desigual, la fórmulas del tamaño del efecto calculadas a partir de t dan sólo una aproximación, pero muy cercana al valor exacto del tamaño del efecto cuando los grupos no son muy distintos en tamaño, del orden del 40% en uno y el 60% en el otro (Rosenthal, 1987). Todas estas conversiones27 pueden ser útiles por estas razones: a) A veces facilitan las operaciones; lo más cómodo puede ser calcular el valor del tamaño del efecto a partir del valor de t (fórmula [21]), sobre todo cuando los tamaños de las muestras son iguales o muy parecidos. En la fórmula [27] p es igual a la proporción de sujetos que corresponde a uno de los dos grupos (n1/(n1+n2)) y q es igual a 1-p o la proporción de suje- tos en el otro grupo. Si los grupos son de idéntico tamaño tenemos que p = q = .5 y 1/pq = 4, tal como aparece en la fórmula [26]. Si se trata de convertir el valor de g (tamaño del efecto de Hedges) en un coeficiente de correlación, la fórmula propuesta es la [28] (Mahadevan, 2000): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 300 27 Estas y otras conversiones pueden encontrarse en diversos autores, por ejemplo en Rosenthal, 1987, 1991, 1994; Wolf, 1986; Hunter y Schmidt, 1990, Kirk, 1996, y otros. [28] [29] [26] [27] También podemos calcular el valor de d (tamaño del efecto de Cohen) a partir del coeficiente de correlación.
  • 301.
    b) Aunque prefiramosun enfoque determinado, el utilizar otro enfoque puede ayudar a la interpretación. Lo más frecuente es calcular una dife- rencia tipificada, pero el coeficiente de correlación elevado al cuadrado nos dice la proporción de varianza debida a la variable experimental o a pertenecer a un grupo o a otro y es también un dato de interés para interpretar los resultados. c) Puede interesar presentar con la misma métrica resultados que pro- vienen de diversos estudios en los que se han utilizado análisis distin- tos (t, r, etc.,). Esto es útil para hacer comparaciones y para calcular medias como resumen de los resultados de estudios distintos pero to- dos expresados en términos del tamaño del efecto (es lo que se hace en el meta-análisis o integración cuantitativa de los resultados de va- rios estudios o experimentos, y que se utiliza sobre todo para exponer el estado de la cuestión en un determinado tema). 6.4. Utilidad del tamaño del efecto: resumen El cálculo del tamaño del efecto es de especial utilidad por varias razones: 1º El tamaño del efecto informa sobre la magnitud de la diferencia y no sobre la probabilidad de que esté dentro de lo aleatorio. Diferencias es- tadísticamente significativas pueden ser muy pequeñas y poco relevan- tes. Aporta una información básica para apreciar la relevancia de la di- ferencia en una situación dada, y esto incluso aunque la diferencia no sea estadísticamente significativa. 2º Se utiliza una métrica común que permite presentar diversos resulta- dos, obtenidos de maneras distintas, incluso con instrumentos distintos, en pares de muestras distintos, con los mismos estadísticos, de manera que las magnitudes de las diferencias sean comparables directamente. 3º Permite calcular la media de varios tamaños del efecto, procedentes de estudios distintos, para presentar una síntesis cuantitativa (como se hace en la técnica del meta-análisis, o síntesis integradoras de los resultados de varios estudios) y dejar así más claro el estado de la cues- tión cuando disponemos de varias investigaciones sobre la misma va- riable aunque haya sido medida con instrumentos distintos. EL CONTRASTE DE MEDIAS 301
  • 302.
    ANEXO 1: MODELODEL CONTRASTE DE MEDIAS, RESUMEN ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 302 1º Preguntas que nos hacemos 1ª Estas dos medias, ¿Pertenecen a muestras de la misma población? ¿O pertenecen a mues- tras de poblaciones distintas que tienen dis- tinta media? 2ª La diferencia entre estas dos medias ¿Es ma- yor de la que se puede esperar por puro azar? Porque si la diferencia está dentro de lo normal, habrá que concluir que ambas me- dias pertenecen a muestras de la misma po- blación; no habrá que interpretar la diferen- cia como una verdadera diferencia, ya que el error muestral explica suficientemente esa diferencia. 3ª Esta diferencia entre dos medias, ¿Se aparta mucho, más de lo normal de la diferencia cero? Si no se aparta significativamente de la diferencia cero habrá que interpretarla como una no diferencia entre las poblaciones. Estas tres preguntas son equivalentes: lo que nos preguntamos, de diversas maneras, es si las dos muestran pertenecen o no a la misma población. Teoría subyacente: distribución muestral de las diferencias entre medias; error típico de la distribución muestral. 2º Proceso para llegar a una respuesta 1º Calculamos una diferencia entre dos medias (d = |X – 1 – X – 2|); 2º Esta diferencia, en el caso de que las mues- tras pertenezcan a la misma población, ¿Es probable o es improbable? (es decir es nor- mal o rara, esperable o no esperable…) Para comprobarlo debemos calcular en cuántas sigmas (aquí errores típicos) se aparta esa diferencia de la diferencia media de cero, que es la media de las diferencias cuando las dos muestras pertenecen a la misma población y no hay más diferencias que las casuales. Para comprobar si esta diferencia es normal calculamos su puntuación típica: z = (d - 0)/sd que nos dirá si la diferencia está dentro de lo normal y probable Teoría subyacente: relación entre puntuaciones típicas y probabilidad de ocurrencia en la distribución normal. La media es 0 en este caso; sd es el error típico (desviación típica) de la distribución de las diferencias entre medias de la misma población.
  • 303.
    3º Interpretación dela Razón crítica (z o t) El valor de z (o de t) escogido como límite entre lo probable e improbable dependerá de nuestro nivel de confianza. 4º Conclusiones La Hipótesis Nula establece que si hay diferencia, ésta se explica por el error muestral (que podemos convencionalmente denominar azar). Un sí o un no a la Hipótesis Nula es lo único que afirmamos (con una determinada probabilidad de error; el sí o el no no son absolutos) mediante el cálculo de la t de Student (o z). Aceptaremos la Hipótesis Alterna si rechazamos (no aceptamos) la Hipótesis Nu- la, pero en este paso puede haber otras fuentes de error (un mal diseño, muestra inadecuada, etc.). Tampoco concluimos si la diferencia es grande o pequeña; sim- plemente afirmamos que es muy improbable que esa diferencia sea cero en la po- blación. Para apreciar la magnitud de la diferencia calculamos el tamaño del efecto. 1º se rechaza o no se re- chaza la Hipótesis Nula (o el azar como expli- cación de la diferen- cia); 2º consecuentemente se acepta o no se acepta la Hipótesis Alterna. z (o t) grande La diferencia es muy improbable si ambas muestras pertenecen a la misma población. Luego es más probable que las muestras proce- dan de poblaciones distintas. z (o t) pequeña La diferencia está den- tro de lo normal y pro- bable si ambas muestras pertenecen a la misma población. Luego es más probable que las muestras proce- dan de la misma pobla- ción. 1ª Rechazo el azar (error muestral) co- mo explicación de la diferencia. 2ª Acepto que las muestras pertene- cen a poblaciones distintas. 1ª No rechazo el azar (error muestral) co- mo explicación de la diferencia 2º No acepto que las muestras pertene- cen a poblaciones distintas. EL CONTRASTE DE MEDIAS 303
  • 304.
    ANEXO 2: CONCEPTOSBÁSICOS DE ESTADÍSTICA INFERENCIAL (REFERIDOS AL CONTRASTE DE MEDIAS PERO EXTRAPOLABLES A OTROS PLANTEA- MIENTOS) ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 304 Diferencia estadísticamente significativa La diferencia entre dos medias (o entre dos proporciones, etc.) es mayor de lo que se puede esperar por azar, es mayor de lo que ocurre normalmente cuando no hay más diferencia que la puramente aleatoria, es una diferencia muy im- probable cuando las muestras proceden de la misma población: si hacemos la misma comparación entre muestras semejantes, la diferencia no será cero. Si probamos que una diferencia es estadísticamente significativa, no por eso probamos que la diferencia es grande o importante. Nivel de confianza: Seguridad con que afirmamos que una diferencia es mayor de lo que se pue- de esperar por azar; El nivel de confianza se simboliza como ? y se establece antes de analizar los da- tos; a = .05 significa que ponemos en un 5% las probabilidades de equivocarnos al afirmar que hay diferencia entre dos medias (que la diferencia se aparta mucho de la diferencia media de cero; que las muestras proceden de poblaciones distintas con distinta media); a = .01 significa que ponemos el límite en un 1% las probabilidades de error al afirmar que dos medias difieren significativamente, etc. (la probabilidad de que la diferencia sea aleatoria la expresamos así: p .05, p .01, p .001; si las probabilidades son mayores del 5%: p .05). Razón Crítica: Es el valor de z (o de t de Student en muestras pequeñas, las tablas son distin- tas pero el concepto y la interpretación son las mismas) que nos permite estable- cer la probabilidad (simbolizada como p) de que una diferencia sea aleatoria; en muestras grandes si z 1.96 tendremos que p .05 z 2.57 tendremos que p .01 z 3.30 tendremos que p .001 Hipótesis Nula: Es la negación de la hipótesis del investigador Si mi hipótesis es: el método A es mejor que el método B, la hipótesis nula será el método A no es mejor que el B
  • 305.
    Aceptar la HipótesisNula = Diferencia no estadísticamente significativa Diferencia dentro de lo aleatorio; se interpreta como una no diferencia; en el sentido de que el hecho de la diferencia no se puede extrapolar a la población; en comparaciones semejantes pode- mos encontrarnos con una diferencia de cero En sentido estricto no probamos que no hay dife- rencia, (quizás con un N mayor se podría no aceptar la Hipótesis Nula); simplemente fracasa- mos en el intento de probar que sí la hay. Hipótesis Alterna: Es la hipótesis del investigador, se acepta la Hipótesis Alterna (hay una diferen- cia distinta de cero) si no se acepta la Hipótesis Nula (se excluye el azar o el error muestral como explicación de la diferencia) Aceptar la Hipótesis = La diferencia es estadísticamente significativa; Alterna La diferencia es mayor de lo que se puede esperar por azar en caso de no di- ferencia; se puede extrapolar a las poblaciones representadas por esas muestras; la diferencia entre las medias de las poblaciones representadas por esas muestras es distinta de cero Las medias pertenecen a muestras que proceden de poblaciones distintas con distinta media. EL CONTRASTE DE MEDIAS 305
  • 306.
    ANEXO 3: TABLASDE LA T DE STUDENT Grados de libertad: Muestras independientes: N1 1 + N2 2 -2 Muestras relacionadas: N - 1 (habitualmente utilizamos pruebas bilaterales, o bidireccionales o de dos colas) ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 306 Grados de 0.05 0.025 0.005 0.0005 (1) libertad: .10 .05 .01 .001 (2) 1 6.313752 12.70620 63.65674 636.6192 2 2.919986 4.30265 9.92484 31.5991 3 2.353363 3.18245 5.84091 12.9240 4 2.131847 2.77645 4.60409 8.6103 5 2.015048 2.57058 4.03214 6.8688 6 1.943180 2.44691 3.70743 5.9588 7 1.894579 2.36462 3.49948 5.4079 8 1.859548 2.30600 3.35539 5.0413 9 1.833113 2.26216 3.24984 4.7809 10 1.812461 2.22814 3.16927 4.5869 11 1.795885 2.20099 3.10581 4.4370 12 1.782288 2.17881 3.05454 4.3178 13 1.770933 2.16037 3.01228 4.2208 14 1.761310 2.14479 2.97684 4.1405 15 1.753050 2.13145 2.94671 4.0728 16 1.745884 2.11991 2.92078 4.0150 17 1.739607 2.10982 2.89823 3.9651 18 1.734064 2.10092 2.87844 3.9216 19 1.729133 2.09302 2.86093 3.8834 20 1.724718 2.08596 2.84534 3.8495 21 1.720743 2.07961 2.83136 3.8193 22 1.717144 2.07387 2.81876 3.7921 23 1.713872 2.06866 2.80734 3.7676 24 1.710882 2.06390 2.79694 3.7454 25 1.708141 2.05954 2.78744 3.7251 (1) Pruebas de una cola (unilaterales) (2) Pruebas de dos colas (bilaterales)
  • 307.
    Grados de 0.050.025 0.005 0.0005 (1) libertad: .10 .05 .01 .001 (2) 26 1.705618 2.05553 2.77871 3.7066 27 1.703288 2.05183 2.77068 3.6896 28 1.701131 2.04841 2.76326 3.6739 29 1.699127 2.04523 2.75639 3.6594 30 1.697261 2.04227 2.75000 3.6460 ⬁ 1.644854 1.95996 2.57583 3.2905 Tablas adaptadas de STATSOFT, INC. (2002). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html ANEXO 4: EL CONTRASTE DE MEDIAS EN INTERNET Entre otros muchos programas que se pueden localizar en Internet disponemos de los siguientes: I. Si lo que deseamos es solamente conocer si un valor de t es estadísticamente significativo tenemos en Internet varios programas 1. SURFSTAT.AUSTRALIA: AN ONLINE TEXT IN INTRODUCTORY STATISTICS surfstat-main. http://www.anu.edu.au/nceph/surfstat/surfstat-home/ (buscar Tables en el menú de la izquierda) 2. DEPARTMENT OF OBSTETRICS AND GYNAECOLOGY, THE CHINESE UNIVERSITY OF HONG KONG http://department.obg.cuhk.edu.hk/index.asp?scr=1024 (buscar en el menú Statistics Tool Box escoger Statistical Tests y escoger Statistical Sig- nificance). 3. INSTITUTE OF PHONETIC SCIENCES (IFA)AMSTERDAM (h ht tt tp p: :/ // /f fo on ns sg g3 3. .l le et t. . u uv va a. .n nl l/ /W We el lc co om me e. .h ht tm ml l) en el menu: D De em mo os s, , t te es st ts s, , e ex xp pe er ri im me en nt ts s y escoger Statistics) o directamente en The Student-t distribution h ht tt tp p: :/ // /f fo on ns sg g3 3. .l le et t. .u uv va a. .n nl l/ /S Se er rv vi ic ce e/ /S St ta at ti is st ti ic cs s/ /S St tu ud de en nt t- -t t_ _d di is st tr ri ib bu u- - t ti io on n. .h ht tm ml l II. Para calcular la t de Student 1. Introduciendo o copiando todos los datos individuales COLLEGE OF SAINT BENEDICT, SAINT JOHN’S UNIVERSITY h ht tt tp p: :/ // /w ww ww w. .p ph hy ys si ic cs s. . c cs sb bs sj ju u. .e ed du u/ /s st ta at ts s/ /t t- -t te es st t. .h ht tm ml l o Student’s t-Test, en h ht tt tp p: :/ // /w ww ww w. .p ph hy y- - s si ic cs s. .c cs sb bs sj ju u. .e ed du u/ /s st ta at ts s/ / (muestras independientes y relacionadas) 2. Introduciendo solamente la media, desviación y número de sujetos de ca- da grupo (muestras independientes y relacionadas GENE V. GLASS h ht tt tp p: :/ // /g gl la as ss s. .e ed d. .a as su u. .e ed du u/ /s st ta at ts s/ /o on nl li in ne e. .h ht tm m (Delta COE502, Intro to Quant Methods, h ht tt tp p: :/ // /g gl la as ss s. .e ed d. .a as su u. .e ed du u/ /s st ta at ts s/ /i in n- - EL CONTRASTE DE MEDIAS 307
  • 308.
    d de ex x. .h ht tm ml l , O On nl li in ne es st ta at ti is st ti ic ca al l c ca al lc cu ul la at to or rs s t th ha at t c ca an n p pe er rf fo or rm m m ma an ny y d di if ff fe er re en nt t a an na al ly ys se es s. .) (no calcula el tamaño del efecto) The Significance of the Difference Between Two Independent Sample Me- ans introduciendo M, s y N) http://glass.ed.asu.edu/stats/analysis/ t2test.html The Significance of the Difference Between Two Dependent Means using the t-test (introduciendo N, M y s de las diferencias) http://glass.ed. asu.edu/stats/analysis/tdtest.html UNIVERSITÄT ULM-MEDIZINISCHE FAKULTÄT, SEKTION INFORMATIK IN DER PSYCHOTHE- RAPIE (SOFTWARE UND WERKZEUGE) h ht tt tp p: :/ // /s si ip p. .m me ed di iz zi in n. .u un ni i- -u ul lm m. .d de e/ /i in nf fo or r- - m ma at ti ik k/ /p pr ro oj je ek kt te e/ /O Od dd ds s/ /e es st t. .h ht tm ml l (Calcula la t de Student y el tamaño del efecto). 3. Para todos estos casos tenemos también GRAPHPAD, FREE ONLINE CALCULATORS FOR SCIENTISTS (h ht tt tp p: :/ // /g gr ra ap ph hp pa ad d. .c co om m/ /q qu ui ic ck kc ca al lc cs s/ /i in nd de ex x. .c cf fm m) t test Cal- culator, h ht tt tp p: :/ // /g gr ra ap ph hp pa ad d. .c co om m/ /q qu ui ic ck kc ca al lc cs s/ /t tt te es st t1 1. .c cf fm m? ?F Fo or rm ma at t= =5 50 0 III. Tamaño del efecto. 1. LEE A. BECKER, , EFFECT SIZE CALCULATORS. h ht tt tp p: :/ // /w we eb b. .u uc cc cs s. .e ed du u/ /l lb be ec ck ke er r/ / P Ps sy y5 59 90 0/ /e es sc ca al lc c3 3. .h ht tm m (consultado 25, 03, 08). En muestras de idéntico tamaño calcula el tamaño del efecto (de Cohen) y el coeficiente de correlación 1º a partir de los valores de las medias y de las desviaciones típicas, 2º a partir del valor de t y de los grados de libertad (N+N-2). (For a discussion of these effect size measures see E Ef ff fe ec ct t S Si iz ze e L Le ec ct tu ur re e N No ot te es s) 2. COE, ROBERT (2000) Effect Size Resources (Durham University, Cem Centre) h ht tt tp p: :/ // /w ww ww w. .c ce em mc ce en nt tr re e. .o or rg g/ /R Re en nd de er rP Pa ag ge e. .a as sp p? ?L Li in nk kI ID D= =3 30 03 31 10 00 00 00 0 (revisado 1, Enero, 2007) 3. MILLS, MICHAEL E. (Loyola Marymount University, Los Angeles), http://myweb. lmu.edu/mmills/, en el índice de la izquierda Software y effect size calcula- tion (consultado 25, 03, 08). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 308
  • 309.
    CAPÍTULO 9 ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ), LA DISTRIBUCIÓN BINOMIAL, EL CONTRASTE DE PROPORCIONES 1. PLANTEAMIENTO GENERAL Tenemos variables nominales o categóricas cuando el dato disponible de los sujetos es a qué categoría de clasificación pertenecen, como vamos a ver en numerosos ejemplos. No disponemos de una puntuación individual en sentido propio; los datos son simplemente categorías de clasificación y fre- cuencias en cada categoría. Aunque habitualmente hablamos de sujetos, pue- de tratarse también de sucesos, objetos, etc. La prueba del ji cuadrado1 (con su propia distribución y sus propias tablas) nos va a servir para analizar este tipo de datos, y va ser el método central en es- ta exposición porque es válido para todas las situaciones que vamos a presentar. El ji cuadrado y sus variantes metodológicas (como la prueba exacta de Fisher y el test de McNemar) no es por otra parte el único método de análi- sis cuando tenemos a los sujetos clasificados en categorías; según el plantea- miento que tengamos disponemos también de otras alternativas de análisis, como son las aplicaciones de: a) La distribución binomial b) El contraste de proporciones 309 1 En inglés chi square y a veces en español el anglicismo chi cuadrado; la letra grie- ga utilizada como símbolo es c que se pronuncia como la jota española.
  • 310.
    Con frecuencia estosanálisis son una alternativa más sencilla al ji cuadra- do. En vez de ver por separado estos métodos (como es usual) los expondre- mos cuando sean aplicables, ya que con frecuencia los mismos datos se pue- den analizar de diversas maneras con resultados idénticos o equivalentes y que llevan a las mismas conclusiones. De esta manera se facilita el que cada uno es- coja el método que prefiera, y no se ven en contextos distintos métodos de análisis que son válidos en las mismas situaciones y con los mismos datos. La presentación que hacemos es por lo tanto por situaciones o modos de organizar los datos, y no por métodos de análisis. Las situaciones son sujetos clasificados en categorías de diversas maneras y cada situación está representada por un tipo de cuadro o tabla que permite visualizar dónde encajan nuestros datos y nuestras preguntas. Los cuadros de doble entrada, con dos criterios de clasificación, se denominan también ta- blas de contingencia. Podemos distinguir los cuatro modelos básicos puestos en la figura 1. Aun- que iremos poniendo numerosos ejemplos más adelante, es útil ver desde el comienzo los diversos tipos o modelos de cuadros o tablas porque van cen- trando la atención en las posibilidades que tenemos para analizar este tipo de datos. Estas tablas de la figura 1 representan las distintas posibilidades. Todas las denominadas preguntas básicas puestas en la figura 1 podemos hacerlas preguntando por una diferencia (¿difieren los grupos A y B en sus preferencias, en sus respuestas, etc.?) o preguntando por una relación (¿tie- ne que ver el pertenecer al grupo A o B con escoger una u otra opción?). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 310 Figura 1
  • 311.
    Con el jicuadrado y sus variantes metodológicas podemos analizar todos estos planteamientos aunque en algunos casos disponemos de otras alterna- tivas equivalentes, como el contraste entre proporciones. En realidad lo que nos dice el ji cuadrado es si los sujetos que observa- mos en cada celda son los que veríamos si no hubiera diferencias ni relacio- nes entre los criterios de clasificación. Al ji cuadrado se le denomina por es- ta razón prueba de independencia (o lo contrario, de asociación), porque verificamos si los criterios de clasificación son independientes. La prueba del ji cuadrado nos va a decir si lo que observamos: a) Está dentro de lo normal y probable; en ese caso afirmaremos que no hay diferencia ni relación (aceptamos la Hipótesis Nula dicho en otros términos; aceptamos que los resultados están dentro de lo normal y aleatorio). b) Es atípico y poco normal en el caso de no diferencia o relación; en es- te caso sí afirmaremos que hay relación entre los criterios de clasifica- ción o que los grupos son distintos (no aceptamos la Hipótesis Nula). Mediante la prueba estadística del ji cuadrado podemos abordar todos es- tos planteamientos, para detectar diferencias y relaciones, por eso centra- mos el análisis de los datos nominales en la prueba del ji cuadrado. Como ya hemos indicado, en algunos casos, no en todos, hay otros méto- dos de análisis, como la aplicación directa de la distribución binomial y el contraste de proporciones, que son equivalentes y los iremos introduciendo en cada caso como alternativas de análisis. Además, aunque hay una fórmu- la general del ji cuadrado aplicable en todos los casos, algunas situaciones re- presentadas en estos cuadros admiten fórmulas más sencillas. Para visualizar mejor los procedimientos que vamos a ver, podemos repe- tir los cuadros o tablas con los modos habituales de presentar los datos (tal como están en la figura 1), indicando los modos de análisis aplicables en cada caso (figura 2) aunque no siempre son intercambiables. Figura 2 ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 311
  • 312.
    Se trata endefinitiva de verificar la probabilidad de que ocurra casual- mente lo que nos hemos encontrado en el caso de que no hubiera ni diferen- cias ni relaciones en la población representada por esos datos. De la misma manera que hay una distribución normal que ya hemos aplicado en otros ca- sos (medias, diferencias entre medias), hay otra distribución normal para es- tos planteamientos2 . Como en otros casos semejantes procedemos de esta manera: 1º Calculamos un valor (en este caso denominado ji cuadrado) 2º Consultamos una tablas para comprobar si ese valor es probable o im- probable 3º También, y como sucede en el contraste de medias, después de verifi- car si un valor de ji cuadrado es significativo (poco probable si no hay relación o diferencia), podemos cuantificar el grado de relación me- diante una serie de coeficientes para poder apreciar si la relación es grande o pequeña e interpretar mejor los resultados. 2. QUÉ COMPROBAMOS MEDIANTE EL c2 Vamos a centrar la explicación del c2 en uno de los casos más sencillos y frecuentes, cuando tenemos a los sujetos clasificados en dos categorías de clasificación y cada categoría tiene dos niveles o subcategorías. Qué comprobamos mediante el c2 podemos verlo de manera intuitiva. Por ejemplo clasificamos a un grupo de sujetos según la variable sexo (ser hombre o ser mujer) y según sus respuestas (sí o no) a una pregunta que es la otra categoría de clasificación. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 312 2 Es la distribución multinomial denominada de ji cuadrado y que se la debemos a Karl Pearson, a quien ya conocemos a propósito del coeficiente de correlación r de Pearson. 60 (75%) 30 (25%) 20 (25%) 90 (75%) hombre mujer totales 90 110 200 Sí No total 80 (100%) 120 (100%)
  • 313.
    Preguntas que noshacemos: ¿Tiene que ver el sexo con el responder sí o no a esa pregunta? ¿Existe aso- ciación entre estas dos variables o criterios de clasificación? También podemos preguntarnos lo mismo de esta forma: ¿Son distintos hombres y mujeres en sus respuestas a esa pregunta? A primera vista podríamos responder a estas preguntas que sí hay relación entre la pregunta y el sexo: el 75% de los hombres dice que sí frente a sólo un 25% de las mujeres. Para entender lo que nos dice el c2 lo más sencillo es situarnos ante dos posibilidades extremas cuya interpretación no dejaría lugar a dudas: ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 313 40 (50%) 60 (50%) 40 (50%) 60 (50%) hombre mujer totales 100 100 200 Sí No totales 80 (100%) 120 (100%) 80 (100%) 0 0 120 (100%) hombre mujer totales 100 100 200 Sí No totales 80 (100%) 120 (100%) P Po os si ib bi il li id da ad d A A P Po os si ib bi il li id da ad d B B En cada grupo la mitad dice que sí y la otra mitad dice que no: Es la distribución más probable en el caso de no asociación. El sexo no tiene nada que ver con el conte- nido de la pregunta. El valor de c2 que obtengamos se- rá bajo, como de manera análoga un valor bajo de la t de Student nos indi- ca una diferencia normal y probable. En este caso: Hipótesis Nula aceptada; es una distribución probable cuando las Todos los hombres dicen que sí y todas las mujeres dicen que no: Es la distribución menos probable en el caso de no asociación. El sexo sí parece que tiene que ver con el contenido de la pregunta. El valor de c2 que obtengamos se- rá alto, como de manera análoga un valor alto de la t de Student nos indi- ca una diferencia mayor de lo normal. En este caso: Hipótesis Nula no aceptada (no aceptamos el azar); es la distri-
  • 314.
    El ji cuadradose utiliza con dos tipos de hipótesis que se denominan así: a) Pruebas de independencia, cuando hay dos criterios de clasificación (como en los ejemplos anteriores, con cuadros de doble entrada sub- divididos en dos o más niveles); b) Pruebas de bondad de ajuste, cuando tenemos un solo criterio de cla- sificación (como cuando tenemos un grupo de sujetos, o de objetos, subdividido en varias categorías). 3. FRECUENCIAS OBSERVADAS (O EMPÍRICAS) Y FRECUENCIAS TEÓRICAS (O ESPERADAS) En todos los casos es importante la distinción entre dos tipos de frecuen- cias (o número de casos) porque en definitiva lo que hacemos mediante el ji cuadrado es comparar estos dos tipos de frecuencias. a) Frecuencias observadas (también denominadas empíricas), que son las que observamos y anotamos, b) Frecuencias teóricas (también denominadas esperadas), que son las más probables (y ciertamente las más claras) en el caso de no relación o no diferencia.3 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 314 3 Posiblemente los términos más claros son frecuencias observadas (más claro que frecuencias empíricas) y frecuencias esperadas (más claro que teóricas). Aquí utiliza- mos los términos frecuencias observadas y frecuencias teóricas simplemente porque los símbolos (fo y ft) no se prestan a confusión (fe podría ser tanto frecuencia empírica co- mo esperada). dos variables son independientes; cuando una variable no tiene que ver con la otra (en este ejemplo: cuando no hay relación entre el sexo y la res- puesta a la pregunta). Las frecuencias observadas (las co- dificadas) no se apartan mucho de las frecuencias teóricas, que son las más probables en caso de no asociación. Hipótesis Alterna no acepta- da; el ser hombre o mujer no tiene que ver con cómo se responde a esa pregunta. bución menos probable cuando las dos variables son independientes; es una distribución fuera de lo normal (en el caso en que el sexo y el respon- der sí o no no tuvieran nada que ver). Las frecuencias observadas (las codificadas) se apartan mucho de las frecuencias teóricas, las frecuencias observadas son poco probables en caso de no asociación. Hipótesis Alterna aceptada; el sexo sí tiene que ver con las respues- tas a esa pregunta.
  • 315.
    En los casoscomo los que nos han servido de ejemplo (tablas 2x2 o mayo- res) se trata de pruebas de independencia, y lo que comprobamos se puede formular de dos maneras y es útil verlo así: 1º Si existe relación o asociación entre las dos variables que han servido de criterio de clasificación; 2º Si dos o más grupos (la pertenencia a un grupo es un criterio de clasi- ficación) difieren en el otro criterio de clasificación (en realidad se tra- ta del mismo planteamiento). En cualquier caso lo que comprobamos es si las frecuencias observadas (representadas en el apartado anterior como posibilidad B) se apartan signifi- cativamente de las frecuencias teóricas o esperadas en el caso de no relación o no diferencia (representadas en el apartado anterior como posibilidad A). El c2 lo que nos dice es si las frecuencias observadas están dentro de lo probable en el caso de no asociación. A mayor valor de c2 corresponde una menor probabilidad, por eso con un valor grande de c2 diremos que ese re- sultado es muy improbable si no hubiera relación, y por lo tanto decimos que sí la hay. Para expresarlo en términos muy simples. En el apartado anterior hemos visto dos posibilidades extremas A y B. Esos resultados hipotéticos son muy claros, pero tan claros es difícil que los encontremos. El valor de c2 nos viene a decir lo siguiente: a) Un valor de c2 pequeño nos dice que nuestros resultados podemos equipararlos a la posibilidad A (no hay relación); las frecuencias que observamos se parecen mucho a las teóricas o esperadas, a las que ten- dríamos en caso de no asociación o no diferencia). b) Un valor de c2 grande nos dice que nuestros resultados podemos in- terpretarlos como la posibilidad B (sí hay relación), las frecuencias que observamos se apartan mucho de las teóricas o esperadas, las que tendríamos en caso de no asociación o no diferencia. 4. CONDICIONES PARA UTILIZAR EL c2 1º Se trata siempre de observaciones independientes: al clasificar los su- jetos (u objetos) en cada casilla debe haber sujetos distintos; no pue- de haber sujetos repetidos en más de una casilla. Esta condición es esencial; en ningún caso debe haber sujetos clasificados en más de un lugar. 2º La segunda condición es ahora muy discutida: que las frecuencias teó- ricas o esperadas en cada casilla de clasificación no sean inferiores a 5. ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 315
  • 316.
    Recordamos que lasfrecuencias teóricas o esperadas son las que ha- bría (o las más probables) en el caso de que no hubiera relación entre las variables (o diferencias entre los grupos clasificados). Es tolerable que un 20% de las casillas tengan una frecuencia teórica inferior a 5, pe- ro no deben ser muy inferiores. Cuando las frecuencias teóricas (ya ve- remos cómo se calculan) son muy pocas, se pueden juntar columnas o filas adyacentes (si hay más de dos) en una sola categoría, con tal de que tenga sentido lógico el hacerlo. Además con muestras muy peque- ñas (N20) y en tablas 2x2 tenemos como alternativa la prueba exac- ta de Fisher mencionada más adelante. Esta segunda condición (necesidad de un número mínimo de frecuencias teóricas) la discuten ahora bastantes autores y se puede no tener en cuenta (lo veremos más adelante a propósito de la corrección de Yates); sí conviene mencionarla porque responde a una práctica muy generalizada y figura en muchos textos. 5. CÁLCULO DE LAS FRECUENCIAS TEÓRICAS El cálculo de las frecuencias teóricas es necesario porque estas frecuencias entran en la fórmula básica del ji cuadrado, además con un número de suje- tos muy pequeño (N 25, como criterio más bien liberal) si hay frecuencias teóricas inferiores a 5 ya hemos visto que el uso del ji cuadrado es discutible. Al calcular las frecuencias teóricas (o esperadas) conviene dejar al menos tres decimales. a) Cuando tenemos un solo criterio de clasificación dividido en varias categorías El cálculo de las frecuencias teóricas es sencillo: número total de sujetos N frecuencias teóricas en cada casilla: –––––––––––––––––––––– (=) –– número de clasificaciones k Por ejemplo tenemos un grupo de 300 sujetos clasificados en una catego- ría (preferencia por un color) dividida en tres niveles (tres colores: verde, azul y rojo que pueden ser los colores del envase de un producto comercial; tabla 2). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 316
  • 317.
    Estas son lasfrecuencias observadas, ¿Cuáles serían las frecuencias teóri- cas o esperadas si los tres colores fueran igualmente atrayentes? Los 300 su- jetos se repartirían por igual, y cada color tocaría a 100 sujetos; las frecuen- cias teóricas son por lo tanto 300/3 = 100. Estas frecuencias teóricas o esperadas podrían ser otras distintas en otras hipótesis; en definitiva lo que hacemos es comprobar si las frecuencias obser- vadas se ajustan a las esperadas, por esta razón también se denomina a esta comprobación prueba de bondad de ajuste, porque comprobamos si nues- tra distribución se ajusta a un modelo teórico. b) Cuando hay dos criterios de clasificación (cuadros de doble entrada) Las frecuencias teóricas de cada casilla son iguales al producto de las su- mas marginales dividido por el número total de sujetos. En el caso de dos categorías con dos niveles de clasificación (podrían ser más) tendríamos (tabla 3): Verde Azul Rojo 160 100 40 total prefieren el color… 300 Tabla 2 Tabla 3 ¿De dónde viene esta fórmula para calcular las frecuencias teóricas?; en las frecuencias teóricas hacemos un reparto proporcional de las frecuencias observadas en la hipótesis de no diferencia o relación. Es un sencilla regla de tres si nos fijamos en el cuadro anterior: ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 317
  • 318.
    Si nos daun valor igual o superior a 5 ya no hay por qué seguir calculan- do frecuencias teóricas a no ser que sean necesarias para calcular el valor de c2 (y no son necesarias en cuadros con cuatro casillas, 2x2, porque admiten una fórmula más sencilla). Es importante caer en la cuenta de que la suma de las frecuencias obser- vadas debe ser igual a la suma de las frecuencias teóricas: se trata del mis- mo número de sujetos (u objetos) repartidos con dos criterios: lo que obser- vamos y lo que observaríamos en el caso de no diferencia. Estas dos sumas (de todas las frecuencias observadas y de todas las frecuencias teóricas) con frecuencia no son idénticas porque redondeamos los decimales o no utiliza- mos todos, pero deben ser muy parecidas. 6. GRADOS DE LIBERTAD Los grados de libertad son necesarios para consultar las tablas de la dis- tribución de c2 . Recordamos el concepto de grados de libertad: el número de valores que pueden variar libremente manteniendo o imponiendo previamente unas de- terminadas restricciones a los datos. Dicho de una manera más sencilla y apli- cable a este caso y a otros muchos: los grados de libertad son igual al número de valores o datos que pueden variar libremente dado un determinado resul- Si de un total de N sujetos… .............................. responden sí (a+b) De un total de (a+c) sujetos .............................. responderán sí X sujetos (a + b) (a + c) Por lo tanto X (ó frecuencias teóricas de a): .... = –––––––––––––––––– N Es decir, multiplicamos las dos frecuencias marginales y dividimos el pro- ducto por el N total. Cuando solamente hay cuatro casillas (tabla 2x2 como en este ejemplo) lo único que nos puede interesar saber es si todas las fre- cuencias teóricas son superiores a 5; ya que es recomendable que las fre- cuencias teóricas no sean muy pequeñas; para esto basta empezar calculan- do la frecuencia teórica más pequeña, y si es superior a 5 ya no hay que hacer más cálculos. Para calcular la frecuencia teórica más pequeña y comprobar que es igual o superior a 5: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 318
  • 319.
    tado (o resultados).El concepto se entenderá mejor al ver cuáles son los gra- dos de libertad precisamente en el ji cuadrado. En los planteamientos más frecuentes (no son los únicos) se calculan de este modo: a) Cuando hay un solo criterio de clasificación Grados de libertad = k -1 (número de categorías menos una) En el ejemplo anterior en el que 300 sujetos están clasificados según elijan A, B ó C (tres categorías de clasificación) los grados de libertad serán 3-1 = 2. Si partimos de un total de 300 sujetos divididos en tres categorías, en dos de ellas podemos poner cualquier número (sus frecuencias pueden variar li- bremente) pero en la tercera ya no hay libertad para poner cualquier valor: habrá que poner lo que nos falte para llegar a 300. b) Cuando hay dos criterios de clasificación Es decir, tenemos varias columnas y varias filas: Grados de libertad = (f -1)(c -1) (número de filas menos una) por (número de columnas menos una). En el primer ejemplo que hemos puesto (cuadro 2x2): dos columnas (hombre/mujer) y dos filas (sí/no), los grados de libertad serán (2-1)(2-1) = 1. En este caso partimos de los totales marginales como datos fijos y previos, éstas son las restricciones. En una tabla 2x2, con cuatro clasificaciones, pode- mos variar libremente solamente la frecuencia (número) de una de las casi- llas: las demás vendrán forzadas para mantener los totales marginales (si par- timos de que a + b = 90, uno de los dos, a ó b, pueden variar libremente, pero el otro valor debe ser necesariamente lo que falte para llegar a 90). 7. FÓRMULA GENERAL DEL JI CUADRADO4 Hay una fórmula general aplicable a todos los planteamientos del ji cuadra- do, pero hay también fórmulas más sencillas para planteamientos particulares, que son por otra parte los más frecuentes y de interpretación más sencilla. Ponemos en primer lugar la fórmula general de c2 , aplicable en todos los casos: ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 319 4 El ji cuadrado en todas sus variantes lo tenemos en programas de ordenador y en numerosas direcciones de Internet que pueden verse en el Anexo II.
  • 320.
    Este análisis esmuy útil pues es muy normal presentar a un grupo una se- rie de preguntas con respuestas sí o no mutuamente excluyentes ¿Cuándo predomina una de las dos respuestas más allá de lo probable por azar? La pregunta que nos hacemos en nuestro ejemplo es si existe una diferen- cia estadísticamente significativa (por encima de lo puramente aleatorio) en- tre 40 y 20 (o entre dos proporciones o porcentajes obtenidos en la misma muestra). Tenemos dos maneras de llegar a una respuesta; una a través del ji cua- drado, y otra utilizando la distribución binomial; con ambas llegamos al mismo resultado. Aunque aparentemente haya muchas fórmulas, en reali- dad todas son equivalentes y muy sencillas; posiblemente con la [2] o con la [5] podemos resolver todas las situaciones en las que queramos hacer este análisis. El valor resultante de esta suma se consulta en las tablas de c2 según los grados de libertad que correspondan. Aunque esta fórmula es válida para todos los casos, hay planteamientos, que son también los más frecuentes (como las tablas 2x2), que admiten fórmulas más sencillas. Vamos a ver ahora los casos más frecuentes con sus fórmulas específicas. 8. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN DIVIDIDO EN DOS NIVELES Por ejemplo, preguntamos a un grupo de N = 60 si está a favor o en con- tra de una determinada proposición y obtenemos estos resultados (tabla 4): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 320 fo son las frecuencias observadas, ft son las frecuencias teóricas. La fracción se calcula en cada casilla y se suman todos estos valores. A favor En contra total 40 20 60 Tabla 4
  • 321.
    Esta fórmula [2]podemos aplicarla siempre que N sea 25; con números más bajos (N 25) también suele recomendarse aplicar la corrección de Ya- tes, que consiste en restar una unidad al numerador antes de elevarlo al cua- drado (fórmula [3]). De todas maneras ya veremos que la eficacia de esta co- rrección es muy discutida (porque corrige en exceso). 8.1. Ji cuadrado Tenemos dos sencillas fórmulas que dan idéntico resultado. 1. Podemos aplicar en primer lugar la fórmula [1], que es la fórmula gene- ral del ji cuadrado. Lo primero que tenemos que hacer es calcular las fre- cuencias teóricas, que en este caso son 60/2 = 30: si no hubiera más diferen- cia entre las dos respuestas que la puramente casual, la frecuencia teórica más probable sería la que resulta de repartir por igual el número de sujetos entre las dos categorías. En las tablas vemos que con un grado de libertad (= k -1) los valores crí- ticos de c2 son estos: si c2 3.841 tenemos que p .05 6.635 p .01 10.827 p .001 En nuestro ejemplo p .01: no aceptamos la Hipótesis Nula y aceptamos que la diferencia entre 40 (a favor) y 20 (en contra) es superior a lo que se puede encontrar por azar en el caso de que no hubiera una diferencia mayor de lo casual entre las dos posturas representadas por estas respuestas (a favor o en contra o cualesquiera otras dos alternativas mutuamente excluyentes). 2. Sin entrar ahora en más explicaciones podemos ver que en estos casos (un grado de libertad) c2 = z2 ; el valor correspondiente de z para a = .05 re- cordamos que es 1.96 y 1.962 = 3.841, que es el valor correspondiente de c2 . En estos casos, un mismo grupo dividido en dos niveles de clasificación, tenemos sin embargo una fórmula más sencilla [2], en la que f1 y f2 son las dos frecuencias, 40 y 20: ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 321
  • 322.
    8.2. Aplicación dela distribución binomial Cuando tenemos un grupo dividido en dos categorías podemos aplicar di- rectamente la distribución binomial. Cuando un grupo (sujetos, respuestas, objetos) de tamaño N se divide en dos categorías que se excluyen mutuamen- te (como antes, a favor o en contra) podemos ver si la proporción de sujetos en cada categoría (p y q) se aparta significativamente de p = q = .50 (que se- ría la Hipótesis Nula: idéntico número de sujetos encada categoría). Vamos a verlo con muestras pequeñas (N 25) y muestras que ya van siendo mayores (N 25). 8.2.1. Cuando N 25 En estos casos no necesitamos hacer ningún cálculo (ni aplicar la fórmula [3]); nos basta consultar las tablas de la distribución binomial que nos dan la probabilidad exacta que tenemos de encontrar por azar cualquier división de N sujetos (N 25) en dos categorías. Estas tablas podemos encontralas en numerosos textos de estadística y también disponemos de cómodos progra- mas en Internet (Anexo II)5 . En estas tablas tenemos los valores de N y de X (número de sujetos en cualquiera de las dos categorías) y la probabilidad de encontrar X en N suje- tos o casos. Suponemos que en principio p = q, es decir que hay dos catego- rías con idéntica probabilidad (p = q = .50). 8.2.2. Cuando N 25 Cuando aumenta el número de casos o sujetos, la distribución binomial se va pareciendo a la distribución normal. En estos casos podemos hacer algo análogo al contraste de medias. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 322 5 Un programa muy cómodo es GRAPHPAD; basta introducir el número total de sujetos (objetos, etc.) y el número de los clasificados en una de las dos categorías. Con números pequeños es sin embargo preferible prescindir de esta co- rrección y acudir directamente a las tablas de la distribución binomial, que nos dan directamente la probabilidad un obtener una determinada diferencia entre dos frecuencias cuando N es muy bajo.
  • 323.
    Esta distribución normaly aleatoria (la que podemos esperar si entre las dos categorías no hay más diferencias que las casuales) tiene su media y su desviación típica: Media (los sujetos tienden a repartirse por igual en las dos categorías) ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 323 Desviación típica Pero como en este caso p = q = .50, tenemos que pq = .25, por lo tanto la desviación típica será igual a: Desviación típica Podemos utilizar cualquiera de estas expresiones para calcular la desvia- ción típica. Ahora podemos comparar nuestra media (cualquiera de las dos frecuen- cias; número de sujetos en cualquiera de las dos categorías) con la media más probable por azar y que es N/2: Donde X es cualquiera de las dos frecuencias; con las dos llegamos al mismo resultado aunque con distinto signo, como podemos comprobar: donde X = los 40 que están a favor donde X = los 20 que están en contra En nuestro ejemplo (40 a favor y 20 en contra, total N = 60) tendremos:
  • 324.
    En estos casos(un grupo dividido en dos categorías) c2 = z2 y z = ; Podemos verificarlo: z2 = 2.5822 = 6.67, que es el valor de c2 encontrado antes (y las probabilidades son las mismas, p.01) La fórmula [4] es la más clara porque expresa lo que estamos haciendo (una diferencia entre medias dividida por una desviación típica), pero pue- de simplificarse notablemente si utilizamos la fórmula [5] (f1 y f2 son las dos frecuencias): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 324 De todas estas fórmulas ¿Cuál es la preferible? La que resulte más cómoda; la única salvedad es que todas estas fórmulas son adecuadas cuando N no es muy bajo (preferiblemente no menos de N = 50). Ya hemos indicado que: a) Cuando N es igual o inferior a 20, podemos acudir directamente a las tablas de la distribución binomial (que nos da la probabilidad de obte- ner cualquier valor de X para cualquier valor de N hasta 20 o incluso más, según las tablas de que dispongamos). b) Cuando N está entre 20 y 50 podemos aplicar la fórmula [3], o la [5] (más cómoda que la [4]), pero restando una unidad al numerador (en valores absolutos), o podemos aplicar la fórmula [4] con la llamada co- rrección por continuidad, tal como aparece en la fórmula [6] Sumamos o restamos .5 de manera que el nu- merador sea menor en términos absolutos. 8.2.3. La prueba de los signos: aplicación de la distribución binomial para comprobar cambios Una aplicación popular y sencilla para verificar cambios es la conocida co- mo prueba de los signos que es útil introducir aquí. Lo veremos con un ejemplo. De un grupo de sujetos tenemos sus res- puestas a una simple pregunta, por ejemplo sobre la utilidad de la asignatu-
  • 325.
    Podemos aplicar ahoracualquiera de los procedimientos anteriores (ji cuadrado, distribución binomial) según el número de sujetos (número de cambios) que tengamos. Es obvio que estamos teniendo en cuenta solamente la dirección del cambio y no la magnitud del cambio; aprovechamos mejor la información disponible con otros métodos de análisis, como un contraste de medias. Aun así con medidas pobres, a veces improvisadas y que no nos inspiran mucha confianza, la prueba de los signos puede ser una buena alternativa. También cabría hacer una única pregunta al final, como un sondeo rápido de opinio- nes o impresiones de este estilo: ¿Ves ahora la asignatura más útil que al comienzo del curso? Con unas respuestas muy simples, más útil (cambio po- sitivo), menos útil (cambio negativo), igual de útil (sin cambio). El número de sujetos es N = 6, pero tenemos en cuenta solamente el número de cambios, por lo tanto N = 5 porque un sujeto (el nº 3) no ha cambiado. Podemos disponer los datos de esta manera (tabla 7, semejante a la tabla 4): Tabla 6 sujeto Respuesta Respuesta Signo de la antes después diferencia 1 3 4 + 2 1 3 + 3 2 2 0 4 4 2 - 5 4 5 + 6 2 4 + ra, con respuestas graduadas de este estilo: ninguna, alguna, bastante y mucha. Los sujetos responden al comienzo del curso (antes) y al finalizar el curso (después) (tabla 5). Cambios positivos Cambios negativos Total de cambios 4 1 5 Tabla 7 ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 325
  • 326.
    9. MÉTODOS APLICABLESCUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN DIVIDIDO EN MÁS DE DOS NIVELES (PRUEBAS DE BONDAD DE AJUSTE) A esta aplicación del ji cuadrado se le denomina también prueba de bon- dad de ajuste porque comprobamos si una distribución de frecuencias obser- vadas se ajusta a una distribución teórica. 9.1. Cuando las frecuencias esperadas son las mismas El planteamiento más frecuente lo veremos con un ejemplo: 600 perso- nas eligen entre tres marcas, A, B y C de un mismo producto, su marca pre- ferida (tabla 8): ¿Hay diferencias entre las marcas por encima de lo puramen- te aleatorio? ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 326 Tabla 8 A A C total 170 200 230 600 200 200 200 600 frecuencias observadas: frecuencias teóricas: Las frecuencias teóricas son las que habría si no hubiera diferencias entre las marcas; es la distribución teórica más probable en caso de no diferencia: número total de casos dividido por el número de categorías de clasificación, 600/3 = 200 (las tres marcas son igualmente preferidas). En este caso se aplica la fórmula general del ji cuadrado (fórmula [1]) que además se puede utilizar en todos los casos: Grados de libertad: número de categorías de clasificación menos una: 3-1 = 2 grados de libertad. En las tablas tenemos que con dos grados de libertad y c2 = 9; p .05 (su- peramos el valor de 5.99 que tenemos en las tablas). La probabilidad de que la distribución de las frecuencias observadas (170/200/230) sea casual, en el que caso de que las marcas fueran igualmente preferidas, es inferior al 5% (de hecho es inferior al 2%), por lo que concluimos que sí hay diferencias signifi- cativas entre las marcas. Cabría ahora parcializar los datos y comparar las mar- cas de dos en dos; (al menos podemos afirmar que la marca A es significati- vamente menos preferida que la marca C).
  • 327.
    Podríamos haber hechootra agrupación distinta, de manera que en cada intervalo tuviéramos el 20% de los casos, o podríamos tener intervalos con frecuencias esperadas distintas, como sucede cuando utilizamos los estani- nos o los pentas. Si en cada intervalo vamos a tener el 10% de las frecuencias teóricas y te- nemos N = 200, en cada intervalo tendríamos 20 sujetos en las frecuencias teóricas; a cada sujeto le calculamos su puntuación típica, y lo situamos en el intervalo que le corresponda: estas son nuestras frecuencias observadas, y aplicamos por último la fórmula [1]. Grados de libertad: En este caso debemos tener en cuenta para consultar las tablas que los grados de libertad son igual al número de intervalos menos tres (k-3), por- que partimos de tres restricciones iniciales: los valores de N, de la media y de la desviación típica. En esta comprobación lo que nos interesa comprobar es que el valor de c2 es inferior al de las tablas: en este caso no habría diferencia entre las frecuen- cias observadas y las del modelo teórico, y podemos concluir que nuestra dis- tribución se aproxima a la distribución normal. Un resultado estadísticamen- te significativo nos diría que la distribución no puede considerarse normal. 9.2. Cuando las frecuencias esperadas son las de la distribución normal Esta prueba de bondad de ajuste se utiliza también para comprobar si una distribución se ajusta a la distribución normal. En este caso las categorías de clasificación son intervalos y las frecuencias teóricas son las que corresponderían en la distribución normal. Aunque una distribución puede dividirse en intervalos de muchas mane- ras, lo más cómodo es dividir la distribución en intervalos que tengan un idéntico número de sujetos, para facilitar las operaciones. Si se divide en 10 intervalos, puede quedar como aparece en la tabla 9. Tabla 9 frecuencias teóricas: z: -1.28 -0.84 -0.52 -.025 0.00 +0.25 +0.52 +0.84 +1.28 10% 10% 10% 10% 10% 10% 10% 10% 10% 10% ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 327
  • 328.
    ¿Es práctico oimportante hacer esta comprobación de normalidad de una distribución? Por lo general no; nos puede bastar una inspección de los datos para ver si una distribución se aparta apreciablemente de la distribución normal, pero en muchos planteamientos de análisis podemos necesitar la ve- rificación de que las distribuciones en la población son normales. Cuando es- to es necesario o bien nos lo hacen ya los programas de ordenador, o hay mé- todos no paramétricos más sencillos (como el de Kolmogorov-Smirnov). Aun así es útil conocer estas pruebas de bondad de ajuste para entender lo que nos puede dar hecho un programa de ordenador. 10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIÓN CON DOS NIVELES CADA UNO Es éste uno de los planteamientos más frecuentes y útiles, como los ejem- plos puestos al comienzo para introducir el c2 . En general los cuadros de do- ble entrada (cruzar los datos) son muy útiles para detectar ya de manera in- tuitiva diferencias y relaciones. Podemos distinguir dos planteamientos: para muestras independientes (el más habitual) y para muestras relacionadas. En ambos casos la disposición de los datos es la misma. 10.1. Tablas 2x2 para muestras independientes 10.1.1. Modelos de tablas 2x2: cómo clasificar a los sujetos El uso más frecuente del ji cuadrado está seguramente en el análisis de este tipo de tablas (2x2; dos criterios de clasificación cada uno dividido en dos niveles), por esta razón exponemos diversos criterios que pueden emple- arse para clasificar a los sujetos en dos categorías. Proponemos cuatro modos de clasificar a los sujetos; realmente todos son equivalentes, pero el tener a la vista ejemplos distintos nos puede sugerir pre- guntas a las que podemos responder con estos análisis. a) Sujetos clasificados según dos grupos de pertenencia o dos características personales Los sujetos pueden pertenecer a dos grupos a la vez; el término grupo hay que entenderlo con amplitud, y viene a ser lo mismo que participar de una ca- racterística común. Por ejemplo, en una universidad podemos tener alumnos de primer curso que pertenecen a una facultad o carrera (un grupo de pertenencia) y a la vez pueden estar estudiando en su lugar habitual de residencia o pueden haber venido de otra localidad (tabla 10). ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 328
  • 329.
    La pregunta quenos hacemos es ésta: ¿Es una carrera más atractiva que la otra para los que viven fuera? En la carrera A hay más alumnos de fuera que en la carrera B; ¿Es esta diferencia superior a lo que podríamos encontrar por azar? Los porcentajes dentro de cada celda pueden estar referidos a los totales de las filas o a los totales de las columnas (o a ambos), lo que resulte más in- formativo en cada caso. b) Sujetos clasificados según 1º grupo de pertenencia y 2º respuestas a una pregunta El grupo de pertenencia puede ser también una característica personal, etc. y la pregunta puede expresar conocimientos, actitudes, etc.; realmente se trata del mismo caso anterior, pero una presentación matizada y con ejem- plos de estos criterios para clasificar a los sujetos sugiere más posibilidades de análisis con los datos que tenemos o que podemos fácilmente obtener. Por ejemplo podemos preguntar al terminar el curso a los alumnos del pri- mer curso de dos carreras si están de acuerdo con esta afirmación: la estadís- tica me va a ser muy útil en mi trabajo profesional (si en las dos carreras se cursa la misma asignatura) (tabla 11). Tabla 10 Tabla 11 ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 329
  • 330.
    Como antes, podemospreguntarnos por la diferencia entre las dos carre- ras en aprecio de una asignatura; o lo que es lo mismo, podemos preguntar- nos si hay relación entre estudiar una carrera y juzgar que una asignatura es útil. La pregunta anterior podemos proponerla con dos respuestas (de acuer- do o en desacuerdo) o con más respuestas (desde muy en desacuerdo has- ta muy de acuerdo); en este caso dicotomizamos (agrupamos en dos catego- rías) las respuestas. Cuando varias respuestas las reducimos a dos solamente, estamos prescindiendo de información que de hecho tenemos disponible, y en estos casos el ji cuadrado puede que no sea el método más apropiado pa- ra analizar los datos. De todas maneras el agrupar las respuestas en dos posi- bilidades para hacer un cuadro 2x2 es útil para simplificar la información. Cuando dicotomizamos las respuestas, una manera de hacerlo es utilizan- do la mediana (y en la zona del acuerdo y del desacuerdo quedará más o me- nos el mismo número de sujetos), o podemos agrupar las respuestas según su significado literal; en cualquier caso debemos exponer qué es lo que he- mos hecho. c) Prueba de la mediana Con este término, prueba de la mediana, se denomina otra manera de cla- sificar a los sujetos. que quedan clasificados en estos dos criterios: 1º según grupo de pertenencia y 2º según estén por encima o por la debajo de la me- diana común en un mismo test o escala. En el ejemplo anterior (tabla 11) veíamos la posibilidad de dicotomizar las respuestas a una sola pregunta. En este caso (tabla 12) no se trata ya de una pregunta sino de todo un test, escala, etc., que mide de manera más clara y fiable una determinada característica. Este análisis tiene incluso su propio nombre: prueba de la mediana. El proceso es el siguiente: 1º Todo los sujetos, pertenecientes a dos grupos, responden al mismo instrumento (test, escala). 2º Calculamos la mediana común a todos los sujetos (la puntuación que divide a todos lo sujetos, juntándolos en un solo grupo, en dos mitades iguales aproximadamente). En un ejemplo similar anterior (tabla 11) podríamos sustituir la pregun- ta sobre una asignatura por una escala de actitudes hacia la asignatura de estadística. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 330
  • 331.
    En términos simples,la pregunta que nos hacemos es la siguiente: Uno de los dos grupos ¿Coloca más sujetos que el otro por encima de la mediana común, en la mitad superior? Si en el caso anterior advertíamos que dicotomizar las respuestas a una pregunta supone perder información, en este caso la pérdida es mucho ma- yor. En vez de utilizar la puntuación individual de cada sujeto en el test o es- cala, sólo nos fijamos si está por encima o por debajo de la mediana común. En este caso el análisis en principio más idóneo no sería el ji cuadrado sino un contraste de medias entre las dos carreras. Sin embargo este análisis tam- bién puede ser oportuno, bien como complemento informativo a un con- traste de medias, o porque nos parece suficiente, o porque la medida utiliza- da es poco fiable y es más seguro dicotomizar las respuestas en dos grandes categorías. d) Un mismo grupo clasificado según sus respuestas a dos ítems o preguntas Seguimos con el mismo esquema; en los casos anteriores siempre tenía- mos dos grupos (o un grupo que lo consideramos como dos grupos en fun- ción de alguna característica que nos permite dividir a los sujetos en dos sub- grupos); lo que pretendíamos es en última instancia verificar diferencias entre grupos. Ahora tenemos un solo grupo y el énfasis lo ponemos en el análisis de la relación entre las preguntas. Por ejemplo (el ejemplo es real, tabla 13), los alumnos de una clase expre- san su grado de acuerdo con estas dos afirmaciones: la suerte influye mucho en los exámenes y me divierte estudiar. Si las respuestas son más de dos, las podemos agrupar en dos categorías (con la consiguiente pérdida de informa- ción pero no por eso deja de ser útil este análisis). Tabla 12 ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 331
  • 332.
    ¿Están relacionadas lasdos opiniones o actitudes o son independientes? Este planteamiento del ji cuadrado suele denominarse prueba de inde- pendencia. También podemos conceptualizar este planteamiento como el de una comprobación de diferencias entre dos grupos: el grupo que cree en la suer- te ¿se diferencia en actitud hacia el estudio del grupo de los que no creen en la suerte? Salta a la vista que si tenemos puntuaciones continuas el cálculo que en principio parece más oportuno es un coeficiente de correlación, pero esta disposición de los datos es también muy informativa. Si los datos son genuinamente dicotómicos (1 ó 0) también disponemos de un coeficiente de correlación (f) que veremos después y que podemos calcular directamente o como complemento al ji cuadrado. 10.1.2. Cómo analizar los datos En estos casos (cuadros 2x2, muestras independientes) podemos abordar el análisis al menos con dos enfoques que nos llevan a los mismos resultados: 1º Ji cuadrado (y prueba exacta de Fisher para muestras muy pequeñas) 2º Contraste de proporciones entre muestras independientes Del ji cuadrado podemos pasar al cálculo de coeficientes de correlación o de asociación (puestos en el apartado nº 12). Cuando el número total de sujetos es muy pequeño (N 20), podemos aplicar la prueba exacta de Fisher, que no requiere ningún cálculo, sino sim- plemente consultar las tablas apropiadas6 . ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 332 Tabla 13 6 La prueba exacta de Fisher la exponemos más adelante. Estos enfoques metodológi- cos (ji cuadrado y contraste de proporciones) suelen estar en los textos en apartados dis-
  • 333.
    La fórmula [7]es la habitual, y la que se utiliza siempre, al menos cuando N no es muy inferior a 40. b) Observación sobre la corrección de Yates y el número de sujetos La fórmula [8] incluye la llamada corrección de Yates (restar N/2 a la dife- rencia entre ad y bc en valores absolutos antes de elevarla al cuadrado)7 , y 1º Ji cuadrado a) Planteamiento y fórmulas Disponemos los datos como es usual (e incluyendo los porcentajes si es conveniente con fines informativos). Una observación importante: Convencionalmente las frecuencias de las cuatro casillas las simbolizamos con las cuatro letras a, b, c y d. Conviene po- nerlas siempre de la misma manera porque en las fórmulas asociadas a este planteamiento se supone que se han puesto en ese orden; en alguna fórmu- la que veremos esto es especialmente importante. Cuando los datos se codifican como 1 ó 0 (sí o no, bien o mal, etc.), y el cero significa mal, en desacuerdo, no, etc., es importante que el no, mal, etc. (lo que codificamos con un 0) estén puestos en la fila c y d (para una va- riable), y en la columna a y c (para la otra variable), tal como lo ponemos aquí. Los dos ceros confluyen en c; en ese ángulo se sitúan los valores meno- res cuando se trata de coordenadas. Naturalmente el 0 y el 1 no tienen senti- do como juicio de valor cuando sólo significan pertenecer a un grupo u otro (varón o mujer, un curso u otro, etc.). Aunque podemos aplicar la fórmula [1], disponemos de fórmulas más sen- cillas, como son las fórmulas [7] y [8]. tintos y posiblemente es lo más apropiado desde una perspectiva más teórica. Como alter- nativa y complemento, y con un enfoque quizás más pragmático, preferimos poner aquí juntos los distintos procedimientos cuando son válidos para analizar los mismos datos. 7 Frank Yates, británico, propuso esta corrección en 1934 (Yates, F (1934). “Contin- gency table involving small numbers and the ¯2 test”. Journal of the Royal Statistical So- ciety (Supplement) 1: 217-235). ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 333
  • 334.
    suele recomendarse cuandolos sujetos son pocos (N 40) o cuando alguna frecuencia teórica no llega a 5. Aunque esta corrección de Yates (y el requisito de que las frecuencias teóricas no sean inferiores a 5) viene rutinariamente en muchos textos (y en programas de ordenador), hace tiempo que se cuestiona su necesidad o conveniencia porque una serie de estudios muestran que con esta co- rrección la prueba del ji cuadrado se convierte en una prueba demasiado conservadora (no se rechaza la Hipótesis Nula cuando se podría rechazar legítimamente)8 . La recomendación tradicional es a) aplicar la corrección de Yates en ta- blas 2x2 cuando una frecuencia teórica es inferior a 5 y b) no utilizar el ji cua- drado en tablas mayores si el más del 20% de las frecuencias teóricas es infe- rior a 5. c) Orientaciones prácticas para tablas 2x2 Posiblemente la práctica más aconsejable en tablas 2x2 es: 1) Prescindir de esta corrección (fórmula [8]) y utilizar habitualmente la [7]. Cuando no aplicamos esta corrección en las situaciones en las que suele o solía ser recomendada, tenemos una prueba más liberal9 . 2) No utilizar el ji cuadrado con pocos sujetos (no muy inferior a N = 40 es una recomendación segura).10 3) Con muestras muy pequeñas (en torno a N = 20) utilizar la prueba exacta de Fisher (en el apartado siguiente) ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 334 8 A pesar de que esta fórmula [8] se sigue recomendando, ya se va viendo cuestiona- da en bastantes textos (como el de Daniel, 1981), suprimida y no recomendada en otros como innecesaria (como en el de Runyon y Haber, 1984; Rosenthal y Rosnow, 1991; Spatz, 1993; Hinkle, Wiersma y Jurs, 1998), y esta no recomendación es elogiada en recensiones publicadas en revistas de prestigio en este campo (Morse, 1995). Estos autores mencionan las investigaciones en las que se apoyan, y aquí los citamos a título de ejemplo (se pueden buscar más citas autorizadas) porque la supresión de esta corrección de Yates (que data de 1934) todavía supone ir en contra de una práctica muy generalizada. El consensus parece ser que esta corrección hace del ji cuadrado una prueba excesiva e innecesariamente con- servadora (Black, 1999:580). Otros autores (Heiman, 1996) siguen recomendando el que las frecuencias teóricas sean superiores a 5 (en tablas 2x2) pero omiten la corrección de Ya- tes. Un comentario más amplio y matizado sobre la corrección de Yates y otras alternativas puede verse en Ato García y López García (1996). 9 El programa de VassarStats (Internet, Anexo II) calcula el ji cuadrado con y sin la co- rrección de Yates. 10 No hay un acuerdo claro sobre el número mínimo de sujetos en el ji cuadrado; Ro- senthal y Rosnow (1991:514) mencionan N = 20 pero advierten que frecuencias teóricas muy bajas pueden funcionar bien en muestras todavía más pequeñas.
  • 335.
    d) Ejemplo resuelto Podríamosutilizar la fórmula [1], que se puede aplicar siempre, pero es mucho más cómoda la fórmula [7] que es la que generalmente se utiliza en estos casos. Tenemos 161 sujetos clasificados según el grupo al que pertenecen (A o B) y sus respuestas a una pregunta (sí o no). Disponemos los datos en un cua- dro de doble entrada (tabla 14). Tabla 14 La probabilidad de que estas frecuencias sean aleatorias son inferiores al 1/1000 (p .001), ya que nos pasamos del valor señalado en las tablas (10.827). Podemos concluir que las dos variables que han servido de criterio de cla- sificación (responder sí o no a una pregunta y pertenecer a uno u otro grupo) están relacionadas (o lo que es lo mismo, los grupos difieren significativamen- te en sus respuestas). e) Cálculo complementario: coeficiente de correlación Un valor grande de c2 nos da mucha seguridad para afirmar que existe asociación entre las dos variables, pero no nos dice si la relación es grande o pequeña. Para cuantificar el grado de relación tenemos que acudir a alguno de los coeficientes relacionados con el c2 puestos al final (apartado nº 12). Los grados de libertad son: (columnas menos una) por (filas menos una) = (2-1) (2-1) = 1 totales 90 (100%) 71 (100%). ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 335
  • 336.
    La relación entrepertenencia a un grupo u otro y responder sí o no a esa pregunta es moderada. Si hacemos que pertenecer al grupo A = 1, y pertene- cer al grupo B = 0, y decir que sí = 1 y decir que no = 0 y calculamos el co- eficiente r de Pearson, obtendremos el mismo resultado. Disponemos también de otros coeficientes de relación para tablas mayo- res (el coeficiente de contingencia C es el más popular aunque no el único); los exponemos y valoramos brevemente en el apartado nº 12. 2º Prueba exacta de Fisher En tablas 2x2 y con un N bajo (ciertamente 20) es preferible la prueba exacta de Fisher: basta consultar las tablas apropiadas, en las que vienen to- das las combinaciones posibles de a, b, c y d con N = 20 o menos (una tabla para cada valor posible de N). Las tablas nos indican qué combinaciones tie- nen una probabilidad de ocurrir por azar inferior al 5% o al 1%11 . Otra alterna- tiva cómoda (además de los programas informáticos más comunes) es utilizar alguno de los varios programas disponibles en Internet12 . 3º Contraste entre proporciones (muestras independientes) Como alternativa que da idénticos resultados, podemos utilizar el contras- te entre proporciones (o entre porcentajes si multiplicamos por 100) para muestras independientes (fórmula [9]). Obtendremos un valor de z, pero ya sabemos que en estos casos z2 = c2 El procedimiento ya está explicado en el contraste de medias pero es útil repetirlo en este contexto para ver su equivalencia con el c2 : dividimos una di- ferencia entre proporciones por el error típico de la diferencia entre dos proporciones, que está en el denominador de la fórmula [9]. En rigor lo que En el caso de tablas 2x2 y con variables dicotómicas (que se excluyen mu- tuamente) el coeficiente apropiado es el coeficiente ? (fi, fórmula [15] que re- petimos aquí), que es el mismo coeficiente r de Pearson cuando las dos varia- bles son dicotómicas (1 y 0): ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 336 11 Estas tablas se encuentran en algunos textos (como el de Siegel, 1972; Siegel y Cas- tellan, 1988 [tabla 35]; Langley, 1973; Leach, 1982) o en compendios de tablas estadísticas (como en Meredith, 1971 y en Ardanuy y Tejedor, 2001, tabla I). 12 Anexo II; en estos programas (como GRAPHPAD) ) basta introducir en el cuadro de diá- logo las cuatro frecuencias a, b, c y d.
  • 337.
    Ya sabemos quecon un grado de libertad c2 = z2 : 5.2892 = 27.97; llegamos a la misma conclusión que con la prueba del c2 . Los resultados son idénticos si utilizamos todos los decimales. 10.2. Tablas 2x2 para muestras relacionadas 10.2.1. Procedimientos a) Ji cuadrado (prueba de McNemar) Las fórmulas vistas hasta ahora, y referidas al ji cuadrado, son todas equi- valentes a la fórmula [1]. Las fórmulas para muestras relacionadas nos sir- ven para comparar dos proporciones (o porcentajes) cuando los mismos su- jetos pueden estar incluidos en los dos grupos (y en este sentido se trata de muestras relacionadas, como se puede apreciar con claridad en los ejem- plos específicos que ponemos después para ilustrar las aplicaciones de este procedimiento). tenemos en el numerador no es la diferencia entre dos proporciones, sino la diferencia entre una diferencia (la nuestra) y una diferencia de cero. En la fórmula [9] tenemos en el denominador el error típico de la diferen- cia entre dos proporciones. Utilizamos como ejemplo los mismos datos de la tabla anterior [14]. ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 337 Y aplicando la fórmula [9] a nuestros datos:
  • 338.
    Estas fórmulas correspondena la denominada prueba de McNemar (y así figura en muchos textos). En estos casos los grados de libertad son igual a 1. Recordamos la observación importante que ya hemos hecho sobre los símbolos utilizados: a y d son las celdillas donde se sitúan las frecuencias dis- crepantes a y d (sí/no y no/sí; 0/1/ y 1/0), por lo que esas fórmulas, expresadas con estos símbolos, sólo tienen sentido si los datos están bien dispuestos. b) Contraste entre proporciones relacionadas Podemos también hacer un contraste de proporciones para muestras re- lacionadas; como en estos casos (tablas 2x2, un grado de libertad) c2 = z2 , la fórmula queda simplificada así: Veremos la utilidad de estas fórmulas con dos ejemplos referidos a dos planteamientos útiles y frecuentes. 10.2.2. Aplicaciones específicas a) Para comprobar cambios Clasificamos a los sujetos según hayan respondido sí o no (o de acuerdo o en desacuerdo, 1 ó 0, etc.) en dos ocasiones distintas. Podemos suponer que hemos preguntado a nuestros alumnos si les inte- resa la asignatura en dos ocasiones, primero al comenzar el curso y más adelante al terminar el curso (tabla 15). La fórmula [10] se utiliza cuando (a + d) es igual o mayor de 10; La fórmula [11] se utiliza cuando (a + d) 10; se resta una unidad al numerador po- niendo el signo + a la diferencia; se trata de disminuir esta diferencia antes de elevarla al cuadrado. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 338 Tabla 15
  • 339.
    Si queremos sabersi una pregunta está relacionada con la otra (si el sa- ber una supone saber también la otra) utilizaremos la fórmula convencional; en este caso la [1] o la [7]. Pero si lo que queremos es comprobar si una pregunta es más difícil que la otra (como en este ejemplo), estamos en el mismo caso anterior (muestras relacionadas, lo mismo que para comprobar un cambio) La pregunta 1ª la ha respondido correctamente el 65% (39 alumnos), y la 2ª el 17% (10 alumnos). Como algunos alumnos han respondido bien las dos, tenemos muestras relacionadas. En ambos casos aplicamos la fórmula [10] porque a + d = 41 (10), y te- nemos que: Al comenzar el curso la asignatura interesa a 10 alumnos (17% del total); al terminar les interesa a 39 (65% del total). Nos interesa comprobar si este 65% es significativamente superior al 17% inicial. Se trata de muestras relacionadas porque hay sujetos que están en los dos grupos (como los 4 sujetos en (b), interesados tanto antes como después y los 15 en (c) a quienes no interesa la asignatura ni al comienzo ni al final). En todas estas tablas hay que prestar atención a la disposición de los datos de manera que en la celda (c) coincidan los dos ceros y en la celda (b) los dos unos. b) Para comprobar una diferencia entre proporciones relacionadas Se trata del mismo caso anterior pero nos formulamos la pregunta de otra manera. Repetimos los mismos datos, pero ahora se trata de dos preguntas de un examen, y respondidas por lo tanto en la misma ocasión (no antes y después) y que pueden estar bien o mal respondidas; queremos comparar su nivel de dificultad; ver si una es más difícil que la otra (tabla 16). Tabla 16 ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 339
  • 340.
    Con un gradode libertad tenemos que p .001; nuestra conclusión es que ha habido cambio en el primer ejemplo y que una pregunta es más difí- cil que la otra en el segundo ejemplo. En ambos casos la diferencia entre [a+b] y [b+d] es superior a lo que se puede esperar por azar. Si preferimos un contraste de proporciones para muestras relacionadas, podemos utilizar la fórmula [12] para obtener el valor de z: ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 340 10.2.3. Adaptación de la prueba de McNemar (muestras relacio- nadas) para tablas mayores (nxn) La fórmula de McNemar es apropiada para tablas 2x2, pero se puede adap- tar para tablas mayores, como en este ejemplo para comprobar un supuesto cambio. La pregunta que se ha hecho antes y después admite en este caso tres respuestas: sí, no sé y no (podrían ser otras categorías de respuesta o de observación, como bien, regular y mal si hay criterios claros para este tipo de clasificación). Como en tablas semejantes, los noes (el nivel más bajo) deben coincidir en la celda inferior izquierda y los síes (el nivel más alto) en la celda superior de- recha (tabla 17a). Lo que hemos hecho (tabla 17b) es agrupar los cambios ne- gativos (de sí a no y a no sé, y de no sé a no) y los cambios positivos (de no a no sé y sí y de no sé a sí), y ya tenemos los dos valores, a y d, de la fórmula [10]. (32 – 10)2 Ahora podemos aplicar la fórmula [10]: c2 = ––––––––– = 11.52, p .001; 32 + 10 Tabla 17a Tabla 17b ; el resultado es el mismo
  • 341.
    Podemos concluir quesí ha habido un cambio positivo superior a lo que cabría esperar por azar.13 11. DOS CRITERIOS DE CLASIFICACIÓN, CADA UNO DIVIDIDO EN DOS O MÁS NIVELES (TABLAS NXN) En este caso se aplica la fórmula general [1]. El procedimiento es el siguiente: 1º En cada casilla se calcula la frecuencia teórica (tal como se ve en el apartado nº 4) 2º En cada casilla se calcula el valor correspondiente de ji cuadrado, 3º Por último se suman todos estos valores de ji cuadrado de cada casi- lla en un valor único de ji cuadrado que es el que consultamos en las tablas. Lo veremos con un ejemplo14 . Se ha hecho una encuesta de opinión entre los accionistas de una determinada empresa, para ver si su posición frente a una posible fusión con otra empresa era independiente o no del número de acciones que cada uno de ellos tiene. Tenemos las respuestas de 200 accionis- tas clasificados según el número de acciones (tabla 18); debajo de cada fre- cuencia observada se pone el tanto por ciento con respecto al total de la fila (número de acciones), porque resulta más informativo (también cabría poner los tantos por ciento con respecto al total de la columna). Tabla 18 ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 341 13 Otra alternativa para tablas 3x3 y muestras relacionadas podemos verla en Hinkle, Wiersma y Jurs (1998). 14 Ejemplo tomado de W . Mendenhall y James E. Reinmouth (1978), Estadística para administración y economía, México, Grupo Editorial Iberoamericana.
  • 342.
    El cálculo delc2 está en la tabla 19. Las frecuencias teóricas o esperadas (ft) de cada casilla las calculamos tal como se indicó anteriormente: (marginal de la fia) (marginal de la columna) ft = ––––––––––––––––––––––––––––––––––––––– (número total de sujetos) (99) (58) así en (a) tendremos: ft = –––––––––– = 28.71 200 (fo - ft)2 (37 - 28.71)2 Y el c2 correspondiente a (a) será igual a = ––––––– = –––––––––– = 2.3937 ft 28.71 Comprobamos que la suma de las frecuencias observadas es igual a la su- ma de las frecuencias teóricas o esperadas; se trata de los mismos sujetos re- partidos con distintos criterios: los que observamos en cada casilla, y los que tendríamos si no hubiera relación entre los dos criterios de clasificación. Es- tas dos sumas no coinciden siempre exactamente, depende de cómo haya- mos redondeado los decimales, pero deben ser casi iguales. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 342 Tabla 19
  • 343.
    La relación esmás bien baja, aunque se puede afirmar con mucha seguri- dad que sí hay relación. Si queremos interpretar con más detalle la información disponible, pode- mos fijarnos en qué casillas hay una mayor discrepancia entre las frecuencias observadas y las teóricas; esto nos lo indican los mismos valores del ji cua- drado, que son mayores en unas casillas que en otras. Lo que está más claro es la discrepancia: En la casilla h (entre los que tienen más de 500 acciones hay más en contra de la fusión que los que podríamos esperar), En la casilla a (entre los que tienen menos de 100 acciones hay más a fa- vor de la fusión) En la casilla b (entre los que tienen menos de 100 acciones hay menos en contra de la fusión). En los cuadros 2x2 la interpretación suele ser más fácil e intuitiva, en cua- dros grandes no siempre es tan sencillo y hay que fijarse cómo se distribuyen las frecuencias. Hay métodos específicos para parcializar estos cuadros y ha- cer una interpretación más matizada15 . Los grados de libertad son (3-1)(3-1) = 4. Con cuatro grados de libertad rechazamos la Hipótesis Nula con una probabilidad de error inferior al 5% (p.05; el valor de las tablas es 9.488 y nosotros lo superamos; en realidad la probabilidad es p.02). Podemos afirmar con mucha seguridad que el número de acciones que uno tiene en la empresa está relacionado con la postura frente a la posible fu- sión de la empresa con otra. Coeficientes de asociación Para comprobar si la relación es grande o pequeña acudimos a alguno de los coeficientes de asociación relacionados con el ji cuadrado (en el apartado siguiente Coeficientes de relación asociados al c2 se comentan estos coeficientes). En este caso (tablas mayores de 2x2) el coeficiente más utilizado es el co- eficiente de contingencia (fórmula [13]): ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 343 15 Pueden verse en Linton, Gallo Jr. y Logan (1975).
  • 344.
    Con estos mismosdatos podríamos calcular también el coeficiente de co- rrelación r de Pearson. Para esto podríamos codificar los datos así: número de acciones: 1 (menos de 100), opinión: 3 (a favor), 2 (entre 100 y 500) 2 (sin opinión) 3 (más de 500) 1 (en contra). Posiblemente para calcular este coeficiente sería preferible tener a los su- jetos agrupados en más categorías según el número de acciones que tengan, o sencillamente no agruparlos. Cuando agrupamos a los sujetos (y elimina- mos diferencias individuales) los valores del coeficiente de correlación no son los mismos (suelen ser más bajos) que si no agrupamos a los sujetos. Lo que sucede es que a veces los únicos datos disponibles son los datos agrupados, como los de este ejemplo. 12. COEFICIENTES DE RELACIÓN ASOCIADOS AL c2 Un valor alto de c2 nos da seguridad para afirmar que hay asociación o re- lación entre dos variables (o una diferencia entre dos o más grupos), pero no nos dice si la relación es grande o pequeña (como tampoco nos dice si es im- portante). Con un N grande es relativamente fácil obtener valores altos (esta- dísticamente significativos) de c2 , sin que esto quiera decir que la relación entre las dos variables sea grande o importante. Para apreciar la magnitud de la asociación existen varios coeficientes de- rivados del c2 Estos coeficientes aportan una información análoga a la del ta- maño del efecto en el contraste de medias. Los más utilizados son: a) El coeficiente f (fi) cuando las dos variables son genuinamente dicotó- micas (no dicotomizadas); en estos casos es el preferible. b) El coeficiente de contingencia (C) con tablas nxn (más de dos nive- les al menos en uno de los dos criterios) pero hay otros que pueden ser más adecuados. Se pueden examinar las peculiaridades de cada uno de los coeficientes disponibles para utilizar el que creamos más conveniente. Para comparar coeficientes de relación asociados al c2 dentro de un mis- mo estudio se debe utilizar el mismo coeficiente, porque los valores de los distintos coeficientes no son estrictamente comparables entre sí. Exponemos a continuación algunos de los coeficientes más utilizados indi- cando sus particularidades para poder escoger el que en cada caso nos parez- ca más conveniente. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 344
  • 345.
    a) Coeficiente decontingencia Valor máximo de C cuando el número de filas (f) es igual al de columnas (c): Es válido para cuadros de cualquier tamaño; Es estadísticamente significativo en el mismo grado en que lo es el c2 ; El valor mínimo es 0, pero su valor máximo depende del tamaño de la ta- bla; por esta razón estos coeficientes sólo se pueden comparar entre sí cuan- do proceden de tablas del mismo tamaño; en el caso de un grado de libertad (tablas 2x2), su valor máximo es .707; en tablas 3x3 su valor máximo es .816 No es comparable con el coeficiente r de Pearson. Su valor es siempre positivo; el signo de la asociación se deduce de la ob- servación directa de los datos b) Coeficiente f Cuando se calcula a partir de los datos de una tabla de contingencia 2x2 su fórmula es: El coeficiente f es un caso particular del coeficiente r de Pearson (y pue- den emplearse las mismas fórmulas o una calculadora programada con el co- eficiente r); es estadísticamente significativo (no aleatorio) en el grado en que lo es el valor de c2 ; Se utiliza con datos dicotómicos (1 ó 0) en cuadros 2x2; no es válido para datos dicotomizados (cuando los datos originales son continuos); en este ca- so podemos utilizar el c2 pero no este coeficiente. ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 345
  • 346.
    Es de usofrecuente para calcular correlaciones entre ítems dicotómicos (tests, pruebas objetivas). Si se calcula a partir de c2 su signo será siempre positivo; el signo es real- mente positivo si bc ad (en b y c están los datos que indican relación posi- tiva; 1 en las dos variables ó 0 en las dos). Una limitación de este coeficiente es que su valor máximo no es 1 necesaria- mente; sólo cuando la proporción de unos es idéntica en las dos variables. c) Coeficiente f de Cramer ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 346 k es el número de filas o de columnas, el que sea menor de los dos. Este coeficiente varía de 0 a 1, independientemente del tamaño de la tabla, por lo que puede ser una alternativa preferible al coeficiente de contingencia (aunque se utiliza menos). Es estadísticamente significativo si lo es el valor de c2 correspondiente. d) Coeficiente T de Tschuprow f = número de filas y c = número de columnas; Este coeficiente puede alcanzar el valor máximo de 1 solamente cuando f = c (el número de filas es igual al número de columnas). Es estadísticamente significativo si lo es el valor de c2 correspondiente.
  • 347.
    13. VALORACIÓN DELJI CUADRADO 1º El ji cuadrado es un método muy utilizado y muy útil cuando los datos disponibles son realmente nominales (o categóricos): lo único que sa- bemos de los sujetos es en qué categoría podemos clasificarlos. 2º Frecuentemente sabemos algo más de los sujetos: no solamente, por ejemplo, si están por encima o por debajo de la media (o apto o no apto) sino una puntuación exacta. O los tenemos clasificados según respuestas que admiten un código en números (como nada, poco, mucho… que pueden equivaler a 1, 2 y 3). Muchas veces el uso del ji cuadrado supone una pérdida de información, y debemos preguntar- nos si en vez de o además del ji cuadrado no disponemos de otros métodos preferibles de análisis (como puede ser un coeficiente de co- rrelación) porque aprovechamos mejor la información que de hecho tenemos. 3º El ji cuadrado es muy sensible al número de sujetos (como sucede en todas las pruebas de significación estadística): con facilidad obtenemos unos valores no solamente estadísticamente significativos, sino de una magnitud muy grande. Esto no quiere decir que la diferencia o la rela- ción sea grande, puede ser muy pequeña. Como otros métodos de aná- lisis que nos remiten a una probabilidad, conviene calcular siempre al- gún coeficiente que nos cuantifique mejor la magnitud de la relación o de la diferencia. En tablas 2x2 y con datos genuinamente dicotómi- cos, el coeficiente f es el preferible. 4º El encontrar un valor significativo de ji cuadrado no quiere decir que haya una relación lineal entre las dos variables que han servido para clasificar a los sujetos (es decir que a más de una más de la otra, cuan- do tenga sentido hablar de más y menos). Para interpretar bien los re- sultados hay que observar las frecuencias, y ayuda convertirlas en por- centajes con respecto a los totales marginales, como hemos hecho en casi todos los ejemplos presentados. ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 347
  • 348.
    ANEXO I. TABLASDEL JI CUADRADO ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 348 Grados p = p = p = Grados p = p = p = Grados p = p = p = de 0.05 0.01 0.001 de 0.05 0.01 0.001 de 0.05 0.01 0.001 libertad libertad libertad 1 3.84 6.64 10.83 13 22.36 27.69 34.53 24 36.42 42.98 51.18 3 7.82 11.35 16.27 14 23.69 29.14 36.12 25 37.65 44.31 52.62 4 9.49 13.28 18.47 15 25.00 30.58 37.70 26 38.89 45.64 54.05 5 11.07 15.09 20.52 16 26.30 32.00 39.25 27 40.11 46.96 55.48 6 12.59 16.81 22.46 17 27.59 33.41 40.79 28 41.34 48.28 56.89 7 14.07 18.48 24.32 18 28.87 34.81 42.31 29 42.56 49.59 58.30 8 15.51 20.09 26.13 19 30.14 36.19 43.82 30 43.77 50.89 59.70 9 16.92 21.67 27.88 20 31.41 37.57 45.32 40 55.76 63.69 73.41 10 18.31 23.21 29.59 21 32.67 38.93 46.80 50 67.51 76.15 86.66 11 19.68 24.73 31.26 22 33.92 40.29 48.27 60 79.08 88.38 99.62 12 21.03 26.22 32.91 23 35.17 41.64 49.73 70 90.53 100.42 112.31 Tablas adaptadas y abreviadas de Alexei Sharov, Virginia Tech, Blacksburg, VA, Quantitative Po- pulation Ecology, On-Line Lectures [ http://www.ento.vt.edu/~sharov/PopEcol/] http://www.en- to.vt.edu/~sharov/PopEcol/tables/chisq.html Tablas más completas y las probabilidades exactas de cualquier valor de ji cua- drado pueden verse en varias direcciones de Internet: INSTITUTE OF PHONETIC SCIENCES (IFA) (Statistical tests h ht tt tp p: :/ // /f fo on ns sg g3 3. .l le et t. .u uv va a. .n nl l/ /S Se er r- - v vi ic ce e/ /S St ta at ti is st ti ic cs s. .h ht tm ml l), The Chi-square distribution h ht tt tp p: :/ // /f fo on ns sg g3 3. .l le et t. . u uv va a. .n nl l/ /S Se er rv vi ic ce e/ /S St ta at ti is st ti ic cs s/ /C Ch hi iS Sq qu ua ar re e_ _d di is st tr ri ib bu ut ti io on n. .h ht tm ml l (calcula la pro- babilidad introduciendo los valores de ji cuadrado y los grados de libertad). JONES, JAMES, Statistics: Lecture Notes http://www.richland.edu/james/lecture/m170/ http://www.richland.cc.il.us/james/lecture/m170/tbl-chi.html LOWRY, RICHARD, Vassar Stats http://faculty.vassar.edu/lowry/VassarStats.html (buscar en el menú: distributions) SHAROV , ALEXEI, On-line lectures Department of EntomologyVirginia Tech, Blacksburg, VA [http://www.ento.vt.edu/~sharov/PopEcol/ Statistical Tables] http://www.en- to.vt.edu/~sharov/PopEcol/tables/chisq.html (tablas de c2 hasta 100 grados de libertad, p = .05, .01 y .001). STOCKBURGER , DAVID W. Introduction to Statistics: Concepts, Models, and Aplications CRITICAL VALUES FOR THE CHI-SQUARE DISTRIBUTION http://www. psychstat.smsu.edu/introbook/chisq.htm WALKER, JOHN, RetroPsychoKinesis Project Home http://www.fourmilab.ch/rpkp/expe- riments/analysis/chiCalc.html [calcula la probabilidad (p) de c2 a partir de los valores de c2 y de los grados de libertad, y el valor de c2 a partir de p (probabili- dad) y grados de libertad].
  • 349.
    ANEXO II. JICUADRADO Y ANÁLISIS AFINES EN INTERNET ARSHAM, HOSSEIN Europe Mirror Site Collection, [Tablas hasta 6x6] http://home. ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm#rmenu (menú Chi- square Test for Relationship) COLLEGE OF SAINT BENEDICT, SAINT JOHN’S UNIVERSITY, Contingency Tables http://www. physics.csbsju.edu/stats/contingency.html LOWRY, RICHARD, Vassar Stats [Tablas 2x2, con y sin corrección de Yates, coeficiente phi], http://faculty.vassar.edu/lowry/VassarStats.html (menú: frequency data) LOWRY, RICHARD, Vassar Stats [Tablas hasta 5x5] http://faculty.vassar.edu/lowry/VassarS- tats.html (buscar en el menú: frequency data) PREACHER, KRISTOPHER J. (May, 2001) The Ohio State University, Calculation for the Chi- Square Test, An interactive calculation tool for chi-square tests of goodness of fit and independence (Tablas hasta 10x10, válido para una sola fila o columna) http://www.psych.ku.edu/preacher/chisq/chisq.htm (consultado 28, 03, 08) Prueba exacta de Fisher COLLEGE OF SAINT BENEDICT, SAINT JOHN’S UNIVERSITY, http://www.physics.csbsju. edu/stats/fisher.form.html LOWRY, RICHARD, Vassar Stats, Fisher’s Exact Probability Test http://faculty.vassar.edu/ lowry/fisher.html (Vassar Stats Web Site for Statistical Computation: http://fa- culty.vassar.edu/lowry/VassarStats.html) [Vassar College, Poughkeepsie, New York] ØYVIND LANGSRUD, Fisher’s Exact Test http://www.langsrud.com/fisher.htm , PREACHER, KRISTOPHER J. and BRIGGS, NANCY E., Calculation for Fisher’s Exact Test, http://www.psych.ku.edu/preacher/ (o directamente http://www.psych.ku.edu/ preacher/fisher/fisher.htm SISA, Simple Interactive Statistical Analysis FisherExact http://home.clara.net/sisa/fis- her.htm y Fisher 2 by 5 http://home.clara.net/sisa/fiveby2.htm McNemar, Binomial, prueba de los signos GRAPHPAD, Free Calculators for Scientists Sign and binomial test http://graphpad. com/quickcalcs/binomial1.cfm (índice de todos los análisis: http://graphpad. com/quickcalcs/index.cfm) GRAPHPAD, Free Calculators for Scientists [http://www.graphpad.com/quickcalcs/ index.cfm] McNemar’s test to analyze a matched case-control study http://www.graphpad.com/quickcalcs/McNemar1.cfm SISA, Simple Interactive Statistical Analysis Pairwise T-test | Wilcoxon | Signs test | Mc-Nemar http://home.clara.net/sisa/pairwhlp.htm ANÁLISIS DEVARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2 ) 349
  • 351.
    REFERENCIAS BIBLIOGRÁFICAS AMERICAN PSYCHOLOGICALASSOCIATION (2001), Publication manual of the American Psychological Association (5th Edit). Washington D.C.: Author. ANSCOMBE F. J. (1973), Graphs in Statistical Analysis. American Statistician, 27 (Feb 1973), 17-21. ARDANUY ALBAJA, R. y TEJEDOR TEJEDOR, F. J. (2001), Tablas estadísticas. Madrid: La Mura- lla. ATO GARCÍA, M. y LÓPEZ GARCÍA, J. J. (1996), Análisis estadístico para datos categóricos. Madrid: Síntesis. BEHRENS, JOHN T. (1997), Toward a Theory and Practice of Using Interactive Graphics in Statistics Education. In GARFIEL, J. B. and BURRILL G. (Eds.) Research on the Role of Technology in Teaching and Learning Statistics (pp. 111-121). Voorburg, The Netherlands: Internacional Statistical Institute http://www.stat.auckland. ac.nz/~iase/publications/8/10.Behrens.pdf (consultado 16, 04, 07). BERK, R. A. (1978), A consumers’ guide to criterion-referenced tests item statistics. NCME: Measurement in Education, 9. 1. BLACK, T. R. (1999), Doing Quantitative Research in the Social Sciences. London: Sage. BORG, W . R., GALL, J. O., GALL, M. D. (1993), Applying educational research: A prac- tical guide. (3rd ed.) New York: Longman. BURTON, R. F. (2004), Multiple Choice and true/false tests: reliability measures and so- me implications of negative marking. Assessment Evaluation in Higher Edu- cation. 29 (5), 585-595. CATTELL, R. B. (1964), Validity and Reliability: a Proposed More Basic Set of Concepts. Journal of Educational Psychology, 55, 1-22. CHARTER, R. A. (2001), It Is Time to Bury the Spearman-Brown “Prophecy” Formula for Some Common Applications. Educational and Psychological Measurement, 61 (4). 690-696. COE, R. (2000), Effect Size Resources http://www.cemcentre.org/RenderPage. asp?Lin- kID=30310000 (consultado 1, Enero, 2007). 351
  • 352.
    COHEN J. (1988),Statistical Power Analysis for the Behavioral Sciences, second edi- tion. Hillsdale, N.J.: Lawrence Erlbaum. COHEN, J. (1960), A Coefficient of Agreement for Nominal Scales, Educational and Psychological Measurement, 20, 1, 36-46. COHEN, J. (1977), Statistical Power Analysis for the Behavioral Sciences. New York: Academic Press, [2nd. edit., 1988, Hillsdale, N.J.: Erlbaum]. COHEN, P . A. (1981), Student Ratings of Instruction and Student Achievement: A Meta- analysis of Multisection Validity Studies. Review of Educational Research, 51, 281-309. CRONBACH, L. J. (1951), Coefficient Alpha and the Internal Structure of Tests. Psycho- metrika, 16, 297-334. CRONBACH, L. J. and SHAVELSON, R. J. (2004), My Current Thoughts on Coefficient Alpha and Succesor Procedures. Educational and Psychological Measurement, 64 (3), 391-418. DALLAL, G. E. (last revision 2001), The Little Handbook of Statistical Practice (en Frank Anscombe’s Regression Examples http://www.StatisticalPractice.com (consulta- do 16, 04, 07). DANIEL, W . W. (1981), Estadística con aplicaciones a las ciencias sociales y a la edu- cación. Bogotá: McGraw-Hill Latinoamericana. DOWNIE, N. M. y HEATH, R. W . (1971), Métodos estadísticos aplicados: México: Harper; (Madrid: Editorial del Castillo). DUHACHEK, A. and IACOBUCCI, D. (2004), Alpha’s Standard Error (ASE): An Accurate and Precise Confidence Interval Estimate. Journal of Applied Psychology, Vol. 89 Is- sue 5, p792-808. ETXCHEBERRIA, J. (1999), Regresión múltiple. Madrid: La Muralla. FAN, X. and THOMPSON, B. (2001), Confidence Intervals About Score Reliability Coeffi- cients, please: An EPM Guidelines Editorial. Educational and Psychological Me- asurement, 61 (4), 517-531. FELDT, L. S. (1975), Estimation of the Reliability of a Test Divided into Two Parts of Une- qual Length, Psychometrika, 40, 4, 557-561. FELDT, L. S. and KIM, S. (2006), Testing the Difference Between Two Alpha Coefficients With Small Samples of Subjects and Raters. Educational and Psychological Me- asurement, 66 (4), 589-600. FINK, A. (1998), Conducting Research Literature Reviews, From Paper to the Internet. Thousand Oaks London: Sage Publications. FOX, J. (1993), Regression diagnostics: An Introduction. En LEWIS-BECK, MICHAEL S. (Ed.). Regression Analysis. International Handbooks of Quantitative Applica- tions in the Social Sciences, Volume 2. London: SAGE Publications, 245-334. GARDNER, P . L. (1970), Test Length and the Standard Error of Measurement. Journal of Educational Measurement 7 (4), 271–273. GLASS, G. V ., MCGAW , B. and SMITH, M. L. (1981), Meta-Analysis in Social Research. Be- verly Hills, Cal.: Sage Publications. GLINER, J. A.; LEECH, N. L. and MORGAN, G. A. (2002), Problems With Null Hypothesis Significance Testing (NHST): What Do the Textbooks Say? The Journal of Expri- mental Education. 71 (1), 83-92. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 352
  • 353.
    GÓMEZ FERNÁNDEZ, D.(1981), El “ESP-E”, un nuevo cuestionario de personalidad a dis- posición de la población infantil española. Revista de Psicología General y Apli- cada, 36, 450-472. GUILFORD, J. P. (1954), Psychometric Methods, New York: McGraw-Hill; GUILFORD, J. P. and FRUCHTER, B. (1973), Fundamental Statistics in Psychology and Education. New York: McGraw-Hill (en español, Estadística aplicada a la psi- cología y la educación, 1984, México: McGraw-Hill). HANCOCK, G. R. and KLOCKARS, A. J. (1996), The Quest for?: Developments in Multiple Comparison Procedures in the Quarter Century Since Games (1971). Review of Educational Research, 66, (3). 269 - 306. HEDGES, L. V. and OLKIN, I. O. (1985), Statistical Methods for Meta-Analysis. Orlando, FL: Academic Press. HEIMAN, G. W . (1996), Basic Statistics for the Behavioral Sciences, 2nd edit. Boston: Houghton Mifflin. HERNÁNDEZ SAMPIERI, R. FERNÁNDEZ COLLADO, C. y BAPTISTA LUCIO, P . (2000), Metodología de la Investigación. Segunda Edición. México: McGraw-Hill. HINKLE, D. E.; WIERSMA, W . and JURS, S. G. (1998), Applied Statistics for the Behavioral Sciences, fourth edition. Boston: Houghton-Mifflin. HOLLEY, J.W . and LIENERT, G. A. (1974), The G Index of Agreement in Multiple Ratings, Educational and Psychological Measurement, 34, 817-822. HORST, P. (1953), Correcting the Kuder-Richardson Reliability for Dispersion of Item Difficulties, Psychological Bulletin, 50, 371-374. HOYT, C. J. (1941), Test Reliability Estimated by Analysis of Variance, Psychometrika, 3, 153-160. HOYT, C. J. (1952), Estimation of Test Reliability for Un-Restricted Item Scoring Me- thods, Educational and Psychological Measurement, 12, 752-758. HUBBARD, R. and RYAN, P . A. (2000), The Historical Growth of Statistical Significance Tes- ting in Psychology-and Its Future Prospects. Educational and Psychological Measurement, Vol. 60 (5), 661-681. HUBERTY, C. J. (2002), A History of Effect Size Indices. Educational and Psychological Measurement, Vol. 62 (2), 227-240. HUNTER, J. E. and SCHMIDT, F. L. (1990), Methods of Meta-Analysis. Newbury Park: Sage Publications. JOURARD, S. M. (1971), Self-Disclosure, An Experimental Analysis of the Transparent Self. New York: Wiley-Interscience. KERLINGER, F. N., Investigación del Comportamiento. México: Interamericana. KIRK, R. E. (1995), Experimental Design, Procedures for the Behavioral Sciences, third edit. Pacific Grove: Brooks/Cole. KIRK, R. E. (1996), Practical Significance: A Concept Whose Time Has Come. Educatio- nal and Psychological Measurement, 56 (5), 746-759. KRISTOF, W . (1974), Estimation of the Reliability and True Score Variance from a Split of a Test into Three Arbitrary Parts, Psychometrika, 39, 4, 491-499. LANE, D. (Rice University) (2007), HyperStat Online Statistics Textbook http://davidm- lane.com/hyperstat/index.html (consultado 25, 03, 08). LANE, D. History of Normal Distribution http://cnx.rice.edu/content/m11164/latest/ (Last edited by David Lane on Jun 1, 2007; consultado 25, 03, 08). REFERENCIAS BIBLIOGRÁFICAS 353
  • 354.
    LANGLEY, R. (1973),Practical Statistics for Non-Mathematical People. New York: Drake. LEACH, C. (1982), Fundamentos de estadística, enfoque no paramétrico para cien- cias sociales. México: Limusa. LIGHT, R. J., SINGER, J. D. and WILLETT, J. B. (1990), By Design, Planning Research on Higher Education. Cambridge, Mass.: Harvard University Press. LINTON, M., GALLO JR., PHILLIP S. and LOGAN, C. A. (1975), The Practical Statistician, Sim- plified Handbook of Statistics. Monterey: Brooks/Cole. MAGNUSSON, D. (1976), Teoría de los Tests, México: Trillas. MAHADEVAN, L. (2000), The Effect Size Statistic: Overview of Various Choices. Paper presented at the annual meeting of the Southwest Educational Research Asso- ciation, Dallas (January 27-29, 2000) (http://eric.ed.gov/ERICDocs/data/eric- docs2/content_storage_01/0000000b/80/10/b7/3a.pdf (consultado 1 de Enero 2007) (ERIC ED438308). MCMORRIS, R. F. (1972), Evidence of the Quality of Several Approximations for Com- monly Used Measurement Statistics, Journal of Educational Measurement, 9, 2, 113-122. MCNEMAR, Q. (1962), Psychological Statistics, 3rd edit., New York: John Wiley and Sons. MEHRENS, W . A. and LEHMANN, I. J. (1973), Measurement and Evaluation in Education and Psychology (3rd edition). New York: Holt, Rinehart and Winston. MEREDITH, W . M. (1971), Manual de tablas estadísticas. México: Trillas. MORALES VALLEJO, P . (1993), Líneas actuales de investigación en métodos cuantitativos, el meta-análisis o síntesis integradoras. Revista de Educación (Ministerio de Educación y Ciencia), Enero-Abril, 300, 191-221. MORALES VALLEJO, P . (2006), Medición de actitudes en Psicología y Educación. 3ª edi- ción. Madrid: Universidad Pontificia Comillas. MORALES VALLEJO, P. (2007a), Análisis de varianza para muestras relacionadas. www.upcomillas.es/personal/peter/Muestrasrelacionadas.pdf MORALES VALLEJO, P . (2007b), Tamaño necesario de la muestra: ¿Cuántos sujetos necesi- tamos? http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf MORALES VALLEJO, P . (2007c), El tamaño del efecto (effect size): análisis complementa- rios al contraste de medias http://www.upcomillas.es/personal/peter/investiga- cion/Tama%F1oDelEfecto.pdf MORALES VALLEJO, PEDRO (2008). Sobre las hipótesis direccionales y no direccionales. http://www.upco.es/personal/peter/investigacion/Hipotesis.pdf MORALES VALLEJO, P . UROSA SANZ, B. y BLANCO BLANCO, Á. (2003), Construcción de escalas de actitudes tipo Likert. Una guía práctica. Madrid: La Muralla. MORSE, D. T. (1995), Book Review of Spatz, Chris, (1993), Basic Statistics: Tales of Dis- tributions (5th Edit.). Pacific Grove, CA: Brooks/Cole. Educational and Psycho- logical Measurement, 55 (1), 140-146. MOSS, P . A. (1994), Can There Be Validity Without Reliability? Educational Researcher, 23, 2, 5-12. NUNNALLY, J. C. (1978), Psychometric Theory. New York: McGraw-Hill. NUNNALLY, J. C. and BERNSTEIN, I. H. (1994), Psychometric Theory, 3rd. Ed. New York: McGraw-Hill. ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 354
  • 355.
    OSBORNE, J. W.(2003), Effect sizes and the disattenuation of correlation and regression coefficients: lessons from educational psychology. Practical Assessment, Rese- arch Evaluation, 8(11) http://PAREonline.net/getvn.asp?v=8n=11. OSBORNE, J. W . and OVERBAY, A. (2004), The power of outliers (and why researchers should always check for them). Practical Assessment, Research Evaluation, 9(6). Retrieved August 26, 2007 from http://PAREonline.net/getvn.asp?v=9n=6 PERNEGER, T. V . (1998), What’s wrong with Bonferroni adjustments. British Medical Jour- nal 1998;316:1236-1238 (disponible en http://www.bmj.com/cgi/content/full/ 316/7139/1236, consultado 31, 03, 08). PFEIFFER, J. W .; HESLIN, R. AND JONES, J. E. (1976), Instrumentation in Human Relations Training. La Jolla, Ca.: University Associates. RANDOLPH, J. J. and EDMONDSON, R. S. (2005), Using the Binomial Effect Size Display (BESD) to Present Magnitude of Effect Sizes to the Evaluation Audience. Prac- tical Assessment, Research Evaluation, 10 (4), http://pareonline.net/pdf/ v10n14.pdf RODRÍGUEZ OSUNA, J. (1993), Métodos de muestreo. Casos prácticos. Cuadernos meto- dológicos. Madrid: Centro de Investigaciones Sociológicas (CIS). ROSENTHAL, R. (1987), Judgment Studies, Design, analysis and meta-analysis. Cam- bridge: Cambridge University Press. ROSENTHAL, R. (1991), Meta-Analysis Procedures for Social Research. Beverly Hills, CA: Sage Publications. ROSENTHAL, R. (1994), Parametric Measures of Effect Size. En COOPER, HARRIS and HED- GES, L. V. (Eds.), The Handbook of Research Synthesis. New York: Russell Sage Foundation, 231-244. ROSENTHAL, R. and ROSNOW , R. L. (1991), Essentials of Behavioral Research, Methods and Data Analysis. Boston: McGraw-Hill. ROSENTHAL, R. and RUBIN, D. B. (1979), A Note on Percent Variance Explained as A Me- asure of the Importance of Effects. Journal of Applied Social Psychology, 9 (5), 395-396. RUNYON, R. P . y HABER, A. (1984), Estadística para las Ciencias Sociales. México: Fon- do Educativo Interamericano. SALKIND, N. J. (1998), Métodos de Investigación, 3ª edición, México: Prentice-Hall. SAUPE, J. L. (1961), Some Useful Estimates of the Kuder-Richardson formula number 20 Reliability Coefficient, Educational and Psychological Measurement, 21, 1, 63-71. SCHMITT, N. (1996), Uses and abuses of Coefficient Alpha. Psychological Assessment, 8 (4), 350-353 (http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf). SHROUT, P . E. AND FLEISS, J. L. (1979), Intraclass Correlations: Uses in Assessing Rater Re- liability, Psychological Bulletin, 86, 420-428. SIEGEL, S. N. (1972), Estadística no paramétrica aplicada a las ciencias de la con- ducta. México: Trillas. (La primera edición en inglés es de 1956, New York: McGraw-Hill). SIEGEL, S. N. and CASTELLAN JR., N. JOHN (1988), Nonparametric Statistics For the Beha- vioral Sciences. Second edition. New York: McGraw-Hill. SPATZ, C. (1993), Basic Statistics: Tales of Distributions, 5th Edit. Pacific Grove, CA: Brooks/Cole. REFERENCIAS BIBLIOGRÁFICAS 355
  • 356.
    STATPAC, INC (2003),Questionnaires Survey Design http://www.statpac.com/ surveys/index.htm#toc STATSOFT, INC. (2002), Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html STEMLER, S. E. (2004), A comparison of consensus, consistency, and measurement ap- proaches to estimating interrater reliability. Practical Assessment, Research Evaluation, 9(4) http://pareonline.net/getvn.asp?v=9n=4 STREINER, D. L. (2003), Staring at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency. Journal of Personality Assessment, 80 (1), 99-103. THOMPSON, B. (1994), Guidelines for authors. Educational and Psychological Measu- rement, 54, 837-847. THOMPSON, B. (1996), AERA Editorial Policies Regarding Statistical Significance Testing: Three Suggested Reforms. Educational Researcher, Vol. 25 (2) 26-30. THORNDIKE, R. L. (1982), Applied Psychometrics, Boston: Houghton Mifflin. TRAUB, R. E. (1994), Reliability for the Social Sciences: Theory and Applications, New- bury Park, N. J.: Sage. TRAUB, R. E. and ROWLEY, G. L., (1991), Understanding Reliability, Educational Measu- rement: Issues and Practice, 10 (1) 37-45. UEBERSAX, J., , Statistical Methods for Rater Agreement http://ourworld.compuserve. com/homepages/jsuebersax/agree.htm (Last updated: 19 Feb 2008, consultado 30, 03, 08. VALENTINE, J. and COOPER, H. (2003), Effect Size Substantive Interpretation Guidelines: Issues in the Interpretation of Effect Sizes. Washington, D.C.: What Works Clea- ring House www.whatworks.ed.gov/reviewprocess/essig.pdf (consultado 24, Nov. 2006). WILKINSON, LELAND and TASK FORCE ON STATISTICAL INFERENCE APA BOARD OF SCIENTIFIC AF- FAIRS (1999), Statistical Methods in Psychology Journals: Guidelines and Explana- tions American Psychologist August 1999, Vol. 54, No. 8, 594–604 http://www.lo- yola.edu/library/ref/articles/Wilkinson.pdf (consultado 1, Enero, 2007) y en http://www.uic.edu/classes/psych/psych242/APAPublicationGuide.html WOLF, F. M. (1986), Meta-Analysis, Quantitative Methods for Research Synthesis. Be- verly Hills, CA: Sage Publications. Selección de direcciones de Internet con programas de análisis estadísticos En la mayoría de los capítulos incluimos algún anexo con direcciones de Internet referidas a los análisis específicos tratados en ese capítulo. En esta selección figuran en parte las mismas direcciones y también otras en las que se pueden encontrar otros muchos análisis de interés y enlaces a otras direcciones. Arsham, Hossein Europe Mirror Site Collection, http://home.ubalt.edu/ntsbarsh/ Business-stat/otherapplets/Normality.htm#rmenu Becker, Lee A. Effect size calculators. http://web.uccs.edu/lbecker/Psy590/ escalc3.htm Coe, Robert (2000) Effect Size Resources (Durham University, Cem Centre) http://www.cemcentre.org/RenderPage.asp?LinkID=30310000 ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES 356
  • 357.
    College of SaintBenedict, Saint John’s University http://www.physics.csbsju. edu/stats/ Creative Research Systems. The Survey System Sample Size Calculator http://www. surveysystem.com/sscalc.htm Custominsight.com. Survey Random Sample Calculator http://www.customin- sight.com/articles/random-sample-calculator.asp Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp Dimension Research, Inc. . Resources http://www.dimensionresearch.com/re- sources/resources_overview.html Glass, Gene V. (Arizona State University College of Education) (Delta COE502, Intro to Quant Methods, http://glass.ed.asu.edu/stats/index.html, Online statistical calculators that can perform many different analyses. GraphPad, Free Online Calculators for Scientists, http://graphpad.com/quick- calcs/index.cfm Preacher, Kristopher J. (May, 2001) The Ohio State University, Calculation for the Chi-Square Test, http://www.psych.ku.edu/preacher/chisq/chisq.htm Kristopher J. Preacher, University of Kansas, quantpsy.org, http://www.psych. ku.edu/preacher/ SISA, Simple Interactive Statistical Analysis http://home.clara.net/sisa/index. htm#TOP Soper, Daniel homepage; statistical calculators, http://www.danielsoper.com/de- fault. aspx Statistics Calculators, University of California, Los Angeles, Department of Statis- tics, http://calculators.stat.ucla.edu/ StatPages.net, Web Pages that Perform Statistical Calculations, http://statpages.org/in- dex.html (John C. Pezzullo’s Home Page http://statpages.org/JCPhome.html Inter- active Statistics Pages)) Surfstat.australia: an online text in introductory Statistics http://www.anu. edu.au/nceph/surfstat/surfstat-home/ Universität Ulm-Medizinische Fakultät, Sektion Informatik in der Psycho- therapie (Software und Werkzeuge) http://sip.medizin.uni-ulm.de/infor- matik/projekte/Odds/est.html VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar College Poughkeepsie, NY USA http://faculty.vassar.edu/lowry/VassarStats.html REFERENCIAS BIBLIOGRÁFICAS 357
  • 359.
    359 TABLAS DE LADISTRIBUCIÓN NORMAL Proporción de casos por debajo: percentil (multiplicando por 100) corres- pondiente a cada puntuación típica; Puntuación típica positiva: área mayor Puntuación típica negativa: área menor Área mayor Área menor Proporción de casos por debajo Proporción de casos por encima Proporción de casos por encima Proporción de casos por debajo Puntuación típica positiva Puntuación típica negativa z Área Área mayor menor 0.00 0.50 0.50 0.01 0.504 0.496 0.02 0.508 0.492 0.03 0.512 0.488 0.04 0.516 0.484 0.05 0.5199 0.4801 0.06 0.5239 0.4761 0.07 0.5279 0.4721 0.08 0.5319 0.4681 0.09 0.5359 0.4641 z Área Área mayor menor 0.10 0.5398 0.4602 0.11 0.5438 0.4562 0.12 0.5478 0.4522 0.13 0.5517 0.4483 0.14 0.5557 0.4443 0.15 0.5596 0.4404 0.16 0.5636 0.4364 0.17 0.5675 0.4325 0.18 0.5714 0.4286 0.19 0.5753 0.4247
  • 360.
    ESTADÍSTICA APLICADA ALAS CIENCIAS SOCIALES 360 z Área Área mayor menor 0.20 0.5793 0.4207 0.21 0.5832 0.4168 0.22 0.5871 0.4129 0.23 0.591 0.409 0.24 0.5948 0.4052 0.25 0.5987 0.4013 0.26 0.6026 0.3974 0.27 0.6064 0.3936 0.28 0.6103 0.3897 0.29 0.6141 0.3859 0.30 0.6179 0.3821 0.31 0.6217 0.3783 0.32 0.6255 0.3745 0.33 0.6293 0.3707 0.34 0.6331 0.3669 0.35 0.6368 0.3632 0.36 0.6406 0.3594 0.37 0.6443 0.3557 0.38 0.648 0.352 0.39 0.6517 0.3483 0.40 0.6554 0.3446 0.41 0.6591 0.3409 0.42 0.6628 0.3372 0.43 0.6664 0.3336 0.44 0.67 0.330 0.45 0.6736 0.3264 0.46 0.6772 0.3228 0.47 0.6808 0.3192 0.48 0.6844 0.3156 0.49 0.6879 0.3121 0.50 0.6915 0.3085 0.51 0.695 0.305 0.52 0.6985 0.3015 0.53 0.7019 0.2981 0.54 0.7054 0.2946 0.55 0.7088 0.2912 0.56 0.7123 0.2877 0.57 0.7157 0.2843 0.58 0.719 0.281 0.59 0.7224 0.2776 0.60 0.7257 0.2743 0.61 0.7291 0.2709 z Área Área mayor menor 0.62 0.7324 0.2676 0.63 0.7357 0.2643 0.64 0.7389 0.2611 0.65 0.7422 0.2578 0.66 0.7454 0.2546 0.67 0.7486 0.2514 0.68 0.7517 0.2483 0.69 0.7549 0.2451 0.70 0.758 0.242 0.71 0.7611 0.2389 0.72 0.7642 0.2358 0.73 0.7673 0.2327 0.74 0.7703 0.2297 0.75 0.7734 0.2266 0.76 0.7764 0.2236 0.77 0.7794 0.2206 0.78 0.7823 0.2177 0.79 0.7852 0.2148 0.80 0.7881 0.2119 0.81 0.791 0.209 0.82 0.7939 0.2061 0.83 0.7967 0.2033 0.84 0.7995 0.2005 0.85 0.8023 0.1977 0.86 0.8051 0.1949 0.87 0.8078 0.1922 0.88 0.8106 0.1894 0.89 0.8133 0.1867 0.90 0.8159 0.1841 0.91 0.8186 0.1814 0.92 0.8212 0.1788 0.93 0.8238 0.1762 0.94 0.8264 0.1736 0.95 0.8289 0.1711 0.96 0.8315 0.1685 0.97 0.834 0.166 0.98 0.8365 0.1635 0.99 0.8389 0.1611 1.00 0.8413 0.1587 1.01 0.8438 0.1562 1.02 0.8461 0.1539 1.03 0.8485 0.1515
  • 361.
    z Área Área mayormenor 1.04 0.8508 0.1492 1.05 0.8531 0.1469 1.06 0.8554 0.1446 1.07 0.8577 0.1423 1.08 0.8599 0.1401 1.09 0.8621 0.1379 1.10 0.8643 0.1357 1.11 0.8665 0.1335 1.12 0.8686 0.1314 1.13 0.8708 0.1292 1.14 0.8729 0.1271 1.15 0.8749 0.1251 1.16 0.877 0.123 1.17 0.879 0.121 1.18 0.881 0.119 1.19 0.883 0.117 1.20 0.8849 0.1151 1.21 0.8869 0.1131 1.22 0.8888 0.1112 1.23 0.8907 0.1093 1.24 0.8925 0.1075 1.25 0.8944 0.1056 1.26 0.8962 0.1038 1.27 0.898 0.102 1.28 0.8997 0.1003 1.29 0.9015 0.0985 1.30 0.9032 0.0968 1.31 0.9049 0.0951 1.32 0.9066 0.0934 1.33 0.9082 0.0918 1.34 0.9099 0.0901 1.35 0.9115 0.0885 1.36 0.9131 0.0869 1.37 0.9147 0.0853 1.38 0.9162 0.0838 1.39 0.9177 0.0823 1.40 0.9192 0.0808 1.41 0.9207 0.0793 1.42 0.9222 0.0778 1.43 0.9236 0.0764 1.44 0.9251 0.0749 1.45 0.9265 0.0735 z Área Área mayor menor 1.46 0.9279 0.0721 1.47 0.9292 0.0708 1.48 0.9306 0.0694 1.49 0.9319 0.0681 1.50 0.9332 0.0668 1.51 0.9345 0.0655 1.52 0.9357 0.0643 1.53 0.937 0.063 1.54 0.9382 0.0618 1.55 0.9394 0.0606 1.56 0.9406 0.0594 1.57 0.9418 0.0582 1.58 0.9429 0.0571 1.59 0.9441 0.0559 1.60 0.9452 0.0548 1.61 0.9463 0.0537 1.62 0.9474 0.0526 1.63 0.9484 0.0516 1.64 0.9495 0.0505 1.65 0.9505 0.0495 1.66 0.9515 0.0485 1.67 0.9525 0.0475 1.68 0.9535 0.0465 1.69 0.9545 0.0455 1.70 0.9554 0.0446 1.71 0.9564 0.0436 1.72 0.9573 0.0427 1.73 0.9582 0.0418 1.74 0.9591 0.0409 1.75 0.9599 0.0401 1.76 0.9608 0.0392 1.77 0.9616 0.0384 1.78 0.9625 0.0375 1.79 0.9633 0.0367 1.80 0.9641 0.0359 1.82 0.9656 0.0344 1.81 0.9649 0.0351 1.83 0.9664 0.0336 1.84 0.9671 0.0329 1.85 0.9678 0.0322 1.86 0.9686 0.0314 1.87 0.9693 0.0307 TABLAS DE LA DISTRIBUCIÓN NORMAL 361
  • 362.
    ESTADÍSTICA APLICADA ALAS CIENCIAS SOCIALES 362 z Área Área mayor menor 1.88 0.9699 0.0301 1.89 0.9706 0.0294 1.90 0.9713 0.0287 1.91 0.9719 0.0281 1.92 0.9726 0.0274 1.93 0.9732 0.0268 1.94 0.9738 0.0262 1.95 0.9744 0.0256 1.96 0.975 0.025 1.97 0.9756 0.0244 1.98 0.9761 0.0239 1.99 0.9767 0.0233 2.00 0.9772 0.0228 2.01 0.9778 0.0222 2.02 0.9783 0.0217 2.03 0.9788 0.0212 2.04 0.9793 0.0207 2.05 0.9798 0.0202 2.06 0.9803 0.0197 2.07 0.9808 0.0192 2.08 0.9812 0.0188 2.09 0.9817 0.0183 2.10 0.9821 0.0179 2.11 0.9826 0.0174 2.12 0.983 0.017 2.13 0.9834 0.0166 2.14 0.9838 0.0162 2.15 0.9842 0.0158 2.16 0.9846 0.0154 2.17 0.985 0.015 2.18 0.9854 0.0146 2.19 0.9857 0.0143 2.20 0.9861 0.0139 2.21 0.9864 0.0136 2.22 0.9868 0.0132 2.23 0.9871 0.0129 2.24 0.9875 0.0125 2.25 0.9878 0.0122 2.26 0.9881 0.0119 2.27 0.9884 0.0116 2.28 0.9887 0.0113 2.29 0.989 0.011 z Área Área mayor menor 2.30 0.9893 0.0107 2.31 0.9896 0.0104 2.32 0.9898 0.0102 2.33 0.9901 0.0099 2.34 0.9904 0.0096 2.35 0.9906 0.0094 2.36 0.9909 0.0091 2.37 0.9911 0.0089 2.38 0.9913 0.0087 2.39 0.9916 0.0084 2.40 0.9918 0.0082 2.41 0.992 0.008 2.42 0.9922 0.0078 2.43 0.9925 0.0075 2.44 0.9927 0.0073 2.45 0.9929 0.0071 2.46 0.9931 0.0069 2.47 0.9932 0.0068 2.48 0.9934 0.0066 2.49 0.9936 0.0064 2.50 0.9938 0.0062 2.51 0.994 0.006 2.52 0.9941 0.0059 2.53 0.9943 0.0057 2.54 0.9945 0.0055 2.55 0.9946 0.0054 2.56 0.9948 0.0052 2.57 0.9949 0.0051 2.58 0.9951 0.0049 2.59 0.9952 0.0048 2.60 0.9953 0.0047 2.61 0.9955 0.0045 2.62 0.9956 0.0044 2.63 0.9957 0.0043 2.64 0.9959 0.0041 2.65 0.996 0.004 2.66 0.9961 0.0039 2.67 0.9962 0.0038 2.68 0.9963 0.0037 2.69 0.9964 0.0036 2.70 0.9965 0.0035 2.71 0.9966 0.0034
  • 363.
    z Área Área mayormenor 2.72 0.9967 0.0033 2.73 0.9968 0.0032 2.74 0.9969 0.0031 2.75 0.997 0.003 2.76 0.9971 0.0029 2.77 0.9972 0.0028 2.78 0.9973 0.0027 2.79 0.9974 0.0026 2.80 0.9974 0.0026 2.81 0.9975 0.0025 2.82 0.9976 0.0024 2.83 0.9977 0.0023 2.84 0.9977 0.0023 2.85 0.9978 0.0022 2.86 0.9979 0.0021 2.87 0.9979 0.0021 2.88 0.998 0.002 2.89 0.9981 0.0019 2.90 0.9981 0.0019 2.91 0.9982 0.0018 2.92 0.9982 0.0018 2.93 0.9983 0.0017 2.94 0.9984 0.0016 2.95 0.9984 0.0016 2.96 0.9985 0.0015 2.97 0.9985 0.0015 2.98 0.9986 0.0014 2.99 0.9986 0.0014 3.00 0.9987 0.0013 3.01 0.9987 0.0013 3.02 0.9987 0.0013 3.03 0.9988 0.0012 3.04 0.9988 0.0012 3.05 0.9989 0.0011 3.06 0.9989 0.0011 3.07 0.9989 0.0011 3.08 0.999 0.001 3.09 0.999 0.001 3.10 0.999 0.001 3.11 0.9991 0.0009 3.12 0.9991 0.0009 3.13 0.9991 0.0009 z Área Área mayor menor 3.14 0.9992 0.0008 3.15 0.9992 0.0008 3.16 0.9992 0.0008 3.17 0.9992 0.0008 3.18 0.9993 0.0007 3.19 0.9993 0.0007 3.20 0.9993 0.0007 3.21 0.9993 0.0007 3.22 0.9994 0.0006 3.23 0.9994 0.0006 3.24 0.9994 0.0006 3.25 0.9994 0.0006 3.26 0.9994 0.0006 3.27 0.9995 0.0005 3.28 0.9995 0.0005 3.29 0.9995 0.0005 3.30 0.9995 0.0005 3.31 0.9995 0.0005 3.32 0.9995 0.0005 3.33 0.9996 0.0004 3.34 0.9996 0.0004 3.35 0.9996 0.0004 3.36 0.9996 0.0004 3.37 0.9996 0.0004 3.38 0.9996 0.0004 3.39 0.9997 0.0003 3.40 0.9997 0.0003 3.41 0.9997 0.0003 3.42 0.9997 0.0003 3.43 0.9997 0.0003 3.44 0.9997 0.0003 3.45 0.9997 0.0003 3.46 0.9997 0.0003 3.47 0.9997 0.0003 3.48 0.9997 0.0003 3.49 0.9998 0.0002 3.50 0.9998 0.0002 TABLAS DE LA DISTRIBUCIÓN NORMAL 363