3. C´lculo de Significancia Estad´
a ıstica SIMCE 1
1. Antecedentes Generales
Uno de los indicadores m´s consolidados en los reportes de resultados SIMCE es la comparaci´n de los punta-
a o
jes promedio de dos agrupaciones de estudiantes. Por ejemplo, un establecimiento puede comparar su puntaje
promedio con el puntaje promedio del grupo socioecon´mico en el cual se encuentra clasificado o con el puntaje
o
promedio de todos los estudiantes del pa´ Realizar estas comparaciones permite a los establecimientos deter-
ıs.
minar si sus estudiantes demuestran un desempe˜o superior, similar o inferior al de los estudiantes del grupo
n
de referencia.
Para determinar si la diferencia entre los puntajes promedio de dos agrupaciones de estudiantes es significativa,
y no producto de factores aleatorios, se utiliza el m´todo detallado en la primera parte de este documento.
e
Por otro lado, con la incorporaci´n de los resultados seg´n niveles de logro surgi´ la necesidad de contar con
o u o
un m´todo que permita comparar las distribuciones de estudiantes en dichos niveles. Para esto se busc´ una
e o
metodolog´ de comparaci´n de la distribuci´n de estudiantes de cada nivel que permitiese determinar si la
ıa o o
diferencia entre dos proporciones de estudiantes en un determinado nivel es significativa o no. Esta metodolog´
ıa
es presentada en la segunda parte del presente documento y debe ser utilizada para realizar comparaciones de
agregaciones de 1.000 o m´s estudiantes (como comunas, regiones y grupos socioecon´micos), por lo tanto no
a o
es adecuada para comparar proporciones de estudiantes en establecimientos.
Dado que SIMCE es una prueba de car´cter censal, en el documento se hace referencia a poblaciones y no a
a
muestras.
4. C´lculo de Significancia Estad´
a ıstica SIMCE 2
2. Comparaci´n de puntajes promedios
o
Una medida razonable de la discrepancia entre los datos y la hip´tesis nula H0 : (x − y = 0) es la diferencia
o
entre el promedio de una agrupaci´n de inter´s, x, y el promedio con el cual se desea comparar (agregaci´n
o e o
de referencia), y. Si x e y realmente provienen de la misma poblaci´n, la diferencia tender´ a ser peque˜a. Si
o ıa n
provienen de poblaciones diferentes, la diferencia ser´ m´s grande.
ıa a
Cuando no se puede asumir que las dos poblaciones en estudio tienen varianzas homog´neas entonces se utiliza
e
ıstico t-student 1 .
un m´todo en base al estad´
e
Una estimaci´n util es por intervalos, en donde se calculan los dos valores entre los que se encontrar´ el par´me-
o ´ a a
tro (en este caso la diferencia de promedios: (x − y)), con un nivel de confianza de 95 %2 .
Un intervalo de confianza correspondiente al 95 % para la diferencia de medias est´ dado por:
a
ˆ
ε2 ˆ
ε2
(x − y) ± t(n,0,95) 1
n1 + 2
n2
Donde:
x y y: promedio en cada una de las poblaciones de inter´s.
e
ε2 y ε2 : cuadrados de los errores est´ndar de medici´n en cada una de las poblaciones de inter´s.
1 2 a o e
n1 y n2 : tama˜os de las poblaciones a comparar.
n
n: grados de libertad del estad´
ıstico t-student, determinado a partir del tama˜o de las poblaciones de
n
inter´s.
e
t(n,0,95) : valor en la distribuci´n t-student con n grados de libertad y con una probabilidad acumulada de
o
0,95.
2.1. Errores de estimaci´n de puntuaciones
o
En una medici´n como SIMCE, en donde se pretende estimar un rasgo no observable, las estimaciones nunca
o
ser´n exactas conteniendo cierto error, a partir de ello, tienen limitaciones para determinar si, por ejemplo,
a
1 Se utiliza esta distribuci´n porque adem´s, permite una comparaci´n m´s robusta en poblaciones de pocos datos.
o a o a
2 Nivel de confianza es la ’probabilidad’ de que el intervalo calculado contenga al verdadero valor del par´metro. Se indica por
a
1 − α y habitualmente se reporta el porcentaje (1 − α)100 %. Se habla de nivel de confianza y no de probabilidad ya que una vez
obtenida la poblaci´n de inter´s, el intervalo de confianza contendr´ al verdadero valor del par´metro o no.
o e a a
5. C´lculo de Significancia Estad´
a ıstica SIMCE 3
existen diferencias entre dos puntajes promedio.
Considerando que la estimaci´n de las puntuaciones se realiza utilizando la teor´ de respuesta al ´
o ıa ıtem (IRT),
se obtiene, para cada estudiante evaluado, un puntaje estimado y su correspondiente error de estimaci´n. Este
o
ultimo permite estimar el intervalo en el cual se encuentra el verdadero valor de la habilidad del estudiante.
´
As´ para obtener una comparaci´n estad´
ı, o ıstica entre dos agrupaciones de inter´s, el error de medici´n debe ser
e o
tomado en cuenta. Estos errores son incluidos en el estad´
ıstico de la siguiente manera:
SE = 2 2 2 2
EPEst1 + EPEst2 + EPEst3 + . . . + EPEsti
Donde EPEsti corresponde al error de estimaci´n de puntaje para el estudiante i, que pertenece a la poblaci´n
o o
de inter´s (i =1,...,n).
e
2.2. Construcci´n del test
o
Para construir el test y realizar la d´cima es necesario computar ciertos indicadores:
o
1. El promedio simple de puntajes en cada una de las agrupaciones que se desea comparar3 .
2. El n´mero de estudiantes que hay en las respectivas agregaciones.
u
3. La desviaci´n est´ndar, dada de la siguiente forma:
o a
t(n−1,0,95)
DE = SE · n
Donde:
n: n´mero de estudiantes en las agrupaciones de inter´s.
u e
t(0,95,n−1) : valor de la distribuci´n con n − 1 grados de libertad y con una probabilidad acumulada de 0,95.
o
SE: indicador que da cuenta de la variabilidad en la agregaci´n.
o
A continuaci´n, para determinar la existencia de una diferencia estad´
o ısticamente significativa entre esas dos
agrupaciones, es necesario calcular los l´
ımites del intervalo de confianza, para posteriormente determinar si la
diferencia, entre los promedios de puntajes de las poblaciones de inter´s, es significativa con un nivel de confianza
e
de 95 %.
3 Este promedio simple es calculado a partir de las puntuaciones de todos los estudiantes que pertenecen a dicha agrupaci´n. Un
o
ejemplo ser´ comparar los puntajes promedio obtenidos por hombres y mujeres en la prueba de Lectura de 4◦ B´sico.
ıa a
6. C´lculo de Significancia Estad´
a ıstica SIMCE 4
As´ los l´
ı, ımites superior e inferior, para la diferencia entre los promedios de las dos agregaciones vienen repre-
sentados por las siguientes ecuaciones:
LS = [(DEpobl1 + E)2 + (DEpobl2 + E)2 ]
LI = −1 · [(DEpobl1 + E)2 + (DEpobl2 + E)2 ]
Donde:
DEpobli : desviaci´n est´ndar de la poblaci´n i (i =1,...,n).
o a o
E : error de poblaci´n4 .
o
LS : l´
ımite superior del intervalo de confianza.
LI : l´
ımite inferior del intervalo de confianza.
2.3. Criterio de decisi´n
o
Si la diferencia entre los promedios de ambas poblaciones es menor o igual al LS o es mayor o igual al LI, no
existe una diferencia estad´
ısticamente significativa. Si la diferencia entre los promedios es mayor al LS, esta
diferencia es estad´
ısticamente significativa a favor de la poblaci´n 1, del mismo modo si la diferencia de los
o
promedios es menor al LI esta diferencia tambi´n es estad´
e ısticamente significativa a favor de la poblaci´n 2.
o
Considerando un intervalo m´s conservador, se determin´ comparar las diferencias de los promedios de ambas
a o
poblaciones redondeados. Finalmente el criterio queda de la siguiente manera5 :
LI ≤ P oblaci´n1 − P oblaci´n2 ≤ LS ⇒ Diferencia no significativa.
o o
LS < P oblaci´n1 − P oblaci´n2 y 5 < P oblaci´n1 − P oblaci´n2 ⇒ Diferencia significativa, el promedio de
o o o o
la poblaci´n 1 es superior al promedio de la poblaci´n 2.
o o
P oblaci´n1 − P oblaci´n2 < LI y P oblaci´n1 − P oblaci´n2 < −5 ⇒ Diferencia significativa, el promedio
o o o o
de la poblaci´n 2 es superior al promedio de la poblaci´n 1.
o o
4 Se considera el error de haber tomado esa cohorte buscando minimizar el error de que los puntajes reflejen las caracter´
ısticas
particulares de los estudiantes evaluados. En el caso de comparaciones entre agrupaciones para una medici´n dentro del mismo a˜ o
o n
este error toma el valor de 0,5, en el caso de comparar promedios obtenidos en mediciones ocurridas en distintos a˜os este error
n
toma el valor de 3,5.
5 El criterio de los 5 puntos permite ser m´s conservadores en las conclusiones. El valor escogido viene dado por el error de medida
a
√
basado en la Teor´ Cl´sica del Test considerando la confiabilidad de las pruebas SIMCE igual a 0,99. EM = SD 1 − conf iabilidad.
ıa a
7. C´lculo de Significancia Estad´
a ıstica SIMCE 5
3. Comparaci´n de proporciones o porcentajes
o
La comparaci´n de proporciones es un problema cl´sico, la mayor´ de los textos introductorios de estad´
o a ıa ıstica
sugieren utilizar intervalos de confianza para la diferencias basado en intervalos de Wald. Considerando una
poblaci´n, con n estudiantes, de los cuales r han sido clasificados en un nivel de logro de inter´s6 , entonces la
o e
r
proporci´n de estudiantes en dicho nivel de logro es p =
o n. A partir de la ecuaci´n anterior se quiere calcular
o
un intervalo de confianza (IC) para tal proporci´n en la poblaci´n. Un IC para p se calcula com´nmente como:
o o u
p ± zα
ˆ 2
( p(1−p) )
ˆ
n
ˆ
Por lo que la diferencia entre dos proporciones p1 y p2 , D = p1 − p2 tiene como intervalo de confianza a
p1 (1−p1 ) p2 (1−p2 )
D ± zα
2 n1 + n2 .
Donde:
α
z α : punto de la distribuci´n normal en que se acumula el 1 −
2
o 2 de probabilidad.
n1 y n2 : tama˜os de las poblaciones 1 y 2 que se comparan.
n
Por otro lado, hay extensa literatura (Vollset (1993), Santner (1998), Agresti & Coull (1998), Newcombe (1998),
Brown, Cai & DasGupta (2001)) que indican que dicho procedimiento es discutible en particular para tama˜os
n
inferiores a 50 y cuando la proporci´n (o porcentaje) de inter´s p es cercano a 0 o 1 (0 % o 100 %).
o e
En la misma literatura se sugiere utilizar los intervalos basados en la metodolog´ llamada Wilson Score Inter-
ıa
val (Brown, Cai & DasGupta (2001), Newcombe & Merino (2006)) donde el intervalo de confianza para una
proporci´n p viene dado por:
o
√
np+ 2 ·z 2
1
α n·z 2
α z2
α
IC : n+z 2
α
2
± n+z 2
α
2
[p(1 − p) + 2
4n ]
2 2
Esta metodolog´ solo es v´lida cuando se cumple la condici´n7 : M in{np, n(1 − p)} ≥ 10.
ıa a o
3.1. Supuestos
Los m´todos estad´
e ısticos disponibles para la comparaci´n de proporciones se basan en dos supuestos claves:
o
1. La existencia de una proporci´n verdadera y desconocida8 de estudiantes que pertenecen a cada nivel de
o
logro de cada establecimiento en cada a˜o, definido por su resultado en una prueba de logro. Este supuesto
n
6 De los tres posibles: Avanzado, Intermedio e Inicial.
7 Algunos autores relajan la condici´n a que el m´
o ınimo sea mayor a 5.
8 Cuyo valor no es, necesariamente, constante en el tiempo.
8. C´lculo de Significancia Estad´
a ıstica SIMCE 6
permite utilizar una proporci´n observada, suponiendo que la prueba SIMCE es el mejor estimador de dicha
o
proporci´n te´rica.
o o
2. Que los estudiantes se clasifican en los niveles de manera independiente9 y, que el n´mero de estudiantes es
u
lo suficientemente grande como para aplicar teor´ asint´tica que permite la determinaci´n probabil´
ıa o o ıstica
de la confianza de la comparaci´n10 .
o
Como los niveles de logro est´n construidos usando las pruebas SIMCE y estas a su vez est´n construidas y
a a
analizadas de modo que sus resultados son comparables a˜o a a˜o, el primer supuesto es satisfecho.
n n
En el caso del segundo supuesto, la situaci´n no es tan sencilla. Por un lado, del an´lisis de las pruebas SIMCE,
o a
TIMSS y PISA surge evidencia para refutar el supuesto de independencia. Se ha estimado la correlaci´n de
o
los resultados de los estudiantes en aula, tanto para lectura como para matem´tica, y se ha determinado
a
que estas correlaciones son significativamente distintas de cero11 . Por otro lado, el n´mero de estudiantes por
u
establecimiento que rinde las pruebas SIMCE es muy peque˜o para aplicar teor´ asint´tica en un gran n´mero
n ıa o u
de establecimientos12 . Para el caso particular de la comparaci´n de proporciones, la aplicaci´n de Teorema
o o
Central del L´
ımite exige que se satisfaga una condici´n que involucra la proporci´n estimada y el n´mero
o o u
de individuos usados para estimar la proporci´n. En este caso dado que el supuesto de independencia no es
o
satisfecho, se utiliza la versi´n m´s conservadora de la condici´n. Esta es13 :
o a o
M in{nˆ, n(1 − p)} ≥ 10
p ˆ
Considerando lo anterior se entregan comparaciones de proporciones o porcentajes de estudiantes en niveles de
logro solo para poblaciones estad´
ısticamente grandes (1.000 o m´s estudiantes). Es decir, las comparaciones de
a
proporciones o porcentajes son robustas si la base para la cual se calculan es lo suficientemente grande.
3.2. Construcci´n del test
o
Considerando las restricciones de la metodolog´ indicada, se exponen a continuaci´n las ecuaciones utilizadas
ıa o
en la comparaci´n de proporciones o porcentajes de estudiantes por nivel de logro, metodolog´ denominada
o ıa
9 El n´mero de estudiantes que se clasifica en un nivel de logro sigue una distribuci´n binomial porque cada estudiante se clasifica
u o
en un nivel siguiendo una distribuci´n Bernoulli.
o
10 Aproximaci´n de la distribuci´n binomial a la distribuci´n normal usando el Teorema Central del L´
o o o ımite.
11 Una condici´n necesaria para independencia es que las correlaciones sean cero.
o
12 No hay reglas estrictas para la aplicaci´n del Teorema Central del L´
o ımite, sin embargo hay consenso en la literatura estad´
ıstica
en que para tama˜ os superiores a 50 este funciona muy bien, entre tama˜ os de 20 a 50 funciona bastante bien, tama˜os menores
n n n
que 10 no siempre funciona y no debe aplicarse para tama˜ os menores a 5.
n
13 el efecto neto de la no-independencia entre observaciones es que se pierden grados de libertad.
9. C´lculo de Significancia Estad´
a ıstica SIMCE 7
Wilson Score Interval (1927).
Primeramente, se han de calcular tres cantidades:
A = 2 · r + z2
α
2
r
B=z · α
2
z2 α + 4 · r(1 − n )
2
C = 2 · (n + z 2 )
α
2
En donde:
z α : valor en la distribuci´n normal donde se acumula el 97,5 % de la distribuci´n (α = 5 %), su valor es
2
o o
1,96.
r : n´mero de estudiantes en el nivel de logro.
u
n: n´mero de estudiantes en la poblaci´n.
u o
Los componentes de las ecuaciones anteriores dan como resultado la estimaci´n de un intervalo de confianza al
o
95 % para una proporci´n. Esta representaci´n es equivalente a la presentada en el inicio del punto 3 pero tiene
o o
un manejo operacional m´s simple. Luego, el intervalo de confianza est´ dado por:
a a
(A±B)
IC: C
Utilizando el intervalo de confianza presentado en el punto anterior, se deben calcular l1 y u1 : l´
ımites inferior y
superior que definen el intervalo de confianza al 95 % para la poblaci´n de estudiantes 1 (poblaci´n de inter´s), y
o o e
l2 y u2 son los l´
ımites inferior y superior, de la poblaci´n de estudiantes 2, con la cual es comparada (poblaci´n
o o
de referencia)14 . Ambos calculados partir de la metodolog´ de Wilson antes presentada.
ıa
Los l´
ımites del intervalo de confianza de la diferencia de proporciones de estudiantes en alg´n nivel de logro
u
est´ dado por (Newcombe, 1998b):
a
LI : D − (p1 − l1 )2 + (u2 − p2 )2
LS : D + (p1 − l1 )2 + (u2 − p2 )2
Donde D es la diferencia de proporciones: D = (p1 − p2 ).
14 Una comparaci´n ser´ por ejemplo, determinar si la proporci´n de estudiantes en el nivel de logro inicial de alg´ n grupo
o ıa o u
socioecon´mico es significativamente menor respecto al mismo nivel de logro en otro grupo socioecon´mico.
o o
10. C´lculo de Significancia Estad´
a ıstica SIMCE 8
Cabe destacar que las comparaciones presentadas en este documento son bloque a bloque: proporci´n de es-
o
tudiantes en un nivel de logro versus otra poblaci´n de estudiantes en el mismo nivel de logro. Otro tipo de
o
comparaci´n, no abordada en este documento, podr´ ser estimar la diferencia de proporciones basadas en las
o ıa
distribuciones subyacentes de cada poblaci´n.
o
3.3. Criterios de decisi´n
o
Si la diferencia entre las proporciones de ambas poblaciones es menor o igual al LS y mayor o igual al LI, no
existe una diferencia estad´
ısticamente significativa. Si la diferencia entre las proporciones es superior al LS, esta
diferencia es estad´
ısticamente significativa a favor de la poblaci´n 1. Del mismo modo, si la diferencia de las
o
proporciones es inferior al LI, esta diferencia es estad´
ısticamente significativa a favor de la poblaci´n 2. Otra
o
forma de comprobar la significancia es verificando si el cero (0) est´ contenido entre los l´
a ımites definidos del
intervalo de confianza y, de modo an´logo que para promedios, se determina un valor m´
a ınimo, en este caso de
3 puntos porcentuales de diferencia, para construir intervalos m´s conservadores15 As´ la regla de decisi´n es
a ı, o
la siguiente:
1. Si el intervalo de confianza contiene el valor cero, es decir LI ≤ 0 ≤ LS, la diferencia no es estad´
ısticamente
significativa.
ımite superior es menor al valor cero, es decir LS < 0 y adem´s |D| ≥ 3 %, entonces la proporci´n
2. Si el l´ a o
en la poblaci´n 2 es significativamente mayor a la proporci´n de estudiantes en la poblaci´n 1.
o o o
ımite inferior es mayor al valor cero, es decir LI > 0 y adem´s |D| ≥ 3 %, entonces la proporci´n en
3. Si el l´ a o
la poblaci´n 1 es significativamente mayor a la proporci´n de estudiantes en la poblaci´n 2.
o o o
15 El valor de 3 % recoge el error de clasificaci´n de estudiantes basado en la metodolog´ utilizada para ello.
o ıa