Calculo de significancia_estadistica

CALCULO DE SIGNIFICANCIA ESTAD´
´ ISTICA PARA RESULTADOS
SIMCE

SIMCE
Unidad de Curr´
ıculum y Evaluaci´n
o
Ministerio de Educaci´n
o
2011

´
Indice

1. Antecedentes Generales 1

2. Comparaciń de puntajes promedios
o 2
2.1. Errores de estimaciń de puntuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o 2
2.2. Construcciń del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o 3
2.3. Criterio de decisiń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o 4

3. Comparaciń de proporciones o porcentajes
o 5
3.1. Supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2. Construcciń del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o 6
3.3. Criterios de decisiń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o 8

C´lculo de Significancia Estad´
a ıstica SIMCE 1

1. Antecedentes Generales

Uno de los indicadores m´s consolidados en los reportes de resultados SIMCE es la comparaciń de los punta-
a o
jes promedio de dos agrupaciones de estudiantes. Por ejemplo, un establecimiento puede comparar su puntaje
promedio con el puntaje promedio del grupo socioecon´mico en el cual se encuentra clasificado o con el puntaje
o
promedio de todos los estudiantes del pa´ Realizar estas comparaciones permite a los establecimientos deter-
ıs.
minar si sus estudiantes demuestran un desempeõ superior, similar o inferior al de los estudiantes del grupo
n
de referencia.

Para determinar si la diferencia entre los puntajes promedio de dos agrupaciones de estudiantes es significativa,
y no producto de factores aleatorios, se utiliza el m´todo detallado en la primera parte de este documento.
e

Por otro lado, con la incorporaciń de los resultados segń niveles de logro surgi´ la necesidad de contar con
o u o
un m´todo que permita comparar las distribuciones de estudiantes en dichos niveles. Para esto se busc´ una
e o
metodolog´ de comparaciń de la distribuciń de estudiantes de cada nivel que permitiese determinar si la
ıa o o
diferencia entre dos proporciones de estudiantes en un determinado nivel es significativa o no. Esta metodolog´
ıa
es presentada en la segunda parte del presente documento y debe ser utilizada para realizar comparaciones de
agregaciones de 1.000 o m´s estudiantes (como comunas, regiones y grupos socioecon´micos), por lo tanto no
a o
es adecuada para comparar proporciones de estudiantes en establecimientos.

Dado que SIMCE es una prueba de carćter censal, en el documento se hace referencia a poblaciones y no a
a
muestras.

a ıstica SIMCE 2

2. Comparaciń de puntajes promedios
o

Una medida razonable de la discrepancia entre los datos y la hip´tesis nula H0 : (x − y = 0) es la diferencia
o
entre el promedio de una agrupaciń de inter´s, x, y el promedio con el cual se desea comparar (agregaciń
o e o
de referencia), y. Si x e y realmente provienen de la misma poblaciń, la diferencia tender´ a ser pequeã. Si
o ıa n
provienen de poblaciones diferentes, la diferencia ser´ m´s grande.
ıa a

Cuando no se puede asumir que las dos poblaciones en estudio tienen varianzas homogńeas entonces se utiliza
e
ıstico t-student 1 .
un m´todo en base al estad´
e

Una estimaciń util es por intervalos, en donde se calculan los dos valores entre los que se encontrar´ el par´me-
o ´ a a
tro (en este caso la diferencia de promedios: (x − y)), con un nivel de confianza de 95 %2 .

Un intervalo de confianza correspondiente al 95 % para la diferencia de medias est´ dado por:
a
ˆ
ε2 ˆ
ε2
(x − y) ± t(n,0,95) 1
n1 + 2
n2

Donde:

x y y: promedio en cada una de las poblaciones de inter´s.
e

ε2 y ε2 : cuadrados de los errores estńdar de mediciń en cada una de las poblaciones de inter´s.
1 2 a o e

n1 y n2 : tamaõs de las poblaciones a comparar.
n

n: grados de libertad del estad´
ıstico t-student, determinado a partir del tamaõ de las poblaciones de
n
inter´s.
e

t(n,0,95) : valor en la distribuciń t-student con n grados de libertad y con una probabilidad acumulada de
o
0,95.

2.1. Errores de estimaciń de puntuaciones
o

En una mediciń como SIMCE, en donde se pretende estimar un rasgo no observable, las estimaciones nunca
o
serń exactas conteniendo cierto error, a partir de ello, tienen limitaciones para determinar si, por ejemplo,
a
1 Se utiliza esta distribuciń porque adem´s, permite una comparaciń m´s robusta en poblaciones de pocos datos.
o a o a
2 Nivel de confianza es la ’probabilidad’ de que el intervalo calculado contenga al verdadero valor del par´metro. Se indica por
a
1 − α y habitualmente se reporta el porcentaje (1 − α)100 %. Se habla de nivel de confianza y no de probabilidad ya que una vez
obtenida la poblaciń de inter´s, el intervalo de confianza contendr´ al verdadero valor del par´metro o no.
o e a a

a ıstica SIMCE 3

existen diferencias entre dos puntajes promedio.

Considerando que la estimaciń de las puntuaciones se realiza utilizando la teor´ de respuesta al ´
o ıa ıtem (IRT),
se obtiene, para cada estudiante evaluado, un puntaje estimado y su correspondiente error de estimaciń. Este
o
ultimo permite estimar el intervalo en el cual se encuentra el verdadero valor de la habilidad del estudiante.
´
As´ para obtener una comparaciń estad´
ı, o ıstica entre dos agrupaciones de inter´s, el error de mediciń debe ser
e o
tomado en cuenta. Estos errores son incluidos en el estad´
ıstico de la siguiente manera:

SE = 2 2 2 2
EPEst1 + EPEst2 + EPEst3 + . . . + EPEsti

Donde EPEsti corresponde al error de estimaciń de puntaje para el estudiante i, que pertenece a la poblaciń
o o
de inter´s (i =1,...,n).
e

2.2. Construcciń del test
o

Para construir el test y realizar la dćima es necesario computar ciertos indicadores:
o

1. El promedio simple de puntajes en cada una de las agrupaciones que se desea comparar3 .

2. El n´mero de estudiantes que hay en las respectivas agregaciones.
u

3. La desviaciń estńdar, dada de la siguiente forma:
o a

t(n−1,0,95)
DE = SE · n

Donde:

n: n´mero de estudiantes en las agrupaciones de inter´s.
u e

t(0,95,n−1) : valor de la distribuciń con n − 1 grados de libertad y con una probabilidad acumulada de 0,95.
o

SE: indicador que da cuenta de la variabilidad en la agregaciń.
o

A continuaciń, para determinar la existencia de una diferencia estad´
o ısticamente significativa entre esas dos
agrupaciones, es necesario calcular los l´
ımites del intervalo de confianza, para posteriormente determinar si la
diferencia, entre los promedios de puntajes de las poblaciones de inter´s, es significativa con un nivel de confianza
e
de 95 %.

3 Este promedio simple es calculado a partir de las puntuaciones de todos los estudiantes que pertenecen a dicha agrupaciń. Un
o
ejemplo ser´ comparar los puntajes promedio obtenidos por hombres y mujeres en la prueba de Lectura de 4◦ B´sico.
ıa a

a ıstica SIMCE 4

As´ los l´
ı, ımites superior e inferior, para la diferencia entre los promedios de las dos agregaciones vienen repre-
sentados por las siguientes ecuaciones:

LS = [(DEpobl1 + E)2 + (DEpobl2 + E)2 ]
LI = −1 · [(DEpobl1 + E)2 + (DEpobl2 + E)2 ]

Donde:

DEpobli : desviaciń estńdar de la poblaciń i (i =1,...,n).
o a o

E : error de poblaciń4 .
o

LS : l´
ımite superior del intervalo de confianza.

LI : l´
ımite inferior del intervalo de confianza.

2.3. Criterio de decisiń
o

Si la diferencia entre los promedios de ambas poblaciones es menor o igual al LS o es mayor o igual al LI, no
existe una diferencia estad´
ısticamente significativa. Si la diferencia entre los promedios es mayor al LS, esta
diferencia es estad´
ısticamente significativa a favor de la poblaciń 1, del mismo modo si la diferencia de los
o
promedios es menor al LI esta diferencia tambiń es estad´
e ısticamente significativa a favor de la poblaciń 2.
o

Considerando un intervalo m´s conservador, se determin´ comparar las diferencias de los promedios de ambas
a o
poblaciones redondeados. Finalmente el criterio queda de la siguiente manera5 :

LI ≤ P oblaciń1 − P oblaciń2 ≤ LS ⇒ Diferencia no significativa.
o o

LS < P oblaciń1 − P oblaciń2 y 5 < P oblaciń1 − P oblaciń2 ⇒ Diferencia significativa, el promedio de
o o o o
la poblaciń 1 es superior al promedio de la poblaciń 2.
o o

P oblaciń1 − P oblaciń2 < LI y P oblaciń1 − P oblaciń2 < −5 ⇒ Diferencia significativa, el promedio
o o o o
de la poblaciń 2 es superior al promedio de la poblaciń 1.
o o

4 Se considera el error de haber tomado esa cohorte buscando minimizar el error de que los puntajes reflejen las caracter´
ısticas
particulares de los estudiantes evaluados. En el caso de comparaciones entre agrupaciones para una mediciń dentro del mismo a˜ o
o n
este error toma el valor de 0,5, en el caso de comparar promedios obtenidos en mediciones ocurridas en distintos aõs este error
n
toma el valor de 3,5.
5 El criterio de los 5 puntos permite ser m´s conservadores en las conclusiones. El valor escogido viene dado por el error de medida
a
√
basado en la Teor´ Cl´sica del Test considerando la confiabilidad de las pruebas SIMCE igual a 0,99. EM = SD 1 − conf iabilidad.
ıa a

a ıstica SIMCE 5

3. Comparaciń de proporciones o porcentajes
o

La comparaciń de proporciones es un problema cl´sico, la mayor´ de los textos introductorios de estad´
o a ıa ıstica
sugieren utilizar intervalos de confianza para la diferencias basado en intervalos de Wald. Considerando una
poblaciń, con n estudiantes, de los cuales r han sido clasificados en un nivel de logro de inter´s6 , entonces la
o e
r
proporciń de estudiantes en dicho nivel de logro es p =
o n. A partir de la ecuaciń anterior se quiere calcular
o
un intervalo de confianza (IC) para tal proporciń en la poblaciń. Un IC para p se calcula comńmente como:
o o u

p ± zα
ˆ 2
( p(1−p) )
ˆ
n
ˆ

Por lo que la diferencia entre dos proporciones p1 y p2 , D = p1 − p2 tiene como intervalo de confianza a

p1 (1−p1 ) p2 (1−p2 )
D ± zα
2 n1 + n2 .

Donde:

α
z α : punto de la distribuciń normal en que se acumula el 1 −
2
o 2 de probabilidad.

n1 y n2 : tamaõs de las poblaciones 1 y 2 que se comparan.
n

Por otro lado, hay extensa literatura (Vollset (1993), Santner (1998), Agresti & Coull (1998), Newcombe (1998),
Brown, Cai & DasGupta (2001)) que indican que dicho procedimiento es discutible en particular para tamaõs
n
inferiores a 50 y cuando la proporciń (o porcentaje) de inter´s p es cercano a 0 o 1 (0 % o 100 %).
o e

En la misma literatura se sugiere utilizar los intervalos basados en la metodolog´ llamada Wilson Score Inter-
ıa
val (Brown, Cai & DasGupta (2001), Newcombe & Merino (2006)) donde el intervalo de confianza para una
proporciń p viene dado por:
o
√
np+ 2 ·z 2
1
α n·z 2
α z2
α
IC : n+z 2
α
2
± n+z 2
α
2
[p(1 − p) + 2
4n ]
2 2

Esta metodolog´ solo es v´lida cuando se cumple la condiciń7 : M in{np, n(1 − p)} ≥ 10.
ıa a o

3.1. Supuestos

Los m´todos estad´
e ısticos disponibles para la comparaciń de proporciones se basan en dos supuestos claves:
o

1. La existencia de una proporciń verdadera y desconocida8 de estudiantes que pertenecen a cada nivel de
o
logro de cada establecimiento en cada aõ, definido por su resultado en una prueba de logro. Este supuesto
n
6 De los tres posibles: Avanzado, Intermedio e Inicial.
7 Algunos autores relajan la condiciń a que el m´
o ınimo sea mayor a 5.
8 Cuyo valor no es, necesariamente, constante en el tiempo.

a ıstica SIMCE 6

permite utilizar una proporciń observada, suponiendo que la prueba SIMCE es el mejor estimador de dicha
o
proporciń te´rica.
o o

2. Que los estudiantes se clasifican en los niveles de manera independiente9 y, que el n´mero de estudiantes es
u
lo suficientemente grande como para aplicar teor´ asint´tica que permite la determinaciń probabil´
ıa o o ıstica
de la confianza de la comparaciń10 .
o

Como los niveles de logro estń construidos usando las pruebas SIMCE y estas a su vez estń construidas y
a a
analizadas de modo que sus resultados son comparables aõ a aõ, el primer supuesto es satisfecho.
n n

En el caso del segundo supuesto, la situaciń no es tan sencilla. Por un lado, del an´lisis de las pruebas SIMCE,
o a
TIMSS y PISA surge evidencia para refutar el supuesto de independencia. Se ha estimado la correlaciń de
o
los resultados de los estudiantes en aula, tanto para lectura como para matem´tica, y se ha determinado
a
que estas correlaciones son significativamente distintas de cero11 . Por otro lado, el n´mero de estudiantes por
u
establecimiento que rinde las pruebas SIMCE es muy pequeõ para aplicar teor´ asint´tica en un gran n´mero
n ıa o u
de establecimientos12 . Para el caso particular de la comparaciń de proporciones, la aplicaciń de Teorema
o o
Central del L´
ımite exige que se satisfaga una condiciń que involucra la proporciń estimada y el n´mero
o o u
de individuos usados para estimar la proporciń. En este caso dado que el supuesto de independencia no es
o
satisfecho, se utiliza la versiń m´s conservadora de la condiciń. Esta es13 :
o a o

M in{nˆ, n(1 − p)} ≥ 10
p ˆ

Considerando lo anterior se entregan comparaciones de proporciones o porcentajes de estudiantes en niveles de
logro solo para poblaciones estad´
ısticamente grandes (1.000 o m´s estudiantes). Es decir, las comparaciones de
a
proporciones o porcentajes son robustas si la base para la cual se calculan es lo suficientemente grande.

3.2. Construcciń del test
o

Considerando las restricciones de la metodolog´ indicada, se exponen a continuaciń las ecuaciones utilizadas
ıa o
en la comparaciń de proporciones o porcentajes de estudiantes por nivel de logro, metodolog´ denominada
o ıa
9 El n´mero de estudiantes que se clasifica en un nivel de logro sigue una distribuciń binomial porque cada estudiante se clasifica
u o
en un nivel siguiendo una distribuciń Bernoulli.
o
10 Aproximaciń de la distribuciń binomial a la distribuciń normal usando el Teorema Central del L´
o o o ımite.
11 Una condiciń necesaria para independencia es que las correlaciones sean cero.
o
12 No hay reglas estrictas para la aplicaciń del Teorema Central del L´
o ımite, sin embargo hay consenso en la literatura estad´
ıstica
en que para tama˜ os superiores a 50 este funciona muy bien, entre tama˜ os de 20 a 50 funciona bastante bien, tamaõs menores
n n n
que 10 no siempre funciona y no debe aplicarse para tama˜ os menores a 5.
n
13 el efecto neto de la no-independencia entre observaciones es que se pierden grados de libertad.

a ıstica SIMCE 7

Wilson Score Interval (1927).

Primeramente, se han de calcular tres cantidades:

A = 2 · r + z2
α
2

r
B=z · α
2
z2 α + 4 · r(1 − n )
2

C = 2 · (n + z 2 )
α
2

En donde:

z α : valor en la distribuciń normal donde se acumula el 97,5 % de la distribuciń (α = 5 %), su valor es
2
o o
1,96.

r : n´mero de estudiantes en el nivel de logro.
u

n: n´mero de estudiantes en la poblaciń.
u o

Los componentes de las ecuaciones anteriores dan como resultado la estimaciń de un intervalo de confianza al
o
95 % para una proporciń. Esta representaciń es equivalente a la presentada en el inicio del punto 3 pero tiene
o o
un manejo operacional m´s simple. Luego, el intervalo de confianza est´ dado por:
a a

(A±B)
IC: C

Utilizando el intervalo de confianza presentado en el punto anterior, se deben calcular l1 y u1 : l´
ımites inferior y
superior que definen el intervalo de confianza al 95 % para la poblaciń de estudiantes 1 (poblaciń de inter´s), y
o o e
l2 y u2 son los l´
ımites inferior y superior, de la poblaciń de estudiantes 2, con la cual es comparada (poblaciń
o o
de referencia)14 . Ambos calculados partir de la metodolog´ de Wilson antes presentada.
ıa

Los l´
ımites del intervalo de confianza de la diferencia de proporciones de estudiantes en algń nivel de logro
u
est´ dado por (Newcombe, 1998b):
a

LI : D − (p1 − l1 )2 + (u2 − p2 )2
LS : D + (p1 − l1 )2 + (u2 − p2 )2

Donde D es la diferencia de proporciones: D = (p1 − p2 ).

14 Una comparaciń ser´ por ejemplo, determinar si la proporciń de estudiantes en el nivel de logro inicial de alg´ n grupo
o ıa o u
socioecon´mico es significativamente menor respecto al mismo nivel de logro en otro grupo socioecon´mico.
o o

a ıstica SIMCE 8

Cabe destacar que las comparaciones presentadas en este documento son bloque a bloque: proporciń de es-
o
tudiantes en un nivel de logro versus otra poblaciń de estudiantes en el mismo nivel de logro. Otro tipo de
o
comparaciń, no abordada en este documento, podr´ ser estimar la diferencia de proporciones basadas en las
o ıa
distribuciones subyacentes de cada poblaciń.
o

3.3. Criterios de decisiń
o

Si la diferencia entre las proporciones de ambas poblaciones es menor o igual al LS y mayor o igual al LI, no
existe una diferencia estad´
ısticamente significativa. Si la diferencia entre las proporciones es superior al LS, esta
diferencia es estad´
ısticamente significativa a favor de la poblaciń 1. Del mismo modo, si la diferencia de las
o
proporciones es inferior al LI, esta diferencia es estad´
ısticamente significativa a favor de la poblaciń 2. Otra
o
forma de comprobar la significancia es verificando si el cero (0) est´ contenido entre los l´
a ımites definidos del
intervalo de confianza y, de modo an´logo que para promedios, se determina un valor m´
a ınimo, en este caso de
3 puntos porcentuales de diferencia, para construir intervalos m´s conservadores15 As´ la regla de decisiń es
a ı, o
la siguiente:

1. Si el intervalo de confianza contiene el valor cero, es decir LI ≤ 0 ≤ LS, la diferencia no es estad´
ısticamente
significativa.

ımite superior es menor al valor cero, es decir LS < 0 y adem´s |D| ≥ 3 %, entonces la proporciń
2. Si el l´ a o
en la poblaciń 2 es significativamente mayor a la proporciń de estudiantes en la poblaciń 1.
o o o

ımite inferior es mayor al valor cero, es decir LI > 0 y adem´s |D| ≥ 3 %, entonces la proporciń en
3. Si el l´ a o
la poblaciń 1 es significativamente mayor a la proporciń de estudiantes en la poblaciń 2.
o o o

15 El valor de 3 % recoge el error de clasificaciń de estudiantes basado en la metodolog´ utilizada para ello.
o ıa

Calculo de significancia_estadistica

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (10)

Similar a Calculo de significancia_estadistica

Similar a Calculo de significancia_estadistica (20)

Último

Último (20)

Calculo de significancia_estadistica