1. APLICACIÓN DE LA TEORÍA DE RESPUESTA
AL ÍTEM (IRT) EN LA EVALUACIÓN
EDUCATIVA
Jing Wang
Department of Physics and Astronomy, Eastern Kentucky University, Richmond,
Kentucky 40475
Department of Physics, The Ohio State University, Columbus, Ohio 43210
Lei Baoa)
Department of Physics, The Ohio State University, Columbus, Ohio 43210
2. Es importante la evaluación en la educación,
¿Cómo hacerlo de manera efectiva?
• Utilizamos el TRI. (Supuesto: relación entre la capacidad de los estudiantes
y su desempeño en pruebas).
• Transforma puntuaciones brutas en calificaciones de competencia escaladas.
• La TRI intenta proporcionar características de preguntas independientes del
examinado, como dificultad y discriminación de preguntas.
• Es un enfoque teórico para abordar el efecto techo y las conjeturas en las
pruebas (adivinar).
3. ■ Ejemplo: supongamos que algunos estudiantes obtienen puntuaciones máximas
en la prueba de física, pero en realidad, solo tienen un conocimiento
superficial.
■ El efecto techo se refiere a la situación en la que un gran número de
participantes obtiene puntuaciones muy altas en una prueba y, como
resultado, la prueba no es capaz de diferenciar de manera efectiva entre los
individuos con altas habilidades o conocimiento.
■ La IRT nos permite identificar este problema y tomar medidas para mejorar la
evaluación en física
4. • Caso de estudio: descripción del FCI.
• Datos recopilados de 2802 estudiantes en cursos de mecánica en la
Universidad Estatal de Ohio.
• Se utiliza un modelo de respuesta a ítems de 3 parámetros para analizar las
preguntas de opción múltiple del FCI.
• Cada pregunta del FCI, el modelo considera:
la dificultad,
la discriminación y
las conjeturas de los estudiantes.
La discriminación de un ítem es una medida de la capacidad de ese ítem para
diferenciar entre las personas que tienen un alto nivel de la característica que
se está evaluando (como conocimiento o habilidad) y las personas que tienen
un bajo nivel de esa característica).
5. Calibración de la prueba IRT:
• Localizar una población de gran tamaño. (distribución normal estándar)
• Asignar una prueba a la muestra elegida (distribución normal estándar)
• Los parámetros de los elementos validados luego se calibran en función de
la población objetivo.
•Cuanto mayor sea la población es mejor.
6. Aplicación de resultados:
• Los profesores e investigadores pueden utilizar la métrica IRT del FCI.
• Sugerencias para mejorar la enseñanza de la física
• Ejemplo: Supongamos que un profesor observa que ciertos estudiantes
tienen dificultades con una pregunta específica sobre fuerza en el FCI. Puede
diseñar estrategias de enseñanza adicionales centradas en abordar ese
concepto en particular.
7. Concepto :
La IRT es un marco probabilístico que modela el comportamiento de un
examinado en una prueba.
Se basa en dos conjuntos de parámetros: uno describe al examinado {θ} y el
otro describen al item {δi}.
Yi, es una variable que representa la respuesta del examinado sobre un ítem.
Pi es la probabilidad de que dé cierta respuesta, en función de las
características del examinado y del ítem.
8. •Modelo "Normal Ogive":
Es una forma concreta de IRT que
utiliza la función de distribución
acumulativa normal para
representar la probabilidad de que
un examinado responda
correctamente a una pregunta de
opción múltiple.
Parámetros: la habilidad del
examinado {θ}, la discriminación de
la pregunta {ai}, y la dificultad de
la pregunta {bi}.
9. ■ Fig. 1. Función característica
del elemento del ith ítem y su
relación con diferentes
distribuciones de competencia
del examinado.
■ Arriba: curva característica del
ítem del ith artículo.
■ Abajo: Distribución de
competencia o habilidad de
tres examinados distintivos.
Habilidad –dificultad
10. Uso de Funciones Logísticas:
a: Parámetro de discriminación de la pregunta.
b: Parámetro de dificultad de la pregunta.
c: Parámetro que representa la probabilidad de una respuesta correcta por
conjetura por parte de un examinado con habilidades extremadamente bajas.
Se determinan empíricamente. Tabla
11. La Figura 2 presenta un ejemplo de curvas características de ítems de
tres preguntas con parámetros diferentes. El parámetro de dificultad del
ítem b determina la ubicación central de cada curva, el parámetro de
discriminación del ítem a determina la pendiente de la parte central de
cada curva, y el parámetro de conjetura c determina la probabilidad
más baja de que un estudiante responda correctamente a la pregunta
12. ■ Como se muestra en las curvas, el ítem más discriminativo es el ítem 2, que se
eleva abruptamente alrededor del centro, lo que distingue con mayor claridad
la competencia del examinado en comparación con los otros dos ítems.
■ Los ítems, de más fácil a más difícil, son el ítem 2, el ítem 1 y el ítem 3.
■ Sus parámetros de dificultad correspondientes son b2 = -2, b1 = 0 y b3 = 2.
■ El ítem 1 tiene un valor de parámetro de conjetura de 0, lo que sugiere que el
ítem puede tener una distracción fuerte y que la probabilidad de respuesta
correcta para estudiantes con baja competencia es bastante baja.
13. •Comparación con la Teoría Clásica de los Tests
(CTT)
En la Tabla I, se presentan los parámetros de
ítems estimados mediante el modelo IRT y los
parámetros tradicionales calculados utilizando la
Teoría Clásica de los Tests (CTT).
También se proporcionan estadísticas de ajuste
global mediante la prueba de Chi-cuadrado para
cada ítem
14.
15. ■ (1) En la teoría clásica de las pruebas, la discriminación de ítems es el
coeficiente de correlación biserial puntual entre las puntuaciones de los ítems
(0 o 1) y las puntuaciones totales de las pruebas.
■ (2) En la teoría de pruebas clásica, la dificultad del ítem es el porcentaje de
respuesta correcta, por lo que un valor bajo indica una dificultad alta del
ítem.
■ (3) En la teoría clásica de las pruebas, no existe una definición formal de
probabilidad de adivinar. La probabilidad de adivinar una pregunta de opción
múltiple a menudo se estima en (1/número de opciones), que es el 20 % para
cada elemento del FCI. Esta estimación implica que la probabilidad de elegir
cada opción es igual.
16. Unidimensionalidad e Independencia de Ítems:
■ La unidimensionalidad se refiere a la capacidad de una prueba
para medir el nivel de habilidad o competencia en una única
habilidad o destreza.
■ La unidimensionalidad es una suposición básica en el modelo de
respuesta de tres parámetros.
■ También se destaca la importancia de la independencia local de
los ítems, que asume que, para examinados con un nivel de
competencia fijo, el desempeño en un ítem no depende
condicionalmente del desempeño en otro ítem.
17. Estadística Chi-Cuadrado de Pearson:
Se utiliza con frecuencia para evaluar la bondad de ajuste entre el
modelo IRT y los datos.
• Los valores Qi para los 30 ítems son menores que 1 y caen dentro del cuantil del 68% de la
distribución χ^2.
• Esto se considera el valor crítico comúnmente aceptado en una prueba chi-cuadrado de un
grado de libertad.
• Como resultado, ninguno de los valores Qi es inusual asumiendo que el modelo es correcto,
lo que sugiere que no hay razón para dudar seriamente del modelo.
18. FCI Measurement Metrics:
■ Se obtuvieron estimaciones precisas de los parámetros
característicos de los ítems para cada una de las preguntas del
FCI utilizando el modelo de respuesta a ítems de tres
parámetros.
■ Estos parámetros y el modelo se pueden utilizar para diversos
fines educativos e investigativos.
■ Se crea una métrica de medición llamada "FCI-metric" que
permite comparar y hacer referencia a las diferentes
características de las preguntas y las diferencias en el
desempeño de los estudiantes de manera conveniente.
19. Relación entre Puntuación Bruta y Competencia:
■ Se presenta un análisis de la relación entre las puntuaciones
brutas totales de los estudiantes en el test FCI y su competencia
θ estimada a través del ajuste del modelo IRT.
■ Se muestra que hay una relación lineal aproximada entre la
puntuación bruta y la competencia, lo que sugiere que la
puntuación total del FCI se correlaciona linealmente con la
competencia estimada mediante el ajuste de las preguntas
individuales.
20. Relación entre la puntuación bruta previa a la prueba de
la FCI y la competencia (N=2802).
21. Utilidad en la Evaluación Educativa:
Se señala que la ecuación se puede utilizar
para estimar rápidamente la competencia de los estudiantes a partir
de sus puntuaciones brutas totales en el FCI.
Esto puede ser útil para que los profesores evalúen el desempeño de
sus estudiantes en comparación con las normas a gran escala en cada
una de las preguntas del FCI.
Estos resultados pueden proporcionar orientación formativa a los
instructores y evaluar el impacto de las intervenciones educativas.