1. Universidad Autónoma de Baja California
Instituto de Investigación y Desarrollo Educativo
Tesis que para obtener el grado de
DOCTOR EN CIENCIAS EDUCATIVAS
presenta:
Juan Carlos Pérez Morán
Dra. Norma Larrazolo Reyna
DIRECTORA DE TESIS
“Análisis del aspecto sustantivo de la validez de
constructo de una prueba de habilidades
cuantitativas”
2. Propósito: Seleccionar a los estudiantes con más altas
probabilidades de éxito para cursar estudios en el nivel medio
superior y superior.
Introducción
Directrices:
•Evaluar competencias básicas presentes en el currículum nacional.
•Evaluar estructuras de inclusión del conocimiento que dan soporte al
aprendizaje en distintos niveles educativos.
•Evaluar de forma auténtica o lo más cercano posible a la forma en como
aprenden los estudiantes en los diferentes niveles educativos.
•Mantener en la vanguardia los modelos de evaluación utilizados por el
EXHCOBA.
Modalidad de aplicación: computarizada
3. INNOVACIONES IMPLEMENTADAS EN EL EXHCOBA
Generación Automática de Ítems de Respuesta Compleja
(GAIRC).
Introducción
Desarrollado bajo el modelo nomológico de medición (teoría débil o
no sustantiva).
Modelo ingenieril:
-Fundamentado en modelos de tareas.
-Soportado por templetes.
-Estructurado por familias de ítems (ítems base o padres, con los que
se generan ítems isomorfos o hijos).
4. Introducción
Selección de elementos
Escritura numérica y algebraica
Arrastre de elementos
-Formatos de ítems de OM
y RC.
-Uso de texto e imagen
(no audio ni video).
-Tres tipos de tareas
operativas:
INNOVACIONES IMPLEMENTADAS EN EL EXHCOBA
Reactivos Estructurales Constructivos (REESCO). Consisten
en una estrategia socio-cognitiva para evaluar conocimientos
y habilidades básicas mediante el uso de diferentes elementos
y herramientas informáticas.
7. Objetivo general del estudio:
Analizar el aspecto sustantivo de la validez de
constructo del área de habilidades cuantitativas
del EXHCOBA en dos de sus versiones, una
con ítems de opción múltiple y otra con ítems
de respuesta compleja.
Introducción
7
8. Introducción
8
Objetivos específicos:
Documentar los fundamentos teóricos del análisis de evidencias de
validez basadas en el proceso de respuesta y en la estructura del modelo
cognitivo de pruebas psicológicas y educativas.
Adaptar y aplicar un modelo teórico-metodológico con enfoque top-
down para obtener y analizar las evidencias de validez basadas en el
proceso de respuesta y en la estructura del modelo cognitivo de pruebas
psicológicas y educativas computarizadas.
Obtener y analizar evidencias de validez basadas en los procesos
de respuesta subyacentes a los ítems del área de HC del EXHCOBA.
Evaluar el diseño del interfaz de los ítems del área de HC del
EXHCOBA.
Definir y estructurar el modelo cognitivo del área de HC del EXHCOBA.
Obtener y analizar evidencias de validez basadas en la estructura
del modelo cognitivo del área de HC del EXHCOBA.
9. Validez de constructo (Messick, 1989b)
Marco teórico
Visión unitaria. Propone la interrelación de los temas clásicos de la validez
como el aspecto fundamental de una teoría más comprensiva que aborda el
significado de las puntuaciones, los valores sociales de sus interpretaciones y
el uso de las pruebas (Kane, 2001; Messick, 1989a y 1989b).
Definición: Validez es un juicio valorativo integrado por el grado en que la
evidencia empírica y los fundamentos teóricos apoyan la adecuación y
conveniencia de las inferencias y acciones basadas en las puntuaciones del
test y otras modalidades de evaluación.
10. Marco teórico
10
Conbrach y Meehl (1955) definen al constructo
como un postulado sobre algún atributo de los
individuos, el cual —se asume— está reflejado en
el rendimiento de una prueba.
Con ello, se implica la lógica de la
validación del constructo cuando este es
fuerte o débilmente sistematizado
Teoría de la validez es en realidad teoría de constructo
12. Marco teórico
12
a)¿En qué medida el constructo incorpora una hipótesis válida?
Campbell (1960) la denominaba validez nomológica y Embretson (1983) la
etiqueta como plano nomothetico;
b)¿En qué medida la prueba mide “algo” que “realmente” existe? Esta
es una pregunta básica y previa a la consistencia conductual en el
rendimiento de una prueba; y
c)¿Qué tan bien la propuesta de interpretación corresponde a lo que se
mide en la prueba? Loevering (1957) la denomina validez sustantiva, que
evalúa qué tan bien en la interpretación de una prueba capta la naturaleza de
ese "algo" que se está midiendo. Embretson lo etiqueta como
representación del constructo.
Fidelidad estructural
Validación de constructos propuesta por Loeveringer (1957):
13. Aspecto de contenido
Aspecto sustantivo. Se busca si los participantes comprometen los
procesos apropiados al momento de responder las tareas evaluativas.
Aspecto estructural.
Aspecto predictivo.
Aspecto consecuencial.
Aspecto externo.
Generalizabilidad.
Marco teórico
13
Se busca la relevancia y la representatividad del contenido
del test para definir y clarificar el significado del constructo
a medir.
Se busca que los puntajes de respuesta de los examinados
reflejen la interacción de las variables o atributos latentes
del dominio.
Aspectos de la validez de constructo (Messick, 1995):
14. Estándares para el desarrollo de pruebas (AERA,
APA & NCME, 1999).
Estándar 1.8. Evidencias basadas en el proceso
La razón fundamental de una prueba o de las
interpretaciones de las puntuaciones, depende de las
premisas acerca de los procesos psicológicos o de las
operaciones cognitivas usadas por los examinados, de tal
manera que las evidencias teóricas y empíricas soporten
aquellas premisas que deben ser provistas para el
argumento de validez.
Marco teórico
15. Marco teórico
Enfoque Sistémico de Diseño Cognitivo
(ESDC) propuesto por Embretson (The
cognitive design system approach en
inglés,1994).
Perspectiva top-down para pruebas con
GAÍ (Bejar, 2002, 2010; Gorin & Embretson,
2013).
18. Marco teórico
Métodos cognitivos:
Técnicas de pensamiento en voz alta (Ericsson & Simon, 1984, 1993;
Leighton, 2009; Leighton & Gierl, 2007b).
Modelado matemático de sub-tareas de respuesta (Embretson,
1983).
Método del análisis del seguimiento del sendero de la vista
(Newell & Simon, 1972).
Análisis cronométrico o de latencia de respuesta (Fredericksen,
1980; Posner, 1978; Posner & Rogers, 1978).
19. Marco teórico
Modelos psicométricos-cognitivos:
Componenciales (Van der Linden & Hambleton, 1997).
De clasificación múltiple (Maris, 1999).
De clase latente restringida (Haertel, 1989).
TRI estructurados (Rupp & Mislevy, 2007).
De diagnóstico cognitivo (Nichols, Chipman & Brennan, 1995).
De diagnóstico psicométrico (Rupp, 2007).
Clasificación de los modelos
psicométricos-cognitivos:
Modelos derivados (anidados) de la TRI en los
que se busca descomponer los parámetros de los
ítems en atributos subyacentes.
Modelos de diagnóstico cognitivo cuyo propósito
es clasificar a los examinados en estados de
conocimiento.
20. Método
Modelo teórico-metodológico para el análisis del
aspecto sustantivo de la validez de constructo del área
de HC del EXHCOBA
Fase I
Diseño y pilotaje
del estudio
cognitivo
Fase II
Aplicación
del estudio
cognitivo
Fase III
Desarrollo y
definición
del modelo
cognitivo
Fase IV
Aplicación
del análisis
componencial
21. Método
Determinar el conjunto de ítems para su análisis.
Fase I. Diseño y pilotaje del estudio cognitivo
Etapa 1.1. Selección del tipo de estudio cognitivo
22. Método
a) Definición del modelo cognitivo:
-Modelado matemático de sub-tareas de respuesta (Embretson, 1983).
-Análisis de expertos en el área de dominio de la prueba (Rupp, Templin, &
Henson, 2010).
b) Evaluar el diseño del interfaz de los ítems y para verificar el modelo del
proceso de respuesta elaborado por los expertos:
-Técnica de pensamiento de voz alta con el análisis de protocolos
concurrentes y retrospectivos (Ericsson & Simon, 1984, 1993; Leighton, 2009;
Leighton & Gierl, 2007b).
-Análisis del sendero de la vista (indicador del mouse) (Newell & Simon,
1972).
-Análisis cronométrico o de tiempo de latencia de respuesta (Fredericksen,
1980; Posner, 1978; Posner & Rogers, 1978).
Fase I. Diseño y pilotaje del estudio cognitivo
Etapa 1.1. Selección del tipo de estudio cognitivo
23. Método
Definir los procedimientos de
operación del estudio
cognitivo.
Fase I. Diseño y pilotaje del estudio cognitivo
1.2. Diseño de los estudios cognitivos
Modelo para la Evaluación
del Diseño Universal (EDU)
propuestos por Thompson,
Johnstone & Thurlow
(2002).
Software CAMTASIA
STUDIO versión 5
(TechSmith, s.f.)
24. Método
Fase I. Diseño y pilotaje del estudio cognitivo
1.3. Piloteo de los estudios cognitivos
Seleccionar y capacitar a
los participantes del
estudio piloto.
Participantes del piloteo del análisis de
protocolos:
-dos estudiantes de tercero de secundaria con
promedio escolar mayor a 8.5 (expertos, 50%
hombres y 50% mujeres) referidos por su profesor(a)
como estudiantes sobresalientes en el dominio de las
matemáticas
-dos con promedio mayor a 6.0 pero menor a 8.0
(novatos, 50% hombres y 50% mujeres) referidos
por su profesor(a) como estudiantes con bajo
desempeño o no sobresalientes en el dominio de las
matemáticas.
25. Método
Fase I. Diseño y pilotaje del estudio cognitivo
1.3. Piloteo de los estudios cognitivos
Pilotear y probar las técnicas y
materiales.
Modificar y adaptar as con base
en los resultados del pilotaje.
Problemas identificados:
-el tiempo requerido para la aplicación de los análisis de
protocolos a estudiantes de secundaria (rango de
duración entre 90 y 120 minutos en promedio).
-factores relacionados con el cansancio.
26. Método
Fase II. Aplicación del estudio cognitivo
Etapa 2.1. Selección del grupo de participantes para
los estudios cognitivos
Etapa 2.2. Aplicación en forma del estudio cognitivo
Participantes del análisis de protocolos:
- 24 estudiantes voluntarios de tercero de secundaria
- 12 participantes (6 mujeres y 6 hombres) para el análisis de protocolos con
los 30 ítems de la versión de opción múltiple.
- 12 participantes (6 mujeres y 6 hombres) para el análisis de protocolos con
los 20 ítems de la versión de respuesta compleja.
Participantes del análisis de expertos:
- Una profesora de la asignatura de matemáticas en el nivel secundaria y nivel
medio superior.
- Un licenciado en matemáticas con doctorado en métodos de investigación y
especialista en modelos psicométricos componenciales.
- Dos licenciadas en matemáticas con maestría en ciencias educativas y que
además son miembros del comité técnico del EXHCOBA.
27. Resultados
Fase III. Desarrollo y definición del modelo cognitivo
Etapa 3.1. Análisis de los datos obtenidos durante el
estudio cognitivo
Etapa 3.2. Desarrollo y definición del modelo
cognitivo de la prueba
Análisis de expertos:
-Identificación y categorización de los
procesos y atributos cognitivos subyacentes
a los ítems.
-Definición de los modelos de los procesos de
respuesta utilizados por los examinados ante
cada uno de los ítems.
-Determinación las operaciones cognitivas
sustantivas en cada uno de los ítems.
-Elaboración de la matriz Q de la prueba.
-Descripción general del dominio de los
contenidos evaluados en cada ítem de las
dos versiones de la prueba.
Análisis de protocolos:
-Obtención de los reportes verbales con los
procesos de respuesta que utilizan los
estudiantes de tercero de secundaria ante
los ítems de la prueba.
-Verificación de la similitud entre los modelos
del proceso de respuesta definidos por
expertos y procesos de respuesta utilizados
por los estudiantes de tercero de secundaria
ante los ítems de la prueba.
-Evaluación del diseño del interfaz de los
ítems.
28. Resultados
ítem dos de la V-ÍOM del área
HC del EXHCOBA, el cual
evalúa según los expertos la
obtención del valor faltante
en secuencias numéricas.
31. Resultados
Definición de los contenidos de
los ítems del área de HC del
EXHCOBA en dos de sus versiones,
una con IOM y otra con IRC.
32. Resultados
Evaluación del diseño del
interfaz de los ítems para
identificar posible varianza
irrelevante introducida por la
interfaz de la prueba.
33. Resultados
Bases de datos: 2801 participantes (hombres y mujeres) para la V-IOM y 702
participantes (hombres y mujeres) para la V-IRC.
Análisis psicométricos básicos:
-Calibración y aplicación del modelo de la TCT. Se utilizó el software Ítem and
Test Analysis Program (ITEMAN) (tm) Versión 3.50 (1993) y el programa libre R
2.15.1. (Ihaka, R. & Gentleman, R., 1996).
-Aplicación del modelo de Análisis Factorial Confirmatorio (AFC) de Fraser
(1988). En dicho análisis el ajuste del modelo se valora por medio del índice de
Tanaka (T), el cual, fue obtenido por medio del programa NOHARM (Fraser, 1988).
-Aplicación del modelo de RASCH unidimesional y pruebas de ajuste entre los
diferentes modelos psicométricos aplicados. Para estos análisis se utilizó el
programa libre R 2.15.1. (R Development Core Team, 2006).
Fase IV. Aplicación del modelo componencial
Etapa 4.1. Revisión de la estructura interna bajo el
modelo de redes nomológicas
35. Las cargas factoriales de los ítems
de la V-ÍOM y la V-ÍRC del área HC
del EXHCOBA confirman que los
ítems de las dos versiones del
área HC del EXHCOBA miden una
sola dimensión respectivamente
cumpliéndose así el supuesto de
unidimensionalidad.
Resultados
Aplicación del modelo de Análisis
Factorial Confirmatorio (AFC)
36. Estimación de los
parámetros del modelo
de RASCH y el valor
Anderson-Darling X² de
la V-ÍOM y la V-ÍRC del
área HC del EXHCOBA
Resultados
La correlación entre los
parámetros del modelo de
RASCH y LLTM de las dos
versiones analizadas es de
0.561 para el caso de la V-
ÍOM y 0.870 para la V-ÍRC.
De tal forma, que tomando en
cuenta las operaciones
cognitivas propuestas por el
panel de expertos, se explica
un 32% de las dificultades de
los ítems de la V-ÍOM y un
76% de las dificultades de los
ítems de la V-ÍRC.
Aplicación del modelo de
RASCH unidimesional y
pruebas de ajuste
38. Prueba de ajuste gráfico con el estadístico de la razón de
verosimilitudes condicional CLR (Fischer y Ponocny-Seliger, 1998)
resultó significativo (gl=29; X²=827.367) para la V-ÍOM y de igual
forma para la V-ÍRC (gl=19; X²=130.319), por lo tanto no se confirma
el ajuste.
Resultados
40. -Si la especificación de Q es correcta, las CPAs
deben exhibir la propiedad de monotonicidad.
-Si la diferencia en la dificultad de los atributos
es suficientemente grande, las CPAs no se
cruzarán (discriminación) y los atributos
pueden ser ordenados según su dificultad
para luego ser comparados con las expectativas
que se tenían de ellos, procedente de la teoría
cognitiva, la opinión de expertos o las
probabilidades de atributos definidas a priori.
Aplicación del LSDM
Comportamiento de las Curvas de
probabilidad de las operaciones
1ra reconfiguracion de la matriz Q
ResultadosMatriz Q (11kX21i) de la V-ÍOM
Matriz Q (6kX14i) de la V-ÍRC
43. Comportamiento de las Curvas de probabilidad de las
operaciones de la matriz Q (10kX21i) reconfigurada de la V-
ÍOM y de la matriz Q (5kX14i) reconfigurada de la V-ÍRC
Resultados
44. Comparación de la mejora en el ajuste entre los
modelos RASCH, LLTM y LLTM reconfigurado
Resultados
45. Prueba gráfica de ajuste con el contraste entre el
modelo RASCH y el LSDM
Resultados
46. Comparación del orden de la dificultad relativa de
las operaciones cognitivas reconfiguradas
Resultados
47. Logros:
Amplia revisión de los fundamentos teóricos y técnicos de los estudios de validez
del proceso y de la estructura cognitiva de pruebas psicológicas y educativas.
Adaptación de un modelo teórico-metodológico para obtener evidencias de validez
de proceso y de la estructura cognitiva del EXHCOBA que puede ser utilizado por
otros desarrolladores y expertos en el área de la medición y evaluación psicológica y
educativa.
Conocimiento profundo de los procesos de respuesta utilizados por los
examinados para resolver los ítems del área de HC del EXHCOBA.
Obtención del modelo cognitivo subyacente a los ítems del área de HC del
EXHCOBA.
Obtención de la estructura cognitiva subyacente a los ítems del área de Habilidades
Cuantitativas del EXHCOBA que sirve como base para el análisis psicométrico
componencial y la Generación Automática de Ítems (GAI).
Obtención de evidencias de validez del proceso mediante la aplicación de los
estudios cognitivos del análisis de expertos y reportes verbales.
Obtención de evidencias de validez de la estructura cognitiva de los ítems del área
de HC del EXHCOBA mediante los modelos LLTM, LSDM y DINA .
47
Conclusiones
48. Limitaciones:
Escaso uso e incorporación de los datos arrojados por los distintos
estudios cognitivos utilizados para el análisis del proceso de respuesta
de los examinados ante los ítems del área HC del EXHCOBA.
Dificultad para tomar en cuenta los diferentes procesos de
respuesta utilizados por los examinados para resolver los ítems del
área de HC del EXHCOBA.
Elaboración de un modelo lineal cognitivo subyacente a los ítems del
área de HC del EXHCOBA dejando a un lado las posibilidades de
elaborar un modelo complejo multidireccional.
Análisis psicométricos con datos dicotómicos transformados para el
análisis componencial de la V-IRC.
48
Conclusiones
49. Futuras investigaciones:
Aplicar el modelo teórico–metodológico adaptado y mejorado en todas
las áreas del EXHCOBA y en otras pruebas y contextos de medición.
Implementar nuevos análisis componenciales con mayor adecuación a
la GAÍRC del EXHCOBA que actualmente se aplica.
Definir los atributos subyacentes a los ítems de cada una de las áreas del
EXHCOBA para el análisis psicométrico componencial y la validez de la
GAÍRC.
Fundamentar el desarrollo de las versiones con ítems de opción múltiple
e ítems de respuesta compleja del EXHCOBA en una teoría fuerte.
Realizar un estudio de evaluación diagnóstica con el fin de conocer las
fortalezas y debilidades de los examinados ante las diferentes áreas del
EXHCOBA.
49
Conclusiones