Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Cómo construir preguntas mcq de calidad
1. Juro que no volveré a hacer un examen de temas,
aprenderé a diseñar Multiple Choice
Questionnaires (MCQ) de calidad
cueste lo que cueste
2.
Construcción de preguntas de calidad para pruebas
de elección entre múltiples opciones
multiple choice questions (MCQ)
El MCQ, es una herramienta de evaluación de
gran utilidad que debemos conocer mucho mejor
y aprender a usar con eficiencia
Para que sea valido y fiable para la evaluación del
saber y del saber como.
Debemos aprender a usar el MCQ Pero sin caer
en un abuso de este método.
3. Ventajas del MCQ
1. Es fiable. Su fiabilidad se aumenta con más preguntas
discriminativas.
2. 2h de examen son suficientes para obtener medidas fiables
3. Es representativo, los alumnos pueden responder a múltiples
preguntas por prueba y unidad de tiempo. Alto número de items
respondidos / hora de examen.
4. MCQ de calidad
1. Cuesta tiempo y esfuerzo hacer preguntas de calidad, pero no cuesta casi
tiempo contestarlas y menos corregirlas.
2. Corrección objetiva y automática . Con análisis de dificultad automático. El
análisis de discriminación hay que currárselo.
3. Amplia su validez a la evaluación del saber como si hacemos preguntas con
contexto problemático/clínico podemos usar el test para probar si saben
resolver problemas y casos presentado s en el formato de estímulo.
5. ¿Qué dice la literatura sobre escribir
buenas preguntas de MCQ?
Muchos recursos sobre evaluación en NCME
http://www.nbme.org/publications/index.html
Item writing manual http://www.nbme.org/publications/item-
writing-manual-download.html#spanish también en inglés y ruso.
Constructing written questions for the basic and clinical sciences.
National Board of Medical Examiners
Schuwirth LW, van der Vleuten CP. Different written assessment
metods: what can be said about their strengths and weaknesses?
Med Educ. ;38:974-9.
6. ¿Qué mide tu pregunta?
Contexto
rico
(Contextual)
Sin
contexto
(factual)
Recuerdo de hechos x X
Aplicación de conocimiento X
Resolución de problemas X
Comprensión conceptual X
Razonamiento directo X
Razonamiento complejo X
Dotar de contexto al estimulo de la pregunta amplia su validez o rango
de utilidad para evaluar a distintos niveles de la pirámide de Miller
7. ¿Qué es el contexto ?
Sin contexto
Es cierto que
Contexto
Un coche y un camión chocan de
frente. En el momento de la colisión
la fuerza ejercida por el coche sobre
el camión es
A. Mayor que la que el camión ejerce
sobre el coche
B. Igual que la que el camión ejerce
sobre el coche
C. Menor que la que el camión ejerce
sobre el coche
D. No ejerce ninguna fuerza
simplemente esta en su camino
8. Contexto temático versus contexto
problemático
¿Qué segmentos del miocardio
son irrigados por la arteria
coronaria derecha?
Paciente varón de 55 años acude a
urgencias con dolor torácico y
elevación del segmento ST en el
electrocardiograma. En la RM
cardíaca se ve un realce tardío
transmural en los segmentos
inferiores e inferoseptales del
ventrículo izquierdo.
¿Qué arteria es la más
probablemente ocluida?
9. Contexto de uso: Un paciente…
…trasplantado de riñón hace
seis meses presenta una
colección adyacente al
injerto renal ¿Cuál es su
diagnóstico mas probable?
A. Linfocele
B. Hematoma
C. Urinoma
D. Abceso
10. La misma pregunta sin contexto y con
contexto
Sin contexto clínico
1 ¿Cuál es la neoplasia vesical
más frecuente?
A. Adenocarcinoma
B. Rabdomiosarcoma
C. Carcinoma de células
transicionales
D. Carcinoma epidermoide
Con contexto clínico
• Un paciente parapléjico con un
catéter suprapúbico de larga duración
se presenta con una masa vesical
¿cuál es el diagnóstico mas probable
de este paciente ?
A. Adenocarcinoma
B. Rabdomiosarcoma
C. Carcinoma de células transicionales
D. Carcinoma epidermoide
11. Serie de preguntas relacionadas con un
contexto
• Un paciente parapléjico con un catéter suprapúbico de larga duración se presenta con una masa vesical
A. ¿cuál es el diagnóstico más probable de este paciente ?
B. Adenocarcinoma
C. Rabdomiosarcoma
D. Carcinoma de células transicionales
E. Carcinoma epidermoide
¿Cuál sería la mejor técnica de imagen para definir la invasión en profundidad del carcinoma en la
pared de la vejiga?
A. RM
B. TC
C. Ecografía
D. Cistografía
12. Formato de la pregunta MCQ
Recuerdo de hechos (V/F) 1R/4d
Raíz (estímulo)
Opciones (formato
de respuesta)
• Un linfocito T secreta IFNg, a que población
pertenece:
A. Th1.
B. Th2.
C. T reg.
D. Th9.
E. Th17.
Respuesta correcta (right)
Distractores
Si recuerdas la definición de linfocito Th1 (linfocito TH secretor de IFNg)
la aciertas. Solo probamos el conocimiento de una definición, el resto de
opciones es para despistar.
Para esto es mejor una pregunta de respuesta corta, pero tiene que corregirla un
profesor.
13. Dificultad de este formato
Depende de lo rebuscado de la afirmación correcta
Depende de la elección de distractores adecuados
¿Cuál fue el principal redactor de la declaración de independencia
de Venezuela?
A Cicerón
B Juan Germán Roscio
C José Bonaparte
D Pericles
E Thomas Jefferson
A Simón Bolivar
B Juan Germán Roscio
C Francisco Isnardi
D Pablo de Olavide
E José María España
El profesor que emprende este camino acaba preguntando detalles chorra
Y los alumnos memorizarán chorradas para aprobar
14. Formato de la pregunta MCQ (V/F)2
para favorecer decisiones con responsabilidad
en evaluación formativa
(V/F)2
• En relación a los métodos de obtención y purificación de anticuerpos
a partir de antisueros policlonales es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.
B. Los anticuerpos de un antisuero policlonal purificados por afinidad a
la molécula antigénica reconocen un mismo epítopo de la molécula
antigénica.
C. Ay B son falsas .
D. A y B son ciertas.
E. No tengo certeza de cuál es la cierta, tendría que consultarlo o
debería haber estudiado más .
La competencia más importante es conocer los limites de tu conocimiento y experiencia y
Saber como informarte o a quien consultar cuando un problema supera tus límites.
Opción E soy consciente de mi ignorancia y la reconozco (mejor opción en ese caso)
Distintos errores tienen distinto significado y merecen distinto grado de penalización
15. Formato de la pregunta MCQ de
reconocimiento de hechos
(V/F)3
(V/F)3
• En relación a los métodos de obtención y purificación de
anticuerpos a partir de antisueros policlonales es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.
B. Los anticuerpos de un antisuero policlonal purificados por afinidad a
la molécula antigénica reconocen un mismo epítopo de la
molécula antigénica.
C. Los columnas con proteína A permiten obtener anticuerpos
policlonales
D. A y B son ciertas.
E. Todas son ciertas.
16. Alumnos que saben lo que no saben
alumnos que no.
Número de orden en prueba MIRNúmero de orden en prueba MIR
Nocontestada
Nocontestada
17. Las academias de preparación MIR
Simulacros prueba 4 horas
MIR ASTURIAS: 60 simulacros (30 con preguntas MIR de años anteriores y 30
con preguntas no MIR). Desde julio a enero, después de los simulacros de
los sábados, se imparte una clase de 4 horas donde se revisan todas las
preguntas del simulacro. Disponibles también online.
Utilizan la metodología de discutir una prueba justo después de realizarla
nota de corte, que había sido introducida por primera vez en 2012. Ahora
sube del 30 al 35 por ciento de la media obtenida por los diez mejores
exámenes.
Artículo publicado en casiMedicos.com: Diagnóstico Diferencial de
Academias MIR 2013/2014 http://www.casimedicos.com/mir/archivos/1251
18. Formato de la pregunta MCQ con
combinación de opciones (V/F)4
Raíz o
estimulo
aporta un
contexto
Opciones
• En relación a los métodos de obtención y purificación de
anticuerpos a partir de antisueros policlonales, es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.
B. Los anticuerpos de un antisuero policlonal purificados por
afinidad a la molécula antigénica reconocen un mismo epítopo
de la molécula
C. Los anticuerpos se purifican por RT PCR y Permiten la obtención
de anticuerpos monoclonales
D. Se basan en la inmunización de animales de experimentación
E. A y C son ciertas
19. ¿Qué aumenta la calidad
de las preguntas de test? La calidad aumenta si incluye:
1. Contexto rico (situación, imagen a analizar, paciente o laboratorio)
2. Un formato de mejor respuesta (no V/F) cual es la mejor, cual es
la más cierta, el alumno debe analizar y decidir entre opciones no
sólo falsas y verdaderas sino mejores y peores. Debe realizar
evaluación y ejercer juicio profesional.
3. Enfocada en conceptos importantes.
4. Requiere más que memoria, por ejemplo dominio del lenguaje
disciplinar, asociación.
5. Tiene alto poder discriminativo (se conoce a posteriori de su uso)
20. ¿Qué quita calidad ?
1. Elementos gramáticos o estructurales que faciliten claves
“cues” para que el alumno que no sabe, la pueda acertar.
2. Erratas, fallos gramáticos y errores lógicos.
22. Altera una de tus preguntas para quitarle
elementos de calidad
Observación: Si no se los puedes quitar es que no los tiene
23. Estudia la dificultad y el poder
discriminativo de tus preguntas
Los programas de corrección de tests pueden proporcionarte
esta información
También puedes obtenerla ”artesanalmente” a partir de las
matrices de respuestas de tus alumnos
24. Eliminación de erratas, fallos gramáticos y
errores lógicos
A priori
El autor debe revisar las preguntas varias veces
Varios compañeros deben revisarlas e incluso responder a las preguntas del
examen. Esta es la mejor manera de detectar posibles errores en la
redacción de preguntas y respuestas o en la plantilla de opciones correctas.
A posteriori
el análisis de las contestaciones permite detectar respuestas con resultados
anómalos que señalan fallos de plantilla o de redacción.
El proceso de impugnación de preguntas por los alumnos también permite
detectar preguntas con errores o ambigüedades
El proceso de revisión de notas por los alumnos permite detectar errores
El análisis de respuestas también permite medir su dificultad y poder
discriminativo.
25. Análisis de poder discriminativo
1. Poder discriminativo sirve para discriminar alumnos con diferente nivel
de conocimientos.
2. El estudio de valor discriminativo nos permite mejorar las preguntas
3. Podemos dificultar las demasiado fáciles y facilitar las demasiado
difíciles
4. Podemos construir pruebas de dificultad ajustada. Podemos construir
pruebas con un mayor poder de discriminación con un menor número
de items. De este modo podemos reducir el tiempo de respuesta al
MCQ de dos horas a una hora e introducir más preguntas de respuesta
escrita.
26. Problemas de las preguntas sin contexto
Sin contexto, es difícil poner a prueba niveles cognitivos complejos.
Un error frecuente es aumentar artificialmente la dificultad de los
items preguntando detalles rebuscados e irrelevantes y esconderlos
entre distractores que también son afirmaciones altamente
especificas e irrelevantes (incluso ignoradas por los expertos).
Prueba del algodón Si un compañero de especialidad (competente)
no saca un 90-95% no es un buen examen, estas preguntando
chorradas que no se saben ni los expertos. ¡Quita del examen esas
preguntas que tus compañeros fallan!
27. Exámenes que exigen memorización de
detalles chorras
Consiguen que los alumnos se esfuercen en la memorización de
chorradas.
Estos exámenes MCQ que sólo se superan memorizando detalles
irrelevantes y rebuscados son un ejemplo de mala práctica en
evaluación que desgraciadamente esta muy extendida.
Este mal empleo del MCQ es lo que ha desacreditado y creado la mala
fama de este tipo de exámenes.
Caer en este tipo de error es lo que debemos evitar a toda costa.
28. Impacto educativos de los exámenes que
preguntan chorradas
El resultado es que con tal de aprobar los alumnos se aprenden
chorradas irrelevantes de memoria pero no aprenden los
conceptos importantes porque no se pregunta sobre ellos.
Hacen mas difícil interpretar el significado que tiene el que un
alumno acierte o falle si los distractores son opciones
disparatadas.
29. ¿Cómo hacer preguntas de calidad con
facilidad?
Evitar preguntar detalles chorras (aquellos que se le olvidan hasta al profesor)
¿Cómo comprobar esto?
Pídele a un compañero que responda a tu cuestionario y te de feedback
Debes estar preparado para que te diga que hay preguntas que preguntan chorradas.
Sus observaciones te ayudarán a mejorar preguntas, a deshacer malentendidos, etc.
Una pregunta que falla un compañero, es ambigua o irrelevante pues pregunta algo que el
experto no sabe.
Una pregunta que le parece una chorrada a un compañero experto es una chorrada
aunque a ti no te lo parezca.
Estas preguntas deben ser retiradas del borrador del examen.
Debemos esforzarnos por incluir algunas preguntas con iconografía permiten evaluar
aprendizajes que las preguntas sin iconografía no pueden evaluar.
30. Preguntas con contexto iconográfico
Incluidas en el MIR a partir de 2009
10
100
1000
10000
100000
1000000
10000000
0 1 2 3 4 5 6 7 8
Tiempo (semanas)
1ª 2ª 3ªinmunización
AfinidadM-3
0.01
0.1
1
10
100
1000
10000
0 1 2 3 4 5 6 7 8
IgM
IgG
Concentraciónmg/ml
31. Pregunta con contexto iconográfico
(viñeta experimental)
Se trata a un paciente con el anticuerpo
monoclonal Rituxan y se estudia la evolución de
su actividad, los recuentos sanguíneos de células
B y los niveles de autoanticuerpos antinuclerares.
Los resultados demuestran que:
A. La terapia funciona, logra su objetivo al menos
durante dos años.
B. La terapia deplecciona las células B
autorreactivas durante dos años.
C. La reducción en autoanticuerpos es la causa de la
respuesta clínica
D. A y C son ciertas.
E. Todas son ciertas
31Efectos del tratamiento con Rituxan anticuerpo
monoclonal anti CD20 de pacientes con AR
32. Formato de la pregunta MCQ
Con contexto e iconografia
Contexto
Viñeta
Raíz
Opciones
• Observar el plot adjunto. Obtenido con linfocitos
estimulados in vitro con mitógenos. Que relación se
observa entre la producción de las citocinas IL-2 e
IFN g
A. disociación
B. asociación
C. aleatoria.
D. La producción de citocinas, ni se asocia, ni se disocia,
sólo se conserva.
IFNg+IL2-
20%
IFNg+IL2+
10%
IFNg-IL2-
50%
IFNg-IL2-
20%
Sugerencia hacer las
preguntas en Power Point para
incorporar imágenes con
facilidad e imprimir de seis en
seis cómo documentos.
33. Pregunta con
contexto iconográfico
(viñeta experimental)
Examina la imagen y concluye si el
tratamiento de la Brucelosis se asocia a:
A. Una reducción en los porcentajes de
linfocitos CD4 y CD8 productores de
citocinas.
B. Una normalización en los porcentajes de
linfocitos CD4 y CD8 productores de
citocinas
C. Un aumento en los porcentajes de
linfocitos CD4 y CD8 productores de
citocinas
D. B y C son ciertas
E. Todas son ciertas
CD4+
CD8+
34. Pregunta con
contexto iconográfico
(viñeta experimental)
Examina la imagen y concluye si el tratamiento
de la Brucelosis produce:
A. Un aumento significativo en el porcentaje de
células que fagocitan E coli.
B. Una normalización en la capacidad fagocítica
media de los fagocitos
C. Una normalización del índice fagocítico de las
células fagocíticas
D. B y C son ciertas
E. Todas son ciertas
35. Elementos en las preguntas que dan pistas a alumnos
ignorantes pero avispados y les permiten acertar
aunque no sepan lo que preguntamos
Elemento Explicación Solución
Pistas gramaticales Una o más opciones no siguen la
orientación gramática de la raíz
Comprobar que todas las
opciones la siguen
Pistas lógicas si es A no
puede ser B
Opciones mutuamente excluyentes Evitar que unas opciones
excluyan a otras
Si tiene un término
absoluto es falsa
Indican no me elijas Uso cuidadoso e intencionado
de los términos absolutos
La cierta es la más larga Opción correcta es la más larga, la
más específica o detallada
Evitar que la correcta sea la más
larga , poner una falsa más larga
Repetición de palabras
de la raíz se produce en
la opción correcta
la opción correcta comparte
palabras con la raíz
Evitar que la repetición de
palabras ocurra sólo en la
correcta, repetir las en las falsas
Convergente la opción correcta contiene
elementos de las otras opciones
Incluir distractores convergentes
pero con falsedades
Sesgo la opción todas son correctas es
cierta demasiadas veces
Evitar que esa opción sea la
correcta introduciendo opciones
sutilmente falsas .
36. ¿Cómo podemos hacer preguntas sobre
ideas básicas esenciales manteniendo un
nivel de dificultad elevado?
V/F no recomendable un 50% de probabilidad de acierto por azar.
Recomendación ofrece opción neutra o no contestar. No lo se con
certeza y penalizar el error con -1 punto
Las V/F son buenas herramientas para la evaluación formativa pero
malas para la acreditativa por su bajo poder discriminativo.
Sistema de combinación de varios V/F
Dos VF y una opción de reconocimiento de ignorancia
Dificultad (VF)2=VF x VF
Tres VF dfificultad (VF)3=VF x VF x VF
Cuatro VF (VF)4= VFx VF x VF x VF (con cinco opciones no podemos
explorar más que una combinación de ellas)
37. Ventaja del formato de la pregunta MCQ
(V/F)2
Raíz
Opciones
• En relación a los métodos de obtención y purificación de
anticuerpos a partir de antisueros policlonales es cierto
que:
A. Los adyuvantes disminuyen la inmunogenicidad de los
antígenos.
B. Los anticuerpos de un antisuero policlonal purificados
por afinidad a la molécula antigénica reconocen un
mismo epítopo de la molécula antigénica.
C. Ay B son falsas .
D. A y B son ciertas.
E. No tengo certeza de cuál es la cierta. No he estudiado
lo suficiente para saberlo. Debería consultarlo.
F - 0,25
F - 0,25
V + 1
FF - 0,5
Opción
segura 0
Permite aplicar más penalización a los errores dobles que a los simples
Permite reconocer la limitación del conocimiento propio
38. Formato de la pregunta MCQ (V/F)3
Raíz
Opciones
• En relación a los métodos de obtención y purificación de
anticuerpos a partir de antisueros policlonales es cierto
que:
A. Los adyuvantes disminuyen la inmunogenicidad de los
antígenos.
B. Los anticuerpos de un antisuero policlonal purificados por
afinidad a la molécula antigénica reconocen esa molécula
antigénica.
C. Los adyuvantes se unen químicamente a los antígenos
D. A y C son ciertas.
E. Todas son ciertas.
F - 0,66
V 1
F -0,66
FF - 0,66
FF -0,66
39. ¿Cómo aumentar la fiabilidad de la
prueba?
Aumentar el número de items para valorar un mismo objetivo. En esto el
MCQ es imbatible.
Fijar criterios de corrección claros y objetivos, por ejemplo con rúbricas
de corrección que establecen criterios y describen niveles de logro para
cada uno de ellos.
Escoger items de distinta dificultad
Escoger items de alta capacidad de discriminación. Necesitaremos menos
items para diferenciar entre distintos niveles de conocimiento.
Para mejorar la capacidad de discriminación de un item podemos
seleccionar y eliminar distractores menos creíbles por medio del análisis
de frecuencias de error.
Items de alta capacidad de discriminación hacen que la fiabilidad aumente,
el problema es que la dificultad aumenta y las notas medias bajan.
40. Efecto del aumento de preguntas
discriminativas en la nota media del test
0
1
2
3
4
5
6
7
8
2001/2002 2002/03 2003/04 2004/05 2005/06 2006/07 2007/08 2008/09 2009/10 2010/11 2011/2012 2012/2013
Licenciatura (sin JITT) Grado (JITT)
41. Impacto educativo de la evaluación en el
aprendizaje
También denominado validez consecuencial.
Le evaluación es la fuerza más potente para dirigir el
esfuerzo del alumno e inducir el aprendizaje, por
tanto debería ser el primer item en la agenda del
cambio del currículo no el último, como ha ocurrido
con la adaptación al EEES.
Esta noción, que ha ganado mucha aceptación general
entre los expertos en evaluación, no ha permeado a los
responsables académicos.
42. Cuestiones acerca del impacto educativo
¿Contribuye nuestra evaluación al logro de esos
aprendizajes que queremos conseguir?
¿Como combinar la evaluación formativa y
sumativa? ¿Qué peso dar a cada una?
¿Cuanta evaluación es necesaria?
¿Cómo proporcionar retroinformación?
¿Cómo distribuir la evaluación sobre el tiempo?
43. Índice de dificultad (Idif) de un item de la prueba
(frecuencia de acierto en el grupo completo)
Idif = (Nº de alumnos que aciertan/Nº total de alumnos)
Idif > 0,85 item muy fácil
Idif entre 0,6 y 0,8 fácil
Idif entre 0,4 y 0,6 dificultad media
Idif entre 0,15 y 0,4 difícil
Idif <0,15 muy difícil
Debemos construir la prueba combinando preguntas con distintos
niveles de dificultad por ejemplo: 25% fáciles, 25% de dificultad
media, 25% difíciles, 25% muy difíciles.
44. Índice de discriminación (Idisc) de un item de la prueba
Mide la capacidad de un item para discriminar entre los alumnos que dominan
el conocimiento evaluado y los que no.
Compara la dificultad para los distintos grupos de alumnos definidos por sus
distintos niveles de conocimiento.
Preguntas de puntuación continua (preguntas de respuesta escrita)
I disc= (puntuación media del 50% que más dominan - puntuación media del 50%
que dominan menos)/puntuación media del totalMatriz de obtención
Preguntas de acierto fallo (MCQ)
I disc= (frecuencia de acierto en el 50% que más dominan - frecuencia de acierto
en el 50% que dominan menos)/ frecuencia de acierto media
Función conversión coincidencia = 1; no coincidencia = 0
45. Interpretación del índice de discriminación
I disc>0,4 muy buen índice de discriminación
I disc entre 0,3 y 0,4 buen índice
I disc entre 0,2 y 0,3 índice que debe mejorarse
I disc entre 0 y 0,2 índice muy pobre
I disc negativo la pregunta esta mal planteada, es ambigua o la
respuesta que damos por correcta esta simplemente equivocada.
46. Ejemplo en una asignatura
Item Índice discriminación
Primer MCQ 0,18 Índice de discriminación muy pobre
Preguntas breves 0,23 Índice de discriminación pobre
Presentación oral 0,01 Índice muy pobre
Participación 1,01 Muy buen índice
JITT 0,23 Índice de discriminación pobre
Desarrollo 0,46 Muy buen índice
Corta 1 0,24 Índice de discriminación pobre
Corta 2 0,31 Buen índice
Corta 3 0,42 Muy buen índice
Corta 4 0,43 Muy buen índice
Suma cortas 0,34 Buen índice
Segundo MCQ 0,30 Buen índice
47. Clasificación de preguntas por su
dificultad en distintos subgrupos
(índice de discriminación )47
0 25 50 75 100
Las que
saben
todos
Percentil en calificación
Las que
saben casi
todos
Menos los
del cuartil
inferior
Porcentajequeaciertanenesapregunta
Las que
saben la
mitad
que más
saben
Las que
saben los
del cuartil
superior
Las que
sólo saben
los que
mejor
estudiaron
100
50
0
48. Estudio de caso cálculo de índices de dificultad y
discriminación en tests de pruebas acreditativas
Ejemplo en Excel
lista inmunología 2014connotas.xls
49. Dilema:
Si nos esforzamos mucho por hacer buenas preguntas…
¿deberíamos deshacernos de ellas al primer uso?
Hacer una buena pregunta cuesta trabajo.
Si hacemos un examen de 80 MCQ y tras usarlas se las damos a los
alumnos.
1. Acabaremos haciendo preguntas a la carrera y su calidad se
resentirá.
2. No estaremos en condiciones de garantizar la calidad de nuestras
preguntas .
3. Si las reutilizamos en futuras pruebas no tendremos certeza de si
nuestros alumnos las aciertan porque saben o porque se las
estudian de memoria.
4. y nuestros alumnos acabarán estudiando exámenes, que estarán
llenos de preguntas chorras sobre detalles rebuscados.
50. Debate:
Tenemos dos alternativas:
1. Hacerlas y tras usarlas, proporcionarlas a los alumnos.
Permite la impugnación de preguntas impugnables pero…
Las quemamos pues si las volviéramos a usar no sabríamos si el alumno
acierta por que sabe o porque memorizó la respuesta correcta.
Podemos producir más preguntas pero serán de menos calidad.
Desconoceremos su poder discriminativo al no haberlas utilizado
previamente.
Ejemplo: área medicina muchos asociados. Muchos medios
2. Mantener confidencialidad, determinar su dificultad y su poder de
discriminación. Mejorar su calidad y componer la prueba.
Vamos reciclando un 25% al año pasan de evaluación sumativa a formativa y
se meten nuevas.
Aseguramos que la mayoría de las preguntas del examen son de calidad y
tienen un alto poder discriminativo. Esto nos permite hacer tests de menos
preguntas y combinarlos con preguntas de respuesta escrita.
51. Si queremos construir exámenes con preguntas de calidad
¿Cómo debe ser el proceso de producción de preguntas?
Principio: Las preguntas de calidad cuestan trabajo.
Hay derecho a revisión de examen pero no las damos y estudiamos
el poder discriminativo de las preguntas y vamos mejorando la
prueba.
El tiempo del profesor es precioso y las preguntas de calidad son
muy valiosas y para poder seguir usándolas tenemos que
manejarlas con confidencialidad.
Nosotros no entregamos las preguntas de exámenes finales y si
entregamos las que usamos en evaluación formativa.
52. Revisión del valor de las preguntas tras
su uso
Determinación de los porcentajes de error, índices de
discriminación y dificultad (los programas de corrección
automática pueden proporcionarlos).
Análisis de errores.
Ejemplo
1 Análisis automático porcentaje de alumnos que aciertan cada
pregunta y que escogen cada una de las opciones erróneas.
Análisis de poder discriminativo.
Detectamos errores en preguntas o en plantillas de corrección
53. Evaluación de la aplicación del conocimiento
Método ¿Es válido,
Discrimina?
¿Es
fiable?
¿Qué impacto
educativo tiene?
¿Uso?
¿abuso?
Practicabilidad
Sostenibilidad ¿Se
puede con cien?
¿escalable?
MCQ ++ +++ Depende de contexto
de las preguntas
si
Desarrollo +++ + Bueno Con muchos cuesta
casos +++ Requiere
entrenamiento
Pueden resolverse por
preguntas MCQ
Preguntas cortas ++ ++ si
Examen oral + + Comunicación oral Asincrónico no escalable
presentaciones + + Comunicación oral Difícilmente escalable
Registro
participación
+++ Fomenta
participación
Si con HCAP
Comprobación del
estudio, tareas
++ ++ Fomenta trabajo Si con cuestionarios on
line
54. Uso y abuso del MCQ
54
Profesores y alumnos lo prefieren. Por la misma razón, para
trabajar menos.
Para los alumnos es mucho más fácil prepararse para un
examen de test que para un examen que incluya distintos tipos
de preguntas.
Si solo se usa MCQ de reconocimiento de hechos sin preguntas
contextuales los alumnos estudiarán superficialmente y de
memoria.
Para los profesores es más fácil corregirlo automaticamente.
Las clases masificadas acentúan la selección de este método
por los profesores
55. Limitaciones del MCQ
Es representativo y fiable pero debemos
combinarlo con otros métodos pues no sirve por
ejemplo para:
E valuar como el alumno expresa su conocimiento
oralmente o por escrito.
Evaluar el nivel de estructuración del conocimiento
del alumno
Evaluar capacidad de aprendizaje autónomo
56. Pobres correlaciones entre MCQ y
preguntas de desarrollo
56
Son muy bajas.
r entre 0,2 y 0,5
Indican que aplicando distintos
métodos de evaluación a la misma
materia obtenemos medidas muy
distintas.
¿Qué ocurrirá si sólo usamos un
método de evaluación?
El resultado será muy sesgado.
Por ello es mejor combinar varios.
Test y preguntas de respuesta
escrita al 50%
0
2
4
6
8
10
12
0 2 4 6 8 10
correlación MCQ vs.
preguntas de respuesta escrita
Inmunología 2011/12
Notas del editor
1Se preocupa por lo que debe aprenderse evaluación dificil pregunta detalles chorras
2 explcar mejor lo que debe aprenderse
3 ejercitar mejor lo que debe aprenderse
Med Educ. 2004 Sep;38(9):974-9.
Different written assessment methods: what can be said about their strengths and weaknesses?
Schuwirth LW, van der Vleuten CP.
Department of Educational Development and Research, University of Maastricht, PO Box 616, 6200 MD Maastricht, The Netherlands.
Abstract
INTRODUCTION: Written assessment techniques can be subdivided according to their stimulus format--what the question asks--and their response format--how the answer is recorded. The former is more important in determining the type of competence being asked for than the latter. It is nevertheless important to consider both when selecting the most appropriate types. Some major elements to consider when making such a selection are cueing effect, reliability, validity, educational impact and resource-intensiveness. RESPONSE FORMATS: Open-ended questions should be used solely to test aspects that cannot be tested with multiple-choice questions. In all other cases the loss of reliability and the higher resource-intensiveness represent a significant downside. In such cases, multiple-choice questions are not less valid than open-ended questions. STIMULUS FORMAT: When making this distinction, it is important to consider whether the question is embedded within a relevant case or context and cannot be answered without the case, or not. This appears to be more or less essential according to what is being tested by the question. Context-rich questions test other cognitive skills than do context-free questions. If knowledge alone is the purpose of the test, context-free questions may be useful, but if it is the application of knowledge or knowledge as a part of problem solving that is being tested, then context is indispensable. CONCLUSION: Every format has its (dis)advantages and a combination of formats based on rational selection is more useful than trying to find or develop a panacea. The response format is less important in this respect than the stimulus.
he/she should know his/her own limits of expertise, and should know what to do when those limits are reached. C 1
E0
A-0,5
B-0,5
D-1
Con pocas de estas diferenciamos a los que no tienen ni idea
C
¿Cuales son las dos o tres afirmaciones falsas? ¿cuales afirmaciones son verdaderas la una o dos ?
D
Si queremos que aprendan las conceptos importantes debemos preguntarles sobre las conceptos importantes
Las preguntas de test son Como el power point o las armas de fuego
Peligro en manos de gente no preparada para usarlas
Sugerencias : haz lo contrario pon alguna correcta con termino absoluto, falsas alargadas
La penalización es terrible
Metedurasa de pata son la mejor fuente de distractores
Un profesor que sabe que confunden sus alumnos recrea en los distractores lasa meteduras de pata más comunes
Hacer curvas notamedia 10 mejores 10 peores
David graficas y analisis SPSS
Medicina inmunología si lanorma me dice que hay que entregar examenes lo llamo pruebas.
Conejemplos de este año
Impreso en papel para hacer en clase
¿De que depende? de lo que quiera medir de cómo sean las preguntas