Resumimos las ideas mas importantes de Cees van der Vleuten acerca de la evaluación Sus nociones de función de utilidad de la evaluación y de compromiso en la evaluación
¿Qué tiene que decir la investigación acerca de la evaluación?
1. I D E A S D E C E E S V A N D E R V L E U T E N
S O B R E L A E V A L U A C I Ó N D E L A P R E N D I Z A J E
1
¿Qué tiene que decir la investigación
acerca de la evaluación?
2. Características de los instrumentos de
evaluación
Cada instrumento de evaluación tiene una serie de
características :
1. Validez
2. Fiabilidad
3. Impacto educativo
4. Aceptabilidad
5. Coste en medios humanos, materiales y económicos
El compromiso es … que no podemos tenerlo todo
tenemos que conformarnos con tener unos puntos
fuertes comprometiendo otros menos esenciales.
3. Función de utilidad de un método de
evaluación
U= pf F x pv V x pie IE x pa A /pc C
U= Utilidad
F = fiabilidad ¿es repetible el resultado?
V= validez ¿vale para medir lo que quiero?
IE = Impacto educativo ¿cómo afecta al aprendizaje?
A = Aceptabilidad ¿es aceptable para alumnos profesores
y pacientes?
C = coste ¿podemos permitírnoslo?
P= peso relativo
En Evaluación formativa importa el impacto en
Evaluación acreditativa la fiabilidad y validez
4. Discusión de la importancia de los elementos
Fiabilidad
¿Es más fiable una medida aislada o la combinación
de muchas?
Validez
¿Es valido evaluar casi todo al nivel inferior de la
pirámide de Miller (Sabe) cuando lo importante está
en los niveles superiores de la pirámide de
autenticidad?
5. Sistema tradicional
(de input de conocimientos)
Tantas horas de …
La mayoría de la evaluación no va mas allá de la
evaluación del conocimiento.
Evaluación por asignaturas.
Sin evaluación interdisciplinar de progreso en
conocimientos.
Sin evaluación interdisciplinar de desarrollo de
competencias.
En algunos países tras la finalización de los estudios,
los Colegios Profesionales evalúan la competencia
profesional.
6. Sistemas de resultados (outcomes)
CanMeds
(Canada)
Experticia médica
Comunicador
Colaborador
Gestor
Defensor y
consejero de salud
Académico
Profesional
ACGME
(US)
Conocimiento médico
Cuidado de pacientes
Aprendizaje y mejora
basada en la práctica
Habilidades de
comunicación
interpersonal
Profesionalismo
Práctica basada en
sistemas
• GMC
• (UK)
•Buen cuidado clínico
•Relaciones con
pacientes y familias
•Trabajo con colegas
•Gestión del lugar de
trabajo
•Responsabilidad social
•Profesionalismo
7. Nuevos currículos orientados
al desarrollo de competencias
Énfasis en desarrollo de competencias y en la
acreditación de competencias
No son fáciles de evaluar, las competencias son constructos
muy complejos que requieren de contextos reales o
simulados para ser puestos a prueba.
Debemos confiar en el juicio profesional (subjetivo), pero
hay que hacer un muestreo suficiente y proporcionar
rúbricas que explicitan criterios y aportan escalas de
niveles.
Como un estudiante se comporta en la escuela de medicina, es
predictivo sobre como se comportará en su futuro profesional
8. E V A L U A C I Ó N F O R M A T I V A
N O T I E N E A L T A
R E P E R C U S I Ó N
S O N I M P O R T A N T E S , E L
I M P A C T O E S T I M U L A D O R
D E L E S F U E R Z O
Y E L F E E D B A C K
P O D E M O S C O M P R O M E T E R
F I A B I L I D A D Y V A L I D E Z
A C A M B I O D E
P R A C T I C A B I L I D A D
8
La noción de Compromiso en
Evaluación de competencias
E V A L U A C I Ó N
A C R E D I T A T I V A
T O M A D E D E C I S I O N E S D E
A L T A R E P E R C U S I Ó N
I M P O R T A N T E
F I A B I L I D A D Y V A L I D E Z
N O P O D E M O S
C O M P R O M E T E R L A S
S E N E C E S I T A N L O S
R E C U R S O S D E U N A
F A C U L T A D N O D E U N A
A S I G N A T U R A
9. 9
Evaluación formativa
Debemos aprender a usar herramientas para una evaluación continua más eficiente
Los cuestionarios on line y las herramientas de evaluación por compañeros
(Taller de moodle) y rúbricas.
La evaluación continua no tiene repercusiones irreparables
¿por qué esmerarse tanto tantas veces?
11. Ejemplo competencia para la comunicación
80% de las quejas en atención al paciente están
relacionadas con la comunicación
El currículo tradicional no fomenta su desarrollo ni garantiza
que los alumnos vayan desarrollándola.
Poner un ECOE al final de los estudios es sólo una pequeña
parte de la solución
Tenemos que poner a los alumnos en situaciones en las que
tengan que ejercitar su competencia para la comunicación en
distintas situaciones profesionales tipo.
Es necesario abordar el desarrollo de esta competencia de un
modo transversal desde múltiples asignaturas e incluso crear
asignaturas centradas en su fomento.
12. Impacto en el aprendizaje:
“El reduccionismo impera”
Venimos de una cultura:
1. “de calificaciones sin feedback”.
2. Obsesionada con la objetividad MCQ OSCE
3. Acostumbrada a una enorme pérdida de información
(conversión del multivector en un número escalar.)
4. No hay remediación, sino repetición basada en un modelo
educativo desfasado.
1. Repites primero examen y si no vale repites curso
5. Trivialización frecuente del abordaje ante la evaluación
“preparación para la prueba”
MCQ estudio sólo respondiendo preguntas a de test
OSCE me preparo que hacer en estaciones que puedan caer
13. La evaluación dirige lo que se aprende y lo que no
You get what you assess
You don’t get what you don’t assess
Si no evalúo precisamente eso que quiero que
aprendan
¿Qué podemos concluir?
Podemos concluir que, no lo aprenderán la mayoría
de los alumnos.
14. B A S A D O E N L A C O N F E R E N C I A
D E C E E S V A N D E R V L E U T E N
¿ W H A T R E S E A R C H H A S T O S A Y A B O U T
A S E S S M E N T ?
P R O N U N C I A D A E N R E S P U E S T A A L A
C O N C E S I Ó N D E L P R E M I O E N E D U C A C I Ó N
M É D I C A D E L I N S T I T U T O K A R O L I N S K A
¿Qué tiene que decir la investigación
acerca de la evaluación del aprendizaje?
14
15. Visión general
1. Introducción. El ejemplo de la evaluación de las
competencias en profesionales sanitarios
2. Instrumentos de evaluación, formato del
estimulo, tarea y formato de la respuesta.
3. Conclusiones de la investigación sobre evaluación
que se transforman en principios de la evaluación
del aprendizaje.
4. Implicaciones para la práctica, ejemplos de cómo
usar los principios con sentido común
5. Conclusiones
15
16. 1. Introducción
La pirámide de Miller
Modelo sencillo de evaluación de competencias
Autenticidadprofesional
Hace
(does
performance)
demuestra
como haría
(shows how competency)
Conoce
como hacer
(knows how)
Conoce
(knows)
Comportamiento
Cognición
Miller GE. The assessment of clinical skills/competence/performance.
Academic Medicine (Supplement) 1990; 65: S63-87.
Cuidado diario del paciente: evaluado
por observación directa del desempeño en
situaciones clínicas reales
Demostración de habilidades clínicas:
Puesto a prueba con simulación
pacientes simulados estandarizados
(Incognito, ECOE/OSCE)
Exámenes habilidades clínicas
Aplica conocimiento:
resolución de problemas
clínicos
conocimiento es puesto a
prueba en exámenes orales y
escritos
16
17. Instrumentos de evaluación
Formato de Estimulo vs. respuesta
Formato del estímulo. Algunos equipos de futbol han
ganado más copas de Europa que otros. ¿Cuál de los
siguientes equipos ha ganado más copas de Europa?
Formato de la Respuesta A. Real Madrid
B. Bayern de Munich
C. FC Barcelona
D. Manchester United
E. Milan
17
18. Formatos de estímulo y respuesta en
evaluación del aprendizaje
Hace
(contexto real)
demuestra
como haría
(contexto simulado)
Conoce
como hacer
(contexto descrito)
Conoce
(factual sin contexto)
menú, escrito,
abierto,
oral,
basado en
ordenador
menú, escrito, abierto,
oral, basado en
ordenador
observación directa,
lista de comprobación,
escalas de calificación,
rúbricas
Formato de respuesta
observación, lista de
comprobación,
escalas de calificación,
rúbricas, narrativas
18Formato de Estímulo
Ejecución,
práctica habitual
(paciente real)
Escenario práctico de simulación
(paciente simulado)
escenario con contexto
(paciente)
Caso prueba
Orientado
a conocer
hechos
19.
20. Estandarización de la evaluación del
aprendizaje a distintos niveles
Autenticidadprofesional
Hace
en contexto real
demuestra
como haría
Demostración en
contexto simulado
Conoce como hacer
Contexto descrito o ilustrado
donde hay que explicar como se
hace
Conoce
-Sin contexto,
-No hay nada que hacer
Evaluación
de desempeño
No estandarizada
Evaluación
de aprendizaje
Estandarizada
(administrada de
la misma manera
a todos los
examinandos)
Juicio experto subjetivo,
compensación de sesgos,
escalas
ECOE
Tribunales
rúbricas
MCQ
Test de
progreso
Objetividad del
método de evaluación
Nivel de estandarización
21. Evaluando los 3 niveles inferiores de la pirámide:
¿Conoce, conoce cómo hacer y demuestra cómo lo haría?
Los seis principios de evaluación estandarizada del
aprendizaje
1. La competencia es especifica (de ciertos contextos), no
genérica
2. La objetividad no es lo mismo que la fiabilidad
3. El formato del estímulo determina más lo que se mide que el
formato de la respuesta que se recoge.
4. La validez puede ser construida e incorporada a nuestro sistema.
5. La evaluación conduce el aprendizaje.
6. Ningún método único puede hacerlo todo.
21
22. Evaluando el nivel superior (el desempeño):
¿hace?
Los seis principios de evaluación del aprendizaje de manera
no estandarizada.
1. Para lograr inferencias fiables se requiere una muestra lo más amplia que
sea factible.
2. El sesgo es una característica inherente del juicio experto subjetivo.
3. La validez se debe más a los que usan los instrumentos que a los
propios instrumentos.
4. Las funciones formativa y sumativa se combinan.
5. La información narrativa y cualitativa tiene un enorme peso.
6. Decisiones sumativas pueden ser rigurosas usando procedimientos no
psicométricos de investigación cualitativa.
22
23. Primer principio de evaluación
de Cees van der Vleuten
La competencia es específica de un
contexto, no genérica,
“What we found time and over again is that performance
on a particular question situation, essay, station or
whatever you have is not very predictive for
performance in another context, another station,
another problem, so actually performance is very
variable.
It means that if you want to make an inference about
someone's ability you cannot do it on a very limited
sample observations. If performance is very variable you
have to have a large sample observations in order to
make an inference which is no longer dependent on the
particular sample observations.”
Cees van der Vleuten
23
24. La ejecución de competencia
es dependiente del contexto
¿Cómo hacer una evaluación fiable?
Si la competencia depende del contexto de ejecución,
entonces la fiabilidad de sus medidas será dependiente
del muestreo en diversos contextos.
Debemos examinar una misma competencia en
distintos contextos, por distintos profesores,
incluso en distintas asignaturas.
24
25. ¿Cómo podemos tomar decisiones fiables?
La repetitividad de medidas en un individuo
(par vs. impar) y la correlación entre medidas
repetidas de los mismos individuos dentro en el
conjunto de la población nos dan medidas de la
fiablilidad.
Necesitamos una correlación de al menos
r=0,80 para tomar decisiones fiables.
25
26. ¿Depende la fiabilidad del método que usemos?
¿Es una característica del método?
¿Cuáles son las metodologías más fiables? ¿Cuáles más factibles?
multiple
Choice
questionnaire
Patient
management
problem
Objective
structured
Clinical
Examination
Simulated
patients
clinical
examination
Se representa el coeficiente de correlación entre medidas repetidas de cada candidato en un grupo
26
27. ¿Depende la fiabilidad del método que usemos?
¿Es una característica del método?
0,85
Los métodos subjetivos pueden ser tan fiables como los objetivos
La fiabilidad depende del muestreo, no de la objetividad.
¿es fiable la medida en sólo una hora por algún método?
Se representa el coeficiente de correlación entre medidas repetidas de cada candidato en un grupo
multiple
Choice
questionnaire
Patient
management
problem
Objective
structured
Clinical
Examination
Simulated
patients
clinical
examination
29. Implicaciones prácticas del primer principio
La competencia es específica del contexto de medida, no
genérica
Una sola medida no es una buena medida (ej. báscula)
Aumenta el muestreo (a través del contenido, examinadores,
pacientes) dentro de las medidas.
Combina información entre distintas medidas, replicándolas a lo
largo del tiempo.
Estate alerta de la posibilidad de decisiones falsamente positivas
y falsamente negativas ¿cuál es el riesgo de que ocurran?
Incluye salvaguardas en las regulaciones sobre evaluación. ¿Cómo
podemos asegurarnos de que el sistema de evaluación es más fiable,
válido y no mide trivialidades?
29
30. 30
No.
¿Por que?
¿Qué debemos hacer?
1. debemos reservar un aula más grande o separar entre si a
los alumnos
2. Durante mas tiempo 2-3 horas
3. Debemos construir una prueba altamente discriminativa
4. Debemos evaluar en base a una serie de pruebas en lugar de
en base a sólo una
Ejemplo de aplicación del primer principio
¿Son fiables los exámenes
realizados en una hora de clase
con los alumnos como piojos en costura?
31. Segundo principio de evaluación
Objetividad no es lo mismo que fiabilidad31
Báscula
Ranking
Correlación
Sensibilidad
especificidad
Fiabilidad se mide con correlación obtenida con una muestra de medidas replicadas
multiple
Choice
questionnaire
Patient
management
problem
Objective
structured
Clinical
Examination
Simulated
patients
clinical
examination
Se representa el coeficiente de correlación entre medidas repetidas de cada candidato en un grupo
¿Cuáles son las metodologías más fiables? ¿Cuáles más factibles?
32. Maneras de aumentar la fiabilidad de las
pruebas subjetivas (que requieren juicio subjetivo)
1. Compensa las influencias subjetivas comparando
juicios de varios sujetos
Corrección por parejas de correctores (en otros países es la norma)
aquí no.
Multiobservadores (tribunales)
2. Fija explícitamente los criterios y niveles de
ejecución y valoración
Las Rúbricas fijan los criterios y las descripciones de los niveles.
Pero no tengas miedo a un juicio experto holístico
32
33. Fiabilidad del examen oral (Swanson, 1987)
Mensaje: múltiples evaluaciones subjetivas pueden producir una medida fiable
La fiabilidad depende del muestreo, escoger una muestra suficiente y representativa
33
34. Implicaciones prácticas
Objetividad no es lo mismo que fiabilidad
1. No trivialices la evaluación (y comprometas su
validez) con objetivación y estandarización
innecesarias.(ej. en examen oral preguntar lo
mismo a todos).
2. No temas la realización de un juicio holístico
profesional y experto si es obtenido con un
muestreo representativo y amplio.
3. Muestrea ampliamente a través de las fuentes
de influencia subjetiva (calificadores,
examinadores, pacientes ).
34
35. Ejemplos de a aplicación del 2ºprincipio
Objetividad no es lo mismo que fiabilidad
35
Aumentar la fiabilidad de exámenes escritos de
evaluación continua
Reserva más tiempo, en un aula más grande
Construye pruebas que combinen MCQ (varios modelos para
dificultar la copia) y respuesta escrita
Construye pruebas con preguntas de poder discriminativo
contrastado anteriormente
Aumentar fiabilidad de la evaluación de
presentaciones
Pareja calificadores o mismo calificador para todos.
Rubrica como guía y herramienta para escoger puntos sobre
los que retroinformar, no para calificar.
36. 36
Excelente Competente Necesita hacerlo mejor
Conocimiento
/comprensión
20 sobre 20
Demuestra una comprensión
profunda del artículo
Comprenden la
mayoría
No comprenden algunos
aspectos importantes
Pensamiento
/investigación
35 sobre 35
Han investigado más allá del
texto asignado y han aprendido
sobre los conceptos básicos
necesarios para comprenderlo
Han investigado pero
no han aprendido todo
lo necesario sobre los
conceptos básicos
No se observa investigación
aparente
El conocimiento sobre
conceptos básicos es
claramente insuficiente
Comunicación
15 sobre 20
El guión de explicación es claro y
estructurado,
análisis completo
Responde eficazmente a las
preguntas de la audiencia
El guión es
estructurado pero
quedan aspectos sin
analizar
Respuestas
parcialmente correctas
El guión de explicación es con
fuso
el análisis es incompleto y
desestructurado
No responden a lo que se les
pregunta
Uso de ayudas
visuales
10 sobre 15
La presentación audiovisual
transmite eficazmente
diapositivas claras
La explicación se apoya en ellas
Aplican ejemplarmente la normas
Buena parte de las
diapositivas son claras
Pero algunas no lo son
De vez en cuando lee
Incumple algunas
normas
La información no esta
resumida
Diapositivas confusas
Lee demasiado
Ignoran las normas
Habilidad para
la presentación
6,25 sobre 10
Habla claramente con volumen
suficiente para ser oído y
velocidad apropiada para ser
entendido, tono vivo,
mantiene contacto visual,
lenguaje corporal estimula la
atención
Buen volumen pero
demasiado veloz ,
tono poco variado
Poco contacto visual
usa buen lenguaje
corporal solo a veces
Volumen inaudible, difícil de
seguir
monótono
No intenta interaccionar con
la audiencia a través de
contacto visual o lenguaje
corporal
¿Cómo usar la rubrica?
36
Calificación Feedback
37. Tercer principio de evaluación
Lo que esta siendo medido por un instrumento
de evaluación depende más del formato del
estímulo que del formato de la respuesta.
El estimulo que proporcionemos determina más la
tarea que el alumno debe realizar, que el tipo de
respuesta que recojamos.
Por ejemplo podemos usar MCQ para recoger el
resultado de la resolución de un problema
científico matemático.
37
40. La biblia en elaboración de cuestiones para las ciencias básicas y clínicas
Tutorial interactivo www.nbme.org/IWTutorial
En español: http://www.nbme.org/publications/item-writing-manual-download.html#spanish
40
41. Implicaciones prácticas
Lo que se mide, depende más del formato del estímulo
que del formato de la respuesta.
1. No te cases sólo con un formato de estímulo-respuesta (por
ejemplo ensayos o MCQ)
2. Preocúpate sobre todo de mejorar el formato del estímulo
3. Haz el estímulo tan (clínicamente) auténtico como sea
posible (ej. En MCQ, OSCEs)
4. Combina distintos formatos de estímulo (caso,
problema) con el formato de respuesta MCQ.
41
42. Ejemplos de a aplicación del 3er principio
El estimulo es más importante que el modo de recoger la respuesta
42
Preocúpate de los estímulos más que del modo de recoger la
respuesta
¿Qué es lo que le voy a pedir al alumno que haga?
Haz que tus MCQ no solo evalúen el nivel “sabe”, sino
también el “sabe como” e incluso el “demuestra como”. Haz
preguntas con contextos (clínicos, experimentales) y
pide operaciones que sirvan para evaluar si el
alumno es capaz de
interpretar situaciones, resultados de pruebas o experimentos
resolver problemas
resolver casos clínicos
Haz que tus preguntas escritas evalúen
Capacidad de juicio
Capacidad de predicción
Transferencia a nuevas situaciones
Vídeo Mc Tighe what was your critical transformation?
43. Cuarto principio de la evaluación
La validez puede ser construida, incorporada a
nuestro sistema.
1. La validez requiere muestrear realmente todo aquello sobre lo
que queremos evaluar
2. La validez depende de un buen aseguramiento de la calidad en la
construcción de los items (Verhoeven et al 1999)
3. Generalmente podríamos hacer preguntas mucho mejores que
las que usamos si invirtiéramos más esfuerzo, y mas gente en ello,
(ej. incorporando a asociados y preparando exámenes en equipo)
(Jozewicz et al 2002)
43
45. Algo más modesto. Inmunología Alcalá
Control de calidad pretest
Diseño de la
prueba
Preguntas
Profesor 1
Preguntas
Profesor 2
Preguntas
Profesor 3
Revisión por
compañeros
y corrección
45
46. Inmunología Alcalá Control de calidad postest
Administración de la prueba
Arreglos sobre la marcha
Análisis dificultad
Revisión y feeedback
Análisis de poder discriminativo
(validez discriminativa)
Selección de preguntas más validas
para evaluación acreditativa
Revisión de examen
obligatoria
Sacrificio de las
preguntas más fifíciles
para la evaluación
formativa
Proceso de
impugnación de items
(un solo uso)
46
47. Implicaciones prácticas
La validez puede ser construida, incorporada a nuestro
sistema
1. Crear pruebas de calidad La validez de la evaluación
llegará a ser tan buena como sea el esfuerzo que estés
dispuesto a invertir en su calidad
2. Debemos realizar ciclos de aseguramiento de la calidad
alrededor del desarrollo de pruebas
3. Análisis de validez discriminativa y ajuste de dificultad
4. Compartir buen material de pruebas entre instituciones
(ejemplo Holanda 5 escuelas de medicina con 8.000 alumnos
progress tests).
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540387/pdf
/40037_2012_Article_7.pdf
5. Se puede empezar compartiendo entre profesores de un
mismo área o departamento, entre asignaturas de
temática parecida. Ejemplo Medicina-farmacia-biología-
biología sanitaria
47
48. Ejemplos de aplicación del 4º principio
La validez puede ser construida,
incorporada a nuestro sistema48
Trabaja en equipo para preparar exámenes
Si das sólo tu asignatura, plantea una reciprocidad con un
compañero que lleve otra para ayudaros mutuamente
Estudia la validez de tus preguntas para diferenciar entre
alumnos que comprenden y los que no
Estudio de poder discriminativo de las preguntas
Resolver casos clínicos
Decide si optas por un sistema de entrega de preguntas o
de recuperación (cada cosa tiene sus ventajas)
Si las Entregas todas posibilidad impugnación preguntas se queman
pero sirven para orientar estudio alumnos
Si las recuperas puedes estudiar su dificultad y poder de
discriminación. Puedes seleccionar unas cuantas que se usarán para
dar feedback (difíciles pero poco discriminativa), otras que se
podrán reutilizar con ligeras modificaciones en pruebas futuras.
49. Quinto principio de evaluación
La evaluación (conduce al “premio” que) dirige las
acciones que producen el aprendizaje
El ratón aprende a salir del laberinto por que quiere comerse el premio
La evaluación es la fuerza mas poderosa para dirigir el comportamiento del alumno
49
Evaluación Calificación
50. El punto de vista de los estudiantes
¿Cómo perciben el currículo los estudiantes?
Profesor:
aquello que es
importante enseñar
Estudiante:
Aquello que es
Importante aprender para
aprobar (peso en
calificación)
Currículo
Tests
Practicas clínicas y
de laboratorio
ECOE
Observación
portafolio
historias registros
diario
Tests
Practicas clínicas y
de laboratorio
ECOE
Observación
portafolio
historias
registros
diario
Evaluación calificación
50
51. ¿Qué partes del currículo no pesan en la calificación
y en consecuencia son menospreciadas?
51
¿No serán las que no se evalúan fácilmente
con exámenes de papel y lápiz?
¿No serán aquellas que evalúan aprendizajes
más sofisticados que requieren un mejor
entrenamiento para que los alumnos no
fracasen masivamente?
52. Hallazgos empíricos
La relación entre evaluación y aprendizaje es muy
fuerte y compleja.
Los sistemas tradicionales sumativos de evaluación final de
conocimientos básicos tienen efectos muy negativos sobre el
aprendizaje permanente y el desarrollo de competencias.
Los alumnos se esfuerzan principalmente cuando la prueba
de evaluación esta al caer y especialmente en aquello que
piensan que podrá caer en la prueba.
Cuando sólo se esfuerzan al final y en aprender
conocimientos de memoria, luego olvidan muy rápidamente.
52
53. Es necesario más feedback formativo
Tiene un impacto dramático en la motivación y el aprendizaje. Los
aprendizajes más complejos mejoran mucho con el feedback.
Los estudiantes desean más feedback del que reciben, no sólo calificaciones.
La calificación desvía la atención del feedback. Es mejor primero
proporcionar feedback y luego mas tarde cuando se ha asimilado este,
proporcionar la calificación.
Rotaciones y prácticas clínicas: ¿Les pedimos que hagan cosas, les
observamos y les damos feedback en función de lo que hacen? ¿les
ponemos en situaciones en las que tienen que tomar decisiones y pueden
equivocarse? o ¿ Sólo les dejamos que miren?
Proporcionar tanto feedback puede ser tedioso, pero tenemos que hacerlo.
Mucho del aprendizaje de nuestros dependerá de como lo demos: de que sea
frecuente inmediato discriminativo y amablemente administrado.
53
54. Metaevaluación
54
Observar el efecto de la evaluación sobre el
aprendizaje
Debemos preguntarnos:
¿Cómo la evaluación podría reforzar estrategias y
comportamientos deseables para el aprendizaje?
Debemos preguntarles a nuestros alumnos :
¿Cómo la evaluación podría ayudarte a aprender mas
y mejor?
55. Elementos del aprendizaje complejo
High expectations
technology
Low stakes Drilling skills Feedback from trainer
Competent
practicioner
55
¿Quién eres aquí como profesor?
¿de qué eres responsable?
El fallo es necesario para aprender
No se aprenden cosas complejas
Sin exponerse a situaciones en las que puedes fallar y
Recibir feedback experto sobre los errores que has cometido
56. ¿Cuál es la colchoneta?
Cuando se este en la situación real ya no se puede fallar, sin consecuencias.
Entonces el error tendrá consecuencias negativas sobre pacientes ,
compañeros.
56
múltiples intentos
Con Feed back
corrector
58. Implicaciones prácticas del 5º principio
La evaluación dirige el aprendizaje
1. Tercera ley de Newton de la evaluación: Por cada acción evaluativa hay una
reacción estudiantil de magnitud proporcional a su peso en la
calificación
2. Verifica y monitoriza el impacto de la evaluación (evalúa el efecto de la evaluación).
Muchos efectos pretendidos no son logrados. Por el contrario, se logran otros no
pretendidos.
3. Nunca evaluar sin pensar en qué feedback se puede extraer aunque este sea
administrado de manera colectiva.
4. Intercala la evaluación en el programa de aprendizaje, adelanta la
evaluación al principio de los temas. (ejemplo: team based learning)
5. Usa la evaluación estratégicamente para reforzar aquellas acciones y
comportamientos deseables para el aprendizaje. (gamificación)
58
59. Ejemplos de aplicación del 5º principio
La evaluación conduce el aprendizaje
59
1. Es necesario alinear la evaluación con la comprobación
de aquellos resultados de aprendizaje que más
deseamos.
2. Aprovecha el potencial de la evaluación para dirigir
los esfuerzos del alumno a todo aquello que
quieres que haga para aprender
3. Da un peso proporcional a aquello que más valoras
De lo contrario ellos lo infravalorarán
4. Usa el poder de las pequeñas recompensas para
fomentar
El estudio previo de los temas antes de que sean tratados en clase
Trabajo en proyectos en equipo mediante evaluación en tutorías
Ofrece posibilidad de repescas y segundas oportunidades para
mejorar nota
Formar equipos y recompensar a los que mejoren su rendimiento
60. Más ejemplos de aplicación del 5º principio
60
Feedback
1. Aprovecha cualquier evaluación para producir
el máximo feedback formativo posible
Discusión en clase de respuestas de exámenes y corrección de tareas
Discute tareas y preguntas para comprobación del estudio previo
Prevé los atajos que pueden tomar tus alumnos
Si discutes preguntas para dar feedback retíralas del siguiente
examen y no las reutilices hasta que pasen tres años
Si pides que te formulen preguntas urgentes y se las
respondes diles que alguna caerá (pero sólo alguna)
Puedes pedir a los alumnos que creen preguntas corregirlas y usar
algunas en los exámenes.
61. Equilibrio en el nivel de orientación
del esfuerzo de estudio de nuestros alumnos
61 Extremos indeseables
Si no das ninguna indicación sobre lo que es más importante aprender.
Estarán desorientados.
Si das indicaciones demasiado explícitas, sólo se dedicarán a
esforzarse en lo que les has indicado.
Lo ideal es un punto intermedio que les lleve a esforzarse más
en aquellas cosas importantes pero sin dejar de trabajar lo
demás.
Si das indicaciones variadas se esforzaran en todas aquellas cosas que les
indiques
A la larga, mantener esto dependerá de la exhaustividad del
muestreo que hagas en tus pruebas de evaluación.
Ninguna
Indicación =
desorientación
Indicaciones
Variadas =orientación
indicaciones
demasiado
explícitas=
Trivialización
62. Métodos de fomento del estudio previo
a cambio de pequeñas recompensas
(low stakes assessment)
PEPEOLA/TBL/Peer instruction
Proporcionan feedback formativo inmediato
A posteriori se traducen en una bonificación que estimula a
que los alumnos se lo tomen más en serio
Evaluación formativa con valor calificativo, pero reducido
La repercusión en la calificación es baja (10-15% del total)
pero no despreciable (low stakes asessment).
En nuestras asignaturas mejoran los resultados de los
exámenes de medida de aprendizaje en una SD.
62
63. Sexto principio de la evaluación
Ningún único método de evaluación puede
hacerlo todo.
El mejor método es la combinación de varios
métodos que logren objetivos específicos y
puntuales con validez y fiabilidad.
Esta información será integrada en nuestra
valoración.
63
64. Hallazgos empíricos
1. Ningún único método puede hacerlo todo.
2. Una medida sola no vale.
3. Todos los métodos de evaluación tienen limitaciones (no
existe un método superior).
4. Distintos métodos pueden servir para funciones
diferentes.
5. En combinación, la información de varios métodos
proporciona una imagen más completa y combina
funciones formativas y sumativas.
6. Debemos crear esa combinación intencionadamente con
lo mejor de aquí y allí. Incluyo esta evaluación para que
los alumnos hagan esto.
64
65. Implicaciones prácticas
Ningún único método puede hacerlo todo
Usa un cocktail de métodos a través de la pirámide de
competencias
Dispón los métodos en un programa de evaluación
Cualquier método puede tener utilidad (incluso los
viejos métodos de evaluación, si sabemos aprovecharlo
bien para maximizar su utilidad en el programa)
Compara el diseño de la evaluación con el diseño del
currículo
Comité de gente responsable
Crea una estructura global que lo englobe
Implica a todas las partes implicadas
Implementa, monitoriza y cámbialo para irlo mejorando
65
66. Ejemplos de aplicación del 6º principio
Ningún único método puede hacerlo todo
66
Combina múltiples métodos.
Escrito, oral (presentación proyecto), MCQ,
respuestas escritas, tareas, evaluación en tutorías
Asigna peso en función del valor que concedes a
cada cosa.
No regales demasiados puntos en unas cosas
o tus alumnos aprobarán tu asignatura sin
aprender otras.
67. El más difícil todavía
Evaluando como “hacen” (I)
Principios de evaluación para este nivel (difícilmente
estandarizable)
1. Para hacer inferencias fiables se requiere una muestra lo
más fiable que sea factible obtener (amplia, muchas
observaciones, múltiples observadores).
2. El sesgo es una característica inherente del juicio experto.
No se puede eliminar sólo se puede reducir con
rúbricas de consenso y compensar integrando
distintos juicios.
67
68. El más difícil todavía
Evaluando como “hacen” (II)
Principios de evaluación para este nivel (difícilmente
estandarizable)
3. La validez reside más en los evaluadores (los
usuarios de los instrumentos) que en los
instrumentos mismos. Un buen instrumento mal
usado dará resultados poco validos y fiables. Hay que
invertir en el entrenamiento de los evaluadores.
4. Las funciones formativa y la sumativa deben estar
sabiamente combinadas
68
69. El más difícil todavía Evaluando como “hacen”
(III)
Principios de evaluación para este nivel (difícilmente
estandarizable)
5. La información narrativa cualitativa tiene un
gran peso, no es fácil de obtener, pero es muy
importante.
6. Decisiones sumativas pueden ser rigurosas usando
procedimientos no psicométricos de análisis de
información propios de la investigación
cualitativa.
69
70. Finalmente
1. La evaluación en educación médica tiene una rica historia
de investigación y desarrollo con claras implicaciones
prácticas.
2. Dominada por psicometría. Mucho menos sobre como usar
evaluación para forma o sobre diseñar un programa de
evaluación que favorezca el aprendizaje.
3. La evaluación es mucho más que psicometría.
4. La planificación de la evaluación es una parte esencial del
diseño de la educación y la instrucción.
70
Notas del editor
Paciente real mola pero es aceptable
You can’t have it all
Medimos varias veces y hacemos la media
Doblar la medicda dobla el coste
fisiología
Cortar el cesped
Segar un cereal
La prepare para un curso que he dado en lleida en el siglo XXI
El desempeño real no es una situación estandar
Especifica con respecto a una situación un contexto
2 esto es sin caer en muchas. decisiones que son falsos positivos y falsos negativos
Sacar un problema de esta gráfica
Dudas que acrónimos no entendeis
PMP patient management problem
MiniCEX miniclinical evaluation exercise
Incognito SPs incognito standarized patients (por sorpresa)
Sacar un problema de esta gráfica
Dudas qué acrónimos no entendéis
PMP patient management problem
MiniCEX miniclinical evaluation exercise
Incognito SPs incognito standarized patients (por sorpresa)
Es como la tensión sanguinea
Trivializar es dar preguntas y luego repetirlas
Repetir problemas puesto sen clase
no es el santo grial,
Fiabilidad el ejemplo de la bascula
Relación con sensibilidad relación con especificidad
Sacar un problema de esta gráfica
Dudas qué acrónimos no entendéis
PMP patient management problem
MiniCEX miniclinical evaluation exercise
Incognito SPs incognito standarized patients (por sorpresa)
multiple subjective evaluations can make up a reliable overall picture which is a very important message
Por esto es mejor ECOE que osler
Burro grande es más fiable. Es test es lo mas objetivo lo mas fiavbles es una combinación de test problemas y prefguntas de respuesta escrita lo mas cómodo es el test y que lo corrija la secretaria
Respuesta escrita vale para y el MCQ no falso.
Todo depende de lo que pongamos en el estímulo
Podemos reformular la pregunta para que evalue si el alumno es capaz de tranferir conocoimiento a un contexto verosimil
El MCQ mide lo que pongas dentro de él.
Puedes poner contesto de simulación y respuesta por mcq.
Burro grande es más fiable
¿Revisan vuestros exámenes otros profesores?
Desarrollar pruebas de alta calidad cuesta trabajo
Secreto o quemar
Burro grande es más fiable
¿Qué partes del curriculo no pesan ela calificación y en consecuencia son menospreciadas?
¿Las que nos e evaluan con exámenes de papel y lapiz?
inmediato, perro que se mea
discriminativo premio castigo amable
Colchoneta entreandor programa de entrnamiento
Lo esta tirando pero demuestra que aunque fallle es competente
Hidden curriculum
From principlet o practivce : an embebed assessment system. Applied measurement in Education 13(2) 181-208 research gate
AIG Automated item generation