¿Qué tiene que decir la investigación acerca de la evaluación?

I D E A S D E C E E S V A N D E R V L E U T E N
S O B R E L A E V A L U A C I Ó N D E L A P R E N D I Z A J E
1
¿Qué tiene que decir la investigación
acerca de la evaluación?

Características de los instrumentos de
evaluación
 Cada instrumento de evaluación tiene una serie de
características :
1. Validez
2. Fiabilidad
3. Impacto educativo
4. Aceptabilidad
5. Coste en medios humanos, materiales y económicos
 El compromiso es … que no podemos tenerlo todo
tenemos que conformarnos con tener unos puntos
fuertes comprometiendo otros menos esenciales.

Función de utilidad de un método de
evaluación
 U= pf F x pv V x pie IE x pa A /pc C
 U= Utilidad
 F = fiabilidad ¿es repetible el resultado?
 V= validez ¿vale para medir lo que quiero?
 IE = Impacto educativo ¿cómo afecta al aprendizaje?
 A = Aceptabilidad ¿es aceptable para alumnos profesores
y pacientes?
 C = coste ¿podemos permitírnoslo?
 P= peso relativo
 En Evaluación formativa importa el impacto en
Evaluación acreditativa la fiabilidad y validez

Discusión de la importancia de los elementos
 Fiabilidad
 ¿Es más fiable una medida aislada o la combinación
de muchas?
 Validez
 ¿Es valido evaluar casi todo al nivel inferior de la
pirámide de Miller (Sabe) cuando lo importante está
en los niveles superiores de la pirámide de
autenticidad?

Sistema tradicional
(de input de conocimientos)
 Tantas horas de …
 La mayoría de la evaluación no va mas allá de la
evaluación del conocimiento.
 Evaluación por asignaturas.
 Sin evaluación interdisciplinar de progreso en
conocimientos.
 Sin evaluación interdisciplinar de desarrollo de
competencias.
 En algunos países tras la finalización de los estudios,
los Colegios Profesionales evalúan la competencia
profesional.

Sistemas de resultados (outcomes)
 CanMeds
 (Canada)
 Experticia médica
 Comunicador
 Colaborador
 Gestor
 Defensor y
consejero de salud
 Académico
 Profesional
 ACGME
 (US)
Conocimiento médico
Cuidado de pacientes
Aprendizaje y mejora
basada en la práctica
Habilidades de
comunicación
interpersonal
Profesionalismo
Práctica basada en
sistemas
• GMC
• (UK)
•Buen cuidado clínico
•Relaciones con
pacientes y familias
•Trabajo con colegas
•Gestión del lugar de
trabajo
•Responsabilidad social
•Profesionalismo

Nuevos currículos orientados
al desarrollo de competencias
 Énfasis en desarrollo de competencias y en la
acreditación de competencias
 No son fáciles de evaluar, las competencias son constructos
muy complejos que requieren de contextos reales o
simulados para ser puestos a prueba.
 Debemos confiar en el juicio profesional (subjetivo), pero
hay que hacer un muestreo suficiente y proporcionar
rúbricas que explicitan criterios y aportan escalas de
niveles.
 Como un estudiante se comporta en la escuela de medicina, es
predictivo sobre como se comportará en su futuro profesional

E V A L U A C I Ó N F O R M A T I V A
N O T I E N E A L T A
R E P E R C U S I Ó N
S O N I M P O R T A N T E S , E L
I M P A C T O E S T I M U L A D O R
D E L E S F U E R Z O
Y E L F E E D B A C K
P O D E M O S C O M P R O M E T E R
F I A B I L I D A D Y V A L I D E Z
A C A M B I O D E
P R A C T I C A B I L I D A D
8
La noción de Compromiso en
Evaluación de competencias
E V A L U A C I Ó N
A C R E D I T A T I V A
T O M A D E D E C I S I O N E S D E
A L T A R E P E R C U S I Ó N
I M P O R T A N T E
F I A B I L I D A D Y V A L I D E Z
N O P O D E M O S
C O M P R O M E T E R L A S
S E N E C E S I T A N L O S
R E C U R S O S D E U N A
F A C U L T A D N O D E U N A
A S I G N A T U R A

9
Evaluación formativa
Debemos aprender a usar herramientas para una evaluación continua más eficiente
Los cuestionarios on line y las herramientas de evaluación por compañeros
(Taller de moodle) y rúbricas.
La evaluación continua no tiene repercusiones irreparables
¿por qué esmerarse tanto tantas veces?

10
Evaluación acreditativa
¿a destajo?
¿o mecanizada
(lectores ópticos
y e-portafolios)?

Ejemplo competencia para la comunicación
 80% de las quejas en atención al paciente están
relacionadas con la comunicación
 El currículo tradicional no fomenta su desarrollo ni garantiza
que los alumnos vayan desarrollándola.
 Poner un ECOE al final de los estudios es sólo una pequeña
parte de la solución
 Tenemos que poner a los alumnos en situaciones en las que
tengan que ejercitar su competencia para la comunicación en
distintas situaciones profesionales tipo.
 Es necesario abordar el desarrollo de esta competencia de un
modo transversal desde múltiples asignaturas e incluso crear
asignaturas centradas en su fomento.

Impacto en el aprendizaje:
“El reduccionismo impera”
 Venimos de una cultura:
1. “de calificaciones sin feedback”.
2. Obsesionada con la objetividad MCQ OSCE
3. Acostumbrada a una enorme pérdida de información
(conversión del multivector en un número escalar.)
4. No hay remediación, sino repetición basada en un modelo
educativo desfasado.
1. Repites primero examen y si no vale repites curso
5. Trivialización frecuente del abordaje ante la evaluación
“preparación para la prueba”
 MCQ estudio sólo respondiendo preguntas a de test
 OSCE me preparo que hacer en estaciones que puedan caer

La evaluación dirige lo que se aprende y lo que no
 You get what you assess
 You don’t get what you don’t assess
 Si no evalúo precisamente eso que quiero que
aprendan
 ¿Qué podemos concluir?
 Podemos concluir que, no lo aprenderán la mayoría
de los alumnos.

B A S A D O E N L A C O N F E R E N C I A
D E C E E S V A N D E R V L E U T E N
¿ W H A T R E S E A R C H H A S T O S A Y A B O U T
A S E S S M E N T ?
P R O N U N C I A D A E N R E S P U E S T A A L A
C O N C E S I Ó N D E L P R E M I O E N E D U C A C I Ó N
M É D I C A D E L I N S T I T U T O K A R O L I N S K A
¿Qué tiene que decir la investigación
acerca de la evaluación del aprendizaje?
14

Visión general
1. Introducción. El ejemplo de la evaluación de las
competencias en profesionales sanitarios
2. Instrumentos de evaluación, formato del
estimulo, tarea y formato de la respuesta.
3. Conclusiones de la investigación sobre evaluación
que se transforman en principios de la evaluación
del aprendizaje.
4. Implicaciones para la práctica, ejemplos de cómo
usar los principios con sentido común
5. Conclusiones
15

1. Introducción
La pirámide de Miller
Modelo sencillo de evaluación de competencias
Autenticidadprofesional
Hace
(does
performance)
demuestra
como haría
(shows how competency)
Conoce
como hacer
(knows how)
Conoce
(knows)
Comportamiento
Cognición
Miller GE. The assessment of clinical skills/competence/performance.
Academic Medicine (Supplement) 1990; 65: S63-87.
Cuidado diario del paciente: evaluado
por observación directa del desempeño en
situaciones clínicas reales
Demostración de habilidades clínicas:
Puesto a prueba con simulación
pacientes simulados estandarizados
(Incognito, ECOE/OSCE)
Exámenes habilidades clínicas
Aplica conocimiento:
resolución de problemas
clínicos
conocimiento es puesto a
prueba en exámenes orales y
escritos
16

Instrumentos de evaluación
Formato de Estimulo vs. respuesta
 Formato del estímulo. Algunos equipos de futbol han
ganado más copas de Europa que otros. ¿Cuál de los
siguientes equipos ha ganado más copas de Europa?
 Formato de la Respuesta A. Real Madrid
B. Bayern de Munich
C. FC Barcelona
D. Manchester United
E. Milan
17

Formatos de estímulo y respuesta en
evaluación del aprendizaje
Hace
(contexto real)
demuestra
como haría
(contexto simulado)
Conoce
como hacer
(contexto descrito)
Conoce
(factual sin contexto)
menú, escrito,
abierto,
oral,
basado en
ordenador
menú, escrito, abierto,
oral, basado en
ordenador
observación directa,
lista de comprobación,
escalas de calificación,
rúbricas
Formato de respuesta
observación, lista de
comprobación,
escalas de calificación,
rúbricas, narrativas
18Formato de Estímulo
Ejecución,
práctica habitual
(paciente real)
Escenario práctico de simulación
(paciente simulado)
escenario con contexto
(paciente)
Caso prueba
Orientado
a conocer
hechos

Estandarización de la evaluación del
aprendizaje a distintos niveles
Autenticidadprofesional
Hace
en contexto real
demuestra
como haría
Demostración en
contexto simulado
Conoce como hacer
Contexto descrito o ilustrado
donde hay que explicar como se
hace
Conoce
-Sin contexto,
-No hay nada que hacer
Evaluación
de desempeño
No estandarizada
Evaluación
de aprendizaje
Estandarizada
(administrada de
la misma manera
a todos los
examinandos)
Juicio experto subjetivo,
compensación de sesgos,
escalas
ECOE
Tribunales
rúbricas
MCQ
Test de
progreso
Objetividad del
método de evaluación
Nivel de estandarización

Evaluando los 3 niveles inferiores de la pirámide:
¿Conoce, conoce cómo hacer y demuestra cómo lo haría?
 Los seis principios de evaluación estandarizada del
aprendizaje
1. La competencia es especifica (de ciertos contextos), no
genérica
2. La objetividad no es lo mismo que la fiabilidad
3. El formato del estímulo determina más lo que se mide que el
formato de la respuesta que se recoge.
4. La validez puede ser construida e incorporada a nuestro sistema.
5. La evaluación conduce el aprendizaje.
6. Ningún método único puede hacerlo todo.
21

Evaluando el nivel superior (el desempeño):
¿hace?
 Los seis principios de evaluación del aprendizaje de manera
no estandarizada.
1. Para lograr inferencias fiables se requiere una muestra lo más amplia que
sea factible.
2. El sesgo es una característica inherente del juicio experto subjetivo.
3. La validez se debe más a los que usan los instrumentos que a los
propios instrumentos.
4. Las funciones formativa y sumativa se combinan.
5. La información narrativa y cualitativa tiene un enorme peso.
6. Decisiones sumativas pueden ser rigurosas usando procedimientos no
psicométricos de investigación cualitativa.
22

Primer principio de evaluación
de Cees van der Vleuten
La competencia es específica de un
contexto, no genérica,
 “What we found time and over again is that performance
on a particular question situation, essay, station or
whatever you have is not very predictive for
performance in another context, another station,
another problem, so actually performance is very
variable.
 It means that if you want to make an inference about
someone's ability you cannot do it on a very limited
sample observations. If performance is very variable you
have to have a large sample observations in order to
make an inference which is no longer dependent on the
particular sample observations.”
Cees van der Vleuten
23

La ejecución de competencia
es dependiente del contexto
 ¿Cómo hacer una evaluación fiable?
 Si la competencia depende del contexto de ejecución,
entonces la fiabilidad de sus medidas será dependiente
del muestreo en diversos contextos.
 Debemos examinar una misma competencia en
distintos contextos, por distintos profesores,
incluso en distintas asignaturas.
24

¿Cómo podemos tomar decisiones fiables?
 La repetitividad de medidas en un individuo
(par vs. impar) y la correlación entre medidas
repetidas de los mismos individuos dentro en el
conjunto de la población nos dan medidas de la
fiablilidad.
 Necesitamos una correlación de al menos
r=0,80 para tomar decisiones fiables.
25

¿Depende la fiabilidad del método que usemos?
¿Es una característica del método?
¿Cuáles son las metodologías más fiables? ¿Cuáles más factibles?
multiple
Choice
questionnaire
Patient
management
problem
Objective
structured
Clinical
Examination
Simulated
patients
clinical
examination
Se representa el coeficiente de correlación entre medidas repetidas de cada candidato en un grupo
26

¿Depende la fiabilidad del método que usemos?
¿Es una característica del método?
0,85
Los métodos subjetivos pueden ser tan fiables como los objetivos
La fiabilidad depende del muestreo, no de la objetividad.
¿es fiable la medida en sólo una hora por algún método?
multiple
Choice
questionnaire
Patient
management
problem
Objective
structured
Clinical
Examination
Simulated
patients
clinical
examination

Implicaciones prácticas del primer principio
 La competencia es específica del contexto de medida, no
genérica
 Una sola medida no es una buena medida (ej. báscula)
 Aumenta el muestreo (a través del contenido, examinadores,
pacientes) dentro de las medidas.
 Combina información entre distintas medidas, replicándolas a lo
largo del tiempo.
 Estate alerta de la posibilidad de decisiones falsamente positivas
y falsamente negativas ¿cuál es el riesgo de que ocurran?
 Incluye salvaguardas en las regulaciones sobre evaluación. ¿Cómo
podemos asegurarnos de que el sistema de evaluación es más fiable,
válido y no mide trivialidades?
29

30
 No.
 ¿Por que?
 ¿Qué debemos hacer?
1. debemos reservar un aula más grande o separar entre si a
los alumnos
2. Durante mas tiempo 2-3 horas
3. Debemos construir una prueba altamente discriminativa
4. Debemos evaluar en base a una serie de pruebas en lugar de
en base a sólo una
Ejemplo de aplicación del primer principio
¿Son fiables los exámenes
realizados en una hora de clase
con los alumnos como piojos en costura?

Segundo principio de evaluación
 Objetividad no es lo mismo que fiabilidad31
Báscula
Ranking
Correlación
Sensibilidad
especificidad
Fiabilidad se mide con correlación obtenida con una muestra de medidas replicadas
multiple
Choice
questionnaire
Patient
management
problem
Objective
structured
Clinical
Examination
Simulated
patients
clinical
examination
¿Cuáles son las metodologías más fiables? ¿Cuáles más factibles?

Maneras de aumentar la fiabilidad de las
pruebas subjetivas (que requieren juicio subjetivo)
1. Compensa las influencias subjetivas comparando
juicios de varios sujetos
 Corrección por parejas de correctores (en otros países es la norma)
aquí no.
 Multiobservadores (tribunales)
2. Fija explícitamente los criterios y niveles de
ejecución y valoración
 Las Rúbricas fijan los criterios y las descripciones de los niveles.
 Pero no tengas miedo a un juicio experto holístico
32

Fiabilidad del examen oral (Swanson, 1987)
Mensaje: múltiples evaluaciones subjetivas pueden producir una medida fiable
La fiabilidad depende del muestreo, escoger una muestra suficiente y representativa
33

Implicaciones prácticas
 Objetividad no es lo mismo que fiabilidad
1. No trivialices la evaluación (y comprometas su
validez) con objetivación y estandarización
innecesarias.(ej. en examen oral preguntar lo
mismo a todos).
2. No temas la realización de un juicio holístico
profesional y experto si es obtenido con un
muestreo representativo y amplio.
3. Muestrea ampliamente a través de las fuentes
de influencia subjetiva (calificadores,
examinadores, pacientes ).
34

Ejemplos de a aplicación del 2ºprincipio
Objetividad no es lo mismo que fiabilidad
35
 Aumentar la fiabilidad de exámenes escritos de
evaluación continua
 Reserva más tiempo, en un aula más grande
 Construye pruebas que combinen MCQ (varios modelos para
dificultar la copia) y respuesta escrita
 Construye pruebas con preguntas de poder discriminativo
contrastado anteriormente
 Aumentar fiabilidad de la evaluación de
presentaciones
 Pareja calificadores o mismo calificador para todos.
 Rubrica como guía y herramienta para escoger puntos sobre
los que retroinformar, no para calificar.

36
Excelente Competente Necesita hacerlo mejor
Conocimiento
/comprensión
20 sobre 20
Demuestra una comprensión
profunda del artículo
Comprenden la
mayoría
No comprenden algunos
aspectos importantes
Pensamiento
/investigación
35 sobre 35
Han investigado más allá del
texto asignado y han aprendido
sobre los conceptos básicos
necesarios para comprenderlo
Han investigado pero
no han aprendido todo
lo necesario sobre los
conceptos básicos
No se observa investigación
aparente
El conocimiento sobre
conceptos básicos es
claramente insuficiente
Comunicación
15 sobre 20
El guión de explicación es claro y
estructurado,
análisis completo
Responde eficazmente a las
preguntas de la audiencia
El guión es
estructurado pero
quedan aspectos sin
analizar
Respuestas
parcialmente correctas
El guión de explicación es con
fuso
el análisis es incompleto y
desestructurado
No responden a lo que se les
pregunta
Uso de ayudas
visuales
10 sobre 15
La presentación audiovisual
transmite eficazmente
diapositivas claras
La explicación se apoya en ellas
Aplican ejemplarmente la normas
Buena parte de las
diapositivas son claras
Pero algunas no lo son
De vez en cuando lee
Incumple algunas
normas
La información no esta
resumida
Diapositivas confusas
Lee demasiado
Ignoran las normas
Habilidad para
la presentación
6,25 sobre 10
Habla claramente con volumen
suficiente para ser oído y
velocidad apropiada para ser
entendido, tono vivo,
mantiene contacto visual,
lenguaje corporal estimula la
atención
Buen volumen pero
demasiado veloz ,
tono poco variado
Poco contacto visual
usa buen lenguaje
corporal solo a veces
Volumen inaudible, difícil de
seguir
monótono
No intenta interaccionar con
la audiencia a través de
contacto visual o lenguaje
corporal
¿Cómo usar la rubrica?
36
Calificación Feedback

Tercer principio de evaluación
 Lo que esta siendo medido por un instrumento
de evaluación depende más del formato del
estímulo que del formato de la respuesta.
 El estimulo que proporcionemos determina más la
tarea que el alumno debe realizar, que el tipo de
respuesta que recojamos.
 Por ejemplo podemos usar MCQ para recoger el
resultado de la resolución de un problema
científico matemático.
37

La biblia en elaboración de cuestiones para las ciencias básicas y clínicas
Tutorial interactivo www.nbme.org/IWTutorial
En español: http://www.nbme.org/publications/item-writing-manual-download.html#spanish
40

 Lo que se mide, depende más del formato del estímulo
que del formato de la respuesta.
1. No te cases sólo con un formato de estímulo-respuesta (por
ejemplo ensayos o MCQ)
2. Preocúpate sobre todo de mejorar el formato del estímulo
3. Haz el estímulo tan (clínicamente) auténtico como sea
posible (ej. En MCQ, OSCEs)
4. Combina distintos formatos de estímulo (caso,
problema) con el formato de respuesta MCQ.
41

Ejemplos de a aplicación del 3er principio
El estimulo es más importante que el modo de recoger la respuesta
42
 Preocúpate de los estímulos más que del modo de recoger la
respuesta
 ¿Qué es lo que le voy a pedir al alumno que haga?
 Haz que tus MCQ no solo evalúen el nivel “sabe”, sino
también el “sabe como” e incluso el “demuestra como”. Haz
preguntas con contextos (clínicos, experimentales) y
pide operaciones que sirvan para evaluar si el
alumno es capaz de
 interpretar situaciones, resultados de pruebas o experimentos
 resolver problemas
 resolver casos clínicos
 Haz que tus preguntas escritas evalúen
 Capacidad de juicio
 Capacidad de predicción
 Transferencia a nuevas situaciones
 Vídeo Mc Tighe what was your critical transformation?

Cuarto principio de la evaluación
 La validez puede ser construida, incorporada a
nuestro sistema.
1. La validez requiere muestrear realmente todo aquello sobre lo
que queremos evaluar
2. La validez depende de un buen aseguramiento de la calidad en la
construcción de los items (Verhoeven et al 1999)
3. Generalmente podríamos hacer preguntas mucho mejores que
las que usamos si invirtiéramos más esfuerzo, y mas gente en ello,
(ej. incorporando a asociados y preparando exámenes en equipo)
(Jozewicz et al 2002)
43

Algo más modesto. Inmunología Alcalá
Control de calidad pretest
Diseño de la
prueba
Preguntas
Profesor 1
Preguntas
Profesor 2
Preguntas
Profesor 3
Revisión por
compañeros
y corrección
45

Inmunología Alcalá Control de calidad postest
Administración de la prueba
Arreglos sobre la marcha
Análisis dificultad
Revisión y feeedback
Análisis de poder discriminativo
(validez discriminativa)
Selección de preguntas más validas
para evaluación acreditativa
Revisión de examen
obligatoria
Sacrificio de las
preguntas más fifíciles
para la evaluación
formativa
Proceso de
impugnación de items
(un solo uso)
46

 La validez puede ser construida, incorporada a nuestro
sistema
1. Crear pruebas de calidad La validez de la evaluación
llegará a ser tan buena como sea el esfuerzo que estés
dispuesto a invertir en su calidad
2. Debemos realizar ciclos de aseguramiento de la calidad
alrededor del desarrollo de pruebas
3. Análisis de validez discriminativa y ajuste de dificultad
4. Compartir buen material de pruebas entre instituciones
(ejemplo Holanda 5 escuelas de medicina con 8.000 alumnos
progress tests).
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540387/pdf
/40037_2012_Article_7.pdf
5. Se puede empezar compartiendo entre profesores de un
mismo área o departamento, entre asignaturas de
temática parecida. Ejemplo Medicina-farmacia-biología-
biología sanitaria
47

Ejemplos de aplicación del 4º principio
La validez puede ser construida,
incorporada a nuestro sistema48
 Trabaja en equipo para preparar exámenes
 Si das sólo tu asignatura, plantea una reciprocidad con un
compañero que lleve otra para ayudaros mutuamente
 Estudia la validez de tus preguntas para diferenciar entre
alumnos que comprenden y los que no
 Estudio de poder discriminativo de las preguntas
 Resolver casos clínicos
 Decide si optas por un sistema de entrega de preguntas o
de recuperación (cada cosa tiene sus ventajas)
 Si las Entregas todas posibilidad impugnación preguntas se queman
pero sirven para orientar estudio alumnos
 Si las recuperas puedes estudiar su dificultad y poder de
discriminación. Puedes seleccionar unas cuantas que se usarán para
dar feedback (difíciles pero poco discriminativa), otras que se
podrán reutilizar con ligeras modificaciones en pruebas futuras.

Quinto principio de evaluación
 La evaluación (conduce al “premio” que) dirige las
acciones que producen el aprendizaje
El ratón aprende a salir del laberinto por que quiere comerse el premio
La evaluación es la fuerza mas poderosa para dirigir el comportamiento del alumno
49
Evaluación Calificación

El punto de vista de los estudiantes
¿Cómo perciben el currículo los estudiantes?
Profesor:
aquello que es
importante enseñar
Estudiante:
Aquello que es
Importante aprender para
aprobar (peso en
calificación)
Currículo
Tests
Practicas clínicas y
de laboratorio
ECOE
Observación
portafolio
historias registros
diario
Tests
Practicas clínicas y
de laboratorio
ECOE
Observación
portafolio
historias
registros
diario
Evaluación calificación
50

¿Qué partes del currículo no pesan en la calificación
y en consecuencia son menospreciadas?
51
¿No serán las que no se evalúan fácilmente
con exámenes de papel y lápiz?
¿No serán aquellas que evalúan aprendizajes
más sofisticados que requieren un mejor
entrenamiento para que los alumnos no
fracasen masivamente?

Hallazgos empíricos
 La relación entre evaluación y aprendizaje es muy
fuerte y compleja.
 Los sistemas tradicionales sumativos de evaluación final de
conocimientos básicos tienen efectos muy negativos sobre el
aprendizaje permanente y el desarrollo de competencias.
 Los alumnos se esfuerzan principalmente cuando la prueba
de evaluación esta al caer y especialmente en aquello que
piensan que podrá caer en la prueba.
 Cuando sólo se esfuerzan al final y en aprender
conocimientos de memoria, luego olvidan muy rápidamente.
52

Es necesario más feedback formativo
 Tiene un impacto dramático en la motivación y el aprendizaje. Los
aprendizajes más complejos mejoran mucho con el feedback.
 Los estudiantes desean más feedback del que reciben, no sólo calificaciones.
 La calificación desvía la atención del feedback. Es mejor primero
proporcionar feedback y luego mas tarde cuando se ha asimilado este,
proporcionar la calificación.
 Rotaciones y prácticas clínicas: ¿Les pedimos que hagan cosas, les
observamos y les damos feedback en función de lo que hacen? ¿les
ponemos en situaciones en las que tienen que tomar decisiones y pueden
equivocarse? o ¿ Sólo les dejamos que miren?
 Proporcionar tanto feedback puede ser tedioso, pero tenemos que hacerlo.
Mucho del aprendizaje de nuestros dependerá de como lo demos: de que sea
frecuente inmediato discriminativo y amablemente administrado.
53

Metaevaluación
54
 Observar el efecto de la evaluación sobre el
aprendizaje
 Debemos preguntarnos:
 ¿Cómo la evaluación podría reforzar estrategias y
comportamientos deseables para el aprendizaje?
 Debemos preguntarles a nuestros alumnos :
 ¿Cómo la evaluación podría ayudarte a aprender mas
y mejor?

Elementos del aprendizaje complejo
High expectations
technology
Low stakes Drilling skills Feedback from trainer
Competent
practicioner
55
¿Quién eres aquí como profesor?
¿de qué eres responsable?
El fallo es necesario para aprender
No se aprenden cosas complejas
Sin exponerse a situaciones en las que puedes fallar y
Recibir feedback experto sobre los errores que has cometido

¿Cuál es la colchoneta?
 Cuando se este en la situación real ya no se puede fallar, sin consecuencias.
 Entonces el error tendrá consecuencias negativas sobre pacientes ,
compañeros.
56
múltiples intentos
Con Feed back
corrector

Ever tried, ever failed, No matter
Try again, fail again, fail better
57

Implicaciones prácticas del 5º principio
 La evaluación dirige el aprendizaje
1. Tercera ley de Newton de la evaluación: Por cada acción evaluativa hay una
reacción estudiantil de magnitud proporcional a su peso en la
calificación
2. Verifica y monitoriza el impacto de la evaluación (evalúa el efecto de la evaluación).
Muchos efectos pretendidos no son logrados. Por el contrario, se logran otros no
pretendidos.
3. Nunca evaluar sin pensar en qué feedback se puede extraer aunque este sea
administrado de manera colectiva.
4. Intercala la evaluación en el programa de aprendizaje, adelanta la
evaluación al principio de los temas. (ejemplo: team based learning)
5. Usa la evaluación estratégicamente para reforzar aquellas acciones y
comportamientos deseables para el aprendizaje. (gamificación)
58

La evaluación conduce el aprendizaje
59
1. Es necesario alinear la evaluación con la comprobación
de aquellos resultados de aprendizaje que más
deseamos.
2. Aprovecha el potencial de la evaluación para dirigir
los esfuerzos del alumno a todo aquello que
quieres que haga para aprender
3. Da un peso proporcional a aquello que más valoras
 De lo contrario ellos lo infravalorarán
4. Usa el poder de las pequeñas recompensas para
fomentar
 El estudio previo de los temas antes de que sean tratados en clase
 Trabajo en proyectos en equipo mediante evaluación en tutorías
 Ofrece posibilidad de repescas y segundas oportunidades para
mejorar nota
 Formar equipos y recompensar a los que mejoren su rendimiento

Más ejemplos de aplicación del 5º principio
60
 Feedback
1. Aprovecha cualquier evaluación para producir
el máximo feedback formativo posible
 Discusión en clase de respuestas de exámenes y corrección de tareas
 Discute tareas y preguntas para comprobación del estudio previo
 Prevé los atajos que pueden tomar tus alumnos
 Si discutes preguntas para dar feedback retíralas del siguiente
examen y no las reutilices hasta que pasen tres años
 Si pides que te formulen preguntas urgentes y se las
respondes diles que alguna caerá (pero sólo alguna)
 Puedes pedir a los alumnos que creen preguntas corregirlas y usar
algunas en los exámenes.

Equilibrio en el nivel de orientación
del esfuerzo de estudio de nuestros alumnos
61 Extremos indeseables
 Si no das ninguna indicación sobre lo que es más importante aprender.
Estarán desorientados.
 Si das indicaciones demasiado explícitas, sólo se dedicarán a
esforzarse en lo que les has indicado.
 Lo ideal es un punto intermedio que les lleve a esforzarse más
en aquellas cosas importantes pero sin dejar de trabajar lo
demás.
 Si das indicaciones variadas se esforzaran en todas aquellas cosas que les
indiques
 A la larga, mantener esto dependerá de la exhaustividad del
muestreo que hagas en tus pruebas de evaluación.
Ninguna
Indicación =
desorientación
Indicaciones
Variadas =orientación
indicaciones
demasiado
explícitas=
Trivialización

Métodos de fomento del estudio previo
a cambio de pequeñas recompensas
(low stakes assessment)
PEPEOLA/TBL/Peer instruction
 Proporcionan feedback formativo inmediato
 A posteriori se traducen en una bonificación que estimula a
que los alumnos se lo tomen más en serio
 Evaluación formativa con valor calificativo, pero reducido
 La repercusión en la calificación es baja (10-15% del total)
pero no despreciable (low stakes asessment).
 En nuestras asignaturas mejoran los resultados de los
exámenes de medida de aprendizaje en una SD.
62

Sexto principio de la evaluación
 Ningún único método de evaluación puede
hacerlo todo.
 El mejor método es la combinación de varios
métodos que logren objetivos específicos y
puntuales con validez y fiabilidad.
 Esta información será integrada en nuestra
valoración.
63

Hallazgos empíricos
1. Ningún único método puede hacerlo todo.
2. Una medida sola no vale.
3. Todos los métodos de evaluación tienen limitaciones (no
existe un método superior).
4. Distintos métodos pueden servir para funciones
diferentes.
5. En combinación, la información de varios métodos
proporciona una imagen más completa y combina
funciones formativas y sumativas.
6. Debemos crear esa combinación intencionadamente con
lo mejor de aquí y allí. Incluyo esta evaluación para que
los alumnos hagan esto.
64

 Ningún único método puede hacerlo todo
 Usa un cocktail de métodos a través de la pirámide de
competencias
 Dispón los métodos en un programa de evaluación
 Cualquier método puede tener utilidad (incluso los
viejos métodos de evaluación, si sabemos aprovecharlo
bien para maximizar su utilidad en el programa)
 Compara el diseño de la evaluación con el diseño del
currículo
 Comité de gente responsable
 Crea una estructura global que lo englobe
 Implica a todas las partes implicadas
 Implementa, monitoriza y cámbialo para irlo mejorando
65

Ningún único método puede hacerlo todo
66
 Combina múltiples métodos.
 Escrito, oral (presentación proyecto), MCQ,
respuestas escritas, tareas, evaluación en tutorías
 Asigna peso en función del valor que concedes a
cada cosa.
 No regales demasiados puntos en unas cosas
o tus alumnos aprobarán tu asignatura sin
aprender otras.

El más difícil todavía
Evaluando como “hacen” (I)
 Principios de evaluación para este nivel (difícilmente
estandarizable)
1. Para hacer inferencias fiables se requiere una muestra lo
más fiable que sea factible obtener (amplia, muchas
observaciones, múltiples observadores).
2. El sesgo es una característica inherente del juicio experto.
No se puede eliminar sólo se puede reducir con
rúbricas de consenso y compensar integrando
distintos juicios.
67

El más difícil todavía
Evaluando como “hacen” (II)
estandarizable)
3. La validez reside más en los evaluadores (los
usuarios de los instrumentos) que en los
instrumentos mismos. Un buen instrumento mal
usado dará resultados poco validos y fiables. Hay que
invertir en el entrenamiento de los evaluadores.
4. Las funciones formativa y la sumativa deben estar
sabiamente combinadas
68

El más difícil todavía Evaluando como “hacen”
(III)
estandarizable)
5. La información narrativa cualitativa tiene un
gran peso, no es fácil de obtener, pero es muy
importante.
6. Decisiones sumativas pueden ser rigurosas usando
procedimientos no psicométricos de análisis de
información propios de la investigación
cualitativa.
69

Finalmente
1. La evaluación en educación médica tiene una rica historia
de investigación y desarrollo con claras implicaciones
prácticas.
2. Dominada por psicometría. Mucho menos sobre como usar
evaluación para forma o sobre diseñar un programa de
evaluación que favorezca el aprendizaje.
3. La evaluación es mucho más que psicometría.
4. La planificación de la evaluación es una parte esencial del
diseño de la educación y la instrucción.
70

¿Qué tiene que decir la investigación acerca de la evaluación?

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (15)

Similar a ¿Qué tiene que decir la investigación acerca de la evaluación?

Similar a ¿Qué tiene que decir la investigación acerca de la evaluación? (20)

Más de Alfredo Prieto Martín

Más de Alfredo Prieto Martín (20)

Último

Último (20)

¿Qué tiene que decir la investigación acerca de la evaluación?

Notas del editor