Confiabilidad 2.0

VALIDEZ Y CONFIABILIDAD
EN LOS INSTRUMENTOS DE
INVESTIGACION
Lic. Eduardo Cáceres
Universidad Católica de Asunción

• Decimos que un test es confiable
cuando al aplicarlo dos o más veces,
al mismo individuo o grupo en
circunstancias similares obtenemos
resultados análogos.

• Averiguar la confiabilidad de un test equivale
por lo tanto, a estimar la intensidad del error
inherente al mismo o si se quiere, de su
grado de imprecisión, y consiste, en esencia
en averiguar la consistencia o estabilidad de
notas obtenidas por los mismos individuos al
administrarlos el mismo test, o bien al
administrarles dos test de apariencia
diferente pero que miden lo mismo y en los
que sus elementos son equivalentes.

• La confiabilidad del test indica hasta
qué punto pueden atribuirse a errores
de medida las diferencias individuales
en las puntuaciones del test y hasta qué
punto cabe atribuirlas a diferencias
verdaderas de la característica que
estamos sometiendo a consideración.

• La confiabilidad de una prueba (escala
o cuestionario) hace referencia a “la
precisión, consistencia y la constancia”
que tiene la medida (Álvaro, 1996).
• La confiabilidad de un test es tanto
mayor cuando más estable es el rasgo
psíquico que exploremos.

• Es decir, una prueba aplicada en
diferentes ocasiones en una misma
muestra y en condiciones de
constancia, debería arrojar resultados
similares.

Varianza de error: cualquier condición que no sea afín al
propósito del test.
- Significa “desviación de la realidad, alejarse de la exactitud.”
- Ejemplos: mala administración de las instrucciones, hoja de
tests incompletos, ruidos, entre otros.
-Todo examinador debe tratar de mantener uniformes las
condiciones de aplicación del test, controlar el ambiente,
instrucciones, límites de tiempo, rapport y otros, para reducir la
varianza de error, haciendo más fiables las puntuaciones.
- Aún dándose las condiciones óptimas, ningún test es un
instrumento perfectamente fiable, siempre existirá la incidencia
del error; lo ideal es mantener el error dentro de los márgenes
“Error” en Psicometría.

Relación con la Confiabilidad.
• Relación entre confiabilidad y error:
• Mayor confiabilidad Menor error
• Menor confiabilidad Mayor error

Fuentes de varianza de error
Fuentes de Varianza
67%
18%
5%5%5%
Varianza Verdadera
Error debido a la construcción del test
Error de aplicación
Error no identificado
Error del evaluador

Factores que afectan la
confiabilidad
Fuentes de
Varianza de
Error
Construcción
de los Tests
(Contenido)
Administración
de los tests
Calificación e
Interpretación
de pruebas
Factores
internos del
examinador

Factores que afectan la confiabilidad
• Construcción del Test - Contenido del test
– Hace relación al muestreo de reactivos o de
contenido.
– Es importante que en el momento de construir un
instrumento se tenga en cuenta la elección de ítems,
los materiales, la respuesta del individuo, la
formulación de las consignas y la cantidad de
reactivos del que se compone el instrumento. Un
mayor número de ítems dará puntajes más
confiables.

• Administración del test
– Varianza de error que ocurre durante la
administración de la prueba y que pueden
influir en la atención o motivación de quien
responde la prueba; por tanto sus
reacciones ante estas influencias son la
fuente de varianza de error.

• Calificación e interpretación de pruebas
– Las personas que califican y los sistemas
de calificación son fuentes potenciales de
varianza de error, por ejemplo ocurre
cuando diferentes evaluadores utilizan
criterios de calificación.

• Factores internos del examinador
– Los errores de medición se originan en las
fluctuaciones azarosas del comportamiento
de la persona examinada que aumentan o
disminuyen el puntaje de un instrumento.

Tipos de Errores
Errores
Error Típico (Error
Standard)
Error de
Medición/Medida
Error Muestral
M. del Contenido
del Test
M. Del universo de
sujetos
Error
Típico/Standard
de
Medición/Medida

1. Error Típico o Error Standard
• Características:
– Producido por efecto acumulativo de variables extrañas.
– Tipo de error inherente al test y contemplado en él.
– No afecta a la confiabilidad y suele estar especificado en el
manual del test.
– Su efecto es el siguiente: si la media aritmética es 100 en
un test y su desvió típico es de 15.
+ 15 puntos (desvió) = 115
- 15 puntos (desvió) = 85
– Implica que todo puntaje que oscile entre 115 y 85 no varía
el diagnóstico; esto nos habla del margen de error a tener
en cuenta.
100

2. Error de medición/medida
• En éste se pueden discernir las variables que pueden
producir el error.
• Sí incide sobre la confiabilidad del test.
• El examinador puede controlar las fuentes de error de
medida se pueden controlar.
• Ejemplos: falta de aclaración de las instrucciones, poca
comprensión de la tarea, condiciones ambientales
contraproducentes (iluminación, ventilación, horario).
• No se puede calcular, está directamente relacionado
con la responsabilidad y ética del examinador.

3. Error muestral
• Cuando la muestra de la conducta es deficiente.
– Muestreo del Contenido del test: relacionado a la
validez de contenido. El test no es una buena
muestra de los observables del rasgo que se quiere
medir: existente muestreo defectuosos.
– Muestra del universo de los sujetos: que sirvió para
la elaboración de las normas o baremos. La falla
estuvo en la muestra de tipificación. Ejemplo: cuando
aplicamos un test en nuestro país que fue tipificado
para otro; uso de baremos inadecuados.

4. Error Típico/Standard de Medición/Medida
• La confiabilidad de un test se puede expresar en función del error
típico de medida (puntuación). Se adapta particularmente bien a la
interpretación de olas puntuaciones individuales. Se puede calcular
fácilmente partiendo del coeficiente de confiabilidad dado por el
manual del test, mediante la siguiente fórmula:___________
• El error típico de medida y el coeficiente de confiabilidad son dos
formas alternativas de expresar la fiabilidad de un test. Al contrario
que el coeficiente de confiabilidad, el error típico de medida es
dependiente de la variabilidad del grupo sobre el que se calcula y
está expresado en función de las puntuaciones individuales.
• Si queremos comparar la fiabilidad de distintos tests, la mejor
medida será el coeficiente de confiabilidad. Para interpretar las
puntuaciones individuales, el error típico de medida constituye la
forma más apropiada.

Métodos para verificar la confiabilidad
• Dentro de los métodos clásicos para
estimar los coeficientes de confiabilidad
encontramos el uso:
–Confiabilidad Test- retest
–Formas paralelas
–División en mitades
–Consistencia interna Kuder-Richardson
–Confiabilidad entre evaluadores

• Consiste en repetir en una segunda ocasión.
• El coeficiente de confiabilidad en este caso es simplemente
la correlación entre las puntuaciones obtenidas por los mismos
sujetos en las dos aplicaciones del test.
• La varianza del error: fluctuaciones en las actuaciones
debidas al azar desde una sesión de prueba a otra.
• Condiciones de examen no controladas: cambios
extremos en el clima, ruidos repentinos y otras
distracciones.
• Alteraciones en la condición misma del sujeto
(enfermedad, fatiga, tensión emocional, preocupaciones,
experiencias recientes de naturaleza agradable o
desagradable y factores análogos).
Método del test – retest

• En el manual del test: debe especificarse siempre la longitud del
intervalo sobre el que midió, puesto que las correlaciones del
test disminuyen progresivamente a medida que el intervalo se
alarga.
• Al aplicar test a niños pequeños el periodo debe ser mayor que
para las personas mayores, puesto que las primeras edades los
cambios progresivos del desarrollo son discernibles tras un
periodo de un mes y a un menos. Para cualquier tipo de sujeto,
el intervalo entre la repetición de los test rara vez debe pasar de
los 6 meses.
• Cualquier cambio que se presente en la actuación relativa de los
individuos en el test tras periodos de tiempos mas largos es
probablemente acumulativo y progresivo mas que enteramente
casual.

• Aparentemente sencilla y directa, presenta dificultades al
ser aplicada a la mayoría del tests psicológicos.
•La práctica originará probablemente valores diferentes de
mejoramiento en las puntuaciones del retest de varios
sujetos.
• Si el intervalo entre los tests es bastante corto, los sujetos
recordarán muchas de sus primeras respuestas, al intervenir
la memoria; las puntuaciones en las dos aplicaciones del no
se obtienen independientemente, y la correlación entre ellas
seria falsamente alta.
•No siempre es fácil disponer en dos oportunidades de los
mismos sujetos testados.

Método de formas paralelas
• Construcción de dos o mas tests paralelos
(equivalentes), a partir de cuestiones de
naturaleza y de dificultad análoga, pero de
apariencia distinta.
• Características:
– Mismo número de ítems,
– Dificultad análoga,
– Deben medir lo mismo,
– Las instrucciones, tiempos límites de
administración, ejemplos y otros aspectos de
cada uno de los tests, tienen que ser
equiparables.

• Tests de inteligencia y aptitudes como los ”Culture free”,
el “Terman – Merril ”, las “Escalas Wechsler – Bellevue”, la
“Escala de Memoria” (Wechsler), el “Test de retención
visual” (Benton), y otros, disponen de series paralelas.
• Demostrada la equivalencia de las dos formas, se
aplican ambas pruebas, una inmediatamente después de
la otra, al mismo grupo de sujetos.
• La correlación ente dos series de puntuaciones será el
coeficiente de confiabilidad del test; las diferencias
obtenidas estarán producidas en su mayor parte por los
fallos que existen por la semejanza o equivalencia de los
ítems, a parte de la influencia que puede ejercer los
errores muéstrales.

• Si los tests se aplican con un intervalo de tiempo, el
coeficiente ya no será solo equivalencia de ítems, si no también
de estabilidad temporal.
• Desventaja: suele exigir una considerable cantidad de trabajo
preparatorio.
• Ventaja: resulta útil en casos en los que interesa hacer un
retest orillando los inconvenientes del aprendizaje o las
posibilidades del fraude.
• Por ejemplo, cuando dos grupos de personas, que puede
establecer contactos ente sí, han de pasar el mismo test de
diferentes días (las pruebas de ingreso en ciertos centros de
enseñanza o en los exámenes de conocimiento).

-Características:
-Requiere de una sola aplicación.
- Se basa en la consistencia de las respuestas de los
sujetos a todos los elementos. Esta consistencia, entre los
elementos, se halla influida por dos fuentes de varianza de
error:
1. Muestreo de contenido (como en la forma equivalente
y la confiabilidad de la división en mitades) y
2. La heterogeneidad del área examinada: Cuanto más
homogénea sea, más alta será la consistencia entre los
elementos.
Método Kuder - Richardson

Ejemplo: un test incluye solamente elementos de
multiplicación, mientras que el otro comprende
elementos de adición, sustracción, multiplicación y
división, el primero probablemente mostrará más
consistencia entre los elementos que el segundo.
Este último test, más heterogéneo, un sujeto puede
tener mejor actuación en la resta que las demás
operaciones aritmética; otro puede puntuar
relativamente bien en los elementos de división,
pero más pobremente en los de adición y
multiplicación y así sucesivamente.
Método Kuder - Richardson

Rulon (1939) elaboró un método abreviado para
descubrir la fiabilidad de la división en mitades.
- Se necesita solamente la varianza de las
diferencias entre las puntuaciones de cada
persona en las dos mitades del test y la varianza
de las puntuaciones totales; estos dos valores se
aplican la siguiente formula:
Método de Rulón

-Características:
- Capaz de ser controlada.
- Ciertos tipos de tests especialmente los de creatividad y
los proyectivos de personalidad, dejan un gran margen al
juicio del puntuador.
- Puede hallarse mediante una muestra de los protocolos
del test puntuados independientemente por dos
examinadores. Las dos puntuaciones obtenidas de esta
forma por cada sujeto se correlacionan en forma corriente,
el coeficiente de correlación resultante es una medida de la
confiabilidad del examinador.
- Se calcula, por lo general, cuando se emplean en la
investigación de instrumentos puntuados subjetivamente.
Confiabilidad del Puntuador

El juicio de experto
Es el procedimiento que permite obtener
información de una persona calificada en
el tema de investigación o llamado
experto.
- ¿Quién es experto?
- ¿ A quien se le considera experto?
El número de expertos requeridos para la
evaluación de un instrumento es ……
personas.

El juicio de experto
El experto evalúa dos criterios:
1. El constructo (C):
¿El item o pregunta recoge información
relacionada al indicar y variable de
estudio?
SI (1 punto) NO (0 punto)
2. La gramática (G):
¿El item o pregunta esta bien formulada,
se entiende?
SI (1 punto) NO (0 punto)

Juec
es
Juez
1
Juez
2
Juez
3
Juez
4
Juez
5
Juez
6
Juez
7
Juez
8
Juez
9
Juez
10 Nº de RESULTADO
C G C G C G C G C G C G C G C G C G C G Jueces C % G %
1 #¡DIV/0! #¡DIV/0!
2 #¡DIV/0! #¡DIV/0!
3 #¡DIV/0! #¡DIV/0!
4 #¡DIV/0! #¡DIV/0!
5 #¡DIV/0! #¡DIV/0!
6 #¡DIV/0! #¡DIV/0!
7 #¡DIV/0! #¡DIV/0!
8 #¡DIV/0! #¡DIV/0!
9 #¡DIV/0! #¡DIV/0!
10 #¡DIV/0! #¡DIV/0!
11 #¡DIV/0! #¡DIV/0!
12 #¡DIV/0! #¡DIV/0!
13 #¡DIV/0! #¡DIV/0!
14 #¡DIV/0! #¡DIV/0!
15 #¡DIV/0! #¡DIV/0!
16 #¡DIV/0! #¡DIV/0!
17 #¡DIV/0! #¡DIV/0!
18 #¡DIV/0! #¡DIV/0!
19 #¡DIV/0! #¡DIV/0!
20 #¡DIV/0! #¡DIV/0!

¡Muchas gracias
por su atención!

Confiabilidad 2.0

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Confiabilidad 2.0

Similar a Confiabilidad 2.0 (20)

Último

Último (20)

Confiabilidad 2.0