Equipo Validez y Confiabilidad - UNY

Validez y Confiabilidad
Soto González, Luis Carlo.
Suárez Linares, Dulce María.
Venezuela, Julio de 2014

MEDICIÓN
En la medición se asignan
números a las observaciones,
de manera tal, que los números
deben ser susceptibles de
análisis a través de
manipulaciones y operaciones
de acuerdo a determinadas
reglas.
La definición de las variables
va a permitir conceptualizarlas,
establecer su naturaleza,
niveles, escalas, alcances y su
relación con la validez y la
confiabilidad.
Medición es la clasificación de casos
o situaciones y sus propiedades, de
acuerdo a ciertas reglas lógicas.
La medición se refiere a la
cualificación o cuantificación de una
variable en estudio; las variables se
clasifican según la capacidad o nivel
en que permiten medir los objetivos.

- Según López y Vidal (2006) plantean que la validez “no es propiamente
del instrumento sino del uso que se hace de él”, desde el enfoque de otros
autores, indican elementos que le proporcionan validez a la prueba.
- La Validez es el primer atributo con el que debe contar una prueba. Se
trata de un atributo obligatorio, de prioridad alta, ineludible para el
diseñador o grupo responsable de la prueba.
- Mientras mas evidencias se tenga respecto de la validez de la prueba,
será mucho mas solido el diseño y se contará con un elemento de base
para garantizar la calidad del proceso de evaluación.
VALIDEZ

1. Se debe disponer de fuentes de evidencia de validez de la prueba,
incluyendo los análisis de consistencia con relación al perfil de referencia,
los análisis de contenido, la correlación con criterios externos, el análisis
de la escala definida en la prueba respecto a lo esperado en el Proyecto,
dictamen de jueces, entre otros y la manera de integrar todas estas
evidencias respecto al perfil y su interpretación.
2. Las fuentes de evidencia se deben actualizar periódica y
sistemáticamente y los resultados deben integrarse a versiones
actualizadas del Manual Técnico o de otros documentos de divulgación
entre los usuarios del proyecto.
3. Si una fuente de validez fuese necesaria para el Proyecto, pero por
algunas razones no ha podido ser recopilada, deberá indicarse dentro de la
documentación de este estándar.
4. Se debe fundamentar la combinación de resultados en los instrumentos
que integran el Proyecto, para obtener una mayor validez en la calificación
global o en la interpretación de resultados parciales de la prueba
Evidencia de Validez
Prioridad: Alta

Validez de Contenido
Prioridad Alta
1. Se debe describir el procedimiento específico para la realización
del análisis de validez de contenido, del cual se desprenden las
tablas de especificaciones.
2. Deberán incluirse los datos de la experiencia profesional de los
jueces, su calificación y la capacitación recibida para el proceso,
como elemento adicional de la validez del proceso.

1. Se debe describir el procedimiento específico para la realización de los
análisis de validez de criterio, independientemente de otros indicadores
predictivos asociados con la prueba.
2. Debe proporcionarse el modelo matemático específico que se sigue en
el análisis y las características de la población o de la muestra en su caso.
3. En el modelo predictivo se debe aclarar la elección de las variables
predictoras y las variables criterio, además de su justificación para elegirlas
como fuente de validez. En particular debe indicarse el ámbito de
recopilación de las variables y sus fuentes de error.
4. Debe reportarse toda evidencia que se tenga respecto de cualquier factor
ajeno que afecte la medida de criterio, así como los procedimientos que se
estén empleando para atenuar los efectos de dichos factores.
5. En el caso de intervenir jueces para definir el conjunto de variables
involucradas en el modelo, se deberá incluir su experiencia profesional y
calificaciones, junto con la capacitación recibida para el proceso de
establecimiento del criterio.
Validez de Criterio
Prioridad: Media

Validez de Constructo
Prioridad: Media
1. Se debe describir el procedimiento específico para la realización
del análisis de validez de constructo, indicando el modelo
especifico que se sigue en el análisis y para obtener el consenso
de los especialistas o jueces participantes en dicho análisis.
2. Debe quedar claro el constructo especifico que se mide con la
prueba y su distinción respecto de otros constructos y demostrar
que la prueba no depende de constructos ajenos al definido para el
Proyecto.
3. Deberán incluirse los datos de la experiencia y calificaciones de
los jueces y la capacitación que se ofreció para el proceso de
jueceo, como elemento adicional de la validez del proceso.

Bernal (2000:218) afirma que la pregunta clave para determinar la confiabilidad de un
instrumento de medición es:
Si se miden fenómenos o eventos una y otra vez con el mismo instrumento de
medición, ¿Se obtienen los mismos resultados u otros muy similares? Si la respuesta
es afirmativa, se puede decir que el instrumento es confiable.
La importancia de garantizar la confiabilidad del instrumento viene dada por el hecho
de que las interpretaciones sobre el comportamiento de los fenómenos estudiados se
hacen sobre la base de la confianza que se tenga en los datos recolectados. Si no se ha
demostrado la confiabilidad del instrumento, siempre habrá un margen de duda sobre
la calidad de la interpretación que se haga a partir de los datos obtenidos.
La confiabilidad se refiere al nivel de exactitud y consistencia de los resultados obtenidos al aplicar el
instrumento por segunda vez en condiciones tan parecida como sea posible.
CONFIABILIDAD

La Fiabilidad tiene dos grandes componentes:
• La Consistencia Interna:La Consistencia Interna: Se refiere al grado en que los distintos
ítems, partes o piezas de un test miden la misma cosa. Significa
la constancia de los ítems para operar sobre un mismo
constructo de un modo análogo.
• La Estabilidad Temporal:La Estabilidad Temporal: Se refiere al grado en que un
instrumento de medida arrojará el mismo resultado en diversas
mediciones concretas midiendo un objeto o sujeto que ha
permanecido invariable.
CONFIABILIDAD

• En este procedimiento un mismo instrumento es aplicado en dos
oportunidades o más a un mismo grupo de personas, después de cierto
período de tiempo. Si la correlación entre los resultados de las diferentes
aplicaciones es altamente positiva, el instrumento se considera
confiable. El valor de la correlación es un valor ubicado entre el –1 y 1.
• El cálculo de este coeficiente se utiliza para mediciones de variables o
dimensiones que responden a una escala de medición de intervalo o
razón.
• Es importante que para la aplicación de esta prueba, se tome un lapso de
tiempo lo suficientemente largo para que los sujetos se olviden de lo que
contestaron y, por el otro, no tanto que se produzcan cambios
importantes. (Pérez 1998:72). Algunos expertos opinan que 15 días de
distancia entre un test y otro es suficiente. Este tipo de medición se
utiliza en investigaciones cuantitativas.
muy baja (0) baja regular aceptable elevado(1)muy baja (0) baja regular aceptable elevado(1)
No hay confiabilidad 100% de confiabilidadNo hay confiabilidad 100% de confiabilidad
TEST - RETEST

Este método consiste en:
• Elaborar dos formas paralelas de un mismo test, o lo que es lo mismo, dos test paralelos.
• Aplicar una forma del test a la muestra de interés y tras un lapso de tiempo que no relevante para
la aparición de cambios en los sujetos, aplicar la segunda forma del test a la muestra.
• Calcular el coeficiente de correlación entre las puntuaciones empíricas obtenidas por los sujetos
en las dos ocasiones. Si las formas son paralelas esa correlación es el coeficiente de fiabilidad
del test.
No puede considerarse formas paralelas aquellas en que la diferencia consiste en
que se ha variado el orden de los ítems o el orden de las alternativas.
Hay dos tipos de criterios que dos test han de cumplir para ser considerados
paralelos
1.1. Criterio EstadísticoCriterio Estadístico: Las dos formas presentan medias iguales y variaciones
iguales tanto en sus puntuaciones empíricas, como verdaderas y errores (mediciones
paralelas) u obtienen las mismas puntuaciones verdaderas, pero no se requiere igual
varianza de error (tau-equivalentes)
2.2. Criterios de formato y contenido:Criterios de formato y contenido: En la practica dos test paralelos consisten en
dos conjuntos distintos de ítems referidos a una misma variable o constructo
psicológico , habitualmente con las mismas instrucciones y el mismo formato de
prueba de ítems. Pretenden muestrear el mismo contenido con cuestiones
formuladas de manera distinta.
METODOS PARA DETERMINAR CONFIABILIDAD
Formas Paralelas

Una vez se han administrado las dos formas paralelas
se dispondrá de una tabla
de datos con N sujetos por 2 variables, la puntuación en
la forma A y en la forma B para cada sujeto. Se
procede entonces a calcular el coeficiente de
correlación de Pearson.
El resultado obtenido puede estar entre –1 y +1,
pasando por 0 (ausencia de relación lineal). En
realidad, como se trata de formas paralelas, no tiene
sentido esperar correlaciones negativas debiendo
estar el resultado entre 0 y +1, incluso cabría esperar
valores positivos alejados de 0.
Si A y B son formas paralelas entonces la correlación
es el coeficiente de fiabilidad. Para considerar el test
fiable, el coeficiente de correlación obtenido deber
ser alto, de modo que una gran proporción de la
varianza de las puntuaciones se deba a varianza
verdadera.
Es decir, si obtenemos un coeficiente de fiabilidad de
0’75 diremos que tres cuartas
partes de la varianza empírica del test se deben a
varianza verdadera, o lo que es lo
mismo, que un 25% de la varianza empírica es varianza
de error.
Cálculo del coeficiente de correlaciónCálculo del coeficiente de correlación

La aplicación de las formas del testLa aplicación de las formas del test
1. Las dos formas deben ser administradas en las mismas condiciones, o al menos,
bajo los mínimos cambios posibles en las condiciones. Se trata de no introducir
factores que puedan provocar cambios en los resultados.
2. Respecto al tiempo, debe utilizarse un lapso entre ambas formas, lo
suficientemente corto como para que los sujetos no hayan cambiado en la variable de
interés y lo suficientemente largo para que factores de memoria, fatiga o
entrenamiento tengan el mismo efecto.

Los resultados obtenidos de la aplicación del instrumento se dividen en
dos mitades comparativas; así, a cada sujeto le corresponde dos
calificaciones después de una sola aplicación del instrumento. La
confiabilidad se obtiene después de correlacionar esas dos
calificaciones.
Una manera de resolver el problema de cómo dividir el instrumento es
haciendo dos grupos con las calificaciones obtenidas de los ítems pares
y nones. Se debe estar seguros que todas las categorías estén
representadas en las dos partes para que se divida el instrumento
Se obtienen las puntuaciones de los ítems pares y de los ítems nones,
luego ambas se correlacionan. Si ambas puntuaciones son altas se
obtendrá un coeficiente de confiabilidad alto.
SPLIT-HALVES (Divididas en mitades)

Es un coeficiente que sirve para medir la fiabilidad de una escala de medida, y cuya
denominación Alfa fue realizada por Cronbach en 1951, aunque sus orígenes se
encuentran en los trabajos de Hoyt (1941) y de Guttman (1945)
Este método permite medir la consistencia interna del instrumento. Se utiliza en la
construcción de escalas en las que no hay respuestas correctas o incorrectas,
sino que cada entrevistado responde la alternativa que mejor representa su forma
de pensar sobre el objeto que se le pregunta.
Un investigador trata de medir una cualidad no directamente observable (por ejemplo,
la inteligencia) en una población de sujetos. Para ello mide n variables que sí son
observables (por ejemplo, n respuestas a un cuestionario o un conjunto de n
problemas lógicos) de cada uno de los sujetos.
Se supone que las variables están relacionadas con la magnitud inobservable de
interés. En particular, las n variables deberían realizar mediciones estables y
consistentes, con un elevado nivel de correlación entre ellas.
El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida
para la magnitud inobservable construida a partir de las n variables observadas.
El alfa de Cronbach no es un estadístico al uso, por lo que no viene acompañado de
ningún p-valor que permita rechazar la hipótesis de fiabilidad en la escala. No
obstante, cuanto más se aproxime a su valor máximo, 1, mayor es la fiabilidad de
la escala. Además, en determinados contextos y por tácito convenio, se considera
que valores del alfa superiores a 0,7 o 0,8 (dependiendo de la fuente) son
suficientes para garantizar la fiabilidad de la escala.
Coeficiente Alfa de Cronbach.

El KR20 es un indicador de la fidelidad (consistencia interna).
Los métodos basados (Rulon, Alfa de Cronbach, Spearman, Brown) en la división en dos porciones
(presumiblemente iguales) da desventaja de ser relacionado con las opciones de la partición
(véase la mitad igualdad-impar, de la primera y segunda parte, al azar).
Kuder y Richardson desarrollaron un procedimiento basado en los resultados obtenidos con cada
ítem. De hecho, hay muchas maneras de precisar otra vez los ítems (reactivos) en 2 grupos, que
pueden conducir a las estimaciones diferentes de la consistencia interna.
Esta es la razón por la cual Kuder y Richardson consideren tantas (n) partes en la prueba de acuerdo
a los ítems (n).
En los métodos de partición en dos, (conocido también como bisección) supone para cada parte ser
equivalente ( las formas paralelas ). Para el KR20, la misma lógica se adopta en el nivel de los
ítems. Es lo que uno llama unidimensional.
El KR20 se aplica en la caja dicotómica de ítems.
Uno calcula el KR20 como sigue:
= variación de las cuentas de la prueba.
N = a un número total de ítems en la prueba
pi = es la proporción de respuestas correctas al ítem I.
Índice de inteligencia = proporción de respuestas incorrectas al ítem I.
Se puede mostrar que el KR20 es el promedio de los Índices de la fidelidad el cuál se obtendrá si se
calcula la fidelidad para todas las particiones posibles en dos. Para ilustrar la aplicación del KR
n° 20 de la fórmula de Kuder-Richardson, se puede tomar un ejemplo ficticio de una examen de
10 preguntas en el que se calcula el coeficiente de la consistencia interna. El vector 5,4 contiene
la cuenta obtenida por cada pregunta así como la cuenta total del examen.
Miremos al primer alumno, "Eric", que contestó correctamente a seis preguntas entre las 10
preguntas del examen. Las preguntas correctas son, B, C, D, E, F, y que falló en las preguntas G,
H, I, J.
Verticalmente, todos los alumnos tuvieron éxito en la pregunta (a) , mientras que solamente dos
alumnos tuvieron éxito en la pregunta (J).
COEFICIENTE KR20

Indiscutiblemente, en todo tipo de investigación la confiabilidad y validez de
los datos recabados son de suma importancia, puesto que de ello depende
la certeza en la aproximación de resultados en la lectura de una realidad o
fenómeno.
Independientemente cual sea la metodología o marco metodológico en la
investigación o evaluación cualitativa se requiere de herramientas o
instrumentos con un nivel de confiabilidad y validez tal, que permita hacer
una interpretación imparcial , correcta y precisa de los hechos, de la misma
manera las correlaciones que se suceden dentro del evento.
CONCLUSION

Equipo Validez y Confiabilidad - UNY

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Equipo Validez y Confiabilidad - UNY

Similar a Equipo Validez y Confiabilidad - UNY (20)

Último

Último (19)

Equipo Validez y Confiabilidad - UNY