Validez y Confiabilidad

UNIVERSIDAD YACAMBU
VICERECTORADO DE INVESTIGACION Y POSTGRADO
PROGRAMA DE ESTUDIOS A DISTANCIA
PROGRAMA MAESTRIA EN EDUCACIÓN AMBIENTAL
DISEÑO CUANTITATIVO
CABUDARE, MARZO 2014
AUTORAS:
LUZBETH ALBARRÁN
C.I.: V-13.097.589
YULIMAR VIVAS
C.I:15.941.552
PROF. Msc.: LEONARDO
CASTILLO

Medir es parte de nuestro vivir.
Bostwick, (2005).
«La medición es un método que
permite establecer correspondencias
entre magnitudes de un mismo género,
y ciertas clases de números
(integrales, racionales o reales)» en
Russell (1938)
Medir significa “asignar números, símbolos o valores a las propiedades
de objetos de acuerdo a ciertas reglas”. Stevens (1951).
Actualmente se concibe a la medición como al “proceso de vincular
conceptos abstractos con indicadores empíricos” Carmines (1991).
¿Y qué es un instrumento
de medición?
Es el recurso que se utiliza para
registrar la información que se
quiere obtener.
MEDICION: ¿ EN QUÈ CONSISTE?
Longitud Peso
Tiempo

Todo instrumento de medición científica tiene que cumplir con dos
principios básicos:
ser válido y ser confiable.
Ser válido significa que un
instrumento es válido para una
esfera de comportamientos si
nos permite predecir
rendimiento dentro de esa
esfera, independientemente
del nombre de la prueba, del
rasgo o rasgos que se dice que
mide. Por ejemplo, diremos que
una regla mide centímetros, o
bien la distancia lineal entre
dos puntos, y será válida para
medir la distancia entre dos
puntos lineales, pero no es
válida para medir la extensión
de la línea de un círculo.
Ser confiable significa que un
instrumento de medición
independiente de su objetivo,
siempre debe medir lo mismo,
bajo las mismas condiciones..
LA CONFIABILIDAD de un
instrumento de medición se
refiere al grado de precisión o
exactitud de la medida, en el
sentido de que si aplicamos
repetidamente el instrumento
al mismo sujeto u objeto
produce iguales resultados.
LA VALIDEZ se refiere al grado en que un
instrumento mide la variable que pretende medir.

La validez y confiabilidad siempre está limitada según sea la evidencia disponible,
permitiendo afirmar que determinado instrumento es válido y confiable para
determinado uso y bajo ciertas condiciones.
FACTORES QUE PUEDEN AFECTAR LA CONFIABILIDAD Y LA VALIDEZ
a) La improvisación. Algunas personas creen que elegir un
instrumento de medición o desarrollar uno es algo fácil y que
no requiere de supervisión alguna. Para poder construir un
instrumento se requiere conocer muy bien la variable que se
pretende medir y la teoría que la sustenta.
b) El no estar validados en el contexto donde se aplican.
Traducir un instrumento, aún cuando adaptemos los términos a
nuestro lenguaje no es ni remotamente validarlo. Es
simplemente un primer paso ya que validar un instrumento
implica realizar una investigación extensa y compleja. Los
grupos, las personas cambian y tienen valores diferentes de
acuerdo a la cultura. Por lo tanto, se deben aplicar
instrumentos ya validados en el contexto.
c) El instrumento e inadecuado o no es empático. Hay
instrumentos que tienen un lenguaje muy elevado para el
entrevistado o no toma en cuenta diferencias de sexo, edad
nivel ocupacional y educativo; todo esto puede resultar en
errores de validez y confiabilidad del instrumento de medición
d) Condiciones en que se aplica el
instrumento. El ruido, presionar para
que una persona conteste un
instrumento largo en un período de
tiempo corto, el hambre o falta de
motivación para responder influirá
negativamente en la validez
y confiabilidad de la medida.
e) Aspectos mecánicos. Que el
instrumento tenga instrucciones
precisas, que se lea bien (si se trata de
un cuestionario escrito), que no le
falten páginas, que haya un espacio
adecuado para contestar.

Para la confiabilidad, generalmente todos los
procedimientos utilizan fórmulas que producen
“coeficientes de confiabilidad”, los cuales pueden oscilar
entre 0 y 1, donde 0 significa confiabilidad nula y 1
representa el máximo de confiabilidad. Entre más se
acerque el coeficiente a 0 habrá mayor error en la
medición. Los procedimientos más utilizados son:
Medida de estabilidad (confiabilidad por test-retest). Un
mismo instrumento es aplicado dos o más veces a un
mismo grupo de personas.
Medidas paralelas o formas equivalentes de medir. En
este procedimiento no se aplica el mismo instrumento de
medición sino dos o más versiones equivalentes de éste.
Método de mitades divididas. Aquí se administra un solo
instrumento, una sola vez, pero se dividen las preguntas
o los items
Cotejo entre observadores. Se utiliza fundamentalmente
cuando se aplican instrumentos de observación y
registro. Dos o más observadores aplican el mismo
instrumento al mismo tiempo.
¿CÓMO SE SABE SI UN INSTRUMENTO ES CONFIABLE Y VÁLIDO?
En la práctica es casi imposible que una medición sea perfecta, generalmente se tiene un
grado de error. Desde luego, se trata que este error sea el mínimo posible y para ello hay
formas de calcular la confiabilidad y la validez.
Para calcular la validez,
la validez que más interesa
obtener en una investigación
es la validez de contenido.
Para obtener validez de
contenido primero que nada
hace falta revisar
como ha sido tratada esta
variable por otros
investigadores
anteriormente. Segundo,
elaborar un universo de
items tan amplio como sea
posible, para medir la
variable en todas
sus dimensiones.
Posteriormente, se consulta
con investigadores
familiarizados con el tema
y la variable a medir para ver
si el contenido es
exhaustivo. Esto se conoce
con el nombre
de validación por expertos.

Los juicios de expertos se pueden obtener por métodos grupales o por métodos de experto único. Se pueden seguir:
Método de Agregados Individuales: Se pide
individualmente a cada experto que dé una estimación
directa de los ítems del instrumento. Éste es un método
económico porque, al igual que el método Delphi no
exige que se reúna a los expertos en un lugar
determinado.
Método Delphi: Este método fue creado en 1948 para obtener
la opinión de expertos de una manera sistemática. En un primer
momento, cada experto responde de manera individual y
anónima a un cuestionario. Después se analizan las respuestas
del conjunto de expertos, se remite a cada uno la respuesta
mediana obtenida, así como el intervalo intercuartil para cada
cuestión y se les pide que reconsideren su juicio anterior,
teniendo en cuenta estos datos.
Técnica de Grupo Nominal: El primer paso es reunir a los
expertos (entre ocho y diez personas) y pedirles que registren,
individualmente y sin intercambiar opiniones, sus propias
puntuaciones y consideraciones respecto a las probabilidades de
error para cada una de las preguntas o tareas que se les
detallan. Después, cada experto expone a los demás las
puntuaciones y principales consideraciones registradas y al
acabar esta ronda, se establecen las coincidencias del grupo.
Luego se realiza un debate de cada uno de los apartados de
ésta. Finalmente, cada experto, de manera individual y por
escrito, puntúa y argumenta las probabilidades de error para
cada tarea/pregunta considerada.
Método del Consenso Grupal: Se reúne a los
expertos en un lugar determinado, se indica al grupo
que su tarea consiste en lograr una estimación de la
pertinencia y otros aspectos relacionados con la
elaboración de los ítemes, que sea satisfactoria para
todos los expertos. Con estas instrucciones se
maximizan los intercambios de información y
opiniones dentro del grupo de expertos.

Validez Predictiva
o de Critério
Externo o
Empírica:

1. La relación entre la conceptualización teórica del instrumento y su estructura factorial. Por
ejemplo, en el desarrollo de la escala AC-2000, que mide el Autoconcepto de los alumnos de
sexto grado, Ruiz (1988) comprobó, a través de la técnica del Análisis Factorial, que las tres
dimensiones hipótetizadas en la escala (Autoconcepto Social, Autoconcepto Personal y
Autoconcepto Escolar) tenían soporte empírico en los datos (ver Cuadro 1).
Cronbach (1960) ha sugerido los pasos siguientes para establecer la validez de constructo: (a)
identificar las construcciones que pudieran explicar la ejecución en el instrumento; (b) formulación
de hipótesis comprobables a partir de la teoría que enmarca a cada construcción; y (c) recopilación
de datos para probar estas hipótesis. Estas hipótesis se pueden enunciar en relación con cualquiera
de los siguientes tipos generales de evidencia (Thorndike, 1989; Helmstadter, 1964):
2. La información correlacional, esto es, que muestre las correlaciones entre la prueba bajo
estudio y otras medidas (pruebas o eventos en la vida real) que reflejen o dependan del atributo
en cuestión. Por ejemplo, en el mismo estudio de Ruiz (1988) se encontró una correlación de
0,79 entre el instrumento AC- 2000 y la escala de Auto-estima de Coopersmith (1959).
3. Los datos sobre las diferencias entre grupos, comparando las puntuaciones de prueba de los
subgrupos que se puede esperar difieren en el nivel del atributo. Por ejemplo, en el desarrollo
de una escala de Auto-concepto, se podría probar la hipótesis de que los estudiantes con alto y
bajo auto-concepto académico difieren en rendimiento escolar.
4. La información que muestre los efectos de tratamiento o intervenciones experimentales que se
puede esperar influyan en la expresión del atributo. Por ejemplo, existen evidencias en la
literatura que brindan soporte a la hipótesis de que una estrategia instruccional centrada en la
retroalimentación positiva y crítica en las pruebas de evaluación formativa, de estudiantes de
sexto grado, mejora el Auto-concepto de dichos alumnos
5. 5. Consistencia interna. En este sentido, podríamos predecir correlaciones altas entre ítemes
debido a que todos ellos supuestamente miden el mismo constructo: Auto-concepto.
VALIDEZ DE CONSTRUCTO DE UN INSTRUMENTO
VALIDEZ TOTAL =VALIDEZ DE CONTENIDO + VALIDEZ DE CRITERIO +
VALIDEZ DE CONSTRUCTO

El término confiabilidad “…designa la exactitud con que un conjunto de puntajes de
pruebas miden lo que tendrían que medir” (Ebel, 1977, citado por Fuentes, op. cit., p.
103). Entre los métodos para estimar la confiabilidad, se tienen:
CONFIABILIDAD. Definición
LA CONFIABILIDAD de un instrumento de medición se
refiere al grado de precisión o exactitud de la medida, en el
sentido de que si aplicamos repetidamente el instrumento
al mismo sujeto u objeto produce iguales resultados. Es el
caso de un balanza o de un termómetro, los cuales serán
confiables si al pesarnos o medirnos la temperatura en dos
ocasiones seguidas, obtenemos los mismos datos.
Antes de iniciar el trabajo de campo, es
imprescindible probar el cuestionario sobre un
pequeño grupo de población. Esta prueba piloto
ha de garantizar las mismas condiciones de
realización que el trabajo de campo real. Se
recomienda un pequeño grupo de sujetos que no
pertenezcan a la muestra seleccionada pero sí a la
población o un grupo con características similares
a la de la muestra del estudio
Confiabilidad-grado en que un instrumento produce resultados consistentes. La
confiabilidad es una medida de determinación de la ESTABILIDAD y la
CONSISTENCIA INTERNA DEL INSTRUMENTO.

Métodos para estimar la Confiabilidad
MÉTODO TEST-RETEST: una forma de estimar la confiabilidad de un
test o cuestionario es administrarlo dos veces al mismo grupo y
correlacionar las puntuaciones obtenidas. Este método tiene la
desventaja de que los puntajes pueden verse afectados por el recuerdo,
la práctica, etc. Este procedimiento no es adecuado para aplicarlo a
pruebas de conocimientos sino para la medición de aptitudes físicas y
atléticas, tests de personalidad y motores.
El coeficiente que se obtiene recibe el nombre de coeficiente de
estabilidad porque denota la coherencia de las puntuaciones en el
tiempo. Para un desarrollo adecuado y sean confiables deben variar entre
0,80 y 0,95 (Popham, 1980, citado por Fuentes, op. cit.).
Se usa la correlación por el método de los puntajes directos
(Correlación r de Pearson):
En donde:
rxy: es el coeficiente de correlación
N: número de sujetos
X: valores de X (1ª aplicación)
Y: valores de Y (2ª aplicación)
XY: producto de cada valor X por su
correspondiente valor en Y
Cuadro 2. Tabla de Datos para aplicar el
Coeficiente de Correlación r de Pearson.
𝑟𝑥𝑦 −
𝑁 𝑋𝑌 − 𝑋 𝑇
𝑁 𝑋2 − 𝑋 ²𝐈𝑁 𝑌2 − 𝑌 ²

Descripción del Método
Método:TEST – RETEST
Características:
 El investigador debe aplicar el mismo
instrumento dos veces al mismo grupo después
de cierto período.
 Debe calcular la confiabilidad del instrumento
ANTES de la aplicación definitiva del mismo.
 Coeficiente de Correlación de Pearson
altamente positivo = Instrumento confiable.
Debilidades:
 El periodo de tiempo (corto – largo) entre las
mediciones puede confundir el coeficiente de
confiabilidad.

𝑟12 =
𝑁 𝑋1 𝑋2 − 𝑋1)( 𝑋2
𝑁 𝑋 2
₁ − 𝑋1 ²𝐈𝑁 2
2
𝑋 − ( 𝑋2) ²
Esto supone que las dos test mitades son paralelos, tienen igual
longitud y varianza entre sí. Se estima a través del coeficiente de
confiabilidad de Spearman-Brown:
i) Se establece la correlación entre los dos puntajes de las dos
mitades del test a través del método de los puntajes directos,
Correlación r de Pearson:
ii) Estimación del test completo (Spearman-Brown) con
la fórmula:
Se interpreta la prueba de hemitest como coeficiente de
consistencia interna, ya que una sola prueba contiene las dos
formas equivalentes y su énfasis lo pone en las puntuaciones de
los sujetos, no en los ítemes.
rtt=
2𝑟12
1+𝑟12
Método de formas alternativas o paralelas:
Aquí no se administra el mismo instrumento de
medición, sino dos o más versiones
equivalentes de este. Coeficiente de
correlación producto-momento de Pearson.
Se administra el instrumento dos veces a la
misma población. La segunda se cambia el
orden de preguntas y se construye una versión
equivalente a la primera se comparan para
determinar si son similares o discrepantes

Método: FORMAS EQUIVALENTES
Características:
Se administran dos o más versiones equivalentes de un mismo
instrumento.
Deben ser similares en contenido, instrucciones, tipos de preguntas
y dificultad.
Son administradas al mismo grupo en un período relativamente
corto.
Los patrones de respuestas deben variar POCO entre las
aplicaciones.
Coeficiente de Confiabilidad = Fórmula de Correlación de
Pearson.
Debilidades:
 Dificultad para obtener dos pruebas realmente paralelas
 Implica doble trabajo
 Confiable solo si la correlación entre los resultados de ambas
aplicaciones es positiva

SPLIF-HALF METHOD- se construye el
instrumento con dos grupos de preguntas (pares
y nones) que midan igual. Se administra el
instrumento se determina el puntaje de los pares
y nones. Se le estima la correlación y puntuación.
A mayor la correlación mas confiable se
considera el instrumento porque las preguntas
pares y nones reflejan puntaciones casi iguales.
El método de mitades-partidas requiere sólo una
aplicación de la medición. Específicamente, el
conjunto total de ítems (o componentes) es
dividido en dos mitades y las puntuaciones o
resultados de ambas son comparados. Si el
instrumento es confiable, las puntuaciones de
ambas mitades deben estar fuertemente
correlacionadas. Un individuo con baja
puntuación en una mitad, tenderá a tener
también una baja puntuación en la otra mitad.

a) Mediante la varianza de los ítemes y la varianza del
puntaje total (Hernández Sampieri et al, 2003)
Donde:
rtt : coeficiente de confiabilidad de la prueba o
cuestionario.
k: número de ítems del instrumento.
st2: Varianza total del instrumento.
Σsi2: Sumatoria de las varianzas de los ítems.
Cuanto menor sea la variabilidad de respuesta, es
decir, que haya homogeneidad en las respuestas
dentro de cada ítem, mayor será el Alfa de Cronbach.
b) Mediante la matriz de correlación de los
ítemes.
α=
𝑛𝑝
1+𝑝(𝑛 −1)
Donde:
n: Número de ítemes
p: Promedio de las correlaciones lineales
entre cada uno de los ítemes
Cuanto mayor sea la correlación lineal
entre ítemes, mayor será el alfa de
Cronbach.
𝑟𝑡𝑡 −
𝑘
𝑘 − 1
1 − 𝑖
2
𝑠
𝑠
2
𝑡

Permite obtener la confiabilidad a partir de los datos
obtenidos en una sola aplicación del test. Coeficiente de
consistencia interna. Puede ser usada en cuestionarios
de ítemes dicotómicos y cuando existen alternativas
dicotómicas con respuestas correctas e incorrectas.
Donde:
n: número total de ítemes
s2t: varianza de las puntuaciones totales
p: proporción de sujetos que pasaron un ítem
sobre el total de sujetos
q = 1- p
permite obtener la confiabilidad a partir de los datos
obtenidos en una sola aplicación del test. La
suposición básica es considerar que todos los ítemes
presentan igual varianza. Coeficiente de
consistencia interna.
Donde:
n: número total de ítemes
M: media aritmética de las puntuaciones obtenidas
por los individuos
s2t: varianza de las puntuaciones totales
𝐾𝑅20 =
𝑛
𝑛−1
𝑆2
𝑡 − 𝑝𝑞
𝑠2 𝑡 𝐾𝑅21 =
𝑛
𝑛 − 1
1 −
𝑀 𝑛 − 𝑀
𝑛𝑠2
1

Técnica: Alfa de Cronbach
Características:
Requiere sólo una aplicación del instrumento de medición.
Produce valores que oscilan entre cero (0) y uno (1).
No es necesario dividir en mitades los ítems del instrumento.
Se aplica la medición y se calcula el coeficiente.
Técnica: Kuder – Richardson KR - 20
Permite calcular la confiabilidad con una sola aplicación del
instrumento.
No requiere el diseño de pruebas paralelas.
Es aplicable sólo en instrumentos con ítems dicotómicos, que
puedan ser codificados con 1 – 0 (correcto – incorrecto,
presente – ausente, a favor – en contra, etc.) .

CUADRO RESUMEN
MÉTODO TÉCNICA PROPÓSITO
Test/retest Coeficiente r
correlación de Pearson
Consistencia en el
tiempo de los puntajes
Formas Equivalentes Coeficiente r
correlación de Pearson
Estabilidad Temporal,
consistencia de las
respuestas.
División por dos
mitades
Pearson/Spearman-
Brown.
Rulón
Guttman
Homogeneidad de los
itemes al medir el
constructo
Análisis de
homogeneidad de los
Itemes
KR 20 Coeficientes de
fiabilidad como
consistencia interna
para itemes
dicotómicos (KR20).
Alfa de Cronbach Homogeneidad de los
itemes con escala tipo
Lickert.

Confiabilidad
Una alta confiabilidad, por
si sola, no garantiza
“buenos” resultados
científicos. Pero no puede
haber “buenos”
resultados científicos sin
instrumentos confiables.
Carlos Ruiz Bolívar
(2003)

PASOS PARA CREAR Y VALIDAR UN INSTRUMENTO DE MEDICIÓN
 Listar las variables que se van a medir u
observar.
 Revisar la definición conceptual de las
variables.
 Establecer la definición operacional.
 Elegir un instrumento ya desarrollado que se
adaptará para el estudio o crear un nuevo
instrumento, tomando en cuenta las
dimensiones a medir y los indicadores
específicos que se utilizarán para cada una.
 Indicar el nivel de medición de cada ítem o
variable.
 Establecer la forma en que se codificarán
(darles un número que represente) las
variables o ítems.
 Aplicar una prueba piloto del instrumento.
 Modificar el instrumento, a partir de los
resultados de la prueba piloto.

CONCLUSIÓN
La concepción de confiabilidad de la evaluación del
aprendizaje, bajo el enfoque cuantitativo, hace
referencia a la estabilidad o consistencia interna en
las técnicas e instrumentos; y reside en establecer
la medida en que se puede replicar la evaluación:
una exigencia al evaluador para que, utilizando
otros métodos y estrategias, llegue a idénticos
resultados. La prueba y el test alcanzan un elevado
coeficiente de confiabilidad si los errores de medida
se minimizan; es decir, cuando toda medida de
confiabilidad indica qué proporción de la varianza
total de las puntuaciones es varianza de error.
La concepción de validez está referida a la firmeza
o seguridad de algún acto y las condiciones
necesarias para su permanencia, vigencia y
autenticidad
Tanto la validez como la confiabilidad se conjugan
para coadyuvar al evaluador a ser objetivo en el
proceso de describir la realidad derivada de un
aprendizaje específico, el cual está inmerso en un
discurso privado y que pretende ser público a
través de la comunicación.

Validez y Confiabilidad

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (19)

Similar a Validez y Confiabilidad

Similar a Validez y Confiabilidad (20)

Último

Último (20)

Validez y Confiabilidad