Validez y confiabilidad Albujar Joselin y Boscàn L; Josè R.

Universidad Yacambú.
Vicerrectorado de Investigación y Postgrado
Maestría en Ciencias Ambientales.
Mención Evaluación del Impacto Ambiental.
Barquisimeto - Estado Lara.
Participantes:
Licda. Esp. Albujar S; Joselin.
Ing. Esp. Boscán L; José R.
Barquisimeto, Marzo de 2014.

En la vida diaria
medimos constantemente…

Medir significa “asignar números,
símbolos o valores a las
propiedades de objetos o eventos de
acuerdo con reglas”.
Proceso de vincular conceptos abstractos con
indicadores empíricos, el cual se realiza
mediante un plan explícito y organizado para
clasificar (y con frecuencia cuantificar)
los datos disponibles (los indicadores), en
términos del concepto que el investigador
tiene en mente.

En la medición, el instrumento de medición o de recolección de datos tiene
un papel central. La definición sugerida incluye dos consideraciones:
 la primera es desde el punto de vista empírico y se resume en que el
centro de atención es la respuesta observable (sea una alternativa de
respuesta marcada en un cuestionario, una conducta grabada vía observación
o una respuesta dada a un entrevistador).
 la segunda es desde una perspectiva teórica y se refiere a que el
interés se sitúa en el concepto subyacente no observable que se representa
por medio de la respuesta.

Se refiere al grado en que un instrumento realmente mide la variable
que pretende medir. “Pensamos en la variable y vemos cómo hacer
preguntas sobre esa variable”. La validez es una cuestión más
compleja que debe alcanzarse en todo instrumento de medición que se
aplica.
La validez es un concepto del cual pueden
tenerse diferentes tipos de evidencia:
Relacionada con el
contenido
Relacionada con el
criterio
Relacionada con el
constructo

Se refiere al grado en que un instrumento refleja un dominio
específico de contenido de lo que se mide. Es el grado en el
que la medición representa al concepto o variable medida. Un
instrumento de medición requiere tener representados
prácticamente a todos o la mayoría de los componentes del
dominio de contenido de las variables a medir.

El dominio de contenido de una variable normalmente está
definido o establecido por la teoría y antecedentes. En cada
estudio se debe probar que el instrumento utilizado es
válido. Si el dominio de un instrumento es demasiado
estrecho con respecto al dominio de la variable, el primero
no representará a ésta. La pregunta que se responde con la
validez de contenido es:

Establece la validez de un instrumento de
medición al comparar sus resultados con los
de algún criterio externo que pretende
medir lo mismo.
Este criterio es un estándar con el que se
juzga la validez del instrumento. Cuanto
más se relacionen los resultados del
instrumento de medición con el criterio, la
validez de criterio será mayor.
Si el criterio se fija en el presente de
manera paralela, se habla de
(los resultados del instrumento
se correlacionan con el criterio en el
mismo momento o punto de tiempo). Si el
criterio se fija en el futuro, se habla de
.

El principio de la validez de criterio es sencillo: si diferentes
instrumentos o criterios miden el mismo concepto o variable, deben
arrojar resultados similares. Si hay validez de criterio, las
puntuaciones obtenidas por ciertos individuos en un instrumento deben
estar correlacionadas y predecir las puntuaciones de estas mismas
personas logradas en otro criterio.
La pregunta que se responde con la validez de criterio es:
o

Se refiere a qué tan exitosamente un instrumento representa y mide un
concepto teórico. A esta validez le concierne en particular el significado
del instrumento, esto es, qué está midiendo y cómo opera para medirlo.
Parte del grado en el que las mediciones del concepto proporcionadas por
el instrumento se relacionan de manera consistente con otras mediciones de
otros conceptos, de acuerdo con modelos e hipótesis derivadas
teóricamente. A tales conceptos se les denomina constructos.
Un constructo es una variable medida y que
tiene lugar dentro de una hipótesis, teoría o
un esquema teórico. Es un atributo que no
existe aislado sino en relación con otros. No
se puede ver, sentir, tocar o escuchar; pero
debe ser inferido de la evidencia que tenemos
en nuestras manos y que proviene de las
puntuaciones del instrumento que se utiliza.

• Se establece y
especifica la
relación
teórica entre
los conceptos
(sobre la base
de la revisión
de la
literatura).
1
• Se correlacionan
los conceptos y
se analiza
cuidadosamente
la correlación.
2
• Se interpreta la
evidencia empírica de
acuerdo con el nivel en
el que clarifica la
validez de constructo de
una medición en
particular.
3

El proceso de validación de un constructo está vinculado con
la teoría. Cuanto más elaborada y comprobada se encuentre la
teoría que apoya la hipótesis, la validación del constructo
arrojará mayor luz sobre la validez general de un instrumento
de medición. Las preguntas que se responden con la validez de
constructo son:

Se refiere al grado en que
aparentemente un instrumento
de medición mide la variable
en cuestión, de acuerdo con
“voces calificadas”. Se
encuentra vinculada a la
validez de contenido.
Regularmente se establece
mediante la evaluación del
instrumento ante expertos.

La validez de un instrumento de medición se evalúa sobre la base
de todos los tipos de evidencia. Cuanta mayor evidencia de
validez de contenido, de validez de criterio y de validez de
constructo tenga un instrumento de medición, éste se acercará
más a representar la(s) variable(s) que pretende medir.
Validez
de
contenido
Validez
de
criterio
Validez de
constructo
Validez
total

VALIDEZ DE CONTENIDO
Revisar cómo ha sido medida la
variable por otros
investigadores y elaborar un
universo de ítems o reactivos
posibles para medir la
variable y sus dimensiones.
Se seleccionan los ítems y si
la variable está compuesta por
diversas dimensiones o
facetas, se extrae una muestra
probabilística de reactivos,
ya sea al azar o
estratificada.
Se administran los ítems, se
correlacionan las puntuaciones
de éstos entre sí y se hacen
estimaciones estadísticas para
ver si la muestra es
representativa.
Para calcular la validez de
contenido son necesarios
varios coeficientes. Algunas
veces no se calculan estos
coeficientes, sino que se
seleccionan los ítems mediante
un proceso que asegura la
representatividad no de manera
estadística sino conceptual.

La validez de criterio se estima al
correlacionar la medición con el
criterio externo (puntuaciones del
instrumento frente a las puntuaciones
en el criterio), y este coeficiente se
toma como coeficiente de validez.
La validez de constructo suele determinarse
mediante procedimientos de análisis
estadístico multivariado (análisis de
factores, análisis discriminante,
regresiones múltiples,etc.)
VALIDEZ DE CRITERIO
VALIDEZ DE CONSTRUCTO

Improvisación del instrumento
Uso de instrumentos desarrollados en el extranjero que no han sido
validados en nuestro contexto: cultura y tiempo
El instrumento resulta inadecuado para las personas a
quienes se les aplica: no es empático
Estilos personales de los participantes
Condiciones en las que se aplica el
instrumento de medición.
Falta de
estandarización

Es el grado de congruencia con se realiza la
medición de una variable. Esta medición, puede llegar a
lograr un alto coeficiente de validez, pero un bajo
coeficiente de confiabilidad.
La confiabilidad se refiere a su capacidad para dar resultados iguales al ser
aplicada, en condiciones iguales, dos o más veces a un mismo conjunto de
objetos, En el cual existe estabilidad, consistencia, seguridad, precisión y
predictibilidad, en las significaciones directas de cada uno de ellos.

De acuerdo a Stromquist Nelly P., “este criterio científico
tiene que ver con la capacidad del instrumento en uso de producir
medidas constantes dado el mismo fenómeno. Generalmente se distingue
entre la confiabilidad externa para indicar que otros investigadores
usando los mismos instrumentos observarían los mismos hechos y
confiabilidad interna par indicar que otros investigadores harían la
misma conexión entre las definiciones en uso y los datos que se recojan,
es decir, elaborarían el mismo constructo en base a los mismo hechos”.
En si, la confiabilidad se refiere a “La extensión o grado en
que un test dará resultados consistentes si se aplica más de una vez a
la misma gente bajo condiciones estándar-

En este sentido, Una Investigación con buena
confiabilidad es aquella que es estable, segura,
congruente, Igual a sí misma en diferentes tiempos y
Previsible para el futuro. En la evaluación presenta dos
tipos de confiabilidad que reconocen como:
Confiabilidad
interna.
Al estudiar la misma
realidad, se
concuerdan en sus
conclusiones.
Confiabilidad
externa.
Al estudiar una realidad
en tiempos o situaciones
diferentes, llegan a los
mismos resultados.

La confiabilidad es una medida de
determinación de la estabilidad y la consistencia
interna del instrumento.

 Observadores diferentes aplican un mismo instrumento a la misma
muestra (en momentos diferentes) y obtienen resultados
consistentes.
 Un mismo observador aplica un instrumento a muestras equivalentes
y obtiene resultados consistentes.
E
j
e
m
p
l
o
s
Un instrumento es estable si, aplicado repetidas veces a
los mismos fenómenos, bajo las mismas condiciones, arroja
resultados consistentes (congruentes).
Estabilidad

 Cada mitad de una cinta métrica
arroja las mismas mediciones que la
cinta métrica completa.
 Cada mitad de la cinta métrica
arroja los mismos valores que la
otra mitad.
Consistencia interna
Propiedad del instrumento según la
cual, cada parte del mismo mide de la
misma manera que las otras partes.
Ejemplo:

Importancia de la Confiabilidad
Para que los resultados de un instrumento puedan ser
interpretables; es decir, para que tengan significado y valor
heurísticos, es necesario que los mismos sean confiables. No es
posible determinar la relación entre dos o más variables si los
instrumentos utilizados para medirlas son poco confiables. Este tipo
de instrumentos, a menudo, inducen al investigador a interpretaciones
erradas de sus resultados. Por ejemplo, un experimento educativo, en
el cual se ha evaluado el efecto de una nueva estrategia
instruccional, pudiera parecer poco efectivo, aun habiendo tenido un
impacto altamente significativo en el aprendizaje de los alumnos,
simplemente porque los instrumentos utilizados para medir las
variables dependientes eran poco confiables.

La confiabilidad, aun cuando no es la característica más importante de
un instrumento de medición, requiere se le preste toda la atención que sea
necesaria. Ciertamente, una alta confiabilidad, por si sola, no garantiza
“buenos” resultados científicos. Pero, no puede haber “buenos” resultados
científicos sin instrumentos confiables. En síntesis, la confiabilidad es una
condición necesaria, pero no suficiente para obtener resultados de
investigación que sean científicamente valiosos y socialmente útiles.

Hay una creencia generalizada de que la validez de una prueba está
relacionada directamente con su fiabilidad. Para interpretar esta regla hay que
diferenciar entre pruebas homogéneas y heterogéneas. Las primeras tienen una
alta fiabilidad de consistencia interna, pero pueden no tener validez para
medir ciertos rasgos al dejar de incluir aspectos importantes. En las segundas
puede ocurrir lo contrario.
La fiabilidad y validez pueden ser, por tanto, incompatibles y hay que
llegar a un compromiso. La fiabilidad muy alta requiere ítems muy
correlacionados entre sí y la validez muy alta ítems poco correlacionados.
Además, es deseable una gama de dificultades, con objeto de disponer de una
gama graduada para medir las diversas capacidades de las personas.
Relación entre fiabilidad y validez.

Medición 1. Medición 2.
Tiempo1. Tiempo 2.
Densidad de un mineral.
Consiste en la
aplicación de un mismo
instrumento a una misma
muestra de sujetos en al menos
dos momentos diferentes.
No existe criterio
único respecto de cual debe ser
el lazo adecuado de tiempo
entre la primera y segunda
aplicación, este se establece
en función de los fines del
instrumento o la investigación.

En este procedimiento un mismo
instrumento de medición (o ítems o
indicadores) es aplicado dos o más veces
a un mismo grupo de sujetos, después de
un periodo de tiempo.
Si la correlación entre los resultados de
las diferentes aplicaciones es altamente
positiva, el instrumento se considera
confiable. Pero por lo contrario es
negativa el mismo no es confiable.
El tiempo entre la primera y
segunda aplicación es un factor
que hay que considerar.
El coeficiente que se obtiene recibe el nombre de coeficiente de estabilidad
porque denota la coherencia de las puntuaciones en el tiempo. Para un
desarrollo adecuado y que el mismo sean confiables deben variar entre 0,80 y
0,95.

Si el periodo es largo y la variable susceptible
de cambios, ello puede confundir la interpretación del
coeficiente de confiabilidad obtenido por este
procedimiento. Y si el periodo es corto las personas pueden
recordar cómo contestaron en la primera aplicación del
instrumento, para aparecer como más consistentes de lo que
son en realidad.

Este método consiste en elaborar dos
formas paralelas de un mismo test a
una muestra de interés, o lo que es lo
mismo, dos tests paralelos.

• Las dos formas deben ser administradas bajo las mismas condiciones, o, al menos,
bajos los mínimos cambios posibles en las condiciones. Se trata de no introducir
factores que puedan provocar cambios en los resultados.
• Respecto al tiempo, debe utilizarse un lapso entre ambas formas lo
suficientemente corto como para que los sujetos no hayan cambiado en la variable
de interés y lo suficientemente largo para que factores de memoria, fatiga, o
entrenamiento tengan el mínimo efecto.
• Para controlar los efectos, de confusión de la forma de la prueba en el momento
de la aplicación, la forma A debe administrarse a la mitad del grupo y la forma B
la mitad restante; luego, en la segunda aplicación, el primer grupo presenta la
forma B y el segundo la forma A. .

Puede interpretarse como un
coeficiente o indicador de equivalencia
entre los dos tests:
-Si la correlación es alta, las dos
formas del mismo test dan resultados
parecidos, ordenan a los sujetos de
manera parecida, ambas formas son
intercambiables.
- En caso contrario, la correlación entre
las dos formas (respondidas con días u
horas de diferencia) es baja, la
conclusión más razonable no es que los
sujetos han cambiado, sino que las dos
formas no están equilibradas en sus
contenidos y de alguna manera miden cosas
distintas o con énfasis distintos.

Limitaciones del forma
paralela de un test?
La dificultad de este procedimiento radica en conseguir que dos instrumentos
sean realmente paralelos, dada la dificultad que supone realizar dos pruebas
que midan exactamente lo mismo, pero con diferentes ítems. No obstante, en
condiciones ideales en las que se pueda garantizar el paralelismo de ambas
formas, este es el método más recomendable.

Método de mitades partidas
(Split-halves)
Consiste en elaborar un test y
dividirlo en dos mitades para aplicarlo
a un sujeto.

Solo requiere una sola aplicación
de la medición en un mismo grupo
de sujetos, y se divide la prueba
en dos mitades y se comparan los
resultados en correlaciones.
¿Cómo se aplica el método de
las prueba en dos mitades
para estimar la
confiabilidad?

¿Cuál es el resultado
del método de las
prueba en dos mitades?
El conjunto total de ítems (o
componentes) es dividido en dos mitades
y las puntuaciones o resultados de
ambas son comparados. Si el instrumento
es confiable, las puntuaciones de ambas
mitades deben estar fuertemente
correlacionadas.

Limitaciones del método de
las prueba en dos mitades.
La principal dificultad de este sistema es asegurarse de que ambas
mitades sean efectivamente paralelas. Un sistema habitual es
dividir el test entre los ítems pares y los impares; no es
recomendable dividirlo sin más por la mitad, dado que muchos tests
muestran un incremento gradual de la dificultad de sus ítems..

Se trata de un índice de consistencia interna que toma
valores entre 0 y 1 y que sirve para comprobar si el
instrumento que se está evaluando recopila información
defectuosa y por tanto nos llevaría a conclusiones
equivocadas o si se trata de un instrumento fiable que
hace mediciones estables y consistentes.
Coeficiente
Alfa de Cronbach
El coeficiente Alfa de Cronbach es un modelo de consistencia interna, basado en el
promedio de las correlaciones entre los ítems. Entre las ventajas de esta medida se
encuentra la posibilidad de evaluar cuánto mejoraría (o empeoraría) la fiabilidad de la
prueba si se excluyera un determinado ítem.

Este coeficiente requiere una sola medición y mide la consistencia interna de
los ítems en cada escala y el instrumento como conjunto. Es decir entrega un
valor estadístico que nos indica en que medida un conjunto de ítems apuntan en la
misma dirección.
¿Cómo se aplica el método de
Coeficiente Alfa de Cronbach
para estimar la confiabilidad?
La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a
items dicotómicamente valorados.
Una vez obtenido p (=A/N) y q (=1- p) para cada ítem, se procede a obtener la
varianza de cada ítem como producto de p por q. También necesitamos la varianza del
total y la suma de la varianza de los items para aplicar finalmente la fórmula KR20.

Alfa de Cronbach es por tanto un coeficiente de correlación al
cuadrado que, a grandes rasgos, mide la homogeneidad de las
preguntas promediando todas las correlaciones entre todos los
ítems para ver que, efectivamente, se parecen. Su interpretación
será que, cuanto más se acerque el índice al extremo 1, mejor es la
fiabilidad, considerando una fiabilidad respetable a partir de 0,80.
¿Cuál es el resultado
Coeficiente Alfa de Cronbach ?

Su fórmula estadística es la siguiente:










 
2
2
1
1 T
i
S
S
K
K

Donde:
K: El número de ítems
Si^2: Sumatoria de Varianzas de los Items
ST^2: Varianza de la suma de los Items
α: Coeficiente de Alfa de Cronbach

Representa un coeficiente de consistencia interna
del instrumento, que proporciona la media de todos
los coeficientes de división por mitades para todas
las posibles divisiones del instrumento en dos partes
(Magnusson, 1995).
El Método KR20
COEFICIENTE DE
KUDER – RICHARDSON
Se representa de la siguiente manera:

Validez y confiabilidad Albujar Joselin y Boscàn L; Josè R.

Validez y confiabilidad Albujar Joselin y Boscàn L; Josè R.

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Validez y confiabilidad Albujar Joselin y Boscàn L; Josè R.

Similar a Validez y confiabilidad Albujar Joselin y Boscàn L; Josè R. (20)

Último

Último (20)

Validez y confiabilidad Albujar Joselin y Boscàn L; Josè R.