Este documento explica los conceptos de validez y confiabilidad en la medición. Define la validez como la medida en que un instrumento mide lo que pretende medir, y distingue entre validez de contenido, criterio y constructo. Define la confiabilidad como la consistencia de los resultados y explica métodos como test-retest, formas paralelas y mitades partidas. También explica el coeficiente alfa de Cronbach para medir la confiabilidad.
1. Participantes:
Lcda. Marilin Rodríguez
C.I.12.245.354
Lcda. Karina Guzmán
C.I. 11.212.594
Marzo, 2014.
UNIVERSIDAD YACAMBÚ
VICERRECTORADO DE INVESTIGACION Y POSTGRADO
INSTITUTO DE INVESTIGACIÓN Y POSTGRADO
ASIGNATURA: DISEÑOS CUANTITATIVOS
2. La Medición es el proceso general que vincula conceptos abstractos a
indicadores empíricos. Todas las mediciones se caracterizan por la mayor o
menor presencia de dos atributos: a) confianza (o qué tan confiable es la
medición) y b) validez (o qué tan válida es una medición).
Una medición es “confiable” si podemos esperar en forma razonable que los
resultados de dicha medición sean sistemáticamente precisos. Esto requiere que
el instrumento usado para realizar la medición (como por ejemplo una prueba o
examen a estudiantes) sea confiable.
Por ejemplo, una pistola es por completo confiable si siempre da en el blanco al
ser apuntada exactamente en la misma dirección. En otras palabras, si la bala
que dispara siempre da en el punto al cual se apunta la pistola. O sea, que si la
pistola no da en el blanco es porque la persona que la disparó falló, o sea, no
apuntó correctamente.
MEDICIÓN: ¿EN QUÉ CONSISTE?
3. Una medición es “válida” si mide lo que en realidad trata de medir. Por ejemplo,
una prueba de matemática no es válida para medir el rendimiento de
alfabetización de los estudiantes. Tampoco sería válida una prueba culturalmente
sesgada. En el caso de la pistola, si ésta no es apuntada en la dirección del blanco,
sino que fuera de él, simplemente jamás dará en el blanco, por muy confiable que
sea.
4. Se aplica la palabra validez para designar aquello que es válido o formalmente
adecuado, por ajustarse a las reglas, ya sean lógicas, matemáticas o legales.
Representa la relación entre lo que se mide y aquello que realmente se quiere
medir. Es determinar cualitativa y/o cuantitativamente un dato.
VALIDEZ. DEFINICIÓN
5. Existen varios métodos para garantizar su evidencia:
De contenido
Se refiere al grado en que el test presenta una muestra adecuada de los
contenidos a los que se refiere, sin omisiones y sin desequilibrios de contenido.
La validez de contenido
se utiliza principalmente con test de rendimiento, y especialmente con los test
educativos y test referidos al criterio. En este tipo de test se trata de comprobar
los conocimientos respecto a una materia o un curso.
La validez de contenido descansa generalmente en el juicio de expertos (métodos
de juicio). Se define como el grado en que los ítems que componen el test
representan el contenido que el test trata de evaluar. Por tanto, la validez de
contenido se basa en (a) la definición precisa del dominio y (b) en el juicio sobre el
grado de suficiencia con que ese dominio se evalúa.
6. De criterio
Se refiere al grado en que el test correlaciona con variables ajenas al test (criterios)
con lo que se espera por hipótesis que debe correlacionar de determinado modo.
Un criterio es una variable distinta del test que se toma como referencia, que se
sabe que es un indicador de aquello que el test pretende medir o que se sabe que
debe presentar una relación determinada con lo que el test pretende medir. Se
denomina coeficiente de validez a la correlación del test con un criterio externo.
La elección del criterio es el aspecto crítico en este procedimiento de determinación
de la validez, ya que es muy difícil obtener buenos criterios. Un mismo test puede
tener más de un tipo de validez, es decir puede estar validado con respecto a varios
criterios y los diferentes coeficientes de validez que resultan pueden tener valores
diferentes.
De constructo
Es un concepto más complejo. Se refiere al grado en que el instrumento de medida
cumple con las hipótesis que cabría esperar para un instrumento de medida
diseñado para medir precisamente aquello que deseaba medir. Se puede considerar
un concepto general que abarcaría los otros tipos de validez. El término constructo
hace referencia a un concepto teórico psicológico inobservable (ej. la inteligencia,
cada factor de personalidad, las aptitudes, las actitudes, etc.)
7. La confiabilidad se refiere al grado en que su aplicación repetida al mismo sujeto u
objeto, produce iguales resultados.
Es definida como la ausencia de error aleatorio en un instrumento de recolección
de datos.
Representa la influencia del azar en la medida; es decir, es el grado en que las
mediciones están libres de la desviación producida por los errores causales.
Además la precisión de una medida es lo que asegura su repetibilidad (si se repite,
siempre da el mismo resultado).
CONFIABILIDAD. DEFINICIÓN
8. Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos
veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un
intervalo de tiempo entre el test y el retest. Después se calcula la correlación de
Pearson entre las puntuaciones de ambas aplicaciones, y el resultado obtenido
será el coeficiente de fiabilidad. Se considera un caso específico de formas
paralelas, dado que evidentemente un test es paralelo a sí mismo. Al resultado
obtenido se le denomina coeficiente de estabilidad, al servir de indicador de hasta
qué punto son estables las mediciones realizadas durante la primera aplicación del
test. Las diferencias en los resultados se atribuyen al grado de consistencia interna
o muestreo de los ítems de la prueba en el caso de pasar el retest de forma
inmediata, y se le suman las fluctuaciones en el tiempo en el caso del intervalo
temporal.
TEST-RETEST
9. Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede
suponer una amenaza a la validez interna por las posibles influencias externas a la
que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar
a su desempeño en la segunda aplicación. En el extremo opuesto, una aplicación
demasiado apresurada del retest podría afectar igualmente a la validez interna, en
este caso por los posibles efectos del recuerdo reciente de la primera aplicación.
La elección del intervalo de tiempo adecuado entre ambas aplicaciones dependerá
en gran medida del tipo de test, ya que en función de su formato puede ser más
sensible al efecto de una u otra amenaza.
10. Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se
utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de
forma diferente (por ejemplo, dos test que con diferentes preguntas midan un
determinado rasgo). Después se comparan los dos test, calculando el coeficiente
de correlación de Pearson. Esta correlación será, como hemos visto en el apartado
anterior, el coeficiente de fiabilidad. Si la correlación es alta, se considera que hay
una buena fiabilidad. Al valor obtenido también se le conoce como coeficiente de
equivalencia, en la medida en que supone un indicador del grado de equivalencia
entre las dos formas paralelas de un test.
La dificultad de este procedimiento radica en conseguir que dos instrumentos
sean realmente "paralelos", dada la dificultad que supone realizar dos pruebas que
midan exactamente lo mismo, pero con diferentes ítems. No obstante, en
condiciones ideales en las que se pueda garantizar el paralelismo de ambas
formas, este es el método más recomendable.
FORMAS PARALELAS
11. Los procedimientos anteriores (medida de estabilidad y método de formas
alternas), requieren cuando menos dos administraciones de la medición en el
mismo grupo de individuos. En cambio, el método de mitades partidas requiere
sólo una aplicación de la medición. Específicamente, el conjunto total de ítems (o
componentes) es dividido en dos mitades y las puntuaciones o resultados de
ambas son comparados. Si el instrumento es confiable, las puntuaciones de ambas
mitades deben estar fuertemente correlacionadas. Un individuo con baja
puntuación en una mitad, tenderá a tener también una baja puntuación en la otra
mitad.
SPLIT-HALVES
12. En los casos de la medición de constructos a través de escalas, en los que no
existen respuestas correctas ni incorrectas, sino que cada sujeto marca el valor de
la escala que mejor representa su respuesta, Cronbach (1951) derivó, a partir del
modelo de Kuder- Richardson (1937), una variante que permite estimar la
confiabilidad de consistencia interna en estos casos.
Él método de fiabilidad más utilizado en psicometría es el Alfa de Cronbach
(desarrollado el año 1951). Se trata de un índice de consistencia interna que toma
valores entre 0 y 1 y que sirve para comprobar si el instrumento que se está
evaluando recopila información defectuosa y por tanto nos llevaría a conclusiones
equivocadas o si se trata de un instrumento fiable que hace mediciones estables y
consistentes. Alfa es por tanto un coeficiente de correlación al cuadrado que, a
grandes rasgos, mide la homogeneidad de las preguntas promediando todas las
correlaciones entre todos los ítems para ver que, efectivamente, se parecen.
Su interpretación será que, cuanto más se acerque el índice al extremo 1, mejor es
la fiabilidad, considerando una fiablilidad respetable a partir de 0,80.
COEFICIENTE ALFA DE CRONBACH
13. El cálculo del coeficiente de Cronbach puede llevarse a cabo de dos formas:
a) Bien mediante la varianza de los ítems y la varianza del puntaje total:
α =
Siendo
La suma de varianzas de cada ítem.
La varianza del total de filas (puntaje total de los jueces)
K el número de preguntas o ítems.
b) o bien mediante la matriz de correlación de los ítems:
Siendo
n el número de ítems,
p el promedio de las correlaciones lineales entre cada uno de los ítems.
FORMULACIÓN
14. El Método KR20 representa un coeficiente de consistencia interna del
instrumento, que proporciona la media de todos los coeficientes de división por
mitades para todas las posibles divisiones del instrumento en dos partes
(Magnusson, 1995).
La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a items
dicotómicamente valorados (específicamente, valorados con los valores 0 y 1).
(Bolívar, 1997).
COEFICIENTE KR-20
15. Permite calcular la confiabilidad con una sola aplicación del instrumento.
No requiere el diseño de pruebas paralelas.
Es aplicable sólo en instrumentos con ítems dicotómicos, en los cuales sólo existen
respuestas correctas e incorrectas.
17. La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a items
dicotómicamente valorados.
Una vez obtenido p (=A/N) y q (=1- p) para cada ítem, se procede a obtener la
varianza de cada ítem como producto de p por q. También necesitamos la varianza
del total y la suma de la varianza de los items para aplicar finalmente la fórmula
KR20.
APLICACIÓN
18. Palella S. Santa, Martins P. Feliberto , (2006). Metodología de la Investigación
Cuantitativa. Fondo Editorial de la Universidad Pedagógica Experimental
Libertador (FEDUPEL). Caracas
Silva Arsiniega, Ma.Luisa (2006). Validez y confiabilidad.
Rebeca Londeau (2007). Elaboración de trabajo de Investigación .Editorial Alfa.
Hernández S. y Fernández C. (2000) Metodología de la Investigación. Manual de
apoyo para profesores. (2ª ed.) México: mc graw-Hill interamericana editores S.A.
Labrador M. (2006). Formato para Validación de Instrumentos. Bárbula,
Venezuela: Facultad de Odontología de la Universidad de Carabobo.
REFERENCIAS BIBLIOGRÁFICAS