1
TEMA 5. MÉTODO DE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT.
1. INTRODUCCIÓN.
2. SUPUESTOS.
3. CONSTRUCCIÓN DE UNA ESCALA LIKERT.
4. INTERPRETACIÓN DE LAS PUNTUACIONES.
5. VALORACIÓN.
1. INTRODUCCIÓN.
El método de escalamiento de Likert es el método más utilizado en Psicología para medir
actitudes, y su uso se ha extendido a la medición de otros constructos, como por ejemplo las
dimensiones de personalidad.
Likert (1932) propuso su método de escalamiento a finales del primer tercio del siglo XX.
Previamente, Thurstone (1928) había propuesto un método para la medición de actitudes que
implicaba la participación de sujetos que desempeñaban el papel de jueces (el método de los
intervalos aparentemente iguales). Según Thurstone (1928), el número de jueces debeía oscilar
entre 200 y 300. La tarea de estos sujetos consistía en valorar un conjunto de ítems. A partir de
estas valoraciones, se calibraban los ítems, es decir, se estimaba el valor del ítem en la escala. Una
vez se disponía de un conjunto de ítems calibrados que constituían un cuestionario, éste se aplicaba
al grupo de sujetos que se deseaba estudiar, y se les pedía que marcaran los ítems con los que
estaban de acuerdo y aquéllos con los que disentían. La puntuación de cada persona consistía en la
media de los valores de los ítems con los que estaban de acuerdo. El empleo de un número elevado
de jueces y la necesidad de calibrar los ítems hacían que este método fuera muy costoso y
laborioso. Asimismo, el método de Thurstone implicaba una serie de supuesto estadísticos que no
habían sido verificados, por ejemplo, que los valores de escala de los enunciados son
independientes de la distribución de actitudes de los jueces que los valoran (Likert, 1932).
Tras reconocer la importancia de las aportaciones de Thurstone en el terreno de la medición
de las actitudes, Likert (1932) se preguntó si la construcción de escalas de medida mediante
procedimientos más sencillos daría resultados tan buenos como los obtenidos por Thurstone en
cuanto a la fiabilidad y validez de las medidas, y si sería posible construir escalas evitando asumir
supuestos estadísticos innecesarios. Así pues, el objetivo principal de Likert (1932) fue desarrollar
un método de medición de actitudes sencillo y simple.
Brevemente, el método de medición de Likert consiste en la presentación a los sujetos de
una serie de ítems o enunciados ante los que tienen que expresar su posición escogiendo una
alternativa de respuesta entre las ofrecidas. Por ejemplo, imaginemos que uno de los ítems que
componen una escala de actitud hacia la pena de muerte dijera: “La pena de muerte debe abolirse”,
y que las alternativas de respuesta ofrecidas para contestar el ítem fueran:
1. Completamente en desacuerdo.
2. En desacuerdo.
3. Indeciso.
2
4. De acuerdo.
5. Completamente de acuerdo.
Un sujeto que tuviera una actitud contraria a la pena de muerte contestaría 4 o 5. Una vez
que el sujeto a contestado todos los ítems, la puntuación del sujeto en el cuestionario se determina
sumando o promediando los valores de las alternativas de respuesta escogidas ante cada ítem
(Likert, 1932). Por esta razón las escalas o cuestionarios construidos siguiendo este método se
denominan escalas sumativas.
2. SUPUESTOS.
Likert no elaboró un modelo matemático que fundamentara su método de escalamiento. No
obstante, su método implica una serie de supuesto que conviene conocer. Estos supuestos pueden
calificarse de débiles porque no son muy restrictivos ni difíciles de asumir.
El método de Likert es un método de escalamiento centrado en los sujetos (Torgerson,
1958). Su objetivo es medir sujetos, mostrar las diferencias individuales en relación con una
determinada actitud. Por ello, se asume que la variabilidad observada en las respuestas de los
sujetos se debe a diferencias entre éstos, esto es, a que tienen niveles de actitud diferentes.
El método de Likert no pretende medir o calibrar los ítems. Éstos son considerados
réplicas unos de otros, es decir, se supone que todos tiene el mismo valor de escala.
Asimismo, se supone que cada ítem presenta una relación monotónica con la actitud
subyacente que pretende medir. Esto quiere decir que cuanto más favorable o positiva sea la actitud
de un sujeto, mayor será la puntuación que obtendrá en el ítem, y cuanto más desfavorable o
negativa sea la actitud de un sujeto, menor será la puntuación que obtendrá en el ítem.
Gráficamente, esta relación puede representarse de la siguiente forma:
Figura 1. Relación monotónica entre el ítem y el continuo de la actitud.
Por último, al tratarse de un método de escalamiento unidimensional, se supone que los
ítems miden una única actitud subyacente. Este es el supuesto de unidimensionalidad.
3. CONSTRUCCION DE UNA ESCALA LIKERT.
La construcción de una escala Likert para medir actitudes implica las siguientes tareas:
3
1. Elaborar una base o banco inicial de items.
2. Determinar cómo se puntuarán los ítems y cómo se obtendrán las puntuaciones de
los sujetos.
3. Análisis y selección de ítems.
4. Evaluación de la fiabilidad y validez de la escala.
3.1. Elaboración de una base o banco inicial de ítems.
La elaboración de un instrumento de medida psicológica comienza con la definición de
aquéllo que queremos medir. A continuación, hay que escribir un conjunto suficientemente amplio
de ítems o enunciados acerca de la actitud en cuestión. Este conjunto de ítems configura el banco o
base inicial de ítems. Es importante que el número de ítems sea, como se ha dicho, suficientemente
amplio, pues hay que evitar que en el caso de que haya que eliminar algunos ítems debido a su baja
calidad, nos quedemos al final del proceso con una escala compuesta por pocos ítems que no
muestreen suficientemente la actitud a medir, y que no permita mostrar las diferencias individuales
existentes.
A la hora de elaborar ítems es conveniente considerar los siguientes criterios (Likert, 1932):
1. Un criterio general es que los ítems tienen que ser redactados de tal manera que dos
personas con actitudes diferentes (por ejemplo, una con una actitud favorable y otra con una
actitud desfavorable) lo contesten de manera diferente. Un ítem que pueda ser respondido de
igual forma por dos personas con actitudes diferentes es un ítem inadecuado.
2. Los ítems deben expresar comportamientos deseados o juicios de valor, no hechos. Dos
personas con actitudes diferentes ante la pena de muerte seguramente estarán de acuerdo en
lo que dice el siguiente enunciado: “La pena de muerte acaba con la vida de las personas”.
Este enunciado es un enunciado de hecho, y no es útil para discriminar entre dos personas
con actitudes diferentes. En cambio, ante un enunciado valorativo como “La pena de muerte
es un crimen”, dos personas con actitudes diferentes contestarían de manera distinta. Una
persona a favor de la pena de muerte estaría en desacuerdo con el enunciado; una persona en
contra de la pena de muerte estaría de acuerdo.
3. Los enunciados deben ser expresados de una manera clara, concisa y directa. Para lograr
este objetivo, resulta útil utilizar el vocabulario más sencillo posible, de manera que las
personas con un nivel cultural más bajo pertenecientes al grupo al que va dirigido el
cuestionario puedan entender los ítems. La experiencia señala que es preciso evitar frases
con dobles negaciones, incluso con una sola negación. Los enunciados con doble sentido, y
los compuestos por varias frases también deben evitarse, ya que pueden producir
ambigüedad o confusión en los sujetos.
4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert (1932)
recomendó que aproximadamente la mitad de los ítems representaran manifestaciones de
actitudes positivas o favorables, y la otra mitad de los ítems constituyeran manifestaciones
de actitudes negativas o desfavorables. Por ejemplo, imaginemos que estamos construyendo
un cuestionario de actitudes hacia la escuela para adolescentes. Un ítem favorable podría
ser: “La escuela es divertida”. Un ítem desfavorable podría ser: “La escuela es un rollo”.
Obsérvese que si los sujetos utilizan una escala de respuesta de desacuerdo-acuerdo de
cinco puntos como la presentada anteriormente, un sujeto con una actitud muy favorable
hacia la escuela contestará los ítems favorables con cincos, mientras que responderá los
ítems desfavorables con unos. Lo contrario ocurrirá en el caso de un sujeto con una actitud
mus desfavorable hacia la escuela. Así pues, si el cuestionario contiene tanto ítems
favorables como desfavorables, ningún sujeto debería responder a los ítems con una
respuesta estereotipada, como por ejemplo, contestar siempre “5. Completamente de
acuerdo”. Es imposible estar de acuerdo con ítems favorables a la escuela y con ítems
desfavorables. Si encontramos algún sujeto que ha contestado de esta manera estereotipada,
4
seguramente lo habrá hecho sin prestar atención al contenido de los ítems, y por ello, es
conveniente eliminarlo de la base de datos.
3.2. Puntuación de los ítems y de los sujetos.
Likert (1932) ensayó diversas formas de puntuar los ítems. La más sencilla de todas ellas
consistía en asignar puntuaciones de 1 a 5 a cada una de las cinco alternativas de respuesta de
desacuerdo-acuerdo presentadas anteriormente (1. Completamente en desacuerdo; 2. En
desacuerdo; 3. Indeciso; 4. De acuerdo; 5. Completamente de acuerdo). Comprobó que esta forma
de puntuar los ítems ofrecía resultados muy similares a los obtenidos mediante otras técnicas más
complejas y costosas (como por ejemplo, los valores sigma). Actualmente, esta forma de puntuar
los ítems también se conoce como puntuación mediante números enteros (Andrich & Schoubroeck,
1989).
Las escalas de respuesta empleadas para puntuar los ítems de una escala Likert pueden
presentar un número diferente de alternativas de respuesta. Las escalas con cinco alternativas son
muy frecuentes. Pero no es extraño encontrar escalas de respuestas con cuatro, seis y siete
alternativas. Las escalas con números pares omiten la categoría de respuesta central, que suele ser
“Indeciso”, “Indiferente”, “No estoy seguro”, o “Ni de acuerdo ni en desacuerdo”. Existe cierto
debate sobre si la categoría central debería incluirse o no. Algunos investigadores han recomendado
el uso de la categoría de respuesta central (Edwards, 1957; Newman, 1979; Sudman y Bradburn,
1989), argumentando que es preferible no forzar las respuestas de los sujetos indecisos hacia un
polo (acuerdo o desacuerdo) que podría no describirles. Sin embargo, otros estudios han
cuestionado el uso de las categorías centrales porque éstas pueden atraer a las personas que las
seleccionan por razones diferentes de cuál es su posición en la actitud medida (Bock y Jones, 1968;
Worthy, 1969; Kaplan, 1972; Dubois y Burns, 1975). Investigaciones recientes sobre este tema han
revelado que casi un 50% de los sujetos que responde mediante diferentes tipos de categorías de
respuesta centrales lo hace por razones diferentes a la de estar en el punto medio de la dimensión
medida (Espejo, 1998; Espejo y González-Romá, 1999). Otros estudios han mostrado que incluso
los sujetos con niveles medios en la dimensión medida, tiene una probabilidad muy pequeña de
contestar utilizando la categoría central, y es más probable que respondan utilizando otras
categorías de respuesta adyacentes, como “En desacuerdo” o “De acuerdo” (Andrich, de Jong y
Sheridan, 1997; Hernández, Espejo, González-Romá y Gómez-Benito, en prensa; Espejo y
González-Romá, 2001). Así pues, en base a los más recientes resultados de la investigación sobre el
tema, parece que la utilidad de la categoría de respuesta central está seriamente cuestionada.
Las escalas de respuesta con seis alternativas suelen ser muy similares a la siguiente:
1. Completamente en desacuerdo.
2. Bastante en desacuerdo.
3. Algo en desacuerdo.
4. Algo de acuerdo.
5. Bastante de acuerdo.
6. Completamente de acuerdo.
Las escalas de respuesta que presentan siete alternativas incluyen en la escala anterior una categoría
de respuesta central a la que se le asigna la puntuación de 4.
Todas las escalas de respuesta que se utilizan en las escalas Likert son politómicas, pues
presentan más de dos alternativas de respuesta. Además, son escalas de respuesta ordenadas o
graduadas, ya que la asignación de los números enteros a las distintas respuestas constituye una
5
escala ordinal. A partir de las puntuaciones obtenidas por distintos sujetos en un mismo ítem,
podemos hacer inferencias acerca de quiénes tienen una actitud más o menos favorable, pero no
podemos determinar cuál es la distancia entre sujetos que responden con alternativas diferentes.
Una vez se ha determinado cómo se puntuará cada ítem, pero antes de calcular la
puntuación de cada sujeto en el cuestionario, hay que detectar los ítems invertidos y transformar la
puntuación obtenida en ellos de manera que tenga el mismo significado que la puntuación obtenida
en el resto de ítems. Como señalamos anteriormente, Likert (1932) recomendó que
aproximadamente la mitad de los ítems representaran manifestaciones de actitudes positivas o
favorables, y la otra mitad de los ítems constituyeran manifestaciones de actitudes negativas o
desfavorables. Si se sigue este criterio, nos encontraremos con que no todos los ítems están
redactados en el mismo sentido, y esto tiene importantes repercusiones en el significado de las
puntuaciones de los ítems. Volvamos a nuestro ejemplo del cuestionario de actitudes hacia la
escuela. Una puntuación de 5 (Completamente de acuerdo) a un ítem favorable (“La escuela es
divertida”), no tiene el mismo significado que una puntuación de 5 a un ítem desfavorable (“La
escuela es un rollo”). En el primer caso la puntuación denota una actitud favorable, mientras que en
el segundo indica una actitud desfavorable. Por ello, estas puntuaciones no pueden sumarse para
obtener una puntuación de los sujetos. Previamente, es preciso que todas las puntuaciones en los
ítems estén en la misma dirección. Para ello se procede a transformar las puntuaciones de los ítems
que no estén redactados en el sentido que más interesa. Por ejemplo, si interesa obtener una
puntuación que indique el grado de actitud hacia la escuela de manera que a mayor puntuación se
pueda inferir una actitud más favorable, entonces habrá que transformar los ítems que denotan una
actitud desfavorable. Antes de la transformación, estos ítems suelen denominarse ítems invertidos.
Cuando se trabaja con una base de datos grande, la transformación de los ítems invertidos
puede realizarse fácilmente con la ayuda de un programa estadístico de análisis de datos, o incluso
con una hoja de cálculo, implementando una fórmula de transformación. Si la escala de respuesta
empleada presenta como valor más pequeño el 1 (que es lo más frecuente), entonces la fórmula de
transformación es:
P
i
= (P
m
+1) - P
o
donde:
P
i
: puntuación transformada en el ítem invertido lista para calcular la puntuación total en
el cuestionario;
P
m
: puntuación máxima que puede darse al ítem;
P
o
: puntuación original obtenida en el ítem invertido.
Si la escala de respuesta utilizada para contestar los ítems presenta como valor más
pequeño el cero, entonces la fórmula de transformación es:
P
i
= P
m
- P
o
Por ejemplo, supongamos que un sujeto ha contestado cuatro ítems del cuestionario de
actitudes hacia la escuela utilizando una escala de respuesta de 6 puntos como la presentada en este
mismo apartado. Imaginemos que sus puntuaciones en los ítems son las siguientes:
Items Puntuación (P
o
)
1. La escuela es divertida....................................................5
2. En la escuela aprendo cosas útiles...................................6
6
3. La escuela es un rollo......................................................2
4. En la escuela pierdo el tiempo.........................................1
Los ítems 1 y 2 manifiestan una actitud favorable, mientras que los ítems 3 y 4 denotan una actitud
desfavorable. Procedamos ahora a transformar los ítems 3 y 4 aplicando la fórmula
correspondiente. Como la escala de respuesta oscila entre 1 y 6, aplicaremos la fórmula P
i
=
(P
m
+1) - P
o
.
Items Puntuación (P
o
) Puntuación transformada (P
i
)
3. La escuela es un rollo...................................2.....................................(6+1)-2 = 5
4. En la escuela pierdo el tiempo......................1.....................................(6+1)-1 = 6
Ahora que ya hemos transformado las puntuaciones obtenidas en los ítems invertidos,
podemos calcular la puntuación total de cada sujeto en el cuestionario. Como se indicó al comienzo
de este tema, la puntuación total de un sujeto en el cuestionario se determina sumando o
promediando los valores de las alternativas de respuesta escogidas ante cada ítem (Likert, 1932),
razón por la que las escalas o cuestionarios construidos siguiendo este método se denominan
escalas sumativas. En el ejemplo anterior, la puntuación total del sujeto sería:
Items Puntuación
1. La escuela es divertida....................................................5
2. En la escuela aprendo cosas útiles...................................6
3. La escuela es un rollo......................................................5
4. En la escuela pierdo el tiempo.........................................6
Puntuación total (suma)......................................................22
3. 3. Análisis y selección de ítems.
Una vez que ya se ha elaborado un banco inicial de ítems, y se ha aclarado cómo se
puntuará cada uno de ellos y cómo se obtendrá la puntuación de cada sujetos, se inicia la fase de
análisis cuantitativo de los ítems. El banco de ítems ha de aplicarse a una muestra que sea
representativa de la población a la cual va dirigida el test. Esta muestra proporcionará los datos que
utilizaremos para realizar el análisis cuantitativo de los ítems.
Likert propuso dos tipos de análisis: 1. un análisis correlacional de los ítems, y 2. un
análisis basado en el criterio de consistencia interna (Likert, 1932; McIver y Carmines, 1981).
3.3.1. Análisis correlacional de los ítems.
El análisis correlacional consiste en calcular la correlación entre cada ítem y la puntuación
total en el cuestionario o test (es decir, la suma de todos los ítems). Esta correlación es conocida en
el marco de la Teoría Clásica de los Tests como índice de homogeneidad (IH). Si el ítem analizado
mide lo mismo que el resto de ítems, el índice de homogeneidad será elevado, de manera que los
sujetos que puntúan alto en el ítem, también tenderán a puntuar alto en el cuestionario, y los sujetos
que puntúan bajo en el ítem, tenderán a puntuar bajo en el cuestionario. Si el índice de
homogeneidad es bajo o cercano a cero, entonces el ítem analizado no mide lo que mide el resto de
ítems. Likert denominó a los ítems con un índice de homogeneidad bajo como ítems
indiferenciadores (Likert, 1932).
7
Los ítems indiferenciadores aportan escasa o ninguna información útil sobre la actitud que
se está midiendo, por ello no tiene sentido combinarlos con el resto de ítems para obtener una
puntuación total (McIver y Carmines, 1981). Además, como demuestra la Teoría Clásica de los
Tests, su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los ítems
indiferenciadores deben eliminarse.
El cálculo del índice de homogeneidad como la correlación entre la puntuación en el ítem y
la puntuación en el test (en adelante, correlación ítem-test) tiene el siguiente inconveniente: la
puntuación total en el test incluye al ítem como componente, es decir, el ítem analizado aparece en
las dos variables que se correlacionan, y esto aumentará artificialmente el coeficiente de correlación
que se obtenga. Para evitar este efecto, lo que se hace es calcular la correlación entre el ítem y el
test una vez que se ha eliminado de este último la contribución del ítem. Esta correlación recibe el
nombre de índice de homogeneidad corregido(IHc), y se indica mediante la expresión ri(T-i) . La
fórmula para calcular el índice de homogeneidad corregido es (Peters y Van Vorhis, 1940):
( )
( ) iTiT
2
i
2
T
iTiT
iTi
SSr2SS
SSr
r
−+
−
=−
donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en
el ítem, y ST es la desviación típica que presentan las puntuaciones en test.
Para interpretar el índice de homogeneidad corregido suele tomarse como valor de
referencia 0.20. De manera que todos los ítems que presentan ri(T-i) con valores inferiores a 0.20 son
eliminados del banco de ítems por ser indiferenciadores.
Ejemplo de cálculo.
Supongamos que 16 sujetos han contestado a los cuatro ítems del cuestionario de actitudes
hacia la escuela que utilizamos anteriormente. Después de transformar los ítems invertidos, se han
calculado las puntuaciones en el test. Las puntuaciones en los ítems después de realizar las
transformaciones y en el test aparecen en la tabla que se muestra a continuación. Vamos a ilustrar
cómo calcularíamos el índice de homogeneidad corregido (IHc) del ítem 1.
()
()iTiT
2
i
2
T
iTiT
iTi
SSr2SS
SSr
r
−+
−
=−
8
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST
1 4 5 5 4 18
2 2 2 1 2 7
3 5 6 4 5 20
4 3 2 3 3 11
5 5 6 4 5 20
6 2 1 1 1 5
7 5 3 2 5 15
8 4 5 5 5 19
9 2 1 1 2 6
10 3 2 1 1 7
11 2 3 1 2 8
12 4 5 6 4 19
13 2 3 1 1 7
14 4 5 4 6 19
15 1 2 1 2 6
16 4 5 6 5 20
La fórmula de cálculo del IHc
implica la obtención del IH y de las
desviaciones típicas del test y del ítem.
Recordemos que las fórmulas para
calcular el coeficiente de correlación
de Pearson y la desviación típica son:
( )
n
XX
S
n
zz
r
n
1i
2
i
x
n
1i
yx
xy
II ∑∑ ==
−
=
⋅
=
donde n es el tamaño de la muestra, y z denota puntuaciones típicas.
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST
1 4 5 5 4 18
2 2 2 1 2 7
3 5 6 4 5 20
4 3 2 3 3 11
5 5 6 4 5 20
6 2 1 1 1 5
7 5 3 2 5 15
8 4 5 5 5 19
9 2 1 1 2 6
10 3 2 1 1 7
11 2 3 1 2 8
12 4 5 6 4 19
13 2 3 1 1 7
14 4 5 4 6 19
15 1 2 1 2 6
16 4 5 6 5 20
( )
n
XX
S
n
zz
r
n
1i
2
i
x
n
1i
yx
xy
II ∑∑ ==
−
=
⋅
=
9
En la tabla siguiente, se muestran los estadísticos necesarios para calcular IH. Tan sólo hay
que recordar que en nuestro caso la variable X es el ítem 1, y la variable Y la puntuación en el test.
Así pues, vemos que Σzítem1 ztest = 13.47, es decir, ya tenemos el valor del sumatorio del producto
cruzado de las puntuaciones típicas, que es el numerador de la fórmula del coeficiente de
correlación.
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST ZITEM1 ZTEST
ZITEM1 X
ZTEST
1 4 5 5 4 18 0,58 0,81 0,47
2 2 2 1 2 7 -0,97 -0,95 0,92
3 5 6 4 5 20 1,36 1,13 1,54
4 3 2 3 3 11 -0,19 -0,31 0,06
5 5 6 4 5 20 1,36 1,13 1,54
6 2 1 1 1 5 -0,97 -1,27 1,23
7 5 3 2 5 15 1,36 0,33 0,45
8 4 5 5 5 19 0,58 0,97 0,57
9 2 1 1 2 6 -0,97 -1,11 1,08
10 3 2 1 1 7 -0,19 -0,95 0,18
11 2 3 1 2 8 -0,97 -0,79 0,77
12 4 5 6 4 19 0,58 0,97 0,57
13 2 3 1 1 7 -0,97 -0,95 0,92
14 4 5 4 6 19 0,58 0,97 0,57
15 1 2 1 2 6 -1,74 -1,11 1,94
16 4 5 6 5 20 0,58 1,13 0,66
SUMA 13,47
MEDIA 3,25 3,50 2,88 3,31 12,94
D.T. 1,29 1,75 1,96 1,74 6,23
Luego, el valor del IH será:
84.0
16
47.13
n
zz
rIH
test1ítem
it ==
⋅
==
∑
Ahora ya podemos calcular el índice de homogeneidad corregido (IHc):
( )
( ) ( )
76.0
29.123.684.0229.123.6
29.123.684.0
SSr2SS
SSr
r
22
iTiT
2
i
2
T
iTiT
iTi =
⋅⋅⋅−+
−⋅
=
−+
−
=−
El resultado obtenido indica que el ítem está muy relacionado con el resto de ítems que
componen el test, debido a que miden la misma actitud. Como cabía esperar, el IHc es menor
que el IH, y la diferencia es apreciable debido a la pequeña longitud del test: tan sólo 4 ítems. En
este caso un 25% del test (es decir, 1 ítem de 4) es parte de las dos variables que correlacionamos
cuando calculamos el IH. Este porcentaje se reduce a medida que aumenta la longitud del test
(cuando la longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...).
Por ello, cuanto mayor sea la longitud del test menor será la diferencia entre el IH y el IHc. Cuando
trabajamos con tests muy largos la diferencia es muy pequeña.
()
()()
76.0
29.123.684.0229.123.6
29.123.684.0
SSr2SS
SSr
r
22
iTiT
2
i
2
T
iTiT
iTi =
⋅⋅⋅−+
−⋅
=
−+
−
=−
10
3.3.2. Análisis basado en el criterio de consistencia interna.
Cuando Likert (1932) desarrolló su método de escalamiento, los investigadores no
disponían de ordenadores para realizar los cálculos implicados en los análisis cuantitativos de los
ítems. Calcular los índices de homogeneidad de un test aplicado a una muestra grande conllevaba
mucho tiempo y resultaba costoso. Para ahorrar esfuerzos y tiempo, Likert desarrolló un segundo
tipo de análisis basado en “el criterio de consistencia interna”. Este análisis consiste en comparar
las puntuaciones en el ítem del grupo que tiene las puntuaciones más altas en el test (y que por lo
tanto, tiene una actitud favorable), con las puntuaciones en el ítem del grupo que tiene las
puntuaciones más bajas en el test (y que, por consiguiente, tiene una actitud desfavorable). En
principio, cabe esperar que dos grupos con actitudes diferentes tengan puntuaciones medias
diferentes en el ítem analizado. Si esto no ocurre se debe a que el ítem no es un buen indicador de la
actitud medida, y se trata de un ítem indiferenciador. Si los dos grupos obtienen puntuaciones
medias en el ítem diferentes, entonces puede afirmarse que el ítem discrimina entre los grupos, y,
por lo tanto, es un buen indicador de la actitud medida.
( ) ( )








+×
−+
−+−
−
=
BABA
2
BB
2
AA
BA
n
1
n
1
2nn
S1nS1n
XX
t
Los dos grupos a comparar suelen estar compuestos por el 25% de los sujetos con
puntuaciones más altas y más bajas en el test; no obstante, Likert (1932) también utilizó otros
porcentajes, como el 10%. Inicialmente, este criterio se basaba simplemente en el cálculo de la
diferencia entre las medias de los dos grupos en el ítem. Sin embargo, esta diferencia no tenía en
cuenta que los dos grupos podían presentar variabilidades distintas en el ítem. Para evitar esta
deficiencia, más tarde se comenzó a usar una prueba t para evaluar la diferencia entre las medias
considerando la variabilidad del ítem en los dos grupos. El estadístico t sigue una distribución t de
Student con (nA + nB – 2) grados de libertad –donde n es el tamaño del grupo, y los subíndices A y
B denotan los grupos extremos alto y bajo, respectivamente-, y se calcula mediante la fórmula:
donde el numerador es la diferencia entre las medias en el ítem de los dos grupos, y S2
indica la
varianza en el ítem del grupo correspondiente.
()()








+×
−+
−+−
−
=
BABA
2
BB
2
AA
BA
n
1
n
1
2nn
S1nS1n
XX
t
11
Ejemplo de cálculo.
Vamos a aplicar este tipo de análisis basado en el criterio de consistencia interna a los datos
que utilizamos anteriormente. Como en el caso anterior, el análisis se centrará en el ítem 1. En la
siguiente tabla aparecen las puntuaciones de los 16 sujetos, pero éstos han sido ordenados de
manera decreciente en función de su puntuación en el test. Los sujetos que configuran los dos
grupos con puntuaciones extremas en el test están marcados en negrita.
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST
3 5 6 4 5 20
5 5 6 4 5 20
16 4 5 6 5 20
8 4 5 5 5 19
12 4 5 6 4 19
14 4 5 4 6 19
1 4 5 5 4 18
7 5 3 2 5 15
4 3 2 3 3 11
11 2 3 1 2 8
2 2 2 1 2 7
10 3 2 1 1 7
13 2 3 1 1 7
9 2 1 1 2 6
15 1 2 1 2 6
6 2 1 1 1 5
MEDIA A 4,5
MEDIA B 1,75
D. T. A 0,5
D. T. B 0,43
BA XX >
Si el ítem discrimina entre los dos grupos, entonces observaremos que:
BA1
BA0
:H
:H
µ>µ
µ≤µ
Las hipótesis estadísticas implicadas en esta prueba de diferencias entre medias son:
( ) ( ) ( ) ( )
34.8
4
1
4
1
244
43.0145.014
75.15.4
n
1
n
1
2nn
S1nS1n
XX
t
22
BABA
2
BB
2
AA
BA
=






+×
−+
−+−
−
=






+×
−+
−+−
−
=
Conociendo las medias y las desviaciones típicas que los dos grupos presentan en el
ítem 1, vamos a calcular el estadístico t1
.
1 El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en el análisis de ítems. En la práctica, y
trabajando con muestras más grandes, es necesario verificar hasta qué punto se cumplen los supuestos de la prueba.
BA XX >
BA1
BA0
:H
:H
µ>µ
µ≤µ
( ) ( ) ( ) ( )
34.8
4
1
4
1
244
43.0145.014
75.15.4
n
1
n
1
2nn
S1nS1n
XX
t
22
BABA
2
BB
2
AA
BA
=






+×
−+
−+−
−
=






+×
−+
−+−
−
=
12
Si asumimos un nivel de significación α=0.05, en la tabla de distribución de probabilidad t
de Student, observamos que el valor de t para 1- α = 0.95 y 6 grados de libertad es: 0.95 t 6 = 1.943.
Como el valor empírico obtenido para el estadístico t (11.75) es mucho mayor que el valor obtenido
en las tablas para un α=0.05, podemos afirmar que la probabilidad de obtener una diferencia entre
las medias como la observada, bajo el supuesto de que H0 sea cierta, es muy pequeña. Por ello,
dudamos de H0, la rechazamos, y aceptamos H1. En nuestro caso, esto significa que el ítem sí que
discrimina entre los dos grupos.
Ya señalamos anteriormente que el análisis basado en el criterio de consistencia interna
estuvo motivado por el elevado coste en tiempo y esfuerzo que suponía el cálculo de correlaciones
cuando Likert desarrolló su método. Hoy en día, gracias al uso de los ordenadores y programas
estadísticos, este argumento carece de sentido. En la práctica, es el análisis correlacional basado en
el cálculo de IHc el que se desarrolla.
Likert (1932) estudió la relación entre los resultados producidos por los dos métodos de
análisis. Ordenó un conjunto de ítems en función de su IH, y los ordenó también en función de la
diferencia que los dos grupos extremos mostraban en cada ítem. La relación entre los dos órdenes
fue estimada mediante el coeficiente de correlación rho, que presentó un valor de 0.91. Este
resultado indica un grado de relación muy alto entre los dos órdenes obtenidos, lo cual sugiere que
los dos métodos de análisis tienden a producir resultados similares. Esto no es de extrañar, ya que si
un ítem presenta un elevado IH, los sujetos que puntúan alto en el ítem tenderán a puntuar alto en el
test, y los sujetos que puntúan bajo en el ítem tenderán a puntuar bajo en el test. Y viceversa: el
grupo con puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem, y el grupo
con puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem. Sin embargo, hay
que tener en cuenta que Likert correlacionó órdenes de clasificación (esto es, rankings), y que los
órdenes no informan acerca de si un determinado criterio de análisis es superado o no (por ejemplo:
IHc ≥ 0.20). Por ello, aunque los resultados de ambos tipos de análisis están relacionados, pueden
no conducir necesariamente a la misma conclusión (McIver y Carmines, 1981). Así pues, cuando se
han aplicado los dos tipos de análisis es conveniente eliminar los ítems que tengan IHc bajos y los
que no discriminen entre los grupos con puntuaciones extremas en el test. Estos ítems son los ítems
indiferenciadores.
Likert (1932) señaló algunas de las razones por las que un ítem puede resultar
indiferenciador:
a. Puede medir una actitud diferente a la que miden el resto de ítems.
b. Puede ser respondido por casi todos los sujetos de la misma forma.
c. Puede estar redactado de manera que no sea entendido correctamente.
d. Puede tratarse de un enunciado de hecho.
3.4. Evaluación de la fiabilidad y validez de la escala.
Una vez se ha seleccionado un conjunto de ítems, hay que evaluar las propiedades
psicométricas del test o cuestionario que forman considerado como un todo. Las dos propiedades
psicométricas más importantes son la fiabilidad, y la validez2
. Para que un test sea un instrumento
de medida útil hay que demostrar su fiabilidad y su validez. Brevemente, señalaremos que la
fiabilidad hace referencia al grado de precisión que ofrecen las medidas obtenidas mediante un test.
Supone también un intento por cuantificar el grado de error que afecta a esas medidas. Un método
2 Estas dos propiedades serán objeto de un estudio más detenido en el bloque de temas dedicado a la Teoría de los
Tests.
13
bastante extendido para estimar la fiabilidad de un test consiste en calcular el coeficiente alfa de
Cronbach, cuya fórmula es la siguiente:












−
−
=α
∑=
2
x
n
1i
2
i
S
S
1
1n
n
donde n es la longitud del test (es decir, el número de ítems que lo componen), Si es la
varianza del ítem i, y S22
x es la varianza que muestran las puntuaciones totales en el test. Un
criterio bastante extendido para interpretar el coeficiente alfa es que éste ha de ser igual o
superior a 0.70 (Nunnally, 1978), entonces puede afirmarse que el test tiene una fiabilidad
suficiente.
Ejemplo de cálculo.
93.0
23.6
74.196.175.129.1
1
3
4
S
S
1
1n
n
2
2222
2
x
n
1i
2
i
=




 +++
−=












−
−
=α
∑=
Con los datos del ejemplo que estamos utilizando, vamos a calcular el coeficiente
alfa del cuestionario de actitudes hacia la escuela. En la primera tabla que hemos
mostrado, aparecen las desviaciones típicas de cada uno de los cuatro ítems y de las
puntuaciones totales en el test. Con esta información ya podemos aplicar la fórmula del
coeficiente alfa de Cronbach:
El resultado obtenido indica que el cuestionario es fiable.
La validez de un test hace referencia al grado en el que un test mide lo que pretende medir.
El estudio de la validez de un test se desarrolla a partir de la verificación de las hipótesis de
validación. Una hipótesis de validación hace referencia a las relaciones que presentará el test objeto
de estudio con otras variables, bajo el supuesto de que mide lo que pretenda medir. Por ejemplo, en
el caso del cuestionario de actitudes hacia la escuela una hipótesis de validación podría ser la
siguiente: Se espera que las puntuaciones totales en el test presenten una correlación positiva con el
rendimiento académico, de manera que a mayor puntuación en el test se observe un mayor
rendimiento académico. Las hipótesis de validación se fundamentan en teorías contrastadas y/o en
resultados empíricos previos. La hipótesis de validación indica cuál es el método estadístico que se
utilizará para su verificación. En el caso anterior, la hipótesis alude a la relación entre dos variables
cuantitativas, por lo tanto, su verificación se realizaría calculando el coeficiente de correlación
entre las variables. Las hipótesis de validación pueden tomar diversas formas, y por lo tanto,
pueden ser diversos los métodos estadísticos implicados en su verificación. Para ilustrar este punto,
veamos otro ejemplo. Supongamos que se ha elaborado un cuestionario de actitud hacia el aborto.
Si el test mide la actitud que pretende medir, las puntuaciones en el test de dos grupos de sujetos
que mantienen actitudes extremas y opuestas, deberían ser diferentes. Por lo tanto, en el proceso de
validación del test se ha elaborado la siguiente hipótesis de validación: La puntuación media en el
test de un grupo de mujeres pertenecientes a asociaciones feministas será mayor que la puntuación
media de un grupo de mujeres pertenecientes a asociaciones católicas. En este caso, la hipótesis de
validación implica la comparación de dos medias, comparación que se puede realizar mediante la
prueba t correspondiente. Obsérvese que a diferencia de lo que ocurría cuando se usaba el criterio
de consistencia interna para analizar los ítems, aquí se definen los dos grupos con actitudes












−
−
=α
∑=
2
x
n
1i
2
i
S
S
1
1n
n
93.0
23.6
74.196.175.129.1
1
3
4
S
S
1
1n
n
2
2222
2
x
n
1i
2
i
=




 +++
−=












−
−
=α
∑=
14
opuestas y extremas en base a un factor externo al test: su pertenencia a asociaciones que mantienen
posturas contrarias respecto al aborto.
El proceso de validación de un test es un proceso continuo, en el que se van acumulando
evidencias acerca de su validez. Sólo cuando se ha acumulado un número suficientemente amplio
de evidencias es posible establecer de manera fundada una serie de conclusiones acerca de la
validez.
4. INTERPRETACIÓN DE LAS PUNTUACIONES.
Las puntuaciones obtenidas en una escala Likert no tienen una interpretación directa.
Sabemos que un sujeto que obtuviera una puntuación de 24 (puntuación máxima) en el cuestionario
de actitudes hacia la escuela del ejemplo tendría una actitud muy favorable, y que un sujeto que
obtuviera una puntuación de 4 (puntuación mínima) presentaría una mus desfavorable. Pero, ¿qué
podemos decir de un sujeto que obtiene una puntuación de 14? El método de Likert no permite
“medir” los ítems, es decir, no ofrece estimaciones del grado de actitud que hay que tener para estar
de acuerdo con un ítem. Por lo tanto, no es posible ofrecer una interpretación absoluta de la
puntuación de un sujeto (McIver y Carmines, 1981). Si supiéramos que un sujeto respalda los ítems
que requieren un alto grado de actitud favorable para dar una respuesta de acuerdo, entonces
podríamos inferir que ese sujeto tiene un nivel de actitud muy favorable.
Por todo ello, para poder interpretar las puntuaciones obtenidas en una escala Likert es
necesario referirlas a las puntuaciones obtenidas por el grupo de referencia al que pertenece el
sujeto. Una forma de hacerlo es calcular la diferencia entre las puntuaciones de los sujetos (Xi) y la
media del grupo (es decir, calcular las puntuaciones diferenciales). Además, podemos medir esas
diferencias utilizando como unidad de medida la desviación típica de las puntuaciones en el
cuestionario en ese grupo. Para ello dividiremos las diferencias por la desviación típica, lo cual no
es más que transformar las puntuaciones directas en el test (Xi) en puntuaciones típicas (zi):
x
i
i
S
XX
z
−
=
Las puntuaciones típicas nos indican cuántas desviaciones típicas se aleja la
puntuación del sujeto de la media de su grupo, y en qué sentido. Por ejemplo, si un
sujeto presenta una zi = -0.5, entonces podemos decir que se trata de un sujeto que
está media desviación típica por debajo de la media del grupo. Si las puntuaciones en el test siguen
una distribución aproximadamente normal, entonces, con ayuda de las tablas de la distribución
normal, podemos transformar esa puntuación típica en el porcentaje de sujetos que quedan por
debajo (o por encima) de esa puntuación. El valor de probabilidad (función de distribución)
asociado a zi = -0.5 es 0.3085. Ahora podemos decir que el sujeto que ha obtenido una zi = -0.5
supera aproximadamente al 31% de los sujetos de su grupo. Si las puntuaciones en el test no siguen
una distribución aproximadamente normal no debe realizarse esta última transformación. Entonces
podemos calcular el centil que corresponde a cada puntuación en el test. De esta manera sabremos
cuál es el porcentaje de sujetos que queda por debajo de cada puntuación en el test.
5. VALORACIÓN.
x
i
i
S
XX
z
−
=
15
Una de las críticas que suele hacerse del método de escalamiento de Likert es que no está
basado en un modelo matemático determinado. Esta es una diferencia importante con los métodos
desarrollados por Thurstone, que basó sus métodos en una serie de supuestos formales y unas leyes
(por ejemplo, la Ley del Juicio Comparativo). En todo caso, el método de Likert puede emnarcarse
dentro del ámbito más general de la Teoría Clásica de los Tests.
Otra crítica se refiere al uso del coeficiente de correlación ítem-test (índice de
homogeneidad) como base para realizar el análisis correlacional de los ítems. Ya hemos señalado
que para evitar aumentar artificialmente esa correlación es necesario utilizar el índice de
homogeneidad corregido.
La verificación de la unidimensionalidad del test también presenta ciertas deficiencias.
Likert (1932) suponía que una vez se hubiera eliminado todos los ítems indiferenciadores, los ítems
restantes medirían una misma dimensión subyacente o actitud. Sin embargo, esto no tiene que ser
necesariamente así. Si un test mide dos actitudes diferentes pero relacionadas, los IHc serán
probablemente elevados, y llevarán a la conclusión errónea de que los ítems miden una única
actitud. El cálculo de los IHc no es una buena base para evaluar la unidimensionalidad del test. En
su lugar hay que utilizar métodos más apropiados como el análisis factorial.
Recordemos que Likert pretendía desarrollar un método sencillo para medir las actitudes
que ofreciera resultados similares al método más costoso de los intervalos aparentemente iguales
desarrollado por Thurstone. Likert (1932) observó que la fiabilidad de los cuestionarios producidos
por los dos métodos era muy similar, y que la correlación entre las puntuaciones obtenidas por los
dos métodos era muy elevada. Estos resultados muestran que Likert consiguió su objetivo. Quizás
lo que no previó Likert es que su método tuviera tanto éxito. Su relativa sencillez, en comparación a
otros métodos más modernos, es la responsable de que actualmente sea todavía el método más
utilizado para medir actitudes, dimensiones de la personalidad, y otros constructos psicológicos.
BIBLIOGRAFIA.
Arce, C. (1994). Construcción de escalas psicológicas. Madrid: Síntesis.
García Cueto, E. (1993). Introducción a la psicometría. Madrid: Siglo XXI.
Meliá, J. L. (1991). Métodos de escalamiento unidimensional. Valencia: Cristóbal Serrano Villalba.
Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). Psicometría: Problemas y
Prácticas. Valencia: Cristóbal Serrano Villalba.
Wainerman, CH (1976) Escalas de medición en Ciencias Sociales. Buenos Aires: Nueva Visión.
16
Referencias bibliográficas.
Andrich, D. & Schoubroeck, L. (1989). The General Health Questionnaire: a psychometric analysis
using latent trait theory. Psychological Medicine, 19, 469-485.
Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with the Rasch model
for ordered response categories. En J. Rost y R. Langeheine (Eds.), Applications of latent
trait and latent class models in the social sciences (pp. 58-68). Münster, Germany: Waxman
Verlag.
Bock, R. y Jones, L. V. (1968). The measurement and prediction of judgement and choice. San
Francisco: Holden Day.
Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question mark response
category in attitude scales. Educational and Psychological Measurement, 35, 869-884.
Edwards, A. L. (1957). Techniques of attitude scale construction. New York: Appleton-Century-
Crofts.
Espejo, B. y González-Romá, V. (1999). El significado de las categorías centrales en las
escalas tipo Likert. Trabajo presentado al VI Congreso de Metodología de las CC. Sociales
y de la Salud. Oviedo, España.
Espejo, B. y González-Romá, V. (2001). Orden y relevancia de las alternativas de respuesta "no
estoy seguro", "término medio" y "?". Trabajo presentado al VII Congreso de Metodología de
las CC. Sociales y de la Salud. Madrid, España.
Hernández, A.; Espejo, B.; González-Romá, V. y Gómez-Benito, J. (en prensa). Escalas de
respuesta tipo Likert: ¿es relevante la alternativa “indiferente”?. Metodología de Encuestas
Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude theory: A suggested
modification of the semantic differential technique. Psychological Bulletin, 77, 361-372.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50.
(Traducción al castellano en C. H. Wainerman (Comp.) (1976), Escalas de medición en
ciencias sociales, pp-199-260. Buenos Aires: Nueva visión.
McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage.
Neumann, L. (1979). Effects of categorization on relationships in bivariate distributions and
applications to rating scales. Dissertation Abstracts International, 40, 2262-B
Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.
Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New
York: McGraw-Hill.
Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording responses. En Sudman, S.
y Bradburn, N. M. (Eds.). Asking questions: a practical guide to questionnaire design. San
Francisco: Jossey-Bass Publishers.
Worthy, M. (1969). Note on scoring midpoint responses in extreme response style scores.
Psychological Reports, 24, 189-190.
17

Escala de tipo Likert

  • 1.
    1 TEMA 5. MÉTODODE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT. 1. INTRODUCCIÓN. 2. SUPUESTOS. 3. CONSTRUCCIÓN DE UNA ESCALA LIKERT. 4. INTERPRETACIÓN DE LAS PUNTUACIONES. 5. VALORACIÓN. 1. INTRODUCCIÓN. El método de escalamiento de Likert es el método más utilizado en Psicología para medir actitudes, y su uso se ha extendido a la medición de otros constructos, como por ejemplo las dimensiones de personalidad. Likert (1932) propuso su método de escalamiento a finales del primer tercio del siglo XX. Previamente, Thurstone (1928) había propuesto un método para la medición de actitudes que implicaba la participación de sujetos que desempeñaban el papel de jueces (el método de los intervalos aparentemente iguales). Según Thurstone (1928), el número de jueces debeía oscilar entre 200 y 300. La tarea de estos sujetos consistía en valorar un conjunto de ítems. A partir de estas valoraciones, se calibraban los ítems, es decir, se estimaba el valor del ítem en la escala. Una vez se disponía de un conjunto de ítems calibrados que constituían un cuestionario, éste se aplicaba al grupo de sujetos que se deseaba estudiar, y se les pedía que marcaran los ítems con los que estaban de acuerdo y aquéllos con los que disentían. La puntuación de cada persona consistía en la media de los valores de los ítems con los que estaban de acuerdo. El empleo de un número elevado de jueces y la necesidad de calibrar los ítems hacían que este método fuera muy costoso y laborioso. Asimismo, el método de Thurstone implicaba una serie de supuesto estadísticos que no habían sido verificados, por ejemplo, que los valores de escala de los enunciados son independientes de la distribución de actitudes de los jueces que los valoran (Likert, 1932). Tras reconocer la importancia de las aportaciones de Thurstone en el terreno de la medición de las actitudes, Likert (1932) se preguntó si la construcción de escalas de medida mediante procedimientos más sencillos daría resultados tan buenos como los obtenidos por Thurstone en cuanto a la fiabilidad y validez de las medidas, y si sería posible construir escalas evitando asumir supuestos estadísticos innecesarios. Así pues, el objetivo principal de Likert (1932) fue desarrollar un método de medición de actitudes sencillo y simple. Brevemente, el método de medición de Likert consiste en la presentación a los sujetos de una serie de ítems o enunciados ante los que tienen que expresar su posición escogiendo una alternativa de respuesta entre las ofrecidas. Por ejemplo, imaginemos que uno de los ítems que componen una escala de actitud hacia la pena de muerte dijera: “La pena de muerte debe abolirse”, y que las alternativas de respuesta ofrecidas para contestar el ítem fueran: 1. Completamente en desacuerdo. 2. En desacuerdo. 3. Indeciso.
  • 2.
    2 4. De acuerdo. 5.Completamente de acuerdo. Un sujeto que tuviera una actitud contraria a la pena de muerte contestaría 4 o 5. Una vez que el sujeto a contestado todos los ítems, la puntuación del sujeto en el cuestionario se determina sumando o promediando los valores de las alternativas de respuesta escogidas ante cada ítem (Likert, 1932). Por esta razón las escalas o cuestionarios construidos siguiendo este método se denominan escalas sumativas. 2. SUPUESTOS. Likert no elaboró un modelo matemático que fundamentara su método de escalamiento. No obstante, su método implica una serie de supuesto que conviene conocer. Estos supuestos pueden calificarse de débiles porque no son muy restrictivos ni difíciles de asumir. El método de Likert es un método de escalamiento centrado en los sujetos (Torgerson, 1958). Su objetivo es medir sujetos, mostrar las diferencias individuales en relación con una determinada actitud. Por ello, se asume que la variabilidad observada en las respuestas de los sujetos se debe a diferencias entre éstos, esto es, a que tienen niveles de actitud diferentes. El método de Likert no pretende medir o calibrar los ítems. Éstos son considerados réplicas unos de otros, es decir, se supone que todos tiene el mismo valor de escala. Asimismo, se supone que cada ítem presenta una relación monotónica con la actitud subyacente que pretende medir. Esto quiere decir que cuanto más favorable o positiva sea la actitud de un sujeto, mayor será la puntuación que obtendrá en el ítem, y cuanto más desfavorable o negativa sea la actitud de un sujeto, menor será la puntuación que obtendrá en el ítem. Gráficamente, esta relación puede representarse de la siguiente forma: Figura 1. Relación monotónica entre el ítem y el continuo de la actitud. Por último, al tratarse de un método de escalamiento unidimensional, se supone que los ítems miden una única actitud subyacente. Este es el supuesto de unidimensionalidad. 3. CONSTRUCCION DE UNA ESCALA LIKERT. La construcción de una escala Likert para medir actitudes implica las siguientes tareas:
  • 3.
    3 1. Elaborar unabase o banco inicial de items. 2. Determinar cómo se puntuarán los ítems y cómo se obtendrán las puntuaciones de los sujetos. 3. Análisis y selección de ítems. 4. Evaluación de la fiabilidad y validez de la escala. 3.1. Elaboración de una base o banco inicial de ítems. La elaboración de un instrumento de medida psicológica comienza con la definición de aquéllo que queremos medir. A continuación, hay que escribir un conjunto suficientemente amplio de ítems o enunciados acerca de la actitud en cuestión. Este conjunto de ítems configura el banco o base inicial de ítems. Es importante que el número de ítems sea, como se ha dicho, suficientemente amplio, pues hay que evitar que en el caso de que haya que eliminar algunos ítems debido a su baja calidad, nos quedemos al final del proceso con una escala compuesta por pocos ítems que no muestreen suficientemente la actitud a medir, y que no permita mostrar las diferencias individuales existentes. A la hora de elaborar ítems es conveniente considerar los siguientes criterios (Likert, 1932): 1. Un criterio general es que los ítems tienen que ser redactados de tal manera que dos personas con actitudes diferentes (por ejemplo, una con una actitud favorable y otra con una actitud desfavorable) lo contesten de manera diferente. Un ítem que pueda ser respondido de igual forma por dos personas con actitudes diferentes es un ítem inadecuado. 2. Los ítems deben expresar comportamientos deseados o juicios de valor, no hechos. Dos personas con actitudes diferentes ante la pena de muerte seguramente estarán de acuerdo en lo que dice el siguiente enunciado: “La pena de muerte acaba con la vida de las personas”. Este enunciado es un enunciado de hecho, y no es útil para discriminar entre dos personas con actitudes diferentes. En cambio, ante un enunciado valorativo como “La pena de muerte es un crimen”, dos personas con actitudes diferentes contestarían de manera distinta. Una persona a favor de la pena de muerte estaría en desacuerdo con el enunciado; una persona en contra de la pena de muerte estaría de acuerdo. 3. Los enunciados deben ser expresados de una manera clara, concisa y directa. Para lograr este objetivo, resulta útil utilizar el vocabulario más sencillo posible, de manera que las personas con un nivel cultural más bajo pertenecientes al grupo al que va dirigido el cuestionario puedan entender los ítems. La experiencia señala que es preciso evitar frases con dobles negaciones, incluso con una sola negación. Los enunciados con doble sentido, y los compuestos por varias frases también deben evitarse, ya que pueden producir ambigüedad o confusión en los sujetos. 4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert (1932) recomendó que aproximadamente la mitad de los ítems representaran manifestaciones de actitudes positivas o favorables, y la otra mitad de los ítems constituyeran manifestaciones de actitudes negativas o desfavorables. Por ejemplo, imaginemos que estamos construyendo un cuestionario de actitudes hacia la escuela para adolescentes. Un ítem favorable podría ser: “La escuela es divertida”. Un ítem desfavorable podría ser: “La escuela es un rollo”. Obsérvese que si los sujetos utilizan una escala de respuesta de desacuerdo-acuerdo de cinco puntos como la presentada anteriormente, un sujeto con una actitud muy favorable hacia la escuela contestará los ítems favorables con cincos, mientras que responderá los ítems desfavorables con unos. Lo contrario ocurrirá en el caso de un sujeto con una actitud mus desfavorable hacia la escuela. Así pues, si el cuestionario contiene tanto ítems favorables como desfavorables, ningún sujeto debería responder a los ítems con una respuesta estereotipada, como por ejemplo, contestar siempre “5. Completamente de acuerdo”. Es imposible estar de acuerdo con ítems favorables a la escuela y con ítems desfavorables. Si encontramos algún sujeto que ha contestado de esta manera estereotipada,
  • 4.
    4 seguramente lo habráhecho sin prestar atención al contenido de los ítems, y por ello, es conveniente eliminarlo de la base de datos. 3.2. Puntuación de los ítems y de los sujetos. Likert (1932) ensayó diversas formas de puntuar los ítems. La más sencilla de todas ellas consistía en asignar puntuaciones de 1 a 5 a cada una de las cinco alternativas de respuesta de desacuerdo-acuerdo presentadas anteriormente (1. Completamente en desacuerdo; 2. En desacuerdo; 3. Indeciso; 4. De acuerdo; 5. Completamente de acuerdo). Comprobó que esta forma de puntuar los ítems ofrecía resultados muy similares a los obtenidos mediante otras técnicas más complejas y costosas (como por ejemplo, los valores sigma). Actualmente, esta forma de puntuar los ítems también se conoce como puntuación mediante números enteros (Andrich & Schoubroeck, 1989). Las escalas de respuesta empleadas para puntuar los ítems de una escala Likert pueden presentar un número diferente de alternativas de respuesta. Las escalas con cinco alternativas son muy frecuentes. Pero no es extraño encontrar escalas de respuestas con cuatro, seis y siete alternativas. Las escalas con números pares omiten la categoría de respuesta central, que suele ser “Indeciso”, “Indiferente”, “No estoy seguro”, o “Ni de acuerdo ni en desacuerdo”. Existe cierto debate sobre si la categoría central debería incluirse o no. Algunos investigadores han recomendado el uso de la categoría de respuesta central (Edwards, 1957; Newman, 1979; Sudman y Bradburn, 1989), argumentando que es preferible no forzar las respuestas de los sujetos indecisos hacia un polo (acuerdo o desacuerdo) que podría no describirles. Sin embargo, otros estudios han cuestionado el uso de las categorías centrales porque éstas pueden atraer a las personas que las seleccionan por razones diferentes de cuál es su posición en la actitud medida (Bock y Jones, 1968; Worthy, 1969; Kaplan, 1972; Dubois y Burns, 1975). Investigaciones recientes sobre este tema han revelado que casi un 50% de los sujetos que responde mediante diferentes tipos de categorías de respuesta centrales lo hace por razones diferentes a la de estar en el punto medio de la dimensión medida (Espejo, 1998; Espejo y González-Romá, 1999). Otros estudios han mostrado que incluso los sujetos con niveles medios en la dimensión medida, tiene una probabilidad muy pequeña de contestar utilizando la categoría central, y es más probable que respondan utilizando otras categorías de respuesta adyacentes, como “En desacuerdo” o “De acuerdo” (Andrich, de Jong y Sheridan, 1997; Hernández, Espejo, González-Romá y Gómez-Benito, en prensa; Espejo y González-Romá, 2001). Así pues, en base a los más recientes resultados de la investigación sobre el tema, parece que la utilidad de la categoría de respuesta central está seriamente cuestionada. Las escalas de respuesta con seis alternativas suelen ser muy similares a la siguiente: 1. Completamente en desacuerdo. 2. Bastante en desacuerdo. 3. Algo en desacuerdo. 4. Algo de acuerdo. 5. Bastante de acuerdo. 6. Completamente de acuerdo. Las escalas de respuesta que presentan siete alternativas incluyen en la escala anterior una categoría de respuesta central a la que se le asigna la puntuación de 4. Todas las escalas de respuesta que se utilizan en las escalas Likert son politómicas, pues presentan más de dos alternativas de respuesta. Además, son escalas de respuesta ordenadas o graduadas, ya que la asignación de los números enteros a las distintas respuestas constituye una
  • 5.
    5 escala ordinal. Apartir de las puntuaciones obtenidas por distintos sujetos en un mismo ítem, podemos hacer inferencias acerca de quiénes tienen una actitud más o menos favorable, pero no podemos determinar cuál es la distancia entre sujetos que responden con alternativas diferentes. Una vez se ha determinado cómo se puntuará cada ítem, pero antes de calcular la puntuación de cada sujeto en el cuestionario, hay que detectar los ítems invertidos y transformar la puntuación obtenida en ellos de manera que tenga el mismo significado que la puntuación obtenida en el resto de ítems. Como señalamos anteriormente, Likert (1932) recomendó que aproximadamente la mitad de los ítems representaran manifestaciones de actitudes positivas o favorables, y la otra mitad de los ítems constituyeran manifestaciones de actitudes negativas o desfavorables. Si se sigue este criterio, nos encontraremos con que no todos los ítems están redactados en el mismo sentido, y esto tiene importantes repercusiones en el significado de las puntuaciones de los ítems. Volvamos a nuestro ejemplo del cuestionario de actitudes hacia la escuela. Una puntuación de 5 (Completamente de acuerdo) a un ítem favorable (“La escuela es divertida”), no tiene el mismo significado que una puntuación de 5 a un ítem desfavorable (“La escuela es un rollo”). En el primer caso la puntuación denota una actitud favorable, mientras que en el segundo indica una actitud desfavorable. Por ello, estas puntuaciones no pueden sumarse para obtener una puntuación de los sujetos. Previamente, es preciso que todas las puntuaciones en los ítems estén en la misma dirección. Para ello se procede a transformar las puntuaciones de los ítems que no estén redactados en el sentido que más interesa. Por ejemplo, si interesa obtener una puntuación que indique el grado de actitud hacia la escuela de manera que a mayor puntuación se pueda inferir una actitud más favorable, entonces habrá que transformar los ítems que denotan una actitud desfavorable. Antes de la transformación, estos ítems suelen denominarse ítems invertidos. Cuando se trabaja con una base de datos grande, la transformación de los ítems invertidos puede realizarse fácilmente con la ayuda de un programa estadístico de análisis de datos, o incluso con una hoja de cálculo, implementando una fórmula de transformación. Si la escala de respuesta empleada presenta como valor más pequeño el 1 (que es lo más frecuente), entonces la fórmula de transformación es: P i = (P m +1) - P o donde: P i : puntuación transformada en el ítem invertido lista para calcular la puntuación total en el cuestionario; P m : puntuación máxima que puede darse al ítem; P o : puntuación original obtenida en el ítem invertido. Si la escala de respuesta utilizada para contestar los ítems presenta como valor más pequeño el cero, entonces la fórmula de transformación es: P i = P m - P o Por ejemplo, supongamos que un sujeto ha contestado cuatro ítems del cuestionario de actitudes hacia la escuela utilizando una escala de respuesta de 6 puntos como la presentada en este mismo apartado. Imaginemos que sus puntuaciones en los ítems son las siguientes: Items Puntuación (P o ) 1. La escuela es divertida....................................................5 2. En la escuela aprendo cosas útiles...................................6
  • 6.
    6 3. La escuelaes un rollo......................................................2 4. En la escuela pierdo el tiempo.........................................1 Los ítems 1 y 2 manifiestan una actitud favorable, mientras que los ítems 3 y 4 denotan una actitud desfavorable. Procedamos ahora a transformar los ítems 3 y 4 aplicando la fórmula correspondiente. Como la escala de respuesta oscila entre 1 y 6, aplicaremos la fórmula P i = (P m +1) - P o . Items Puntuación (P o ) Puntuación transformada (P i ) 3. La escuela es un rollo...................................2.....................................(6+1)-2 = 5 4. En la escuela pierdo el tiempo......................1.....................................(6+1)-1 = 6 Ahora que ya hemos transformado las puntuaciones obtenidas en los ítems invertidos, podemos calcular la puntuación total de cada sujeto en el cuestionario. Como se indicó al comienzo de este tema, la puntuación total de un sujeto en el cuestionario se determina sumando o promediando los valores de las alternativas de respuesta escogidas ante cada ítem (Likert, 1932), razón por la que las escalas o cuestionarios construidos siguiendo este método se denominan escalas sumativas. En el ejemplo anterior, la puntuación total del sujeto sería: Items Puntuación 1. La escuela es divertida....................................................5 2. En la escuela aprendo cosas útiles...................................6 3. La escuela es un rollo......................................................5 4. En la escuela pierdo el tiempo.........................................6 Puntuación total (suma)......................................................22 3. 3. Análisis y selección de ítems. Una vez que ya se ha elaborado un banco inicial de ítems, y se ha aclarado cómo se puntuará cada uno de ellos y cómo se obtendrá la puntuación de cada sujetos, se inicia la fase de análisis cuantitativo de los ítems. El banco de ítems ha de aplicarse a una muestra que sea representativa de la población a la cual va dirigida el test. Esta muestra proporcionará los datos que utilizaremos para realizar el análisis cuantitativo de los ítems. Likert propuso dos tipos de análisis: 1. un análisis correlacional de los ítems, y 2. un análisis basado en el criterio de consistencia interna (Likert, 1932; McIver y Carmines, 1981). 3.3.1. Análisis correlacional de los ítems. El análisis correlacional consiste en calcular la correlación entre cada ítem y la puntuación total en el cuestionario o test (es decir, la suma de todos los ítems). Esta correlación es conocida en el marco de la Teoría Clásica de los Tests como índice de homogeneidad (IH). Si el ítem analizado mide lo mismo que el resto de ítems, el índice de homogeneidad será elevado, de manera que los sujetos que puntúan alto en el ítem, también tenderán a puntuar alto en el cuestionario, y los sujetos que puntúan bajo en el ítem, tenderán a puntuar bajo en el cuestionario. Si el índice de homogeneidad es bajo o cercano a cero, entonces el ítem analizado no mide lo que mide el resto de ítems. Likert denominó a los ítems con un índice de homogeneidad bajo como ítems indiferenciadores (Likert, 1932).
  • 7.
    7 Los ítems indiferenciadoresaportan escasa o ninguna información útil sobre la actitud que se está midiendo, por ello no tiene sentido combinarlos con el resto de ítems para obtener una puntuación total (McIver y Carmines, 1981). Además, como demuestra la Teoría Clásica de los Tests, su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los ítems indiferenciadores deben eliminarse. El cálculo del índice de homogeneidad como la correlación entre la puntuación en el ítem y la puntuación en el test (en adelante, correlación ítem-test) tiene el siguiente inconveniente: la puntuación total en el test incluye al ítem como componente, es decir, el ítem analizado aparece en las dos variables que se correlacionan, y esto aumentará artificialmente el coeficiente de correlación que se obtenga. Para evitar este efecto, lo que se hace es calcular la correlación entre el ítem y el test una vez que se ha eliminado de este último la contribución del ítem. Esta correlación recibe el nombre de índice de homogeneidad corregido(IHc), y se indica mediante la expresión ri(T-i) . La fórmula para calcular el índice de homogeneidad corregido es (Peters y Van Vorhis, 1940): ( ) ( ) iTiT 2 i 2 T iTiT iTi SSr2SS SSr r −+ − =− donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en el ítem, y ST es la desviación típica que presentan las puntuaciones en test. Para interpretar el índice de homogeneidad corregido suele tomarse como valor de referencia 0.20. De manera que todos los ítems que presentan ri(T-i) con valores inferiores a 0.20 son eliminados del banco de ítems por ser indiferenciadores. Ejemplo de cálculo. Supongamos que 16 sujetos han contestado a los cuatro ítems del cuestionario de actitudes hacia la escuela que utilizamos anteriormente. Después de transformar los ítems invertidos, se han calculado las puntuaciones en el test. Las puntuaciones en los ítems después de realizar las transformaciones y en el test aparecen en la tabla que se muestra a continuación. Vamos a ilustrar cómo calcularíamos el índice de homogeneidad corregido (IHc) del ítem 1. () ()iTiT 2 i 2 T iTiT iTi SSr2SS SSr r −+ − =−
  • 8.
    8 SUJETOS ITEM1 ITEM2ITEM3 ITEM4 TEST 1 4 5 5 4 18 2 2 2 1 2 7 3 5 6 4 5 20 4 3 2 3 3 11 5 5 6 4 5 20 6 2 1 1 1 5 7 5 3 2 5 15 8 4 5 5 5 19 9 2 1 1 2 6 10 3 2 1 1 7 11 2 3 1 2 8 12 4 5 6 4 19 13 2 3 1 1 7 14 4 5 4 6 19 15 1 2 1 2 6 16 4 5 6 5 20 La fórmula de cálculo del IHc implica la obtención del IH y de las desviaciones típicas del test y del ítem. Recordemos que las fórmulas para calcular el coeficiente de correlación de Pearson y la desviación típica son: ( ) n XX S n zz r n 1i 2 i x n 1i yx xy II ∑∑ == − = ⋅ = donde n es el tamaño de la muestra, y z denota puntuaciones típicas. SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST 1 4 5 5 4 18 2 2 2 1 2 7 3 5 6 4 5 20 4 3 2 3 3 11 5 5 6 4 5 20 6 2 1 1 1 5 7 5 3 2 5 15 8 4 5 5 5 19 9 2 1 1 2 6 10 3 2 1 1 7 11 2 3 1 2 8 12 4 5 6 4 19 13 2 3 1 1 7 14 4 5 4 6 19 15 1 2 1 2 6 16 4 5 6 5 20 ( ) n XX S n zz r n 1i 2 i x n 1i yx xy II ∑∑ == − = ⋅ =
  • 9.
    9 En la tablasiguiente, se muestran los estadísticos necesarios para calcular IH. Tan sólo hay que recordar que en nuestro caso la variable X es el ítem 1, y la variable Y la puntuación en el test. Así pues, vemos que Σzítem1 ztest = 13.47, es decir, ya tenemos el valor del sumatorio del producto cruzado de las puntuaciones típicas, que es el numerador de la fórmula del coeficiente de correlación. SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST ZITEM1 ZTEST ZITEM1 X ZTEST 1 4 5 5 4 18 0,58 0,81 0,47 2 2 2 1 2 7 -0,97 -0,95 0,92 3 5 6 4 5 20 1,36 1,13 1,54 4 3 2 3 3 11 -0,19 -0,31 0,06 5 5 6 4 5 20 1,36 1,13 1,54 6 2 1 1 1 5 -0,97 -1,27 1,23 7 5 3 2 5 15 1,36 0,33 0,45 8 4 5 5 5 19 0,58 0,97 0,57 9 2 1 1 2 6 -0,97 -1,11 1,08 10 3 2 1 1 7 -0,19 -0,95 0,18 11 2 3 1 2 8 -0,97 -0,79 0,77 12 4 5 6 4 19 0,58 0,97 0,57 13 2 3 1 1 7 -0,97 -0,95 0,92 14 4 5 4 6 19 0,58 0,97 0,57 15 1 2 1 2 6 -1,74 -1,11 1,94 16 4 5 6 5 20 0,58 1,13 0,66 SUMA 13,47 MEDIA 3,25 3,50 2,88 3,31 12,94 D.T. 1,29 1,75 1,96 1,74 6,23 Luego, el valor del IH será: 84.0 16 47.13 n zz rIH test1ítem it == ⋅ == ∑ Ahora ya podemos calcular el índice de homogeneidad corregido (IHc): ( ) ( ) ( ) 76.0 29.123.684.0229.123.6 29.123.684.0 SSr2SS SSr r 22 iTiT 2 i 2 T iTiT iTi = ⋅⋅⋅−+ −⋅ = −+ − =− El resultado obtenido indica que el ítem está muy relacionado con el resto de ítems que componen el test, debido a que miden la misma actitud. Como cabía esperar, el IHc es menor que el IH, y la diferencia es apreciable debido a la pequeña longitud del test: tan sólo 4 ítems. En este caso un 25% del test (es decir, 1 ítem de 4) es parte de las dos variables que correlacionamos cuando calculamos el IH. Este porcentaje se reduce a medida que aumenta la longitud del test (cuando la longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...). Por ello, cuanto mayor sea la longitud del test menor será la diferencia entre el IH y el IHc. Cuando trabajamos con tests muy largos la diferencia es muy pequeña. () ()() 76.0 29.123.684.0229.123.6 29.123.684.0 SSr2SS SSr r 22 iTiT 2 i 2 T iTiT iTi = ⋅⋅⋅−+ −⋅ = −+ − =−
  • 10.
    10 3.3.2. Análisis basadoen el criterio de consistencia interna. Cuando Likert (1932) desarrolló su método de escalamiento, los investigadores no disponían de ordenadores para realizar los cálculos implicados en los análisis cuantitativos de los ítems. Calcular los índices de homogeneidad de un test aplicado a una muestra grande conllevaba mucho tiempo y resultaba costoso. Para ahorrar esfuerzos y tiempo, Likert desarrolló un segundo tipo de análisis basado en “el criterio de consistencia interna”. Este análisis consiste en comparar las puntuaciones en el ítem del grupo que tiene las puntuaciones más altas en el test (y que por lo tanto, tiene una actitud favorable), con las puntuaciones en el ítem del grupo que tiene las puntuaciones más bajas en el test (y que, por consiguiente, tiene una actitud desfavorable). En principio, cabe esperar que dos grupos con actitudes diferentes tengan puntuaciones medias diferentes en el ítem analizado. Si esto no ocurre se debe a que el ítem no es un buen indicador de la actitud medida, y se trata de un ítem indiferenciador. Si los dos grupos obtienen puntuaciones medias en el ítem diferentes, entonces puede afirmarse que el ítem discrimina entre los grupos, y, por lo tanto, es un buen indicador de la actitud medida. ( ) ( )         +× −+ −+− − = BABA 2 BB 2 AA BA n 1 n 1 2nn S1nS1n XX t Los dos grupos a comparar suelen estar compuestos por el 25% de los sujetos con puntuaciones más altas y más bajas en el test; no obstante, Likert (1932) también utilizó otros porcentajes, como el 10%. Inicialmente, este criterio se basaba simplemente en el cálculo de la diferencia entre las medias de los dos grupos en el ítem. Sin embargo, esta diferencia no tenía en cuenta que los dos grupos podían presentar variabilidades distintas en el ítem. Para evitar esta deficiencia, más tarde se comenzó a usar una prueba t para evaluar la diferencia entre las medias considerando la variabilidad del ítem en los dos grupos. El estadístico t sigue una distribución t de Student con (nA + nB – 2) grados de libertad –donde n es el tamaño del grupo, y los subíndices A y B denotan los grupos extremos alto y bajo, respectivamente-, y se calcula mediante la fórmula: donde el numerador es la diferencia entre las medias en el ítem de los dos grupos, y S2 indica la varianza en el ítem del grupo correspondiente. ()()         +× −+ −+− − = BABA 2 BB 2 AA BA n 1 n 1 2nn S1nS1n XX t
  • 11.
    11 Ejemplo de cálculo. Vamosa aplicar este tipo de análisis basado en el criterio de consistencia interna a los datos que utilizamos anteriormente. Como en el caso anterior, el análisis se centrará en el ítem 1. En la siguiente tabla aparecen las puntuaciones de los 16 sujetos, pero éstos han sido ordenados de manera decreciente en función de su puntuación en el test. Los sujetos que configuran los dos grupos con puntuaciones extremas en el test están marcados en negrita. SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST 3 5 6 4 5 20 5 5 6 4 5 20 16 4 5 6 5 20 8 4 5 5 5 19 12 4 5 6 4 19 14 4 5 4 6 19 1 4 5 5 4 18 7 5 3 2 5 15 4 3 2 3 3 11 11 2 3 1 2 8 2 2 2 1 2 7 10 3 2 1 1 7 13 2 3 1 1 7 9 2 1 1 2 6 15 1 2 1 2 6 6 2 1 1 1 5 MEDIA A 4,5 MEDIA B 1,75 D. T. A 0,5 D. T. B 0,43 BA XX > Si el ítem discrimina entre los dos grupos, entonces observaremos que: BA1 BA0 :H :H µ>µ µ≤µ Las hipótesis estadísticas implicadas en esta prueba de diferencias entre medias son: ( ) ( ) ( ) ( ) 34.8 4 1 4 1 244 43.0145.014 75.15.4 n 1 n 1 2nn S1nS1n XX t 22 BABA 2 BB 2 AA BA =       +× −+ −+− − =       +× −+ −+− − = Conociendo las medias y las desviaciones típicas que los dos grupos presentan en el ítem 1, vamos a calcular el estadístico t1 . 1 El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en el análisis de ítems. En la práctica, y trabajando con muestras más grandes, es necesario verificar hasta qué punto se cumplen los supuestos de la prueba. BA XX > BA1 BA0 :H :H µ>µ µ≤µ ( ) ( ) ( ) ( ) 34.8 4 1 4 1 244 43.0145.014 75.15.4 n 1 n 1 2nn S1nS1n XX t 22 BABA 2 BB 2 AA BA =       +× −+ −+− − =       +× −+ −+− − =
  • 12.
    12 Si asumimos unnivel de significación α=0.05, en la tabla de distribución de probabilidad t de Student, observamos que el valor de t para 1- α = 0.95 y 6 grados de libertad es: 0.95 t 6 = 1.943. Como el valor empírico obtenido para el estadístico t (11.75) es mucho mayor que el valor obtenido en las tablas para un α=0.05, podemos afirmar que la probabilidad de obtener una diferencia entre las medias como la observada, bajo el supuesto de que H0 sea cierta, es muy pequeña. Por ello, dudamos de H0, la rechazamos, y aceptamos H1. En nuestro caso, esto significa que el ítem sí que discrimina entre los dos grupos. Ya señalamos anteriormente que el análisis basado en el criterio de consistencia interna estuvo motivado por el elevado coste en tiempo y esfuerzo que suponía el cálculo de correlaciones cuando Likert desarrolló su método. Hoy en día, gracias al uso de los ordenadores y programas estadísticos, este argumento carece de sentido. En la práctica, es el análisis correlacional basado en el cálculo de IHc el que se desarrolla. Likert (1932) estudió la relación entre los resultados producidos por los dos métodos de análisis. Ordenó un conjunto de ítems en función de su IH, y los ordenó también en función de la diferencia que los dos grupos extremos mostraban en cada ítem. La relación entre los dos órdenes fue estimada mediante el coeficiente de correlación rho, que presentó un valor de 0.91. Este resultado indica un grado de relación muy alto entre los dos órdenes obtenidos, lo cual sugiere que los dos métodos de análisis tienden a producir resultados similares. Esto no es de extrañar, ya que si un ítem presenta un elevado IH, los sujetos que puntúan alto en el ítem tenderán a puntuar alto en el test, y los sujetos que puntúan bajo en el ítem tenderán a puntuar bajo en el test. Y viceversa: el grupo con puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem, y el grupo con puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem. Sin embargo, hay que tener en cuenta que Likert correlacionó órdenes de clasificación (esto es, rankings), y que los órdenes no informan acerca de si un determinado criterio de análisis es superado o no (por ejemplo: IHc ≥ 0.20). Por ello, aunque los resultados de ambos tipos de análisis están relacionados, pueden no conducir necesariamente a la misma conclusión (McIver y Carmines, 1981). Así pues, cuando se han aplicado los dos tipos de análisis es conveniente eliminar los ítems que tengan IHc bajos y los que no discriminen entre los grupos con puntuaciones extremas en el test. Estos ítems son los ítems indiferenciadores. Likert (1932) señaló algunas de las razones por las que un ítem puede resultar indiferenciador: a. Puede medir una actitud diferente a la que miden el resto de ítems. b. Puede ser respondido por casi todos los sujetos de la misma forma. c. Puede estar redactado de manera que no sea entendido correctamente. d. Puede tratarse de un enunciado de hecho. 3.4. Evaluación de la fiabilidad y validez de la escala. Una vez se ha seleccionado un conjunto de ítems, hay que evaluar las propiedades psicométricas del test o cuestionario que forman considerado como un todo. Las dos propiedades psicométricas más importantes son la fiabilidad, y la validez2 . Para que un test sea un instrumento de medida útil hay que demostrar su fiabilidad y su validez. Brevemente, señalaremos que la fiabilidad hace referencia al grado de precisión que ofrecen las medidas obtenidas mediante un test. Supone también un intento por cuantificar el grado de error que afecta a esas medidas. Un método 2 Estas dos propiedades serán objeto de un estudio más detenido en el bloque de temas dedicado a la Teoría de los Tests.
  • 13.
    13 bastante extendido paraestimar la fiabilidad de un test consiste en calcular el coeficiente alfa de Cronbach, cuya fórmula es la siguiente:             − − =α ∑= 2 x n 1i 2 i S S 1 1n n donde n es la longitud del test (es decir, el número de ítems que lo componen), Si es la varianza del ítem i, y S22 x es la varianza que muestran las puntuaciones totales en el test. Un criterio bastante extendido para interpretar el coeficiente alfa es que éste ha de ser igual o superior a 0.70 (Nunnally, 1978), entonces puede afirmarse que el test tiene una fiabilidad suficiente. Ejemplo de cálculo. 93.0 23.6 74.196.175.129.1 1 3 4 S S 1 1n n 2 2222 2 x n 1i 2 i =      +++ −=             − − =α ∑= Con los datos del ejemplo que estamos utilizando, vamos a calcular el coeficiente alfa del cuestionario de actitudes hacia la escuela. En la primera tabla que hemos mostrado, aparecen las desviaciones típicas de cada uno de los cuatro ítems y de las puntuaciones totales en el test. Con esta información ya podemos aplicar la fórmula del coeficiente alfa de Cronbach: El resultado obtenido indica que el cuestionario es fiable. La validez de un test hace referencia al grado en el que un test mide lo que pretende medir. El estudio de la validez de un test se desarrolla a partir de la verificación de las hipótesis de validación. Una hipótesis de validación hace referencia a las relaciones que presentará el test objeto de estudio con otras variables, bajo el supuesto de que mide lo que pretenda medir. Por ejemplo, en el caso del cuestionario de actitudes hacia la escuela una hipótesis de validación podría ser la siguiente: Se espera que las puntuaciones totales en el test presenten una correlación positiva con el rendimiento académico, de manera que a mayor puntuación en el test se observe un mayor rendimiento académico. Las hipótesis de validación se fundamentan en teorías contrastadas y/o en resultados empíricos previos. La hipótesis de validación indica cuál es el método estadístico que se utilizará para su verificación. En el caso anterior, la hipótesis alude a la relación entre dos variables cuantitativas, por lo tanto, su verificación se realizaría calculando el coeficiente de correlación entre las variables. Las hipótesis de validación pueden tomar diversas formas, y por lo tanto, pueden ser diversos los métodos estadísticos implicados en su verificación. Para ilustrar este punto, veamos otro ejemplo. Supongamos que se ha elaborado un cuestionario de actitud hacia el aborto. Si el test mide la actitud que pretende medir, las puntuaciones en el test de dos grupos de sujetos que mantienen actitudes extremas y opuestas, deberían ser diferentes. Por lo tanto, en el proceso de validación del test se ha elaborado la siguiente hipótesis de validación: La puntuación media en el test de un grupo de mujeres pertenecientes a asociaciones feministas será mayor que la puntuación media de un grupo de mujeres pertenecientes a asociaciones católicas. En este caso, la hipótesis de validación implica la comparación de dos medias, comparación que se puede realizar mediante la prueba t correspondiente. Obsérvese que a diferencia de lo que ocurría cuando se usaba el criterio de consistencia interna para analizar los ítems, aquí se definen los dos grupos con actitudes             − − =α ∑= 2 x n 1i 2 i S S 1 1n n 93.0 23.6 74.196.175.129.1 1 3 4 S S 1 1n n 2 2222 2 x n 1i 2 i =      +++ −=             − − =α ∑=
  • 14.
    14 opuestas y extremasen base a un factor externo al test: su pertenencia a asociaciones que mantienen posturas contrarias respecto al aborto. El proceso de validación de un test es un proceso continuo, en el que se van acumulando evidencias acerca de su validez. Sólo cuando se ha acumulado un número suficientemente amplio de evidencias es posible establecer de manera fundada una serie de conclusiones acerca de la validez. 4. INTERPRETACIÓN DE LAS PUNTUACIONES. Las puntuaciones obtenidas en una escala Likert no tienen una interpretación directa. Sabemos que un sujeto que obtuviera una puntuación de 24 (puntuación máxima) en el cuestionario de actitudes hacia la escuela del ejemplo tendría una actitud muy favorable, y que un sujeto que obtuviera una puntuación de 4 (puntuación mínima) presentaría una mus desfavorable. Pero, ¿qué podemos decir de un sujeto que obtiene una puntuación de 14? El método de Likert no permite “medir” los ítems, es decir, no ofrece estimaciones del grado de actitud que hay que tener para estar de acuerdo con un ítem. Por lo tanto, no es posible ofrecer una interpretación absoluta de la puntuación de un sujeto (McIver y Carmines, 1981). Si supiéramos que un sujeto respalda los ítems que requieren un alto grado de actitud favorable para dar una respuesta de acuerdo, entonces podríamos inferir que ese sujeto tiene un nivel de actitud muy favorable. Por todo ello, para poder interpretar las puntuaciones obtenidas en una escala Likert es necesario referirlas a las puntuaciones obtenidas por el grupo de referencia al que pertenece el sujeto. Una forma de hacerlo es calcular la diferencia entre las puntuaciones de los sujetos (Xi) y la media del grupo (es decir, calcular las puntuaciones diferenciales). Además, podemos medir esas diferencias utilizando como unidad de medida la desviación típica de las puntuaciones en el cuestionario en ese grupo. Para ello dividiremos las diferencias por la desviación típica, lo cual no es más que transformar las puntuaciones directas en el test (Xi) en puntuaciones típicas (zi): x i i S XX z − = Las puntuaciones típicas nos indican cuántas desviaciones típicas se aleja la puntuación del sujeto de la media de su grupo, y en qué sentido. Por ejemplo, si un sujeto presenta una zi = -0.5, entonces podemos decir que se trata de un sujeto que está media desviación típica por debajo de la media del grupo. Si las puntuaciones en el test siguen una distribución aproximadamente normal, entonces, con ayuda de las tablas de la distribución normal, podemos transformar esa puntuación típica en el porcentaje de sujetos que quedan por debajo (o por encima) de esa puntuación. El valor de probabilidad (función de distribución) asociado a zi = -0.5 es 0.3085. Ahora podemos decir que el sujeto que ha obtenido una zi = -0.5 supera aproximadamente al 31% de los sujetos de su grupo. Si las puntuaciones en el test no siguen una distribución aproximadamente normal no debe realizarse esta última transformación. Entonces podemos calcular el centil que corresponde a cada puntuación en el test. De esta manera sabremos cuál es el porcentaje de sujetos que queda por debajo de cada puntuación en el test. 5. VALORACIÓN. x i i S XX z − =
  • 15.
    15 Una de lascríticas que suele hacerse del método de escalamiento de Likert es que no está basado en un modelo matemático determinado. Esta es una diferencia importante con los métodos desarrollados por Thurstone, que basó sus métodos en una serie de supuestos formales y unas leyes (por ejemplo, la Ley del Juicio Comparativo). En todo caso, el método de Likert puede emnarcarse dentro del ámbito más general de la Teoría Clásica de los Tests. Otra crítica se refiere al uso del coeficiente de correlación ítem-test (índice de homogeneidad) como base para realizar el análisis correlacional de los ítems. Ya hemos señalado que para evitar aumentar artificialmente esa correlación es necesario utilizar el índice de homogeneidad corregido. La verificación de la unidimensionalidad del test también presenta ciertas deficiencias. Likert (1932) suponía que una vez se hubiera eliminado todos los ítems indiferenciadores, los ítems restantes medirían una misma dimensión subyacente o actitud. Sin embargo, esto no tiene que ser necesariamente así. Si un test mide dos actitudes diferentes pero relacionadas, los IHc serán probablemente elevados, y llevarán a la conclusión errónea de que los ítems miden una única actitud. El cálculo de los IHc no es una buena base para evaluar la unidimensionalidad del test. En su lugar hay que utilizar métodos más apropiados como el análisis factorial. Recordemos que Likert pretendía desarrollar un método sencillo para medir las actitudes que ofreciera resultados similares al método más costoso de los intervalos aparentemente iguales desarrollado por Thurstone. Likert (1932) observó que la fiabilidad de los cuestionarios producidos por los dos métodos era muy similar, y que la correlación entre las puntuaciones obtenidas por los dos métodos era muy elevada. Estos resultados muestran que Likert consiguió su objetivo. Quizás lo que no previó Likert es que su método tuviera tanto éxito. Su relativa sencillez, en comparación a otros métodos más modernos, es la responsable de que actualmente sea todavía el método más utilizado para medir actitudes, dimensiones de la personalidad, y otros constructos psicológicos. BIBLIOGRAFIA. Arce, C. (1994). Construcción de escalas psicológicas. Madrid: Síntesis. García Cueto, E. (1993). Introducción a la psicometría. Madrid: Siglo XXI. Meliá, J. L. (1991). Métodos de escalamiento unidimensional. Valencia: Cristóbal Serrano Villalba. Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). Psicometría: Problemas y Prácticas. Valencia: Cristóbal Serrano Villalba. Wainerman, CH (1976) Escalas de medición en Ciencias Sociales. Buenos Aires: Nueva Visión.
  • 16.
    16 Referencias bibliográficas. Andrich, D.& Schoubroeck, L. (1989). The General Health Questionnaire: a psychometric analysis using latent trait theory. Psychological Medicine, 19, 469-485. Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with the Rasch model for ordered response categories. En J. Rost y R. Langeheine (Eds.), Applications of latent trait and latent class models in the social sciences (pp. 58-68). Münster, Germany: Waxman Verlag. Bock, R. y Jones, L. V. (1968). The measurement and prediction of judgement and choice. San Francisco: Holden Day. Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question mark response category in attitude scales. Educational and Psychological Measurement, 35, 869-884. Edwards, A. L. (1957). Techniques of attitude scale construction. New York: Appleton-Century- Crofts. Espejo, B. y González-Romá, V. (1999). El significado de las categorías centrales en las escalas tipo Likert. Trabajo presentado al VI Congreso de Metodología de las CC. Sociales y de la Salud. Oviedo, España. Espejo, B. y González-Romá, V. (2001). Orden y relevancia de las alternativas de respuesta "no estoy seguro", "término medio" y "?". Trabajo presentado al VII Congreso de Metodología de las CC. Sociales y de la Salud. Madrid, España. Hernández, A.; Espejo, B.; González-Romá, V. y Gómez-Benito, J. (en prensa). Escalas de respuesta tipo Likert: ¿es relevante la alternativa “indiferente”?. Metodología de Encuestas Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude theory: A suggested modification of the semantic differential technique. Psychological Bulletin, 77, 361-372. Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50. (Traducción al castellano en C. H. Wainerman (Comp.) (1976), Escalas de medición en ciencias sociales, pp-199-260. Buenos Aires: Nueva visión. McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage. Neumann, L. (1979). Effects of categorization on relationships in bivariate distributions and applications to rating scales. Dissertation Abstracts International, 40, 2262-B Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill. Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New York: McGraw-Hill. Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording responses. En Sudman, S. y Bradburn, N. M. (Eds.). Asking questions: a practical guide to questionnaire design. San Francisco: Jossey-Bass Publishers. Worthy, M. (1969). Note on scoring midpoint responses in extreme response style scores. Psychological Reports, 24, 189-190.
  • 17.