Este documento presenta una introducción al análisis de regresión y correlación. Explica que una variable dependiente depende de una o más variables independientes. Describe dos formas de estudiar la asociación entre variables: regresión para predecir valores y correlación para medir el grado de relación. También clasifica los métodos de regresión y correlación en simples y múltiples dependiendo del número de variables independientes. Finalmente, menciona que la asociación puede ser lineal o no lineal.
1. Julia A. Ramón O.
UNIVERSIDAD DE HUÁNUCO
FACULTAD DE CIENCIAS DE LA SALUD
ESCUELA ACADEMICO PROFESIONAL DE PSICOLOGÍA
Prof. Julia A. RAMÓN ORTIZ
ESTADÍSTICA APLICADA A LA PSICOLOGÍA
3. Julia A. Ramón O.
Una variable dependiente Y, que depende de uno o más variables
independientes X1, X2, …, Xk, como por ejemplo el ingreso familiar depende
de: del grado de instrucción, de los hábitos de vida, del sexto y del tiempo de
labor.
La variable dependiente Y, se consideran como variables aleatorias. Mientras
que las variables independientes X1, X2, …, Xk, no tienen la propiedad de ser
variable aleatoria. Existen dos formas de esudio de asociación entre variables a
partir de una muestra aleatoria.
La primera forma, es determinar un relación funcional de la variable
dependiente Y con respecto a uno o más variables independientes con el fin de
predecir valores de Y. esté método se denomina análisis de regresión.
La segunda forma de estudio de la asociación entre variables, es, medir el
grado de relación entre ellas, mediante un coeficiente o índice. A esta técnica
se llama correlación.
Los métodos de regresión y correlación entre variables se clasificanpor el
número de variables independientes, en simple y múltiple. El análisis de
asociación se llama simple, si hay una sola variable independiente; si hay dos o
más variables independientes se llama análisis de regresión múltiple.
Por el tipo de función matemática que se puede ajustar a los datos, la
asociación de las variables puede ser lineal o no lineal como por ejemplo,
parábola, polinomio, exponencial, logarítmica, etc.
4. Julia A. Ramón O.
Qué es el análisis
de correlación
lineal ?
Es una herramienta estadística que
podemos usar para describir el grado
de relación lineal entre las variables.
6. Julia A. Ramón O.
Tipos de Variables
Variable
Independiente
(X)
(determinística, es
decir no aleatoria.)
Variable
Dependiente
(Y)
aleatoria
Ejemplos
X: Número de llamadas telefónicas realizadas por un vendedor
promocionando un producto.
Y: Unidades vendidas por el vendedor.
X: Tiempo que dedica un estudiante a una materia.
Y : Evaluación que obtiene el estudiante en la materia (Nota).
Y = f(x)
7. Julia A. Ramón O.
Seleccionar una muestra de tamaño n de ambas variables X e Y, con lo que se
obtienen n pares de observaciones: (x1 , y1) , (x2 , y2)… (xn , yn).
Nube de puntos (Diagrama de Dispersión)
8. Julia A. Ramón O.
Nube de puntos (Diagrama de Dispersión)
9. Julia A. Ramón O.
Nube de puntos (Diagrama de Dispersión)
10. Julia A. Ramón O.
4. COVARIANZA
La covarianza de n valores (x1,y1), (x2,y2), …, (xn,yn) de una
variable bidimensional (X,Y) es el número Cov(X,Y) o SXY que se
define igual a la media aritmética de los productos de las
desviaciones de los datos con respecto a sus correspondientes
medias )
,
( Y
X
Y
X
n
y
x
n
y
y
x
x
n
i
i
i
n
i
i
i
XY
S −
=
−
−
=
=
= 1
1
)
)(
(
La covarianza a diferencia de la varianza puede ser negativa.
De los valores de la tabla anterior.
En general:
En una muestra
12. Julia A. Ramón O.
5. Calcular un coeficiente de correlación lineal r a partir de la
muestra, como aproximación de la verdadera relación lineal ρ
(rho) entre las variables.
1
1
− r
−
−
−
=
=
=
=
=
= =
2
1
1
2
2
1
1
2
1 1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
n
i
n
i
i
i
i
y
y
n
x
x
n
y
x
y
x
n
r
13. Julia A. Ramón O.
=
n
i
i
x
1
=
n
i
i
y
1
=
n
i
i
x
1
2
2
1
)
(
=
n
i
i
x
Donde:
.n: es el número de pares de observaciones.
Suma de los n valores de la variable X.
Suma de los n valores de la variable Y.
Suma de los valores de la variable X al cuadrado.
Cuadrado de la suma de los valores de la variable X.
14. Julia A. Ramón O.
Interpretación:
1. El valor absoluto de r indica la fuerza de la relación entre Y y X.
2. El signo la dirección de la relación (directa o inversamente
proporcional)
Dando mejor precisión a las interpretaciones, podemos señalar:
Si 0 rxy < 0,20, existe una correlación positiva o directa muy baja,
Si 0,20 rxy < 0,40, existe una correlación positiva y baja,
Si 0,40 rxy < 0,70, existe una correlación positiva moderada,
Si 0,70 rxy < 1,00, existe una correlación positiva intensa o muy buena.
Si r = 1, existe una correlación perfecta positiva.
Si −0,20 rxy < 0, existe una correlación negativa o inversa muy baja,
Si −0,40 rxy < −0,20, existe una correlación negativa o inversa baja,
Si −0,70 rxy < −0,40, existe una correlación negativa o inversa moderada,
Si −1,00< rxy<−0,70, existe una correlación negativa intensa, fuerte o muy buena,
Si rxy = −1, existe una correlación negativa perfecta.
16. Julia A. Ramón O.
1. La tabla muestra los progresos, al transcurrir las semanas, en la velocidad de
lectura (palabras por minuto) de los estudiantes en un programa veloz.
semanas 2 3 4 5 6 7 8 9
Velocidad 40 60 80 100 110 150 190 220
Elabore el diagrama de Dispersión
Halle la covarianza interprete
Halle el coeficiente de correlación e interprete.
17. Julia A. Ramón O.
Qué es el análisis de
regresión lineal ?
Es modelar la dependencia de la
variable Y de la variable X a través
de una recta
18. Julia A. Ramón O.
Los coeficientes a y b se obtienen mediante las expresiones
Aplicamos Minitab para realizar el Análisis de Regresión
Minitab
Correlation/Regresión
Regresión Análisis
Y marcamos en la nueva ventana las
opciones que aparecen en la pantalla
siguiente que nos mostrarán todas las
salidas que son de nuestro interés para el
análisis de regresión
n
x
b
n
y
a
n
i
i
n
i
i
=
=
−
= 1
1
X
b
Y
a −
=
2
1
1
2
1 1
−
−
=
=
=
= =
n
i
i
n
i
i
n
i
n
i
n
i
i
i
i
x
x
n
y
x
y
x
n
b
ó
Ecuación de la recta Y = a + b.x
19. Julia A. Ramón O.
EJEMPLO. En la tabla se resume las llamadas telefónicas de
invitación y número de asistentes captados al evento académico
de 10 integrantes del comité organizador:
Organiza
dor
A B C D E F G H I J
Llamadas
: X
10 20 10 15 25 12 10 18 10 15
Asistente
s: Y
6 15 8 11 20 10 2 15 10 12
a) Dibuje el diagrama de dispersión.
b) Determine la ecuación de la línea de regresión para pronosticar
Y el número de asistentes al evento.
c) Estime el número de asistentes que se podrían captar al efectuar
28 llamadas de invitación.
i
xi
y2
i
x2
i
y i
y
x .
1
20. Julia A. Ramón O.
b) La ecuación de la recta de regresión, es: Y = −2,03 + 0,89X.
c) Al realizar 28 llamadas telefónicas, según la ecuación obtenida:
Y’ = −2,03 + (0,89)(28) = −2,03 + 24,92 = 22,89 23.
a) Dibuje el diagrama de dispersión.
21. Julia A. Ramón O.
b. Cálculo del Coeficiente de Determinación
Mide el poder explicativo del modelo de regresión, es
decir, la parte de la variación de Y explicada por la
variación de X
El valor de r2 ha de estar entre 0 y 1, si r2 = 0,70 significa
que el 70% de la variación de Y está explicada por las
variaciones de X. Es evidente que cuanto mayor sea r2,
mayor poder explicativo tendrá nuestro modelo.
22. Julia A. Ramón O.
El valor 1 − r2 se llama el coeficiente de alineación, e
indica el porcentaje de variaciones observadas que son
explicadas por el modelo.
Para el ejemplo anterior el coeficiente de determinación
sería: r2 = (0,874)2 = 0,764, y su coeficiente de
alineación es: 1 – r2 = 1 – 0,764= 0,236 = 23,6%.
Para el siguiente ejemplo: r2 = (−0,603)2 = 0,364, y
su coeficiente de alineación: 1 – r2 = 1 – 0,364 = 0,636
= 63,6%
23. REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14
niños, y estamos interesados en determinar si existe algún tipo de
relación entre la talla del niño y su edad.
niño edad (meses) talla (cm)
i xi yi
1 3 55
2 6 68
3 5 64
4 5 66
5 3 62
6 4 65
7 9 74
8 8 75
9 9 73
10 7 69
11 6 73
12 5 68
13 8 73
14 6 71
Datos Cuantitativos
24. REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños,
y estamos interesados en determinar si existe algún tipo de relación entre la
talla del niño y su edad.
Interpretación de los resultados
- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresión lineal simple, se tiene que la talla
media de un niño es de 53,64 cm. Cuando la edad del niño (meses) aumenta en
una unidad la talla se incrementa en 2,44 cm.
Datos Cuantitativos
25. 6. COEFICIENTE DE CORRELACIÓN DE SPEARMAN
Lo que tenemos ahora son 2 sucesiones de valores ordinales.
El coeficiente de Spearman es un caso especial del coeficiente de
correlación de Pearson aplicada a dos series de los n primeros
números naturales (cuando no hay empates; si hay –muchos-
empates hay otra fórmula
( )
2
1
2
6
1
1
n
i
i
s
d
r
n n
=
= −
−
i
d es la diferencia entre el valor ordinal en X y el
valor ordinal en Y del sujeto i
26. Coeficiente de correlación de Spearman (propiedades)
Primera. Se encuentra acotado, como el coeficiente de
Pearson entre -1 y +1.
Un coeficiente de Spearman de +1 quiere decir que el que
es primero en X es primero en Y, el que es segundo en X es
segundo en Y, etc
Un coeficiente de Sperman de -1 quiere decir que el que es
primero en X es último en Y, el segundo en X es el
penúltimo en Y, etc.
Segunda. Su cálculo es muy sencillo (más que el del
coeficiente de correlación de Pearson). No obstante, con los
ordenadores y un programa estadístico, esto es irrelevante
estos días...
27. Coeficiente de correlación de rangos de Spearman
◼ Estadígrafo no paramétrico, no requiere que las
observaciones hayan sido tomadas desde una población
con distribución normal.
centímetros gramos
31 7.7
32 8.3
33 7.6
34 9.1
35 9.6
35 9.9
40 11.8
41 12.2
42 14.8
46 15.0
Relación entre estatura y peso
6
8
10
12
14
16
30 35 40 45 50
estatura (cm)
peso
(grs)
◼ Los valores de ambas variables se ordenan en orden creciente (o
decreciente), tomando en cuenta los signos de los valores.
◼ A continuación se puede calcular la correlación de Pearson entre los
rangos y no las observaciones.
29. Ejemplo
En un estudio de la relación entre el nivel de educación e
ingreso, se obtuvieron los siguientes datos. Encuentre
la relación entre ellos y comente.
Ingreso
(Y)
Nivel de educación
(X)
Números
de la
muestra
25
Secundaria
A
10
Primaria
B
8
Universidad
C
10
Instituto
D
15
Instituto
E
50
Analfabeta
F
60
Universidad
G
33. J. Vilchez
EJERCICIO
1.Se seleccionaron al azar las siguientes observaciones muestrales:
X: 10 6 12 6 8 8 12 16
Y: 26 30 14 24 26 22 18 10
a) Determine la ecuación de regresión
b) Obtenga el valor de Y cuando X es 14
2.Las estaturas X en pulgadas, y los pesos Y, en libras, para ocho
atletas son los siguientes::
Estatura (X): 70 67 69 74 72 75 73 70
Peso (Y) : 173 163 195 196 167 220 191 175
Determine el coeficiente de correlación de Pearson r, y el coeficiente
de determinación.
3.El cuadro muestra datos que explica el rendimiento de 10
estudiantes:
Nota (Y): 12, 14, 15, 11, 16, 17, 10, 8, 18, 19
Hrs de estudio (X): 1, 3, 5, 4, 5, 4,1, 2, 5, 6
Determine coeficiente de correlación de Pearson r, y la ecuación de
regresión.
34. J. Vilchez
Los siguientes datos corresponden a 10 ciudades seleccionados
aleatoriamente. ¿Qué tipo y nivel de relación existe entre el nivel educativo
medio de los padres de una ciudad y el nivel de desnutrición por cada 100
habitantes de la misma?
Porcentaje de
niños
desnutridos
Nível medio
educativo
2,3 11,7
1,5 12,2
2,1 11,3
2,3 11,1
1,4 12,2
1,9 12,0
1,6 12,3
1,7 12,4
1,5 12,5
1,7 11,6
a) Dibuje el diagrama de
dispersión.
b) Encuentre la ecuación de la
línea de regresión para
pronosticar los calificativos del
curso a partir de la prueba de
ubicación.
c) Grafique la línea de ajuste del
diagrama de dispersión.
EJERCICIO
35. J. Vilchez
Los siguientes datos ficticios corresponden a un estudio de niños de 10 años de edad, así
como de sus madres. Determine si existe una relación entre los pesos de la madre, y el
peso del niño. Para los datos que se muestran realice lo siguiente:
a. Traza el diagrama de dispersión del peso del niño regresionado a partir del peso de la
madre.
b. Calcule el coeficiente de correlación de Pearson y la ecuación de la línea de regresión.
c. Lleva a cabo la prueba de hipótesis de que existe una relación entre estas dos variables y
aborda los aspectos adecuados de la relación.
d. Halle la ecuación de regresión de la caloría versus (peso del hijo y el tiempo de ejercicios
que realiza)
Niño Calorías
diarias
Peso de la
madre (kg)
Peso del
hijo (kg)
Ejercicios
diarios (min)
1 2,206 55 30 24
2 2,246 75 34 23
3 2,211 45 27 23
4 2,203 85 40 22
5 2,229 120 38 22
6 2,223 53 32 23
7 2,241 70 35 24
8 2,233 80 37 24
9 2,219 65 29 22
EJERCICIO
36. Julia A. Ramón O.
1. Un grupo de 8 niños menores de 6 años se sometieron a una evaluación en el
“Control de niño sano” donde se evaluaron su edad y peso:
Edad: 2, 1, 3, 4, 5, 4, 5, 2, 3,
Peso: 14, 12, 15, 18, 19, 20, 23, 16 15
a) Dibuje el diagrama de dispersión
b) Determine el coeficiente de correlación de Pearson entre la edad y el peso
c) Interprete el coeficiente calculado.
2. A continuación se resume el tamaño de un lote producido y las horas hombre
utilizado para ello:
Tamaño de lote producido: 30, 20, 60, 80, 40, 55, 44
Horas hombre utilizado: 35, 25, 65, 80, 45, 65, 77
a) Dibuje el diagrama de dispersión
b) Determine el coeficiente de correlación de Pearson entre la edad y el peso
c) Interprete el coeficiente calculado.
37. Julia A. Ramón O.
4. Se seleccionaron al azar las siguientes observaciones muestrales:
X: 10 6 12 6 8 8 12 16
Y: 26 30 14 24 26 22 18 10
a) Determine la ecuación de regresión
b) Obtenga el valor de Y cuando X es 14
5. Las estaturas X en pulgadas, y los pesos Y, en libras, para ocho atletas son los
siguientes::
Estatura (X): 70 67 69 74 72 75 73 70
Peso (Y) : 173 163 195 196 167 220 191 175
Determine el coeficiente de correlación de Pearson r, y el coeficiente de
determinación.
3. A continuación se resume dosis de fertilizante suministrado y las hectáreas de
cultivo producidas:
Dosis de fertilizante (kilogramo): 17 18 20 22 15 14 12
Rendimiento de cultivo (hectárea): 1,5 0,8 1,2 3,0 2,5 2,0 1,25
a) Dibuje el diagrama de dispersión
b) ¿Cuál sería el rendimiento del cultivo para una dosis de 25 kg?