SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
1
TEMA 5. REGRESIÓN Y CORRELACIÓN
a) Introducción
Después de estudiar cómo organizar, representar gráficamente y analizar un conjunto de
datos a partir de algunos parámetros, nos proponemos a estudiar las relaciones entre
variables. Por ejemplo, podemos determinar si existe alguna relación entre la variables
peso y altura de un conjunto de personas, producción y consumo, ingresos y gastos,
horas y accidentes de trabajo, horas de estudio y rendimiento académico, etc. También es
necesario establecer si en realidad existe relación entre ellas, procedimiento que lo
denominaremos como análisis de regresión y correlación, para poder estimar una de ellas
en función de la otra.
Pretendemos estudiar una situación muy usual y por tanto de gran interés en la práctica:
Si Y es una variable definida sobre la misma población que X, ¿será posible determinar si
existe alguna relación entre las variables X y de Y.
Diagrama de dispersión o nube de puntos.
También se analizara el coeficiente de correlación y la regresión lineal simple como
las dos técnicas estadísticas más utilizadas para investigar la relación entre dos
variables continuas X e Y.
Gráficamente el diagrama de dispersión o nube de puntos permite obtener información
sobre el tipo de relación existente entre X e Y, además de ayudarnos a detectar posibles
valores atípicos o extremos.
En el diagrama de dispersión de la figura ya presentada y se tienen representadas las
alturas y los pesos de 30 individuos. Vemos como a medida que aumenta la variable
X=”altura” va aumentando la variable Y=”peso”.
2
Aparentemente, el peso aumenta 10 Kg por cada 10 cm de altura, es decir, el peso
aumenta en una unidad por cada unidad de altura. Asimismo, el diagrama de dispersión
se obtiene representando cada observación (Xi, Yi) como un punto en el plano cartesiano
XY.
Las técnicas de correlación y las de regresión están estrechamente relacionadas, aunque
obedecen a estrategias de análisis un tanto diferentes.
La relación que puede existir entre dos variables, las podemos clasificar de la siguiente
manera:
 Dependencia causal unilateral. Esta relación se da cuando una de las variables
influye en la otra, pero no al contrario.
 Interdependencia. Se presenta cuando la influencia entre las dos variables es
recíproca. Sería un caso de dependencia bilateral.
 Dependencia indirecta. Dos variables pueden mostrar una correlación a través
de una tercera variable que influye en ellas.
 Concordancia. Se presenta en dos variables independientes a las cuales se les
determina la correlación que puede existir.
 Covariación casual. Cuando la correlación que se presenta entre las dos
variables es totalmente casual o accidental.
Por un lado, el coeficiente de correlación determina el grado de asociación lineal entre
X e Y, sin establecer a priori ninguna direccionalidad en la relación entre ambas variables.
Por el contrario, la regresión lineal simple permite cuantificar el cambio en el nivel medio
de la variable Y conforme cambia la variable X, asumiendo implícitamente que X es la
variable explicativa o independiente e Y es la variable respuesta o dependiente.
3
b) Regresión y correlación lineal
Correlación
La finalidad de la correlación es examinar la dirección y la fuerza de la asociación entre
dos variables cuantitativas. Así conoceremos la intensidad de la relación entre ellas y si, al
aumentar el valor de una variable, aumenta o disminuye el valor de la otra variable.
Para valorar la asociación entre dos variables, la primera aproximación suele hacerse
mediante un diagrama de dispersión.
En el diagrama de dispersión de la figura que antecede parece existir una relación lineal
entre el peso y la estatura. Además, si nos fijamos parece que existe un dato atípico que
se aleja de la nube de puntos.
Con la nube de puntos podemos apreciar si existe o no una tendencia entre las dos
variables, pero si queremos cuantificar esta asociación debemos calcular un coeficiente
de correlación.
El coeficiente de correlación de Pearson evalúa específicamente la adecuación a la recta
lineal que defina la relación entre dos variables cuantitativas. El coeficiente no paramétrico
de Spearman mide cualquier tipo de asociación, no necesariamente lineal.
El análisis de correlación busca establecer esencialmente tres cosas:
1) Presencia o ausencia de correlación. Dadas dos o más variables, si existe o no
correlación entre ellas.
2) Tipo de correlación. En caso de existir correlación, si esta correlación es directa o
inversa. En la correlación directa, ambas variables aumentan (o disminuyen)
concomitantemente, y en la correlación inversa ambas variables varían inversamente, o
también puede decirse "en relación inversamente proporcional", lo que significa que
cuando una aumenta la otra disminuye, o viceversa (2). En el siguiente esquema se
muestran algunos ejemplos de correlación directa e inversa.
4
Tipos de correlación
Tipo Definición Ejemplos
Correlación
directa o
positiva
Ambas variables
aumentan (o disminuyen)
en forma concomitante.
Cociente intelectual/calificación: A mayor CI, mayor
calificación obtenida en el examen.
Tiempo/retención: A mayor tiempo para memorizar,
mayor cantidad de palabras retenidas.
Test laboral/rendimiento futuro: A mayor puntaje en
un test de aptitud técnica, mayor rendimiento en
dicha área dentro de x años (esto es también un
modo de estimar la validez predictiva de un test).
Correlación
inversa o
negativa
Una variable aumenta y la
otra disminuye (o
viceversa) en forma
concomitante.
Edad/memoria: Al aumentar la edad, disminuye la
memoria.
Numero de ensayos/cantidad de errores: Al
aumentar el número de ensayos, disminuye la
cantidad de errores.
Cansancio/atención: Al aumentar el cansancio
disminuye la atención.
3) Grado de correlación. El grado o “intensidad‟ de la correlación, es decir, “cuánta‟
correlación tienen en términos numéricos.
Para hacer todas estas averiguaciones, se puede recurrir a tres procedimientos.
a) El método tabular. Una correlación podría constatarse a simple visualización de
tablas de correlación como las indicadas anteriormente, pero habitualmente las
cosas no son tan fáciles, sobre todo porque hay bastante mayor cantidad de datos,
y porque estos casi nunca registran los mismos incrementos para ambas
variables. Por lo tanto, debe abandonarse la simple visualización de las tablas y
utilizar procedimientos más confiables, como los gráficos (diagramas de dispersión
o dispersiogramas) y los analíticos (por ejemplo el coeficiente de Pearson).
b) El método gráfico. Consiste en trazar un diagrama de dispersión.
Diferentes diagramas de dispersión.
5
c) El método analítico. Consiste en aplicar una fórmula que permita conocer no sólo
el tipo de correlación (directa o inversa) sino también una medida cuantitativa
precisa del grado de correlación. La fórmula del coeficiente de Pearson es un
ejemplo típico para medir correlación entre variables cuantitativas.
Si se desea medir o cuantificar el grado de asociación entre dos variables cuantitativas
se debe calcular un coeficiente de correlación (r).
Coeficiente de correlación lineal
El coeficiente de correlación lineal de Pearson (r) mide la fuerza de asociación lineal
con que dos variables aleatorias están ligadas (linealmente). Esta fuerza es medida por el
coeficiente de correlación lineal poblacional (ρ). El coeficiente de correlación lineal
poblacional es adimensional (no depende de las unidades de medida) y puede tomar
valores en el intervalo [−1 a +1]. Para interpretar el coeficiente de correlación lineal
debemos interpretar por separado su magnitud y su signo:
Su signo indica el sentido de la asociación:
 ρ > 0 ⇒ Asociación positiva. Al aumentar los valores de una de las variables
aumentan los valores de la otra.
 ρ < 0 ⇒ Asociación negativa. Al aumentar los valores de una de las variables
disminuyen los valores de la otra.
Su magnitud indica la fuerza de la asociación:
 ρ cercano a 0 ⇒ Independencia lineal o falta de asociación lineal.
 ρ cercano a 1 o -1 ⇒ Fuerte asociación lineal.
El coeficiente de correlación de la muestra, simbolizada por r, es un estadístico que mide el
grado de asociación entre dos variables.
6
Matemáticamente se define como:
∑
√ ∑ ̅
̅̅̅ ∑
∑
√∑ ∑
∑
∑ ∑
√ ∑
∑
∑
∑
El coeficiente de Pearson o correlación es un número comprendido entre -1 y +1, y que
posee un determinado signo (positivo o negativo). El valor numérico indica „cuanta‟
correlación hay, mientras que el signo indica que “tipo‟ de correlación es (directa si el
signo es positivo, inversa si es negativo). En el siguiente esquema se muestran algunos
posibles valores de “r”.
Ejemplo:
Se tiene datos de la edad en semanas y peso promedio en kilogramos de un conjunto de
cerdos, en una granja, determinar el coeficiente de correlación.
X
Edad
(Semanas)
Y
Peso Promedio
(Kilogramos)
X2
Y2
XY Ye
8
10
12
14
16
18
20
22
17.97
24.56
31.15
35.07
49.45
59.72
68.80
76.22
64
100
144
196
256
324
400
484
322.9209
603.1936
970.3225
1229.9049
2445.3025
3566.3784
4733.4400
5809.4884
143.76
245.60
373.80
490.98
791.20
1074.96
1376.00
1676.84
16.76
24.85
32.95
41.04
49.14
57.23
65.32
73.42
7
24
26
28
86.77
89.03
90.78
576
676
784
7522.0329
7926.3409
8241.0084
2082.48
2314.78
2541.84
81.51
89.60
97.70
198 629.52 4004 43377.4334 13112.24 629.52
√
Diagrama de dispersión de los datos de edad y peso.
En efecto, su interpretación depende de varios factores, como por ejemplo: a) la
naturaleza de las variables que se correlacionan; b) la significación del coeficiente; c) la
variabilidad del grupo; d) los coeficientes de confiabilidad de los tests; e) el propósito para
el cual se calcula r.
Matriz de correlaciones, en muchas investigaciones se estudian muchas variables, y se
intenta cuantificar mediante el coeficiente „r‟ sus relaciones dos a dos, es decir, las
relaciones de cada variable con cada una de las demás (Botella, 1993:202). A los efectos
de comparar estos diferentes valores de „r‟ se traza una matriz de correlación, que puede
tener la siguiente forma:
Variable X Variable Y Variable W Variable Z
Variable X r= -0.17 r = -0.11 r = -0.30
Variable Y r = +0.46 r = +0.17
Variable W r = +0.10
Variable Z
8
La matriz permite visualizar inmediatamente, entre otras cosas, cuáles son los
coeficientes de correlación más altos (en este caso, entre Y y W).
Coeficiente de determinación
El conocimiento del coeficiente de correlación, como se ha expresado, sirve para indicar el
grado de asociación de dos variables, pero no ofrece información alguna de la influencia
que tiene una variable sobre otra. Para este propósito, r2
el coeficiente de determinación es
más fácil de calcular a partir de un análisis de regresión.
Por tanto, el coeficiente de determinación r2
es la relación que existe entre la suma de
cuadrados de la regresión y la suma de cuadrados de Y.
El coeficiente de determinación puede interpretarse como un indicador de la proporción en
la variabilidad total de Y que se debe al efecto de la variable X. multiplicando el valor de r2
por cien, la proporción se convierte en un porcentaje.
Para el ejemplo anterior tenemos:
100* r2
= 100*(0.99)2
= 98%
Nos indica que el 98% de la variación en el peso de los cerdos se debe a la relación lineal
que existe entre el peso y la edad de los animales, y que la diferencia se debe a factores
propios del azar, comúnmente involucrados como “error experimental”.
Pruebas de significación
Una de las hipótesis más utilizadas en correlación es la que supone que el coeficiente de
correlación es igual a cero; esto es Ho: ρ = 0.
Uso de las distribuciones F y t
Se sabe que F es igual a:
=
Al usar F puede expresarse en términos de r y n como:
9
Pudiéndose por consiguiente, usar F con 1 y n-2 grados de libertad para probar esta
hipótesis. Pero cuando F tiene 1 y ν grados de libertad, F = t2
; por lo tanto
√
√
Sigue la distribución t de “Student” con n-2 grados de libertad, pudiéndose usar como una
prueba análoga a la de F.
Por la relación existente entre y F, la prueba de significación para r es equivalente a la
prueba para b. si una es significativa, la otra debe serlo también y viceversa. En la práctica,
la prueba de significación de r no tiene mucha importancia, basta solamente con realizarla
para b, y es más bien de mayor utilidad 100r2
que es un buen indicador de la bondad de
ajuste.
Análisis de Regresión
La regresión está dirigida a describir como es la relación entre dos variables X e Y, de
tal manera que incluso se pueden hacer predicciones sobre los valores de la variable Y,
a partir de los de X. Cuando la asociación entre ambas variables es fuerte la regresión
nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas.
La regresión supone que hay una variable fija, controlada por el investigador (es la
variable independiente o predictora), y otra que no está controlada (variable respuesta o
dependiente). La correlación supone que ninguna es fija: las dos variables están fuera del
control de investigador.
La regresión es su forma más sencilla se llama regresión lineal simple. Se trata de una
técnica estadística que analiza la relación entre dos variables cuantitativas, tratando de
verificar si dicha relación es lineal.
Si tenemos dos variables hablamos de regresión simple, si hay más de dos variables
regresión múltiple.
Su objetivo es explicar el comportamiento de una variable Y, que denominaremos
variable explicada (o dependiente o endógena), a partir de otra variable X, que
llamaremos variable explicativa (o independiente o exógena).
10
Mediante las técnicas de regresión inventamos una variable Ŷ como función de otra
variable X (o viceversa).
El criterio para construir esta función es que la diferencia entre Y e Ŷ, denominada error
o residuo, sea pequeña.
Ŷ = f(x), Y- Ŷ = error
Los residuos o errores ei son las diferencias entre los valores observados (verdadero
valor de Y) y los valores pronosticados por el modelo: ei =Y-Ŷ. Recogen la parte de la
variable Y que no es explicada por el modelo de regresión.
A partir de la definición de residuo, podemos escribir Y = f(X) + error.
El término que hemos denominado error debe ser tan pequeño como sea posible. El
objetivo será buscar la función (modelo de regresión) Ŷ = f(X) que lo minimice.
Una vez que se cuenta con un determinado conjunto de pares de valores obtenidos de la
realidad, puede determinarse la ecuación de la recta que los representan por dos
métodos: el método de los cuadrados mínimos, y el método de las desviaciones.
Antes de examinarlos, debe tenerse presente que la forma general de una ecuación de
una recta es:
y = a + bx
Determinar la ecuación de la recta significa asignarle un valor al parámetro “a‟ y otro
valor al parámetro “b‟. Los métodos indicados tienen como fin determinar el valor de
ambos parámetros.
En la ecuación anterior se encuentra cuatro componentes:
 Ŷ es la variable que se va a estimar en función de otra variable (X) supuestamente
conocida. Se le denomina también como variable dependiente, explicada o
predictando.
 X es la variable cuyo valor que supuestamente se conoce. Se le denomina variable
independiente, predictor o explicativa.
 b=B=β es la pendiente, la que nos determina el ángulo de inclinación de la recta.
Denominada también coeficiente angular, que nos permite cuantificar la cantidad
que aumenta o decrece Ŷ, por cada valor que toma la variable independiente (X) o
explicativa.
El coeficiente angular puede ser representado de las siguientes formas:
11
Si b es un valor mayor que 0, es decir, positivo, nos indicara que la recta es ascendente;
si b es menor que 0, la recta será descendente, y si b es igual a 0 será una paralela al eje
horizontal.
Por otra parte, la regresión nos permite establecer los siguientes aspectos:
1. Permite cuantificar la magnitud del cambio de la variable dependiente por cada
unidad de cambio en la variable independiente a través del coeficiente de
regresión.
2. Estimar el valor de variable dependiente en base a los valores establecidos de la
variable independiente a través de la ecuación de regresión.
c) La recta de regresión de mínimos cuadrados
El método de los mínimos cuadrados consiste en buscar los valores de los parámetros
a y b de manera que la suma de los cuadrados de los residuos sea mínima. Esta recta es
la recta de regresión por mínimos cuadrados.
La regresión lineal consiste en encontrar (aproximar) los valores de una variable a partir
de los de otra, usando una relación funcional de tipo lineal, es decir, buscamos valores
para a (ordenada en el origen) y b (pendiente de la recta lineal) tales que se pueda
escribir Ŷ = a+bX, con el menor error posible entre Ŷ e Y.
Para cada valor observado de la variable independiente Xi podemos considerar dos
valores de la variable dependiente, el observado Yi y el estimado a partir de la ecuación
de la recta, Ŷi = a+bXi.
Para cada observación podemos definir el error o residuo como la distancia vertical
entre el punto (xi, yi) y la recta, es decir: yi – (a + bxi).
Las cantidades a y b que minimizan dicho error son los llamados coeficientes de
regresión:
12
Las fórmulas para el cálculo de a y b son las siguientes:
∑
∑ ∑
∑
∑
∑ ∑ ∑
∑ ∑
El coeficiente de regresión (b), indica el monto de cambio en la variable dependiente (Y),
por cada unidad de cambio en la variable independiente X, representa la pendiente de la
recta.
La cantidad b se denomina “coeficiente de regresión de Y sobre X”.
Intercepto (a), indica el punto donde la recta de regresión cruza al eje Y.
∑ ∑
a = ȳ - bX
Interpretación de la ordenada en el origen a:
Este parámetro representa la estimación del valor de Y cuando X es igual a cero.
Interpretación de la pendiente de la recta b:
El coeficiente de regresión es muy importante, porque mide el cambio de la variable Y
por cada unidad de cambio de X. Este parámetro nos informa de cómo están
relacionadas las dos variables en el sentido de que nos indica en qué cantidad (y si es
positiva o negativa) varían los valores de Y cuando varían los valores de la X en una
unidad. De hecho el coeficiente de regresión b y el coeficiente de correlación r siempre
tendrán el mismo signo.
 Si b > 0, cada aumento de X se corresponde con un aumento de Y;
 Si b < 0, Y decrece a medida que aumenta X.
13
El método de los mínimos cuadrados consiste en buscar los valores de los parámetros
a y b de manera que la suma de los cuadrados de los residuos sea mínima. Esta recta es
la recta de regresión por mínimos cuadrados.
Ejemplo:
En un estudio de relación entre la publicidad por radio y las ventas de un producto,
durante 10 semanas se han recopilado los tiempos de duración en minutos de la
publicidad por semana (X), y el número de artículos vendidos (Y), resultando:
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad X 20 30 30 40 50 60 60 60 70 80
Ventas Y 50 73 69 87 108 128 135 132 148 170
a) Trazar el diagrama de dispersión, e indicar la tendencia.
b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las
ventas:
c) Estimar la venta si en una semana se hacen 100 minutos de propaganda.
d) Calcular el coeficiente de correlación.
a) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuánto
se estima que incrementen las ventas?.
Solución:
a) Trazamos el diagrama de dispersión y vemos que hay una relación lineal positiva
entre el número de artículos vendidos y el tiempo de publicidad semanal realizada
por radio.
b) Determinamos la recta de regresión de mínimos cuadrados a partir de los
planteados, es decir, a y b.
De los datos propuestos tenemos:
14
n = 10 ƩX = 500 ƩY = 1100 ƩXY = 61800
ƩX2
=28400 ƩY2
= 134660 X = 500/10 = 50 ȳ = 1100/10 = 110
X Y XY X2
Y2
20
30
30
40
50
60
60
60
70
80
50
73
69
87
108
128
135
132
148
170
1000
2190
2070
3480
5400
7680
8100
7920
10360
13600
400
900
900
1600
2500
3600
3600
3600
4900
6400
2500
5329
4761
7569
11664
16384
18225
17424
21904
28900
500 1100 61800 28400 134660
Una forma de calcular b es:
∑ ∑ ∑
∑ ∑
La otra forma de calcular b es:
∑
∑
Además, a = ȳ - bX = 110 – 2(50) = 10
Por tanto, la recta de regresión es: Y = 10 + 2X
También utilizando Y - ȳ = b(X – X), se tiene:
Y – 110 = 2(X – 50) ò Y = 10 + 2X
c) Si X1 = 100, ȳ = 10+2(100) = 210. No se tiene por el momento un criterio para
concluir que este pronóstico es confiable.
d) El coeficiente de correlación es:
15
Es altamente positivo. Es un primer criterio para analizar la validez de la predicción.
e) Si en la novena semana se incrementa el tiempo de propaganda en 5 minutos,
entonces, la venta se incrementa en promedio 5*2 = 10 unidades.
Ejemplo:
Utilizando los datos del ejemplo anterior, calcular el intercepto, el coeficiente de regresión,
la ecuación, los valores de Ye y la línea de regresión.
X
Edad
(Semanas)
Y
Peso Promedio
(Kilogramos)
X2
Y2
XY Ye
8
10
12
14
16
18
20
22
24
26
28
17.97
24.56
31.15
35.07
49.45
59.72
68.80
76.22
86.77
89.03
90.78
64
100
144
196
256
324
400
484
576
676
784
322.9209
603.1936
970.3225
1229.9049
2445.3025
3566.3784
4733.4400
5809.4884
7522.0329
7926.3409
8241.0084
143.76
245.60
373.80
490.98
791.20
1074.96
1376.00
1676.84
2082.48
2314.78
2541.84
16.76
24.85
32.95
41.04
49.14
57.23
65.32
73.42
81.51
89.60
97.70
198 629.52 4004 43377.4334 13112.24 629.52
Aplicando la siguiente formula encontrar b:
∑
∑ ∑
∑
∑
Este valor significa que a partir de la octava semana, el peso del cerdo incrementa en
4.047 kilogramos semanalmente.
Conocido b, el intercepto se calcula con la fórmula:
∑ ∑
Usando los valores de a y b, la ecuación de regresión será la siguiente
16
Ye = - 15.617 + 4.047X
La ecuación de regresión sirve para encontrar los valores de Ye que corresponde a cada
valor de X, obteniéndose la línea de mejor ajuste. Al reemplazar el valor de X en la
ecuación de Ye, se obtienen los valores de Ye, los cuales aparecen en la última columna
de la tabla.
Si tomamos los puntos extremos de X, y se ubican en un sistema de ejes coordinados los
lugares geométricos correspondientes a esos puntos (8, 16.76) y (28, 97.70), y uniendo
estos puntos mediante una recta se tendrá la línea de regresión que corresponde a los
datos del ejemplo.

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

8.medidas de forma
8.medidas de forma8.medidas de forma
8.medidas de forma
 
Tipos de gráficos segun variable
Tipos de gráficos segun variableTipos de gráficos segun variable
Tipos de gráficos segun variable
 
Estadística general
Estadística generalEstadística general
Estadística general
 
Mapas estadistica 3 corte
Mapas estadistica 3 corteMapas estadistica 3 corte
Mapas estadistica 3 corte
 
2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis
 
regresion lineal simple
regresion lineal simpleregresion lineal simple
regresion lineal simple
 
Coeficiente de correlacion de pearson
Coeficiente de correlacion de pearsonCoeficiente de correlacion de pearson
Coeficiente de correlacion de pearson
 
Sesgo
SesgoSesgo
Sesgo
 
18. Regresión Lineal
18. Regresión Lineal18. Regresión Lineal
18. Regresión Lineal
 
Distribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficasDistribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficas
 
Correlacion de pearson
Correlacion de pearsonCorrelacion de pearson
Correlacion de pearson
 
Análisis de Regresión Múltiple
Análisis de Regresión MúltipleAnálisis de Regresión Múltiple
Análisis de Regresión Múltiple
 
Números indice estadística descriptiva
Números indice estadística  descriptivaNúmeros indice estadística  descriptiva
Números indice estadística descriptiva
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Diseño factorial general ejemplos
Diseño factorial general ejemplosDiseño factorial general ejemplos
Diseño factorial general ejemplos
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Estadistica 1
Estadistica 1Estadistica 1
Estadistica 1
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Pruebas parametricas
Pruebas parametricasPruebas parametricas
Pruebas parametricas
 
Analisis De Regresion Y Correlacion
Analisis De Regresion Y CorrelacionAnalisis De Regresion Y Correlacion
Analisis De Regresion Y Correlacion
 

Similar a 5 regresion y correlacion

PPT-Correlación-PROB.-Y-EST.pptx
PPT-Correlación-PROB.-Y-EST.pptxPPT-Correlación-PROB.-Y-EST.pptx
PPT-Correlación-PROB.-Y-EST.pptxJessAnzaldo
 
correlacion (estadistica)
correlacion (estadistica) correlacion (estadistica)
correlacion (estadistica) neomarsalazar
 
correlacion (estadistica)
correlacion (estadistica) correlacion (estadistica)
correlacion (estadistica) neomarsalazar
 
Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.gaby castillo
 
los coeficientes de correlación de Pearson y de Sperman
los coeficientes de correlación de Pearson y de Spermanlos coeficientes de correlación de Pearson y de Sperman
los coeficientes de correlación de Pearson y de Spermangaby castillo
 
Correlacion de pearson y spearman
Correlacion de pearson y spearman Correlacion de pearson y spearman
Correlacion de pearson y spearman Servicio Apoyo SAIA
 
Correlacion de Pearson
Correlacion de PearsonCorrelacion de Pearson
Correlacion de PearsonValentina
 
Coeficientes de correlación de pearson y de sperman
Coeficientes de correlación de pearson y de spermanCoeficientes de correlación de pearson y de sperman
Coeficientes de correlación de pearson y de spermandavinson garcia
 
MEDIDAS BIVALENTES en la CORRELACIÓN.pdf
MEDIDAS BIVALENTES en la CORRELACIÓN.pdfMEDIDAS BIVALENTES en la CORRELACIÓN.pdf
MEDIDAS BIVALENTES en la CORRELACIÓN.pdfusuario703893
 
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptx
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptxANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptx
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptxIanMita
 
Concepto
ConceptoConcepto
ConceptoPPEPPE2
 
Presentacion estadistica
Presentacion estadisticaPresentacion estadistica
Presentacion estadisticaSprox Carballo
 
Coeficiente de Correlacion
Coeficiente de CorrelacionCoeficiente de Correlacion
Coeficiente de Correlacionlmldaniellml
 

Similar a 5 regresion y correlacion (20)

PPT-Correlación-PROB.-Y-EST.pptx
PPT-Correlación-PROB.-Y-EST.pptxPPT-Correlación-PROB.-Y-EST.pptx
PPT-Correlación-PROB.-Y-EST.pptx
 
correlacion (estadistica)
correlacion (estadistica) correlacion (estadistica)
correlacion (estadistica)
 
correlacion (estadistica)
correlacion (estadistica) correlacion (estadistica)
correlacion (estadistica)
 
Presentación4
Presentación4Presentación4
Presentación4
 
Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.
 
los coeficientes de correlación de Pearson y de Sperman
los coeficientes de correlación de Pearson y de Spermanlos coeficientes de correlación de Pearson y de Sperman
los coeficientes de correlación de Pearson y de Sperman
 
Correlación de Person
Correlación de PersonCorrelación de Person
Correlación de Person
 
Seminario x
Seminario xSeminario x
Seminario x
 
Correlacion
CorrelacionCorrelacion
Correlacion
 
Correlacion de pearson y spearman
Correlacion de pearson y spearman Correlacion de pearson y spearman
Correlacion de pearson y spearman
 
Correlacion de Pearson
Correlacion de PearsonCorrelacion de Pearson
Correlacion de Pearson
 
Coeficientes de correlación de pearson y de sperman
Coeficientes de correlación de pearson y de spermanCoeficientes de correlación de pearson y de sperman
Coeficientes de correlación de pearson y de sperman
 
actividad 2.docx
actividad 2.docxactividad 2.docx
actividad 2.docx
 
MEDIDAS BIVALENTES en la CORRELACIÓN.pdf
MEDIDAS BIVALENTES en la CORRELACIÓN.pdfMEDIDAS BIVALENTES en la CORRELACIÓN.pdf
MEDIDAS BIVALENTES en la CORRELACIÓN.pdf
 
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptx
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptxANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptx
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.pptx
 
Seminario 10 de estadísticas
Seminario 10 de estadísticas Seminario 10 de estadísticas
Seminario 10 de estadísticas
 
Regresion estadistica
Regresion estadisticaRegresion estadistica
Regresion estadistica
 
Concepto
ConceptoConcepto
Concepto
 
Presentacion estadistica
Presentacion estadisticaPresentacion estadistica
Presentacion estadistica
 
Coeficiente de Correlacion
Coeficiente de CorrelacionCoeficiente de Correlacion
Coeficiente de Correlacion
 

Último

INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATevercoyla
 
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONALSESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONALEdwinC23
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Dr. Edwin Hernandez
 
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdfFUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdfalfredoivan1
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)Ricardo705519
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTElisaLen4
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxwilliam801689
 
Sistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internaSistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internamengual57
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheElisaLen4
 
Sistemas de Ecuaciones no lineales-1.pptx
Sistemas de Ecuaciones no lineales-1.pptxSistemas de Ecuaciones no lineales-1.pptx
Sistemas de Ecuaciones no lineales-1.pptx170766
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potableFabricioMogroMantill
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...WeslinDarguinHernand
 
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptxCALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptxCarlosGabriel96
 
2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologicaJUDITHYEMELINHUARIPA
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...GuillermoRodriguez239462
 
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOeldermishti
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxfranklingerardoloma
 
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdfDavidTicona31
 
semana-08-clase-transformadores-y-norma-eep.ppt
semana-08-clase-transformadores-y-norma-eep.pptsemana-08-clase-transformadores-y-norma-eep.ppt
semana-08-clase-transformadores-y-norma-eep.pptKelinnRiveraa
 
Libro de ingeniería sobre Tecnología Eléctrica.pdf
Libro de ingeniería sobre Tecnología Eléctrica.pdfLibro de ingeniería sobre Tecnología Eléctrica.pdf
Libro de ingeniería sobre Tecnología Eléctrica.pdfCristinCrdova1
 

Último (20)

INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
 
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONALSESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdfFUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docx
 
Sistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internaSistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión interna
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
 
Sistemas de Ecuaciones no lineales-1.pptx
Sistemas de Ecuaciones no lineales-1.pptxSistemas de Ecuaciones no lineales-1.pptx
Sistemas de Ecuaciones no lineales-1.pptx
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potable
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptxCALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
 
2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
 
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
 
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
 
semana-08-clase-transformadores-y-norma-eep.ppt
semana-08-clase-transformadores-y-norma-eep.pptsemana-08-clase-transformadores-y-norma-eep.ppt
semana-08-clase-transformadores-y-norma-eep.ppt
 
Libro de ingeniería sobre Tecnología Eléctrica.pdf
Libro de ingeniería sobre Tecnología Eléctrica.pdfLibro de ingeniería sobre Tecnología Eléctrica.pdf
Libro de ingeniería sobre Tecnología Eléctrica.pdf
 

5 regresion y correlacion

  • 1. 1 TEMA 5. REGRESIÓN Y CORRELACIÓN a) Introducción Después de estudiar cómo organizar, representar gráficamente y analizar un conjunto de datos a partir de algunos parámetros, nos proponemos a estudiar las relaciones entre variables. Por ejemplo, podemos determinar si existe alguna relación entre la variables peso y altura de un conjunto de personas, producción y consumo, ingresos y gastos, horas y accidentes de trabajo, horas de estudio y rendimiento académico, etc. También es necesario establecer si en realidad existe relación entre ellas, procedimiento que lo denominaremos como análisis de regresión y correlación, para poder estimar una de ellas en función de la otra. Pretendemos estudiar una situación muy usual y por tanto de gran interés en la práctica: Si Y es una variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre las variables X y de Y. Diagrama de dispersión o nube de puntos. También se analizara el coeficiente de correlación y la regresión lineal simple como las dos técnicas estadísticas más utilizadas para investigar la relación entre dos variables continuas X e Y. Gráficamente el diagrama de dispersión o nube de puntos permite obtener información sobre el tipo de relación existente entre X e Y, además de ayudarnos a detectar posibles valores atípicos o extremos. En el diagrama de dispersión de la figura ya presentada y se tienen representadas las alturas y los pesos de 30 individuos. Vemos como a medida que aumenta la variable X=”altura” va aumentando la variable Y=”peso”.
  • 2. 2 Aparentemente, el peso aumenta 10 Kg por cada 10 cm de altura, es decir, el peso aumenta en una unidad por cada unidad de altura. Asimismo, el diagrama de dispersión se obtiene representando cada observación (Xi, Yi) como un punto en el plano cartesiano XY. Las técnicas de correlación y las de regresión están estrechamente relacionadas, aunque obedecen a estrategias de análisis un tanto diferentes. La relación que puede existir entre dos variables, las podemos clasificar de la siguiente manera:  Dependencia causal unilateral. Esta relación se da cuando una de las variables influye en la otra, pero no al contrario.  Interdependencia. Se presenta cuando la influencia entre las dos variables es recíproca. Sería un caso de dependencia bilateral.  Dependencia indirecta. Dos variables pueden mostrar una correlación a través de una tercera variable que influye en ellas.  Concordancia. Se presenta en dos variables independientes a las cuales se les determina la correlación que puede existir.  Covariación casual. Cuando la correlación que se presenta entre las dos variables es totalmente casual o accidental. Por un lado, el coeficiente de correlación determina el grado de asociación lineal entre X e Y, sin establecer a priori ninguna direccionalidad en la relación entre ambas variables. Por el contrario, la regresión lineal simple permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X, asumiendo implícitamente que X es la variable explicativa o independiente e Y es la variable respuesta o dependiente.
  • 3. 3 b) Regresión y correlación lineal Correlación La finalidad de la correlación es examinar la dirección y la fuerza de la asociación entre dos variables cuantitativas. Así conoceremos la intensidad de la relación entre ellas y si, al aumentar el valor de una variable, aumenta o disminuye el valor de la otra variable. Para valorar la asociación entre dos variables, la primera aproximación suele hacerse mediante un diagrama de dispersión. En el diagrama de dispersión de la figura que antecede parece existir una relación lineal entre el peso y la estatura. Además, si nos fijamos parece que existe un dato atípico que se aleja de la nube de puntos. Con la nube de puntos podemos apreciar si existe o no una tendencia entre las dos variables, pero si queremos cuantificar esta asociación debemos calcular un coeficiente de correlación. El coeficiente de correlación de Pearson evalúa específicamente la adecuación a la recta lineal que defina la relación entre dos variables cuantitativas. El coeficiente no paramétrico de Spearman mide cualquier tipo de asociación, no necesariamente lineal. El análisis de correlación busca establecer esencialmente tres cosas: 1) Presencia o ausencia de correlación. Dadas dos o más variables, si existe o no correlación entre ellas. 2) Tipo de correlación. En caso de existir correlación, si esta correlación es directa o inversa. En la correlación directa, ambas variables aumentan (o disminuyen) concomitantemente, y en la correlación inversa ambas variables varían inversamente, o también puede decirse "en relación inversamente proporcional", lo que significa que cuando una aumenta la otra disminuye, o viceversa (2). En el siguiente esquema se muestran algunos ejemplos de correlación directa e inversa.
  • 4. 4 Tipos de correlación Tipo Definición Ejemplos Correlación directa o positiva Ambas variables aumentan (o disminuyen) en forma concomitante. Cociente intelectual/calificación: A mayor CI, mayor calificación obtenida en el examen. Tiempo/retención: A mayor tiempo para memorizar, mayor cantidad de palabras retenidas. Test laboral/rendimiento futuro: A mayor puntaje en un test de aptitud técnica, mayor rendimiento en dicha área dentro de x años (esto es también un modo de estimar la validez predictiva de un test). Correlación inversa o negativa Una variable aumenta y la otra disminuye (o viceversa) en forma concomitante. Edad/memoria: Al aumentar la edad, disminuye la memoria. Numero de ensayos/cantidad de errores: Al aumentar el número de ensayos, disminuye la cantidad de errores. Cansancio/atención: Al aumentar el cansancio disminuye la atención. 3) Grado de correlación. El grado o “intensidad‟ de la correlación, es decir, “cuánta‟ correlación tienen en términos numéricos. Para hacer todas estas averiguaciones, se puede recurrir a tres procedimientos. a) El método tabular. Una correlación podría constatarse a simple visualización de tablas de correlación como las indicadas anteriormente, pero habitualmente las cosas no son tan fáciles, sobre todo porque hay bastante mayor cantidad de datos, y porque estos casi nunca registran los mismos incrementos para ambas variables. Por lo tanto, debe abandonarse la simple visualización de las tablas y utilizar procedimientos más confiables, como los gráficos (diagramas de dispersión o dispersiogramas) y los analíticos (por ejemplo el coeficiente de Pearson). b) El método gráfico. Consiste en trazar un diagrama de dispersión. Diferentes diagramas de dispersión.
  • 5. 5 c) El método analítico. Consiste en aplicar una fórmula que permita conocer no sólo el tipo de correlación (directa o inversa) sino también una medida cuantitativa precisa del grado de correlación. La fórmula del coeficiente de Pearson es un ejemplo típico para medir correlación entre variables cuantitativas. Si se desea medir o cuantificar el grado de asociación entre dos variables cuantitativas se debe calcular un coeficiente de correlación (r). Coeficiente de correlación lineal El coeficiente de correlación lineal de Pearson (r) mide la fuerza de asociación lineal con que dos variables aleatorias están ligadas (linealmente). Esta fuerza es medida por el coeficiente de correlación lineal poblacional (ρ). El coeficiente de correlación lineal poblacional es adimensional (no depende de las unidades de medida) y puede tomar valores en el intervalo [−1 a +1]. Para interpretar el coeficiente de correlación lineal debemos interpretar por separado su magnitud y su signo: Su signo indica el sentido de la asociación:  ρ > 0 ⇒ Asociación positiva. Al aumentar los valores de una de las variables aumentan los valores de la otra.  ρ < 0 ⇒ Asociación negativa. Al aumentar los valores de una de las variables disminuyen los valores de la otra. Su magnitud indica la fuerza de la asociación:  ρ cercano a 0 ⇒ Independencia lineal o falta de asociación lineal.  ρ cercano a 1 o -1 ⇒ Fuerte asociación lineal. El coeficiente de correlación de la muestra, simbolizada por r, es un estadístico que mide el grado de asociación entre dos variables.
  • 6. 6 Matemáticamente se define como: ∑ √ ∑ ̅ ̅̅̅ ∑ ∑ √∑ ∑ ∑ ∑ ∑ √ ∑ ∑ ∑ ∑ El coeficiente de Pearson o correlación es un número comprendido entre -1 y +1, y que posee un determinado signo (positivo o negativo). El valor numérico indica „cuanta‟ correlación hay, mientras que el signo indica que “tipo‟ de correlación es (directa si el signo es positivo, inversa si es negativo). En el siguiente esquema se muestran algunos posibles valores de “r”. Ejemplo: Se tiene datos de la edad en semanas y peso promedio en kilogramos de un conjunto de cerdos, en una granja, determinar el coeficiente de correlación. X Edad (Semanas) Y Peso Promedio (Kilogramos) X2 Y2 XY Ye 8 10 12 14 16 18 20 22 17.97 24.56 31.15 35.07 49.45 59.72 68.80 76.22 64 100 144 196 256 324 400 484 322.9209 603.1936 970.3225 1229.9049 2445.3025 3566.3784 4733.4400 5809.4884 143.76 245.60 373.80 490.98 791.20 1074.96 1376.00 1676.84 16.76 24.85 32.95 41.04 49.14 57.23 65.32 73.42
  • 7. 7 24 26 28 86.77 89.03 90.78 576 676 784 7522.0329 7926.3409 8241.0084 2082.48 2314.78 2541.84 81.51 89.60 97.70 198 629.52 4004 43377.4334 13112.24 629.52 √ Diagrama de dispersión de los datos de edad y peso. En efecto, su interpretación depende de varios factores, como por ejemplo: a) la naturaleza de las variables que se correlacionan; b) la significación del coeficiente; c) la variabilidad del grupo; d) los coeficientes de confiabilidad de los tests; e) el propósito para el cual se calcula r. Matriz de correlaciones, en muchas investigaciones se estudian muchas variables, y se intenta cuantificar mediante el coeficiente „r‟ sus relaciones dos a dos, es decir, las relaciones de cada variable con cada una de las demás (Botella, 1993:202). A los efectos de comparar estos diferentes valores de „r‟ se traza una matriz de correlación, que puede tener la siguiente forma: Variable X Variable Y Variable W Variable Z Variable X r= -0.17 r = -0.11 r = -0.30 Variable Y r = +0.46 r = +0.17 Variable W r = +0.10 Variable Z
  • 8. 8 La matriz permite visualizar inmediatamente, entre otras cosas, cuáles son los coeficientes de correlación más altos (en este caso, entre Y y W). Coeficiente de determinación El conocimiento del coeficiente de correlación, como se ha expresado, sirve para indicar el grado de asociación de dos variables, pero no ofrece información alguna de la influencia que tiene una variable sobre otra. Para este propósito, r2 el coeficiente de determinación es más fácil de calcular a partir de un análisis de regresión. Por tanto, el coeficiente de determinación r2 es la relación que existe entre la suma de cuadrados de la regresión y la suma de cuadrados de Y. El coeficiente de determinación puede interpretarse como un indicador de la proporción en la variabilidad total de Y que se debe al efecto de la variable X. multiplicando el valor de r2 por cien, la proporción se convierte en un porcentaje. Para el ejemplo anterior tenemos: 100* r2 = 100*(0.99)2 = 98% Nos indica que el 98% de la variación en el peso de los cerdos se debe a la relación lineal que existe entre el peso y la edad de los animales, y que la diferencia se debe a factores propios del azar, comúnmente involucrados como “error experimental”. Pruebas de significación Una de las hipótesis más utilizadas en correlación es la que supone que el coeficiente de correlación es igual a cero; esto es Ho: ρ = 0. Uso de las distribuciones F y t Se sabe que F es igual a: = Al usar F puede expresarse en términos de r y n como:
  • 9. 9 Pudiéndose por consiguiente, usar F con 1 y n-2 grados de libertad para probar esta hipótesis. Pero cuando F tiene 1 y ν grados de libertad, F = t2 ; por lo tanto √ √ Sigue la distribución t de “Student” con n-2 grados de libertad, pudiéndose usar como una prueba análoga a la de F. Por la relación existente entre y F, la prueba de significación para r es equivalente a la prueba para b. si una es significativa, la otra debe serlo también y viceversa. En la práctica, la prueba de significación de r no tiene mucha importancia, basta solamente con realizarla para b, y es más bien de mayor utilidad 100r2 que es un buen indicador de la bondad de ajuste. Análisis de Regresión La regresión está dirigida a describir como es la relación entre dos variables X e Y, de tal manera que incluso se pueden hacer predicciones sobre los valores de la variable Y, a partir de los de X. Cuando la asociación entre ambas variables es fuerte la regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas. La regresión supone que hay una variable fija, controlada por el investigador (es la variable independiente o predictora), y otra que no está controlada (variable respuesta o dependiente). La correlación supone que ninguna es fija: las dos variables están fuera del control de investigador. La regresión es su forma más sencilla se llama regresión lineal simple. Se trata de una técnica estadística que analiza la relación entre dos variables cuantitativas, tratando de verificar si dicha relación es lineal. Si tenemos dos variables hablamos de regresión simple, si hay más de dos variables regresión múltiple. Su objetivo es explicar el comportamiento de una variable Y, que denominaremos variable explicada (o dependiente o endógena), a partir de otra variable X, que llamaremos variable explicativa (o independiente o exógena).
  • 10. 10 Mediante las técnicas de regresión inventamos una variable Ŷ como función de otra variable X (o viceversa). El criterio para construir esta función es que la diferencia entre Y e Ŷ, denominada error o residuo, sea pequeña. Ŷ = f(x), Y- Ŷ = error Los residuos o errores ei son las diferencias entre los valores observados (verdadero valor de Y) y los valores pronosticados por el modelo: ei =Y-Ŷ. Recogen la parte de la variable Y que no es explicada por el modelo de regresión. A partir de la definición de residuo, podemos escribir Y = f(X) + error. El término que hemos denominado error debe ser tan pequeño como sea posible. El objetivo será buscar la función (modelo de regresión) Ŷ = f(X) que lo minimice. Una vez que se cuenta con un determinado conjunto de pares de valores obtenidos de la realidad, puede determinarse la ecuación de la recta que los representan por dos métodos: el método de los cuadrados mínimos, y el método de las desviaciones. Antes de examinarlos, debe tenerse presente que la forma general de una ecuación de una recta es: y = a + bx Determinar la ecuación de la recta significa asignarle un valor al parámetro “a‟ y otro valor al parámetro “b‟. Los métodos indicados tienen como fin determinar el valor de ambos parámetros. En la ecuación anterior se encuentra cuatro componentes:  Ŷ es la variable que se va a estimar en función de otra variable (X) supuestamente conocida. Se le denomina también como variable dependiente, explicada o predictando.  X es la variable cuyo valor que supuestamente se conoce. Se le denomina variable independiente, predictor o explicativa.  b=B=β es la pendiente, la que nos determina el ángulo de inclinación de la recta. Denominada también coeficiente angular, que nos permite cuantificar la cantidad que aumenta o decrece Ŷ, por cada valor que toma la variable independiente (X) o explicativa. El coeficiente angular puede ser representado de las siguientes formas:
  • 11. 11 Si b es un valor mayor que 0, es decir, positivo, nos indicara que la recta es ascendente; si b es menor que 0, la recta será descendente, y si b es igual a 0 será una paralela al eje horizontal. Por otra parte, la regresión nos permite establecer los siguientes aspectos: 1. Permite cuantificar la magnitud del cambio de la variable dependiente por cada unidad de cambio en la variable independiente a través del coeficiente de regresión. 2. Estimar el valor de variable dependiente en base a los valores establecidos de la variable independiente a través de la ecuación de regresión. c) La recta de regresión de mínimos cuadrados El método de los mínimos cuadrados consiste en buscar los valores de los parámetros a y b de manera que la suma de los cuadrados de los residuos sea mínima. Esta recta es la recta de regresión por mínimos cuadrados. La regresión lineal consiste en encontrar (aproximar) los valores de una variable a partir de los de otra, usando una relación funcional de tipo lineal, es decir, buscamos valores para a (ordenada en el origen) y b (pendiente de la recta lineal) tales que se pueda escribir Ŷ = a+bX, con el menor error posible entre Ŷ e Y. Para cada valor observado de la variable independiente Xi podemos considerar dos valores de la variable dependiente, el observado Yi y el estimado a partir de la ecuación de la recta, Ŷi = a+bXi. Para cada observación podemos definir el error o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir: yi – (a + bxi). Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresión:
  • 12. 12 Las fórmulas para el cálculo de a y b son las siguientes: ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ El coeficiente de regresión (b), indica el monto de cambio en la variable dependiente (Y), por cada unidad de cambio en la variable independiente X, representa la pendiente de la recta. La cantidad b se denomina “coeficiente de regresión de Y sobre X”. Intercepto (a), indica el punto donde la recta de regresión cruza al eje Y. ∑ ∑ a = ȳ - bX Interpretación de la ordenada en el origen a: Este parámetro representa la estimación del valor de Y cuando X es igual a cero. Interpretación de la pendiente de la recta b: El coeficiente de regresión es muy importante, porque mide el cambio de la variable Y por cada unidad de cambio de X. Este parámetro nos informa de cómo están relacionadas las dos variables en el sentido de que nos indica en qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían los valores de la X en una unidad. De hecho el coeficiente de regresión b y el coeficiente de correlación r siempre tendrán el mismo signo.  Si b > 0, cada aumento de X se corresponde con un aumento de Y;  Si b < 0, Y decrece a medida que aumenta X.
  • 13. 13 El método de los mínimos cuadrados consiste en buscar los valores de los parámetros a y b de manera que la suma de los cuadrados de los residuos sea mínima. Esta recta es la recta de regresión por mínimos cuadrados. Ejemplo: En un estudio de relación entre la publicidad por radio y las ventas de un producto, durante 10 semanas se han recopilado los tiempos de duración en minutos de la publicidad por semana (X), y el número de artículos vendidos (Y), resultando: Semana 1 2 3 4 5 6 7 8 9 10 Publicidad X 20 30 30 40 50 60 60 60 70 80 Ventas Y 50 73 69 87 108 128 135 132 148 170 a) Trazar el diagrama de dispersión, e indicar la tendencia. b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las ventas: c) Estimar la venta si en una semana se hacen 100 minutos de propaganda. d) Calcular el coeficiente de correlación. a) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuánto se estima que incrementen las ventas?. Solución: a) Trazamos el diagrama de dispersión y vemos que hay una relación lineal positiva entre el número de artículos vendidos y el tiempo de publicidad semanal realizada por radio. b) Determinamos la recta de regresión de mínimos cuadrados a partir de los planteados, es decir, a y b. De los datos propuestos tenemos:
  • 14. 14 n = 10 ƩX = 500 ƩY = 1100 ƩXY = 61800 ƩX2 =28400 ƩY2 = 134660 X = 500/10 = 50 ȳ = 1100/10 = 110 X Y XY X2 Y2 20 30 30 40 50 60 60 60 70 80 50 73 69 87 108 128 135 132 148 170 1000 2190 2070 3480 5400 7680 8100 7920 10360 13600 400 900 900 1600 2500 3600 3600 3600 4900 6400 2500 5329 4761 7569 11664 16384 18225 17424 21904 28900 500 1100 61800 28400 134660 Una forma de calcular b es: ∑ ∑ ∑ ∑ ∑ La otra forma de calcular b es: ∑ ∑ Además, a = ȳ - bX = 110 – 2(50) = 10 Por tanto, la recta de regresión es: Y = 10 + 2X También utilizando Y - ȳ = b(X – X), se tiene: Y – 110 = 2(X – 50) ò Y = 10 + 2X c) Si X1 = 100, ȳ = 10+2(100) = 210. No se tiene por el momento un criterio para concluir que este pronóstico es confiable. d) El coeficiente de correlación es:
  • 15. 15 Es altamente positivo. Es un primer criterio para analizar la validez de la predicción. e) Si en la novena semana se incrementa el tiempo de propaganda en 5 minutos, entonces, la venta se incrementa en promedio 5*2 = 10 unidades. Ejemplo: Utilizando los datos del ejemplo anterior, calcular el intercepto, el coeficiente de regresión, la ecuación, los valores de Ye y la línea de regresión. X Edad (Semanas) Y Peso Promedio (Kilogramos) X2 Y2 XY Ye 8 10 12 14 16 18 20 22 24 26 28 17.97 24.56 31.15 35.07 49.45 59.72 68.80 76.22 86.77 89.03 90.78 64 100 144 196 256 324 400 484 576 676 784 322.9209 603.1936 970.3225 1229.9049 2445.3025 3566.3784 4733.4400 5809.4884 7522.0329 7926.3409 8241.0084 143.76 245.60 373.80 490.98 791.20 1074.96 1376.00 1676.84 2082.48 2314.78 2541.84 16.76 24.85 32.95 41.04 49.14 57.23 65.32 73.42 81.51 89.60 97.70 198 629.52 4004 43377.4334 13112.24 629.52 Aplicando la siguiente formula encontrar b: ∑ ∑ ∑ ∑ ∑ Este valor significa que a partir de la octava semana, el peso del cerdo incrementa en 4.047 kilogramos semanalmente. Conocido b, el intercepto se calcula con la fórmula: ∑ ∑ Usando los valores de a y b, la ecuación de regresión será la siguiente
  • 16. 16 Ye = - 15.617 + 4.047X La ecuación de regresión sirve para encontrar los valores de Ye que corresponde a cada valor de X, obteniéndose la línea de mejor ajuste. Al reemplazar el valor de X en la ecuación de Ye, se obtienen los valores de Ye, los cuales aparecen en la última columna de la tabla. Si tomamos los puntos extremos de X, y se ubican en un sistema de ejes coordinados los lugares geométricos correspondientes a esos puntos (8, 16.76) y (28, 97.70), y uniendo estos puntos mediante una recta se tendrá la línea de regresión que corresponde a los datos del ejemplo.