SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
El Análisis de la Regresión
a través de SPSS
M. Dolores Martínez Miranda
Profesora del Dpto. Estadística e I.O.
Universidad de Granada
Referencias bibliográficas
1. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Análisis Multivariante
(5ª edición). Ed. Prentice Hall.
2. Pérez, C. (2001) Técnicas estadísticas con SPSS. Ed. Prentice Hall.
INTRODUCCIÓN
El Análisis de Regresión tiene como objetivo
estudiar la relación entre variables.
Permite expresar dicha relación en términos de
una ecuación que conecta una variable de
respuesta Y, con una o más variables
explicativas X1,X2,…,Xk.
Finalidad:
Determinación explícita del funcional que relaciona
las variables. (Predicción)
Comprensión por parte del analista de las
interrelaciones entre las variables que intervienen
en el análisis.
PLANTEAMIENTO GENERAL
Notación:
Y variable de respuesta (dependiente, endógena, explicada)
X1,X2,…,Xk variables explicativas (independientes, exógenas,
regresores)
Modelo general de Regresión:
Y = m (X1,X2,…,Xk ) +
m función de regresión
residuos del modelo (errores de observación, inadecuación del
modelo)
Variantes del Análisis de Regresión
en SPSS
Según el número de v. explicativas: Simple o Múltiple.
Supuestos sobre la función de regresión
Regresión lineal
Y = 0 + 1 X1+ 2 X2 +…+ k Xk +
Estimación curvilínea (Potencial, exponencial, hiperbólica, etc.)
Y = exp (a + b X) ln Y = a + b X
Regresión no lineal (Algoritmos de estimación iterativos)
Linealización
Variantes del Análisis de Regresión
en SPSS
Tipo de datos
Regresión logística, Modelos Probit (La variable de respuesta es
binaria)
Regresión ordinal (La variable de respuesta es de tipo ordinal)
Escalamiento óptimo o regresión categórica (Las variables
explicativas y/o explicada, pueden ser nominales)
Situaciones especiales en la estimación del modelo lineal: Mínimos
cuadrados en dos fases (correlación entre residuos y v. explicativas),
estimacion ponderada (situación de heterocedasticidad)
Submenú REGRESIÓN
Regresión lineal múltiple
Ajuste de curvas mediante linealización
Modelos de regresión con
respuestas binarias u ordinales
Modelos de regresión con
variables categóricas Correcciones en el modelo lineal
Modelos de regresión no lineales
Contenidos: Aplicaciones con SPSS
Regresión lineal (múltiple)
Estimación ponderada
Mínimos cuadrados en dos fases
Escalamiento óptimo
Regresión curvilínea
Regresión no lineal
Regresión lineal múltiple
-Modelo teórico-
Modelo lineal Y = 0 + 1 X1+ 2 X2 +…+ k Xk + (1)
Parámetros
j magnitud del efecto que Xj tienen sobre Y (incremento en la media de
Y cuando Xj aumenta una unidad)
0 término constante (promedio de Y cuando las v. explicativas valen 0)
residuos (perturbaciones aleatorias, error del modelo)
Datos (observaciones, muestra) { (Yi, X1i,…,Xki) : i = 1,…,n }
PROBLEMA Suponiendo que la relación entre las variables es como
en (1), estimar los coeficientes ( j ) utilizando la
información proporcionada por la muestra
Regresión lineal múltiple
-Modelo teórico-
Expresión matricial
Y = X +
HIPÓTESIS
j son v.v.a.a. con media 0 e independientes de las Xj
Homocedasticidad: j tienen varianzas iguales ( 2 )
No autocorrelación: j son incorreladas entre sí
j son normales e independientes (Inferencia sobre el modelo)
No multicolinealidad: Las columnas de X son linealmente
independientes ( rango(X) = k+1 )












+




































n
2
1
k
1
0
knn2n1
2k2212
1k2111
n
2
1
XXX
XXX
XXX
=
Y
Y
Y
MM
L
MOMM
L
L
M
Estimación del modelo
Problema de mínimos cuadrados
( ){ }X...XYMinimizar
2n
1i
ikki110i
,...,, k10
∑
=
+++−
( ) YTX1-X)T(X
T
k
ˆ
1
ˆ
0
ˆˆ == L
Solución
( n > k+1 ) Suma residual de cuadrados
Yi valor predicho
^
Estimación de los coeficientes
YˆYˆ:estimadoResiduo iii −=
Ejemplo con SPSS (Coches.sav)
Objetivo: Ajustar un modelo lineal que permita predecir el consumo en
función de motor, cv, peso y acel
Variable dependiente
CONSUMO Consumo (l/100Km)
Variables independientes
MOTOR Cilindrada en cc
CV Potencia (CV)
PESO Peso total (kg)
ACEL Aceleración 0 a 100 km/h (segundos)
Coeficientesa
,432 1,166 ,370 ,711
3,093E-04 ,000 ,134 1,612 ,108
4,386E-02 ,008 ,424 5,582 ,000
4,948E-03 ,001 ,355 4,404 ,000
2,504E-02 ,059 ,018 ,424 ,672
(Constante)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleración 0 a 100
km/h (segundos)
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: Consumo (l/100Km)a.
Analizar
Regresión
Lineal
Consumo = 0.432 + 3.093E-04 Motor + 4.386E-02 CV +
+ 4.948E-03 Peso + 2.504E-02 Acel
( )T
k
ˆ
2
ˆ
0
ˆˆ L=
j
ˆ
Y
jX
j
b =
Coeficientes tipificados
Comparación de los efectos
Significación
individual de las
variables y de la
constante
(Inferencia)
Inferencia sobre el modelo
Significación individual de las variables
Utilidad: Verficar si cada variable aporta información significativa al análisis
Nota: Depende de las interrelaciones entre las variables, no es concluyente
Contraste de hipótesis ( Xj )
H0 : j = 0
H1 : j 0
Aceptar H0 significa que la variable
“no aporta información significativa”
en el análisis de regresión realizado
Resolución
t
)ˆ(SE
ˆ
T 1-k-nHBajo
j
j
0
 →=
Inferencia sobre el modelo
Significación de la constante
Utilidad: Verficar si la v.dependiente tiene media 0 cuando las v.explicativas se anulan
Contraste de hipótesis
H0 : 0 = 0
H1 : 0 0
Aceptar H0 significa que
“no es conveniente incluir un término constante”
en el análisis de regresión realizado
Resolución
t
)ˆ(SE
ˆ
T 2-nHBajo
0
0
0
 →=
Ejemplo (Coches.sav)
Coeficientesa
,432 1,166 ,370 ,711
3,093E-04 ,000 ,134 1,612 ,108
4,386E-02 ,008 ,424 5,582 ,000
4,948E-03 ,001 ,355 4,404 ,000
2,504E-02 ,059 ,018 ,424 ,672
(Constante)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleración 0 a 100
km/h (segundos)
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: Consumo (l/100Km)a.
Interpretación del p-valor
(en un contraste al nivel de significación )
Si p-valor < entonces se rechaza la hipótesis nula
H0 : 0 = 0
H1 : 0 0
Al 5% se puede no incluir
constante en el modelo
H0 : j = 0
H1 : j 0Al nivel de significación del 5%:
Motor (0.108) y Acel (0.672) “no son significativas”
CV (0.000) y Peso (0.000) “sí son significativas”
Inferencia sobre el modelo
Bondad de ajuste
Descomposición de la variabilidad
ˆ)yYˆ()yY(
n
1i
2
i
n
1i
2
i
n
1i
2
i
32144 344 2144 344 21
VNEVEVT
∑∑∑
===
+−=−
VT
VNE
-1
VT
VE
R2
==
Coeficiente de determinación R: Coeficiente correlación lineal múltiple
Indica la mayor correlación entre Y y las
c.l. de las v. explicativas
Coeficiente de determinación corregido
Inconveniente: Sobrevalora la bondad del ajuste
R
1-k-n
1-n
-1R 22
=
Ejemplo (Coches.sav)
Resumen del modelob
,869a ,755 ,752 1,970
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), Aceleración 0 a 100 km/h
(segundos), Peso total (kg), Potencia (CV), Cilindrada en cc
a.
Variable dependiente: Consumo (l/100Km)b.
R2 = 0.755 Consumo queda explicada en un 75.5% por las variables
explicativas según el modelo lineal considerado
R2 corregido = 0.752 (siempre algo menor que R2)
Inferencia sobre el modelo
Contraste de regresión (ANOVA)
Utilidad: Verificar que (de forma conjunta) las v.explicativas aportan
información en la explicación de la variable de respuesta
Contraste:
H0 : 1 = 2 =… = k = 0
H1 : Algún j 0
H0 : R = 0
H1 : R 0
Aceptar H0 significa que
“las v.explicativas no están relacionadas linealmente con Y”
Resolución (ANOVA)
F
1)-k-(n/VNE
k/VE
F 1-k-nk,HBajo 0
 →=
Ejemplo (Coches.sav)
ANOVAb
4626,220 4 1156,555 297,956 ,000a
1502,188 387 3,882
6128,408 391
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), Aceleración 0 a 100 km/h (segundos), Peso
total (kg), Potencia (CV), Cilindrada en cc
a.
Variable dependiente: Consumo (l/100Km)b.
Contraste de regresión
n-1VTTotal
VNE / (n-k-1)n-k-1VNEResidual
VE / kkVEModelo
F exp.Media
cuadrática
Grados de
libertad
Suma de
cuadrados
Fuente de
variabilidad
VE / k
VNE / (n-k-1)
Al 5% se rechaza H0
(las variables explicativas
influyen de forma conjunta
y lineal sobre Y)
Predicción
Bandas de confianza
I.C. para la media de Y
I.C. para los valores predichos de Y
x...x)x,...,x,x(Yˆ kk110k21 +++=
Predicciones para Y
(dentro del rango de predicción)
Gráfico de dispersión
Variable dependiente: Consumo (l/100Km)
Consumo (l/100Km)
3020100
RegresiónValorpronosticadotipificado
3
2
1
0
-1
-2 R² = 0.7549
El análisis de los residuosEl análisis de los residuos
1. Normalidad de los residuos
2. No autocorrelación
3. Homocedasticidad
4. Falta de linealidad
5. No multicolinealidad
Objetivo: Verificar que no se violan las hipótesis sobre las
que se estima el modelo y se realiza la inferencia
Posibles correcciones:
• Detección de atípicos y
puntos influyentes
• Transformaciones
• Variables ficticias
• Ajustes polinomiales
• Términos de interacción
1.1. Normalidad de los residuos
Herramientas disponibles en SPSS
Gráficos: Histograma, gráfico probabilístico normal
Residuo tipificado
Histograma
Frecuencia
100
80
60
40
20
0
Desv. típ. = ,99
Media = 0,00
N = 392,00
Contrastes: Kolmogorov-Smirknov, Shapiro-Wilks,…
Gráfico P-P normal de regresión Residuo tipificado
Prob acum observada
1.00.75.50.250.00
Probacumesperada
1.00
.75
.50
.25
0.00
1.2. No autocorrelación
Herramientas disponibles en SPSS: Gráficos residuales y el
estadístico de Durbin-Watson
Hace referencia a los efectos de la inercia de una observación a otra
que pueda indicar la no independencia entre los residuos.
Se trata de buscar modelos o pautas en los gráficos residuales frente
al número de caso (incluso con cada variable independiente).
Número de orden de las observaciones
5004003002001000-100
StandardizedResidual
4
3
2
1
0
-1
-2
-3
1,970 1,228
Error típ. de la
estimación
Durbin-W
atson
Variables predictoras: (Constante), Aceleración 0 a 100 km/h (segundos),
H0: No hay autocorrelación
•Si d<1.18 rechazar,
•Si d>1.4 no rechazar.
•Si 1.18<d<1.4 no es concluyente
Posibles soluciones:
- Transformaciones
- Añadir variables
1.3. Homocedasticidad
Herramientas disponibles en SPSS: Gráficos residuales
Hace referencia a la constancia de los residuos para los
valores que van tomando las variables independientes.
Cilindrada en cc
80007000600050004000300020001000
StandardizedResidual
4
3
2
1
0
-1
-2
-3
Potencia (CV)
3002001000
StandardizedResidual
4
3
2
1
0
-1
-2
-3
Peso total (kg)
18001600140012001000800600400
StandardizedResidual
4
3
2
1
0
-1
-2
-3
Aceleración 0 a 100 km/h (segundos)
3020100
StandardizedResidual
4
3
2
1
0
-1
-2
-3
Regresión Valor pronosticado tipificado
3210-1-2
Consumo(l/100Km)
30
20
10
0
1.4. Falta de linealidad
Herramientas disponibles en SPSS: Gráficos de regresión parcial
y gráficos residuales
Hace referencia a las posibles desviaciones de los datos
desde el modelo lineal que se está ajustando.
Gráfico de regresión parcial
Variable dependiente: Consumo (l/100Km)
Cilindrada en cc
3000200010000-1000-2000
Consumo(l/100Km)
30
20
10
0
-10
Gráfico de regresión parcial
Variable dependiente: Consumo (l/100Km)
Potencia (CV)
806040200-20-40
Consumo(l/100Km)
30
20
10
0
-10
Gráfico de regresión parcial
Variable dependiente: Consumo (l/100Km)
Peso total (kg)
4002000-200-400-600-800
Consumo(l/100Km)
20
10
0
-10
Gráfico de regresión parcial
Variable dependiente: Consumo (l/100Km)
Aceleración 0 a 100 km/h (segundos)
86420-2-4-6
Consumo(l/100Km)
30
20
10
0
-10
Son diagramas de dispersión
de los residuos de cada v.
independiente y los residuos
de la v. dependiente cuando
se regresan ambas por
separado sobre las restantes
v. independientes.
1.5. No multicolinealidad
Herramientas disponibles en SPSS: Índices de condicionamiento, FIV
Colinealidad es la asociación, medida como correlación,
entre dos variables explicativas (el término multicolinealidad
se utiliza para tres o más variables explicativas).
Reducción del poder explicativo de cualquier v. explicativa individual en la medida
en que está correlada con las otras v. explicativas presentes en el modelo.
Impacto de la
multicolinealidad
Diagnósticos de colinealidada
4,729 1,000 ,00 ,00 ,00 ,00 ,00
,238 4,454 ,00 ,03 ,00 ,00 ,02
2,268E-02 14,440 ,03 ,22 ,29 ,01 ,06
6,265E-03 27,474 ,20 ,75 ,02 ,70 ,00
3,612E-03 36,185 ,76 ,01 ,69 ,29 ,92
Dimensión
1
2
3
4
5
Modelo
1
Autovalor
Indice de
condición (Constante)
Cilindrada
en cc Potencia (CV)
Peso total
(kg)
Aceleración
0 a 100 km/h
(segundos)
Proporciones de la varianza
Variable dependiente: Consumo (l/100Km)a.
Posibles soluciones:
- ACP y utilizar las componentes principales como regresores.
- A la vista de las correlaciones eliminar variables “redundantes”.
1. Identificar los índices que
estén por encima del
umbral: 30
2. Para los índices
identificados, identificar las
variables con proporciones
de varianza por encima del
90%: Habrá
multicolinealidad si ocurre
con dos o más coeficientes.
Datos anómalos
Medidas de influencia
Datos anómalos (atípicos)
Individuos cuyo residuos tipificado es superior a 3 (en valor
absoluto)
Datos influyentes
Individuos cuya omisión produce cambios notables en los
resultados del análisis
Herramientas estadísticas (medidas de influencia)
• Identificación de puntos de apalancamiento (observaciones
aisladas del resto sobre una o más v.independientes)
• Observaciones influyentes: influencias sobre coeficientes individuales,
medidas globales de influencia.
Objetivo: Detectar datos anómalos y datos influyentes
Leverage o medida de influencia: Límite: 2(k+1) / n (Si n>50, 3(k+1) / n)
Distancia de Mahalanobis: Considera la distancia de cada observación
desde los valores medios de las v.independientes. Existen tablas para contrastar,
pero en general se procede a identificar valores considerablemente altos
respecto al resto.
Medidas para identificar puntos de apalancamiento:
• Influencias sobre coeficientes individuales:
DFBETA Mide el efecto del dato i-ésimo ejerce sobre j. Límites para la versión
estandarizada: ± 2 n - 1 / 2 (si n<50 usar los límites de la normal)
• Medidas globales de influencia:
DFITTS Mide el efecto del dato i-ésimo ejerce en su propia predicción. Límites para la
versión estandarizada: ± 2 [ (k+2) / (n-k-2) ]1 / 2
COVRATIO Representa el grado al que una observación tiene impacto sobe los errores
estándar de los coeficientes. Límites: 1 ± 3(k+1) / n
Distancia de Cook: Localizar valores que exceden a 4 / (n-k-1)
Medidas para identificar observaciones influyentes:
Diagnósticos por casoa
10,176 26 5,95 20,05
Número de caso
35
Residuo tip.
Consumo
(l/100Km)
Valor
pronosticado Residuo bruto
Variable dependiente: Consumo (l/100Km)a.
Estadísticos sobre los residuosa
5,95 21,05 11,27 3,440 392
-1,545 2,843 ,000 1,000 392
,107 ,831 ,210 ,075 392
4,57 21,08 11,26 3,447 392
-5,16 20,05 ,00 1,960 392
-2,618 10,176 ,000 ,995 392
-2,641 10,520 ,001 1,011 392
-5,25 21,43 ,00 2,024 392
-2,661 12,433 ,006 1,067 392
,166 68,628 3,990 4,866 392
,000 1,520 ,007 ,077 392
,000 ,176 ,010 ,012 392
Valor pronosticado
Valor pronosticado tip.
Error típico del valor
pronosticado
Valor pronosticado
corregido
Residuo bruto
Residuo tip.
Residuo estud.
Residuo eliminado
Residuo eliminado estud.
Dist. de Mahalanobis
Distancia de Cook
Valor de influencia
centrado
Mínimo Máximo Media
Desviación
típ. N
Variable dependiente: Consumo (l/100Km)a.
Detección de residuos atípicos: Los valores tipificados deben estar entre -3 y 3
Detección de puntos influyentes: Dist. De Mahalanobis, Cook, valor de influencia
SPSS
El rango de valores para la distancia de
Mahalanobis es elevado
Hay valores de la distancia de Cook
superiores a 4 / (n-k-1) = 0.010
Medida de influencia. Límite (k=4): 0.038
Posible solución: Eliminar observaciones
Selección de un subconjunto óptimo
de variables independientes
Objetivo: Seleccionar aquellas variables que sin ser redundantes
proporcionen la mejor explicación de la v. dependiente.
Métodos secuenciales en SPSS: Hacia atrás, Hacia delante, Pasos sucesivos
En términos muy muy generales…
…Evalúan estadísticos F que controlan la
entrada y salida de variables, además de las
correlaciones parciales de la v. dependiente
con cada regresor.
Variables introducidas/eliminadasa
Peso total (kg) , Hacia adelante (criterio: Prob. de F para entrar <= ,050)
Potencia (CV) , Hacia adelante (criterio: Prob. de F para entrar <= ,050)
Modelo
1
2
Variables
introducidas
Variables
eliminadas Método
Variable dependiente: Consumo (l/100Km)a.
Resumen del modelo
,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000
,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000
Modelo
1
2
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Cambio en
R cuadrado Cambio en F gl1 gl2
Sig. del
cambio en F
Estadísticos de cambio
Variables predictoras: (Constante), Peso total (kg)a.
Variables predictoras: (Constante), Peso total (kg), Potencia (CV)b.
Método forward (hacia delante)
Inicialmente no hay regresores, se van introduciendo uno a uno
aquellos que tienen alta correlación parcial con la v. dependiente y
que son significativos (valor F-entrar).
Método backward (hacia atrás)
Inicialmente se incluyen todos las v. independientes, se van eliminando
una a una las que van resultando significativas (valor F-salir).
Variables introducidas/eliminadasb
Aceleración 0 a 100 km/h
(segundos), Peso total (kg),
Potencia (CV), Cilindrada en cc
a
, Introducir
,
Aceleración 0 a 100 km/h
(segundos)
Hacia atrás (criterio: Prob. de F para eliminar >= ,100).
, Cilindrada en cc Hacia atrás (criterio: Prob. de F para eliminar >= ,100).
Modelo
1
2
3
Variables introducidas Variables eliminadas Método
Todas las variables solicitadas introducidasa.
Variable dependiente: Consumo (l/100Km)b.
Resumen del modelo
,869a ,755 ,752 1,970 ,755 297,956 4 387 ,000
,869b ,755 ,753 1,968 ,000 ,180 1 389 ,672
,868c ,753 ,752 1,972 -,002 2,456 1 390 ,118
Modelo
1
2
3
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Cambio en
R cuadrado Cambio en F gl1 gl2
Sig. del
cambio en F
Estadísticos de cambio
Variables predictoras: (Constante), Aceleración 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cca.
Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en ccb.
Variables predictoras: (Constante), Peso total (kg), Potencia (CV)c.
Método Stepwise (pasos sucesivos)
Combina los dos métodos anteriores definiendo un procedimiento en el
que las variables independientes entran o salen del modelo dependiendo
de su significación (valores F-entrar y F-salir).
Variables introducidas/eliminadasa
Peso total (kg) ,
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Potencia (CV) ,
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Modelo
1
2
Variables
introducidas
Variables
eliminadas Método
Variable dependiente: Consumo (l/100Km)a.
Resumen del modelo
,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000
,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000
Modelo
1
2
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Cambio en
R cuadrado Cambio en F gl1 gl2
Sig. del
cambio en F
Estadísticos de cambio
Variables predictoras: (Constante), Peso total (kg)a.
Variables predictoras: (Constante), Peso total (kg), Potencia (CV)b.
Resumen
Pasos a seguir en un análisis de regresión
Paso 1. Objetivos del análisis
Paso 2.Diseño de la investigación mediante regresión múltiple
Paso 3.Supuestos del análisis
Paso 4. Estimación del modelo de regresión y valoración global del
ajuste
Paso 5. Interpretación y validación de los resultados.

Más contenido relacionado

La actualidad más candente

Prueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasPrueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricas
Gerardo Gomez
 

La actualidad más candente (20)

PowerPoint - Tema: Pruebas No Parametricas
PowerPoint - Tema: Pruebas No ParametricasPowerPoint - Tema: Pruebas No Parametricas
PowerPoint - Tema: Pruebas No Parametricas
 
Ejercicio friedman (resuelto) y deber (sabor)
Ejercicio friedman (resuelto) y deber (sabor)Ejercicio friedman (resuelto) y deber (sabor)
Ejercicio friedman (resuelto) y deber (sabor)
 
U de Mann-Whitney
U de Mann-WhitneyU de Mann-Whitney
U de Mann-Whitney
 
Prueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasPrueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricas
 
Prueba de hipótesis de la varianza
Prueba de hipótesis de la varianzaPrueba de hipótesis de la varianza
Prueba de hipótesis de la varianza
 
Prueba no paramétrica- Wilcoxon
Prueba no paramétrica- WilcoxonPrueba no paramétrica- Wilcoxon
Prueba no paramétrica- Wilcoxon
 
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENTDISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
 
Regresión lineal
Regresión linealRegresión lineal
Regresión lineal
 
Estadistica parametrica y no parametrica
Estadistica parametrica y no parametricaEstadistica parametrica y no parametrica
Estadistica parametrica y no parametrica
 
Estadística descriptiva e inferencial
Estadística descriptiva e inferencialEstadística descriptiva e inferencial
Estadística descriptiva e inferencial
 
Presentación ANOVA
Presentación ANOVAPresentación ANOVA
Presentación ANOVA
 
Análisis de la varianza
Análisis de la varianzaAnálisis de la varianza
Análisis de la varianza
 
50 ejercicio de estadistica.docx1
50 ejercicio de estadistica.docx150 ejercicio de estadistica.docx1
50 ejercicio de estadistica.docx1
 
Medidas de forma
Medidas de formaMedidas de forma
Medidas de forma
 
Cuadro comparativo - Estadística Paramétrica y No Paramétrica
Cuadro comparativo - Estadística Paramétrica y No ParamétricaCuadro comparativo - Estadística Paramétrica y No Paramétrica
Cuadro comparativo - Estadística Paramétrica y No Paramétrica
 
Modulo 1 regresión y series temporales
Modulo 1  regresión y  series temporalesModulo 1  regresión y  series temporales
Modulo 1 regresión y series temporales
 
Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02
 
Contrastes de hipótesis estadísticas
Contrastes de hipótesis estadísticasContrastes de hipótesis estadísticas
Contrastes de hipótesis estadísticas
 
Estimación de parámetros para muestras grandes
Estimación de parámetros para muestras grandes Estimación de parámetros para muestras grandes
Estimación de parámetros para muestras grandes
 
Clase 8
Clase 8Clase 8
Clase 8
 

Similar a analisis de regresion con spps

Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
José Felipe
 
Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011
Robinho Navarrete
 
S14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdfS14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdf
HeynerGomez2
 
10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple
AnniFenty
 

Similar a analisis de regresion con spps (20)

Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
 
Analisis de regresion multiple
Analisis de regresion multipleAnalisis de regresion multiple
Analisis de regresion multiple
 
Regresión
RegresiónRegresión
Regresión
 
Regresión y Correlación Lineal
Regresión y Correlación LinealRegresión y Correlación Lineal
Regresión y Correlación Lineal
 
Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011
 
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
 
Regresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaRegresion aplicada a la ingenieria
Regresion aplicada a la ingenieria
 
Biometria sesion teorica_martes_12_junio_2012
Biometria sesion teorica_martes_12_junio_2012Biometria sesion teorica_martes_12_junio_2012
Biometria sesion teorica_martes_12_junio_2012
 
S14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdfS14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdf
 
Transformaciones en regresion
Transformaciones en regresionTransformaciones en regresion
Transformaciones en regresion
 
Clase 6 Análisis de regresión.pdf
Clase 6 Análisis de regresión.pdfClase 6 Análisis de regresión.pdf
Clase 6 Análisis de regresión.pdf
 
Regresion
RegresionRegresion
Regresion
 
Mic sesión 10
Mic sesión 10Mic sesión 10
Mic sesión 10
 
Regresion Y Correlacion
Regresion Y CorrelacionRegresion Y Correlacion
Regresion Y Correlacion
 
Practica laboratorio
Practica laboratorioPractica laboratorio
Practica laboratorio
 
10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple
 
Capitulo 10
Capitulo 10Capitulo 10
Capitulo 10
 
Cuaderno de ejercicios_2012_r01
Cuaderno de ejercicios_2012_r01Cuaderno de ejercicios_2012_r01
Cuaderno de ejercicios_2012_r01
 
Cuaderno de ejercicios_2012_r01
Cuaderno de ejercicios_2012_r01Cuaderno de ejercicios_2012_r01
Cuaderno de ejercicios_2012_r01
 
Cuaderno de ejercicios_2012_r01
Cuaderno de ejercicios_2012_r01Cuaderno de ejercicios_2012_r01
Cuaderno de ejercicios_2012_r01
 

Más de Juan Timoteo Cori

Más de Juan Timoteo Cori (20)

Relacionmultas cco tsc-jul-01
Relacionmultas cco tsc-jul-01Relacionmultas cco tsc-jul-01
Relacionmultas cco tsc-jul-01
 
multas operadores
multas operadoresmultas operadores
multas operadores
 
Tupa2009 anexo1
Tupa2009 anexo1Tupa2009 anexo1
Tupa2009 anexo1
 
Guia para acreditacion de carreras de ingenieria
Guia para acreditacion de carreras de ingenieriaGuia para acreditacion de carreras de ingenieria
Guia para acreditacion de carreras de ingenieria
 
Estándares tipo-valorativo
Estándares tipo-valorativoEstándares tipo-valorativo
Estándares tipo-valorativo
 
Convalidacion acreditacion
Convalidacion acreditacionConvalidacion acreditacion
Convalidacion acreditacion
 
Malla curricular ingenieriaindustrial
Malla curricular ingenieriaindustrialMalla curricular ingenieriaindustrial
Malla curricular ingenieriaindustrial
 
essalud
essaludessalud
essalud
 
Nivel cump metas
Nivel cump metasNivel cump metas
Nivel cump metas
 
El afán de los humanos por conseguir adivinar el futuro para tomar
El afán de los humanos por conseguir adivinar el futuro para tomarEl afán de los humanos por conseguir adivinar el futuro para tomar
El afán de los humanos por conseguir adivinar el futuro para tomar
 
requerimientos
requerimientos requerimientos
requerimientos
 
Conflicto social
Conflicto socialConflicto social
Conflicto social
 
Plan estrategico institucional_2012_2016
Plan estrategico institucional_2012_2016Plan estrategico institucional_2012_2016
Plan estrategico institucional_2012_2016
 
aplicaciones moviles
aplicaciones  movilesaplicaciones  moviles
aplicaciones moviles
 
Variables internas
Variables internasVariables internas
Variables internas
 
      integracion usabilidad
      integracion  usabilidad       integracion  usabilidad
      integracion usabilidad
 
Vea230e otr auditoria_de_usabilidad_v01r00
Vea230e otr auditoria_de_usabilidad_v01r00Vea230e otr auditoria_de_usabilidad_v01r00
Vea230e otr auditoria_de_usabilidad_v01r00
 
Usabilidad de sitios web dedicados al comercio electrónico en buenos aires
Usabilidad de sitios web dedicados al comercio electrónico en buenos airesUsabilidad de sitios web dedicados al comercio electrónico en buenos aires
Usabilidad de sitios web dedicados al comercio electrónico en buenos aires
 
Tesis web transaccionales-rof
Tesis web transaccionales-rofTesis web transaccionales-rof
Tesis web transaccionales-rof
 
Edutec e n34-gonzales_acosta_moyares
Edutec e n34-gonzales_acosta_moyaresEdutec e n34-gonzales_acosta_moyares
Edutec e n34-gonzales_acosta_moyares
 

Último

Tipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplosTipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplos
andersonsubero28
 
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
samuelsan933
 

Último (20)

NTC 3883 análisis sensorial. metodología. prueba duo-trio.pdf
NTC 3883 análisis sensorial. metodología. prueba duo-trio.pdfNTC 3883 análisis sensorial. metodología. prueba duo-trio.pdf
NTC 3883 análisis sensorial. metodología. prueba duo-trio.pdf
 
5. MATERIALES petreos para concreto.pdf.
5. MATERIALES petreos para concreto.pdf.5. MATERIALES petreos para concreto.pdf.
5. MATERIALES petreos para concreto.pdf.
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docx
 
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJODIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
 
Auditoría de Sistemas de Gestión
Auditoría    de   Sistemas     de GestiónAuditoría    de   Sistemas     de Gestión
Auditoría de Sistemas de Gestión
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt
 
ingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptxingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptx
 
Presentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptxPresentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptx
 
Manual deresolucion de ecuaciones por fracciones parciales.pdf
Manual deresolucion de ecuaciones por fracciones parciales.pdfManual deresolucion de ecuaciones por fracciones parciales.pdf
Manual deresolucion de ecuaciones por fracciones parciales.pdf
 
Matrices Matemáticos universitario pptx
Matrices  Matemáticos universitario pptxMatrices  Matemáticos universitario pptx
Matrices Matemáticos universitario pptx
 
Tipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplosTipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplos
 
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf  PARA TRABAJO SEGUROATS-FORMATO cara.pdf  PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
 
422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptxG4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
S3-OXIDOS-HIDROXIDOS-CARBONATOS (mineralogia)
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
 
TAIICHI OHNO, historia, obras, reconocimientos
TAIICHI OHNO, historia, obras, reconocimientosTAIICHI OHNO, historia, obras, reconocimientos
TAIICHI OHNO, historia, obras, reconocimientos
 
ARMADURAS METODO NODOS.pptx......................
ARMADURAS METODO NODOS.pptx......................ARMADURAS METODO NODOS.pptx......................
ARMADURAS METODO NODOS.pptx......................
 

analisis de regresion con spps

  • 1. El Análisis de la Regresión a través de SPSS M. Dolores Martínez Miranda Profesora del Dpto. Estadística e I.O. Universidad de Granada Referencias bibliográficas 1. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Análisis Multivariante (5ª edición). Ed. Prentice Hall. 2. Pérez, C. (2001) Técnicas estadísticas con SPSS. Ed. Prentice Hall.
  • 2. INTRODUCCIÓN El Análisis de Regresión tiene como objetivo estudiar la relación entre variables. Permite expresar dicha relación en términos de una ecuación que conecta una variable de respuesta Y, con una o más variables explicativas X1,X2,…,Xk. Finalidad: Determinación explícita del funcional que relaciona las variables. (Predicción) Comprensión por parte del analista de las interrelaciones entre las variables que intervienen en el análisis.
  • 3. PLANTEAMIENTO GENERAL Notación: Y variable de respuesta (dependiente, endógena, explicada) X1,X2,…,Xk variables explicativas (independientes, exógenas, regresores) Modelo general de Regresión: Y = m (X1,X2,…,Xk ) + m función de regresión residuos del modelo (errores de observación, inadecuación del modelo)
  • 4. Variantes del Análisis de Regresión en SPSS Según el número de v. explicativas: Simple o Múltiple. Supuestos sobre la función de regresión Regresión lineal Y = 0 + 1 X1+ 2 X2 +…+ k Xk + Estimación curvilínea (Potencial, exponencial, hiperbólica, etc.) Y = exp (a + b X) ln Y = a + b X Regresión no lineal (Algoritmos de estimación iterativos) Linealización
  • 5. Variantes del Análisis de Regresión en SPSS Tipo de datos Regresión logística, Modelos Probit (La variable de respuesta es binaria) Regresión ordinal (La variable de respuesta es de tipo ordinal) Escalamiento óptimo o regresión categórica (Las variables explicativas y/o explicada, pueden ser nominales) Situaciones especiales en la estimación del modelo lineal: Mínimos cuadrados en dos fases (correlación entre residuos y v. explicativas), estimacion ponderada (situación de heterocedasticidad)
  • 6. Submenú REGRESIÓN Regresión lineal múltiple Ajuste de curvas mediante linealización Modelos de regresión con respuestas binarias u ordinales Modelos de regresión con variables categóricas Correcciones en el modelo lineal Modelos de regresión no lineales
  • 7. Contenidos: Aplicaciones con SPSS Regresión lineal (múltiple) Estimación ponderada Mínimos cuadrados en dos fases Escalamiento óptimo Regresión curvilínea Regresión no lineal
  • 8. Regresión lineal múltiple -Modelo teórico- Modelo lineal Y = 0 + 1 X1+ 2 X2 +…+ k Xk + (1) Parámetros j magnitud del efecto que Xj tienen sobre Y (incremento en la media de Y cuando Xj aumenta una unidad) 0 término constante (promedio de Y cuando las v. explicativas valen 0) residuos (perturbaciones aleatorias, error del modelo) Datos (observaciones, muestra) { (Yi, X1i,…,Xki) : i = 1,…,n } PROBLEMA Suponiendo que la relación entre las variables es como en (1), estimar los coeficientes ( j ) utilizando la información proporcionada por la muestra
  • 9. Regresión lineal múltiple -Modelo teórico- Expresión matricial Y = X + HIPÓTESIS j son v.v.a.a. con media 0 e independientes de las Xj Homocedasticidad: j tienen varianzas iguales ( 2 ) No autocorrelación: j son incorreladas entre sí j son normales e independientes (Inferencia sobre el modelo) No multicolinealidad: Las columnas de X son linealmente independientes ( rango(X) = k+1 )             +                                     n 2 1 k 1 0 knn2n1 2k2212 1k2111 n 2 1 XXX XXX XXX = Y Y Y MM L MOMM L L M
  • 10. Estimación del modelo Problema de mínimos cuadrados ( ){ }X...XYMinimizar 2n 1i ikki110i ,...,, k10 ∑ = +++− ( ) YTX1-X)T(X T k ˆ 1 ˆ 0 ˆˆ == L Solución ( n > k+1 ) Suma residual de cuadrados Yi valor predicho ^ Estimación de los coeficientes YˆYˆ:estimadoResiduo iii −=
  • 11. Ejemplo con SPSS (Coches.sav) Objetivo: Ajustar un modelo lineal que permita predecir el consumo en función de motor, cv, peso y acel Variable dependiente CONSUMO Consumo (l/100Km) Variables independientes MOTOR Cilindrada en cc CV Potencia (CV) PESO Peso total (kg) ACEL Aceleración 0 a 100 km/h (segundos)
  • 12. Coeficientesa ,432 1,166 ,370 ,711 3,093E-04 ,000 ,134 1,612 ,108 4,386E-02 ,008 ,424 5,582 ,000 4,948E-03 ,001 ,355 4,404 ,000 2,504E-02 ,059 ,018 ,424 ,672 (Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleración 0 a 100 km/h (segundos) Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig. Variable dependiente: Consumo (l/100Km)a. Analizar Regresión Lineal Consumo = 0.432 + 3.093E-04 Motor + 4.386E-02 CV + + 4.948E-03 Peso + 2.504E-02 Acel ( )T k ˆ 2 ˆ 0 ˆˆ L= j ˆ Y jX j b = Coeficientes tipificados Comparación de los efectos Significación individual de las variables y de la constante (Inferencia)
  • 13. Inferencia sobre el modelo Significación individual de las variables Utilidad: Verficar si cada variable aporta información significativa al análisis Nota: Depende de las interrelaciones entre las variables, no es concluyente Contraste de hipótesis ( Xj ) H0 : j = 0 H1 : j 0 Aceptar H0 significa que la variable “no aporta información significativa” en el análisis de regresión realizado Resolución t )ˆ(SE ˆ T 1-k-nHBajo j j 0  →=
  • 14. Inferencia sobre el modelo Significación de la constante Utilidad: Verficar si la v.dependiente tiene media 0 cuando las v.explicativas se anulan Contraste de hipótesis H0 : 0 = 0 H1 : 0 0 Aceptar H0 significa que “no es conveniente incluir un término constante” en el análisis de regresión realizado Resolución t )ˆ(SE ˆ T 2-nHBajo 0 0 0  →=
  • 15. Ejemplo (Coches.sav) Coeficientesa ,432 1,166 ,370 ,711 3,093E-04 ,000 ,134 1,612 ,108 4,386E-02 ,008 ,424 5,582 ,000 4,948E-03 ,001 ,355 4,404 ,000 2,504E-02 ,059 ,018 ,424 ,672 (Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleración 0 a 100 km/h (segundos) Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig. Variable dependiente: Consumo (l/100Km)a. Interpretación del p-valor (en un contraste al nivel de significación ) Si p-valor < entonces se rechaza la hipótesis nula H0 : 0 = 0 H1 : 0 0 Al 5% se puede no incluir constante en el modelo H0 : j = 0 H1 : j 0Al nivel de significación del 5%: Motor (0.108) y Acel (0.672) “no son significativas” CV (0.000) y Peso (0.000) “sí son significativas”
  • 16. Inferencia sobre el modelo Bondad de ajuste Descomposición de la variabilidad ˆ)yYˆ()yY( n 1i 2 i n 1i 2 i n 1i 2 i 32144 344 2144 344 21 VNEVEVT ∑∑∑ === +−=− VT VNE -1 VT VE R2 == Coeficiente de determinación R: Coeficiente correlación lineal múltiple Indica la mayor correlación entre Y y las c.l. de las v. explicativas Coeficiente de determinación corregido Inconveniente: Sobrevalora la bondad del ajuste R 1-k-n 1-n -1R 22 =
  • 17. Ejemplo (Coches.sav) Resumen del modelob ,869a ,755 ,752 1,970 Modelo 1 R R cuadrado R cuadrado corregida Error típ. de la estimación Variables predictoras: (Constante), Aceleración 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc a. Variable dependiente: Consumo (l/100Km)b. R2 = 0.755 Consumo queda explicada en un 75.5% por las variables explicativas según el modelo lineal considerado R2 corregido = 0.752 (siempre algo menor que R2)
  • 18. Inferencia sobre el modelo Contraste de regresión (ANOVA) Utilidad: Verificar que (de forma conjunta) las v.explicativas aportan información en la explicación de la variable de respuesta Contraste: H0 : 1 = 2 =… = k = 0 H1 : Algún j 0 H0 : R = 0 H1 : R 0 Aceptar H0 significa que “las v.explicativas no están relacionadas linealmente con Y” Resolución (ANOVA) F 1)-k-(n/VNE k/VE F 1-k-nk,HBajo 0  →=
  • 19. Ejemplo (Coches.sav) ANOVAb 4626,220 4 1156,555 297,956 ,000a 1502,188 387 3,882 6128,408 391 Regresión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig. Variables predictoras: (Constante), Aceleración 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc a. Variable dependiente: Consumo (l/100Km)b. Contraste de regresión n-1VTTotal VNE / (n-k-1)n-k-1VNEResidual VE / kkVEModelo F exp.Media cuadrática Grados de libertad Suma de cuadrados Fuente de variabilidad VE / k VNE / (n-k-1) Al 5% se rechaza H0 (las variables explicativas influyen de forma conjunta y lineal sobre Y)
  • 20. Predicción Bandas de confianza I.C. para la media de Y I.C. para los valores predichos de Y x...x)x,...,x,x(Yˆ kk110k21 +++= Predicciones para Y (dentro del rango de predicción) Gráfico de dispersión Variable dependiente: Consumo (l/100Km) Consumo (l/100Km) 3020100 RegresiónValorpronosticadotipificado 3 2 1 0 -1 -2 R² = 0.7549
  • 21. El análisis de los residuosEl análisis de los residuos 1. Normalidad de los residuos 2. No autocorrelación 3. Homocedasticidad 4. Falta de linealidad 5. No multicolinealidad Objetivo: Verificar que no se violan las hipótesis sobre las que se estima el modelo y se realiza la inferencia Posibles correcciones: • Detección de atípicos y puntos influyentes • Transformaciones • Variables ficticias • Ajustes polinomiales • Términos de interacción
  • 22. 1.1. Normalidad de los residuos Herramientas disponibles en SPSS Gráficos: Histograma, gráfico probabilístico normal Residuo tipificado Histograma Frecuencia 100 80 60 40 20 0 Desv. típ. = ,99 Media = 0,00 N = 392,00 Contrastes: Kolmogorov-Smirknov, Shapiro-Wilks,… Gráfico P-P normal de regresión Residuo tipificado Prob acum observada 1.00.75.50.250.00 Probacumesperada 1.00 .75 .50 .25 0.00
  • 23. 1.2. No autocorrelación Herramientas disponibles en SPSS: Gráficos residuales y el estadístico de Durbin-Watson Hace referencia a los efectos de la inercia de una observación a otra que pueda indicar la no independencia entre los residuos. Se trata de buscar modelos o pautas en los gráficos residuales frente al número de caso (incluso con cada variable independiente). Número de orden de las observaciones 5004003002001000-100 StandardizedResidual 4 3 2 1 0 -1 -2 -3 1,970 1,228 Error típ. de la estimación Durbin-W atson Variables predictoras: (Constante), Aceleración 0 a 100 km/h (segundos), H0: No hay autocorrelación •Si d<1.18 rechazar, •Si d>1.4 no rechazar. •Si 1.18<d<1.4 no es concluyente Posibles soluciones: - Transformaciones - Añadir variables
  • 24. 1.3. Homocedasticidad Herramientas disponibles en SPSS: Gráficos residuales Hace referencia a la constancia de los residuos para los valores que van tomando las variables independientes. Cilindrada en cc 80007000600050004000300020001000 StandardizedResidual 4 3 2 1 0 -1 -2 -3 Potencia (CV) 3002001000 StandardizedResidual 4 3 2 1 0 -1 -2 -3 Peso total (kg) 18001600140012001000800600400 StandardizedResidual 4 3 2 1 0 -1 -2 -3 Aceleración 0 a 100 km/h (segundos) 3020100 StandardizedResidual 4 3 2 1 0 -1 -2 -3 Regresión Valor pronosticado tipificado 3210-1-2 Consumo(l/100Km) 30 20 10 0
  • 25. 1.4. Falta de linealidad Herramientas disponibles en SPSS: Gráficos de regresión parcial y gráficos residuales Hace referencia a las posibles desviaciones de los datos desde el modelo lineal que se está ajustando. Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) Cilindrada en cc 3000200010000-1000-2000 Consumo(l/100Km) 30 20 10 0 -10 Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) Potencia (CV) 806040200-20-40 Consumo(l/100Km) 30 20 10 0 -10 Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) Peso total (kg) 4002000-200-400-600-800 Consumo(l/100Km) 20 10 0 -10 Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) Aceleración 0 a 100 km/h (segundos) 86420-2-4-6 Consumo(l/100Km) 30 20 10 0 -10 Son diagramas de dispersión de los residuos de cada v. independiente y los residuos de la v. dependiente cuando se regresan ambas por separado sobre las restantes v. independientes.
  • 26. 1.5. No multicolinealidad Herramientas disponibles en SPSS: Índices de condicionamiento, FIV Colinealidad es la asociación, medida como correlación, entre dos variables explicativas (el término multicolinealidad se utiliza para tres o más variables explicativas). Reducción del poder explicativo de cualquier v. explicativa individual en la medida en que está correlada con las otras v. explicativas presentes en el modelo. Impacto de la multicolinealidad Diagnósticos de colinealidada 4,729 1,000 ,00 ,00 ,00 ,00 ,00 ,238 4,454 ,00 ,03 ,00 ,00 ,02 2,268E-02 14,440 ,03 ,22 ,29 ,01 ,06 6,265E-03 27,474 ,20 ,75 ,02 ,70 ,00 3,612E-03 36,185 ,76 ,01 ,69 ,29 ,92 Dimensión 1 2 3 4 5 Modelo 1 Autovalor Indice de condición (Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleración 0 a 100 km/h (segundos) Proporciones de la varianza Variable dependiente: Consumo (l/100Km)a. Posibles soluciones: - ACP y utilizar las componentes principales como regresores. - A la vista de las correlaciones eliminar variables “redundantes”. 1. Identificar los índices que estén por encima del umbral: 30 2. Para los índices identificados, identificar las variables con proporciones de varianza por encima del 90%: Habrá multicolinealidad si ocurre con dos o más coeficientes.
  • 27. Datos anómalos Medidas de influencia Datos anómalos (atípicos) Individuos cuyo residuos tipificado es superior a 3 (en valor absoluto) Datos influyentes Individuos cuya omisión produce cambios notables en los resultados del análisis Herramientas estadísticas (medidas de influencia) • Identificación de puntos de apalancamiento (observaciones aisladas del resto sobre una o más v.independientes) • Observaciones influyentes: influencias sobre coeficientes individuales, medidas globales de influencia. Objetivo: Detectar datos anómalos y datos influyentes
  • 28. Leverage o medida de influencia: Límite: 2(k+1) / n (Si n>50, 3(k+1) / n) Distancia de Mahalanobis: Considera la distancia de cada observación desde los valores medios de las v.independientes. Existen tablas para contrastar, pero en general se procede a identificar valores considerablemente altos respecto al resto. Medidas para identificar puntos de apalancamiento: • Influencias sobre coeficientes individuales: DFBETA Mide el efecto del dato i-ésimo ejerce sobre j. Límites para la versión estandarizada: ± 2 n - 1 / 2 (si n<50 usar los límites de la normal) • Medidas globales de influencia: DFITTS Mide el efecto del dato i-ésimo ejerce en su propia predicción. Límites para la versión estandarizada: ± 2 [ (k+2) / (n-k-2) ]1 / 2 COVRATIO Representa el grado al que una observación tiene impacto sobe los errores estándar de los coeficientes. Límites: 1 ± 3(k+1) / n Distancia de Cook: Localizar valores que exceden a 4 / (n-k-1) Medidas para identificar observaciones influyentes:
  • 29. Diagnósticos por casoa 10,176 26 5,95 20,05 Número de caso 35 Residuo tip. Consumo (l/100Km) Valor pronosticado Residuo bruto Variable dependiente: Consumo (l/100Km)a. Estadísticos sobre los residuosa 5,95 21,05 11,27 3,440 392 -1,545 2,843 ,000 1,000 392 ,107 ,831 ,210 ,075 392 4,57 21,08 11,26 3,447 392 -5,16 20,05 ,00 1,960 392 -2,618 10,176 ,000 ,995 392 -2,641 10,520 ,001 1,011 392 -5,25 21,43 ,00 2,024 392 -2,661 12,433 ,006 1,067 392 ,166 68,628 3,990 4,866 392 ,000 1,520 ,007 ,077 392 ,000 ,176 ,010 ,012 392 Valor pronosticado Valor pronosticado tip. Error típico del valor pronosticado Valor pronosticado corregido Residuo bruto Residuo tip. Residuo estud. Residuo eliminado Residuo eliminado estud. Dist. de Mahalanobis Distancia de Cook Valor de influencia centrado Mínimo Máximo Media Desviación típ. N Variable dependiente: Consumo (l/100Km)a. Detección de residuos atípicos: Los valores tipificados deben estar entre -3 y 3 Detección de puntos influyentes: Dist. De Mahalanobis, Cook, valor de influencia SPSS El rango de valores para la distancia de Mahalanobis es elevado Hay valores de la distancia de Cook superiores a 4 / (n-k-1) = 0.010 Medida de influencia. Límite (k=4): 0.038 Posible solución: Eliminar observaciones
  • 30. Selección de un subconjunto óptimo de variables independientes Objetivo: Seleccionar aquellas variables que sin ser redundantes proporcionen la mejor explicación de la v. dependiente. Métodos secuenciales en SPSS: Hacia atrás, Hacia delante, Pasos sucesivos En términos muy muy generales… …Evalúan estadísticos F que controlan la entrada y salida de variables, además de las correlaciones parciales de la v. dependiente con cada regresor.
  • 31. Variables introducidas/eliminadasa Peso total (kg) , Hacia adelante (criterio: Prob. de F para entrar <= ,050) Potencia (CV) , Hacia adelante (criterio: Prob. de F para entrar <= ,050) Modelo 1 2 Variables introducidas Variables eliminadas Método Variable dependiente: Consumo (l/100Km)a. Resumen del modelo ,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000 ,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000 Modelo 1 2 R R cuadrado R cuadrado corregida Error típ. de la estimación Cambio en R cuadrado Cambio en F gl1 gl2 Sig. del cambio en F Estadísticos de cambio Variables predictoras: (Constante), Peso total (kg)a. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)b. Método forward (hacia delante) Inicialmente no hay regresores, se van introduciendo uno a uno aquellos que tienen alta correlación parcial con la v. dependiente y que son significativos (valor F-entrar).
  • 32. Método backward (hacia atrás) Inicialmente se incluyen todos las v. independientes, se van eliminando una a una las que van resultando significativas (valor F-salir). Variables introducidas/eliminadasb Aceleración 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc a , Introducir , Aceleración 0 a 100 km/h (segundos) Hacia atrás (criterio: Prob. de F para eliminar >= ,100). , Cilindrada en cc Hacia atrás (criterio: Prob. de F para eliminar >= ,100). Modelo 1 2 3 Variables introducidas Variables eliminadas Método Todas las variables solicitadas introducidasa. Variable dependiente: Consumo (l/100Km)b. Resumen del modelo ,869a ,755 ,752 1,970 ,755 297,956 4 387 ,000 ,869b ,755 ,753 1,968 ,000 ,180 1 389 ,672 ,868c ,753 ,752 1,972 -,002 2,456 1 390 ,118 Modelo 1 2 3 R R cuadrado R cuadrado corregida Error típ. de la estimación Cambio en R cuadrado Cambio en F gl1 gl2 Sig. del cambio en F Estadísticos de cambio Variables predictoras: (Constante), Aceleración 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cca. Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en ccb. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)c.
  • 33. Método Stepwise (pasos sucesivos) Combina los dos métodos anteriores definiendo un procedimiento en el que las variables independientes entran o salen del modelo dependiendo de su significación (valores F-entrar y F-salir). Variables introducidas/eliminadasa Peso total (kg) , Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Potencia (CV) , Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Modelo 1 2 Variables introducidas Variables eliminadas Método Variable dependiente: Consumo (l/100Km)a. Resumen del modelo ,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000 ,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000 Modelo 1 2 R R cuadrado R cuadrado corregida Error típ. de la estimación Cambio en R cuadrado Cambio en F gl1 gl2 Sig. del cambio en F Estadísticos de cambio Variables predictoras: (Constante), Peso total (kg)a. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)b.
  • 34. Resumen Pasos a seguir en un análisis de regresión Paso 1. Objetivos del análisis Paso 2.Diseño de la investigación mediante regresión múltiple Paso 3.Supuestos del análisis Paso 4. Estimación del modelo de regresión y valoración global del ajuste Paso 5. Interpretación y validación de los resultados.