Correlación y Regresión                           Marcelo Rodríguez, MSc                             Ingeniero Estadístico...
IntroducciónComúnmente, cuando se realiza un estudio estadístico, se miden a unamisma    unidad de análisis, más de una va...
Relación entre las variablesDenición (Covarianza)La covarianza entre dos variables cuantitativas, nos indica si la posible...
Relación entre las variablesEjemploConsidere un estudio donde se mide el DAP (X ) en centímetros y la Altura(Y ) en metros...
Grado de relación entre las variablesCoeciente de correlación de PearsonDenición (Correlación)El coeciente de correlación ...
Grado de relación entre las variablesCoeciente de correlación de Pearson      Indica si los puntos tienen una tendencia a ...
Grado de relación entre las variablesCoeciente de correlación de PearsonEjemploCon los datos anteriores, calcule e interpr...
Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativaPara probar la hipóte...
Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativaEjemploPruebe la hipó...
Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativa en SPSS  mrodriguez@...
Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativa en SPSS             ...
Regresión Lineal SimpleIntroducción (Regresión Lineal Simple)      El término regresión fue introducido por Galton en su l...
Peso                        ningunoRegresión Lineal Simple       Segmentar archivo                              Núm. de fi...
Regresión Lineal SimpleLa ecuación de regresiónLa ecuación de predicción esperada está dada por                           ...
Regresión Lineal SimpleLa ecuación de regresiónEjemploConsiderando los datos del problema anterior, encuentre la ecuación ...
Regresión Lineal SimpleLa ecuación de regresiónEjemploEntonces, la ecuación sería:                            Altura   = −...
Regresión Lineal SimplePrueba de hipótesis para la pendientePara probar la hipótesis de que la pendiente es signicativamen...
Regresión Lineal SimplePrueba de hipótesis para la pendienteEjemploPruebe la hipótesis de que la pendiente es distinta de ...
Regresión Lineal SimpleRegresión Lineal Simple en SPSS  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.   22/10/2010 ...
Regresión Lineal SimpleRegresión Lineal Simple en SPSS                                              [Conjunto_de_datos1] D...
RegresiónEstimación curvilínea: Modelo ExponencialUn modelo de regresión se dice que es exponencial si                    ...
RegresiónEstimación curvilínea: Modelo Exponencial (Modelo exponencial)      El modelo exponencial, se puede solucionar me...
RegresiónEstimación curvilínea: Modelo ExponencialEjemploPara los datos de DAP=      X y Volumen= Y, encuentre            ...
RegresiónEstimación curvilínea: Modelo ExponencialEjemplo      También podemos encontrar la ecuación de regresión lineal s...
RegresiónEstimación curvilínea: Modelo Exponencial en SPSS  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.   22/10/2...
RegresiónEstimación curvilínea: Modelo Exponencial en SPSS                                                                ...
RegresiónEstimación curvilínea: Algunos modelos clásicos  Modelo        Ecuación                              Comentario  ...
RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS                                                      Enco...
RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.   ...
RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS      Lineal: V olumen = −0, 055 + 0, 011 · DAP,          ...
RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS      Lineal: V olumen = −0, 055 + 0, 011 · DAP,          ...
Regresión Lineal Múltiple  Introducción                                                                                   ...
Regresión Lineal MúltipleEl modelo lineal generalEl modelo de regresión lineal sería                    yi = β0 + β1 · xi1...
Regresión Lineal MúltipleEjemplo de estimación de los parámetros.EjemploSe desea conocer la tasa de crecimiento de un cult...
Regresión Lineal MúltipleEjemplo de estimación de los parámetros.      Se propone el siguiente modelo                     ...
Regresión Lineal MúltiplePrueba de hipótesis para los parámetros. (Prueba de hipótesis para los parámetros del modelo)    ...
Regresión Lineal MúltipleEjemplo de estimación de los parámetros.Para vericar si las variables independientes (xj ) tienen...
Regresión Lineal MúltipleBondad de ajuste (Coeciente de Determinación (R2 ))Expresa la proporción de varianza de la variab...
Regresión Lineal MúltipleBondad de ajuste (Coeciente de correlación múltiple (R))Es la raíz de    R2 .   Si tenemos dos va...
Regresión Lineal MúltiplePrueba de hipótesis para cada uno de los parámetrosHipótesis: H0 : βj = 0             v/s       H...
Regresión Lineal MúltipleParámetros estandarizados (coecientes tipicados)   1   Los coecientes tipicados, se obtienen de l...
Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.   22/10...
Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS                          Variables introducidas/eliminadas     ...
Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS     No existe suciente evidencia muestral, para armar que el % ...
Regresión Lineal MúltipleCorrelaciones parciales y semiparciales (Correlaciones parciales)Es la correlación lineal entre d...
Regresión Lineal MúltiplePuntos de inuenciaLa distancia de Cook (1977) mide el cambio que se produce en lasestimaciones de...
Regresión Lineal MúltipleDistancia de Cook en SPSS                                        En                          la  ...
Regresión Lineal MúltipleSupuestos del Modelo (Supuestos del Modelo de Regresión)Los supuestos de un modelo estadístico se...
Regresión Lineal MúltipleSupuestos del Modelo: LinealidadLos diagramas de regresión parcialpermiten examinar la relación e...
Regresión Lineal MúltipleSupuestos del Modelo: Linealidad                                               La relación entre ...
Regresión Lineal MúltipleSupuestos del Modelo: IndependenciaPara vericar el supuesto de independencia entre los residuos  ...
Regresión Lineal MúltipleSupuestos del Modelo: Linealidad                                               Como              ...
Regresión Lineal MúltipleSupuestos del Modelo: NormalidadLos residuos (o los residuos tipi-cados) deben cumplir el supuest...
Regresión Lineal MúltipleSupuestos del Modelo: NormalidadEstos grácos indicaría, por lo menos en forma visual, que los res...
Regresión Lineal MúltipleSupuestos del Modelo: Normalidad  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.   22/10/2...
Regresión Lineal MúltipleSupuestos del Modelo: Normalidad  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.   22/10/2...
Regresión Lineal MúltipleSupuestos del Modelo: NormalidadNo existe suciente evidencia muestral para rechazar que los resid...
Regresión Lineal MúltipleSupuestos del Modelo: HomocedasticidadComúnmente este supuesto se verica mediante una gráca. Se d...
Regresión Lineal MúltipleSupuestos del Modelo: No-colinealidad     Existe colinealidad perfecta cuando una de las variable...
Regresión Lineal MúltipleSupuestos del Modelo: No-colinealidad     El nivel de tolerancia de una variable se obtiene resta...
a                                                                                                       CoeficientesRegres...
Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresiónLa regresión por pasos (s...
Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresiónEn el ejemplo anterior, s...
Tiempo transcurrido                                              00:00:00,031Regresión Lineal Múltiple                    ...
Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresiónPara que coincida con los...
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Próxima SlideShare
Cargando en…5
×

Regresión lineal en spss para ciencias agrarias y forestales

15.312 visualizaciones

Publicado el

Publicado en: Educación
4 comentarios
10 recomendaciones
Estadísticas
Notas
Sin descargas
Visualizaciones
Visualizaciones totales
15.312
En SlideShare
0
De insertados
0
Número de insertados
953
Acciones
Compartido
0
Descargas
616
Comentarios
4
Recomendaciones
10
Insertados 0
No insertados

No hay notas en la diapositiva.

Regresión lineal en spss para ciencias agrarias y forestales

  1. 1. Correlación y Regresión Marcelo Rodríguez, MSc Ingeniero Estadístico Universidad Católica del Maule Facultad de Ciencias Básicas Diseño de Experimentos y Modelos de Regresión lineal: Aplicaciones en SPSS. MÓDULO 5 y 6 26 de noviembre de 2010mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 1 / 84
  2. 2. IntroducciónComúnmente, cuando se realiza un estudio estadístico, se miden a unamisma unidad de análisis, más de una variable.Denición (Variable Dependiente)Es la variable por predecir (o por modelar) y se denota con la letra Y.Denición (Variable Independiente)Son las variables que se utilizan para predecir y se denota con la letra X.Denición (Relación entre variables)Se dice que dos variables están relacionadas, si cambios producidos (causa)en la variable independiente producen un efecto en la variable dependiente. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 2 / 84
  3. 3. Relación entre las variablesDenición (Covarianza)La covarianza entre dos variables cuantitativas, nos indica si la posiblerelación entre dos variables es directa o inversa. La covarianza muestral secalcula de la siguiente manera: n (xi − x)(yi − y) i=1 Sxy covxy = = n−1 n−1 Si la covarianza es negativa, entonces la relación es inversa. Si la covarianza es positiva, entonces la relación es directa. Si la covarianza es cero, entonces la relación es nula (no relacionados).El signo de la covarianza nos dice si el aspecto de la nube de puntos escreciente o no, pero no nos dice nada sobre el grado de relación entre lasvariables. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 3 / 84
  4. 4. Relación entre las variablesEjemploConsidere un estudio donde se mide el DAP (X ) en centímetros y la Altura(Y ) en metros. Se considera una muestra de 10 árboles, los datos son: DAP (xi ) Altura (yi ) (xi − x) (yi − y) (xi − x)(xi − x) 15,6 17,4 2,05 0,75 1,5375 14,8 18,4 1,25 1,75 2,1875 15,5 16,5 1,95 -0,15 -0,2925 12,5 15,2 -1,05 -1,45 1,5225 14,2 19,9 0,65 3,25 2,1125 15,7 22,1 2,15 5,45 11,7175 12,3 14,8 -1,25 -1,85 2,3125 14,2 17,3 0,65 0,65 0,4225 8,8 10,3 -4,75 -6,35 30,1625 11,9 14,6 -1,65 -2,05 3,3825 Promedio 13,55 16,65 Suma 55,065 55,065La covarianza sería covxy = 9 = 6, 118. Lo que indica es que el DAC yla altura están relacionados, de forma directa (a medida que aumenta elDAP aumenta la altura). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 4 / 84
  5. 5. Grado de relación entre las variablesCoeciente de correlación de PearsonDenición (Correlación)El coeciente de correlación de Pearson, indica la fuerza y la dirección deuna relación lineal entre dos variables aleatorias. Se considera que dosvariables cuantitativas están correlacionadas cuando los valores de una deellas varían sistemáticamente con respecto a los valores de la otra. n (xi − x)(yi − y) i=1 Sxy r= = n n Sxx Syy (xi − x)2 · (yi − y)2 i=1 i=1 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 5 / 84
  6. 6. Grado de relación entre las variablesCoeciente de correlación de Pearson Indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Es útil para determinar si hay relación lineal (y = β0 + β1 · x) entre dos variables. Tiene el mismo signo que Covxy . La diferencia radica en que r está acotado en [−1, 1]. Si está cercana a -1, indica que las variables están relacionadas en forma inversa, si está cercana a +1, la relación es directa y si está cercana a 0, las variables no están relacionadas. Cuanto más cerca esté r de −1 o +1 mejor será el grado de relación lineal. Siempre que no existan observaciones atípicas. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 6 / 84
  7. 7. Grado de relación entre las variablesCoeciente de correlación de PearsonEjemploCon los datos anteriores, calcule e interprete la correlación. DAP (xi ) Altura (yi ) (xi − x)2 (yi − y)2 15,6 17,4 4,2025 0,5625 14,8 18,4 1,5625 3,0625 15,5 16,5 3,8025 0,0225 12,5 15,2 1,1025 2,1025 14,2 19,9 0,4225 10,5625 15,7 22,1 4,6225 29,7025 12,3 14,8 1,5625 3,4225 14,2 17,3 0,4225 0,4225 8,8 10,3 22,5625 40,3225 11,9 14,6 2,7225 4,2025 Promedio 13,55 16,65 Suma 42,985 94,385 55,065La correlación sería r= √ 42,985·94,385 = 0, 865. Lo que indica es que elDAC y la altura están relacionados, de forma directa casi perfecta (rcercana a 1). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 7 / 84
  8. 8. Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativaPara probar la hipótesis de que la correlación es signicativamente distinta(mayor o menor) que cero, se debe seguí el siguiente procedimiento.Comúnmente cuando el valor−p es menor que 0,05 se dice que essignicativa, si es menor que 0,01 es altamente signicativa. √ r· n−2 Estadística de prueba: tc = √ 1 − r2 Hip. Nula Hip. Alternativa Rechace H0 si Valor−p H0 : ρ = 0 H1 : ρ = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)] H0 : ρ = 0 H1 : ρ 0 tc t1−α (n − 2) 1 − P(T |tc |) H0 : ρ = 0 H1 : ρ 0 tc −t1−α (n − 2) 1 − P(T |tc |)T se distribuye t−student con n−2 grados de libertad. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 8 / 84
  9. 9. Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativaEjemploPruebe la hipótesis de que la correlación es signicativa. Hipótesis: H0 : ρ = 0 H1 : ρ = 0 v/s √ 0, 865 · 8 Estadístico de prueba: tc = = 4, 865. 1 − 0, 8652 Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si |tc | t0,975 (8) = 2, 306. Signicancia: valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015 = Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente valor−p 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente correlacionadas (en rigor estricto es altamente signicativa, pues el valor−p 0, 01). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 9 / 84
  10. 10. Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativa en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 10 / 84
  11. 11. Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signicativa en SPSS Correlaciones DAP Altura ** DAP Correlación de Pearson 1 ,865 Sig. (bilateral) ,001 N 10 10 ** Altura Correlación de Pearson ,865 1 Sig. (bilateral) ,001 N 10 10 **. La correlación es significativa al nivel 0,01 (bilateral). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 11 / 84
  12. 12. Regresión Lineal SimpleIntroducción (Regresión Lineal Simple) El término regresión fue introducido por Galton en su libro Natural inheritance (1889) reriéndose a la ley de la regresión universal. Se supone que se tiene una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) correspondiente a la observación conjunta de las variables X e Y . El objetivo será encontrar una relación entre ambas variables, esta relación podría estar dada por una recta (ecuación de regresión: y = β0 + β0 · x). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 12 / 84
  13. 13. Peso ningunoRegresión Lineal Simple Segmentar archivo Núm. de filas del archivo de trabajo ninguno 10Diagrama deSintaxis dispersión GRAPH /SCATTERPLOT(BIVAR)=DAP WITH Altura /MISSING=LISTWISE.En un diagrama Tiempo de procesador Recursos de dispersión, cada unidad00:00:00,500 de análisis es un punto cuyascoordenadas sonTiempo transcurrido de las variables. El error aleatorio; los valores 00:00:00,530 son lasdesviaciones de los verdaderos valores de Y con respecto a los valores [Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlacestimados y y(recta). Lineal Simple)datoseje_corr.sav ión Regresión 22 20 18 Altura 16 14 12 10 R2 Lineal = 0,747 8 10 12 14 16 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 13 / 84
  14. 14. Regresión Lineal SimpleLa ecuación de regresiónLa ecuación de predicción esperada está dada por y = β0 + β1 · x.Donde, las estimaciones de los parámetros β1 y β0 son: Sxy β1 = ; y β0 = y − β1 x Sxx Intercepto (β0 ): es la estimación de y cuando x = 0. Pendiente (β1 ): es la estimación de la pendiente de la recta (magnitud del incremento (o decremento) de y por cada unidad de incremento en x.)Además, se dene el coeciente de determinación r2 , como el porcentajede la variabilidad total que explica el modelo. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 14 / 84
  15. 15. Regresión Lineal SimpleLa ecuación de regresiónEjemploConsiderando los datos del problema anterior, encuentre la ecuación deregresión entre el DAP y la altura.La ecuación de predicción esperada está dada por y = β0 + β1 x, Altura = β0 + β1 · DAP,Donde, las estimaciones de los parámetros β1 y β0 son: 55, 065 β1 = = 1, 281; y β0 = 16, 65 − 1, 281 · 13, 55 = −0, 708. 42, 985 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 15 / 84
  16. 16. Regresión Lineal SimpleLa ecuación de regresiónEjemploEntonces, la ecuación sería: Altura = −0, 708 + 1, 281 · DAP, Pendiente: Por cada centímetro que se incrementa el DAP, la altura se incrementa en 1,281 metros. Intercepto: Un árbol con un DAP muy pequeño (0), se estima que su Altura será de -0,708. En este caso no tiene sentido.Esta recta, puede servir para predecir, suponga que tiene un árbol con unDAP=8cm, entonces se estima que su altura sería deAltura = −0, 708 + 1, 281 · 8 = 9, 54 metros.Además el porcentaje de la variabilidad total que explica el modelo es de74,7% (r 2 = 0, 8652 = 0, 747). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 16 / 84
  17. 17. Regresión Lineal SimplePrueba de hipótesis para la pendientePara probar la hipótesis de que la pendiente es signicativamente distinta(mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al serla pendiente distinta de cero, esto indicaría que las variables estánrelacionadas. √ β1 · Sxx Estadística de prueba: tc = se Hip. Nula Hip. Alternativa Rechace H0 si Valor−p H0 : β 1 = 0 H1 : β 1 = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)] H0 : β 1 = 0 H1 : β 1 0 tc t1−α (n − 2) 1 − P(T |tc |) H0 : β 1 = 0 H1 : β 1 0 tc −t1−α (n − 2) 1 − P(T |tc |)T se distribuye t−student con n−2 grados de libertad. Además n 2 i=1 (yi −yi ) Syy −β1 Sxys = n−2 = n−2 es la desviación estándar del error,también llamado, error estándar (típico) de la estimación. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 17 / 84
  18. 18. Regresión Lineal SimplePrueba de hipótesis para la pendienteEjemploPruebe la hipótesis de que la pendiente es distinta de cero. Hipótesis: H0 : β1 = 0 H1 : β 1 = 0 v/s √ 1, 281 · 42, 985 Estadístico de prueba: tc = = 4, 865. 1, 726 Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si |tc | t0,975 (8) = 2, 306. Signicancia: valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015 = Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente valor−p 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente relacionadas. (Esta prueba es equivalente a la prueba de hipótesis para la correlación). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 18 / 84
  19. 19. Regresión Lineal SimpleRegresión Lineal Simple en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 19 / 84
  20. 20. Regresión Lineal SimpleRegresión Lineal Simple en SPSS [Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Ex y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ión y Regresión Lineal Simple)datoseje_corr.sav Resumen del modelo Modelo R cuadrado Error típ. de la R R cuadrado corregida estimación a 1 ,865 ,747 ,716 1,726 a. Variables predictoras: (Constante), DAP a Coeficientes Modelo Coeficientes Coeficientes no estandarizados tipificados B Error típ. Beta t Sig. 1 (Constante) -,708 3,610 -,196 ,849 DAP 1,281 ,263 ,865 4,865 ,001 a. Variable dependiente: Altura mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 20 / 84
  21. 21. RegresiónEstimación curvilínea: Modelo ExponencialUn modelo de regresión se dice que es exponencial si Resumen del modelo y estimaciones de los parámetros y = β0 · exp[β1 · x] Variable dependiente:Volumen Ecuación Estimaciones de los parámetrosPor ejemplo, considere el problemaExponencial se mide el DAP=X y el Constante b1 donde ,001 ,266Volumen=Y. Los datos y la gráca son: La variable independiente esDAP. Volumen DAP=X Volumen=Y 0,200 16,9 ,117 8,9 ,025 0,150 17,7 ,131 2,1 ,001 11,5 ,037 0,100 19,9 ,198 6,2 ,012 0,050 17,1 ,127 14,7 ,089 0,000 18,6 ,167 0,0 5,0 10,0 15,0 20,0 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 21 / 84
  22. 22. RegresiónEstimación curvilínea: Modelo Exponencial (Modelo exponencial) El modelo exponencial, se puede solucionar mediante una regresión lineal simple. Aplicar el logaritmo natural a la ecuación y = β0 · exp[β1 · x] . Tendríamos w = ln[y] = ln[β0 ] + β1 · x . Encuentre la ecuación de regresión lineal simple entre X y W. Luego se debe aplicar la exponencial a w para despejar y. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 22 / 84
  23. 23. RegresiónEstimación curvilínea: Modelo ExponencialEjemploPara los datos de DAP= X y Volumen= Y, encuentre la ecuación deregresión y = β0 · exp[β1 · x]. Considere lo siguiente: DAP=X Volumen=Y W = ln[Y ] La ecuación de regresión entre X y W es 16,9 8,9 0,117 0,025 -2,1456 -3,6889 w = −6, 588 + 0, 266x. 17,7 0,131 -2,0326 Además el 2 rxw = 0, 934. 2,1 0,001 -6,9078 11,5 0,037 -3,2968 Aplicando la exponencial y considerando 19,9 0,198 -1,6195 6,2 0,012 -4,4228 que w = ln[y], tenemos 17,1 0,127 -2,0636 14,7 0,089 -2,4191 y = exp[−6, 588] exp[0, 266x] 18,6 0,167 -1,7898 y = 0, 001 exp[0, 266x]. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 23 / 84
  24. 24. RegresiónEstimación curvilínea: Modelo ExponencialEjemplo También podemos encontrar la ecuación de regresión lineal simple entre X e Y. La cual sería, y = −0, 055 + 0, 011x, con 2 rxy = 0, 890. El modelo exponencial es 2 y = 0, 001 exp[0, 266x], con rxw = 0, 934. En los datos existe un árbol con DAP= 14, 7 y Volumen= 0, 089. Si utilizamos estos dos modelos para predecir el volumen de un árbol con DAP=14,7, tenemos Con el modelo de regresión lineal simple: y = −0, 055 + 0, 011 · 14, 7 = 0, 105. Con el modelo exponencial: y = 0, 001 exp[0, 266 · 14, 7] = 0, 068. Ambas estimaciones del volumen están cercanas a 0, 089, pero la del modelo exponencial (0,068), está más cercana. Además, el r2 del modelo exponencial está más cercano al 100%. En conclusión, entre estos dos modelos el mejor es el exponencial. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 24 / 84
  25. 25. RegresiónEstimación curvilínea: Modelo Exponencial en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 25 / 84
  26. 26. RegresiónEstimación curvilínea: Modelo Exponencial en SPSS Resumen del modelo y estimaciones de los parámetros Variable dependiente:Volumen Ecuación Resumen del modelo Estimaciones de los parámetros R cuadrado F gl1 gl2 Sig. Constante b1 Lineal ,890 64,951 1 8 ,000 -,055 ,011 Exponencial ,934 112,799 1 8 ,000 ,001 ,266 La variable independiente esDAP. Volumen Observado 0,200 Lineal Exponencial 0,150 0,100 0,050 0,000 0,0 5,0 10,0 15,0 20,0 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 26 / 84
  27. 27. RegresiónEstimación curvilínea: Algunos modelos clásicos Modelo Ecuación Comentario Lineal y = β0 + β1 · x Este modelo ya se analizó con todo detalle. Logarítmico y = β0 + β1 · ln[x] Calcule T = ln[X], encuentre la ecuación de regresión lineal entre T e Y. Luego, en la ecuación y = β0 + β1 · t, reemplace t por ln[x]. 1 1 Inverso y = β0 + β1 · Calcule T = X , encuentre la ecuación de regresión lineal entre T e Y. x 1 Luego, en la ecuación y = β0 + β1 · t, reemplace t por . x Cuadrático y = β0 + β1 · x + β2 · x2 2 Calcule X y realice una regresión múltiple. Cúbico y = β0 + β1 · x + β2 · x2 + β3 · x3 Calcule X 2 , X 3 y realice una regresión múltiple. Potencia Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuación de regresión entre y = β0 · xβ1 T y W . En la ecuación w = b + m · t, reemplace t = ln[x] y w = ln[y]. Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = m. Compuesto Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W . x y = β0 · β1 En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = exp[m]. 1 Calcule T = G X , W = ln[Y ]. Encuentre la ecuación de regresión entre 1 1 y = exp β0 + β1 · T y W. En la ecuación w = b + m · t, reemplace t= x y w = ln[y]. x Luego despeje y. Entonces, los parámetros serían β0 = b y β1 = m. 1 ◦ máx. de iteraciones, usar 1000. Logística y= x Solución por sistemas no lineales. Ingresar n (β0 + β1 · β2 ) Crecimiento CalculeW = ln[Y ]. Encuentre la ecuación de regresión entre X y W. y = exp[β0 + β1 · x] En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y. Entonces, los parámetros serían β0 = b y β1 = m. Exponencial y = β0 · exp[β1 · x] Este modelo ya se analizó con todo detalle. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 27 / 84
  28. 28. RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS Encontraremos todos los modelos de regresión que propone SPSS. Un modelo es bueno si el valor−p 0, 05. El mejor modelo es el que tiene el menor valor−p, mayor r2 , mayor F y menor número de parámetros. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 28 / 84
  29. 29. RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 29 / 84
  30. 30. RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS Lineal: V olumen = −0, 055 + 0, 011 · DAP, r2 = 89, 0%. 1 Inversa: V olumen = 0, 130 − 0, 338 · , r2 = 41, 3%. DAP Potencia: V olumen = 0, 000166 · DAP 2,329 , r2 = 99, 5%. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 30 / 84
  31. 31. RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS Lineal: V olumen = −0, 055 + 0, 011 · DAP, r2 = 89, 0%. 1 Inversa: V olumen = 0, 130 − 0, 338 · , r2 = 41, 3%. DAP Potencia: V olumen = 0, 000166 · DAP 2,329 , r2 = 99, 5%. Volumen 0,200 Observado Lineal Inverso Potencia 0,150 0,100 0,050 0,000 0,0 5,0 10,0 15,0 20,0 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 31 / 84
  32. 32. Regresión Lineal Múltiple Introducción Técnica de dependencia que puede utilizarse para analizar la relación entre una única variable dependiente (Y ) y varias variables independientes x1 , x 2 , 28,0 . . . , xk . Cada variable independiente es Índice de sitio 26,0 24,0 ponderada (βj ), de forma que las ponderaciones indican su contribución 22,0 relativa a la predicción conjunta. 20,0 18,0 30 ,0 El objetivo es usar las variables ,0 1,20 35 1,25 1,30 40 ,0 independientes cuyos valores son 1,35 a ,40 1 45 ,0 en Den sida 1,45 1,50 ,0 Ar conocidos para predecir la única d 50 variable dependiente seleccionada por el investigador.ON mrodriguez@ucm.cl (UCM)NG LISTWISE Marcelo Rodríguez G. 22/10/2010 32 / 84
  33. 33. Regresión Lineal MúltipleEl modelo lineal generalEl modelo de regresión lineal sería yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik + εi .Donde         y1 1 x11 x12 . . . x1n β0 ε1  y2   1 x21 x22 . . . x2k   β1   ε2  Y =  . , X= . , β =  . , ε =  . ,         . . .  .  .  . . . . . . . .   .  .  .  . yn 1 xn1 xn2 . . . xnk βk εn βj , son los parámetros desconocidos, j = 1, . . . , k. El n ◦ total de parámetros es p = k + 1. εi es el i−ésimo error aleatorio asociado con yi , i = 1, . . . , n. El objetivo es estimar βj , a esta estimación la llamaremos βj . La estimación se los parámetros sería β= (XT X)−1 XT Y. Entonces el modelo estimado sería yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik . mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 33 / 84
  34. 34. Regresión Lineal MúltipleEjemplo de estimación de los parámetros.EjemploSe desea conocer la tasa de crecimiento de un cultivo bajo diferentescondiciones de sitio y manejo. En el caso del Eucaliptus Globulus esprácticamente desconocida, es por ello que se toman muestras de suelo decada rodal, midiendo el y = índice de sitio (altura promedio alcanzadapor árboles dominantes a una edad determinada), x1 = % de arena, x2 =% de arcilla y la x3 = densidad aparente (gr/cc). Índice de sitio (y ) 25,4 24,0 22,9 25,3 21,4 24,5 22,1 19,6 26,9 24,0 20,3 23,6 23,4 24,0 23,1 21,2 % Arena (x1 ) 40,5 45,8 47,6 47,2 40,4 38,9 45,3 32,7 41,5 42,9 40,2 46,1 45,0 48,9 41,3 46,2 % Arcilla (x2 ) 34,3 37,5 27,4 32,9 33,8 38,7 28,4 34,0 30,1 34,4 46,9 35,4 34,3 25,7 32,3 32,5 Densidad (x3 ) 1,29 1,32 1,40 1,30 1,41 1,25 1,38 1,50 1,20 1,34 1,38 1,49 1,47 1,36 1,42 1,48 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 34 / 84
  35. 35. Regresión Lineal MúltipleEjemplo de estimación de los parámetros. Se propone el siguiente modelo y = β0 + β1 · x1 + β2 · x2 + β3 · x3 + ε. Se desea estimar los parámetros del modelo (βj ). Por ejemplo, si la estimación del parámetro β2 es muy cercano a 0, quiere decir que el % de arcilla (x2 ) no inuye en la predicción del índice de sitio (y ). Los parámetros estimados serían: β0 = 43, 037, β1 = 0, 121, β2 = −0, 066, y β3 = −16, 604. Entonces el modelo estimado sería y = 43, 037 + 0, 121 · x1 − 0, 066 · x2 − 16, 604 · x3 . Índice de sitio = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 35 / 84
  36. 36. Regresión Lineal MúltiplePrueba de hipótesis para los parámetros. (Prueba de hipótesis para los parámetros del modelo) Hipótesis: H0 : β 0 = β 1 = · · · = β k = 0 v/s H1 : βj = 0, para algún j. Estadístico de prueba: Modelo Suma de Grados de Media Fc cuadrados libertad cuadrática n SCReg MCReg Regresión (yi − y)2 p−1 (p − 1) MCRes i=1 n SCRes Residual (yi − yi )2 n−p (n − p) i=1 n 2 Total (yi − y) n−1 i=1 Región de rechazo: Rechace H0 si Fc F1−α (p − 1, n − p). Signicancia: Valor-p = 1 − P(F Fc ). Donde F se distribuye Fisher con p−1 y n−p grados de libertad. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 36 / 84
  37. 37. Regresión Lineal MúltipleEjemplo de estimación de los parámetros.Para vericar si las variables independientes (xj ) tienen un aportesignicativo en la predicción del Índice de sitio (y ), debe probar:H0 : β0 = β1 = β2 = β3 = 0 v/s H1 : βj = 0, para algún j. Obser. y y (yi − y)2 (yi − y)2 (yi − yi )2 Modelo Suma de Grados de Media Fc 1 25,4 24,268 4,703 1,075 1,282 cuadrados libertad cuadrática 2 24,0 24,202 0,591 0,942 0,041 Regresión 39,481 3 13,160 9,196 3 22,9 23,758 0,110 0,278 0,736 Residual 17,173 12 1,431 4 25,3 25,007 4,280 3,154 0,086 Total 56,654 15 5 21,4 22,296 3,353 0,874 0,803 6 24,5 24,448 1,610 1,480 0,003 7 22,1 23,745 1,280 0,264 2,707 Siα = 0, 05. Rechace H0 si 8 19,6 19,854 13,186 11,402 0,065 9 26,9 26,161 13,460 8,582 0,546 Fc F0,95 (3, 12) = 3, 49. 10 24,0 23,722 0,591 0,241 0,077 11 20,3 21,906 8,592 1,757 2,578 El valor−p = 0, 002. 12 23,6 21,554 0,136 2,814 4,187 39,481 13 23,4 21,825 0,028 1,977 2,480 R2 = 56,654 = 0, 697. 14 24,0 24,692 0,591 2,134 0,479 15 23,1 22,338 0,017 0,797 0,580 Entonces, se rechaza H0 , en 16 21,2 21,923 4,126 1,710 0,523 Suma 371,700 371,700 56,654 39,481 17,173 favor de H1 . mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 37 / 84
  38. 38. Regresión Lineal MúltipleBondad de ajuste (Coeciente de Determinación (R2 ))Expresa la proporción de varianza de la variable dependiente que estáexplicada por las variables independientes. SCReg R2 = . SCTR2 corregida es una corrección a la baja de R2 que se basa en el númerode casos y de variables independientes: k(1 − R2 ) Rcorrejida = R2 − 2 . (n − k + 1) mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 38 / 84
  39. 39. Regresión Lineal MúltipleBondad de ajuste (Coeciente de correlación múltiple (R))Es la raíz de R2 . Si tenemos dos variables el Coeciente de correlaciónmúltiple es el valor absoluto del coeciente de correlación de Pearson, esdecir, R = |r|. (Error (residuo) estándar de la estimación)Es la desviación media que existe entre la variable dependiente y y suestimación y (el residuo es εi = yi − yi ). n (yi − yi )2 i=1 √ sε = = MCRes. n−p mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 39 / 84
  40. 40. Regresión Lineal MúltiplePrueba de hipótesis para cada uno de los parámetrosHipótesis: H0 : βj = 0 v/s H1 : βj = 0, para j = 0, 1, . . . , k. βj Estadística de prueba: tc = s(βj ) Hip. Nula Hip. Altern. Rechace H0 si Valor−p H0 : βj = 0 H1 : β j = 0 |tc | t1−α/2 (n − p) 2[1 − P(T |tc |)] H0 : βj = 0 H1 : β j 0 tc t1−α (n − p) 1 − P(T |tc |) H0 : βj = 0 H1 : β j 0 tc −t1−α (n − p) 1 − P(T |tc |)T se distribuye t−student con n − p grados de libertad. Además √s(βj ) = cj+1 · sε , donde cj+1 es el elemento (j + 1) de la diagonal de(XT X)−1 .Un intervalo de conanza del 100(1 − α)% para el parámetro βj es βj ± t1−α/2 (n − p) · s(βj ) mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 40 / 84
  41. 41. Regresión Lineal MúltipleParámetros estandarizados (coecientes tipicados) 1 Los coecientes tipicados, se obtienen de la ecuación de regresión tras estandarizar las variables originales. Es decir, debe a cada variable restarle su promedio y dividirlo por su desviación estándar, y luego encontrar los parámetros de la ecuación de regresión con esas nuevas variables. 2 Permiten valorar la importancia relativa de cada variable independiente dentro de la ecuación. En general, una variable independiente tiene tanto más peso (importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeciente de regresión estandarizado. 3 Indican la cantidad de cambio, en puntuaciones estándar, que se producirá en la variable dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes). 4 En regresión simple, el coeciente estandarizado, coincide con el coeciente de correlación de Pearson. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 41 / 84
  42. 42. Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 42 / 84
  43. 43. Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS Variables introducidas/eliminadas b Modelo Variables Variables introducidas eliminadas Método 1 Densidad, . Introducir Arena, a Arcilla a. Todas las variables solicitadas introducidas. b. Variable dependiente: Índice de sitio b Resumen del modelo Modelo R cuadrado Error típ. de la R R cuadrado corregida estimación a 1 ,835 ,697 ,621 1,1963 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio b ANOVA Modelo Suma de Media cuadrados gl cuadrática F Sig. a 1 Regresión 39,481 3 13,160 9,196 ,002 Residual 17,173 12 1,431 Total 56,654 15 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio a Coeficientes Modelo Coeficientes Coeficientes no estandarizados tipificados B Error típ. Beta t Sig. 1 (Constante) 43,037 7,036 6,117 ,000 Arena ,121 ,082 ,259 1,473 ,167 Arcilla -,066 ,069 -,168 -,953 ,360 Densidad -16,604 3,507 -,753 -4,734 ,000 a. Variable dependiente: Índice de sitio mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 43 / 84
  44. 44. Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS No existe suciente evidencia muestral, para armar que el % de arena (t= 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953, valor−p = 0, 360), inuyen en la estimación del índice de sitio. La muestra proporciona evidencia para armar que la densidad incide en la estimación del índice de sitio (t = −4, 734, valor−p = 0, 000). La relación entre la densidad y el índice de sitios es inversa (signo del estadístico de prueba). Según los coecientes estadarizados, la variable independiente más importante en la predicción del índice de sitios, es la densidad, luego el porcentaje de arena y por último el porcentaje de arcilla. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 44 / 84
  45. 45. Regresión Lineal MúltipleCorrelaciones parciales y semiparciales (Correlaciones parciales)Es la correlación lineal entre dos variables mientras se mantienen constantesotras variables. En el contexto del análisis de regresión, los coecientes decorrelación parcial expresan el grado de relación existente entre cadavariable independiente y la variable dependiente tras eliminar de ambas elefecto debido al resto de variables independientes incluidas en la ecuación.El coeciente de correlación parcial de primer orden, anotado aquí rAB/C ,permite conocer el valor de la correlación entre dos variables A y B , si lavariable C había permanecido constante para la serie de observacionesconsideradas. rAB − rAC · rBC rAB/C = . 2 1 − rAC · 2 1 − rBC mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 45 / 84
  46. 46. Regresión Lineal MúltiplePuntos de inuenciaLa distancia de Cook (1977) mide el cambio que se produce en lasestimaciones de los coecientes de regresión al ir eliminando cada caso dela ecuación de regresión. Una distancia de Cook grande indica que ese casotiene un peso considerable en la estimación de los coecientes de regresión.Para evaluar estas distancias puede utilizarse la distribución F con p yn−p grados de libertad. En general, un caso con una distancia de Cooksuperior a 1 debe ser revisado. n 2 yj − yj(i) j=1 Di = . p · MCResDonde yj(i) , es una estimación sin considerar el dato i−ésimo. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 46 / 84
  47. 47. Regresión Lineal MúltipleDistancia de Cook en SPSS En la base de datos, quedarán guardas las distancias, luego se debe hacer un gráco de dispersión en- tre las observaciones y las distancias. 1,25000 1,00000 Cooks Distance 0,75000 0,50000 0,25000 0,00000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Observación SAVE OUTFILE=D:Archivos de MarceloProyectos 2010Diseño Experimental y Mo los de Regresión + Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlación y Regresión L mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. eal + 22/10/2010 47 / 84
  48. 48. Regresión Lineal MúltipleSupuestos del Modelo (Supuestos del Modelo de Regresión)Los supuestos de un modelo estadístico se reeren a una serie decondiciones que deben darse para garantizar la validez del modelo. Linealidad: La variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinación lineal de variables independientes y los residuos. Independencia: Los residuos son independientes entre sí. Homocedasticidad: Para cada valor de la variable independiente, la varianza de los residuos es constante. Normalidad: Para cada valor de la variable independiente, los residuos se distribuyen normalmente con media cero. No-colinealidad: No existe relación lineal exacta entre ninguna de las variables independientes. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 48 / 84
  49. 49. Regresión Lineal MúltipleSupuestos del Modelo: LinealidadLos diagramas de regresión parcialpermiten examinar la relación exis-tente entre la variable dependiente ycada una de las variables independi-entes por separado, tras eliminar deellas el efecto del resto de las vari-ables independientes incluidas en elanálisis. Estos diagramas son sim-ilares a los de dispersión ya estu-diados, pero no están basados enlas puntuaciones originales de lasdos variables representadas, sino enlos residuos obtenidos al efectuar unanálisis de regresión con el resto delas variables independientes. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 49 / 84
  50. 50. Regresión Lineal MúltipleSupuestos del Modelo: Linealidad La relación entre densidad e índicePor ejemplo, en el diagrama de regre- de sitio tras eliminar el efectosión parcial de índice de sitio y densi- del resto de variables independi-dad están representados los residuos entes, es claramente lineal e inversa.que resultan de efectuar un análisis Gráfico de regresión parcialde regresión sobre índice de sitio in- Variable dependiente: Índice de sitio 4,0cluyendo todas las variables indepen-dientes excepto densidad 2,0(y = β0 + β1 x1 + β2 x2 ), y los Índice de sitioresiduos que resultan de efectuar un 0,0análisis de regresión sobre densidadincluyendo el resto de variables in- -2,0dependientes (x3 = β 3 + β 4 x1 +β5 x2 ). Se tendrán tantos grácos -0,20 -0,10 0,00 0,10 0,20 Densidadcomo variables independientes. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 50 / 84
  51. 51. Regresión Lineal MúltipleSupuestos del Modelo: IndependenciaPara vericar el supuesto de independencia entre los residuos εi = y i − y iuse el estadístico de Durbin-Watson (DW ), el cual está dado por: n (εi − εi−1 )2 i=1 DW = n . ε2 i i=1 El estadístico DW toma el valor 2 cuando los residuos son independientes, valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación negativa. Podemos asumir independencia entre los residuos cuando DW toma valores entre 1,5 y 2,5. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 51 / 84
  52. 52. Regresión Lineal MúltipleSupuestos del Modelo: Linealidad Como el estadístico de DW está b Variables introducidas/eliminadas entre 1,5 y 2,5. No podemos Modelo Variables Variables introducidas eliminadas Método rechazar la 1 Densidad, . hipótesis de Introducir que los Arena, residuos son independientes, es a Arcilla a. Todas las variables solicitadas introducidas. decir no están de sitio b. Variable dependiente: Índice auto correlacionados. b Resumen del modelo Modelo R cuadrado Error típ. de la Durbin- R R cuadrado corregida estimación Watson a 1 ,835 ,697 ,621 1,1963 2,238 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio b Entonces se estaría cumpliendo es ANOVA Modelo Suma de Media supuesto de independencia. gl cuadráticacuadrados F Sig. a 1 Regresión 39,481 3 13,160 9,196 ,002 Residual 17,173 12 1,431 Total 56,654 15 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio a mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 Coeficientes 52 / 84
  53. 53. Regresión Lineal MúltipleSupuestos del Modelo: NormalidadLos residuos (o los residuos tipi-cados) deben cumplir el supuestode normalidad. El recuadro Grá-cos de los residuos tipicados (es-tandarizados) contiene dos opcionesgrácas que informan sobre el gradoen el que los residuos tipicados seaproximan a una distribución normal:El histograma (debe ser simétrico)y el gráco de probabilidad nor-mal (deben estar los puntos sobrela recta). También con los residuosse puede realizar una prueba de nor-malidad como Kolmogorov-Smirnov(n 50) o Shapiro-Wilk (n ≤ 50). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 53 / 84
  54. 54. Regresión Lineal MúltipleSupuestos del Modelo: NormalidadEstos grácos indicaría, por lo menos en forma visual, que los residuos,tiendenGráficos a distribuirse como la normal. Histograma Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: Índice de sitio Variable dependiente: Índice de sitio 1,0 Media = -2,08E-16 4 Desviación típica = 0,894 N = 16 0,8 Prob acum esperada 3 0,6 Frecuencia 2 0,4 1 0,2 0,0 0 0,0 0,2 0,4 0,6 0,8 1,0 -2 -1 0 1 2 Regresión Residuo tipificado Prob acum observadaEsta armación no es concluyente, por lo tanto se realizará una prueba dehipótesis. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 54 / 84
  55. 55. Regresión Lineal MúltipleSupuestos del Modelo: Normalidad mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 55 / 84
  56. 56. Regresión Lineal MúltipleSupuestos del Modelo: Normalidad mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 56 / 84
  57. 57. Regresión Lineal MúltipleSupuestos del Modelo: NormalidadNo existe suciente evidencia muestral para rechazar que los residuos seencuentra distribuidos como la normal (SW = 0, 972, valor−p = 0, 871). 3,00000 2,00000 1,00000 0,00000 -1,00000 -2,00000 Unstandardized Residual EXAMINE VARIABLES=RES_1 /PLOT BOXPLOT NPPLOT /COMPARE GROUPSPD: Si el n 50, se puede utilizar KS, en este caso ambos estadísticos, /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISEnos indican que se cumple el supuesto de normalidad. /NOTOTAL. mrodriguez@ucm.cl (UCM) Explorar Marcelo Rodríguez G. 22/10/2010 57 / 84
  58. 58. Regresión Lineal MúltipleSupuestos del Modelo: HomocedasticidadComúnmente este supuesto se verica mediante una gráca. Se debengracar los valores pronosticados (ZPRED) con los valores residuales(ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos dehomocedasticidad. Gráficos Gráfico de dispersión Variable dependiente: Índice de sitio 2 Regresión Residuo tipificado 1 0 -1 -2 -3 -2 -1 0 1 2 Regresión Valor pronosticado tipificado mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 58 / 84
  59. 59. Regresión Lineal MúltipleSupuestos del Modelo: No-colinealidad Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma perfectamente lineal con una o más del resto de variables independientes de la ecuación. Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables independientes de una ecuación existen correlaciones altas. En términos generales, cuantas más variables hay en una ecuación, más fácil es que exista colinealidad (aunque, en principio, bastan dos variables). Es un problema porque, en el caso de colinealidad perfecta, no es posible estimar los coecientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el tamaño de los residuos típicados y esto produce coecientes de regresión muy inestables: pequeños cambios en los datos (añadir o quitar un caso, por ejemplo) produce cambios muy grandes en los coecientes de regresión. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 59 / 84
  60. 60. Regresión Lineal MúltipleSupuestos del Modelo: No-colinealidad El nivel de tolerancia de una variable se obtiene restando a 1 el 2 coeciente de determinación (R ) que resulta al regresar esa variable sobre el resto de variables independientes. Valores de tolerancia muy pequeños indican que esa variable puede ser explicada por una combinación lineal del resto de variables, lo cual signica que existe colinealidad. Los factores de inación de la varianza (FIV) son los inversos de los niveles de tolerancia. Cuanto mayor es el FIV de una variable, mayor es la varianza del correspondiente coeciente de regresión. De ahí que uno de los problemas de la presencia de colinealidad (tolerancias pequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de los coecientes de regresión. Como regla se puede utilizar: Las variables independientes son colineales si FIV 10. Las variables que tienen FIV alto y parecidos están altamente correlacionadas. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 60 / 84
  61. 61. a CoeficientesRegresión Lineal Múltiple Modelo Coeficientes no estandarizados Coefi tipifiSupuestos del Modelo: No-colinealidad B Error típ. B 1 (Constante) 43,037 7,036 Arena ,121 ,082 Como Arcilla los FVIs -,066 son menores ,069 Densidad -16,604 3,507 que 10, entonces se cumple a. Variable dependiente: Índice de sitio el supuesto de no-colinealidad. a Coeficientes Modelo Estadísticos de colinealidad Tolerancia FIV 1 (Constante) Arena ,814 1,229 Arcilla ,814 1,229 Densidad 1,000 1,000 a. Variable dependiente: Índice de sitio Diagnósticos de colinealid Modelo DimensiónSi se detecta la presencia de colinealidad hay que i) aumentar el tamaño de Índice de Autovalores condición (Constla muestra; ii) crear indicadores múltiples 1combinando variables; iii) excluir 1 3,973 1,000variables redundantes, quedándonos con las que consideremos más 13,781 2 ,021 3 ,005 28,401importantes. 4 ,001 55,226 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 61 / 84
  62. 62. Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresiónLa regresión por pasos (stepwise) es una método para seleccionar lasvariables independientes que debe incluir un modelo de regresión. Seseleccionan de acuerdo al siguiente criterio estadístico.Criterio de entrada: El valor−p 0, 05 y se debe seleccionar las variablescon menor valor−p en la ANOVA.Método Hacia adelante: Las variables se incorporan al modelo de regresión una a una. En el primer paso se selecciona la variable independiente que, además de superar los criterios de entrada, tiene la más alta correlación. En los siguientes pasos se utiliza como criterio de selección el coeciente de correlación parcial: van siendo seleccionadas una a una las variables que, además de superar los criterios de entrada, poseen el coeciente de correlación parcial más alto en valor absoluto. La selección de variables se detiene cuando no quedan variables que superen el criterio de entrada. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 62 / 84
  63. 63. Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresiónEn el ejemplo anterior, se realizarán todas las regresiones posible,identicando, las variables independientes, el R2 , estadístico de prueba F, yel valor−p. El mejor modelo es el que tiene, menos variables, mayor R2 ,mayor F y menor valor−p. Variables R2 F valor−p x1 0,112 1,773 0,20427 x2 0,711 1,072 0,31799 x3 0,564 18,096 0,00080 x1 , x2 0,131 0,978 0,40227 x1 , x3 0,674 13,436 0,00069 x2 , x3 0,642 11,662 0,00126 x1 , x2 , x3 0,697 9,196 0,00196 El mejor modelo sería y = β0 + β3 · x3 . Aunque y = β0 + β1 · x1 + β3 · x3 , también es un muy buen modelo. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 63 / 84
  64. 64. Tiempo transcurrido 00:00:00,031Regresión Lineal Múltiple Memoria necesaria 1972 bytes Memoria adicional 0 bytes requerida para los diagramas de residuosRegresión por pasos: Qué variables debe incluir[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseñ la ecuación de regresión y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módul ión y Regresión Lineal Simple)datoseje_reg_mult_indice de siti a Variables introducidas/eliminadas Modelo Variables Variables introducidas eliminadas Método 1 Densidad . Hacia adelante (criterio: Prob. Por defecto SPSS de F para elige entrar = , como el 050) mejor modelo a. Variable dependiente: Índice de sitio y = β0 + β3 · x3 . Resumen del modelo Modelo R cuadrado Error típ. de la R R cuadrado corregida estimación a 1 ,751 ,564 ,533 1,3286 a. Variables predictoras: (Constante), Densidad b ANOVA Modelo Suma de Media cuadrados gl cuadrática F Sig. a 1 Regresión 31,942 1 31,942 18,096 ,001 Residual 24,712 14 1,765 Total 56,654 15 a. Variables predictoras: (Constante), Densidad b. Variable dependiente: Índice de sitio mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 64 / 84
  65. 65. Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresiónPara que coincida con los cálculos efectuados antes, debemos ser menosrestrictivos con el valor−p. Fíjese que la arena es signicativa para valoressuperiores a 0,056. Utilizaremos el valor de 0,06. a Coeficientes Modelo Coeficientes Coeficientes no estandarizados tipificados B Error típ. Beta t Sig. 1 (Constante) 45,999 5,362 8,578 ,000 Densidad -16,566 3,894 -,751 -4,254 ,001 a. Variable dependiente: Índice de sitio b Variables excluidas Modelo Estadísticos de colinealidad Correlación Beta dentro t Sig. parcial Tolerancia a 1 Arena ,332 2,096 ,056 ,503 1,000 a Arcilla -,280 -1,686 ,116 -,424 1,000 a. Variables predictoras en el modelo: (Constante), Densidad b. Variable dependiente: Índice de sitioREGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.06) POUT(.10) /NOORIGIN /DEPENDENT IS /METHOD=FORWARD Densidad Arena Arcilla. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 65 / 84

×