CAPITULO 2:  Modelo Clásico del  Métodos de Regresión Múltiples Prof.: Juan Carlos Miranda C. Instituto de Estadístico Facultad de Ciencias Económicas y Administrativas Noviembre 2011 CURSO:  ESTADÍSTICA EMPRESARIAL II  (ESTD-241)
CONTENIDO DEL CAPITULO 2 Modelo Regresión Múltiples: enfoque clásico Modelo en notación matricial Estimación por MCO Propiedades de los parámetros del modelo Contraste de hipótesis general Análisis de Varianza ANOVA
Introducción: Modelo de Regresión Lineal Clásico Especificación del modelo:  1) Forma escalar:  2) forma matricial:
Notación Matricial Escribimos el modelo en términos matriciales:
Hipótesis Clásicas Linealidad en los parámetros ε  o Y son variables iid X no aleatoria, conocida. Rango
Resumen de la Regresión lineal general Son necesarias nociones básicas de matrices.  Debemos Repasar (ver bibliografía): ¿Qué es una matriz A  n,k  ? Operaciones básicas se producto con matrices Determinante de una matriz Métodos para obtener la matriz inversa para cualquier orden A  k,k
Ejemplo I Queremos comprobar si el salario depende de la educación y la experiencia Nuestro modelo es: Si nuestros datos fueran:
Ejemplo I: en forma matricial Por tanto, Matricialmente escribiríamos:
Estimación por Mínimos  Cuadrados Ordinaria El objetivo: será obtener una estimación de  Método: Mínimos Cuadrados Ordinarios Función objetivo a minimizar: Operando:
Estimación por Mínimos Cuadrados 1 Condición: Sistema de ecuaciones normales:
Estimación por Mínimos Cuadrados 2 Condición: Por tanto: Matriz definida positiva
Estimación por mínimos cuadrados Para que X´X sea no singular (y por lo tanto, se pueda obtener la inversa) es importante que se cumplan las dos condiciones siguientes:  1) 2) Que la matriz no contenga dependencias lineales (una variable sea combinación lineal de otras) Deben existir más datos que parámetros a estimar
F.J. Anscombe en 1973. “Graphs in Statistical  Analysis”,  The American Statistician , 27,  pp.17-21) Ejemplo de Regresión lineal simple  con enfoque matricial Estimar por MCO y termino matricial las cuatro regresiones con término constante que se indican a continuación:
 
Representación gráfica
Comentarios al modelamiento 1) Modelo (a) la relación entre las variables es más o menos lineal. 2) En el modelo (b) la relación entre las variables es claramente no lineal. 3) En el modelo (c) todos los puntos de la nube real, exceptuando uno, se ajustan casi perfectamente a una recta que no es la estimada porque hay un  valor atípico. 4) En el modelo (d) tenemos otro problema diferente en los datos. Los datos de la variable explicativa son todos igual a 8, exceptuando el octavo valor.
Propiedad del estimador de     Finitas: 1) Lineal en Y y en  ε : por ser X no aleatoria 2) Insesgado:  por ser X no aleatoria y  3) Óptimo:  matriz de varianzas covarianzas es
Propiedad del estimador de     Finitas: 3)  Eficiente: de mínima varianza entre los insesgados.  Alcanza la cota de Cramer Rao. 4) Distribución finita:
Propiedad del estimador de     Asintóticas: 1) Consistente: Si se cumple que: 2) Asintóticamente normal: 3) Asintóticamente eficiente:  la varianza asintótica alcanza la cota Cramer Rao
¿Qué forma tiene el modelo Regresión Simple (2x2)? Más concretamente,  β estimada tiene los siguientes componentes, para el caso de un modelo simple:
Propiedades de la regresión por MCO La suma de los residuos es igual a cero 2) El plano de regresión pasa por el punto definido por las medias de Y,X
3) Los residuos son ortogonales a las X’s 4) Los residuos son ortogonales a las predicciones (por ser éstas combinación lineal de los regresores) Propiedades de la regresión por MCO
Supuestos del modelo 1) Modelo bien especificado Y=X    +  ε 2) E( ε )=0 3) Regresores fijos  E( X  ε )= X E( ε )=0 4) Independencia y homoscedasticidad E( εε ’ )=   2 I 5) Normalidad   ε  ~ N( 0,   2 I)
Resumen:  Mínimos Cuadrados ordinario Objetivo: Buscar los valores de    ,   ,…,  k  que mejor ajustan nuestros datos. Ecuación: Residuo: Minimizar:
Resumen: Interpretación geométrica Hemos calculado: Tenemos: Definimos la matriz: H  es idempotente, simétrica y del mismo rango que  X , ( k +1). Es una matriz de proyección.
Interpretación geométrica H  simétrica (obvio) H  idempotente Residuos ortogonales a valores ajustados Residuos ortogonales a matriz de diseño  X
Interpretación geométrica Subespacio vectorial generado por las columnas de X
Varianza Para estimar   2  utilizamos la  varianza residual Es insesgado como estimador de   2  y además
Propiedades de los estimadores Normalidad . Sabemos  Y = X  + U , de donde  Y ~ N ( X  ,  2 I ).  Como  también es normal. Esperanza . Varianza .
Propiedades de los estimadores Tenemos La varianza   2  suele ser desconocida y utilizamos el  error estándar estimado
Supuestos de modelo A partir de los supuestos 1,2,3 demostramos que: Con el supuesto 4, la varianza se escribe:
La matriz de varianzas y covarianzas La matriz tiene esta forma: Es simétrica Depende de las observaciones de la muestra
Ejemplo II Un agricultor se pregunta:  ¿Cómo afecta la cantidad de fertilizante a la cosecha de trigo? Para ayudarle a responder su pregunta estudiamos los datos de su cosecha dado: La cantidad de fertilizante Lluvia
Continuación Ejemplo II Los datos siguientes (verificar los cálculos: Y Cosecha de trigo (Kg./Ha.) X Fertilizante (Kg./Ha.) Z Lluvia (ml.) 40 100 10 50 200 20 50 300 10 70 400 30 65 500 20 65 600 20 80 700 30
Continuación Ejemplo II Estimamos el modelo: Cosecha =   0  +   1 *fertilizante +   2 *lluvia +   i Dependent Variable: Y Included observations: 7 Variable Coefficient Std. Error t-Statistic Prob.  C 28.09524 2.491482 11.27652 0.0004 X 0.038095 0.005832 6.531973 0.0028 Z 0.833333 0.154303 5.400617 0.0057 R-squared 0.981366 Mean dependent var 60.00000 Adjusted R-squared 0.972050 S.D. dependent var 13.84437 S.E. of regression 2.314550 Akaike info criterion 4.813835
Continuación Ejemplo II Es importante la interpretación de los coeficientes estimados  0 = promedio de cosecha pronosticada si no se utilizan fertilizantes y no llueve.  1  =Si mantenemos el nivel de lluvia constante, un aumento de 1 kg. en fertilizante se relaciona con un aumento de 0.038 kg. en la cosecha, en promedio.  2  = Si tomamos un nivel constante de fertilizante, un aumento de 1 ml. de lluvia proporcionaría un aumento de 0.83 kg. de cosecha.
Ejemplo III Matriz de varianzas y covarianzas de los coeficientes C X Z C 6.207483 -0.001701 -0.238095 X -0.001701 3.40E-05 -0.000595 Z -0.238095 -0.000595 0.023810
Bondad de ajuste A partir de Descomponemos de la suma de cuadrados de desviación de y respecto a su media:
Bondad de ajuste El coeficiente de determinación es: Si AUMENTAMOS el número de variables explicativas, R 2  AUMENTA ¿Dónde está el límite para el número de variables explicativas?
R 2  ajustado Creamos una nueva medida: R 2  ajustado donde Hay una penalización por grados de libertad
R 2  ajustado Podemos escribirlo en función de R 2 Puede ser negativo!
Ejemplo III 3ª B) 160 495 50 4 0,67676768 3,47826087 10,1020408 0,65568731 R 2 1ª Estimación SCR 165 SCT 495 N 50 K 3 R 2 0,66666667 R 2 -AJUSTADO NUMERADOR 3,5106383 DENOMINADOR 10,10204 R 2  AJUST. 0,6524822 2ª A) 115 495 50 4 0,7676767 2,5 10,102040 0,75252525
Contraste de hipótesis Necesitamos: El supuesto de normalidad    ~  N( 0,   2 I) Tomamos
Contraste de hipótesis Tipos: Contrastes con una sola restricción lineal: Contraste de significación Contraste sobre una combinación lineal de parámetros Contrastes con más de una restricción lineal: Caso general Contraste de significación conjunta Contraste de cambio estructural
Contraste de significación Su forma general sería:  También podemos contrastar si el parámetro es igual a un valor concreto El estadístico de contraste sería:
Ejemplo: Continuación III En el ejemplo acerca de la cosecha de trigo, vimos que el coeficiente para el efecto del fertilizante sobre la cosecha era 0.038, ¿será estadísticamente 0? Variable Coefficient Std. Error t-Statistic Prob.  X 0.038095 0.005832 6.531973 0.0028 Construimos el estadístico de contraste :
Análisis de la varianza (ANOVA)   Provee información acerca de la variabilidad dentro de la regresión.  Queremos hacer una  prueba  de la significación de la regresión estimada.  ¿Provee la variable explicativa suficiente información sobre la variable estimada?
I. ANOVA: Varianza del Modelo de Regresión Variabilidad total [STC] Variabilidad entre grupos o explicada [SEC] Variabilidad dentro de grupos o residual [SRC]
II. ANOVA: componentes de la varianza  Habíamos dicho que:
II. ANOVA Dado que las varianzas son desconocidas unos buenos estimadores de la varianza son:  Intra grupos: MSE=SCE/(n-k) Entre grupos: MSR=SCR/(k-1) Es importante observar que la variabilidad entre grupos no es recogida por el modelo, mientras la entre grupos si.
III. ANOVA: Estadístico F Por comodidad se construye una tabla: Donde: k = nº parámetros estimados ( α  y  β  en la regresión simple) n = nº observaciones Fuente de variación Suma de cuadrados Grados de libertad Suma de cuadrados medianos Inter grupos SCE K-1 MSE Intra grupos SRC N-k MSR Total STC N-1 MST
III. ANOVA: Estadístico F Es decir, el ANOVA consiste en contrastar que k variables de k poblaciones normales con varianza desconocida tienen la misma media muestral. Es decir, bajo la hipótesis nula: Aceptaremos la hipótesis nula si las varianzas son estadísticamente iguales y esto lo contrastaremos con:
TABLA ANOVA (Multifactorial) Cuadrados  Medios Grados de libertad Suma de  cuadrados Fuente de  variación n-1 Total n-k Debido a los residuos (INTRA) k-1 Debido a la regresión  (INTER)

Cap2. modelo regresión multiple-v2-2011

  • 1.
    CAPITULO 2: Modelo Clásico del Métodos de Regresión Múltiples Prof.: Juan Carlos Miranda C. Instituto de Estadístico Facultad de Ciencias Económicas y Administrativas Noviembre 2011 CURSO: ESTADÍSTICA EMPRESARIAL II (ESTD-241)
  • 2.
    CONTENIDO DEL CAPITULO2 Modelo Regresión Múltiples: enfoque clásico Modelo en notación matricial Estimación por MCO Propiedades de los parámetros del modelo Contraste de hipótesis general Análisis de Varianza ANOVA
  • 3.
    Introducción: Modelo deRegresión Lineal Clásico Especificación del modelo: 1) Forma escalar: 2) forma matricial:
  • 4.
    Notación Matricial Escribimosel modelo en términos matriciales:
  • 5.
    Hipótesis Clásicas Linealidaden los parámetros ε o Y son variables iid X no aleatoria, conocida. Rango
  • 6.
    Resumen de laRegresión lineal general Son necesarias nociones básicas de matrices. Debemos Repasar (ver bibliografía): ¿Qué es una matriz A n,k ? Operaciones básicas se producto con matrices Determinante de una matriz Métodos para obtener la matriz inversa para cualquier orden A k,k
  • 7.
    Ejemplo I Queremoscomprobar si el salario depende de la educación y la experiencia Nuestro modelo es: Si nuestros datos fueran:
  • 8.
    Ejemplo I: enforma matricial Por tanto, Matricialmente escribiríamos:
  • 9.
    Estimación por Mínimos Cuadrados Ordinaria El objetivo: será obtener una estimación de Método: Mínimos Cuadrados Ordinarios Función objetivo a minimizar: Operando:
  • 10.
    Estimación por MínimosCuadrados 1 Condición: Sistema de ecuaciones normales:
  • 11.
    Estimación por MínimosCuadrados 2 Condición: Por tanto: Matriz definida positiva
  • 12.
    Estimación por mínimoscuadrados Para que X´X sea no singular (y por lo tanto, se pueda obtener la inversa) es importante que se cumplan las dos condiciones siguientes: 1) 2) Que la matriz no contenga dependencias lineales (una variable sea combinación lineal de otras) Deben existir más datos que parámetros a estimar
  • 13.
    F.J. Anscombe en1973. “Graphs in Statistical Analysis”, The American Statistician , 27, pp.17-21) Ejemplo de Regresión lineal simple con enfoque matricial Estimar por MCO y termino matricial las cuatro regresiones con término constante que se indican a continuación:
  • 14.
  • 15.
  • 16.
    Comentarios al modelamiento1) Modelo (a) la relación entre las variables es más o menos lineal. 2) En el modelo (b) la relación entre las variables es claramente no lineal. 3) En el modelo (c) todos los puntos de la nube real, exceptuando uno, se ajustan casi perfectamente a una recta que no es la estimada porque hay un valor atípico. 4) En el modelo (d) tenemos otro problema diferente en los datos. Los datos de la variable explicativa son todos igual a 8, exceptuando el octavo valor.
  • 17.
    Propiedad del estimadorde  Finitas: 1) Lineal en Y y en ε : por ser X no aleatoria 2) Insesgado: por ser X no aleatoria y 3) Óptimo: matriz de varianzas covarianzas es
  • 18.
    Propiedad del estimadorde  Finitas: 3) Eficiente: de mínima varianza entre los insesgados. Alcanza la cota de Cramer Rao. 4) Distribución finita:
  • 19.
    Propiedad del estimadorde  Asintóticas: 1) Consistente: Si se cumple que: 2) Asintóticamente normal: 3) Asintóticamente eficiente: la varianza asintótica alcanza la cota Cramer Rao
  • 20.
    ¿Qué forma tieneel modelo Regresión Simple (2x2)? Más concretamente, β estimada tiene los siguientes componentes, para el caso de un modelo simple:
  • 21.
    Propiedades de laregresión por MCO La suma de los residuos es igual a cero 2) El plano de regresión pasa por el punto definido por las medias de Y,X
  • 22.
    3) Los residuosson ortogonales a las X’s 4) Los residuos son ortogonales a las predicciones (por ser éstas combinación lineal de los regresores) Propiedades de la regresión por MCO
  • 23.
    Supuestos del modelo1) Modelo bien especificado Y=X  + ε 2) E( ε )=0 3) Regresores fijos E( X ε )= X E( ε )=0 4) Independencia y homoscedasticidad E( εε ’ )=  2 I 5) Normalidad ε ~ N( 0,  2 I)
  • 24.
    Resumen: MínimosCuadrados ordinario Objetivo: Buscar los valores de   ,   ,…,  k que mejor ajustan nuestros datos. Ecuación: Residuo: Minimizar:
  • 25.
    Resumen: Interpretación geométricaHemos calculado: Tenemos: Definimos la matriz: H es idempotente, simétrica y del mismo rango que X , ( k +1). Es una matriz de proyección.
  • 26.
    Interpretación geométrica H simétrica (obvio) H idempotente Residuos ortogonales a valores ajustados Residuos ortogonales a matriz de diseño X
  • 27.
    Interpretación geométrica Subespaciovectorial generado por las columnas de X
  • 28.
    Varianza Para estimar  2 utilizamos la varianza residual Es insesgado como estimador de  2 y además
  • 29.
    Propiedades de losestimadores Normalidad . Sabemos Y = X  + U , de donde Y ~ N ( X  ,  2 I ). Como también es normal. Esperanza . Varianza .
  • 30.
    Propiedades de losestimadores Tenemos La varianza  2 suele ser desconocida y utilizamos el error estándar estimado
  • 31.
    Supuestos de modeloA partir de los supuestos 1,2,3 demostramos que: Con el supuesto 4, la varianza se escribe:
  • 32.
    La matriz devarianzas y covarianzas La matriz tiene esta forma: Es simétrica Depende de las observaciones de la muestra
  • 33.
    Ejemplo II Unagricultor se pregunta: ¿Cómo afecta la cantidad de fertilizante a la cosecha de trigo? Para ayudarle a responder su pregunta estudiamos los datos de su cosecha dado: La cantidad de fertilizante Lluvia
  • 34.
    Continuación Ejemplo IILos datos siguientes (verificar los cálculos: Y Cosecha de trigo (Kg./Ha.) X Fertilizante (Kg./Ha.) Z Lluvia (ml.) 40 100 10 50 200 20 50 300 10 70 400 30 65 500 20 65 600 20 80 700 30
  • 35.
    Continuación Ejemplo IIEstimamos el modelo: Cosecha =  0 +  1 *fertilizante +  2 *lluvia +  i Dependent Variable: Y Included observations: 7 Variable Coefficient Std. Error t-Statistic Prob. C 28.09524 2.491482 11.27652 0.0004 X 0.038095 0.005832 6.531973 0.0028 Z 0.833333 0.154303 5.400617 0.0057 R-squared 0.981366 Mean dependent var 60.00000 Adjusted R-squared 0.972050 S.D. dependent var 13.84437 S.E. of regression 2.314550 Akaike info criterion 4.813835
  • 36.
    Continuación Ejemplo IIEs importante la interpretación de los coeficientes estimados  0 = promedio de cosecha pronosticada si no se utilizan fertilizantes y no llueve.  1 =Si mantenemos el nivel de lluvia constante, un aumento de 1 kg. en fertilizante se relaciona con un aumento de 0.038 kg. en la cosecha, en promedio.  2 = Si tomamos un nivel constante de fertilizante, un aumento de 1 ml. de lluvia proporcionaría un aumento de 0.83 kg. de cosecha.
  • 37.
    Ejemplo III Matrizde varianzas y covarianzas de los coeficientes C X Z C 6.207483 -0.001701 -0.238095 X -0.001701 3.40E-05 -0.000595 Z -0.238095 -0.000595 0.023810
  • 38.
    Bondad de ajusteA partir de Descomponemos de la suma de cuadrados de desviación de y respecto a su media:
  • 39.
    Bondad de ajusteEl coeficiente de determinación es: Si AUMENTAMOS el número de variables explicativas, R 2 AUMENTA ¿Dónde está el límite para el número de variables explicativas?
  • 40.
    R 2 ajustado Creamos una nueva medida: R 2 ajustado donde Hay una penalización por grados de libertad
  • 41.
    R 2 ajustado Podemos escribirlo en función de R 2 Puede ser negativo!
  • 42.
    Ejemplo III 3ªB) 160 495 50 4 0,67676768 3,47826087 10,1020408 0,65568731 R 2 1ª Estimación SCR 165 SCT 495 N 50 K 3 R 2 0,66666667 R 2 -AJUSTADO NUMERADOR 3,5106383 DENOMINADOR 10,10204 R 2 AJUST. 0,6524822 2ª A) 115 495 50 4 0,7676767 2,5 10,102040 0,75252525
  • 43.
    Contraste de hipótesisNecesitamos: El supuesto de normalidad  ~ N( 0,  2 I) Tomamos
  • 44.
    Contraste de hipótesisTipos: Contrastes con una sola restricción lineal: Contraste de significación Contraste sobre una combinación lineal de parámetros Contrastes con más de una restricción lineal: Caso general Contraste de significación conjunta Contraste de cambio estructural
  • 45.
    Contraste de significaciónSu forma general sería: También podemos contrastar si el parámetro es igual a un valor concreto El estadístico de contraste sería:
  • 46.
    Ejemplo: Continuación IIIEn el ejemplo acerca de la cosecha de trigo, vimos que el coeficiente para el efecto del fertilizante sobre la cosecha era 0.038, ¿será estadísticamente 0? Variable Coefficient Std. Error t-Statistic Prob. X 0.038095 0.005832 6.531973 0.0028 Construimos el estadístico de contraste :
  • 47.
    Análisis de lavarianza (ANOVA) Provee información acerca de la variabilidad dentro de la regresión. Queremos hacer una prueba de la significación de la regresión estimada. ¿Provee la variable explicativa suficiente información sobre la variable estimada?
  • 48.
    I. ANOVA: Varianzadel Modelo de Regresión Variabilidad total [STC] Variabilidad entre grupos o explicada [SEC] Variabilidad dentro de grupos o residual [SRC]
  • 49.
    II. ANOVA: componentesde la varianza Habíamos dicho que:
  • 50.
    II. ANOVA Dadoque las varianzas son desconocidas unos buenos estimadores de la varianza son: Intra grupos: MSE=SCE/(n-k) Entre grupos: MSR=SCR/(k-1) Es importante observar que la variabilidad entre grupos no es recogida por el modelo, mientras la entre grupos si.
  • 51.
    III. ANOVA: EstadísticoF Por comodidad se construye una tabla: Donde: k = nº parámetros estimados ( α y β en la regresión simple) n = nº observaciones Fuente de variación Suma de cuadrados Grados de libertad Suma de cuadrados medianos Inter grupos SCE K-1 MSE Intra grupos SRC N-k MSR Total STC N-1 MST
  • 52.
    III. ANOVA: EstadísticoF Es decir, el ANOVA consiste en contrastar que k variables de k poblaciones normales con varianza desconocida tienen la misma media muestral. Es decir, bajo la hipótesis nula: Aceptaremos la hipótesis nula si las varianzas son estadísticamente iguales y esto lo contrastaremos con:
  • 53.
    TABLA ANOVA (Multifactorial)Cuadrados Medios Grados de libertad Suma de cuadrados Fuente de variación n-1 Total n-k Debido a los residuos (INTRA) k-1 Debido a la regresión (INTER)