2. PRESENTACION
Es sabido que el estudio de la econometría requiere, en apoyo al estudio de los aspectos
conceptuales, la estimación empírica de los modelos econométricos para análisis, contrastación
y predicción. Para esto el estudiante debe estar familiarizado con un buen programa de
ordenador, de los cuales existen en el mercado muchas alternativas, como por ejemplo RATS,
E-Views, Limdep, Gauss, Stata o SAS, cada uno de ellos con características especiales. Este
libro se ocupa de introducir al lector en el programa Excel.
Si bien Excel no es el programa preferido por los econometristas, a través de este libro
mostramos la forma en que éste puede ayudar a alcanzar la mayor parte de los objetivos
planteados para una asignatura de econometría de pregrado.
Como se verá, este libro es un texto de apoyo en los laboratorios computacionales de
econometría, es decir tiene un objetivo netamente práctico, por lo cual hemos intentado
presentar y resolver gran número de ejemplos numéricos, a costa de centrarnos solo en los
aspectos fundamentales de la teoría subyacente, la que asumimos será estudiada en alguno de
los númerosos libros de texto introductorio existentes, tales como “Introducción a la
Econometría” de Maddala, “Análisis Econométrico” de Green, “Introduction to the Theory and
Practice of Econometrics” de Judge et al., y “Econometría” de Gujarati.
3. i
INDICE
PRESENTACION ............................................................................................................................................................. 1
CAPÍTULO 1..................................................................................................................................................................... 1
EL PROGRAMA EXCEL................................................................................................................................................ 1
1.1. ESTADISTICA DESCRIPTIVA CON EXCEL................................................................................................ 1
1.2. SESGO, CURTOSIS Y NORMALIDAD.......................................................................................................... 4
1.3. GRAFICOS DE PROBABILIDAD NORMAL................................................................................................. 6
1.4. HISTOGRAMA ................................................................................................................................................ 9
1.5. OPERACIONES CON ESCALARES Y MATRICES .................................................................................... 11
a) Crear una fórmula matricial.................................................................................................................................. 11
b) Calcular un único resultado .................................................................................................................................. 11
c) Calcular varios resultados..................................................................................................................................... 11
d) Operaciones Matriciales........................................................................................................................................ 12
1.6. DISTRIBUCIONES DE PROBABILIDAD.................................................................................................... 13
1.7. POTENCIA DE UN TEST .............................................................................................................................. 15
1.7.1. APLICACIÓN: SELECCIÓN ENTRE TESTS ALTERNATIVOS ................................................................. 16
1.8. NIVEL DE SIGNIFICANCIA MARGINAL: CDF O P-VALUE.................................................................... 17
1.8.1. Distribución Normal......................................................................................................................................... 17
1.8.2. Distribución t.................................................................................................................................................... 18
1.8.3. Distribución F .................................................................................................................................................. 19
1.8.4. Distribución Chi cuadrado............................................................................................................................... 20
1.9. PRUEBAS SOBRE LA MEDIA EN EXCEL ......................................................................................................... 21
1.9.1. Inferencia respecto a una Media...................................................................................................................... 21
1.9.2. Diferencia de dos Medias (Univariado)........................................................................................................... 22
1.9.3. Inferencia En Excel .......................................................................................................................................... 23
1.10. SERIES DE DATOS........................................................................................................................................ 26
CAPÍTULO 2................................................................................................................................................................... 28
EL MODELO DE REGRESIÓN LINEAL................................................................................................................... 28
2.1. INTRODUCCIÓN: ¿QUE ES LA ECONOMETRÍA?.................................................................................... 28
2.2. ESTIMACIÓN DE MODELOS DE REGRESIÓN ......................................................................................... 28
2.2.1. EL MÉTODO DE MÍNIMOS CUADRADOS ................................................................................................... 29
2.2.2. IMPLEMENTACIÓN DE MCO ....................................................................................................................... 31
2.3. PRUEBA DE HIPÓTESIS............................................................................................................................... 33
2.3.2. LA DISTRIBUCIÓN DE b Y SUS PROPIEDADES..................................................................................... 33
2.3.3. LA MATRIZ DE COVARIANZAS DE LOS ERRORES ................................................................................ 34
2.3.4. UNA MEDIDA DEL ÉXITO DE AJUSTE.................................................................................................... 36
2.4. CASO DE ESTUDIO.............................................................................................................................................. 38
2.4.1. Describiendo los Datos .................................................................................................................................... 38
2.4.2. Calculando Estadísticas................................................................................................................................... 39
2.4.3. Transformación de datos y creación de nuevas series ..................................................................................... 39
2.4.5. Gráficos de Series de Tiempo........................................................................................................................... 40
2.4.6. Gráficos X-Y (Scatter)...................................................................................................................................... 40
2.4.7. CASO DE ESTUDIO: Corriendo la Regresión 1............................................................................................. 42
2.4.8. CASO DE ESTUDIO: Corriendo la Regresión 2............................................................................................. 43
2.5. INTERPRETACION DE LOS COEFICIENTES DE REGRESIÓN............................................................... 45
4. ii
2.5.1. INTRODUCCIÓN........................................................................................................................................ 45
2.5.2. FORMA DOBLE LOGARÍTMICA............................................................................................................... 46
2.5.3 MODELO LOGARÍTMICO LINEAL (DE CRECIMIENTO CONSTANTE)................................................ 46
2.5.4. OTRA VISIÓN DE LOS COEFICIENTES DE PENDIENTE....................................................................... 47
2.6 RESUMEN: UNA CRÍTICA AL MODELO....................................................................................................... 50
CAPÍTULO 3................................................................................................................................................................... 51
MÍNIMOS CUADRADOS RESTRINGIDOS (INFERENCIA) ................................................................................. 51
3.1. MCO CON ERRORES NORMALES ............................................................................................................. 51
3.2. PRUEBAS SOBRE UN COEFICIENTE......................................................................................................... 53
3.3. TRES TESTS EQUIVALENTES.................................................................................................................... 54
3.4. TEST DE RAZON DE VEROSIMILITUD (LR) ............................................................................................ 54
3.4.1. LR BAJO ESPECIFICACION LINEAL-LINEAL ............................................................................................. 55
3.5. TEST DE WALD .................................................................................................................................................... 57
3.5.1. WALD BAJO ESPECIFICACION LINEAL-LINEAL ....................................................................................... 57
3.5.2. EJEMPLO NUMERICO DEL TEST DE WALD .............................................................................................. 58
3.6. TEST DEL MULTIPLICADOR DE LAGRANGE................................................................................................. 59
3.7. PRUEBA DE SIGNIFICANCIA GLOBAL .................................................................................................... 60
3.8. PRUEBA DE EXCLUSION DE VARIABLES............................................................................................... 61
3.9. PRUEBA DE CAUSALIDAD (GRANGER, 1969) ........................................................................................ 62
3.10. TEST DE ESTABILIDAD (CAMBIO ESTRUCTURAL).............................................................................. 65
3.11. ESTIMANDO REGRESIÓNES RESTRINGIDAS ........................................................................................ 66
CAPÍTULO 4................................................................................................................................................................... 67
VIOLACIÓN DE ALGUNOS SUPUESTOS ................................................................................................................ 67
4.1. MÍNIMOS CUADRADOS GENERALIZADOS............................................................................................ 68
4.2. HETEROCEDASTICIDAD............................................................................................................................ 69
4.2.1. CORRECCIÓN CON MCG (ϕ CONOCIDA) ............................................................................................. 70
4.2.2. DETECCION DE LA HETEROCEDASTICIDAD ....................................................................................... 72
1.- Test de Goldfeld y Quandt (1972) ........................................................................................................................................ 72
2.- Arch Test de White (1980): .................................................................................................................................................. 73
3.- Arch Test de Engle (1982):................................................................................................................................................... 74
4.2.3. CORRIGIENDO POR HETEROCEDASTICIDAD: MC PONDERADOS................................................... 75
4.3. CORRELACIÓN SERIAL.............................................................................................................................. 77
4.3.1. CORRECCIÓN CON MCG (ϕ CONOCIDA) ............................................................................................. 78
4.3.2. DETECCION DE AR(1): DURBIN-WATSON (1951) ................................................................................. 80
4.3.3. DETECCION EN MODELOS CON Y REZAGADA: Test h de Durbin ....................................................... 83
4.3.4. DETECCIÓN DE LA AUTOCORRELACIÓN DE ORDEN SUPERIOR..................................................... 84
a) Test de BREUSCH (1978) Y GODFREY (1978).................................................................................................................. 84
b) Test Q de Ljung y Box (1978) (Box-Jenkins model identification)....................................................................................... 85
4.3.4. CORRIGIENDO LA AUTOCORRELACION EN EXCEL............................................................................ 87
4.3.4.1. Primeras Diferencias ..................................................................................................................................................... 87
4.3.4.2. PDG: Métodos Alternativos .......................................................................................................................................... 89
4.4. ESTIMACION ROBUSTA ............................................................................................................................ 91
4.4.1. CORRECCION DE WHITE (1980) ............................................................................................................. 92
4.4.2. CORRECCION DE NEWEY Y WEST (1987) .............................................................................................. 93
4.4. MULTICOLINEALIDAD............................................................................................................................... 95
4.4.1. MULTICOLINEALIDAD PERFECTA......................................................................................................... 95
4.4.2. MULTICOLINEALIDAD MUY ALTA.......................................................................................................... 95
4.5.3. SOLUCIONES A LA MULTICOLINEALIDAD ........................................................................................... 96
CAPÍTULO 5................................................................................................................................................................... 97
ESTACIONARIEDAD Y COINTEGRACIÓN............................................................................................................ 97
5. iii
5.1. REGRESIONES ESPUREAS ......................................................................................................................... 97
5.2. ESTACIONARIEDAD ................................................................................................................................... 99
5.2.1. DEFINICIÓN ................................................................................................................................................... 99
5.2.2. SERIE ESTACIONARIA................................................................................................................................... 99
5.2.3. SERIE NO ESTACIONARIA .......................................................................................................................... 101
5.3. PRUEBAS DE ESTACIONARIEDAD ................................................................................................................ 103
5.3.1. CORRELOGRAMA Y TEST Q ....................................................................................................................... 103
5.3.2. PRUEBAS DE RAICES UNITARIAS: Dickey y Fuller .............................................................................. 105
5.3.3. PRUEBAS DE RAICES UNITARIAS: Augmented Dickey Fuller (ADF) Test ........................................... 106
5.3. DIFERENCIACION DE SERIES I(1)........................................................................................................... 108
5.4. COINTEGRACIÓN: PRUEBA DE ENGLE-GRANGER ............................................................................ 110
5.4.1. INTRODUCCIÓN...................................................................................................................................... 110
5.4.2. DEFINICIÓN FORMAL DE COINTEGRACION...................................................................................... 111
5.4.3. PRUEBA DE ENGLE-GRANGER (1987).................................................................................................. 113
5.4.4. TEOREMA DE REPRESENTACION DE GRANGER.................................................................................... 114
5.5. COMENTAROS FINALES.................................................................................................................................. 116
CAPÍTULO 6................................................................................................................................................................. 117
INTRODUCCIÓN A LA PREDICCIÓN EN EXCEL............................................................................................... 117
6.1. EL ERROR DE PREDICCIÓN ..................................................................................................................... 119
6.2. PREDICCIÓN ESTATICA........................................................................................................................... 119
6.3. CASO PRÁCTICO........................................................................................................................................ 122
a) Tasa de Ocupación (OCCUP) ............................................................................................................................. 123
b) Ingreso por Habitación (Room Rate)................................................................................................................... 125
c) Número de Habitaciones (ROOMS)..................................................................................................................... 126
d) Predicción Final .................................................................................................................................................. 127
6.4. MEDIDAS DE ERROR DE PREDICCION.......................................................................................................... 128
6.4.1. Error Cuadrático Medio (Mean Squared Error, MSE).................................................................................. 128
6.4.2. Promedio del Error Absoluto (Mean Absolute Error, MAE) ......................................................................... 128
6.4.3. Promedio del Porcentaje de Error Absoluto (Mean Absolute Percentage Error, MAPE)............................. 128
6.4.4. Ejemplo de Cálculo ........................................................................................................................................ 129
CAPÍTULO 7................................................................................................................................................................. 130
MODELOS ARIMA...................................................................................................................................................... 130
7.1. AUTOCORRELACIONES SIMPLES Y PARCIALES................................................................................ 130
9.2. PROCESOS AUTORREGRESIVOS (AR)................................................................................................... 131
9.2.1. SIMULACION DE PROCESOS AR(1) ...................................................................................................... 132
9.2.2. ESTIMACION DE UN PROCESO AUTOREGRESIVO ............................................................................ 133
9.3. PROCESOS DE MEDIAS MOVILES .......................................................................................................... 134
9.3.1. SIMULACION DE PROCESOS MA(1) ..................................................................................................... 134
9.3.2. ESTIMACION DE UN PROCESO DE MEDIAS MOVILES...................................................................... 134
9.3. PROCESOS ARIMA..................................................................................................................................... 136
7.4. EL ENFOQUE DE BOX Y JENKINS........................................................................................................... 138
9.4.1. PASO 1: IDENTIFICACIÓN ..................................................................................................................... 139
9.4.2. PASO 2: ESTIMACIÓN ............................................................................................................................. 140
9.4.3. PASO 3: VERIFICACIÓN / DIAGNÓSTICO ............................................................................................ 143
9.4.4. PASO 4: PREDICCIÓN............................................................................................................................. 144
CAPÍTULO 8................................................................................................................................................................. 147
ERROR EN LAS VARIABLES: INSTRUMENTOS................................................................................................. 147
8.1. VARIABLES INSTRUMENTALES.................................................................................................................... 147
8.2. ESTIMACIÓN CON INSTRUMENTOS EN SPSS ...................................................................................... 148
8.3. EL ESTIMADOR DE VARIABLES INSTRUMENTALES......................................................................... 150
7. 1
CAPÍTULO 1
EL PROGRAMA EXCEL
1.1. ESTADISTICA DESCRIPTIVA CON EXCEL
Microsoft Excel ofrece un conjunto de herramientas para el análisis de los datos (Herramientas
para Análisis) lo que permite efectuar análisis estadístico de una manera simple. Algunas herramientas
generan gráficos además de tablas de resultados.
Para ver una lista de las herramientas de análisis disponibles, elija 'Análisis de Datos' en el menú
Herramientas. Si este comando no está en el menú, en el menú Herramientas, elija Complementos, y allí
seleccione Herramientas para Análisis. Si no aparece la opción Herramientas para Análisis, necesita el CD
de instalación de Excel.
Para usar el análisis de datos, vaya ahora a Herramientas, y allí seleccione 'Análisis de Datos'
(Herramientas / Análisis de datos). Aparecerá la lista de opciones en donde seleccionamos Estadística
Descriptiva:
En el cuadro de diálogo de Estadística descriptiva, lo único que és "obligatorio" suministrar son los
datos a analizar (Rango de entrada) y el lugar en donde se desea escribir los resultados (Rango de
salida).
8. 2
Ejemplo. Se tienen datos de la cantidad de producción (kg), capital ($)y de trabajo (horas) de 10
empresas:
Comenzaremos calculando estadística de la serie 'capital'. El "Rango de entrada" es $B$1:$B$11, es decir
seleccionando los títulos como promera observación, de modo que se debe activar la opción 'Rótulos en la
primera fila'. A continuación debemos activar la selección del rango de salida, por ejemplo la celda $A$13,
como se muestra acontinuación:
El resultado es el siguiente:
CAPITAL
Media 5,6
Error típico 0,733333333
Mediana 6
Moda 6
Desviación estándar 2,319003617
Varianza de la muestra 5,377777778
Curtosis -1,11811742
Coeficiente de asimetría -0,058802684
Rango 7
Mínimo 2
Máximo 9
Suma 56
Cuenta 10
Mayor (2) 8
Menor(2) 3
Nivel de confianza(95,0%) 1,658915249
Nota: Muchos de estos resultados anteriores pueden obtenerse individualmente a través del menú
Insertar/Función, y allí ir dentro de las funciones estadísticas.
9. 3
Media: Devuelve el promedio (media aritmética) de los argumentos. PROMEDIO(número1;número2;...)
Error típico (de la media): (Desviación estándar)/raiz(T)
Mediana: Devuelve la mediana de los números. La mediana es el número que se encuentra en medio de
un conjunto de números, es decir, la mitad de los números es mayor que la mediana y la otra mitad
es menor. MEDIANA(número1;número2; ...)
Moda: Devuelve el valor que se repite con más frecuencia en una matriz o rango de datos. Al igual que
MEDIANA, MODA es una medida de posición.
Desviación estándar: Calcula la desviación estándar en función de un ejemplo. La desviación estándar es
la medida de la dispersión de los valores respecto a la media (valor promedio). DESVEST(número1;
número2; ...)
Varianza de la muestra: Calcula la varianza en función de una muestra (con n-1 g.l.).
VAR(número1;número2; ...)
Curtosis: Devuelve la curtosis de un conjunto de datos. La curtosis caracteriza la elevación o el
achatamiento relativos de una distribución, comparada con la distribución normal. Una curtosis
positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica
una distribución relativamente plana. CURTOSIS(número1;número2; ...)
Coeficiente de asimetría: Devuelve la asimetría de una distribución. Esta función caracteriza el grado de
asimetría de una distribución con respecto a su media. La asimetría positiva indica una distribución
unilateral que se extiende hacia valores más positivos. La asimetría negativa indica una distribución
unilateral que se extiende hacia valores más negativos.
COEFICIENTE.ASIMETRIA(número1;número2; ...)
Rango: MAX(Rango) – MIN(Rango).
Mínimo: Devuelve el valor mínimo de un conjunto de valores. MIN(número1;número2; ...)
Máximo: Devuelve el valor máximo de un conjunto de valores. MAX(número1;número2; ...)
Suma: La sumatora de las observaciones
Cuenta: El número de observaciones (T)
Mayor (2): Késimo mayor. Devuelve el valor késimo mayor de cada rango de datos en la tabla de
resultados. En el cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila
contendrá el máximo del conjunto de datos.
Menor (2): Késimo menor. Devuelve el valor késimo menor de cada rango de datos en la tabla de
resultados. En el cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila
contendrá el mínimo del conjunto de datos.
Nivel de confianza (95,0%): Nivel de confianza para la media. Devuelve el nivel de confianza de la media
en la tabla de resultados. En el cuadro, escriba el nivel de confianza que desee utilizar. Por ejemplo,
un valor de 95 % calculará el nivel de confianza de la media con un nivel de importancia del 5 %.
10. 4
1.2. SESGO, CURTOSIS Y NORMALIDAD
Existen 4 formas comunes de estimar la normalidad:
1.- Histograma de residuos
2.- Normal Probability Plot
3.- Anderson-Darling normality test (A2 stat)
4.- Jarque-Bera (JB) test of Normality (asintótico)
Por ahora estamos interesados en la prueba de Jarque Bera, la que tiene la siguiente
specificación:
)2(
246
2
22
χa
KS
TJB ≈
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
+=
donde S es el coeficiente de Sesgo y K es el coeficiente de curtosis. Para una variable distribuída
normalmente, S=0 y K=3. Luego, el test JB de normalidad es una prueba conjunta de si S=0 y K=3. Si el
valor p es suficientemente bajo, se puede rechazar la hipótesis que la variable está normalmente
distribuída.
Ejemplo: Chi-Squared(2)= 1.061172 with Significance Level 0.58826017, donde Ho: Normalidad. Luego,
no podemos rechazar en este caso la hipótesis de normalidad (la conclusión es no rechazar normalidad).
Las definiciones y pruebas estadísticas para el sesgo y la curtosis son las siguientes:
a) Sesgo:
En Excel: =coeficiente.asimetria( )
La prueba estadística de que el sesgo es cero se basa en una Normal, y es:
b) Curtosis:
En Excel: =curtosis( )
La prueba estadística de que la curtosis es cero se basa en una Normal, y es:
11. 5
Ejemplo: Siguiendo el ejemplo de la serie CAPITAL anterior mostramos el cálculo de éstas. Los
resultados a obtener son los siguientes:
Observaciones 10
Media Muestral 5,6
Desv estandar 2,319003617
Varianza 5,377777778
Error est de la media 0,733333333
Estadistico t 7,636363636 Pruebas de Hipotesis Significancia a 1 cola
Sesgo -0,058802684 -0,064415113 0,948639697
Curtosis -1,11811742 -0,488540664 0,62516693
Jarque Bera 0,526673995 0,526673995 0,768482877
Las fórmulas usadas en cada caso se muestran a continuación:
12. 6
1.3. GRAFICOS DE PROBABILIDAD NORMAL
Los gráficos de probabilidad normal (normal probability plot) son una técnica gráfica para valorar
si los datos son o no aproximadamente normalmente distribuñidos. Los datos son graficados contra una
distrinución normal teórica de tal forma que los puntos deben formar aproximadamente una línea recta.
Las desviaciones de la línea recta indican desviaciones de la normalidad. El gráfico de probabilidad normal
es un caso especial de los gráficos de probabilidad.
Existen varios tipos de gráficos de probabilidad normal1
. Aquí nos referimos solamente al tipo más
simple de ellos: Percentiles vs Datos.
Los pasos para construir un gráfico de probabilidad normal son:
1. Las observaciones son rankeadas (ordenadas) de la menor a la mayor, x(1), x(2), . . ., x(n).
2. Las observaciones ordenadas x(j) son graficadas contra su frecuencia acumulativa observada,
tipicamente; j/(n + 1)) sobre un gráfico con el eje Y apropiadamente escalado para la distribución
hipotetizada.
3. Si la distribución hipotetizada describe adecuadamente los datos, los puntos graficados se ubican
aproximadamente sobre una línea recta. Si los puntos se desvían significativamente de la
lñinearecta, especialmente en las puntas, entonces la distribución hipotetizada no es apropiada.
1
Vease por ejemplo www.itl.nist.gov/div898/handbook/eda/section3/probplot.htm.
13. 7
4. Para valorar la cercanía de los ountos a la línea recta, la prueba del grosor de un lápiz se usa
comunmente. Si todos los puntos se encuentran dentro del lapis imaginario, entonces la
distribución hipotetizada es probablemente la apropiada.
Ejemplo: Los siguientes datos representan el grosor de una hoja plástica, en micrones: 43, 52, 55, 47,
47, 49, 53, 56, 48, 48
Ordered data Rank order Cumulative Frequency
(j) ( j/(n + 1))
43 1 1/11 = .0909
47 2 2/11 = .1818
47 3 3/11 = .2727
48 4 4/11 = .3636
48 5 5/11 = .4545
49 6 6/11 = .5454
52 7 7/11 = .6363
53 8 8/11 = .7272
55 9 9/11 = .8181
56 10 10/11 = .9090
Los datos ordebados son graficados contra su respectiva frecuencia acumulada. Note como el eje Y es
escalado tal que una línea recta resultará para datos normales.
Basados en el gráfico, parece que los datos se encuentran normalmente distribuídos. Sin embargo
se requieren otras pruebas estadísticas para concluir que el supuesto de normlidad es apropiado.
14. 8
En Excel puede obtenerse este gráfico en Herramientas / Analisis de Datos / Regresion / y allí
seleccionando la opcion Grafico de probabilidad normal.
Para el caso de la serie 'Capital' del ejemplo que se ha estado analizando, se tiene el siguiente
resutado a partir de Excel.
15. 9
1.4. HISTOGRAMA
Un histograma es un gráfico para la distribución de una variable cuantitativa continua que
representa frecuencias mediante el volumen de las áreas. Un histograma consiste en un conjunto de
rectángulos con (a): bases en el eje horizontal, centros en las marcas de clase y longitudes iguales a los
tamaños de los intervalos de clase y (b): áreas proporcionales a las frecuencias de clase.
Si en la distribución se toman clases de la misma longitud, las frecuencias son proporcionales a las
alturas de los rectángulos del histograma ya que el área se obtiene multiplicando la base por la altura por
lo que queda similar a un diagrama de barras, solo que ahora las barras van una junto a otra por tratarse
de una variable continua.
En Excel, la herramienta para histogramas se encuentra en Herramientas / Análisis de Datos /
Histograma. Antes de ejecutarla se puede (es opcional) definir el 'Rango de Clases', a fin de definir las
divisiones para cada rango del histograma. El 'Rango de Clases' son valores límite que definen rangos de
clase, los que deberán estar en orden ascendente. Si se omite el rango de clase, Excel creará un conjunto
de clases distribuidas uniformemente entre los valores mínimo y máximo de los datos.
Ejemplo: En el ejemplo de la serie 'Capital' un histograma es obtenido de la siguiente forma:
17. 11
1.5. OPERACIONES CON ESCALARES Y MATRICES
Excel permite realizar operaciones matriciales con facilidad. En Excel, las fórmulas que hacen
referencia a matrices se encierran entre corchetes {}. Al trabajar con matrices en Excel hay que tener en
cuenta lo siguiente:
• No se puede cambiar el contenido de las celdas que componen la matriz
• No se puede eliminar o mover celdas que componen la matriz
• No se puede insertar nuevas celdas en el rango que compone la matriz
a) Crear una fórmula matricial
Una fórmula matricial es una fórmula que lleva a cabo varios cálculos en uno o más conjuntos de
valores y devuelve un único resultado o varios resultados. Las fórmulas matriciales se encierran entre
llaves { } y se especifican presionando CTRL+MAYÚS+ENTRAR. Cuando se introduce una fórmula
matricial Microsoft Excel inserta de forma automática la fórmula entre llaves ({}).
b) Calcular un único resultado
Puede utilizar una fórmula matricial para realizar varios cálculos que generen un único resultado.
Este tipo de fórmula matricial permite simplificar un modelo de hoja de cálculo sustituyendo varias
fórmulas distintas por una sola fórmula matricial.
Por ejemplo, la siguiente calcula el valor total de una matriz de precios de cotización y acciones, sin
utilizar una fila de celdas para calcular y mostrar los valores individuales de cada cotización.
- Haga clic en la celda en que desee introducir la fórmula matricial (en B5).
- Escriba la fórmula matricial. Cuando se escribe la fórmula ={SUMA(B2:C2*B3:C3)} como fórmula
matricial, se multiplica las acciones y el precio correspondiente a cada cotización, y luego se suma los
resultados de estos cálculos.
- Presione CTRL+MAYÚS+ENTRAR.
c) Calcular varios resultados
- Seleccione el rango de celdas en que desee introducir la fórmula matricial.
- Escriba la fórmula matricial. Por ejemplo, dada un serie de tres cifras de ventas (columna B) para una
serie de tres meses (columna A), la función TENDENCIA determinará los valores de la línea recta para las
cifras de ventas. Para mostrar todos los resultados de la fórmula, se escribe en tres celdas en la columna
C (C1:C3). Al introducir la fórmula =TENDENCIA(B1:B3,A1:A3) como fórmula matricial, generará tres
resultados separados (22196, 17079 y 11962) basados en las tres cifras de ventas y en los tres meses.
18. 12
Presione CTRL+MAYÚS+ENTRAR.
d) Operaciones Matriciales
Existen una serie de operaciones matriciales en Excel, siendo las más usadas las siguientes:
MDETERM Devuelve la matriz determinante de una matriz
MINVERSA Devuelve la matriz inversa de una matriz
MMULT Devuelve la matriz producto de dos matrices
Veámos un ejemplo para el caso de una multiplicación.
- Seleccione el rango de celdas en que desee introducir la fórmula matricial. Para esto debe calcularse la
dimensión resultante de la operación matricial. Por ejemplo, si se multiplican dos matrices de dimensiones
2x3, y 3x4 respectivamente, las celdas de la formula matricial que deben seleccionarse es de dimensión
2x4.
Presione CTRL+MAYÚS+ENTRAR. Con esto se tiene la matriz resultante, dada por:
19 28 44 46
29 42 66 69
19. 13
1.6. DISTRIBUCIONES DE PROBABILIDAD
En econometría, para efectos de inferencia acerca de los coeficientes estimados, es necesario
trabajar con un número de distribuciones de probabilidad. A continuación recordamos las más
importantes: la distribución Normal, Chi-cuadrado, t y F.
La siguiente es la función de densidad normal para una variable aleatoria X con una distribución
normal con media μ y varianzas σ2
:
⎭
⎬
⎫
⎩
⎨
⎧
−= 2
2
2
1
2
1
),/(
σπσ
σμ tSCErr
EXPxf
donde SCErr representa la suma cuadrada de errores, es decir de desviaciones respecto a la media.
Cuando se tienen n variables aleatorias normales Z distribuidas independiente e idénticamente,
entonces la distribución conjunta multivariada con media μ y matriz de covarianza2
∑ es:
⎭
⎬
⎫
⎩
⎨
⎧
−Σ−−Σ= −−
)()'(
2
1
2)( 12/12/
μμπ xxEXPxg n
Si Z es una variable aleatoria normal estándar ( )1,0(NZ ≈ ), entonces puede mostrarse que:
1)
r
r
Z
rt
)(
)( 2
χ
=
Es decir, una variable aleatoria normal estándar dividida por la raíz cuadrada de una variable
aleatoria chi cuadrada con r grados de libertad dividida por r, se distribuye como una t con r grados de
libertad (gl).
2)
2
)2(
1
)1(
)2,1( 2
2
r
r
r
r
rrF
χ
χ
=
Es decir, una variable F con r1 gl en el numerador y r2 gl en el denominador corresponde a una
chi-cuadrada con r1 gl dividida por r1, dividida por otra chi-cuadrada con r2 gl dividida por r2.
3) )1(
22
χ≈Z
Es decir, una variable aleatoria normal estándar al cuadrado se distribuye chi-cuadrado con 1
grado de libertad.
4) )(...
222
2
2
1 nZZZ n χ≈+++
2
No confundir el símbolo de la matriz de covarianza ∑, con el operador de sumatorias.
20. 14
Es decir, la suma de n variables aleatorias normales estándar al cuadrado se distribuye chi-
cuadrado con n grados de libertad. Este resultado puede generalizarse cuando se trata de variables
normales no estandarizadas ),( Σ≈ μNX :
)()()'( 21
nXX χμμ ≈−Σ− −
21. 15
1.7. POTENCIA DE UN TEST
Hay dos formas en que un test nos puede llevar a cometer un error:
- Error del tipo I: Rechazar Ho cuando es verdadera, y
- Error del tipo II: No rechazar Ho cuando es Falsa.
El punto es que en la práctica no es posible hacer ambos errores arbitrariamente pequeños, pues
reduciendo la probabilidad de cometer un error aumenta la probabilidad de cometer el otro error. Sin
embargo es más grave el Error del tipo I que el Error del tipo II: es peor condenar a una persona inocente
que dejar libre a un culpable, y por este motivo se trata que la magnitud del error del tipo I sea fijado
usualmente a un valor pequeño, es decir queda bajo control del analista:
Error tipo I :
Rechazar Ho cuando es verdadera (gravísimo)
P(Error tipo I) = α = Tamaño del test (size) o nivel de
significancia.
Error tipo II:
No rechazar Ho cuando es Falsa (grave)
P(Error tipo II) = β
La forma de medir la calidad de un test estadístico es a través de su potencia.
La Potencia de un test es la probabilidad de que correctamente rechacemos Ho cuando es falsa (la
probabilidad de detectar que Ho es falsa).
)(11 IItipoErrorPPotencia −=−= β
Un test “perfecto” tendrá una potencia de 1.0, pues siempre llevará a una decisión correcta. Esto
puede lograrse, para un nivel dado de significancia, cuando el tamaño de la muestra aumenta (a infinito).
Así, la evaluación de un buen test debe hacerse en base a su función de potencia. En general el
procedimiento óptimo es seleccionar con anticipación el tamaño máximo del error del tipo I que podemos
aceptar, y después se intenta construir una prueba que minimice el tamaño del error del tipo II. Cuando
Ho es falsa, la potencia puede ser calculada asumiendo varios valores críticos para el parámetro
desconocido.
22. 16
1.7.1. APLICACIÓN: SELECCIÓN ENTRE TESTS ALTERNATIVOS
En el siguiente ejemplo σ=1.4 (desviación estándar), T=25 (número de observaciones); y se
desea probar la hipótesis Ho:μ=10 versus H1:μ>10.
Asumiendo que se desea un tamaño de error (α) de hasta 0.06, escogeremos entre 3 distintas
regiones críticas a una cola, sabiendo que las medias muestrales son: Prueba A: 10.65, Prueba B: 10.45 y
Prueba C: 10.25.
Para las diferentes medias muestrales verificamos el cumplimiento del tamaño del test requerido:
P(Error Tipo I)=α=Tamaño del test
A
B
C
P[z> (10.65-10)/0.283
]=P[z>2.32]=0.0102
P[z> (10.45-10)/0.28]=P[z>1.61]=0.0537
P[z> (10.25-10)/0.28]=P[z>0.89]=0.1867 (no cumple)
Repitiendo para diferentes valores supuestos de μ calculamos la potencia del test:
μ=10.4 μ=10.2 μ=11.0
P(Error Tipo II) con μ=10.4 Potencia Potencia Potencia
A
B
P[z> (10.65-10.4)/0.28]=P[z≤0.89]=0.8133
P[z> (10.45-10.4)/0.28]=P[z≤0.18]=0.5714
0.19
0.43
0.05
0.19
0.89
0.98
Luego:
- Al aumentar el tamaño del error del tipo I de 0.0102 a 0.0537, el error del tipo II disminuye de
0.8133 a 0.5714, y viceversa (no es posible eliminar ambos errores).
- Puesto que puede tolerarse un error del tipo I de 0.06, entonces la prueba B es mejor que la A,
debido a que su potencia es mayor para distintos valores de μ.
- El análisis de potencia permite determinar el tamaño muestral apropiado para cumplir ciertos
niveles predefinidos de α y β.
3
Recuerde que el error estándar para la media en este caso seá 1.4/(25)**0.5=0.28
23. 17
1.8. NIVEL DE SIGNIFICANCIA MARGINAL: CDF O P-VALUE
Hemos dicho anteriormente que la magnitud del error del tipo I queda bajo el control del analista,
quien lo fija en un valor relativamente pequeño, usualmente 5%. Así, la probabilidad de cometer un error
del tipo I es justamente el Nivel de Significancia Marginal (NSM).
Decimos que un resultado es estadísticamente significativo cuando el NSM es menor que el nivel
deseado (generalmente 5%), es decir se tiene suficiente evidencia para rechazar Ho. Si es mayor,
entonces es estadísticamente no significativo (no podemos rechazar Ho). Es decir, bajos niveles de P
llevan a rechazar Ho.
1.8.1. Distribución Normal
Excel entrega los valores críticos de la normal acumulando la probabilidad de izquierda a derecha y
a 1 cola (ej. si decimos al 5%, asignará 5% en 1 cola, la cola izquerda).
Ejemplo: El valor crítico a 2 colas al 95% es:
=DISTR.NORM.ESTAND.INV(0,975) = 1,95996
Ejemplo (significancia): Si el valor Z calculado es 2,0, entonces la significancia (p-value) es:
=DISTR.NORM.ESTAND(2) = 0,97724987
Sin embargo en este caso es más conveniente leer la significancia como
=1-DISTR.NORM.ESTAND(2) = DISTR.NORM.ESTAND(-2) = 0,0228. Puesto que 0,0228 es < que 5%, se
rechaza Ho a 2 colas y también a 1 cola.
24. 18
1.8.2. Distribución t
Excel solo puede entregar los valores críticos de la t de la derecha (los positivos), y lo hace
acumulando la probabilidad de derecha a izquierda a 2 colas (ej. si decimos al 5%, distribuirá 2,5% en cada
cola).
DISTR.T.INV(probabilidad de 2 colas;grados_de_libertad)
Ejemplo: los valores críticos de la t con 4 gl, y al 95% a 2 colas son: -2,776 y 2,776
=DISTR.T.INV(0,05;4) = 2,776
Nota: Puede obtenerse un valor t crítico de 1 cola reemplazando p por 2*probabilidad.
Ejemplo (significancia): Si el valor t calculado es 3,69, con 4 gl, y al 95% a 2 colas, entonces la
significancia (p-value) es:
=DISTR.T(3,69;4;2) = 0,02101873
lo que implica que Ho es rechazado al 2,1% (a 2 colas), y también al 5%.
Es importante notar que la función =DISTR.T(.) no acepta argumentos negativos, es decir, solamente puede
buscarse la significancia en el lado derecho de la distribución.
25. 19
1.8.3. Distribución F
Excel entrega los valores críticos de la F acumulando la probabilidad de derecha a izquierda y a 1
cola.
DISTR.F.INV(probabilidad de 1 cola;gl Num;gl Denom)
Ejemplo: El valor crítico de una F(1,4) a 1 cola al 95% es:
=DISTR.F.INV(0,05;1;4) = 7,70864742
Ejemplo (significancia): Si el valor F(3,30) calculado es 3,0, entonces la significancia (p-value) a 1 cola es:
=DISTR.F(3;3;30) = 0,04606
lo que implica que Ho es rechazado al 5% a 1 cola.
26. 20
1.8.4. Distribución Chi cuadrado
Excel entrega los valores críticos de la Chi acumulando la probabilidad de derecha a izquierda y a 1
cola.
PRUEBA.CHI.INV(probabilidad;grados_de_libertad)
Ejemplo: El valor crítico de la Chi cuadrado con 10 grados de libertad a 1 cola, al 95% es:
=PRUEBA.CHI.INV(0,05; 10) = 18,307
27. 21
1.9. PRUEBAS SOBRE LA MEDIA EN EXCEL
1.9.1. Inferencia respecto a una Media
Ejemplo: Se tiene información de producción de 10 empresas. Un intervalo de confianza al 95% para la
media de la producción en Excel se desarrolla como sigue:
Sabemos que se trata de 9 grados de libertad, por lo que:
a) el estadístico t es = DISTR.T.INV(0,05;9) = 2,262
b) el error típico de la media es = desvest(…)/Raiz(10) = 20,29477/Raiz(10) = 6,41777
Y el intervalo viene dado por = (Media +/- 2,262*6,41777) = (88,9 +/- 14,518). Es decir, (74,382 ;
103,418).
En Excel, aparece en la última fila:
PRODUCCION
Media 88,9
Error típico 6,417770468
Mediana 90
Moda #N/A
Desviación estándar 20,29477218
Varianza de la muestra 411,8777778
Curtosis -1,230556217
Coeficiente de asimetría -0,154506756
Rango 61
Mínimo 57
Máximo 118
Suma 889
Cuenta 10
Nivel de confianza(95,0%) 14,5180054
Note que al aumentar la confianza, se amplía el Intervalo de Confianza (verifíquelo).
28. 22
1.9.2. Diferencia de dos Medias (Univariado)
Para comparar 2 grupos de datos, se tienen básicamente dos enfoques:
- Datos son Normales: Test t
- Datos solo tienen una distribución ordinal (no paramétrica): Test U y Test de Wilcoxon)
A continuación nos referiremos solamente a las comparaciones del primer tipo.
El estadístico: )1,0(
)(
2
2
2
1
21
N
nm
YX
Z ≈
+
−−−
=
σσ
μμ
Ejemplo: El análisis de una muestra de m = 20 personas arrojó una edad media de 29.8 años. Una
segunda muestra de n = 25 tuvo un promedio de 34.7 años. Las distribuciones de la edad son normales
con 1σ = 4.0 y 2σ = 5.0. ¿Son las edades diferentes: Ho:μ1=μ2? Realice el test con un α = 0.01
Solución: Ho: μ1 - μ2, test de dos colas: Zona de rechazo: +/- 2.58
65.3
3416.1
9.4
25
25
20
16
7.348.29
−
−
=
+
−
=Z se rechaza Ho ⇒ las edades son diferentes.
IC es (-4.9 +/- 2.58*1.3416) = (-4.9 - 3.46 , -4.9 + 3.46) = (-8.36 , -1.43)
puesto que 0 se ubica fuera del IC, la diferencia de edades es significativamente diferente de cero (los
promedios de cada grupo son diferentes).
Ejemplo: Se realizaron test de resistencia en dos tipos de alambres:
Tamaño de la muestra
Media
2
mmKg Desviación Estándar
M = 129
X = 107.6
S1 = 1.3
N = 129
Y = 123.6
S2 = 2.0
μ1 - μ2 = 107.6 – 123.6 ± 1.96
( ) ( )
129
0.2
129
3.1
22
+ = -16 ± 0.4116 = (-16.4116; -15.5884)
Conclusiones: μ2 > μ1. μ2 es aproximadamente 16
⎥⎦
⎤
⎢⎣
⎡
2
mm
Kg
más grande que μ1
29. 23
“Problema de Behrens-Fisher”
La solución más simple al caso de varianzas desiguales es llamada “la aproximación a la t de
Welch”, la que corrige los grados de libertad de la t como sigue:
11 2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
−
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
+
−
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
+
=
n
n
s
n
n
s
n
s
n
s
gl
El resultado puede ser no entero, y entonces se lo aproxima al entero más cercano.
1.9.3. Inferencia En Excel
Ejemplo: Supóngase que se desea comparar las medias de salario inicial de los dos grupos de
trabajadores (474 observaciones) definidos por la variable sexo (h=hombres y m=mujeres). “Employee
data.xls”
a) Varianzas Conocidas: Prueba Z para medias de dos muestras.
Debe ingresarse las varianzas conocidas.
b) Varianzas Desconocidas. Prueba t para dos muestras suponiendo varianzas iguales.
(Muestras Independientes)
Prueba t para dos muestras suponiendo varianzas iguales
Variable 1 Variable 2
Media 13091,9676 20301,3953
Varianza 8617742,74 83024550,6
Observaciones 216 258
Varianza agrupada 49131619
Diferencia hipotética de las medias 0
Grados de libertad 472
Estadístico t -11,1523866
P(T<=t) una cola 4,2491E-26
Valor crítico de t (una cola) 1,64808834
P(T<=t) dos colas 8,4981E-26
Valor crítico de t (dos colas) 1,96500259
La prueba t arroja un valor de 11,152 para 472 grados de libertad. La significancia estadística a
dos colas es prácticamente cero, y se rechaza la igualdad de medias de salarios.
La diferencia de las medias es 7.209,43 y el error estandar de la diferencia es 646,45. Un
intervalo de confianza para la diferencia de media es (5.939,16 ; 8.479,70).
30. 24
c) Varianzas Desconocidas. Prueba t para dos muestras suponiendo varianzas desiguales.
(Muestras Independientes)
Prueba t para dos muestras suponiendo varianzas desiguales
Variable 1 Variable 2
Media 13091,9676 20301,3953
Varianza 8617742,74 83024550,6
Observaciones 216 258
Diferencia hipotética de las medias 0
Grados de libertad 319
Estadístico t -11,9874833
P(T<=t) una cola 6,9028E-28
Valor crítico de t (una cola) 1,64964432
P(T<=t) dos colas 1,3806E-27
Valor crítico de t (dos colas) 1,96742832
La prueba t arroja un valor de 11,987 para 318,818 grados de libertad. La significancia estadística
a dos colas es prácticamente cero.
La diferencia de las medias es 7.209,43 y el error estandar de la diferencia es 601,41. Un
intervalo de confianza para la diferencia de media es (6.026,19 ; 8.392,67).
987.11
4.601
4.7209
216
2935
258
9111
97,130914,20301
22
==
+
−
=t vs =distr.t.inv(0,05;319)=1.967, se rechaza la igualdad de
medias de salarios.
El IC es: 7209,43 +/- 1.96*601,412
31. 25
d) Varianzas Desconocidas. Prueba t para medias de dos muestras emparejadas (relacionadas
o pareadas). En este caso los rangos de las variables deben contener el mismo número de
observaciones.
Cuando no hay completa independencia entre los pares de las muestras, posiblemente debido a
un origen común, por ejemplo el caso de el ingreso y el tamaño de las casa de las familias.
Lo que se hace es trabajar con las diferencias entre cada par de observaciones, de modo que el
procedimiento puede ser llamado una prueba t de una sola muestra como vimos anteriormente.
Ejemplo: Comparar las medias de las series Salario Actual y Salario Inicial.
Prueba t para medias de dos muestras emparejadas
Variable 1 Variable 2
Media 34419,5675 17016,0865
Varianza 291578214 61946945
Observaciones 474 474
Coeficiente de correlación de Pearson 0,88011747
Diferencia hipotética de las medias 0
Grados de libertad 473
Estadístico t 35,0359608
P(T<=t) una cola 8,051E-134
Valor crítico de t (una cola) 1,64808148
P(T<=t) dos colas 1,61E-133
Valor crítico de t (dos colas) 1,96499192
La media es 17.403,48, la desviación estándar es 10.814,62, y el error estándar de la media es
496,73. El intervalo de confianza es (16.427,41 ; 18.379,56). El estadístico t es de 35,036 para 473
grados de libertad, lo que arroja una significancia a dos colas cercana a cero.
32. 26
1.10. SERIES DE DATOS
Las Series son los datos más importantes en cualquier investigación, pues contienen la
información que ha sido recopilada acerca de las variables de interés. Son esencialmente arreglos de
elementos de una dimensión, como los vectores, pero tienen una estructura mucho más compleja, puesto
que, por ejemplo, pueden tener elementos definidos y no definidos. Por ejemplo, en una serie “Consumo
Nacional Anual” es posible que no dispongamos del dato de un año en particular, pero aún así podemos
construir la serie.
Operacionalmente las series siempre tienen la estructura de una matriz rectangular, en que las
columnas contienen las variables, y las filas representan los casos o sujetos, y además no hay elementos
vacíos.
En econometría las series de datos pueden ser de 3 tipos: corte transversal (cross section), series
de tiempo (time series) y del tipo panel o combinadas (panel data).
Las series de corte transversal son observaciones de determinadas variables en un momento del
tiempo.
Ejemplo: Las series Capital y Reservas (en millones de pesos) de los bancos nacionales,
en enero de 1990, constituyen una serie de corte transversal.
Banco Capital y Reservas
1 3.661
2 5.590
3 3.047
4 9.296
5 6.604
6 6.908
7 8.122
Las series de tiempo están constituidas por observaciones de un número de variables a través del
tiempo (diarias, mensuales, anuales, etc.).
Ejemplo: La serie Producto Interno Bruto anual de Chile en $ reales de 1986 entre 1972 y
1976 es una serie de tiempo.
AÑO PIB ($ reales 1986)
1972 2.659.800
1973 2.544.814
1974 1.864.085
1975 2.341.477
1976 2.329.343
Los datos de panel están constituidos por combinaciones de datos de corte transversal y series de
tiempo.
33. 27
Ejemplo: La siguiente tabla muestra 3 series de colocaciones de 3 bancos entre enero y
julio de 1990, por lo que se trata de un panel de datos.
Fecha Colocaciones
Banco 1
Colocaciones
Banco 2
Colocaciones
Banco 3
90.01 5132 2525 507
90.02 4704 3223 518
90.03 4941 2200 517
90.04 4806 3012 527
90.05 4943 2553 535
90.06 4566 3101 541
90.07 4167 3176 550
Hemos señalado que los datos econométricos pueden ser de 3 tipos: corte transversal, series de
tiempo y datos de panel. Excel no está diseñado especialmente para trabajar con datos de panel.
34. 28
CAPÍTULO 2
EL MODELO DE REGRESIÓN LINEAL
2.1. INTRODUCCIÓN: ¿QUE ES LA ECONOMETRÍA?
Diccionarios especializados definen econometría como “la aplicación de técnicas matemáticas y
estadísticas a la economía en el estudio de problemas, análisis de datos, el desarrollo y la prueba de
teorías y modelos."
En efecto, cuando un economista plantea un determinado modelo en el cual existe una variable
dependiente de otras variables explicativas a través de una determinada especificación funcional, esta es
susceptible de ser estimada con datos de la realidad. En casos simples, el modelo no requiere estar
especificado demasiado formalmente, pues en muchos casos es aceptada cierta relación ente variables,
por ejemplo Ventas-Publicidad, Ingreso-Consumo, Nivel de tasas de interés-Inversión, etcétera. Esto es
en breve lo que se entiende por econometría.
Así como iremos viendo a través de este libro, los tres principales usos de la econometría
incluyen:
1) Medición de Parámetros (estimación de modelos)
2) Prueba de Hipótesis
3) Predicción
2.2. ESTIMACIÓN DE MODELOS DE REGRESIÓN
El análisis de regresión estudia la relación de dependencia de una variable dependiente en una o
más variables explicativas, con el objetivo de estimar y/o predecir resultados promedio o poblacionales de
la primera, en términos de valores conocidos o fijos (en muestras repetidas) de las últimas. El aspecto
común de todos los modelos de regresión es entonces la existencia de variables dependientes (Y) que son
explicadas por una serie de variables independientes (X’s). De todos los modelos de regresión el más
común es del tipo lineal múltple (uniecuacional), en el cual Y es función lineal de las diferentes X’s. Como
veremos, esta especificación posee una serie de ventajas respecto, por ejemplo, a los modelos no
lineales. Nótese también que existen diferencias entre el análisis de regresión y el de correlación, pues la
primera de ellas asume un tratamiento asimétrico de las variables (separándolas en dependientes e
independientes) y asumiendo un comportamiento aleatorio (estocástico) de la variable dependiente. En el
análisis de correlación las variables tienen un tratamiento simétrico (no existe distinción entre variables
dependientes e independientes).
35. 29
Los modelos econométricos pueden ser lineales o no lineales en los parámetros4
. Son lineales
cuando la variable explicada (dependiente) puede ser escrita como una combinación lineal de las variables
explicativas (independientes). Por ahora trabajaremos solamente con modelos lineales.
Ejemplo: Modelo Lineal:
tttt XYY εβββ +++= − 2110 ;* es un modelo lineal en los parámetros. Los
parámetros a estimar o incógnitas son los coeficientes β, mientras que las
variables explicativas son X e Y rezagada. La variable explicada o endógena es Y.
Ejemplo: Modelo no Lineal:
tttt XYY εβββ +++= −
2
2110 ;* es un modelo no lineal en los parámetros, pues
hay un coeficiente β que se encuentra al cuadrado, y no hay forma de eliminar ese
exponente sin afectar la linealidad de los restantes parámetros.
La segunda clasificación importante es la de modelos de regresión simples o múltiples, de acuerdo
al número de variables que explican a la variable dependiente. Cuando solamente existe una variable
explicativa se llama a éste un modelo de regresión simple y cuando son varias se le llama modelo de
regresión múltiple.
Ejemplo: ttt PUBLICIDADVENTAS εββ ++= 10 ;* es un modelo de regresión simple:
La relación lineal entre las ventas (y) y los gastos en publicidad (x)
Ejemplo: ttttt TAMAÑOACTIVOSINGRESOSCONSUMO εββββ ++++= 3210 ;* es
un modelo de Regresión Múltiple. La relación lineal entre el gasto en consumo de las
familias (y) en función del ingreso (x1), los activos financieros de la familia (x2) y
del tamaño de la familia (x3).
2.2.1. EL MÉTODO DE MÍNIMOS CUADRADOS
Supongamos que disponemos de información de Ingreso (variable exógena) y de Consumo
(variable endógena) de 20 familias en un determinado periodo (ver datos en archivo 'Tabla 04.xls'). Esta
información es mostrada en el siguiente gráfico (scatter).
4
La no linealidad se refiere a los parámetros, puesto que la no linealidad de las variables consiste simplemente en una
transformación de éstas.
36. 30
Relacion Ingreso-Consumo
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
40,0
45,0
0,0 10,0 20,0 30,0 40,0 50,0
Ingreso
Consumo
Al obtener la información real, esta no se ajustará exactamente al modelo (que suponemos en
este caso es lineal), pues algunos puntos se ubican sobre y otros por debajo de la recta. Las
observaciones parecen una nube de puntos, y nuestro objetivo es determinar el mejor ajuste a la línea, lo
que implica estimar el intercepto y la pendiente de la recta de mejor ajuste a la nube de puntos. Puesto
que existe una desviación o error entre cada valor observado de Y y cada valor predicho por la recta
(Yˆ ), entonces el mejor ajuste será el que minimice tales errores5
.
Puesto que habrá errores positivos y negativos, una posibilidad es encontrar la recta óptima (es
decir el parámetro de intercepto y pendiente) minimizando la suma cuadrara de los errores (SCErr),
procedimiento llamado Mínimos Cuadrados Ordinarios. Estos parámetros de intercepto y pendiente son
llamados también parámetros de posición.
Es conveniente suponer que Y es una variable aleatoria, es decir las observaciones de Y son
sucesos observados en un experimento, y que éstos tienen alguna distribución como se muestra a
continuación:
Variable Exogena X
VariableendógenaY
Y=a+bX
Valores posibles de Y
dado un valor de X
5
Se agrega un término de Error (e) pues la relación entre X e Y es estocástica, lo que se puede deber a:
- Elementos impredecibles (aleatorios) del comportamiento humano.
- Gran número de variables omitidas, algunas no cuantificables.
- Errores de medición en y.
37. 31
Así, si efectivamente la relación subyacente es lineal, uno esperaría que a través de repeticiones
sucesivas de Y (experimentos repetidos) se obtendría observaciones con frecuencias como las descritas
en cada distribución de la ilustración, de modo que el error esperado de cada observación sea cero.
Un supuesto importante en esta parte es que si bien Y y X son observables, X está fijo es decir es
una variable completamente definida por el investigador. Por el contrario Y es estocástico, producto que
existe el error en el modelo, y este error es estocástico, efecto que se transmite a Y.
2.2.2. IMPLEMENTACIÓN DE MCO
Hemos dicho que un modelo del tipo lineal simple contiene una sola variable explicativa (X). La
especificación general es un modelo lineal múltiple con muchas variables explicativas. Considerando todas
las observaciones (supongamos que se trata de T observaciones disponibles), esta relación puede
escribirse entonces de un modo matricial como sigue:
111 TxKxTxKTx XY εβ +=
es decir:
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
TY
Y
Y
Y
.
.
2
1
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
XXX
XXX
XXX
TkTT
k
ik
X
..
......
......
..
..
21
22221
1211
1
1
1
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
kβ
β
β
β
.
.
1
0
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
Tε
ε
ε
ε
.
.
2
1
donde Y es el vector de variables explicadas por el modelo, X es una matriz de valores conocidos de
variables explicatorias fijas o no estocásticas6
, ε es un vector tal que (X,ε) es una secuencia de vectores
aleatorios independientes7
, y β es un vector de K parámetros desconocidos. Para efectos de notación
matricial, el primer subíndice de X indica el número de la observación y el segundo identifica la variable.
El método de mínimos cuadrados (MCO) para encontrar los coeficientes β que proporcionan el
mejor ajuste consiste en minimizar la suma cuadrada de errores, S. Esta suma cuadrada de errores
resulta más sencilla de expresar en términos matriciales como sigue:
Expresemos el vector de errores como la siguiente diferencia:
)( βε Xy −=
luego, la suma cuadrada de errores es:
6
Más adelante veremos que este supuesto de X fijas puede ser levantado.
7
El caso en que X contiene algún tipo de información acerca del valor esperado en el error, se produce sesgo e
inconsistencia. Otros supuestos relevantes se relacionan con la necesidad de que las varianzas de los errores estén
uniformemente acotadas y que la matriz promedio de covarianza de los regresores sea no singular.
38. 32
βββ
ββββ
ββ
ββ
XXyXyy
XXXyyXyy
XyXy
XyXyS
''''2'
''''''
))('''(
)()'(
+−=
+−−=
−−=
−−=
El objetivo de MCO es encontrar el valor del vector de coeficientes que minimice S, para lo cual
debe derivarse S respecto a b (el estimador de MCO), es decir:
yXXXb
yXXbX
XXyX
')'(
''
0'2'2
S
1−
=⇒
=⇒
=+−=
∂
∂
β
β
Luego, el estimador de MCO de β es b y viene dado por:
yXXXb ')'( 1−
=
que es un vector aleatorio puesto que, como se ve, es una función lineal de Y. Nótese que b tiene
dimensión Kx1, de modo que para el caso de un modelo lineal simple, K=2, y el elemento (1,1) de b será
el intercepto, y el elemento (2,1) será la pendiente.
Así hemos mostrado que el estimador de MCO de los coeficientes de regresión (b) viene dado por
el producto de la matriz X y del vector Y. Luego, el procedimiento para calcular b es meramente
matemático.
39. 33
2.3. PRUEBA DE HIPÓTESIS
2.3.2. LA DISTRIBUCIÓN DE b Y SUS PROPIEDADES
Hemos señalado que b (el estimador de β) es también una variable aleatoria, de modo que si se
conoce su distribución seremos capaces de hacer inferencias de éstos, tales como intervalos de confianza
y pruebas de hipótesis. Veamos entonces la distribución del estimador b, en cuanto a su valor esperado y
su varianza.
Puede mostrarse que el valor esperado y la varianza de b vienen dadas respectivamente por8
:
)(')'()( 1
εβ EXXXbE −
+=
[ ] 11
)'()'(')'()')(()( −−
=−−= XXXEXXXbbEbV εεββ
donde E(εε’) corresponde a la matriz de varianzas y covarianzas de los errores.
La matriz de varianzas y covarianzas de los coeficientes es cuadrada y simétrica de dimensiones
KxK, es decir:
[ ]
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎣
⎡
=−−
)(
)(),(
),()(
)')(( 212
211
kbVar
bVarbbCov
bbCovbVar
bbE ββ
donde los elementos de la diagonal son las varianzas de cada coeficiente, los que se encuentran fuera de
la diagonal son las covarianzas.
Así, b tiene la siguiente distribución general9
:
[ ]111
)'()'(')'(,)(')'( −−−
+≈ XXXEXXXEXXXb εεεβ
Nótese también que el comportamiento de los errores (ε), es decir la matriz de varianzas y
covarianzas de los errores, E(εε’), tiene gran importancia en la esperanza y la varianza de b. En efecto,
para que b sea un estimador insesgado de β (es decir E(b)=β) se requiere que X’E(ε)=0, es decir que los
errores sean independientes de las variables explicativas X, lo que se lograría siempre en el caso que X
fuera fija, y también en algunos casos cuando X es estocástica (véase regresores estocásticos).
Respecto a la varianza de b, cuando E(εε’)=σ2
I, lo que significa que los errores están distribuidos
independiente y constantemente, V(b) es mínima, es decir, el estimador b es eficiente (de varianza
mínima), y en este caso la varianza de b viene dada por:
12121
)'()'(')'()( −−−
== XXXXXXXXbV σσ
Es decir:
8
Véase ecuación 5.6.8.a) en página 201 de Judge et al. (1988).
9
Note que no especificamos aún, pues no lo requerimos, la distribución específica de b, es decir si por ejemplo se trata
de una distribución Normal o no.
40. 34
[ ]12
)'(, −
≈ XXb σβ
Donde la matriz X' tiene dimensión KxT, X tiene dimensión TxK, (X'X)-1
es una matriz inversa simétrica de
dimensión KxK y σ2
es un escalar.
Teorema de Gauss-Markov
Así, bajo condiciones ideales (errores bien comportados) el estimador lineal de MCO es insesgado
y eficiente. Esto es resumido por el Teorema de Gauss-Markov, en cuanto a que puede mostrarse10
que b
es MELI, es decir, es el mejor estimador insesgado de entre la clase de los estimadores lineales de β.
Para entender la importancia del Teorema de Gauss-Markov debemos notar primero que b es un
estimador lineal, en vista que puede escribirse como una combinación lineal de la variable dependiente Y,
y que no se requiere normalidad de los errores (más adelante tomaremos este supuesto, y como
resultado, la variable Y transmite sus propiedades aleatorias (estocásticas) al estimador b). Nótese que
este teorema no dice que b son los mehjores de todos los posibles estimadores. Esto pues existen varias
clases de estimadores lineales que podrían usarse para estimar los parámetros de intercepto y pendiente
del modelo, y una porción de estos incluso será insesgados. Sin embargo, b tiene la propiedad adicional
que tiene una varianza menor que todos los estimadores lineales que sean insesgados, lo que lo convierte
en MELI, es decir el mejor estimador lineal insesgado de entre todas las clases de estimadores lineales
(estimador de varianza mínima).
Para que el teorema sea verdadero deben cumplirse los primeros 5 supuestos que siguen:
1. Modelo de Regresión Lineal
2. Error tiene media cero (el método de MCO asegura este resultado)
3. El término de error tiene varianza constante para todas las observaciones (homocedasticidad)
4. Los términos de error son estadísticamente independientes entre sí (no autocorrelación serial)
5. Las X son variables no estocásticas, o alternativamente las X no están correlacionadas con el
término de error (ambas son ortogonales): Cov(X,e) = E(Xe) = 0
6. (Optional) Error tiene una distribución normal: E~N(0, σ2)
Errores bien comportados en un modelo de regresión lineal se refiere a los supuestos 3), 4) y 5).
A continuación explicams esto con mayor detalle.
2.3.3. LA MATRIZ DE COVARIANZAS DE LOS ERRORES
La matriz de varianzas y covarianzas de los errores tiene la siguiente forma:
[ ]
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎣
⎡
=
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎣
⎡
=
)(...
......
)(
)()(
...
......
'
12
211
12
2111
TTT V
Cov
CovV
EE
ε
εε
εεε
εε
εε
εεεε
εε
donde los elementos de la diagonal representan la varianza de cada error, y los elementos fuera de la
diagonal son las covarianzas respectivas entre errores. Puesto que la covarianza entre el error 4 y el error
6 es la misma que la covarianza entre el error 6 y el error 4, entonces ésta matriz es simétrica y cuadrada
de dimensión TxT.
Esta matriz no es posible de observar ni estimar completamente con los datos, por la sencilla
razón de que existen solamente T observaciones o grados de libertad inicialmente, y E(εε’) contiene
10
Véase sección 5.7 en Judge et al.
41. 35
T(T+1)/2 incógnitas11
. Por este motivo deben hacerse supuestos simples acerca de su comportamiento, y
el más sencillo es asumir que los errores están idealmente bien comportados, lo que quiere decir que
éstos errores se distribuyen independiente e idénticamente.
Veamos esto con algún detalle.
- Cuando los errores se distribuyen idénticamente significa que tienen igual varianza (sabemos que
tienen media cero). En econometría a esta propiedad se le llama homocedasticidad, o inexistencia de
heterocedasticidad. Esto significa que la matriz de varianzas y covarianzas de los errores debe tener a lo
largo de toda su diagonal el mismo elemento, es decir una constante, reflejando que la varianza del error
de cada observación es el mismo para las T observaciones.
- Cuando los errores se distribuyen independientemente quiere decir que éstos no están
correlacionados entre sí. En econometría a esta propiedad se le llama no-autocorrelación serial, o errores
no correlacionados serialmente. En este caso la matriz de varianzas y covarianzas de los errores debe
presentar que todos los elementos fuera de la diagonal (es decir las covarianzas) sean cero.
Así, en el caso de errores bien comportados, esto se traduce en homocedasticidad y no
autocorrelación, lo que significa que la matriz de varianzas y covarianzas de los errores debe ser igual a:
[ ] IE 22
2
2
2
10
......
10
0...01
0
......
0
0...0
' σσ
σ
σ
σ
εε =
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎣
⎡
=
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
es decir σ2
veces la matriz identidad. De este modo, en adelante, cuando nos referimos a errores bien
comportados queremos decir errores con varianzas del tipo escalar-identidad o σ2
I, donde I es la matriz
identidad. Por el contrario, cuando los errores están mal comportados se dice que su matriz de varianzas
y covarianzas tiene la forma de σ2
ψ, donde ψ es una matriz cuadrada simétrica TxT pero distinta de la
matriz identidad.
En cualquier caso, si bien ψ no puede estimarse a partir de los datos, sí puede obtenerse un
estimador de σ2
, la varianza de los errores (σ es conocida el error estándar de la estimación) que
denominamos s2
, el que puede mostrarse, viene dado por:
KTKTKT
SCErr
s
Tt
t
t
−
=
−
=
−
=
∑
=
= εε
ε
'1
2
2
Puede apreciarse que s2
proviene de la fórmula tradicional de varianza de una serie, es decir la
suma cuadrada de las desviaciones de cada observación respecto a la media (la media de los errores es
cero) dividido por el número de grados de libertad, en este caso T menos el número de parámetros
estimados en la regresión previa a la estimación de s2
.
La forma de efectuar pruebas de hipótesis sobre coeficientes se mostrará en el capítulo siguiente.
Por ahora solo hemos mostrado dos resultados importantes para hacer esto: la distribución de b y la
varianza de los errores.
11
Por ejemplo, se tienen 3 observaciones, E(εε’) tiene por incógnitas los 3 elementos de la diagonal de ésta matriz más
los 3 elementos debajo de la diagonal (pues es una matriz simétrica, los elementos de arriba de la diagonal son
iguales), es decir un total de 3+3 = 3*4/2 = 6 incógnitas.
42. 36
2.3.4. UNA MEDIDA DEL ÉXITO DE AJUSTE
Una vez que hemos conocido la forma de estimar los coeficientes de regresión (estimador b) y sus
propiedades más importantes, debemos proceder a establecer alguna medida que determine el grado de
ajuste de la línea de regresión a los datos. La medida usual para evaluar el grado de éxito de ajuste de los
estimadores (del método de MCO en este caso) es el coeficiente R- cuadrado. Un buen modelo de
regresión es aquel que ayuda a explicar una proporción grande de la varianza de Y. Recordemos que
existen desviaciones positivas y negativas, por lo que el tamaño de los errores constituye una útil medida
para determinar el ajuste entre la línea de regresión y los datos.
La derivación del R-cuadrado se obtiene descomponiendo la suma cuadrada total en suma de
cuadrados explicada y suma de cuadrados no explicada por la regresión (SCErrores):
SCT = SCExpl + SCErr
∑∑∑ −+−=− 222
)ˆ()ˆ()( tttt yyyyyy
donde iy son los valores observados de Y, y es el valor promedio de los y observados, lo que sirve para
reescalar apropiadamente los cálculos, y por último iyˆ corresponde a los valores de Y predichos por la
regresión ajustada. Un mejor ajuste implicará que la SCExplicada es mayor que la SCErrores. Así,
dividiendo ambos lados de la igualdad por el término de la izquierda se tiene que:
∑
∑
∑
∑
−
−
+
−
−
= 2
2
2
2
)(
)ˆ(
)(
)ˆ(
1
yy
yy
yy
yy
t
tt
t
t
∑
∑
−
−
= 2
2
2
)(
)ˆ(
yy
yy
R
t
t
, o escrito de otro modo,
totalcuadradasuma
explicadacuadradasuma2
=R
Este coeficiente tiene un rango de valores posible entre 0 y 1. Mientras más cercano a cero
indicará un mal ajuste y mientras más cercano a 1 indicará un mejor ajuste. Esto es fácil de observar a
través del siguiente ejemplo: si todas las observaciones de una muestra cayeran sobre la línea de
regresión, el ajuste sería perfecto (R-cuadrado = 1).
xbbyˆ 21 +=
y
yyt −ˆ
yyt −
ty •
tyˆ
xt
et=yt-yt
43. 37
Lamentablemente el R-cuadrado está afectado por el número de parámetros usados en el modelo,
de modo que en general, siempre se obtendrá un R-cuadrado más alto cuanto mayor sea el número de
variables explicativas, lo que dificulta las comparaciones. De otro modo, se esperan bajos R-cuadrados
para modelos relativamente simples. Sin embargo la regla de la parsimonia indica que los modelos con
demasiados parámetros hacen perder grados de libertad y confianza en las estimaciónes, aspecto que el
R-cuadrado no considera.
Debido a este problema fue desarrollado el coeficiente R-cuadrado ajustado de la siguiente forma:
)1(
1
1 22
R
KT
T
R −⎟
⎠
⎞
⎜
⎝
⎛
−
−
−=
el cual presenta una especie de corrección / castigo para los modelos con muchos parámetros, puesto que
al aumentar K caerá el valor de esta medida. Como desventaja, el R-cuadrado ajustado puede ser
negativo.
44. 38
2.4. CASO DE ESTUDIO
El siguiente ejemplo es obtenido de Pindyck y Rubinfeld (Econometrics Models and Economic
Forecast), el que trabaja con la siguiente información (más de 400 observaciones a partir de enero de
1959). El archivo de datos en formato Excel de este (“Pindyck.xls”) y otros ejemplos se encuentra en el
SID de la UCN, y también con acceso libre en www.finanzascl.cl/econometria/data_excel.htm.
Rate : Tasa de interés de los T-Bill de los EEUU de 3 meses.
IP : Indice de producción industrial del FED, ajustado estacionalmente (1987=100).
M1 : Cantidad de dinero M1, en billones de US dollars, ajustados estacionalmente.
M2 : Cantidad de dinero M2, en billones de US dollars, ajustados estacionalmente.
PPI : Indice de precios al productor, todas las mercancías (1982=100), no ajustado estacionalmente.
Se tienen dos modelos de regresión como sigue:
tttttt uPSUMMMIPR ++−++= − 3321 )11( βββα (1)
donde
2
2
1
1
−
−
−
− Δ
+
Δ
+
Δ
=
t
t
t
t
t
t
PPI
PPI
PPI
PPI
PPI
PPI
PSUM
ttttt uGRPPIGRMIPR ++++= −1321 2 βββα (2)
donde
1
1
1
1 )(
100,
2
)22(
2
−
−
−
− −
=
−
=
t
tt
t
t
tt
t
PPI
PPIPPI
GRPPI
M
MM
GRM
2.4.1. Describiendo los Datos
Sabemos que el archivo cuenta con 446 observaciones en la forma de una serie de tiempo. Luego
es importante que al momento de estimar los modelos o al obtener estadísticas parciales de datos lo
podamos hacer refiriéndonos a fechas en lugar de la posición de cada observación. Para esto, es
conveniente que la primera columna contenga las fechas en el formato deseado, por ejemplo, año, mes.
Esto además permitirá hacer gráficos de series de tiempo con los datos.
45. 39
2.4.2. Calculando Estadísticas
Luego de ingresados los datos a Excel, es recomendable chequear si el ingreso de los mismos se
ha hecho de manera adecuada. La forma de efectuar este chequeo es consultando algunos estadísticos
básicos para verificar por ejemplo el número de observaciones (N) y los valores máximos y mínimos.
Max 16,2950 1151,4000 3690,2000 123,7000 126,1000
Min 2,2680 138,9000 286,7000 36,0000 31,3000
Media 6,0590 448,0933 1579,5439 77,4686 71,5206
Desv St 2,7752 312,0299 1144,2819 24,1488 34,8445
Num Obs 446,0000 446,0000 446,0000 446,0000 446,0000
También es posible obtener importantes estadísticos que nos indican como se distribuyen los datos, para
cada una de las variables a considerar. En el siguiente cuadro podemos apreciar la información obtenida
de la variable RATE.
Valores
Observaciones 446
Media Muestral 6,0590
Desv estándar 2,7752
Varianza 7,70182173
Error est. de la media 0,13141027
Estadístico t 46,1073203 Hipótesis Significancia a 1 cola
Sesgo 1,18620737 10,19269 2
Curtosis 1,58711239 6,788193 2
Jarque Bera 151,403572 151,4035 1,3278E-33
2.4.3. Transformación de datos y creación de nuevas series
En la realización de cualquier trabajo se requerirá algunas transformaciones de datos, o bien la
creación de nuevas series. En el caso del ejemplo deben realizarse varias transformacionesque se
muestran a continuación en un segmento de los datos:
M1t-M1t-3 dPPIt/PPIt dPPIt-1/PPIt-1 dPPIt-2/PPIt-2 PSUM GRM2t GRPPIt
0,0000 0,00348797 0
0,0000 0,0000 0,00521376 0
0,8000 0,0031 0,0000 0,0000 0,0031 0,00311201 0,31545259
1,3000 0,0000 0,0031 0,0000 0,0031 0,0072389 0
1,5000 -0,0032 0,0000 0,0031 0,0000 0,00650237 -0,31446062
2,0000 0,0000 -0,0032 0,0000 -0,0032 0,00374025 0
1,2000 -0,0032 0,0000 -0,0032 -0,0063 0,00406498 -0,31545861
-0,2000 0,0032 -0,0032 0,0000 0,0000 0,00101221 0,3164569
-1,2000 -0,0032 0,0032 -0,0032 -0,0032 -0,00067412 -0,31545861
-1,5000 -0,0032 -0,0032 0,0032 -0,0032 0,00202363 -0,3164569
-1,0000 0,0000 -0,0032 -0,0032 -0,0063 0,00235605 0
-0,5000 0,0032 0,0000 -0,0032 0,0000 0,00134322 0,31746032
-0,5000 0,0000 0,0032 0,0000 0,0032 0,00067069 0
46. 40
2.4.5. Gráficos de Series de Tiempo
En el menú de Excel, encontramos el asistente de gráficos, la cual nos permite acceder a una gran
variedad de gráficos. Dentro de los tipos de gráficos que más utilizaremos se encuentran los gráficos de
Lineas, Scatter y Secuencias. A continuación se presenta un ejemplo del trazado de gráfico de secuencia
de las series “rate”, “ip” y “ppi”.
Se indica que en el eje de las X's se rotule la fecha correspondiente para cada observación. La salida de
Excel nos mostrará el siguiente gráfico:
2.4.6. Gráficos X-Y (Scatter)
También es posible graficar una serie contra otra a partir de la opción SCATTER ( dispersión). Para
esto se debe hacer clic en esta opción y se despliega el siguiente cuadro:
Hemos definido un Scatterplot Simple. Luego se deben definir las series de acuerdo a como
queramos que se ubiquen en los ejes. Para este ejemplo definiremos en el eje de las X a la serie “grppi”y
en el eje de las Y a la serie “rate”, y obtenemos la siguiente gráfica:
47. 41
RATE VS GRPPI
0
2
4
6
8
10
12
14
16
18
-0,03 -0,02 -0,01 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07
GRPPI
RATE
Al seleccionar la opción agregar línea de tendencia, logramos obtener la regresión lineal simple
correspondiente para estas dos variables, la cual se puede apreciar en el grafico subsiguiente.
RATE VS GRPPI
y = 97,252x + 5,7621
R
2
= 0,0569
0
2
4
6
8
10
12
14
16
18
-0,03 -0,02 -0,01 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07
GRPPI
RATE
48. 42
2.4.7. CASO DE ESTUDIO: Corriendo la Regresión 1
Retomando el caso de estudio anterior, debemos hacer un número de transformaciones previas
para correr las dos ecuaciones de regresión:
tttttt uPSUMMMIPR ++−++= − 3321 )11( βββα (1)
donde
2
2
1
1
−
−
−
− Δ
+
Δ
+
Δ
=
t
t
t
t
t
t
PPI
PPI
PPI
PPI
PPI
PPI
PSUM
El objetivo es obtener la regresión de (1) desde febrero de 1960 hasta diciembre de 1980 (1960:2
1980:12). Luego, escogiendo a la opción Análisis de datos, y luego la opción regresión, se deben ingresar
los datos correspondientes. Así obtendremos la siguiente tabla adjunta:
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,825962178
Coeficiente de determinación R^2 0,68221352
R^2 ajustado 0,678353765
Error típico 1,395907712
Observaciones 251
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 3 1033,22587 344,4086233 176,7504807 3,39702E-61
Residuos 247 481,2939099 1,94855834
Total 250 1514,51978
Coeficientes Error típico Estadístico t Probabilidad
Intercepción -2,490797219 0,488327556 -5,100668986 6,74644E-07
IP 0,125778816 0,009459776 13,2961728 8,66531E-31
M1t-M1t-3 -0,082500634 0,039357017 -2,096211583 0,037081155
PSUM 30,23544113 7,170339111 4,216737962 3,48055E-05
Hemos solicitado estimar una regresión donde la variable dependiente “rate” se explica por las
variables “ip”, “M1diff” y “ppisum”, y se incluye automáticamente el intercepto de la recta de regresión.
El primer cuadro muestra los coeficientes de determinación R2
y R2
ajustado, además del coeficiente de
correlación múltiple y el error estándar de la regresión.
En segundo lugar, encontramos la información contenida en la tabla “ANOVA”, donde se muestra
la descomposición de la suma cuadrada de errores, y los grados de libertad correspondientes. Además,
esta tabla contiene el estadístico F, y el valor P correspondiente a la 'prueba F de significancia global' de
los parámetros de regresión.
En el cuadro “coeficientes”, se entrega los valores de los estimadores de los parámetros de
regresión. La columna Error Típico que entrega el error estándar de cada coeficiente. Finalmente, las
últimas 2 columnas entregan el estadístico t y el valor P (a 2 colas) de la 'prueba de significancia
individual' de los parámetros.
El análisis de las salidas anteriores en cuanto a pruebas de hipótesis se muestra en el capítulo
siguiente.
49. 43
2.4.8. CASO DE ESTUDIO: Corriendo la Regresión 2
La segunda regresión es:
ttttt uGRPPIGRMIPR ++++= −1321 2 βββα (2)
donde
1
1
1
1 )(
100,
2
)22(
2
−
−
−
− −
=
−
=
t
tt
t
t
tt
t
PPI
PPIPPI
GRPPI
M
MM
GRM
Haciendo las transformaciones correspondientes:
Fecha RATE IP GRM2t GRPPIt-1
1959,01 2,83699989 36
1959,02 2,71199989 36,7000008 0,00348797
1959,03 2,852 37,2000008 0,00521376 0
1959,04 2,96000004 38 0,00311201 0
1959,05 2,85100007 38,5999985 0,0072389 0,00315453
1959,06 3,24699998 38,5999985 0,00650237 0
1959,07 3,24300003 37,7000008 0,00374025 -0,00314461
1959,08 3,35800004 36,4000015 0,00406498 0
1959,09 3,99799991 36,4000015 0,00101221 -0,00315459
1959,1 4,1170001 36,0999985 -0,00067412 0,00316457
1959,11 4,20900011 36,2999992 0,00202363 -0,00315459
1959,12 4,57200003 38,5999985 0,00235605 -0,00316457
1960,01 4,43599987 39,6 0,00134322 0
1960,02 3,954 39,2 0,00067069 0,0031746
1960,03 3,43899989 38,9 0,00335121 0
1960,04 3,24399996 38,6 0,00200401 0,00632911
1960,05 3,39199996 38,5 0,003 0
1960,06 2,64100003 38,1 0,00465271 -0,00314465
1960,07 2,39599991 37,9 0,00595435 0
1960,08 2,28600001 37,9 0,0092075 0
1960,09 2,48900008 37,5 0,00488759 -0,00315457
y corriendo el modelo para el periodo enero 1960 a agosto 1995, se tiene que:
Resumen
Estadísticas de la regresión
Coeficiente de 0,46514599
Coeficiente de 0,21636079
R^2 ajustado 0,21081617
Error típico 2,48102561
Observaciones 428
VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio de
los
cuadrados F
Valor crítico
de F
Regresión 3 720,594185 240,198062 39,0217736 2,7558E-22
Residuos 424 2609,92694 6,15548806
Total 427 3330,52112
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Superior
95%
Inferior
95,0%
Superior
95,0%
Intercepción 1,21407799 0,55169206 2,2006443 0,02829968 0,12968608 2,2984699 0,12968608 2,2984699
Variable X 1 0,04835294 0,00550301 8,78663601 3,8642E-17 0,03753637 0,05916952 0,03753637 0,05916952
Variable X 2 140,326144 36,0385012 3,89378414 0,00011462 69,4897811 211,162508 69,4897811 211,162508
Variable X 3 104,588446 17,4421792 5,99629467 4,325E-09 70,3045416 138,872351 70,3045416 138,872351
51. 45
2.5. INTERPRETACION DE LOS COEFICIENTES DE
REGRESIÓN
2.5.1. INTRODUCCIÓN
Cuando se plantea un modelo de regresión lineal, como por ejemplo:
tttt eXXY +++= ,22,110 βββ
los coeficientes de pendientes de ésta regresión miden el efecto parcial de X1 sobre Y y de X2 sobre Y, es
decir las derivadas parciales de Y respecto a X1 y X2 respectivamente.
Así, la interpretación de los coeficientes es a veces confusa, puesto que se debe tener muy claro
como son medidas las variables. Veámoslo a través de un ejemplo:
Ejemplo: Se dispone de la información de la producción mensual (en kilogramos) de 10
empresas durante el mes pasado, y se cree que la producción depende del capital utilizado
(monto de deuda de la empresa, en millones de pesos) y del trabajo usado (en número de
personas contratadas), según la siguiente tabla de datos:
Empresa Capital Trabajo Producción
1 8 23 106
2 9 14 81
3 4 38 72
4 2 97 57
5 6 11 66
6 6 43 98
7 3 93 82
8 6 49 99
9 8 36 110
10 4 43 118
Coeficientes Error típico Estadístico t
Intercepción 56,20094158 43,70386574 1,28594898
Capital 4,873711127 4,974703122 0,97969889
Trabajo 0,120945774 0,392826007 0,307886372
Aquí la interpretación de los coeficientes es:
- Constante: si no se utiliza capital ni trabajo, la producción será de 56.20 Kg. Mensuales.
- Capital: por cada millón de pesos adicional de deuda, se espera producir 4.87 Kg. Mensuales.
- Trabajo: por cada persona contratada adicionalmente, se espera que la producción aumente en 0.12 Kg.
Mensuales.
Existen otras especificaciones similares a la lineal anterior, pero que llevan a una interpretación
distinta de los coeficientes, tal como veremos a continuación.
52. 46
2.5.2. FORMA DOBLE LOGARÍTMICA
Corresponde a una especificación (lineal) en que tanto la variable dependiente como las variables
independientes están expresadas como logaritmos naturales.
Ejemplo: ttt eXLNXLNYLN +++= )()()( 2110 βββ ;* es una especificación doble log
La propiedad más importante de esta especificación es que los coeficientes pueden interpretarse
como elasticidades. En efecto, la interpretación de los coeficientes β1 es:
1
1
ln
ln
Xd
Yd
=β
puesto que, por ejemplo, la elasticidad precio de la demanda puede escribirse como:
Pd
Qd
P
dP
Q
dQ
dElasticida
ln
ln
==
donde Q es la función de demanda Q(P), y P el precio.
Esta especificación es entonces útil para calcular elasticidades precio, elasticidades ingreso,
elasticidades cruzadas, etcétera, de acuerdo a las variables involucradas en el modelo.
2.5.3 MODELO LOGARÍTMICO LINEAL (DE CRECIMIENTO CONSTANTE)
Cuando se tiene una especificación Log-Lineal, la interpretación del coeficiente relevante es la de
la tasa de crecimiento constante de la variable asociada.
Ejemplo: XY 10ln ββ += ;* un modelo lineal simple en forma log-lin.
La interpretación del coeficiente β en este caso es:
dX
Y
dY
dX
Yd
==
ln
1β
El numerador corresponde al cambio porcentual de Y (dado por dY/Y), mientras que el
denominador es el cambio (muy pequeño) en X. Si por simplicidad X es una medida de tiempo o
tendencia, entonces la interpretación de β es el cambio porcentual en Y ante un pequeño periodo de
tiempo. Note que si β<0, se tratará de la tasa de disminución en Y.
53. 47
2.5.4. OTRA VISIÓN DE LOS COEFICIENTES DE PENDIENTE
Puede mostrarse que cada coeficiente en una regresión lineal puede calcularse como:
)(
)(),(
)(
)()(),(
)(
),(
i
i
i
ii
i
i
i
X
YYX
XVar
YXYX
XVar
YXCov
σ
σρσσρ
β
⋅
=
⋅⋅
==
es decir la covarianza entre Xi e Y dividido por la varianza de la variable Xi, o alternativamente, el
coeficiente de correlación entre Xi e Y, multiplicado por la desviación estándar de Y y dividido por la
desviación estándar de Xi.
La interpretación de este resultado es que la covarianza (o el coeficiente de correlación)
justamente intentan obtener el efecto neto entre Xi e Y, eliminando el efecto de otras variables sobre Y,
puesto que esta efecto será obtenido en el beta correspondiente a esa variable. El otro aspecto
importante es que si la correlación entre Xi e Y fuera cercana a 1.0, y las desviaciones estándar de Xi y de
Y son similares, entonces esperamos una pendiente cercana a 1.0 (βi=1.0). Por último, puede notarse que
el valor de este coeficiente βi estará afectado por las unidades de medida de Xi e Y, lo que se reflejará en
sus respectivas desviaciones estándar.
Ahora mostraremos a través de un ejemplo que los coeficientes de una regresión múltiple pueden
escribirse como la covarianza dividida por la varianza, en el caso que las variables X1 y X2 no estén
correlacionadas, es decir:
εβ +++= 2
2
2
1
1
1
0
)(
),(
)(
),(
X
XVar
YXCov
X
XVar
YXCov
Y
Ejemplo: Supongamos que tenemos 3 series de 10 observaciones.
y x1 x2
30 8 5,912195122
27 9 6,365853659
29 9 8,365853659
39 8 11,91219512
35 10 12,8195122
38 15 8,087804878
37 12 11,72682927
40 11 16,27317073
48 17 8,995121951
55 16 9,541463415
Verificamos que para este ejemplo las correlaciones y covarianzas entre X1 y X2 son cero.
y x1 x2
y 66,96
x1 20,9 10,25
x2 7,38146341 2,51266E-13 9,1404878
=COEF.DE.CORREL(B2:B11;C2:C11) 2,5959E-14
54. 48
Calculamos los coeficientes de pendientes (Cov/var) por separado como sigue:
= 20.9/10.2500000 = 2.03902 para el primer coeficiente de pendiente
= 7.3814634/9.1404878 = 0.80756 para el segundo coeficiente de pendiente
Y verificamos a través de una regresión múltiple el valor de los coeficientes de pendientes estimados
anteriormente.
Coeficientes Error típico Estadístico t
Intercepción 6,275651148 8,077266366 0,776952358
x1 2,03902439 0,506177022 4,028283192
x2 0,807556836 0,536018368 1,506584259
Note que esto es posible debido a que en las covarianzas anteriores no hay 'contaminación' de
información de X1 en X2 y viceversa.
Otro aspecto importante referido a la interpretación de los coeficientes de pendientes, y
relacionado con lo anterior, es que éstos corresponden a la relación entre cada variable Xi con Y, una vez
que se ha eliminado el efecto de las demás series X sobre Xi. Veamos esto a través de un ejemplo:
Ejemplo: Se tiene información de 30 empresas respecto a una función de producción COBB-DOUGLAS
simple, en que el producto (Q) es explicado por el capital (K) y el trabajo (L):
... Ver datos en Tabla 2 del Anexo al final del libro.
Coeficientes Error típico Estadístico t
Intercepción 0,424867718 0,137798197 3,083260349
Ln(L) 0,735825294 0,065790541 11,18436308
Ln(K) 0,949011153 0,062901265 15,08731428
El coeficiente de Ln(L) (Beta1) es 0.7358252943. Verifiquemos que éste coeficiente puede
obtenerse con regresiones separadas como sigue:
a) regresionando Ln(L) versus Ln(K) y guardando los residuos en una nueva serie llamada Error, que
corresponden a la información que queda en Ln(L) después de eliminar lo explicado por Ln(K). De otro
modo, Error es la parte de Ln(L) que está libre del efecto de Ln(K), es decir el contenido de información
neto de Ln(L).
Empresa Trabajo (L) Capital (K) Producto (Q) Ln(Q) Ln(L) Ln(K) Error
1 0,228 0,802 0,256918 -1,35899831 -1,47840965 -0,22064667 -0,25733826
2 0,258 0,249 0,183599 -1,69500125 -1,35479569 -1,39030238 -0,32590464
3 0,821 0,771 1,212883 0,19300017 -0,19723217 -0,26006691 1,01736228
4 0,767 0,511 0,522568 -0,64900016 -0,26526848 -0,67138569 0,88174421
5 0,495 0,758 0,847894 -0,16499965 -0,70319752 -0,27707189 0,50860292
6 0,487 0,425 0,763379 -0,27000065 -0,71949116 -0,85566611 0,39724333
7 0,678 0,452 0,623130 -0,47300011 -0,38860799 -0,7940731 0,73824654
8 0,748 0,817 1,031485 0,03099951 -0,2903523 -0,20211618 0,93376374
b) Regresionando Ln(Q) versus los errores:
Coeficientes Error típico Estadístico t
Intercepción -1,53267649 0,21299129 -7,19595845
Error 0,73582529 0,17827666 4,12743473
55. 49
Obtenemos el mismo coeficiente Beta1=0.735825294, con lo cual verificamos que basta solo 1
regresión múltiple para esto, y no es necesario efectuar varias estimaciones para eliminar el ruido, o
contenido de Ln(K) en Ln(L).
56. 50
2.6 RESUMEN: UNA CRÍTICA AL MODELO
Para terminar este capítulo recordemos que en la implementación del método de los MCO se ha
supuesto:
a) Que se trata de un modelo lineal en los parámetros: Este supuesto puede no ser aplicable en
muchos modelos, sin embargo en muchos otros es válido, por lo tanto es una misión del analista
determinar si el supuesto es aplicable o no. Cuando no es posible trabajar bajo este supuesto (cuando
tampoco es posible linealizar el modelo), entonces seguramente se requerirán métodos de regresión no
lineales, los que veremos más adelante.
b) Que las X son fijas o no estocásticas: El cumplimiento de este supuesto es de importancia extrema
en el análisis de regresión, por cuanto de no cumplirse, y exista relación entre las series X y los errores,
se tendrán estimadores sesgados de los verdaderos coeficientes, lo que es extremadamente grave. Sin
embargo en muchos casos es posible que los X no sean fijos (es decir sean estocásticos) y aún estén no
correlacionados con los errores. Este aspecto lo veremos más adelante en el tópico regresores
estocásticos (variables instrumentales).
c) Que X contiene el conjunto correcto de variables explicatorias: En efecto, se supone que el
modelo está bien especificado, es decir no faltan ni sobran variables explicativas. En general es más grave
omitir variables que incluir variables en exceso, puesto que si la variable omitida está correlacionada con
la variable presente en el modelo, la variable omitida estará reflejada en el error (ε), de modo que existirá
correlación entre el error y la variable presente, implicando sesgo. Esto no ocurrirá en el caso de
sobreespecificación, aunque los coeficientes serán en general ineficientes respecto de aquellos estimados
bajo una correcta especificación.
d) Que ε es bien comportado: En efecto, suponemos que éstos están libres de autocorrelación y
heterocedasticidad, lo que asegura estimadores MELI, o MEI en el caso del modelo bajo el supuesto de
normalidad. Este supuesto es levantado más adelante.
e) Que Y es medido sin error: Puesto que en general Y es la variable estocástica del modelo de
regresión (además del error, ε), se espera que éste sea una realización insesgada de un correcto
procedimiento de muestreo, cuestión que debe ser considerada por el analista. No mencionamos
preocupación respecto a las series X, pues se suponen fijas, o controladas por el investigador.
f) Que los parámetros β son fijos (estables): Cuando estimamos un modelo de regresión para un
determinado periodo, implícitamente se asumen que los verdaderos parámetros son constantes para todo
el periodo, es decir, si se subdivide el periodo total en 2 subperiodos y se efectúa nuevamente la
estimación en cada subperiodo, esperamos que los coeficientes de pendientes de ambas regresiónes sean
básicamente los mismos, lo que en la práctica puede no ser verdadero. Las pruebas para la estabilidad de
los parámetros es mostrada en el siguiente capítulo.
57. 51
CAPÍTULO 3
MÍNIMOS CUADRADOS RESTRINGIDOS
(INFERENCIA)
3.1. MCO CON ERRORES NORMALES
Recordemos que en el capítulo anterior señalamos que las condiciones ideales para la
implementación de los estimadores MCO incluyen:
- las perturbaciones son esféricas, es decir, errores independientes e idénticamente distribuidos con
media 0 y varianza σ2
, de modo que E[εε'] = σ2
I, lo que implica homocedasticidad y ausencia de
autocorrelación serial,
- los regresores son fijos (las variables X son no estocásticas),
- los errores tienen una distribución desconocida.
Cumpliéndose estas condiciones, puede mostrarse por el teorema de Gauss-Markov que el
estimador de MCO, b es MELI (es decir, el mejor estimador insesgado de entre la clase de los
estimadores lineales de β), y que tenía una distribución no precisada (hasta ahora) con una media y
varianza que incluía, entre sus componentes, el comportamiento de los errores (ε).
Para efectos de implementar procedimientos de inferencia estadística acerca de los coeficientes es
necesario conocer la distribución de éstos. El caso más simple es asumir que los errores se comportan de
acuerdo a una distribución normal. En este caso los coeficientes b se distribuirán también normalmente,
puesto que éstos son una combinación lineal de un error distribuido normalmente (puesto que las
variables X están fijas). Es decir:
[ ]111
)'()'(')'(,)(')'( −−−
+≈ XXXEXXXEXXXNormalb εεεβ
Si en adición, los errores están bien comportados, los coeficientes b se distribuyen normalmente:
[ ]12
)'(, −
≈ XXNormalb σβ
Así, bajo este resultado es posible implementar un número de pruebas de inferencia estadística,
incluyendo pruebas F, y además se justifica la aplicación del método de máxima verosimilitud, aunque en
este caso si bien b es insesgado, s2
no lo es en pequeñas muestras.
Como resultado adicional puede mostrarse12
que al incorporar el supuesto de errores normales el
estimador b es el óptimo (suficiente), es decir el mejor estimador insesgado (MEI) incluyendo la clase de
los estimadores no lineales, de modo que no existe un mejor estimador posible que el de MCO. Este es un
12
Véase sección 6.1.3e en Judge et al.
58. 52
resultado más poderoso que el obtenido bajo ausencia de normalidad (estimadores MELI). Respecto a s2
,
en este caso también es óptimo.
En resumen, puede decirse que existen 2 principales implicancias de asumir errores normales:
- Los estimadores MCO pasan a ser MEI
- Los estimadores MCO tienen ahora una distribución normal, lo que implica que puede hacerse inferencia
estadística de los verdaderos parémetros de regresión.