SlideShare una empresa de Scribd logo
1 de 50
Descargar para leer sin conexión
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE /
UNMSM
Serie Apuntes de Clase
N° 15
Octubre del 2017
ECONOMETRIA DE DATOS DE PANEL
CON APLICACIONES EN STATA 14
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Universidad del Perú, DECANA DE AMÉRICA)
FACULTAD DE CIENCIAS ECONÓMICAS
ESCUELA ACADÉMICO PROFESIONAL DE ECONOMÍA
Rafael Bustamante Romaní
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE /
UNMSM
La Serie Apuntes de Clase tiene por objetivo difundir los materiales de
enseñanza generados por los docentes que tienen a su cargo el desarrollo
de las asignaturas que forman parte del Plan de Estudios de la Escuela
Académico-Profesional de Economía de la Facultad de Ciencias
Económicas de la Universidad Nacional Mayor de San Marcos. Estos
documentos buscan proporcionar a los estudiantes la explicación de
algunos temas específicos que son abordados en su formación universitaria.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE /
UNMSM
Escuela Académico Profesional de Economía.
Facultad de Ciencias Económicas.
Universidad Nacional Mayor de San Marcos.
Calle Germán Amézaga N° 375.
Ciudad Universitaria, Lima 1. Perú.
Teléfono 619-7000. Anexo 2208.
eapeco@unmsm.edu.pe
http://economia.unmsm.edu.pe/escuela/econ.htm
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE /
UNMSM
Econometría de Datos de Panel:
aplicaciones en Stata 14
Rafael Bustamante
El aumento de bases de datos, junto con el progreso en las técnicas econométricas, ha facilitado el
perfeccionamiento de estudios cada vez más sofisticados de los fenómenos económicos, permitiendo
asesorar más acertadamente a los responsables de la elaboración de las políticas públicas y a los
hombres de negocios. Sin embargo, estas herramientas se han tornado cada vez más complejas,
demandando un alto grado de conocimiento teórico y práctico para poder implementarlas. La
metodología de Datos de Panel es una de las más usadas en los últimos tiempos en el ámbito de la
economía, las finanzas y los negocios. Su riqueza radica en que permite trabajar simultáneamente
varios periodos de tiempo y los efectos individuales, y a su vez, tratar el problema de la
endogeneidad. A pesar de las ventajas de esta técnica, existen diversos obstáculos para su
implementación, tanto metodológicos como operativos. Esta guía intenta ayudar a los alumnos,
investigadores y profesionales que buscan llevar a cabo estudios utilizando Datos de Panel,
ofreciendo una pauta para manejar y analizar datos, en forma conjunta con revisar sus fundamentos.
Palabras Claves: Econometría de datos de Panel, especificaciones, Efectos Fijos,
Efectos aleatorios
Clasificación JEL: C2, C25

Doctorado en Economía con mención en los Recursos Naturales (c), Universidad Nacional Autónoma de
México, estudios de Doctorado en Economía UNMSM, MBA Gerencial, CENTRUM Pontificia Universidad
Católica del Perú. Maestría en Economía con mención en Finanzas, Universidad Nacional Mayor de San
Marcos. B. Sc. Economía, UNMSM. Profesor Auxiliar del Departamento de Economía de la UNMSM.
Investigador asociado al Instituto de Investigaciones FCE-UNMSM. Contacto: rbustamanter@unmsm.edu.pe
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE /
UNMSM
Contenido
1. Introducción .................................................................................................................................... 6
2. Metodología.................................................................................................................................... 9
3. Efectos Fijos versus efectos Aleatorios ......................................................................................... 22
4. Nuestro marco de análisis y los estimadores alternativos............................................................ 23
4.1 Estimador Within..................................................................................................................... 24
4.2 Estimador Between..................................................................................................................... 25
4.3 Estimador de mínimos cuadrados generalizados.................................................................... 26
4.4 Mínimos cuadrados generalizados factibles............................................................................... 28
6. Estimador usar .............................................................................................................................. 30
6.1 Efectos no observados ............................................................................................................ 30
6.2 Existe correlación entre los efectos no observados y los Regresores......................................... 31
7. Aplicaciones................................................................................................................................... 33
7.2 Análisis de datos panel de dos períodos..................................................................................... 36
7.2. Controlando la heterogeneidad dentro de un panel ............................................................. 40
7.2.1 Regresión agrupada (POOLED OLS)................................................................................. 40
7.2.2 Efectos Aleatorios (Random Effects)................................................................................ 40
7.2.3 Efectos Fijos (Fixed Effects).............................................................................................. 42
7.2.4 Autocorrelación............................................................................................................... 44
7.2.5 Heterocedasticidad .......................................................................................................... 46
7.3 Efectos fijos vs. Aleatorios...................................................................................................... 47
7.4 Efectos temporales (two-way fixed effects) ........................................................................... 48
8. Bibliografía .................................................................................................................................... 50
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
6
1. Introducción
Si se dispone de información de corte transversal para un conjunto de N individuos las
ganancias de que se tienen de tener información sobre cada uno de los individuos para
distintos períodos de tiempo se pueden expresar en:
Primero es que logramos expandir el tamaño de nuestra base de datos, y, con esto,
dispondremos de más grados de libertad.
Segundo es el hecho de contar con información referida a varios individuos contribuye a
reducir la colinealidad que es usual encontrar en un modelo de series de tiempo. Todo esto
contribuye a incrementar la precisión de nuestros estimados; es decir, a reducir su varianza
(Beltran & Castro, 2010).
Un conjunto de datos panel (o longitudinales) consta de una serie temporal para cada
miembro del corte transversal en el conjunto de datos. Como ejemplo, suponga que se tienen
las variables de salario, educación, nivel de crédito, acceso a educación y experiencia de un
grupo de individuos a los que se les hace seguimiento por varios años. De igual forma es
posible recopilar información en unidades geográficas. Por ejemplos, datos de los gobiernos
regionales de un país sobre impuestos, salarios, nivel de ejecución del gasto público, niveles de
educación, entre otros.
La característica principal de los datos panel, que los diferencian de las combinaciones de
cortes transversales, es el hecho de que se da un seguimiento a las mismas unidades
transversales ya sean individuos, países, regiones, entre otros, durante cierto período de
tiempo (Software Shop, 2013).
Como los datos de panel exigen la repetición de las mismas unidades con el tiempo, los
conjuntos de estos datos, en particular de los individuos, hogares y empresas, son más
difíciles de conseguir que en las combinaciones de corte transversales. La ventaja es que al
tener las mismas unidades es posible controlar ciertas características inobservadas de
individuos, empresas, países, bancos, etc.
Es decir es posible capturar inferencias causales que no es posible capturar con los cortes
transversales. La segunda ventaja de los datos panel es que permite estudiar la importancia
de los rezagos en el comportamiento o el resultado de tomar una decisión. Esta información
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
7
puede ser significativa, puesto que es de esperar que muchas políticas económicas tengan
efecto sólo al paso del tiempo.
La idea de los panel es poder capturar esos factores inobservables, por ejemplo, lo que
influye en el salario de un individuo en 1990 también influirá en el mismo individuo en
1991, ese factor inobservable puede ser la capacidad o habilidades.
Ahora bien, si además explotamos el hecho de que estamos observando cómo cambia el
comportamiento de cada individuo a lo largo del tiempo, estaremos en capacidad de
construir y validar hipótesis más complejas. Al respecto, recordemos que en el análisis de
regresión nuestros esfuerzos por aislar el efecto de determinada variable sobre otra
dependen de cómo estas varían a lo largo de la muestra consideradas. Si disponemos de una
muestra de corte transversal y queremos medir el impacto de determinada característica, lo
que haremos es comparar la respuesta de un individuo que tiene la característica con la
respuesta de otro que no la tiene. Si la muestra es de series de tiempo, lo que haremos es
comparar la respuesta de un mismo individuo antes y después de exhibir la característica
(Beltran & Castro,2010).
Puesta de esta manera, nuestra técnica puede ser duramente criticada: muchos otros
elementos que influyen sobre la respuesta pueden ser distintos entre un agente y otro, o
haber cambiado a lo largo del tiempo y nosotros, erróneamente, se los estamos atribuyendo
a la variable de interés. La ausencia de experimentación controlada está conspirando contra
la posibilidad de aislar los efectos de una variable de interés. Frente a esto, y utilizando
regresiones particionadas, podríamos responder que para eso están los controles y que por
eso hay un conjunto amplio de determinantes incluidos en nuestra regresión.
Sabemos, no obstante, que difícilmente podremos informar de todos los determinantes y
que, sobre todo cuando hablamos del comportamiento de agentes individuales, el riesgo de
que el fenómeno en estudio dependa de variables no observables es alto. Si disponemos de
una base de datos de panel, en lugar de indagar si determinado agente está mejor que su
vecino o mejor que en el pasado, lo que podemos hacer es preguntar qué tan distinta es la
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
8
mejora experimentada por el agente respecto a la mejora experimentada por su vecino. Es
decir, en lugar de evaluar:  i jy y (corte transversal) o  t sy y (Serie de tiempo), los datos
de panel nos posibilita comparar    it is jt jsy y y y   o, más específicamente,
_ _
it i jt jy y y y
   
     
   
. En la expresión anterior
_
iy y
_
jy refieren a los promedios de la variable
dependiente tomados sobre las T observaciones en el tiempo para el i-ésimo y j-ésimo
agente, respectivamente. Esta suerte de "diferencia en diferencia" solo es posible si tenemos
datos que varían tanto a través del espacio como a lo largo del tiempo y nos permitiría, en
principio, limpiar aquellos efectos que influyen sobre el fenómeno bajo análisis y no tienen
que ver con la característica que se busca evaluar (Beltran & Castro, 2010).
Con respecto a esto y a la presencia de variables no observables, sabemos que la omisión
de una variable relevante conlleva la lidiar con la presencia de estimadores sesgados. Para
muestras grandes esto no debería ser un problema, excepto cuando esta omisión ocasiona
también un problema de no consistencia en nuestro estimador. Antes de preocuparnos por
la estructura de varianzas-covarianzas del error, debemos analizar la posible presencia un
regresor estocástico. Y por "regresor estocástico" no solamente hacemos referencia a
aquellos que se determinan de manera simultánea con la variable dependiente como es el
caso de un sistema de ecuaciones simultáneas, sino que hacemos referencia a aquellos
regresores que se encuentran correlacionados contemporáneamente con el término de error
a través de la relación que tienen con las variables no observables omitidas en el modelo.
La omisión de una variable puede conducir a la obtención de estimadores no consistentes y
esto se debe, precisamente, a que esta variable no observable omitida, está usualmente
correlacionada de manera contemporánea con los regresores incluidos en el modelo. Esto
trae como consecuencia la correlación contemporánea entre el regresor y el término de error,
lo que ocasiona que el estimador de mínimos cuadrados no converja en probabilidad al
verdadero parámetro (Beltran & Castro, 2010).
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
9
Ante la sospecha de que estamos frente a una situación como esta, el camino "clásico" pasa
por la búsqueda de variables instrumentales y la construcción del estimador respectivo, con
el consabido costo en términos de pérdida de información y precisión. Una base de datos
con estructura de panel, sin embargo, nos ofrece un camino alternativo que implica,
precisamente, trabajar con los desvíos presentados líneas arriba. Si bien esto será discutido
formalmente en las secciones siguientes, no es difícil darse cuenta de que al trabajar con un
desvío como
_
.i jy y
 
 
 
se le está removiendo a cada observación del i-ésimo agente
cualquier efecto no observable que se mantenga constante en el tiempo; es decir, cualquier
característica especial que este agente tiene y que no es posible capturar a partir del conjunto
de regresores propuesto.
Al tener observaciones que varían tanto a lo largo del tiempo como a través del espacio, es
posible evaluar diferencias entre las diferencias de comportamiento, lo que permite
"limpiar" las observaciones de efectos difíciles de capturar que, de otro modo, hubiesen
resultado en estimados inexactos incluso en muestras grandes(Beltran & Castro, 2010)..
2. Metodología
El objetivo de esta sección es familiarizar al lector con la estructura de la base de datos así
como con el álgebra matricial asociada a la construcción de los distintos estimadores.
Aquí se muestra un aspecto de la generalización del álgebra de mínimos cuadrados
ordinarios aplicada a un contexto en el que se dispone de información que varía tanto a
través del espacio como a lo largo del tiempo (Beltran & Castro, 2010).
Al respecto se sugiere, la generalización que aquí discutimos se refiere al rol del intercepto.
Si disponemos de información que varía solo en una dimensión (y en ausencia de un
problema de quiebre estructural), solo tiene sentido "desviar" o "controlar" con respecto a
un promedio: aquel tomado usando toda la información disponible, ya sea a lo largo del
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
10
tiempo o a través del espacio. Conviene recordar que estos desvíos respecto a la media son
provistos, precisamente, por el intercepto1
. Así, es fácil darnos cuenta de qué está detrás de
la recomendación general de incluir siempre un intercepto en el modelo: recomendar la
inclusión de un intercepto equivale a remover la influencia de la media muestral. Sobre el
fenómeno bajo análisis. Dicho de otra forma, en un modelo con intercepto la pendiente (o
"beta") asociada al i-ésimo regresor nos indicará cuánto cambia la variable dependiente
respecto a su valor medio por cada unidad que el regresar se desvíe con respecto a su valor
medio. En el contexto de un panel de datos, la información presenta variabilidad en ambas
dimensiones. Por lo mismo, será necesario decidir con respecto a qué media controlar: (i) la
media de todas las observaciones; (ii) la media tomada a lo largo del tiempo, de cada uno
de los N agentes; (iii) la media tomada a través del espacio de cada uno de T momentos del
tiempo. En lo que sigue, se discute esto formalmente sin perder de vista una interpretación
intuitiva basada en el rol que tiene el intercepto. Antes de proceder a la formalización del
modelo, veamos algunas definiciones de los datos de panel:
 Panel Data es mezclar información de corte transversal e información temporal.
Como en el corte transversal, se recoge información de individuos y se observa cada
individuo, como en el análisis de series de tiempo, a través del tiempo. Esto permite
estudiar los efectos dinámicos y de comportamiento individual de los problemas.
 Son observaciones repetidas sobre el mismo conjunto de unidades de sección cruzada
o dicho de otra forma se tiene el mismo número de observaciones en cada unidad
de sección cruzada es decir es una mezcla de ambas en la cual se recoge información
1 El lector recordará la clásica demostración donde se verifica que las pendientes en un modelo con intercepto
son idénticas a las que se obtendrían si antes desviamos (o restamos) cada dato de su media o promedio
muestra! De hecho, este es un caso particular del resultado de una regresión particionada.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
11
entre individuos y se observa cada individuo como el análisis de series de tiempo, a
través del tiempo.
 En los paneles microeconómicos, el investigador está interesado en analizar como
varía el comportamiento de los agentes económicos individuales frente a cuestiones
como sus hábitos de consumo, su situación laboral, su nivel de estudios, etc. Estas
son decisiones que dependerán de una lista de características socioeconómicas que
el analista debe especificar como variables explicativas del modelo. Sin embargo no
todos los agentes toman sus decisiones de igual modo: diferentes agentes, incluso si
comparten las mismas características observables, toman decisiones distintas. Ello
obliga a contemplar la existencia de efectos no observables, específicos de cada
agente encuestado, generalmente constantes en el tiempo, que inciden sobre el modo
en que este toma sus decisiones. Si estos efectos latentes existen y no se recogen
explícitamente en el modelo, se producirá un problema de variables omitidas: los
coeficientes estimados de las variables explicativas incluidas estarán sesgados, por
recoger parcialmente los efectos individuales no observables (Greene, Análisis
Econométrico, 1999)
Para entender mejor esta metodología veamos algunos aspectos matriciales.
1
2
1
1, 2,3,..
.
.
..,
.
i
i
i
iT TX
Y
Y
Para todo t
Y
TY
 
 
 
 
  
 
 
 

  
(1)
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
12
1 2 1
1 1 1 1
1 2 1
2 2 2 2
1 2 1
1 1 1 1
1 2 1
. . .
. . .
. . . . . . .
. . . . . . .
. . . . . . .
. . .
. . .
K k
i i i i
K K
i i i i
i
K K
iT iT iT iT
K K
iT iT iT iT TxK
X X X X
X X X X
X
X X X X
X X X X



   

 
 
 
 
 
 
 
 
 
 
  
(2)
Además los errores del modelo y la variable explicativa se expresan:
1 1
2 2
1 1
1 1
. .
:. .
. .
i
i
i
iT N
iT NTX NTX
Ademas
 
 
 
 
 
 
   
   
   
   
   
    
   
   
   
   
   
1
2
1
1
.
.
.
N
N NTX
Y
Y
Y
Y
Y

 
 
 
 
 
  
 
 
 
 
 
(3)
1
2
1
1, 2, 3, 1, 2, 3, .....,
.
.
.
N
N NTXK
t T i
X
N
X
X
X
X

 
 
 
 
 
  
 
 
 


 


(4)
El modelo totalmente apilado es:
Y=X +  (5)
jitX : Es el valor Jth de una variable explicativa i. Para todo t = 0 1, 2,3,.... T.
Si existen K variables explicativas el vector de variables explicativas se puede denotar
como:
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
13
1
2
1
.
.
.
K
K






 
 
 
 
 
  
 
 
 
 
 
En base a lo anotado podemos afirmar que metodología de datos de panel lo que hace es
utilizar procedimientos adecuados para el manejo de las observaciones con una dimensión
de sección cruzada grande, con el objeto de estimar modelos econométricos que incluyan
entre las variables explicativas los efectos individuales no observables.
El disponer de un número reducido, T, de observaciones de cada uno de los N individuos
de la muestra, podría pensarse en estimar un modelo econométrico con cada una de las T
secciones cruzadas para luego comparar la evolución de los coeficientes del modelo a lo
largo del tiempo.
Las ventajas de modelos econométricos con información en panel, son las siguientes
(Greene, Análisis Econométrico, 1999):
 Se dispone de un gran número de datos (a través de individuos y a través del tiempo).
Por esta razón aumentan los grados de libertad y, al utilizar las diferencias individuales
en los valores de las variables explicativas, se reduce la colinealidad entre las variables
explicativas, mejorando de esta forma la eficiencia de los estimadores.
 Evita los sesgos de agregación con datos macroeconómicos.
 En general, es posible obtener estimaciones consistentes para N y T fijo. No
obstante, dada la creciente existencia de bases de datos longitudinales con períodos
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
14
muéstrales prolongados, existen trabajos recientes en que se consideran propiedades
asintóticas para N  y T .
 La disponibilidad de datos longitudinales permite a los investigadores analizar una
variedad de importantes interrogantes económicas, que no se pueden analizar
utilizando solo información de corte transversal o sólo información de series de tiempo.
 Permite construir y testear modelos de comportamiento más sofisticados que los
modelos econométricos estándar de series de tiempo o de corte transversal.
 Proporciona un método para resolver o reducir la magnitud de un problema
econométrico clave que siempre surge en los trabajos empíricos: siempre se señala que
la verdadera razón de porque se encuentra (o no se encuentran) ciertos efectos es
producto de la omisión de variables- debido a problemas de medición o porque ciertas
variables no son observadas – que están correlacionadas con las variables explicativas.
 Permite estudiar de una mejor manera la dinámica de los procesos de ajuste. Esto es
fundamentalmente cierto en estudios sobre el grado de duración y permanencia de
ciertos niveles de condición económica (desempleo, pobreza, riqueza).
 Permite elaborar y probar modelos relativamente complejos de comportamiento en
comparación con los análisis de series de tiempo y de corte transversal. Un ejemplo claro
de este tipo de modelos, son los que se refieren a los que tratan de medir niveles de
eficiencia técnica por parte de unidades económicas individuales (empresas, bancos,
etc.) (Beltrán, 2003).
 Permite al investigador mucha más flexibilidad para modelizar las diferencias de
comportamientos entre los individuos. Tal y como se mencionó anteriormente, la técnica
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
15
permite capturar la heterogeneidad no observable ya sea entre unidades individuales de
estudio como en el tiempo. Con base en lo anterior, la técnica permite aplicar una serie
de pruebas de hipótesis para confirmar o rechazar dicha heterogeneidad y cómo
capturarla.
Entre las desventajas del uso de los datos de panel se cuentan:
 Sesgo de heterogeneidad:
Muchos paneles de datos provienen de procesos muy complicados que exigen el
comportamiento diario. Cuando se analiza series de corte transversal el supuesto típico es
que una variable económica ty es generada por una distribución de probabilidad
paramétrica del tipo
 /f y 
, donde   es un vector real de dimensión k “idéntico para
todos los individuos en todo instante de tiempo”. Este supuesto puede no ser realista en el
caso de datos de panel; es más ignorar la heterogeneidad en los intercepto y/o en las
pendientes es una que puede ser errada.
 Sesgo de selección:
Otra fuente de sesgo que se encuentra con frecuencia en datos de corte transversal y de
paneles de datos es que la muestra puede no haber sido extraída de manera aleatoria de una
población lo cual es poco frecuente en series de tiempo. Como consecuencia de ello se puede
tener (de Arce & Mahía, 2007):
 Amplificación del efecto de errores de medida asociados a datos de encuestas.
 Falta de representatividad de la muestra debido a:
 Desgaste muestral
 No aleatoriedad de las observaciones
Ejemplos de este tipo de limitaciones se encuentran en: La cobertura de la población de
interés, porcentajes de respuesta, preguntas confusas, distorsión deliberada de las
respuestas, etc.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
16
'
1,2,... ; 1,2,...
it it it itY X U
i N t T
 
 
(6)
Donde ,i t mide el efecto marginal de itx (es decir, el efecto marginal de las variables x
en el momento t para la i-ésima unidad). Este modelo es general y es necesario imponer
cierta estructura en los coeficientes; es decir, es necesario suponer que los agentes en
cuestión responden a un patrón de comportamiento generalizable a lo largo del tiempo y/o
a través del espacio. El supuesto estándar es que ,i t es constante para todo i y t, deja abierta
la posibilidad de que haya un intercepto distinto para cada agente  i . Esto implica dejar
abierta la posibilidad de que cada agente tenga un "comportamiento promedio" distinto
respecto del cual conviene controlar. Atendiendo a lo anterior si re especifiquemos nuestro
modelo de la siguiente manera (Barco & Castro, 2010):
'
11 1
12
1
21
( 1) ( ) ( )
2
1 0 0
1 0 0
. . . .
. . . .
. . . .
0 1 0
0 1 0
. ;D ;. . .
. . . .
. . . .
0 1 . . . 0
. . . .
. . . .
. . . .
0 0 1
T
NTx NTxN NTxK
T
NT
y x
y
y
y
y X
y
y
   
   
   
   
   
   
   
   
   
   
   
     
   
   
   
   
   
   
   
   
   
   
     
111
'
1212
'
11
'
2121
( 1)
'
22
'
..
..
..
;u . ;.
..
..
..
..
..
TT
NTx
TT
NTNT
u
ux
ux
ux
ux
ux
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
      (7)
De la expresión anterior, es la matriz D la que nos permitirá acomodar la presencia de hasta
N interceptas distintos. Observar que esta matriz puede expresarse como: N rD I i  ;
donde NI es una matriz identidad de N x N, mientras que ir se refiere a un vector unitario
de Tx1. Con esto, podemos expresar el modelo en términos matriciales de fa siguiente forma:
y D X u    (8)
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
17
Donde  y  son los vectores que contienen los N interceptas y k pendientes,
respectivamente.
Para hallar las expresiones asociadas al estimador mínimo cuadrático de estos interceptos y
pendientes, basta con recordar lo que sabemos sobre el rol del intercepto y el modelo en
desviaciones: desviemos cada observación respecto de la media de cada agente tomada
sobre el tiempo, construyamos el estimador minimocuadrático de las pendientes y
utilicemos este último para hallar los N interceptos. Para el i-ésimo agente, la media tomada
sobre el tiempo T de la variable dependiente viene dada por  
1
1/
T
it
t
T y

 . Lo mismo aplica
para el término de error y las variables explicativas. Denotemos estas medias como,
_ _ _
..., , iiiy u X respectivamente. Así, el modelo en desviaciones y los respectivos estimadores
pueden expresarse de la siguiente manera (Barco & Castro, 2010):
'
'_ _ _
. ..
_ _ _
'
. .
1
_ _
'
. .
'_ _
, ..
( )
( )( )
it i it it
i iii
i iit it iti
i iWithin it it
it
i Within i Withini
y x u
y x u
y y x x u u
x x x x
y x
 
 


 


 
  
  
    
 
   
 
 

(9)
Nótese que hemos llamado Within a este estimador minimocuadrático de un modelo
desviado respecto a la media de cada agente. El término Within (o "intra", en castellano)
responde, precisamente, a que estamos explotando la variabilidad intraagente. Estamos
interesados en estimar cuánto cambia el comportamiento del agente respecto de su
comportamiento promedio, cuando alguno de los factores que lo explican ( )x , se desvía en
una unidad, respecto de lo que en promedio le ocurre al agente en cuestión. Al hacerlo,
estamos reconociendo que cada agente puede registrar un comportamiento promedio
distinto al del resto (Beltran &Castro,2010).
Pensemos ahora en términos de todas las observaciones y en la transformación matricial
requerida para desviar cada dato correspondiente al i-ésimo agente de su respectiva media.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
18
Para esto, empecemos por darnos cuenta de que es necesario calcular N promedios, y que
un arreglo matricial como el siguiente es capaz de devolvernos los N promedios que
necesitamos.
1.
1.
1 2.
2.
N.
1 . . . 1
. .
. .
.. .
.1 1 0
..
tal que y.
.
0 1 . . . 1
.
. .
.
. .
.
. .
1 . . . 1
NTxNT NTx
y
y
P P y
y
y





   
   
   
   
   
   
   
   
   
    
   
   
   
   
   
   
   
   
   
  
(10)
La matriz P puede ser expresada de manera más compacta, y basta con restarla de la matriz
identidad para encontrar la matriz de transformación que desvía cada dato de su
respectivamente. Denotemos esta matriz como Q.
'1
N T T
NT
P I i i
T
Q I P
   
 
(11)
Este par de matrices juega un papel muy importante en el momento de construir los
estimadores alternativos que preliminarmente podemos identificarlos como proyectores o,
"hacedor de estimados" (o "hacedor de medias") y "hacedor de los residuos" (o "hacedor de
desviaciones"), respectivamente. Como ocurre con todos los proyector mínimo cuadráticos,
el lector puede verificar rápidamente que estas dos matrices son simétricas e idempotentes.
Con esto, es posible expresar (9.) de manera más compacta como:
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
19
' 1 '
1
=
= (I i )
Qy = Q(I i ) Q Q
= Q Q
=(XQQX) XQQy
=(XQX) XQy
N T
N T
Within
y D X u
X u
X u
X u
 
 
 





 
  
  

(12)
Ahora bien, si recordamos el resultado asociado al modelo en desviaciones, notaremos que
el resultado anterior debería ser equivalente al que obtendríamos si incluimos un intercepto
distinto para cada agente. Formalmente2
:
' 1 '
' '
=
=(X M X) X M y
M ( )
Within D D
D NT
y D X u
I D D D D
 



 
 
(13)
Las expresiones dadas en (12.) y (13.) no implican que se tenga dos maneras distintas de
expresar Within

sino, más bien, implican que 3
MD Q . Equivale a nuestra generalización del
resultado del modelo en desviaciones: estimar una regresión por mínimos cuadrados
ordinarios con un intercepto distinto para cada agente (resultado dado en [9.]). Equivale a
estimar una regresión con observaciones desviadas respecto del valor medio
correspondiente al agente en cuestión (resultado dado en [11.]).
Hasta ahora, nuestra discusión se ha centrado en la segunda de las tres opciones presentadas
al inicio del acá pite cuando nos referíamos a que en un panel de datos hay tres medias
distintas que pueden servir como controles. ¿Es posible realizar un análisis similar
trabajando con la media (tomada a través del espacio) de cada uno de los T momentos del
tiempo? ¿Respecto de qué estaremos controlando en este caso? Empezamos a responder
estas preguntas planteando la posibilidad de que exista un intercepto distinto para cada
momento del tiempo. Definamos, para esto, como v.1 a la media tomada sobre el espacio de
la variable dependiente del t-ésimo momento .
1
(1/ )
N
itt
i
y N y


 .
2
Esta expresión muestra de manera explícita cómo este acápite es una aplicación del resultado de regresión particionada.
Si partimos de un modelo general y X u  y particionamos la matriz X en dos subconjuntos de regresares de la
forma, es posible demostrar que las pendientes estimadas del segundo grupo de regresores vienen dadas por:
' 1 '
2 1 2 2 1(X M X ) X M y


 , donde ' 1 '
1 1 1 1 1( )M I X X X X
 
3
Esta igualdad se puede verificar fácilmente trabajando con las propiedades del producto Kronecker)
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
20
'
'_ _ _
.t .t.t
_ _ _
'
.t .t.t
1
_ _
'
.t .t
'_ _
.tt, .t
( )
( )( )
it t it it
t
it it it
Within it it
it
Within Within
y x u
y x u
y y x x u u
x x x x
y x
 
 


 


 
  
  
    
 
   
 
 

(14)
Nótese que también hemos llamado Within a este estimador. De hecho, le corresponde el
término "intra", solo que esta vez lo que buscamos es explotar la variabilidad intratemporal.
Nuestro interés recae en conocer cuánto cambia el comportamiento del agente respecto del
comportamiento promedio del grupo, cuando alguno de los factores que lo explican ( )it
x
experimenta un desvío (de una unidad) respecto del valor medio del grupo. Al hacerlo,
estamos reconociendo que en cada momento del tiempo el grupo puede registrar un
promedio distinto.
En suma, los múltiples interceptos por agente nos permiten capturar qué tan distinta es la
respuesta de un agente respecto de su respuesta promedio, y comparar esto entre agentes
para un mismo momento del tiempo. Los múltiples interceptas de tiempo, por su parte, nos
permiten capturar qué tan distinta es la respuesta de un agente respecto de la respuesta
promedio del grupo, y comparar esto entre momentos del tiempo para un mismo agente.
En ambos casos se trata de una comparación de diferencias; de ahí la "doble diferencia" a la
que se hace referencia en el acápite introductorio.
La generalización de (14.) requiere introducir matrices de intercepto y desvíos distintas, a
las que llamaremos yD Q , respectivamente. Formalmente (Barco & Castro, 2010):
'
' '
1
1
1
=
y =
=
=(X X) X y
=(X X) X y
N T
NT N N T
Within
D i I
Q I i i I
N
y D X u
Q Q D Q X Qu
Q X Qu
Q Q Q Q
Q Q
 
 





 
    
 
 

(15)
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
21
Ahora solo nos queda una de las opciones pendiente: la media de todas las observaciones.
Como se verá a continuación, es necesario introducir esta media "total" si es que se desea
trabajar con interceptas distintos para agente y tiempo, simultáneamente. Partamos de una
especificación general:
'
it i t it ity x u      (16)
Y démonos cuenta de que al remover (o desviar respecto de) las medias por agente y tiempo,
todavía están presentes los valores promedio de estos interceptas. Formalmente:
'_ _ _
. ..
'_ _ _
.t .t.t
'_ _ _ _ _ _ _ _
. . . .t. .t
(1/ )
(1/ N)
( )
i ii ti
i t
i t iit it iti
Ty x u
y x u
y y y x x x u u u
  
  
  
   
   
 
           
 

 (17)
Donde:      
__ __
1 1
,t i
it itNT NT
;. Esto último implica que es posible eliminar estos
términos constantes (para proceder con la estimación de las pendientes) si sumamos el
promedio total a la expresión dada en (17.). Este promedio total viene dado por:
_ _
y x u  
  
   
'_ _ _ _ _ _ _ _
. . . .t. .t ( ) i t iit it itiy y y y x x x x u u u u  
  
 
              
 
Al regresionar
_ _
. .tit iy y y y

 
   
 
sobre
_ _
. .i titx x x x

 
   
 
obtenemos Whitin
y, con esto, es
posible hallar los estimadores de los efectos individuales y temporales:
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
22
_ _
, ..
_ _
.tt, .t
i Within iWithini
Within Within
y y x x
y y x x
 
 
   
   
   
      
   
   
      
   
(18)
Por último, el lector puede verificar que la transformación asociada pasa por pre multiplicar
el modelo por la matriz Q, la cual viene dada por:
' '1 1 1
NT N T T N N TQ I I i i i i I J
T N NT

           
(19)
Donde J es una matriz unitaria de (NT x NT).
3. Efectos Fijos versus efectos Aleatorios
A partir de lo expuesto el problema radica en la estimación de N o T (o si se desea de NT)
interceptos distintos. Esto envolvería suponer que i
;  t
o son un conjunto considerable
de parámetros desconocidos. Pero que implica la estimación de un conjunto demasiado
grande de parámetros. Concentrémonos en i
; y pensemos en un panel de datos con un
número bastante grande de observaciones de corte transversal (N), como en el caso de un
panel construido con encuestas de hogares realizada por los institutos de estadísticas de los
países. Dada la marcada heterogeneidad a través del espacio, de hecho tiene más sentido
suponer que los distintos valores de i
; son (al igual que la información contenida en x) la
realización de un proceso estocástico subyacente.
La distinción anterior es la que ha originado que, en algunos casos, se bosqueje una aparente
dicotomía entre un "modelo de efectos fijos" y un "modelo de efectos aleatorios''. En el
primero, se sugiere que los i ; son parámetros, mientras que en el segundo se trata a i ;
como una variable aleatoria. Sin embargo esto puede acarrear a una interpretación errónea
del rol de i , así como de los resultados de algunas de las pruebas que notaremos más
adelante. Por lo mismo, aquí no haremos esta distinción y supondremos que i ; recoge
efectos no observables, atribuibles al i-ésimo agente y que no varían en el tiempo. Esto no
implica que más adelante no experimentemos saber más sobre la naturaleza de i , o que no
hagamos referencia a los estimadores de efectos fijos y aleatorios.
Nuestro interés sobre la naturaleza de i , no obstante, se centrará en determinar si está o
no correlacionado con las variables explicativas del modelo. Nuestra distinción entre
"efectos fijos y "efectos aleatorios", por su parte, se referirá a la técnica de estimación por
emplear y no a la naturaleza de i .
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
23
No es difícil suponer que en el momento de modelar las decisiones individuales de un grupo
amplio de agentes, las respuestas dependan de un conjunto también amplio de factores,
muchos de ellos no observables4
En un modelo de corte transversal no queda más que dejar que esta heterogeneidad no
observable sea capturada por el error, y confiar en que no esté correlacionada
contemporáneamente con alguno de los regresores incluidos5
. El panel, sin embargo, ofrece
una alternativa distinta, ya que hace posible controlar por esta fuente de heterogeneidad no
observable.
En lo que sigue, formalizaremos nuestros supuestos sobre la naturaleza de la data partiendo
de que i ; recoge esta heterogeneidad que no es observable pero que, sin duda, afecta las
decisiones de los agentes bajo análisis(Barco & Castro, 2010):
.
4. Nuestro marco de análisis y los estimadores alternativos
En las páginas que siguen empezaremos planteando un conjunto de supuestos sobre el
proceso generador de datos, para luego analizar las propiedades de distintos estimadores
con el objetivo de determinar cuál de ellos es el más apropiado. Como siempre, las
propiedades que privilegiaremos serán el insesgamiento y eficiencia, para muestras
pequeñas; y la consistencia para muestras grandes.
De acuerdo con nuestra discusión anterior, supongamos que la información contenida en
nuestro panel de datos puede representarse de la siguiente manera(Barco & Castro, 2010):
:
'
2
2
. . (0, )
. . (0, )
it it it
it i it
i
it u
y x v
v u
i i d
u i i d

 

 

  
 
(20)
4 Factores como la "habilidad" o la "motivación" son sin duda determinantes de variables como la decisión de
matricularse en la educación superior o del salario por hora, pero difícilmente observables.
5 Tal como se discutió en el acápite introductorio, esta correlación contemporánea llevaría a que el estimador
mínimo cuadrático deje de exhibir la propiedad de consistencia. Una alternativa para esto es el uso del
estimador de variables instrumentales, con la subsecuente pérdida de información que su uso implica.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
24
Es decir, supongamos que el error asociado a la observación del i-ésimo agente en el t-ésimo
momento del tiempo está compuesto de dos partes: un término que no varía a lo largo del
tiempo y recoge la heterogeneidad no observable atribuible al i-ésimo agente  i , que se
distribuye de manera idéntica e independiente con media igual a cero y varianza igual a 2

, y un término que registra realizaciones distintas tanto a lo largo del tiempo como a través
del espacio  itu que distribuye de manera idéntica e independiente con media igual a cero
y varianza igual a 2
u .
La forma compuesta que hemos supuesto para el error implica que, si bien este es
homocedástico, exhibe correlación serial cuando se trata de un mismo agente. Formalmente:
2 2
2
( )
Cov( , ) t s
it u
it is
Var v
v v


 

 
  
(21)
También podemos expresar el modelo y su estructura de varianzas y covarianzas del error
en términos matriciales
  ' '
' 2 2 ' 2 2
; W= ,
( )
NT
u NT N T T u NT
y W v i X
W vv I I i i I TP 
   
   
     
         
(22)
4.1 Estimador Within
Este estimador ya fue presentado anteriormente y, como sabemos, implica transformar el
modelo premultiplicándolo por el proyector. A diferencia de lo indicado en (14.), aquí
estamos asumiendo que solo existe un intercepto común   por estimar y que el término
a; corresponde al error. Nótese que, en términos prácticos, no existe ninguna diferencia en
la expresión asociada a la estimación de las pendientes. Como ya es usual, expresamos el
estimador tanto en términos matriciales (Barco & Castro, 2010):
:



 ' 1 '
( )Whitin W QW W Qy (23)
Lo que equivale a regresionar:
'
'
'
1
_ _ _ _
' '
. . . .
'=
t,
( )( ) ( )(y )
it it i it
iit it i it i
i i iWithin it it it it i
it it
Within Within
y x u
y x x u u
x x x x x x y
y x
  
 

 
 


  
   
       
 
 
     
 
 
 
(24)
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
25
En este punto cabe destacar la forma que adopta el error del modelo transformado. Al
remover de cada observación la media correspondiente al agente en cuestión (haciendo uso
del proyector Q ), el nuevo término de error, al que denominamos v resulta:
    
_ _
. .v v vit i iit it
(25)
El nuevo término de error está "libre" de la heterogeneidad no observable asociada al agente.
Este resultado es clave para garantizar una propiedad importante del estimador, tal como
será discutido más adelante. Por lo pronto, démonos cuenta de que este nuevo error
tampoco exhibe una matriz de varianzas-covarianzas escalar debido a la existencia de
correlación serial entre errores correspondientes a un mismo agente. Formalmente:
   
  
    
        
  
  
         
  
_
2 2 2 2 2
.
_ _
2 2 2
. .
1
(v ) (u u ) (2 / T) (1/ )
(v ,v ) (u u ) (u u ) (2 / ) (1/ ) (1/ )
it it i u u u u
it is it i st i u u u
T
Var E T
T
Cov E T T T
(26)
O de manera compacta:
       
' ' 2 2 2
( vv ) (QvvQ) Q u NT u
E E I TP Q Q (27)
Al igual que el estimador mínimo cuadrático, el estimador Within es insesgado. El resultado
dado en (27.) (y, en particular, la existencia de correlación serial en los errores) implica que
el estimador Within no es eficiente, excepto si  2
0u o T tiende a infinito   T .
4.2 Estimador Between
Así como existe un estimador Within que aprovecha la variabilidad intraagentes, es posible
construir un estimador Between que tome en cuenta la variabilidad interagentes. Para esto
basta con tomar los promedios para cada agente y utilizar esta información como si se
tratase de una base de datos .de corte transversal. Como sabemos, estos promedios son
tomados por el proyector P, por lo que:


 ' -1 '
(WPW) WQyBetween
Lo que equivale a regresionar
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
26
'_ _ _
..
1
_ _ _ _
' '
. . . .
'=
( )( ) ( )( )
Between Between
it iii
i i iBetween i
i i
y x u
x x x x x x y y
y x
  

 

    
  
   
 
     
 
 
 
Al igual que sus predecesores (y siempre y cuando el error sea independiente en media de
los regresores: (v/ ) 0E X el estimador Between es insesgado. Asimismo, tampoco es
eficiente. De hecho, el término de error del modelo transformado   
_ _
it .v ii
también
exhibe Jt I r correlación.
  
  
      
   
2
_ _ _ __
2 2
it isit
1
Var(v) (v ,v ) ii u u
Cov E u
T
O, en términos más compactos:
          
_ _
' 2 2 2 2
( vv ) E(PvvP) P ( )Pu NT u
E I TP P
4.3 Estimador de mínimos cuadrados generalizados
Ninguno de los tres estimadores presentados anteriormente es eficiente. Para garantizar
esto, es preciso transformar el modelo de modo que el “nuevo” error exhiba una matriz de
varianzas-covarianzas escalar. Ninguna de las tres transformaciones consideradas hasta
ahora lo consigue5.
Definamos como R a la matriz que transforma al modelo de modo que el nuevo error tenga
una estructura de varianzas-covarianzas escalar. Esto implica que R debe ser tal que:
' 1
RR c 
 
Donde c es un escalar positivo. Es posible demostrar que la forma de esta matriz viene dada
por:
2
2 2
(1 )NT
u
u
R I P Q P

 


 
   


Es decir que la transformación que garantiza un estimador eficiente es aquella que remueve
de cada observación una proporción (1 ) de su media, donde es función de las varianzas
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
27
de los dos componentes del error. De hecho, no es difícil demostrar que la estructura de
varianzas-covarianzas del error transformado Rv es escalar:
' ' 2 2 2 2
( ) ( ) ( )u NT u uE RVV R Q I TP Q P Q P I                 
Lo anterior garantiza que el estimador asociado sea eficiente, y, por lo mismo, pertenece a
la clase de estimadores de mínimos cuadrados generalizados (MCG).
' 1 ' 1 1 1
( ) ( )MCG WR RW WR Ry W W W y

   
   
Lo que equivale a regresionar
_
.(1 )it iy y  sobre una constante y
_
.(1 ) iitx x 
1
_ _ _ _
. . . .(x (1 )x )(x (1 )x ) (x (1 )x )(y (1 ) )i i iMCG it it it it i
it it
x x x y y        

     
             
 
 
De manera compacta podemos escribirlo:
' '_ _ _ _
' 2 ' 2
. . . .
'
x x xi i iMCG i
i i
MCG MCG
X QX x x X QX x y y
y x
  
 
    
   
        
              
           

 
La expresión anterior nos sugiere que el estimador MCG combina la información contenida
en los estimadores6
within y Betwen No debe extrañarnos, por tanto, que se trate de un
estimador eficiente, en la medida en que explota la variabilidad tanto intra como
interagente.
Tan o más interesante es verificar bajo qué condiciones especiales el estimador MCG
coincide con el estimador Within o el mínimo cuadrático. Para el primer caso, recordemos
bajo qué circunstancias es el estimador Within eficiente 2
0u  o cuando T tienda a infinito.
En cualquier caso, desaparecería la correlación serial entre los errores del modelo
6
De hecho, es posible demostrar que el estimador MCG es un promedio ponderado de los estimadores Within y Between:
(1 )B W  
 
    , donde:
1'_ _
2 '
1 i iXQX x x x x X QX

    
        
    

Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
28
transformado con el proyector. Es fácil verificar que, bajo cualquiera de estas dos
situaciones, se cumple que MCG Betwen 
 
 7
.
2
2
2 2
, 0 0
0
/ 0
R/ I
u
u
u
T
NT P Q





 
  




  
Regresemos ahora a la estructura de varianzas-covarianzas del error del modelo original
(dada en (20.)) y notemos que esta matriz sería escalar (garantizando la· eficiencia de MICO

en caso cr/ =O.También es fácil verificar que, en este caso, se cumple que MCG MICO 
 
 ·
2
2
2 2
0
1
/ 1
R/
u
u
NT
T
I






 
 





4.4 Mínimos cuadrados generalizados factibles
¿Por qué no presentar únicamente al estimador eficiente? ¿Qué utilidad puede tener la
discusión de los estimadores Whitin

y Betwen

La respuesta a esta pregunta tiene dos partes.
En primer lugar, es necesario notar que para construir el proyector R es necesario conocer
las varianzas de los dos componentes del error de nuestro modelo. En la práctica, esto
difícilmente será posible, así que tendremos que utilizar un estimado de dichas varianzas.
Es para la estimación de estas varianzas que 1os estimadores Whitin

y Betwen

nos pueden ser
útiles.
7
Si
2
0u  , los efectos no observados son solo específicos del individuo, no hay generales, por lo que basta con corregir
por la presencia de a; para eliminar el problema de autocorrelación que presenta el modelo original.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
29
En particular, es posible demostrar que la varianza estimada del error del modelo
transformado con el proyector  itQ v es un estimador consistente de 2
u . Formalmente8
2_ _
'
.2 2. Pr
(y y ) (x )iit it Whithini ob
it
v u
x
NT N K

 

 
 
     
 

Tal como se muestra en la expresión anterior, nuestro estimador consistente de 2
u no es
otra cosa que la suma de cuadrados residual de la estimación Within, corregida por el
número apropiado de grados de libertad(Barco & Castro, 2010):
.
Por otro lado, la varianza estimada del error del modelo transformado con el proyector P
( )itv también nos provee información valiosa. De hecho, es posible demostrar que, conforme
N tienda a infinito, dicha varianza converge en probabilidad a una suma ponderada de 2
u
y 2
 . Formalmente:
2
_ _
'
..
2 2 2Pr
(y y) ( )
1
+
1
i Betweni
it ob
v u
x x
N K T


  
  
  
 
   
 
  
 

Si combinamos los resultados indicados en (40.) y (41.), es posible construir estimados de
2
 y 2
u , con esto, nuestro estimado de  y del proyector R. Esto configura lo que se conoce
como "estimador de mínimos cuadrados generalizados factibles". En particular
2
v

, provee
directamente un estimador consistente de 2
u , mientras que la resta
2 2
1
v v
T
 
 
 nos provee un
estimador consistente de 2
 . Formalmente:
2 2 Pr
21 ob
v v
T
  
 
  9
8
Si
2
0  , directamente se elimina el problema de autocorrelación del modelo original por lo que MICO es el estimador
eficiente.
9
Nótese que el resultado de esta resta podría ser negativo. En este caso, conviene reconsiderar el uso del estimador
de efectos aleatorios.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
30
6. Estimador usar
La discusión anterior revela que hay dos preguntas claves que deben ser resueltas antes de
determinar cuál es el mejor estimador por utilizar. La primera pregunta está asociada a la
idoneidad del marco de análisis propuesto. La segunda, por su parte, se refiere a la
posibilidad de que exista correlación contemporánea entre los regresares y el término de
error.
6.1 Efectos no observados
Como se dijo, esta primera pregunta está relacionada con el marco de análisis propuesto y,
en particular, con la estructura del término de error. Al respecto, nótese que la ausencia de
efectos no observados específicos del individuo equivale a suponer que el error se comporta
de la siguiente manera: it itv u . Dado que se asume que   0iE   , lo anterior equivale a
decir que 2
0  .Para comprobar esta hipótesis se dispone del test de Breusch-Pagan, cuyo
estadístico (LM) se construye sobre la base de los residuos mínimo cuadráticos (e) y, bajo la
hipótesis nula, se distribuye chi-cuadrado con un grado de libertad. Formalmente:


  
   
 

                        
  
 
2
0
2
2 2
_
.
1 1 21
2 2
1 1 1 1
: v ( 0)
: v =
LM= 1 1 (1)
2( 1) 2( 1)
it it
a it it i
N T N
it i
i t i
N T N T
it it
i t i t
H u
H u
e T e
NT NT
T T
e e
(28)
Si se rechaza la hipótesis nula, se concluye que la estructura supuesta para el error es la
correcta y que, por lo mismo, se aplica el análisis desarrollado en el acápite anterior. Es decir,
que es necesario construir el estimador de mínimos cuadrados generalizados si lo que se
busca es un estimador eficiente.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
31
Si se acepta la hipótesis nula, por otro lado, bastará con estimar las pendientes a través de
mínimos cuadrados ordinarios. De hecho, cabe recordar que en caso de 2
0  , el proyector
R es igual a la matriz identidad y el estimador eficiente es el mínimo cuadrático.
Una estimación como esta también se conoce como un pool: se dispone solo de los datos
agrupados y, en el momento de hacer la estimación, no hay nada que identifique a la
información de un agente o momento del tiempo particular. La ganancia, en este caso, se
debe al hecho de contar con un significativo número de grados de libertad. Al respecto, es
posible evaluar la ganancia de ajuste asociada a la introducción de interceptas múltiples
(específicos ya sea a agentes o períodos de tiempo). Para esto, se puede utilizar una típica
prueba F10; y, de encontrarse una ganancia de ajuste significativa (si se rechaza la prueba F),
se preferiría el modelo de interceptas múltiples11
6.2 Existe correlación entre los efectos no observados y los Regresores
Como se dijo, si se acepta que el error tiene la estructura it i itv u  la búsqueda de
eficiencia requiere la construcción del estimador de mínimos cuadrados generalizados. No
obstante, esto puede poner en riesgo la propiedad de consistencia si es que existe correlación
contemporánea entre la heterogeneidad individual no observable y el término de error. Para
verificar esto y decidir si trabajamos con el estimador de mínimos cuadrados generalizados
o el estimador Within, es posible construir una prueba de Hausman.
De acuerdo con el planteamiento general de dicha prueba, se propone comparar dos
estimadores: uno eficiente pero solo consistente bajo la hipótesis nula, y otro no eficiente
pero consistente tanto bajo la hipótesis nula como bajo la alternativa. La hipótesis nula por
evaluar es la existencia de correlación entre el error y los regreso res. Por lo mismo, y de
10
Nos referimos al típico contraste basado en pérdida de ajuste, el cual también puede ser expresado sobre la base de los
R-cuadrado:
2 2
2
( )
( 1, )
(1 R ) / (NT N K)
SR Pool
SR
R R
F F N NT N k

    
   , donde
2
RSR se refiere al R-cuadrado del
modelo con interceptas múltiples (sin restringir) y
2
PoolR , corresponde al R-cuadrado del modelo pool (restringido a un
solo intercepto común).
11
Cabe recordar que la estimación con interceptas múltiples es, en principio, equivalente a la construcción del estimador
Within. Nótese, sin embargo, que existe una diferencia en los objetivos. Cuando el error se comporta de acuerdo con
nuestro marco de análisis y construimos el estimador Within, nos interesa remover la heterogeneidad no observable del
término de error para garantizar consistencia. Para esto, desviamos cada observación de su media, y la inclusión de un
intercepto distinto para cada agente es una de las maneras de hacerlo. En el caso que aquí discutimos, donde el error ya
no es un error compuesto, nuestra motivación es la ganancia de ajuste: estamos interesados en estimar un intercepto
distinto para cada agente, y el hecho de que esto sea equivalente a desviar cada dato de su media podría entenderse como
un subproducto.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
32
acuerdo con las propiedades discutidas hasta ahora, nuestros candidatos ideales serían el
estimador de mínimos cuadrados generalizados y el estimador Within
• El primero es eficiente pero solo consistente en ausencia de correlación, mientras que
Within no es eficiente pero retiene la propiedad de consistencia incluso bajo la presencia de
correlación entre el término a; y los regresores.
La intuición detrás la prueba es clara: una diferencia significativa entre los estimadores de
mínimos cuadrados generalizados y Within, constituye evidencia en contra de la
consistencia del primero y esto, a su vez, constituye evidencia en contra de la ausencia de
correlación entre a; y los regresores. Por lo mismo, si se rechaza la hipótesis nula de esta
prueba, convendrá utilizar el estimador Within. Si se acepta la hipótesis nula, en tanto, se
privilegiará el uso del estimador de mínimos cuadrados generalizados12
.
0
1
: ( ) 0
: ( ) 0
( )
( ) ( ) Var( )
i it
a i i it
MCG Whitin
MCG Whitin
H E x
H E x
S q Var q q
q
Var q Var


 
 
  
  
  


    
 
 
(29)
Antes de concluir, conviene destacar que esta no es una prueba para determinar si los efectos
individuales son "fijos" o "aleatorios''. Lo que sí es cierto es que, dependiendo de sus
resultados, se decidirá si utilizar el estimador de mínimos cuadrados generalizados ("efectos
aleatorios") o el estimador Within ("efectos fijos"). Esta decisión, no obstante, no responde a
la posibilidad de que los efectos individuales no exhiban una naturaleza aleatoria, sino a la
posibilidad de que, siendo aleatorios, estén correlacionados con los regresores (Barco &
Castro, 2010):
.
12
De hecho, cualquier combinación entre los estimadores Wíthín, Between o mínimos cuadrados generalizados
sería válida en la medida en que este último es un promedio ponderado de los dos primeros.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
33
7. Aplicaciones
Es importante entonces que antes de iniciar escribas en la línea de comando (mientras estás
conectado a Internet) las siguientes indicaciones:
ssc install xtserial //Si este comando no funciona, intente: -findit xtserial-
Luego procedemos a instalar este paquete dándole click en el mismo
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
34
Los datos se encuentran alojados en la siguiente ruta:
use http://www.stata-press.com/data/r10/nlswork.dta
También se puede instalar con el uso del comando: webuse nlswork.dta
Generamos las siguientes variables:
generate age2 = age*age
generate black = (race==2)
Debemos saber que la variable race tiene las siguientes categorías
La base de datos a usar es nlswork1.dta , la cual contiene información de una muestra de
datos de panel para 4,711 mujeres empleadas, que han completado su educación y con
salarios mayores a US$1 por hora pero menores a $700, para un período de 20 años (1968-
1988) en los Estados Unidos.
.
303 3 other
8,051 2 black
20,180 1 white
tabulation: Freq. Numeric Label
unique values: 3 missing .: 0/28,534
range: [1,3] units: 1
label: racelbl
type: numeric (byte)
race race
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
35
A través del comando describe podemos observar todas las variables que contiene la base
de datos nlswork1.dta Antes de estimar un modelo de datos de panel, se deben identificar
las variables que representan a los individuos y a las observaciones.
Antes de estimar un modelo de datos de panel, se deben identificar las variables que
representan a los individuos y a las observaciones.
iis idcode
tis year
Antes de empezar el análisis procedemos a inspeccionar la data con el comando describe.
. reg ln_wage age age2
Note: Dataset has changed since last saved.
Sorted by: idcode year
black float %9.0g
age2 float %9.0g
ln_wage float %9.0g ln(wage/GNP deflator)
wks_work int %8.0g weeks worked last year
hours int %8.0g usual hours worked
tenure float %9.0g job tenure, in years
ttl_exp float %9.0g total work experience
wks_ue byte %8.0g weeks unemployed last year
union byte %8.0g 1 if union
occ_code byte %8.0g occupation
ind_code byte %8.0g industry of employment
south byte %8.0g 1 if south
c_city byte %8.0g 1 if central city
not_smsa byte %8.0g 1 if not SMSA
collgrad byte %8.0g 1 if college graduate
grade byte %8.0g current grade completed
nev_mar byte %8.0g 1 if never married
msp byte %8.0g 1 if married, spouse present
race byte %8.0g 1=white, 2=black, 3=other
age byte %8.0g age in current year
birth_yr byte %8.0g birth year
year byte %8.0g interview year
idcode int %8.0g NLS ID
variable name type format label variable label
storage display value
size: 1,169,894
vars: 23 7 Dec 2006 17:02
obs: 28,534 National Longitudinal Survey. Young Women 14-
Contains data from http://www.stata-press.com/data/r10/nlswork.dta
. d
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
36
Asimismo es necesario darle contexto de datos de panel, esto se logra usando el siguiente
comando: xtset
7.2 Análisis de datos panel de dos períodos
Utilizando la base de datos CRIME2.dta, se tiene t = 1 y t = 2, la base contiene los índices de
delincuencia y de desempleo de 46 ciudades para 1982 y 1987, por lo tanto t = 1 = 1982 y t =
2 = 1987. Si se elabora una regresión t = 2. Veamos que variables son significativas que
explican el comportamiento del desempleo.
describe
reg crmrte unem if year == 87
delta: 1 unit
time variable: year, 68 to 88, but with gaps
panel variable: idcode (unbalanced)
. xtset idcode year
.
Sorted by:
ccrmrte float %9.0g
lcrmrt_1 float %9.0g
clpopden float %9.0g
cunem float %9.0g
cllawexp float %9.0g
clpolpc float %9.0g
lpolpc float %9.0g
clcrmrte float %9.0g
clpop float %9.0g
clcrimes float %9.0g
lcrmrte float %9.0g
larea float %9.0g
lcrimes float %9.0g
lpopden float %9.0g
llawexpc float %9.0g
lpcinc float %9.0g
loffic float %9.0g
lpop float %9.0g
polpc float %9.0g
lawexpc float %9.0g
offarea float %9.0g
crmrte float %9.0g
popden float %9.0g
d87 float %9.0g
area float %9.0g
year float %9.0g
south float %9.0g
nrtheast float %9.0g
west float %9.0g
pcinc float %9.0g
officers float %9.0g
unem float %9.0g
crimes float %9.0g
pop float %9.0g
variable name type format label variable label
storage display value
size: 12,512
vars: 34 26 Jan 2000 12:16
obs: 92
Contains data from C:UsersfinanzasDocumentscrime2.dta
. d
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
37
Si se interpreta el resultado se observa que un aumento en el índice de desempleo disminuye
la delincuencia. Es significativo y coherente ?
El problema puede ser causado por variables omitidas tales como edad, género, educación.
Pero por medio de datos panel es posible observar como la inclusión del año 82 puede
ayudar a controlar el hecho de que distintas ciudades tienen históricamente diferentes
índices de delincuencia.
       0 0 1
2 , t=1,2.it t it i it
y d x u (30)
Por medio de análisis de datos agrupados, se hace el análisis que el efecto inobservable es
de dos tipos, el constante y el que varía en el tiempo. En la ecuación anterior la constante es
 0 0
t= 1 y 2 .
La variable i
captura todos los efectos inobservables constantes en el tiempo que influyen
en it
y , i
es denominada efecto inobservable, en este caso denominada efecto fijo, dado que
no se modifica en el tiempo. La ecuación anterior es un modelo de efectos inobservables o
modelo de efectos fijos. it
u , se denomina error idiosincrático o error de variación temporal.,
_cons 128.3781 20.75663 6.18 0.000 86.54589 170.2104
unem -4.161134 3.416456 -1.22 0.230 -11.04655 2.72428
crmrte Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 54450.5521 45 1210.01227 Root MSE = 34.6
Adj R-squared = 0.0106
Residual 52674.6428 44 1197.15097 R-squared = 0.0326
Model 1775.90928 1 1775.90928 Prob > F = 0.2297
F(1, 44) = 1.48
Source SS df MS Number of obs = 46
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
38
pues representa factores inobservables que cambian en el tiempo. De acuerdo al ejemplo
anterior, el modelo a estimar es
       0 0 1
87 ; t=1,2.it t it i it
crmrte d unem u (31)
La variable 87d , será el efecto fijo en este caso urbano, que pueden ser las características
demográficas, si no hay un cambio en las políticas puede encontrarse la educación, la raza
y la edad. Ahora por los supuestos de MCO, U no debe estar correlacionado con las X ,
por lo tanto se hace un cambio en la ecuación
Donde  it i it
V u , que se denomina ERROR COMPUESTO. Realizando la estimación
del ejemplo
reg crmrte unem d87
El resultado no es bueno, dados la insignificancia, lo que indica que el supuesto de no
correlación está afectado el modelo, además, MCO con variables dicotómicas no soluciona
el problema de variables omitidas, además, uno de los objetivos de panel es capturar
correlaciones entre a y X.
En la mayor parte de las aplicaciones, la razón de data panel es permitir que el efecto
inobservable se correlacione con las variables explicativas. Por ejemplo, en la delincuencia,
se desea dejar que los factores urbanos no contemplados en ai que influyen en el índice de
delincuencia, se correlacionen también con el índice de desempleo.
Es sencillo realizarlo: Como ai es constante en el tiempo, se diferencia a lo largo de los dos
años. De manera se escribe la ecuación de esta forma
   
  
    
   
2 0 0 1 2 2
1 0 1 1 1
( ) , t=2
, t=1
i i i i
i i i i
y x u
y x u
(32)
 
 
    
     
2 1 0 1 2 1 2 1
0 1
( ) ( - )i i i i i i
it it it
y y x x u u
y x u
(33)
El efecto
i es eliminado al diferenciar, la ecuación anterior es denominada ecuación de
diferencia de primer orden. Lo importante es que no exista correlación entre U y X . Para
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
39
poder estimar este modelo debe haber cambio en las X, dado que si hay una variable que
no cambie, como por ejemplo el sexo de una persona la estimación es incorrecta.
Reestimando este modelo se tiene (Software Shop, 2013):
gen ccrmrte= crmrte - crmrte[_n-1]
El resultado ahora proporciona una relación positiva, entre los índices de delincuencia y el
de desempleo. La intercepción revela que cuando el cambio en el desempleo = 0, el índice
delictivo es de 15.4, esto refleja un aumento secular en los índices delictivos en USA de 1982
a 1987.
En esta sección se empleará la base nlswork.dta la misma que contiene una muestra de 4711
mujeres con trabajo remunerado de 14 a 26 años cumplidos al año 1968 y que fueron
encuestadas a lo largo de 21 años (1968-1988) excepto los años 1974, 1976, 1979, 1981, 1984,
y 1986. La variable dependiente en todas las estimaciones es el logaritmo del ingreso. Se
recurrirán a algunos comandos que no están cargados en Stata (Software Shop, 2013).
_cons 15.4022 4.702117 3.28 0.002 5.925709 24.8787
cunem 2.217999 .8778659 2.53 0.015 .448777 3.987222
ccrmrte Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 20255.9877 45 450.13306 Root MSE = 20.051
Adj R-squared = 0.1069
Residual 17689.5504 44 402.035236 R-squared = 0.1267
Model 2566.43732 1 2566.43732 Prob > F = 0.0152
F(1, 44) = 6.38
Source SS df MS Number of obs = 46
. reg ccrmrte cunem
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
40
7.2. Controlando la heterogeneidad dentro de un panel
7.2.1 Regresión agrupada (POOLED OLS)
El enfoque más simple de analizar datos tipo panel es omitir las dimensiones del espacio y
el tiempo de los datos agrupados y sólo calcular la regresión MCO usual. Este modelo se
expresa como (INFOPUC, 2011):
1 1it it itY X     (34)
Donde i significa la i-ésima unidad transversal (estado) y t el tiempo t (año). Si tratamos de
explicar la variable wage con las variables independientes age y age2, basta con que
indiquemos en la ventana de comandos de Stata (INFOPUC, 2011):
reg ln_wage age age2
7.2.2 Efectos Aleatorios (Random Effects)
La ecuación (2) supone que el intercepto de la regresión es la misma para todas las unidades
transversales. Sin embargo, es muy probable que necesitemos controlar el carácter
“individual” de cada estado. El modelo de efectos aleatorios permite suponer que cada
unidad transversal tiene un intercepto diferente. Este modelo se expresa como:
1 1it i it itY X     (35)
_cons .1647917 .0521021 3.16 0.002 .062669 .2669143
age2 -.0010982 .0000596 -18.42 0.000 -.0012151 -.0009814
age .0855891 .0035923 23.83 0.000 .0785481 .0926302
ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 6516.69015 28,509 .228583611 Root MSE = .45654
Adj R-squared = 0.0882
Residual 5941.72375 28,507 .208430342 R-squared = 0.0882
Model 574.966399 2 287.4832 Prob > F = 0.0000
F(2, 28507) = 1379.28
Source SS df MS Number of obs = 28,510
. reg ln_wage age age2
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
41
Donde ii u . Es decir, en vez de considerar a  como fija, suponemos que es una
variable aleatoria con un valor media y una desviación aleatoria iu de este valor medio.
Sustituyendo ii u en la ecuación (2) obtenemos el modelo de efectos aleatorios:
1 1it it i itY X u     
(36)
Stata estima el modelo de efectos aleatorios con el comando xtreg, re. En nuestro ejemplo,
indicamos en la ventana de comandos
xtreg ln_wage grade age* ttl_exp* tenure* black ///
not_smsa south, re
Si analizamos la ecuación (8), observamos que si la varianza de iu es igual a cero, es decir
02
u , entonces no existe ninguna diferencia relevante entre la ecuación (1) y la (3). ¿Cómo
podemos saber si es necesario usar el modelo de efectos aleatorios o el de datos agrupados?
Breusch y Pagan formularon la prueba conocida como Prueba del Multiplicador de
rho .44045273 (fraction of variance due to u_i)
sigma_e .29068923
sigma_u .25790526
_cons .2387207 .049469 4.83 0.000 .1417633 .3356781
south -.0868922 .0073032 -11.90 0.000 -.1012062 -.0725781
not_smsa -.1308252 .0071751 -18.23 0.000 -.1448881 -.1167622
black -.053053 .0099926 -5.31 0.000 -.0726381 -.0334679
tenure2 -.0020035 .0001193 -16.80 0.000 -.0022373 -.0017697
tenure .0392519 .0017554 22.36 0.000 .0358113 .0426925
ttl_exp2 .0003049 .0001162 2.62 0.009 .000077 .0005327
ttl_exp .0290208 .002422 11.98 0.000 .0242739 .0337678
age2 -.0007133 .00005 -14.27 0.000 -.0008113 -.0006153
age .0368059 .0031195 11.80 0.000 .0306918 .0429201
grade .0646499 .0017812 36.30 0.000 .0611589 .0681409
ln_wage Coef. Std. Err. z P>|z| [95% Conf. Interval]
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
Wald chi2(10) = 9244.74
overall = 0.3708 max = 15
between = 0.4784 avg = 6.0
R-sq: within = 0.1715 Obs per group: min = 1
Group variable: idcode Number of groups = 4697
Random-effects GLS regression Number of obs = 28091
> not_smsa south, re
. xtreg ln_wage grade age* ttl_exp* tenure* black ///
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
42
Lagrange para Efectos Aleatorios. La hipótesis nula de esta prueba es que
02
u . Si la
prueba se rechaza, sí existe diferencia entre (1) y (3), y es preferible usar el método de efectos
aleatorios.13 La prueba de Breusch y Pagan se implementa en Stata con el comando xttest0
después de la estimación de efectos aleatorios.
xtreg ln_wage grade age* ttl_exp* tenure* black ///
not_smsa south, re
xttest0
El p-value nos indica que podemos rechazar la hipótesis nula (Ho); por lo tanto, los efectos
aleatorios iu son significativos y es preferible usar la estimación de efectos aleatorios en vez
de la agrupada.
7.2.3 Efectos Fijos (Fixed Effects)
Otra manera de modelar el carácter “individual” de cada estado es a través del modelo de
efectos fijos. Este modelo no supone que las diferencias entre estados sean aleatorias, sino
constantes o “fijas”—y por ello debemos estimar cada intercepto iu . ¿Cómo podemos
permitir que el intercepto varíe con respecto a cada estado? Una manera es la técnica de “las
variables dicotómicas de intersección diferencial”, que se expresa de la siguiente manera14
:
1 1it i it itY X     (37)
13
Recuerden que una Hipótesis nula se rechaza si el p-value de la prueba es menor a 0.10.
14
Se pueden utilizar variables dicotómicas que conducen al mismo resultado que si restamos a cada observación la media
de cada estado (demeaning the data).
.
end of do-file
.
Prob > chibar2 = 0.0000
chibar2(01) = 14779.98
Test: Var(u) = 0
u .0665151 .2579053
e .0845002 .2906892
ln_wage .2283326 .4778416
Var sd = sqrt(Var)
Estimated results:
ln_wage[idcode,t] = Xb + u[idcode] + e[idcode,t]
Breusch and Pagan Lagrangian multiplier test for random effects
. xttest0
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
43
Donde i es un vector de variables dicotómicas para cada estado. El modelo de efectos
fijos puede ejecutarse en Stata con el comando:
xtreg ln_wage age age2,fe
xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i.year,fe
F test that all u_i=0: F(4709, 23798) = 8.74 Prob > F = 0.0000
rho .64073314 (fraction of variance due to u_i)
sigma_e .30245467
sigma_u .4039153
_cons .639913 .0408906 15.65 0.000 .5597649 .7200611
age2 -.0005973 .0000465 -12.84 0.000 -.0006885 -.0005061
age .0539076 .0028078 19.20 0.000 .0484041 .0594112
ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
corr(u_i, Xb) = 0.0440 Prob > F = 0.0000
F(2,23798) = 1451.88
overall = 0.0865 max = 15
between = 0.1006 avg = 6.1
within = 0.1087 min = 1
R-sq: Obs per group:
Group variable: idcode Number of groups = 4,710
Fixed-effects (within) regression Number of obs = 28,510
. xtreg ln_wage age age2,fe
.
F test that all u_i=0: F(4696, 23372) = 6.58 Prob > F = 0.0000
rho .59656174 (fraction of variance due to u_i)
sigma_e .28984565
sigma_u .35245685
_cons .5076833 .1945967 2.61 0.009 .1262611 .8891056
_Iyear_88 -.3186943 .2011954 -1.58 0.113 -.7130506 .075662
_Iyear_87 -.3411479 .1878065 -1.82 0.069 -.7092608 .0269651
_Iyear_85 -.310788 .1679921 -1.85 0.064 -.6400636 .0184876
_Iyear_83 -.3080176 .1482841 -2.08 0.038 -.5986642 -.017371
_Iyear_82 -.2915456 .1385459 -2.10 0.035 -.5631046 -.0199866
_Iyear_80 -.2355611 .1189077 -1.98 0.048 -.468628 -.0024942
_Iyear_78 -.1763172 .0995746 -1.77 0.077 -.3714899 .0188555
_Iyear_77 -.1622962 .0893091 -1.82 0.069 -.3373479 .0127554
_Iyear_75 -.152118 .0698157 -2.18 0.029 -.2889613 -.0152748
_Iyear_73 -.096822 .0508415 -1.90 0.057 -.1964747 .0028306
_Iyear_72 -.0590495 .0412744 -1.43 0.153 -.13995 .021851
_Iyear_71 -.0305026 .0318724 -0.96 0.339 -.0929745 .0319693
_Iyear_70 -.0342683 .0229397 -1.49 0.135 -.0792316 .0106951
_Iyear_69 .0421902 .0155292 2.72 0.007 .0117519 .0726284
south -.0612464 .0109049 -5.62 0.000 -.0826208 -.0398721
not_smsa -.0872854 .0095083 -9.18 0.000 -.1059222 -.0686485
black 0 (omitted)
tenure2 -.0018203 .000126 -14.45 0.000 -.0020672 -.0015734
tenure .0338666 .001858 18.23 0.000 .0302248 .0375084
ttl_exp2 -.000116 .0001351 -0.86 0.390 -.0003808 .0001488
ttl_exp .0395614 .0030685 12.89 0.000 .0335469 .0455758
age2 -.0009346 .0000616 -15.16 0.000 -.0010554 -.0008138
age .0663695 .0105143 6.31 0.000 .0457607 .0869783
grade 0 (omitted)
ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
corr(u_i, Xb) = 0.1861 Prob > F = 0.0000
F(22,23372) = 229.99
overall = 0.2696 max = 15
between = 0.3607 avg = 6.0
R-sq: within = 0.1780 Obs per group: min = 1
Group variable: idcode Number of groups = 4697
Fixed-effects (within) regression Number of obs = 28091
note: black omitted because of collinearity
note: grade omitted because of collinearity
i.year _Iyear_68-88 (naturally coded; _Iyear_68 omitted)
. xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i.year,fe
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
44
Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la
significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La
hipótesis nula es que 1 = 2 = … t = 0. . En nuestro ejemplo, luego de estimar un modelo con
efectos fijos individuales y temporales, indicamos en la ventana de comando:
El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar
que las variables dicotómicas temporales son conjuntamente significativas y pertenecen al
modelo.
7.2.4 Autocorrelación
Es importante señalar que aun cuando hemos modelado la heterogeneidad temporal y
espacial en nuestro modelo, la ecuación (5) puede estar mal especificada en otros aspectos.
Recordemos que de acuerdo con los supuestos de Gauss-Markov, los estimadores MCO son
los Mejores Estimadores Lineales Insesgados (MELI) siempre y cuando los errores sean
independientes entre sí y se distribuyan idénticamente con varianza constante.
Desafortunadamente, con frecuencia estas condiciones son violadas en datos panel: con
respecto a la independencia cuando los errores de diferentes unidades están correlacionados
(correlación contemporánea), o cuando los errores dentro de cada unidad se correlacionan
temporalmente (correlación serial), o ambos. También con respecto a la distribución
“idéntica” de los errores cuando la varianza no es constante (heteroscedasticidad).
En ese sentido abordamos al problema de la correlación serial o “autocorrelación”; es decir,
cuando los errores it no son independientes con respecto al tiempo. En nuestro ejemplo, es
muy probable que el nivel de ingresos en t esté asociado con el nivel de ingresos en t-1.
end of do-file
.
Prob > F = 0.0000
F( 14, 23374) = 10.44
(14) _Iyear_88 = 0
(13) _Iyear_87 = 0
(12) _Iyear_85 = 0
(11) _Iyear_83 = 0
(10) _Iyear_82 = 0
( 9) _Iyear_80 = 0
( 8) _Iyear_78 = 0
( 7) _Iyear_77 = 0
( 6) _Iyear_75 = 0
( 5) _Iyear_73 = 0
( 4) _Iyear_72 = 0
( 3) _Iyear_71 = 0
( 2) _Iyear_70 = 0
( 1) _Iyear_69 = 0
. testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test-
.
. * Prueba para validar efectos Fijos
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
45
(INFOPUC, 2011). Existen muchas maneras de diagnosticar problemas de autocorrelación15
.
Sin embargo, cada una de estas pruebas funciona bajos ciertos supuestos sobre la naturaleza
de los efectos individuales. Wooldridge desarrolló una prueba muy flexible basada en
supuestos mínimos que puede ejecutarse con el comando xtserial. La hipótesis nula de esta
prueba es que no existe autocorrelación; naturalmente, si se rechaza, podemos concluir que
ésta sí existe.16 El comando xtserial requiere que se especifiquen la variable dependiente e
independientes de nuestro modelo. En nuestro ejemplo, indicamos:
La prueba nos indica que tenemos un problema de autocorrelación que es necesario corregir.
Una manera de hacerlo es a través de un modelo de efectos fijos con término  it
autorregresivo de grado 1 (AR1) que controla por la dependencia de t con respecto a t-1. El
modelo AR1 con efectos fijos se especifica de la manera:
15 Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han sido
ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo “PANELAUTO”
y “PANTEST2” tecleando en la línea de comando: ssc install panelauto y ssc install pantest2.
16
El método de Wooldridge utiliza los residuales de una regresión de primeras diferencias, observando que si itu no está
serialmente correlacionado, entonces la correlación entre los errores itu diferenciados para el periodo t y t-1 es igual a -0.5.
En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una discusión más amplia de esta prueba,
consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press.
end of do-file
.
F test that all u_i=0: F(4696, 23388) = 6.62 Prob > F = 0.0000
rho .59923531 (fraction of variance due to u_i)
sigma_e .29260978
sigma_u .35780204
_cons .9083485 .0410338 22.14 0.000 .8279196 .9887774
south -.0597952 .0110021 -5.43 0.000 -.08136 -.0382304
not_smsa -.089174 .0095944 -9.29 0.000 -.1079797 -.0703683
black 0 (omitted)
tenure .0105427 .0009174 11.49 0.000 .0087446 .0123408
ttl_exp .033949 .0014633 23.20 0.000 .0310809 .0368172
age2 -.0008651 .0000463 -18.67 0.000 -.000956 -.0007743
age .0462177 .0027557 16.77 0.000 .0408164 .051619
grade 0 (omitted)
ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
corr(u_i, Xb) = 0.2112 Prob > F = 0.0000
F(6,23388) = 751.52
overall = 0.2585 max = 15
between = 0.3514 avg = 6.0
within = 0.1616 min = 1
R-sq: Obs per group:
Group variable: idcode Number of groups = 4,697
Fixed-effects (within) regression Number of obs = 28,091
note: black omitted because of collinearity
note: grade omitted because of collinearity
. xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south,fe
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
46
  
  
  
 
1 1
1
Donde:
it i it it
it it it
Y X
(38)
Los errores tienen una correlación de primer grado,  . El modelo AR1 se puede
implementar con el comando xtregar:
xtregar ln_wage grade age* ttl_exp* tenure* black not_smsa south, fe
7.2.5 Heterocedasticidad
Cuando la varianza de los errores de cada unidad transversal no es constante, nos
encontramos con una violación de los supuestos Gauss-Markov. Una forma de saber si
nuestra estimación tiene problemas de heteroscedastidad es a través de la prueba del
Multiplicador de Lagrange de Breusch y Pagan. Sin embargo, de acuerdo con Greene, ésta
y otras pruebas son sensibles al supuesto sobre la normalidad de los errores;
.
end of do-file
.
F test that all u_i=0: F(4146,19241) = 1.69 Prob > F = 0.0000
rho_fov .67488431 (fraction of variance because of u_i)
sigma_e .25845863
sigma_u .37238033
rho_ar .74929079
_cons .438538 .0076196 57.55 0.000 .4236029 .4534731
south -.0379833 .0137222 -2.77 0.006 -.0648799 -.0110866
not_smsa -.0375502 .011841 -3.17 0.002 -.0607596 -.0143409
black 0 (omitted)
tenure .0103372 .0013308 7.77 0.000 .0077287 .0129456
ttl_exp .0237054 .0027819 8.52 0.000 .0182527 .0291581
age2 -.0011874 .0000552 -21.52 0.000 -.0012956 -.0010793
age .0771905 .0020002 38.59 0.000 .0732698 .0811111
grade 0 (omitted)
ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
corr(u_i, Xb) = 0.1915 Prob > F = 0.0000
F(6,19241) = 823.11
overall = 0.1948 max = 14
between = 0.2936 avg = 5.6
within = 0.2042 min = 1
R-sq: Obs per group:
Group variable: idcode Number of groups = 4,147
FE (within) regression with AR(1) disturbances Number of obs = 23,394
note: black dropped because of collinearity
note: grade dropped because of collinearity
. xtregar ln_wage grade age* ttl_exp* tenure* black not_smsa south, fe
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
47
afortunadamente, la prueba Modificada de Wald para Heterocedasticidad funciona aún
cuando dicho supuesto es violado17 (INFOPUC, 2011)
7.3 Efectos fijos vs. Aleatorios
Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F de significancia de los
efectos fijos nos indican que tanto el modelo de efectos aleatorios como el de efectos fijos
son mejores que el modelo agrupado. ¿Pero cómo decidir cuál de los dos usar? La respuesta
depende de la posible correlación entre el componente de error individual iu y las variables
X. El modelo de efectos aleatorios supone que esta correlación es igual a cero. Hausman
demostró que la diferencia entre los coeficientes de efectos fijos y aleatorios
 eaef  
pude
ser usada para probar la hipótesis nula de que iu y las variables X no están correlacionadas.
Así pues, la Ho de la prueba de Hausman es que los estimadores de efectos aleatorios y de
efectos fijos no difieren sustancialmente. Si se rechaza la Ho, los estimadores sí difieren, y la
conclusión es efectos fijos es más conveniente que efectos aleatorios. Si no podemos
rechazar Ho, no hay sesgo de qué preocuparnos y preferimos efectos aleatorios que, al no
estimar tantas dummies, es un modelo más eficiente. La prueba de Hausman se implementa
en Stata después de la regresión con efectos aleatorios con el comando hausman (INFOPUC,
2011):
xtreg ln_wage grade age* ttl_exp* tenure* black ///
not_smsa south, re
estimates store RANDOM
xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south,fe
estimates store FIXED
hausman FIXED RANDOM
17
Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River,
NJ: Prentice Hall, p. 598.
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
48
En nuestro ejemplo, la Ho se rechaza; es decir, la diferencia entre los coeficientes de efectos
aleatorios y fijos sí es sistemática. Por lo tanto, conviene usar el método de efectos fijos.
7.4 Efectos temporales (two-way fixed effects)
La incorporación de variables dicotómicas de las personas permite modelar características
de las unidades transversales (mujeres) que no cambian en el tiempo pero que sí afectan el
resultado de interés. Ahora bien, también es posible agregar variables dicotómicas
temporales a nuestro modelo, es decir, una para cada año en la muestra, que capturen
eventos comunes a todos las personas durante un período u otro—como una gran depresión
o guerra mundial18
. Agregando efectos temporales, la ecuación anterior se transforma en:
      1 1it i t it it
Y X
Donde representa un vector de variables dicotómicas para cada año. Estas variables
dicotómicas permitirán controlar por aquellos eventos a los que fueron sujetos todas las
personas en un año dado y, al igual que los efectos fijos, pueden reducir sesgos importantes.
En Stata podemos incorporar efectos temporales a nuestro modelo de efectos fijos con el
comando xi.
xi: xtreg ln_wage age age2 i.year, fe
18
Para hacer la distinción algunos autores suelen hablar de efectos idiosincráticos y efectos covariados.
Prob>chi2 = 0.0000
= 149.43
chi2(8) = (b-B)'[(V_b-V_B)^(-1)](b-B)
Test: Ho: difference in coefficients not systematic
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
b = consistent under Ho and Ha; obtained from xtreg
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
49
O bien, generando tanto las dummies de personas como de año (computacionalmente más
costoso),
xi: xtreg ln_wage age age2 i.year i.idcode, fe
Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la
significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La
hipótesis nula es que
    1 2
.... 0T
. En nuestro ejemplo, luego de estimar un modelo con efectos fijos
individuales y temporales, indicamos en la ventana de comando:
testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test-
.
F test that all u_i=0: F(4709, 23784) = 8.75 Prob > F = 0.0000
rho .64120306 (fraction of variance due to u_i)
sigma_e .30127563
sigma_u .40275174
_cons .3937532 .2001741 1.97 0.049 .0013992 .7861072
_Iyear_88 .1904977 .2068016 0.92 0.357 -.2148466 .595842
_Iyear_87 .1242272 .1930108 0.64 0.520 -.2540863 .5025406
_Iyear_85 .1042758 .1726431 0.60 0.546 -.2341157 .4426673
_Iyear_83 .058766 .1523743 0.39 0.700 -.2398974 .3574294
_Iyear_82 .0391687 .1423573 0.28 0.783 -.2398606 .318198
_Iyear_80 .0369475 .1221806 0.30 0.762 -.2025343 .2764293
_Iyear_78 .0537334 .1023339 0.53 0.600 -.1468475 .2543143
_Iyear_77 .0340933 .0918106 0.37 0.710 -.1458613 .2140478
_Iyear_75 .0151376 .0717194 0.21 0.833 -.1254371 .1557123
_Iyear_73 .0424104 .052118 0.81 0.416 -.0597442 .1445651
_Iyear_72 .0510671 .0422995 1.21 0.227 -.0318426 .1339769
_Iyear_71 .0579959 .0326524 1.78 0.076 -.0060048 .1219967
_Iyear_70 .0284423 .0234621 1.21 0.225 -.017545 .0744295
_Iyear_69 .0647054 .0158222 4.09 0.000 .0336928 .095718
age2 -.0010113 .000061 -16.57 0.000 -.0011309 -.0008917
age .0728746 .0107894 6.75 0.000 .0517267 .0940224
ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
corr(u_i, Xb) = 0.0613 Prob > F = 0.0000
F(16,23784) = 195.45
overall = 0.0932 max = 15
between = 0.1078 avg = 6.1
within = 0.1162 min = 1
R-sq: Obs per group:
Group variable: idcode Number of groups = 4,710
Fixed-effects (within) regression Number of obs = 28,510
i.year _Iyear_68-88 (naturally coded; _Iyear_68 omitted)
. xi: xtreg ln_wage age age2 i.year, fe
Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM
Econometría de datos de panel con aplicaciones en Stata 14
Bustamante Romaní, Rafael
50
El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar
que las variables dicotómicas temporales son conjuntamente significativas y pertenecen al
modelo.
8. Bibliografía
Colin Cameron , A., & Trivedi, P. (2005). Microeconometrics: Methods and Applications. (C. U.
Press, Ed.) New York.
Orihuela, A. (2011). Stata Avanzado Aplicado a la Investigación Económica. Grupo Iddea, Lima.
Beltrán Barco, A. (2003). Econometría de series de tiempo. Lima: . Universidad del Pacífico.
Obtenido de https://econometriaii.files.wordpress.com/2010/01/beltran.pdf
Beltran Barco, Arlette; Castro Carlin, Juan;. (2010). Modelos de datos de panel y variables
dependientes limitadas: teoría y práctica. (U. d. Pacífico, Ed.)
Bravo, D., & Vásquez, J. (2008). Microeconometria Aplicada. Notas de Clase, Centro Micro Datos.,
Santiago. Obtenido de
http://www.academia.edu/9494003/MICROECONOMETR%C3%8DA_CON_STATA
de Arce, R., & Mahía, R. (2007). Técnicas de Previsión de variables financieras:Modelos Arima. (M.
d. Citius, Ed.)
Greene, W. (1997). Análisis Econometrico (Tercera ed.). Prentice Hall.
Greene, W. (1999). Análisis Econométrico. (S. &. Schuster, Trad.) Madrid: Prentice Hall Iberia.
INFOPUC. (2011). Stata para Economistas. Pontificia Universidad Católica .
Software Shop. (2013). Introducion al Stata 12: Ejercicios aplicados a la Economía y Econometría
Financiera.
Prob > F = 0.0000
F( 14, 23784) = 14.33
(14) _Iyear_88 = 0
(13) _Iyear_87 = 0
(12) _Iyear_85 = 0
(11) _Iyear_83 = 0
(10) _Iyear_82 = 0
( 9) _Iyear_80 = 0
( 8) _Iyear_78 = 0
( 7) _Iyear_77 = 0
( 6) _Iyear_75 = 0
( 5) _Iyear_73 = 0
( 4) _Iyear_72 = 0
( 3) _Iyear_71 = 0
( 2) _Iyear_70 = 0
( 1) _Iyear_69 = 0
. testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test-
.

Más contenido relacionado

Similar a Apuntes de-clase-n15.bustamante panel data

Similar a Apuntes de-clase-n15.bustamante panel data (20)

Monografia
MonografiaMonografia
Monografia
 
01464.pdf
01464.pdf01464.pdf
01464.pdf
 
LIBRO DE OPERATIVA.pdf
LIBRO DE OPERATIVA.pdfLIBRO DE OPERATIVA.pdf
LIBRO DE OPERATIVA.pdf
 
Libro costo
Libro costoLibro costo
Libro costo
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica trabajo
Estadistica trabajoEstadistica trabajo
Estadistica trabajo
 
CONCEPTOS DE PROGRAMCION. 11-3 2023.pdf
CONCEPTOS DE PROGRAMCION. 11-3  2023.pdfCONCEPTOS DE PROGRAMCION. 11-3  2023.pdf
CONCEPTOS DE PROGRAMCION. 11-3 2023.pdf
 
Costos y presupuestos
Costos y presupuestosCostos y presupuestos
Costos y presupuestos
 
Costos y presupuestos
Costos y presupuestosCostos y presupuestos
Costos y presupuestos
 
costos_y_presu.pdf
costos_y_presu.pdfcostos_y_presu.pdf
costos_y_presu.pdf
 
Costos y Presupuestos
Costos y PresupuestosCostos y Presupuestos
Costos y Presupuestos
 
Curriculo micro macro Blogger
Curriculo micro macro BloggerCurriculo micro macro Blogger
Curriculo micro macro Blogger
 
Cherly yajaira chapal sanabria11 1 tecnologia (1)
Cherly yajaira chapal sanabria11 1 tecnologia (1)Cherly yajaira chapal sanabria11 1 tecnologia (1)
Cherly yajaira chapal sanabria11 1 tecnologia (1)
 
Capítulos i y ii econometría aplicada a finanzas
Capítulos i y ii econometría aplicada a finanzasCapítulos i y ii econometría aplicada a finanzas
Capítulos i y ii econometría aplicada a finanzas
 
Capítulos i y ii econometría aplicada a finanzas
Capítulos i y ii econometría aplicada a finanzasCapítulos i y ii econometría aplicada a finanzas
Capítulos i y ii econometría aplicada a finanzas
 
Julio bolivar asig. 2.a - met. cuant.
Julio bolivar   asig. 2.a - met. cuant.Julio bolivar   asig. 2.a - met. cuant.
Julio bolivar asig. 2.a - met. cuant.
 
CONCEPTOS DE PROGRAMACION.docx
CONCEPTOS DE PROGRAMACION.docxCONCEPTOS DE PROGRAMACION.docx
CONCEPTOS DE PROGRAMACION.docx
 
Datos panel
Datos panelDatos panel
Datos panel
 
Econometria1
Econometria1Econometria1
Econometria1
 
Estadistica
EstadisticaEstadistica
Estadistica
 

Más de Rafael Bustamante Romaní (6)

Apuntes de clase matlab.abril2019
Apuntes de clase  matlab.abril2019Apuntes de clase  matlab.abril2019
Apuntes de clase matlab.abril2019
 
Microeconomia iii
Microeconomia iiiMicroeconomia iii
Microeconomia iii
 
6 to econometria_ii
6 to econometria_ii6 to econometria_ii
6 to econometria_ii
 
5 to econometria_i-rafaelbustamante1
5 to econometria_i-rafaelbustamante15 to econometria_i-rafaelbustamante1
5 to econometria_i-rafaelbustamante1
 
Bayes gauss
Bayes gaussBayes gauss
Bayes gauss
 
Eviews forecasting
Eviews forecastingEviews forecasting
Eviews forecasting
 

Último

mercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdfmercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdfGegdielJose1
 
El cheque 1 y sus tipos de cheque.pptx
El cheque  1 y sus tipos de  cheque.pptxEl cheque  1 y sus tipos de  cheque.pptx
El cheque 1 y sus tipos de cheque.pptxNathaliTAndradeS
 
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdfQUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdflupismdo
 
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.ManfredNolte
 
Análisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en UruguayAnálisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en UruguayEXANTE
 
Politicas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptxPoliticas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptxvladisse
 
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICOlupismdo
 
canasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptxcanasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptxarmandoantoniomartin1
 
PRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.docPRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.docmilumenko
 
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPTMETODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPTrodrigolozanoortiz
 
puntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdfpuntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdfosoriojuanpablo114
 
ejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulosejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulosguillencuevaadrianal
 
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOSTEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOSreyjuancarlosjose
 
Principios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdfPrincipios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdfauxcompras5
 
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdfMANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdflupismdo
 
Sistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacionSistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacionPedroSalasSantiago
 

Último (17)

mercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdfmercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
 
El cheque 1 y sus tipos de cheque.pptx
El cheque  1 y sus tipos de  cheque.pptxEl cheque  1 y sus tipos de  cheque.pptx
El cheque 1 y sus tipos de cheque.pptx
 
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdfQUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
 
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.
 
Análisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en UruguayAnálisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en Uruguay
 
Politicas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptxPoliticas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptx
 
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
 
canasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptxcanasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptx
 
PRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.docPRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
 
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPTMETODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
 
puntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdfpuntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdf
 
ejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulosejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulos
 
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOSTEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
 
Mercado Eléctrico de Ecuador y España.pdf
Mercado Eléctrico de Ecuador y España.pdfMercado Eléctrico de Ecuador y España.pdf
Mercado Eléctrico de Ecuador y España.pdf
 
Principios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdfPrincipios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdf
 
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdfMANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
 
Sistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacionSistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacion
 

Apuntes de-clase-n15.bustamante panel data

  • 1. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Serie Apuntes de Clase N° 15 Octubre del 2017 ECONOMETRIA DE DATOS DE PANEL CON APLICACIONES EN STATA 14 UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMÉRICA) FACULTAD DE CIENCIAS ECONÓMICAS ESCUELA ACADÉMICO PROFESIONAL DE ECONOMÍA Rafael Bustamante Romaní
  • 2. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM La Serie Apuntes de Clase tiene por objetivo difundir los materiales de enseñanza generados por los docentes que tienen a su cargo el desarrollo de las asignaturas que forman parte del Plan de Estudios de la Escuela Académico-Profesional de Economía de la Facultad de Ciencias Económicas de la Universidad Nacional Mayor de San Marcos. Estos documentos buscan proporcionar a los estudiantes la explicación de algunos temas específicos que son abordados en su formación universitaria.
  • 3. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Escuela Académico Profesional de Economía. Facultad de Ciencias Económicas. Universidad Nacional Mayor de San Marcos. Calle Germán Amézaga N° 375. Ciudad Universitaria, Lima 1. Perú. Teléfono 619-7000. Anexo 2208. eapeco@unmsm.edu.pe http://economia.unmsm.edu.pe/escuela/econ.htm
  • 4. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de Datos de Panel: aplicaciones en Stata 14 Rafael Bustamante El aumento de bases de datos, junto con el progreso en las técnicas econométricas, ha facilitado el perfeccionamiento de estudios cada vez más sofisticados de los fenómenos económicos, permitiendo asesorar más acertadamente a los responsables de la elaboración de las políticas públicas y a los hombres de negocios. Sin embargo, estas herramientas se han tornado cada vez más complejas, demandando un alto grado de conocimiento teórico y práctico para poder implementarlas. La metodología de Datos de Panel es una de las más usadas en los últimos tiempos en el ámbito de la economía, las finanzas y los negocios. Su riqueza radica en que permite trabajar simultáneamente varios periodos de tiempo y los efectos individuales, y a su vez, tratar el problema de la endogeneidad. A pesar de las ventajas de esta técnica, existen diversos obstáculos para su implementación, tanto metodológicos como operativos. Esta guía intenta ayudar a los alumnos, investigadores y profesionales que buscan llevar a cabo estudios utilizando Datos de Panel, ofreciendo una pauta para manejar y analizar datos, en forma conjunta con revisar sus fundamentos. Palabras Claves: Econometría de datos de Panel, especificaciones, Efectos Fijos, Efectos aleatorios Clasificación JEL: C2, C25  Doctorado en Economía con mención en los Recursos Naturales (c), Universidad Nacional Autónoma de México, estudios de Doctorado en Economía UNMSM, MBA Gerencial, CENTRUM Pontificia Universidad Católica del Perú. Maestría en Economía con mención en Finanzas, Universidad Nacional Mayor de San Marcos. B. Sc. Economía, UNMSM. Profesor Auxiliar del Departamento de Economía de la UNMSM. Investigador asociado al Instituto de Investigaciones FCE-UNMSM. Contacto: rbustamanter@unmsm.edu.pe
  • 5. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Contenido 1. Introducción .................................................................................................................................... 6 2. Metodología.................................................................................................................................... 9 3. Efectos Fijos versus efectos Aleatorios ......................................................................................... 22 4. Nuestro marco de análisis y los estimadores alternativos............................................................ 23 4.1 Estimador Within..................................................................................................................... 24 4.2 Estimador Between..................................................................................................................... 25 4.3 Estimador de mínimos cuadrados generalizados.................................................................... 26 4.4 Mínimos cuadrados generalizados factibles............................................................................... 28 6. Estimador usar .............................................................................................................................. 30 6.1 Efectos no observados ............................................................................................................ 30 6.2 Existe correlación entre los efectos no observados y los Regresores......................................... 31 7. Aplicaciones................................................................................................................................... 33 7.2 Análisis de datos panel de dos períodos..................................................................................... 36 7.2. Controlando la heterogeneidad dentro de un panel ............................................................. 40 7.2.1 Regresión agrupada (POOLED OLS)................................................................................. 40 7.2.2 Efectos Aleatorios (Random Effects)................................................................................ 40 7.2.3 Efectos Fijos (Fixed Effects).............................................................................................. 42 7.2.4 Autocorrelación............................................................................................................... 44 7.2.5 Heterocedasticidad .......................................................................................................... 46 7.3 Efectos fijos vs. Aleatorios...................................................................................................... 47 7.4 Efectos temporales (two-way fixed effects) ........................................................................... 48 8. Bibliografía .................................................................................................................................... 50
  • 6. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 6 1. Introducción Si se dispone de información de corte transversal para un conjunto de N individuos las ganancias de que se tienen de tener información sobre cada uno de los individuos para distintos períodos de tiempo se pueden expresar en: Primero es que logramos expandir el tamaño de nuestra base de datos, y, con esto, dispondremos de más grados de libertad. Segundo es el hecho de contar con información referida a varios individuos contribuye a reducir la colinealidad que es usual encontrar en un modelo de series de tiempo. Todo esto contribuye a incrementar la precisión de nuestros estimados; es decir, a reducir su varianza (Beltran & Castro, 2010). Un conjunto de datos panel (o longitudinales) consta de una serie temporal para cada miembro del corte transversal en el conjunto de datos. Como ejemplo, suponga que se tienen las variables de salario, educación, nivel de crédito, acceso a educación y experiencia de un grupo de individuos a los que se les hace seguimiento por varios años. De igual forma es posible recopilar información en unidades geográficas. Por ejemplos, datos de los gobiernos regionales de un país sobre impuestos, salarios, nivel de ejecución del gasto público, niveles de educación, entre otros. La característica principal de los datos panel, que los diferencian de las combinaciones de cortes transversales, es el hecho de que se da un seguimiento a las mismas unidades transversales ya sean individuos, países, regiones, entre otros, durante cierto período de tiempo (Software Shop, 2013). Como los datos de panel exigen la repetición de las mismas unidades con el tiempo, los conjuntos de estos datos, en particular de los individuos, hogares y empresas, son más difíciles de conseguir que en las combinaciones de corte transversales. La ventaja es que al tener las mismas unidades es posible controlar ciertas características inobservadas de individuos, empresas, países, bancos, etc. Es decir es posible capturar inferencias causales que no es posible capturar con los cortes transversales. La segunda ventaja de los datos panel es que permite estudiar la importancia de los rezagos en el comportamiento o el resultado de tomar una decisión. Esta información
  • 7. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 7 puede ser significativa, puesto que es de esperar que muchas políticas económicas tengan efecto sólo al paso del tiempo. La idea de los panel es poder capturar esos factores inobservables, por ejemplo, lo que influye en el salario de un individuo en 1990 también influirá en el mismo individuo en 1991, ese factor inobservable puede ser la capacidad o habilidades. Ahora bien, si además explotamos el hecho de que estamos observando cómo cambia el comportamiento de cada individuo a lo largo del tiempo, estaremos en capacidad de construir y validar hipótesis más complejas. Al respecto, recordemos que en el análisis de regresión nuestros esfuerzos por aislar el efecto de determinada variable sobre otra dependen de cómo estas varían a lo largo de la muestra consideradas. Si disponemos de una muestra de corte transversal y queremos medir el impacto de determinada característica, lo que haremos es comparar la respuesta de un individuo que tiene la característica con la respuesta de otro que no la tiene. Si la muestra es de series de tiempo, lo que haremos es comparar la respuesta de un mismo individuo antes y después de exhibir la característica (Beltran & Castro,2010). Puesta de esta manera, nuestra técnica puede ser duramente criticada: muchos otros elementos que influyen sobre la respuesta pueden ser distintos entre un agente y otro, o haber cambiado a lo largo del tiempo y nosotros, erróneamente, se los estamos atribuyendo a la variable de interés. La ausencia de experimentación controlada está conspirando contra la posibilidad de aislar los efectos de una variable de interés. Frente a esto, y utilizando regresiones particionadas, podríamos responder que para eso están los controles y que por eso hay un conjunto amplio de determinantes incluidos en nuestra regresión. Sabemos, no obstante, que difícilmente podremos informar de todos los determinantes y que, sobre todo cuando hablamos del comportamiento de agentes individuales, el riesgo de que el fenómeno en estudio dependa de variables no observables es alto. Si disponemos de una base de datos de panel, en lugar de indagar si determinado agente está mejor que su vecino o mejor que en el pasado, lo que podemos hacer es preguntar qué tan distinta es la
  • 8. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 8 mejora experimentada por el agente respecto a la mejora experimentada por su vecino. Es decir, en lugar de evaluar:  i jy y (corte transversal) o  t sy y (Serie de tiempo), los datos de panel nos posibilita comparar    it is jt jsy y y y   o, más específicamente, _ _ it i jt jy y y y               . En la expresión anterior _ iy y _ jy refieren a los promedios de la variable dependiente tomados sobre las T observaciones en el tiempo para el i-ésimo y j-ésimo agente, respectivamente. Esta suerte de "diferencia en diferencia" solo es posible si tenemos datos que varían tanto a través del espacio como a lo largo del tiempo y nos permitiría, en principio, limpiar aquellos efectos que influyen sobre el fenómeno bajo análisis y no tienen que ver con la característica que se busca evaluar (Beltran & Castro, 2010). Con respecto a esto y a la presencia de variables no observables, sabemos que la omisión de una variable relevante conlleva la lidiar con la presencia de estimadores sesgados. Para muestras grandes esto no debería ser un problema, excepto cuando esta omisión ocasiona también un problema de no consistencia en nuestro estimador. Antes de preocuparnos por la estructura de varianzas-covarianzas del error, debemos analizar la posible presencia un regresor estocástico. Y por "regresor estocástico" no solamente hacemos referencia a aquellos que se determinan de manera simultánea con la variable dependiente como es el caso de un sistema de ecuaciones simultáneas, sino que hacemos referencia a aquellos regresores que se encuentran correlacionados contemporáneamente con el término de error a través de la relación que tienen con las variables no observables omitidas en el modelo. La omisión de una variable puede conducir a la obtención de estimadores no consistentes y esto se debe, precisamente, a que esta variable no observable omitida, está usualmente correlacionada de manera contemporánea con los regresores incluidos en el modelo. Esto trae como consecuencia la correlación contemporánea entre el regresor y el término de error, lo que ocasiona que el estimador de mínimos cuadrados no converja en probabilidad al verdadero parámetro (Beltran & Castro, 2010).
  • 9. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 9 Ante la sospecha de que estamos frente a una situación como esta, el camino "clásico" pasa por la búsqueda de variables instrumentales y la construcción del estimador respectivo, con el consabido costo en términos de pérdida de información y precisión. Una base de datos con estructura de panel, sin embargo, nos ofrece un camino alternativo que implica, precisamente, trabajar con los desvíos presentados líneas arriba. Si bien esto será discutido formalmente en las secciones siguientes, no es difícil darse cuenta de que al trabajar con un desvío como _ .i jy y       se le está removiendo a cada observación del i-ésimo agente cualquier efecto no observable que se mantenga constante en el tiempo; es decir, cualquier característica especial que este agente tiene y que no es posible capturar a partir del conjunto de regresores propuesto. Al tener observaciones que varían tanto a lo largo del tiempo como a través del espacio, es posible evaluar diferencias entre las diferencias de comportamiento, lo que permite "limpiar" las observaciones de efectos difíciles de capturar que, de otro modo, hubiesen resultado en estimados inexactos incluso en muestras grandes(Beltran & Castro, 2010).. 2. Metodología El objetivo de esta sección es familiarizar al lector con la estructura de la base de datos así como con el álgebra matricial asociada a la construcción de los distintos estimadores. Aquí se muestra un aspecto de la generalización del álgebra de mínimos cuadrados ordinarios aplicada a un contexto en el que se dispone de información que varía tanto a través del espacio como a lo largo del tiempo (Beltran & Castro, 2010). Al respecto se sugiere, la generalización que aquí discutimos se refiere al rol del intercepto. Si disponemos de información que varía solo en una dimensión (y en ausencia de un problema de quiebre estructural), solo tiene sentido "desviar" o "controlar" con respecto a un promedio: aquel tomado usando toda la información disponible, ya sea a lo largo del
  • 10. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 10 tiempo o a través del espacio. Conviene recordar que estos desvíos respecto a la media son provistos, precisamente, por el intercepto1 . Así, es fácil darnos cuenta de qué está detrás de la recomendación general de incluir siempre un intercepto en el modelo: recomendar la inclusión de un intercepto equivale a remover la influencia de la media muestral. Sobre el fenómeno bajo análisis. Dicho de otra forma, en un modelo con intercepto la pendiente (o "beta") asociada al i-ésimo regresor nos indicará cuánto cambia la variable dependiente respecto a su valor medio por cada unidad que el regresar se desvíe con respecto a su valor medio. En el contexto de un panel de datos, la información presenta variabilidad en ambas dimensiones. Por lo mismo, será necesario decidir con respecto a qué media controlar: (i) la media de todas las observaciones; (ii) la media tomada a lo largo del tiempo, de cada uno de los N agentes; (iii) la media tomada a través del espacio de cada uno de T momentos del tiempo. En lo que sigue, se discute esto formalmente sin perder de vista una interpretación intuitiva basada en el rol que tiene el intercepto. Antes de proceder a la formalización del modelo, veamos algunas definiciones de los datos de panel:  Panel Data es mezclar información de corte transversal e información temporal. Como en el corte transversal, se recoge información de individuos y se observa cada individuo, como en el análisis de series de tiempo, a través del tiempo. Esto permite estudiar los efectos dinámicos y de comportamiento individual de los problemas.  Son observaciones repetidas sobre el mismo conjunto de unidades de sección cruzada o dicho de otra forma se tiene el mismo número de observaciones en cada unidad de sección cruzada es decir es una mezcla de ambas en la cual se recoge información 1 El lector recordará la clásica demostración donde se verifica que las pendientes en un modelo con intercepto son idénticas a las que se obtendrían si antes desviamos (o restamos) cada dato de su media o promedio muestra! De hecho, este es un caso particular del resultado de una regresión particionada.
  • 11. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 11 entre individuos y se observa cada individuo como el análisis de series de tiempo, a través del tiempo.  En los paneles microeconómicos, el investigador está interesado en analizar como varía el comportamiento de los agentes económicos individuales frente a cuestiones como sus hábitos de consumo, su situación laboral, su nivel de estudios, etc. Estas son decisiones que dependerán de una lista de características socioeconómicas que el analista debe especificar como variables explicativas del modelo. Sin embargo no todos los agentes toman sus decisiones de igual modo: diferentes agentes, incluso si comparten las mismas características observables, toman decisiones distintas. Ello obliga a contemplar la existencia de efectos no observables, específicos de cada agente encuestado, generalmente constantes en el tiempo, que inciden sobre el modo en que este toma sus decisiones. Si estos efectos latentes existen y no se recogen explícitamente en el modelo, se producirá un problema de variables omitidas: los coeficientes estimados de las variables explicativas incluidas estarán sesgados, por recoger parcialmente los efectos individuales no observables (Greene, Análisis Econométrico, 1999) Para entender mejor esta metodología veamos algunos aspectos matriciales. 1 2 1 1, 2,3,.. . . .., . i i i iT TX Y Y Para todo t Y TY                      (1)
  • 12. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 12 1 2 1 1 1 1 1 1 2 1 2 2 2 2 1 2 1 1 1 1 1 1 2 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . K k i i i i K K i i i i i K K iT iT iT iT K K iT iT iT iT TxK X X X X X X X X X X X X X X X X X                                (2) Además los errores del modelo y la variable explicativa se expresan: 1 1 2 2 1 1 1 1 . . :. . . . i i i iT N iT NTX NTX Ademas                                                          1 2 1 1 . . . N N NTX Y Y Y Y Y                         (3) 1 2 1 1, 2, 3, 1, 2, 3, ....., . . . N N NTXK t T i X N X X X X                           (4) El modelo totalmente apilado es: Y=X +  (5) jitX : Es el valor Jth de una variable explicativa i. Para todo t = 0 1, 2,3,.... T. Si existen K variables explicativas el vector de variables explicativas se puede denotar como:
  • 13. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 13 1 2 1 . . . K K                              En base a lo anotado podemos afirmar que metodología de datos de panel lo que hace es utilizar procedimientos adecuados para el manejo de las observaciones con una dimensión de sección cruzada grande, con el objeto de estimar modelos econométricos que incluyan entre las variables explicativas los efectos individuales no observables. El disponer de un número reducido, T, de observaciones de cada uno de los N individuos de la muestra, podría pensarse en estimar un modelo econométrico con cada una de las T secciones cruzadas para luego comparar la evolución de los coeficientes del modelo a lo largo del tiempo. Las ventajas de modelos econométricos con información en panel, son las siguientes (Greene, Análisis Econométrico, 1999):  Se dispone de un gran número de datos (a través de individuos y a través del tiempo). Por esta razón aumentan los grados de libertad y, al utilizar las diferencias individuales en los valores de las variables explicativas, se reduce la colinealidad entre las variables explicativas, mejorando de esta forma la eficiencia de los estimadores.  Evita los sesgos de agregación con datos macroeconómicos.  En general, es posible obtener estimaciones consistentes para N y T fijo. No obstante, dada la creciente existencia de bases de datos longitudinales con períodos
  • 14. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 14 muéstrales prolongados, existen trabajos recientes en que se consideran propiedades asintóticas para N  y T .  La disponibilidad de datos longitudinales permite a los investigadores analizar una variedad de importantes interrogantes económicas, que no se pueden analizar utilizando solo información de corte transversal o sólo información de series de tiempo.  Permite construir y testear modelos de comportamiento más sofisticados que los modelos econométricos estándar de series de tiempo o de corte transversal.  Proporciona un método para resolver o reducir la magnitud de un problema econométrico clave que siempre surge en los trabajos empíricos: siempre se señala que la verdadera razón de porque se encuentra (o no se encuentran) ciertos efectos es producto de la omisión de variables- debido a problemas de medición o porque ciertas variables no son observadas – que están correlacionadas con las variables explicativas.  Permite estudiar de una mejor manera la dinámica de los procesos de ajuste. Esto es fundamentalmente cierto en estudios sobre el grado de duración y permanencia de ciertos niveles de condición económica (desempleo, pobreza, riqueza).  Permite elaborar y probar modelos relativamente complejos de comportamiento en comparación con los análisis de series de tiempo y de corte transversal. Un ejemplo claro de este tipo de modelos, son los que se refieren a los que tratan de medir niveles de eficiencia técnica por parte de unidades económicas individuales (empresas, bancos, etc.) (Beltrán, 2003).  Permite al investigador mucha más flexibilidad para modelizar las diferencias de comportamientos entre los individuos. Tal y como se mencionó anteriormente, la técnica
  • 15. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 15 permite capturar la heterogeneidad no observable ya sea entre unidades individuales de estudio como en el tiempo. Con base en lo anterior, la técnica permite aplicar una serie de pruebas de hipótesis para confirmar o rechazar dicha heterogeneidad y cómo capturarla. Entre las desventajas del uso de los datos de panel se cuentan:  Sesgo de heterogeneidad: Muchos paneles de datos provienen de procesos muy complicados que exigen el comportamiento diario. Cuando se analiza series de corte transversal el supuesto típico es que una variable económica ty es generada por una distribución de probabilidad paramétrica del tipo  /f y  , donde   es un vector real de dimensión k “idéntico para todos los individuos en todo instante de tiempo”. Este supuesto puede no ser realista en el caso de datos de panel; es más ignorar la heterogeneidad en los intercepto y/o en las pendientes es una que puede ser errada.  Sesgo de selección: Otra fuente de sesgo que se encuentra con frecuencia en datos de corte transversal y de paneles de datos es que la muestra puede no haber sido extraída de manera aleatoria de una población lo cual es poco frecuente en series de tiempo. Como consecuencia de ello se puede tener (de Arce & Mahía, 2007):  Amplificación del efecto de errores de medida asociados a datos de encuestas.  Falta de representatividad de la muestra debido a:  Desgaste muestral  No aleatoriedad de las observaciones Ejemplos de este tipo de limitaciones se encuentran en: La cobertura de la población de interés, porcentajes de respuesta, preguntas confusas, distorsión deliberada de las respuestas, etc.
  • 16. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 16 ' 1,2,... ; 1,2,... it it it itY X U i N t T     (6) Donde ,i t mide el efecto marginal de itx (es decir, el efecto marginal de las variables x en el momento t para la i-ésima unidad). Este modelo es general y es necesario imponer cierta estructura en los coeficientes; es decir, es necesario suponer que los agentes en cuestión responden a un patrón de comportamiento generalizable a lo largo del tiempo y/o a través del espacio. El supuesto estándar es que ,i t es constante para todo i y t, deja abierta la posibilidad de que haya un intercepto distinto para cada agente  i . Esto implica dejar abierta la posibilidad de que cada agente tenga un "comportamiento promedio" distinto respecto del cual conviene controlar. Atendiendo a lo anterior si re especifiquemos nuestro modelo de la siguiente manera (Barco & Castro, 2010): ' 11 1 12 1 21 ( 1) ( ) ( ) 2 1 0 0 1 0 0 . . . . . . . . . . . . 0 1 0 0 1 0 . ;D ;. . . . . . . . . . . 0 1 . . . 0 . . . . . . . . . . . . 0 0 1 T NTx NTxN NTxK T NT y x y y y y X y y                                                                                                 111 ' 1212 ' 11 ' 2121 ( 1) ' 22 ' .. .. .. ;u . ;. .. .. .. .. .. TT NTx TT NTNT u ux ux ux ux ux                                                                                               (7) De la expresión anterior, es la matriz D la que nos permitirá acomodar la presencia de hasta N interceptas distintos. Observar que esta matriz puede expresarse como: N rD I i  ; donde NI es una matriz identidad de N x N, mientras que ir se refiere a un vector unitario de Tx1. Con esto, podemos expresar el modelo en términos matriciales de fa siguiente forma: y D X u    (8)
  • 17. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 17 Donde  y  son los vectores que contienen los N interceptas y k pendientes, respectivamente. Para hallar las expresiones asociadas al estimador mínimo cuadrático de estos interceptos y pendientes, basta con recordar lo que sabemos sobre el rol del intercepto y el modelo en desviaciones: desviemos cada observación respecto de la media de cada agente tomada sobre el tiempo, construyamos el estimador minimocuadrático de las pendientes y utilicemos este último para hallar los N interceptos. Para el i-ésimo agente, la media tomada sobre el tiempo T de la variable dependiente viene dada por   1 1/ T it t T y   . Lo mismo aplica para el término de error y las variables explicativas. Denotemos estas medias como, _ _ _ ..., , iiiy u X respectivamente. Así, el modelo en desviaciones y los respectivos estimadores pueden expresarse de la siguiente manera (Barco & Castro, 2010): ' '_ _ _ . .. _ _ _ ' . . 1 _ _ ' . . '_ _ , .. ( ) ( )( ) it i it it i iii i iit it iti i iWithin it it it i Within i Withini y x u y x u y y x x u u x x x x y x                                   (9) Nótese que hemos llamado Within a este estimador minimocuadrático de un modelo desviado respecto a la media de cada agente. El término Within (o "intra", en castellano) responde, precisamente, a que estamos explotando la variabilidad intraagente. Estamos interesados en estimar cuánto cambia el comportamiento del agente respecto de su comportamiento promedio, cuando alguno de los factores que lo explican ( )x , se desvía en una unidad, respecto de lo que en promedio le ocurre al agente en cuestión. Al hacerlo, estamos reconociendo que cada agente puede registrar un comportamiento promedio distinto al del resto (Beltran &Castro,2010). Pensemos ahora en términos de todas las observaciones y en la transformación matricial requerida para desviar cada dato correspondiente al i-ésimo agente de su respectiva media.
  • 18. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 18 Para esto, empecemos por darnos cuenta de que es necesario calcular N promedios, y que un arreglo matricial como el siguiente es capaz de devolvernos los N promedios que necesitamos. 1. 1. 1 2. 2. N. 1 . . . 1 . . . . .. . .1 1 0 .. tal que y. . 0 1 . . . 1 . . . . . . . . . 1 . . . 1 NTxNT NTx y y P P y y y                                                                                      (10) La matriz P puede ser expresada de manera más compacta, y basta con restarla de la matriz identidad para encontrar la matriz de transformación que desvía cada dato de su respectivamente. Denotemos esta matriz como Q. '1 N T T NT P I i i T Q I P       (11) Este par de matrices juega un papel muy importante en el momento de construir los estimadores alternativos que preliminarmente podemos identificarlos como proyectores o, "hacedor de estimados" (o "hacedor de medias") y "hacedor de los residuos" (o "hacedor de desviaciones"), respectivamente. Como ocurre con todos los proyector mínimo cuadráticos, el lector puede verificar rápidamente que estas dos matrices son simétricas e idempotentes. Con esto, es posible expresar (9.) de manera más compacta como:
  • 19. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 19 ' 1 ' 1 = = (I i ) Qy = Q(I i ) Q Q = Q Q =(XQQX) XQQy =(XQX) XQy N T N T Within y D X u X u X u X u                     (12) Ahora bien, si recordamos el resultado asociado al modelo en desviaciones, notaremos que el resultado anterior debería ser equivalente al que obtendríamos si incluimos un intercepto distinto para cada agente. Formalmente2 : ' 1 ' ' ' = =(X M X) X M y M ( ) Within D D D NT y D X u I D D D D          (13) Las expresiones dadas en (12.) y (13.) no implican que se tenga dos maneras distintas de expresar Within  sino, más bien, implican que 3 MD Q . Equivale a nuestra generalización del resultado del modelo en desviaciones: estimar una regresión por mínimos cuadrados ordinarios con un intercepto distinto para cada agente (resultado dado en [9.]). Equivale a estimar una regresión con observaciones desviadas respecto del valor medio correspondiente al agente en cuestión (resultado dado en [11.]). Hasta ahora, nuestra discusión se ha centrado en la segunda de las tres opciones presentadas al inicio del acá pite cuando nos referíamos a que en un panel de datos hay tres medias distintas que pueden servir como controles. ¿Es posible realizar un análisis similar trabajando con la media (tomada a través del espacio) de cada uno de los T momentos del tiempo? ¿Respecto de qué estaremos controlando en este caso? Empezamos a responder estas preguntas planteando la posibilidad de que exista un intercepto distinto para cada momento del tiempo. Definamos, para esto, como v.1 a la media tomada sobre el espacio de la variable dependiente del t-ésimo momento . 1 (1/ ) N itt i y N y    . 2 Esta expresión muestra de manera explícita cómo este acápite es una aplicación del resultado de regresión particionada. Si partimos de un modelo general y X u  y particionamos la matriz X en dos subconjuntos de regresares de la forma, es posible demostrar que las pendientes estimadas del segundo grupo de regresores vienen dadas por: ' 1 ' 2 1 2 2 1(X M X ) X M y    , donde ' 1 ' 1 1 1 1 1( )M I X X X X   3 Esta igualdad se puede verificar fácilmente trabajando con las propiedades del producto Kronecker)
  • 20. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 20 ' '_ _ _ .t .t.t _ _ _ ' .t .t.t 1 _ _ ' .t .t '_ _ .tt, .t ( ) ( )( ) it t it it t it it it Within it it it Within Within y x u y x u y y x x u u x x x x y x                                   (14) Nótese que también hemos llamado Within a este estimador. De hecho, le corresponde el término "intra", solo que esta vez lo que buscamos es explotar la variabilidad intratemporal. Nuestro interés recae en conocer cuánto cambia el comportamiento del agente respecto del comportamiento promedio del grupo, cuando alguno de los factores que lo explican ( )it x experimenta un desvío (de una unidad) respecto del valor medio del grupo. Al hacerlo, estamos reconociendo que en cada momento del tiempo el grupo puede registrar un promedio distinto. En suma, los múltiples interceptos por agente nos permiten capturar qué tan distinta es la respuesta de un agente respecto de su respuesta promedio, y comparar esto entre agentes para un mismo momento del tiempo. Los múltiples interceptas de tiempo, por su parte, nos permiten capturar qué tan distinta es la respuesta de un agente respecto de la respuesta promedio del grupo, y comparar esto entre momentos del tiempo para un mismo agente. En ambos casos se trata de una comparación de diferencias; de ahí la "doble diferencia" a la que se hace referencia en el acápite introductorio. La generalización de (14.) requiere introducir matrices de intercepto y desvíos distintas, a las que llamaremos yD Q , respectivamente. Formalmente (Barco & Castro, 2010): ' ' ' 1 1 1 = y = = =(X X) X y =(X X) X y N T NT N N T Within D i I Q I i i I N y D X u Q Q D Q X Qu Q X Qu Q Q Q Q Q Q                      (15)
  • 21. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 21 Ahora solo nos queda una de las opciones pendiente: la media de todas las observaciones. Como se verá a continuación, es necesario introducir esta media "total" si es que se desea trabajar con interceptas distintos para agente y tiempo, simultáneamente. Partamos de una especificación general: ' it i t it ity x u      (16) Y démonos cuenta de que al remover (o desviar respecto de) las medias por agente y tiempo, todavía están presentes los valores promedio de estos interceptas. Formalmente: '_ _ _ . .. '_ _ _ .t .t.t '_ _ _ _ _ _ _ _ . . . .t. .t (1/ ) (1/ N) ( ) i ii ti i t i t iit it iti Ty x u y x u y y y x x x u u u                                    (17) Donde:       __ __ 1 1 ,t i it itNT NT ;. Esto último implica que es posible eliminar estos términos constantes (para proceder con la estimación de las pendientes) si sumamos el promedio total a la expresión dada en (17.). Este promedio total viene dado por: _ _ y x u          '_ _ _ _ _ _ _ _ . . . .t. .t ( ) i t iit it itiy y y y x x x x u u u u                         Al regresionar _ _ . .tit iy y y y          sobre _ _ . .i titx x x x          obtenemos Whitin y, con esto, es posible hallar los estimadores de los efectos individuales y temporales:
  • 22. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 22 _ _ , .. _ _ .tt, .t i Within iWithini Within Within y y x x y y x x                                           (18) Por último, el lector puede verificar que la transformación asociada pasa por pre multiplicar el modelo por la matriz Q, la cual viene dada por: ' '1 1 1 NT N T T N N TQ I I i i i i I J T N NT              (19) Donde J es una matriz unitaria de (NT x NT). 3. Efectos Fijos versus efectos Aleatorios A partir de lo expuesto el problema radica en la estimación de N o T (o si se desea de NT) interceptos distintos. Esto envolvería suponer que i ;  t o son un conjunto considerable de parámetros desconocidos. Pero que implica la estimación de un conjunto demasiado grande de parámetros. Concentrémonos en i ; y pensemos en un panel de datos con un número bastante grande de observaciones de corte transversal (N), como en el caso de un panel construido con encuestas de hogares realizada por los institutos de estadísticas de los países. Dada la marcada heterogeneidad a través del espacio, de hecho tiene más sentido suponer que los distintos valores de i ; son (al igual que la información contenida en x) la realización de un proceso estocástico subyacente. La distinción anterior es la que ha originado que, en algunos casos, se bosqueje una aparente dicotomía entre un "modelo de efectos fijos" y un "modelo de efectos aleatorios''. En el primero, se sugiere que los i ; son parámetros, mientras que en el segundo se trata a i ; como una variable aleatoria. Sin embargo esto puede acarrear a una interpretación errónea del rol de i , así como de los resultados de algunas de las pruebas que notaremos más adelante. Por lo mismo, aquí no haremos esta distinción y supondremos que i ; recoge efectos no observables, atribuibles al i-ésimo agente y que no varían en el tiempo. Esto no implica que más adelante no experimentemos saber más sobre la naturaleza de i , o que no hagamos referencia a los estimadores de efectos fijos y aleatorios. Nuestro interés sobre la naturaleza de i , no obstante, se centrará en determinar si está o no correlacionado con las variables explicativas del modelo. Nuestra distinción entre "efectos fijos y "efectos aleatorios", por su parte, se referirá a la técnica de estimación por emplear y no a la naturaleza de i .
  • 23. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 23 No es difícil suponer que en el momento de modelar las decisiones individuales de un grupo amplio de agentes, las respuestas dependan de un conjunto también amplio de factores, muchos de ellos no observables4 En un modelo de corte transversal no queda más que dejar que esta heterogeneidad no observable sea capturada por el error, y confiar en que no esté correlacionada contemporáneamente con alguno de los regresores incluidos5 . El panel, sin embargo, ofrece una alternativa distinta, ya que hace posible controlar por esta fuente de heterogeneidad no observable. En lo que sigue, formalizaremos nuestros supuestos sobre la naturaleza de la data partiendo de que i ; recoge esta heterogeneidad que no es observable pero que, sin duda, afecta las decisiones de los agentes bajo análisis(Barco & Castro, 2010): . 4. Nuestro marco de análisis y los estimadores alternativos En las páginas que siguen empezaremos planteando un conjunto de supuestos sobre el proceso generador de datos, para luego analizar las propiedades de distintos estimadores con el objetivo de determinar cuál de ellos es el más apropiado. Como siempre, las propiedades que privilegiaremos serán el insesgamiento y eficiencia, para muestras pequeñas; y la consistencia para muestras grandes. De acuerdo con nuestra discusión anterior, supongamos que la información contenida en nuestro panel de datos puede representarse de la siguiente manera(Barco & Castro, 2010): : ' 2 2 . . (0, ) . . (0, ) it it it it i it i it u y x v v u i i d u i i d             (20) 4 Factores como la "habilidad" o la "motivación" son sin duda determinantes de variables como la decisión de matricularse en la educación superior o del salario por hora, pero difícilmente observables. 5 Tal como se discutió en el acápite introductorio, esta correlación contemporánea llevaría a que el estimador mínimo cuadrático deje de exhibir la propiedad de consistencia. Una alternativa para esto es el uso del estimador de variables instrumentales, con la subsecuente pérdida de información que su uso implica.
  • 24. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 24 Es decir, supongamos que el error asociado a la observación del i-ésimo agente en el t-ésimo momento del tiempo está compuesto de dos partes: un término que no varía a lo largo del tiempo y recoge la heterogeneidad no observable atribuible al i-ésimo agente  i , que se distribuye de manera idéntica e independiente con media igual a cero y varianza igual a 2  , y un término que registra realizaciones distintas tanto a lo largo del tiempo como a través del espacio  itu que distribuye de manera idéntica e independiente con media igual a cero y varianza igual a 2 u . La forma compuesta que hemos supuesto para el error implica que, si bien este es homocedástico, exhibe correlación serial cuando se trata de un mismo agente. Formalmente: 2 2 2 ( ) Cov( , ) t s it u it is Var v v v           (21) También podemos expresar el modelo y su estructura de varianzas y covarianzas del error en términos matriciales   ' ' ' 2 2 ' 2 2 ; W= , ( ) NT u NT N T T u NT y W v i X W vv I I i i I TP                          (22) 4.1 Estimador Within Este estimador ya fue presentado anteriormente y, como sabemos, implica transformar el modelo premultiplicándolo por el proyector. A diferencia de lo indicado en (14.), aquí estamos asumiendo que solo existe un intercepto común   por estimar y que el término a; corresponde al error. Nótese que, en términos prácticos, no existe ninguna diferencia en la expresión asociada a la estimación de las pendientes. Como ya es usual, expresamos el estimador tanto en términos matriciales (Barco & Castro, 2010): :     ' 1 ' ( )Whitin W QW W Qy (23) Lo que equivale a regresionar: ' ' ' 1 _ _ _ _ ' ' . . . . '= t, ( )( ) ( )(y ) it it i it iit it i it i i i iWithin it it it it i it it Within Within y x u y x x u u x x x x x x y y x                                            (24)
  • 25. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 25 En este punto cabe destacar la forma que adopta el error del modelo transformado. Al remover de cada observación la media correspondiente al agente en cuestión (haciendo uso del proyector Q ), el nuevo término de error, al que denominamos v resulta:      _ _ . .v v vit i iit it (25) El nuevo término de error está "libre" de la heterogeneidad no observable asociada al agente. Este resultado es clave para garantizar una propiedad importante del estimador, tal como será discutido más adelante. Por lo pronto, démonos cuenta de que este nuevo error tampoco exhibe una matriz de varianzas-covarianzas escalar debido a la existencia de correlación serial entre errores correspondientes a un mismo agente. Formalmente:                                         _ 2 2 2 2 2 . _ _ 2 2 2 . . 1 (v ) (u u ) (2 / T) (1/ ) (v ,v ) (u u ) (u u ) (2 / ) (1/ ) (1/ ) it it i u u u u it is it i st i u u u T Var E T T Cov E T T T (26) O de manera compacta:         ' ' 2 2 2 ( vv ) (QvvQ) Q u NT u E E I TP Q Q (27) Al igual que el estimador mínimo cuadrático, el estimador Within es insesgado. El resultado dado en (27.) (y, en particular, la existencia de correlación serial en los errores) implica que el estimador Within no es eficiente, excepto si  2 0u o T tiende a infinito   T . 4.2 Estimador Between Así como existe un estimador Within que aprovecha la variabilidad intraagentes, es posible construir un estimador Between que tome en cuenta la variabilidad interagentes. Para esto basta con tomar los promedios para cada agente y utilizar esta información como si se tratase de una base de datos .de corte transversal. Como sabemos, estos promedios son tomados por el proyector P, por lo que:    ' -1 ' (WPW) WQyBetween Lo que equivale a regresionar
  • 26. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 26 '_ _ _ .. 1 _ _ _ _ ' ' . . . . '= ( )( ) ( )( ) Between Between it iii i i iBetween i i i y x u x x x x x x y y y x                                  Al igual que sus predecesores (y siempre y cuando el error sea independiente en media de los regresores: (v/ ) 0E X el estimador Between es insesgado. Asimismo, tampoco es eficiente. De hecho, el término de error del modelo transformado    _ _ it .v ii también exhibe Jt I r correlación.                  2 _ _ _ __ 2 2 it isit 1 Var(v) (v ,v ) ii u u Cov E u T O, en términos más compactos:            _ _ ' 2 2 2 2 ( vv ) E(PvvP) P ( )Pu NT u E I TP P 4.3 Estimador de mínimos cuadrados generalizados Ninguno de los tres estimadores presentados anteriormente es eficiente. Para garantizar esto, es preciso transformar el modelo de modo que el “nuevo” error exhiba una matriz de varianzas-covarianzas escalar. Ninguna de las tres transformaciones consideradas hasta ahora lo consigue5. Definamos como R a la matriz que transforma al modelo de modo que el nuevo error tenga una estructura de varianzas-covarianzas escalar. Esto implica que R debe ser tal que: ' 1 RR c    Donde c es un escalar positivo. Es posible demostrar que la forma de esta matriz viene dada por: 2 2 2 (1 )NT u u R I P Q P              Es decir que la transformación que garantiza un estimador eficiente es aquella que remueve de cada observación una proporción (1 ) de su media, donde es función de las varianzas
  • 27. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 27 de los dos componentes del error. De hecho, no es difícil demostrar que la estructura de varianzas-covarianzas del error transformado Rv es escalar: ' ' 2 2 2 2 ( ) ( ) ( )u NT u uE RVV R Q I TP Q P Q P I                  Lo anterior garantiza que el estimador asociado sea eficiente, y, por lo mismo, pertenece a la clase de estimadores de mínimos cuadrados generalizados (MCG). ' 1 ' 1 1 1 ( ) ( )MCG WR RW WR Ry W W W y          Lo que equivale a regresionar _ .(1 )it iy y  sobre una constante y _ .(1 ) iitx x  1 _ _ _ _ . . . .(x (1 )x )(x (1 )x ) (x (1 )x )(y (1 ) )i i iMCG it it it it i it it x x x y y                                  De manera compacta podemos escribirlo: ' '_ _ _ _ ' 2 ' 2 . . . . ' x x xi i iMCG i i i MCG MCG X QX x x X QX x y y y x                                                      La expresión anterior nos sugiere que el estimador MCG combina la información contenida en los estimadores6 within y Betwen No debe extrañarnos, por tanto, que se trate de un estimador eficiente, en la medida en que explota la variabilidad tanto intra como interagente. Tan o más interesante es verificar bajo qué condiciones especiales el estimador MCG coincide con el estimador Within o el mínimo cuadrático. Para el primer caso, recordemos bajo qué circunstancias es el estimador Within eficiente 2 0u  o cuando T tienda a infinito. En cualquier caso, desaparecería la correlación serial entre los errores del modelo 6 De hecho, es posible demostrar que el estimador MCG es un promedio ponderado de los estimadores Within y Between: (1 )B W         , donde: 1'_ _ 2 ' 1 i iXQX x x x x X QX                     
  • 28. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 28 transformado con el proyector. Es fácil verificar que, bajo cualquiera de estas dos situaciones, se cumple que MCG Betwen     7 . 2 2 2 2 , 0 0 0 / 0 R/ I u u u T NT P Q                  Regresemos ahora a la estructura de varianzas-covarianzas del error del modelo original (dada en (20.)) y notemos que esta matriz sería escalar (garantizando la· eficiencia de MICO  en caso cr/ =O.También es fácil verificar que, en este caso, se cumple que MCG MICO     · 2 2 2 2 0 1 / 1 R/ u u NT T I                4.4 Mínimos cuadrados generalizados factibles ¿Por qué no presentar únicamente al estimador eficiente? ¿Qué utilidad puede tener la discusión de los estimadores Whitin  y Betwen  La respuesta a esta pregunta tiene dos partes. En primer lugar, es necesario notar que para construir el proyector R es necesario conocer las varianzas de los dos componentes del error de nuestro modelo. En la práctica, esto difícilmente será posible, así que tendremos que utilizar un estimado de dichas varianzas. Es para la estimación de estas varianzas que 1os estimadores Whitin  y Betwen  nos pueden ser útiles. 7 Si 2 0u  , los efectos no observados son solo específicos del individuo, no hay generales, por lo que basta con corregir por la presencia de a; para eliminar el problema de autocorrelación que presenta el modelo original.
  • 29. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 29 En particular, es posible demostrar que la varianza estimada del error del modelo transformado con el proyector  itQ v es un estimador consistente de 2 u . Formalmente8 2_ _ ' .2 2. Pr (y y ) (x )iit it Whithini ob it v u x NT N K                  Tal como se muestra en la expresión anterior, nuestro estimador consistente de 2 u no es otra cosa que la suma de cuadrados residual de la estimación Within, corregida por el número apropiado de grados de libertad(Barco & Castro, 2010): . Por otro lado, la varianza estimada del error del modelo transformado con el proyector P ( )itv también nos provee información valiosa. De hecho, es posible demostrar que, conforme N tienda a infinito, dicha varianza converge en probabilidad a una suma ponderada de 2 u y 2  . Formalmente: 2 _ _ ' .. 2 2 2Pr (y y) ( ) 1 + 1 i Betweni it ob v u x x N K T                          Si combinamos los resultados indicados en (40.) y (41.), es posible construir estimados de 2  y 2 u , con esto, nuestro estimado de  y del proyector R. Esto configura lo que se conoce como "estimador de mínimos cuadrados generalizados factibles". En particular 2 v  , provee directamente un estimador consistente de 2 u , mientras que la resta 2 2 1 v v T      nos provee un estimador consistente de 2  . Formalmente: 2 2 Pr 21 ob v v T        9 8 Si 2 0  , directamente se elimina el problema de autocorrelación del modelo original por lo que MICO es el estimador eficiente. 9 Nótese que el resultado de esta resta podría ser negativo. En este caso, conviene reconsiderar el uso del estimador de efectos aleatorios.
  • 30. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 30 6. Estimador usar La discusión anterior revela que hay dos preguntas claves que deben ser resueltas antes de determinar cuál es el mejor estimador por utilizar. La primera pregunta está asociada a la idoneidad del marco de análisis propuesto. La segunda, por su parte, se refiere a la posibilidad de que exista correlación contemporánea entre los regresares y el término de error. 6.1 Efectos no observados Como se dijo, esta primera pregunta está relacionada con el marco de análisis propuesto y, en particular, con la estructura del término de error. Al respecto, nótese que la ausencia de efectos no observados específicos del individuo equivale a suponer que el error se comporta de la siguiente manera: it itv u . Dado que se asume que   0iE   , lo anterior equivale a decir que 2 0  .Para comprobar esta hipótesis se dispone del test de Breusch-Pagan, cuyo estadístico (LM) se construye sobre la base de los residuos mínimo cuadráticos (e) y, bajo la hipótesis nula, se distribuye chi-cuadrado con un grado de libertad. Formalmente:                                           2 0 2 2 2 _ . 1 1 21 2 2 1 1 1 1 : v ( 0) : v = LM= 1 1 (1) 2( 1) 2( 1) it it a it it i N T N it i i t i N T N T it it i t i t H u H u e T e NT NT T T e e (28) Si se rechaza la hipótesis nula, se concluye que la estructura supuesta para el error es la correcta y que, por lo mismo, se aplica el análisis desarrollado en el acápite anterior. Es decir, que es necesario construir el estimador de mínimos cuadrados generalizados si lo que se busca es un estimador eficiente.
  • 31. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 31 Si se acepta la hipótesis nula, por otro lado, bastará con estimar las pendientes a través de mínimos cuadrados ordinarios. De hecho, cabe recordar que en caso de 2 0  , el proyector R es igual a la matriz identidad y el estimador eficiente es el mínimo cuadrático. Una estimación como esta también se conoce como un pool: se dispone solo de los datos agrupados y, en el momento de hacer la estimación, no hay nada que identifique a la información de un agente o momento del tiempo particular. La ganancia, en este caso, se debe al hecho de contar con un significativo número de grados de libertad. Al respecto, es posible evaluar la ganancia de ajuste asociada a la introducción de interceptas múltiples (específicos ya sea a agentes o períodos de tiempo). Para esto, se puede utilizar una típica prueba F10; y, de encontrarse una ganancia de ajuste significativa (si se rechaza la prueba F), se preferiría el modelo de interceptas múltiples11 6.2 Existe correlación entre los efectos no observados y los Regresores Como se dijo, si se acepta que el error tiene la estructura it i itv u  la búsqueda de eficiencia requiere la construcción del estimador de mínimos cuadrados generalizados. No obstante, esto puede poner en riesgo la propiedad de consistencia si es que existe correlación contemporánea entre la heterogeneidad individual no observable y el término de error. Para verificar esto y decidir si trabajamos con el estimador de mínimos cuadrados generalizados o el estimador Within, es posible construir una prueba de Hausman. De acuerdo con el planteamiento general de dicha prueba, se propone comparar dos estimadores: uno eficiente pero solo consistente bajo la hipótesis nula, y otro no eficiente pero consistente tanto bajo la hipótesis nula como bajo la alternativa. La hipótesis nula por evaluar es la existencia de correlación entre el error y los regreso res. Por lo mismo, y de 10 Nos referimos al típico contraste basado en pérdida de ajuste, el cual también puede ser expresado sobre la base de los R-cuadrado: 2 2 2 ( ) ( 1, ) (1 R ) / (NT N K) SR Pool SR R R F F N NT N k          , donde 2 RSR se refiere al R-cuadrado del modelo con interceptas múltiples (sin restringir) y 2 PoolR , corresponde al R-cuadrado del modelo pool (restringido a un solo intercepto común). 11 Cabe recordar que la estimación con interceptas múltiples es, en principio, equivalente a la construcción del estimador Within. Nótese, sin embargo, que existe una diferencia en los objetivos. Cuando el error se comporta de acuerdo con nuestro marco de análisis y construimos el estimador Within, nos interesa remover la heterogeneidad no observable del término de error para garantizar consistencia. Para esto, desviamos cada observación de su media, y la inclusión de un intercepto distinto para cada agente es una de las maneras de hacerlo. En el caso que aquí discutimos, donde el error ya no es un error compuesto, nuestra motivación es la ganancia de ajuste: estamos interesados en estimar un intercepto distinto para cada agente, y el hecho de que esto sea equivalente a desviar cada dato de su media podría entenderse como un subproducto.
  • 32. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 32 acuerdo con las propiedades discutidas hasta ahora, nuestros candidatos ideales serían el estimador de mínimos cuadrados generalizados y el estimador Within • El primero es eficiente pero solo consistente en ausencia de correlación, mientras que Within no es eficiente pero retiene la propiedad de consistencia incluso bajo la presencia de correlación entre el término a; y los regresores. La intuición detrás la prueba es clara: una diferencia significativa entre los estimadores de mínimos cuadrados generalizados y Within, constituye evidencia en contra de la consistencia del primero y esto, a su vez, constituye evidencia en contra de la ausencia de correlación entre a; y los regresores. Por lo mismo, si se rechaza la hipótesis nula de esta prueba, convendrá utilizar el estimador Within. Si se acepta la hipótesis nula, en tanto, se privilegiará el uso del estimador de mínimos cuadrados generalizados12 . 0 1 : ( ) 0 : ( ) 0 ( ) ( ) ( ) Var( ) i it a i i it MCG Whitin MCG Whitin H E x H E x S q Var q q q Var q Var                           (29) Antes de concluir, conviene destacar que esta no es una prueba para determinar si los efectos individuales son "fijos" o "aleatorios''. Lo que sí es cierto es que, dependiendo de sus resultados, se decidirá si utilizar el estimador de mínimos cuadrados generalizados ("efectos aleatorios") o el estimador Within ("efectos fijos"). Esta decisión, no obstante, no responde a la posibilidad de que los efectos individuales no exhiban una naturaleza aleatoria, sino a la posibilidad de que, siendo aleatorios, estén correlacionados con los regresores (Barco & Castro, 2010): . 12 De hecho, cualquier combinación entre los estimadores Wíthín, Between o mínimos cuadrados generalizados sería válida en la medida en que este último es un promedio ponderado de los dos primeros.
  • 33. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 33 7. Aplicaciones Es importante entonces que antes de iniciar escribas en la línea de comando (mientras estás conectado a Internet) las siguientes indicaciones: ssc install xtserial //Si este comando no funciona, intente: -findit xtserial- Luego procedemos a instalar este paquete dándole click en el mismo
  • 34. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 34 Los datos se encuentran alojados en la siguiente ruta: use http://www.stata-press.com/data/r10/nlswork.dta También se puede instalar con el uso del comando: webuse nlswork.dta Generamos las siguientes variables: generate age2 = age*age generate black = (race==2) Debemos saber que la variable race tiene las siguientes categorías La base de datos a usar es nlswork1.dta , la cual contiene información de una muestra de datos de panel para 4,711 mujeres empleadas, que han completado su educación y con salarios mayores a US$1 por hora pero menores a $700, para un período de 20 años (1968- 1988) en los Estados Unidos. . 303 3 other 8,051 2 black 20,180 1 white tabulation: Freq. Numeric Label unique values: 3 missing .: 0/28,534 range: [1,3] units: 1 label: racelbl type: numeric (byte) race race
  • 35. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 35 A través del comando describe podemos observar todas las variables que contiene la base de datos nlswork1.dta Antes de estimar un modelo de datos de panel, se deben identificar las variables que representan a los individuos y a las observaciones. Antes de estimar un modelo de datos de panel, se deben identificar las variables que representan a los individuos y a las observaciones. iis idcode tis year Antes de empezar el análisis procedemos a inspeccionar la data con el comando describe. . reg ln_wage age age2 Note: Dataset has changed since last saved. Sorted by: idcode year black float %9.0g age2 float %9.0g ln_wage float %9.0g ln(wage/GNP deflator) wks_work int %8.0g weeks worked last year hours int %8.0g usual hours worked tenure float %9.0g job tenure, in years ttl_exp float %9.0g total work experience wks_ue byte %8.0g weeks unemployed last year union byte %8.0g 1 if union occ_code byte %8.0g occupation ind_code byte %8.0g industry of employment south byte %8.0g 1 if south c_city byte %8.0g 1 if central city not_smsa byte %8.0g 1 if not SMSA collgrad byte %8.0g 1 if college graduate grade byte %8.0g current grade completed nev_mar byte %8.0g 1 if never married msp byte %8.0g 1 if married, spouse present race byte %8.0g 1=white, 2=black, 3=other age byte %8.0g age in current year birth_yr byte %8.0g birth year year byte %8.0g interview year idcode int %8.0g NLS ID variable name type format label variable label storage display value size: 1,169,894 vars: 23 7 Dec 2006 17:02 obs: 28,534 National Longitudinal Survey. Young Women 14- Contains data from http://www.stata-press.com/data/r10/nlswork.dta . d
  • 36. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 36 Asimismo es necesario darle contexto de datos de panel, esto se logra usando el siguiente comando: xtset 7.2 Análisis de datos panel de dos períodos Utilizando la base de datos CRIME2.dta, se tiene t = 1 y t = 2, la base contiene los índices de delincuencia y de desempleo de 46 ciudades para 1982 y 1987, por lo tanto t = 1 = 1982 y t = 2 = 1987. Si se elabora una regresión t = 2. Veamos que variables son significativas que explican el comportamiento del desempleo. describe reg crmrte unem if year == 87 delta: 1 unit time variable: year, 68 to 88, but with gaps panel variable: idcode (unbalanced) . xtset idcode year . Sorted by: ccrmrte float %9.0g lcrmrt_1 float %9.0g clpopden float %9.0g cunem float %9.0g cllawexp float %9.0g clpolpc float %9.0g lpolpc float %9.0g clcrmrte float %9.0g clpop float %9.0g clcrimes float %9.0g lcrmrte float %9.0g larea float %9.0g lcrimes float %9.0g lpopden float %9.0g llawexpc float %9.0g lpcinc float %9.0g loffic float %9.0g lpop float %9.0g polpc float %9.0g lawexpc float %9.0g offarea float %9.0g crmrte float %9.0g popden float %9.0g d87 float %9.0g area float %9.0g year float %9.0g south float %9.0g nrtheast float %9.0g west float %9.0g pcinc float %9.0g officers float %9.0g unem float %9.0g crimes float %9.0g pop float %9.0g variable name type format label variable label storage display value size: 12,512 vars: 34 26 Jan 2000 12:16 obs: 92 Contains data from C:UsersfinanzasDocumentscrime2.dta . d
  • 37. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 37 Si se interpreta el resultado se observa que un aumento en el índice de desempleo disminuye la delincuencia. Es significativo y coherente ? El problema puede ser causado por variables omitidas tales como edad, género, educación. Pero por medio de datos panel es posible observar como la inclusión del año 82 puede ayudar a controlar el hecho de que distintas ciudades tienen históricamente diferentes índices de delincuencia.        0 0 1 2 , t=1,2.it t it i it y d x u (30) Por medio de análisis de datos agrupados, se hace el análisis que el efecto inobservable es de dos tipos, el constante y el que varía en el tiempo. En la ecuación anterior la constante es  0 0 t= 1 y 2 . La variable i captura todos los efectos inobservables constantes en el tiempo que influyen en it y , i es denominada efecto inobservable, en este caso denominada efecto fijo, dado que no se modifica en el tiempo. La ecuación anterior es un modelo de efectos inobservables o modelo de efectos fijos. it u , se denomina error idiosincrático o error de variación temporal., _cons 128.3781 20.75663 6.18 0.000 86.54589 170.2104 unem -4.161134 3.416456 -1.22 0.230 -11.04655 2.72428 crmrte Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 54450.5521 45 1210.01227 Root MSE = 34.6 Adj R-squared = 0.0106 Residual 52674.6428 44 1197.15097 R-squared = 0.0326 Model 1775.90928 1 1775.90928 Prob > F = 0.2297 F(1, 44) = 1.48 Source SS df MS Number of obs = 46
  • 38. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 38 pues representa factores inobservables que cambian en el tiempo. De acuerdo al ejemplo anterior, el modelo a estimar es        0 0 1 87 ; t=1,2.it t it i it crmrte d unem u (31) La variable 87d , será el efecto fijo en este caso urbano, que pueden ser las características demográficas, si no hay un cambio en las políticas puede encontrarse la educación, la raza y la edad. Ahora por los supuestos de MCO, U no debe estar correlacionado con las X , por lo tanto se hace un cambio en la ecuación Donde  it i it V u , que se denomina ERROR COMPUESTO. Realizando la estimación del ejemplo reg crmrte unem d87 El resultado no es bueno, dados la insignificancia, lo que indica que el supuesto de no correlación está afectado el modelo, además, MCO con variables dicotómicas no soluciona el problema de variables omitidas, además, uno de los objetivos de panel es capturar correlaciones entre a y X. En la mayor parte de las aplicaciones, la razón de data panel es permitir que el efecto inobservable se correlacione con las variables explicativas. Por ejemplo, en la delincuencia, se desea dejar que los factores urbanos no contemplados en ai que influyen en el índice de delincuencia, se correlacionen también con el índice de desempleo. Es sencillo realizarlo: Como ai es constante en el tiempo, se diferencia a lo largo de los dos años. De manera se escribe la ecuación de esta forma                 2 0 0 1 2 2 1 0 1 1 1 ( ) , t=2 , t=1 i i i i i i i i y x u y x u (32)                2 1 0 1 2 1 2 1 0 1 ( ) ( - )i i i i i i it it it y y x x u u y x u (33) El efecto i es eliminado al diferenciar, la ecuación anterior es denominada ecuación de diferencia de primer orden. Lo importante es que no exista correlación entre U y X . Para
  • 39. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 39 poder estimar este modelo debe haber cambio en las X, dado que si hay una variable que no cambie, como por ejemplo el sexo de una persona la estimación es incorrecta. Reestimando este modelo se tiene (Software Shop, 2013): gen ccrmrte= crmrte - crmrte[_n-1] El resultado ahora proporciona una relación positiva, entre los índices de delincuencia y el de desempleo. La intercepción revela que cuando el cambio en el desempleo = 0, el índice delictivo es de 15.4, esto refleja un aumento secular en los índices delictivos en USA de 1982 a 1987. En esta sección se empleará la base nlswork.dta la misma que contiene una muestra de 4711 mujeres con trabajo remunerado de 14 a 26 años cumplidos al año 1968 y que fueron encuestadas a lo largo de 21 años (1968-1988) excepto los años 1974, 1976, 1979, 1981, 1984, y 1986. La variable dependiente en todas las estimaciones es el logaritmo del ingreso. Se recurrirán a algunos comandos que no están cargados en Stata (Software Shop, 2013). _cons 15.4022 4.702117 3.28 0.002 5.925709 24.8787 cunem 2.217999 .8778659 2.53 0.015 .448777 3.987222 ccrmrte Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 20255.9877 45 450.13306 Root MSE = 20.051 Adj R-squared = 0.1069 Residual 17689.5504 44 402.035236 R-squared = 0.1267 Model 2566.43732 1 2566.43732 Prob > F = 0.0152 F(1, 44) = 6.38 Source SS df MS Number of obs = 46 . reg ccrmrte cunem
  • 40. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 40 7.2. Controlando la heterogeneidad dentro de un panel 7.2.1 Regresión agrupada (POOLED OLS) El enfoque más simple de analizar datos tipo panel es omitir las dimensiones del espacio y el tiempo de los datos agrupados y sólo calcular la regresión MCO usual. Este modelo se expresa como (INFOPUC, 2011): 1 1it it itY X     (34) Donde i significa la i-ésima unidad transversal (estado) y t el tiempo t (año). Si tratamos de explicar la variable wage con las variables independientes age y age2, basta con que indiquemos en la ventana de comandos de Stata (INFOPUC, 2011): reg ln_wage age age2 7.2.2 Efectos Aleatorios (Random Effects) La ecuación (2) supone que el intercepto de la regresión es la misma para todas las unidades transversales. Sin embargo, es muy probable que necesitemos controlar el carácter “individual” de cada estado. El modelo de efectos aleatorios permite suponer que cada unidad transversal tiene un intercepto diferente. Este modelo se expresa como: 1 1it i it itY X     (35) _cons .1647917 .0521021 3.16 0.002 .062669 .2669143 age2 -.0010982 .0000596 -18.42 0.000 -.0012151 -.0009814 age .0855891 .0035923 23.83 0.000 .0785481 .0926302 ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 6516.69015 28,509 .228583611 Root MSE = .45654 Adj R-squared = 0.0882 Residual 5941.72375 28,507 .208430342 R-squared = 0.0882 Model 574.966399 2 287.4832 Prob > F = 0.0000 F(2, 28507) = 1379.28 Source SS df MS Number of obs = 28,510 . reg ln_wage age age2
  • 41. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 41 Donde ii u . Es decir, en vez de considerar a  como fija, suponemos que es una variable aleatoria con un valor media y una desviación aleatoria iu de este valor medio. Sustituyendo ii u en la ecuación (2) obtenemos el modelo de efectos aleatorios: 1 1it it i itY X u      (36) Stata estima el modelo de efectos aleatorios con el comando xtreg, re. En nuestro ejemplo, indicamos en la ventana de comandos xtreg ln_wage grade age* ttl_exp* tenure* black /// not_smsa south, re Si analizamos la ecuación (8), observamos que si la varianza de iu es igual a cero, es decir 02 u , entonces no existe ninguna diferencia relevante entre la ecuación (1) y la (3). ¿Cómo podemos saber si es necesario usar el modelo de efectos aleatorios o el de datos agrupados? Breusch y Pagan formularon la prueba conocida como Prueba del Multiplicador de rho .44045273 (fraction of variance due to u_i) sigma_e .29068923 sigma_u .25790526 _cons .2387207 .049469 4.83 0.000 .1417633 .3356781 south -.0868922 .0073032 -11.90 0.000 -.1012062 -.0725781 not_smsa -.1308252 .0071751 -18.23 0.000 -.1448881 -.1167622 black -.053053 .0099926 -5.31 0.000 -.0726381 -.0334679 tenure2 -.0020035 .0001193 -16.80 0.000 -.0022373 -.0017697 tenure .0392519 .0017554 22.36 0.000 .0358113 .0426925 ttl_exp2 .0003049 .0001162 2.62 0.009 .000077 .0005327 ttl_exp .0290208 .002422 11.98 0.000 .0242739 .0337678 age2 -.0007133 .00005 -14.27 0.000 -.0008113 -.0006153 age .0368059 .0031195 11.80 0.000 .0306918 .0429201 grade .0646499 .0017812 36.30 0.000 .0611589 .0681409 ln_wage Coef. Std. Err. z P>|z| [95% Conf. Interval] corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000 Wald chi2(10) = 9244.74 overall = 0.3708 max = 15 between = 0.4784 avg = 6.0 R-sq: within = 0.1715 Obs per group: min = 1 Group variable: idcode Number of groups = 4697 Random-effects GLS regression Number of obs = 28091 > not_smsa south, re . xtreg ln_wage grade age* ttl_exp* tenure* black ///
  • 42. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 42 Lagrange para Efectos Aleatorios. La hipótesis nula de esta prueba es que 02 u . Si la prueba se rechaza, sí existe diferencia entre (1) y (3), y es preferible usar el método de efectos aleatorios.13 La prueba de Breusch y Pagan se implementa en Stata con el comando xttest0 después de la estimación de efectos aleatorios. xtreg ln_wage grade age* ttl_exp* tenure* black /// not_smsa south, re xttest0 El p-value nos indica que podemos rechazar la hipótesis nula (Ho); por lo tanto, los efectos aleatorios iu son significativos y es preferible usar la estimación de efectos aleatorios en vez de la agrupada. 7.2.3 Efectos Fijos (Fixed Effects) Otra manera de modelar el carácter “individual” de cada estado es a través del modelo de efectos fijos. Este modelo no supone que las diferencias entre estados sean aleatorias, sino constantes o “fijas”—y por ello debemos estimar cada intercepto iu . ¿Cómo podemos permitir que el intercepto varíe con respecto a cada estado? Una manera es la técnica de “las variables dicotómicas de intersección diferencial”, que se expresa de la siguiente manera14 : 1 1it i it itY X     (37) 13 Recuerden que una Hipótesis nula se rechaza si el p-value de la prueba es menor a 0.10. 14 Se pueden utilizar variables dicotómicas que conducen al mismo resultado que si restamos a cada observación la media de cada estado (demeaning the data). . end of do-file . Prob > chibar2 = 0.0000 chibar2(01) = 14779.98 Test: Var(u) = 0 u .0665151 .2579053 e .0845002 .2906892 ln_wage .2283326 .4778416 Var sd = sqrt(Var) Estimated results: ln_wage[idcode,t] = Xb + u[idcode] + e[idcode,t] Breusch and Pagan Lagrangian multiplier test for random effects . xttest0
  • 43. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 43 Donde i es un vector de variables dicotómicas para cada estado. El modelo de efectos fijos puede ejecutarse en Stata con el comando: xtreg ln_wage age age2,fe xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i.year,fe F test that all u_i=0: F(4709, 23798) = 8.74 Prob > F = 0.0000 rho .64073314 (fraction of variance due to u_i) sigma_e .30245467 sigma_u .4039153 _cons .639913 .0408906 15.65 0.000 .5597649 .7200611 age2 -.0005973 .0000465 -12.84 0.000 -.0006885 -.0005061 age .0539076 .0028078 19.20 0.000 .0484041 .0594112 ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval] corr(u_i, Xb) = 0.0440 Prob > F = 0.0000 F(2,23798) = 1451.88 overall = 0.0865 max = 15 between = 0.1006 avg = 6.1 within = 0.1087 min = 1 R-sq: Obs per group: Group variable: idcode Number of groups = 4,710 Fixed-effects (within) regression Number of obs = 28,510 . xtreg ln_wage age age2,fe . F test that all u_i=0: F(4696, 23372) = 6.58 Prob > F = 0.0000 rho .59656174 (fraction of variance due to u_i) sigma_e .28984565 sigma_u .35245685 _cons .5076833 .1945967 2.61 0.009 .1262611 .8891056 _Iyear_88 -.3186943 .2011954 -1.58 0.113 -.7130506 .075662 _Iyear_87 -.3411479 .1878065 -1.82 0.069 -.7092608 .0269651 _Iyear_85 -.310788 .1679921 -1.85 0.064 -.6400636 .0184876 _Iyear_83 -.3080176 .1482841 -2.08 0.038 -.5986642 -.017371 _Iyear_82 -.2915456 .1385459 -2.10 0.035 -.5631046 -.0199866 _Iyear_80 -.2355611 .1189077 -1.98 0.048 -.468628 -.0024942 _Iyear_78 -.1763172 .0995746 -1.77 0.077 -.3714899 .0188555 _Iyear_77 -.1622962 .0893091 -1.82 0.069 -.3373479 .0127554 _Iyear_75 -.152118 .0698157 -2.18 0.029 -.2889613 -.0152748 _Iyear_73 -.096822 .0508415 -1.90 0.057 -.1964747 .0028306 _Iyear_72 -.0590495 .0412744 -1.43 0.153 -.13995 .021851 _Iyear_71 -.0305026 .0318724 -0.96 0.339 -.0929745 .0319693 _Iyear_70 -.0342683 .0229397 -1.49 0.135 -.0792316 .0106951 _Iyear_69 .0421902 .0155292 2.72 0.007 .0117519 .0726284 south -.0612464 .0109049 -5.62 0.000 -.0826208 -.0398721 not_smsa -.0872854 .0095083 -9.18 0.000 -.1059222 -.0686485 black 0 (omitted) tenure2 -.0018203 .000126 -14.45 0.000 -.0020672 -.0015734 tenure .0338666 .001858 18.23 0.000 .0302248 .0375084 ttl_exp2 -.000116 .0001351 -0.86 0.390 -.0003808 .0001488 ttl_exp .0395614 .0030685 12.89 0.000 .0335469 .0455758 age2 -.0009346 .0000616 -15.16 0.000 -.0010554 -.0008138 age .0663695 .0105143 6.31 0.000 .0457607 .0869783 grade 0 (omitted) ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval] corr(u_i, Xb) = 0.1861 Prob > F = 0.0000 F(22,23372) = 229.99 overall = 0.2696 max = 15 between = 0.3607 avg = 6.0 R-sq: within = 0.1780 Obs per group: min = 1 Group variable: idcode Number of groups = 4697 Fixed-effects (within) regression Number of obs = 28091 note: black omitted because of collinearity note: grade omitted because of collinearity i.year _Iyear_68-88 (naturally coded; _Iyear_68 omitted) . xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i.year,fe
  • 44. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 44 Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La hipótesis nula es que 1 = 2 = … t = 0. . En nuestro ejemplo, luego de estimar un modelo con efectos fijos individuales y temporales, indicamos en la ventana de comando: El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar que las variables dicotómicas temporales son conjuntamente significativas y pertenecen al modelo. 7.2.4 Autocorrelación Es importante señalar que aun cuando hemos modelado la heterogeneidad temporal y espacial en nuestro modelo, la ecuación (5) puede estar mal especificada en otros aspectos. Recordemos que de acuerdo con los supuestos de Gauss-Markov, los estimadores MCO son los Mejores Estimadores Lineales Insesgados (MELI) siempre y cuando los errores sean independientes entre sí y se distribuyan idénticamente con varianza constante. Desafortunadamente, con frecuencia estas condiciones son violadas en datos panel: con respecto a la independencia cuando los errores de diferentes unidades están correlacionados (correlación contemporánea), o cuando los errores dentro de cada unidad se correlacionan temporalmente (correlación serial), o ambos. También con respecto a la distribución “idéntica” de los errores cuando la varianza no es constante (heteroscedasticidad). En ese sentido abordamos al problema de la correlación serial o “autocorrelación”; es decir, cuando los errores it no son independientes con respecto al tiempo. En nuestro ejemplo, es muy probable que el nivel de ingresos en t esté asociado con el nivel de ingresos en t-1. end of do-file . Prob > F = 0.0000 F( 14, 23374) = 10.44 (14) _Iyear_88 = 0 (13) _Iyear_87 = 0 (12) _Iyear_85 = 0 (11) _Iyear_83 = 0 (10) _Iyear_82 = 0 ( 9) _Iyear_80 = 0 ( 8) _Iyear_78 = 0 ( 7) _Iyear_77 = 0 ( 6) _Iyear_75 = 0 ( 5) _Iyear_73 = 0 ( 4) _Iyear_72 = 0 ( 3) _Iyear_71 = 0 ( 2) _Iyear_70 = 0 ( 1) _Iyear_69 = 0 . testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test- . . * Prueba para validar efectos Fijos
  • 45. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 45 (INFOPUC, 2011). Existen muchas maneras de diagnosticar problemas de autocorrelación15 . Sin embargo, cada una de estas pruebas funciona bajos ciertos supuestos sobre la naturaleza de los efectos individuales. Wooldridge desarrolló una prueba muy flexible basada en supuestos mínimos que puede ejecutarse con el comando xtserial. La hipótesis nula de esta prueba es que no existe autocorrelación; naturalmente, si se rechaza, podemos concluir que ésta sí existe.16 El comando xtserial requiere que se especifiquen la variable dependiente e independientes de nuestro modelo. En nuestro ejemplo, indicamos: La prueba nos indica que tenemos un problema de autocorrelación que es necesario corregir. Una manera de hacerlo es a través de un modelo de efectos fijos con término  it autorregresivo de grado 1 (AR1) que controla por la dependencia de t con respecto a t-1. El modelo AR1 con efectos fijos se especifica de la manera: 15 Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han sido ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo “PANELAUTO” y “PANTEST2” tecleando en la línea de comando: ssc install panelauto y ssc install pantest2. 16 El método de Wooldridge utiliza los residuales de una regresión de primeras diferencias, observando que si itu no está serialmente correlacionado, entonces la correlación entre los errores itu diferenciados para el periodo t y t-1 es igual a -0.5. En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una discusión más amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press. end of do-file . F test that all u_i=0: F(4696, 23388) = 6.62 Prob > F = 0.0000 rho .59923531 (fraction of variance due to u_i) sigma_e .29260978 sigma_u .35780204 _cons .9083485 .0410338 22.14 0.000 .8279196 .9887774 south -.0597952 .0110021 -5.43 0.000 -.08136 -.0382304 not_smsa -.089174 .0095944 -9.29 0.000 -.1079797 -.0703683 black 0 (omitted) tenure .0105427 .0009174 11.49 0.000 .0087446 .0123408 ttl_exp .033949 .0014633 23.20 0.000 .0310809 .0368172 age2 -.0008651 .0000463 -18.67 0.000 -.000956 -.0007743 age .0462177 .0027557 16.77 0.000 .0408164 .051619 grade 0 (omitted) ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval] corr(u_i, Xb) = 0.2112 Prob > F = 0.0000 F(6,23388) = 751.52 overall = 0.2585 max = 15 between = 0.3514 avg = 6.0 within = 0.1616 min = 1 R-sq: Obs per group: Group variable: idcode Number of groups = 4,697 Fixed-effects (within) regression Number of obs = 28,091 note: black omitted because of collinearity note: grade omitted because of collinearity . xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south,fe
  • 46. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 46            1 1 1 Donde: it i it it it it it Y X (38) Los errores tienen una correlación de primer grado,  . El modelo AR1 se puede implementar con el comando xtregar: xtregar ln_wage grade age* ttl_exp* tenure* black not_smsa south, fe 7.2.5 Heterocedasticidad Cuando la varianza de los errores de cada unidad transversal no es constante, nos encontramos con una violación de los supuestos Gauss-Markov. Una forma de saber si nuestra estimación tiene problemas de heteroscedastidad es a través de la prueba del Multiplicador de Lagrange de Breusch y Pagan. Sin embargo, de acuerdo con Greene, ésta y otras pruebas son sensibles al supuesto sobre la normalidad de los errores; . end of do-file . F test that all u_i=0: F(4146,19241) = 1.69 Prob > F = 0.0000 rho_fov .67488431 (fraction of variance because of u_i) sigma_e .25845863 sigma_u .37238033 rho_ar .74929079 _cons .438538 .0076196 57.55 0.000 .4236029 .4534731 south -.0379833 .0137222 -2.77 0.006 -.0648799 -.0110866 not_smsa -.0375502 .011841 -3.17 0.002 -.0607596 -.0143409 black 0 (omitted) tenure .0103372 .0013308 7.77 0.000 .0077287 .0129456 ttl_exp .0237054 .0027819 8.52 0.000 .0182527 .0291581 age2 -.0011874 .0000552 -21.52 0.000 -.0012956 -.0010793 age .0771905 .0020002 38.59 0.000 .0732698 .0811111 grade 0 (omitted) ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval] corr(u_i, Xb) = 0.1915 Prob > F = 0.0000 F(6,19241) = 823.11 overall = 0.1948 max = 14 between = 0.2936 avg = 5.6 within = 0.2042 min = 1 R-sq: Obs per group: Group variable: idcode Number of groups = 4,147 FE (within) regression with AR(1) disturbances Number of obs = 23,394 note: black dropped because of collinearity note: grade dropped because of collinearity . xtregar ln_wage grade age* ttl_exp* tenure* black not_smsa south, fe
  • 47. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 47 afortunadamente, la prueba Modificada de Wald para Heterocedasticidad funciona aún cuando dicho supuesto es violado17 (INFOPUC, 2011) 7.3 Efectos fijos vs. Aleatorios Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F de significancia de los efectos fijos nos indican que tanto el modelo de efectos aleatorios como el de efectos fijos son mejores que el modelo agrupado. ¿Pero cómo decidir cuál de los dos usar? La respuesta depende de la posible correlación entre el componente de error individual iu y las variables X. El modelo de efectos aleatorios supone que esta correlación es igual a cero. Hausman demostró que la diferencia entre los coeficientes de efectos fijos y aleatorios  eaef   pude ser usada para probar la hipótesis nula de que iu y las variables X no están correlacionadas. Así pues, la Ho de la prueba de Hausman es que los estimadores de efectos aleatorios y de efectos fijos no difieren sustancialmente. Si se rechaza la Ho, los estimadores sí difieren, y la conclusión es efectos fijos es más conveniente que efectos aleatorios. Si no podemos rechazar Ho, no hay sesgo de qué preocuparnos y preferimos efectos aleatorios que, al no estimar tantas dummies, es un modelo más eficiente. La prueba de Hausman se implementa en Stata después de la regresión con efectos aleatorios con el comando hausman (INFOPUC, 2011): xtreg ln_wage grade age* ttl_exp* tenure* black /// not_smsa south, re estimates store RANDOM xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south,fe estimates store FIXED hausman FIXED RANDOM 17 Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 598.
  • 48. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 48 En nuestro ejemplo, la Ho se rechaza; es decir, la diferencia entre los coeficientes de efectos aleatorios y fijos sí es sistemática. Por lo tanto, conviene usar el método de efectos fijos. 7.4 Efectos temporales (two-way fixed effects) La incorporación de variables dicotómicas de las personas permite modelar características de las unidades transversales (mujeres) que no cambian en el tiempo pero que sí afectan el resultado de interés. Ahora bien, también es posible agregar variables dicotómicas temporales a nuestro modelo, es decir, una para cada año en la muestra, que capturen eventos comunes a todos las personas durante un período u otro—como una gran depresión o guerra mundial18 . Agregando efectos temporales, la ecuación anterior se transforma en:       1 1it i t it it Y X Donde representa un vector de variables dicotómicas para cada año. Estas variables dicotómicas permitirán controlar por aquellos eventos a los que fueron sujetos todas las personas en un año dado y, al igual que los efectos fijos, pueden reducir sesgos importantes. En Stata podemos incorporar efectos temporales a nuestro modelo de efectos fijos con el comando xi. xi: xtreg ln_wage age age2 i.year, fe 18 Para hacer la distinción algunos autores suelen hablar de efectos idiosincráticos y efectos covariados. Prob>chi2 = 0.0000 = 149.43 chi2(8) = (b-B)'[(V_b-V_B)^(-1)](b-B) Test: Ho: difference in coefficients not systematic B = inconsistent under Ha, efficient under Ho; obtained from xtreg b = consistent under Ho and Ha; obtained from xtreg
  • 49. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 49 O bien, generando tanto las dummies de personas como de año (computacionalmente más costoso), xi: xtreg ln_wage age age2 i.year i.idcode, fe Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La hipótesis nula es que     1 2 .... 0T . En nuestro ejemplo, luego de estimar un modelo con efectos fijos individuales y temporales, indicamos en la ventana de comando: testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test- . F test that all u_i=0: F(4709, 23784) = 8.75 Prob > F = 0.0000 rho .64120306 (fraction of variance due to u_i) sigma_e .30127563 sigma_u .40275174 _cons .3937532 .2001741 1.97 0.049 .0013992 .7861072 _Iyear_88 .1904977 .2068016 0.92 0.357 -.2148466 .595842 _Iyear_87 .1242272 .1930108 0.64 0.520 -.2540863 .5025406 _Iyear_85 .1042758 .1726431 0.60 0.546 -.2341157 .4426673 _Iyear_83 .058766 .1523743 0.39 0.700 -.2398974 .3574294 _Iyear_82 .0391687 .1423573 0.28 0.783 -.2398606 .318198 _Iyear_80 .0369475 .1221806 0.30 0.762 -.2025343 .2764293 _Iyear_78 .0537334 .1023339 0.53 0.600 -.1468475 .2543143 _Iyear_77 .0340933 .0918106 0.37 0.710 -.1458613 .2140478 _Iyear_75 .0151376 .0717194 0.21 0.833 -.1254371 .1557123 _Iyear_73 .0424104 .052118 0.81 0.416 -.0597442 .1445651 _Iyear_72 .0510671 .0422995 1.21 0.227 -.0318426 .1339769 _Iyear_71 .0579959 .0326524 1.78 0.076 -.0060048 .1219967 _Iyear_70 .0284423 .0234621 1.21 0.225 -.017545 .0744295 _Iyear_69 .0647054 .0158222 4.09 0.000 .0336928 .095718 age2 -.0010113 .000061 -16.57 0.000 -.0011309 -.0008917 age .0728746 .0107894 6.75 0.000 .0517267 .0940224 ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval] corr(u_i, Xb) = 0.0613 Prob > F = 0.0000 F(16,23784) = 195.45 overall = 0.0932 max = 15 between = 0.1078 avg = 6.1 within = 0.1162 min = 1 R-sq: Obs per group: Group variable: idcode Number of groups = 4,710 Fixed-effects (within) regression Number of obs = 28,510 i.year _Iyear_68-88 (naturally coded; _Iyear_68 omitted) . xi: xtreg ln_wage age age2 i.year, fe
  • 50. Serie Apuntes de Clase. N° 15. Octubre de 2017. EAPE / FCE / UNMSM Econometría de datos de panel con aplicaciones en Stata 14 Bustamante Romaní, Rafael 50 El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar que las variables dicotómicas temporales son conjuntamente significativas y pertenecen al modelo. 8. Bibliografía Colin Cameron , A., & Trivedi, P. (2005). Microeconometrics: Methods and Applications. (C. U. Press, Ed.) New York. Orihuela, A. (2011). Stata Avanzado Aplicado a la Investigación Económica. Grupo Iddea, Lima. Beltrán Barco, A. (2003). Econometría de series de tiempo. Lima: . Universidad del Pacífico. Obtenido de https://econometriaii.files.wordpress.com/2010/01/beltran.pdf Beltran Barco, Arlette; Castro Carlin, Juan;. (2010). Modelos de datos de panel y variables dependientes limitadas: teoría y práctica. (U. d. Pacífico, Ed.) Bravo, D., & Vásquez, J. (2008). Microeconometria Aplicada. Notas de Clase, Centro Micro Datos., Santiago. Obtenido de http://www.academia.edu/9494003/MICROECONOMETR%C3%8DA_CON_STATA de Arce, R., & Mahía, R. (2007). Técnicas de Previsión de variables financieras:Modelos Arima. (M. d. Citius, Ed.) Greene, W. (1997). Análisis Econometrico (Tercera ed.). Prentice Hall. Greene, W. (1999). Análisis Econométrico. (S. &. Schuster, Trad.) Madrid: Prentice Hall Iberia. INFOPUC. (2011). Stata para Economistas. Pontificia Universidad Católica . Software Shop. (2013). Introducion al Stata 12: Ejercicios aplicados a la Economía y Econometría Financiera. Prob > F = 0.0000 F( 14, 23784) = 14.33 (14) _Iyear_88 = 0 (13) _Iyear_87 = 0 (12) _Iyear_85 = 0 (11) _Iyear_83 = 0 (10) _Iyear_82 = 0 ( 9) _Iyear_80 = 0 ( 8) _Iyear_78 = 0 ( 7) _Iyear_77 = 0 ( 6) _Iyear_75 = 0 ( 5) _Iyear_73 = 0 ( 4) _Iyear_72 = 0 ( 3) _Iyear_71 = 0 ( 2) _Iyear_70 = 0 ( 1) _Iyear_69 = 0 . testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test- .