Extensiones multinomiales parte i

Extensiones Multinomiales
Prof. Luis García Núñez
PUCP

• Una extensión natural de los modelos binarios es
considerando que la variable endógena tenga más de dos
categorías.
• Ejemplos:
2

• Sin orden en las categorías: En la elección del medio de
transporte:
3
Medio de transporte
Auto particular
Taxi
Bus
Bicicleta
A pie

• Agrupamiento en categorías:
4
Medio de transporte
Interestatal o
internacional
Auto particular
Tren
Bus
Terrestre
Avión
Aéreo

• Orden jerárquico en las categorías. Ejm: Nivel educativo
alcanzado
5
Nivel Educativo
Alcanzado
Sin instrucción
Primaria
Secundaria
Superior

Panorama general
• Caso I: Categorías no ordenadas
– Modelo Logit Multinomial
– Modelo Logit Condicional (Random Utility Model)
– Modelo Probit Multinomial
• Caso III: Categorías agrupadas
– Modelo Logit Anidado (Random Utility Model)
• Caso II: Categorías jerárquicas
– Modelo Logit Ordenado
– Modelo Probit Ordenado
6

Caso I: No ordenado Logit Multinomial
• Logit Multinomial
• Supongamos que la variable endógena tiene m
categorías.
• Sean 𝑃1, 𝑃2, … , 𝑃𝑚 las probabilidades de escoger o caer
en alguna de estas categorías.
• Generalizando el caso logit, la probabilidad de que el
individuo i elija la alternativa j es:
8

𝑃𝑗𝑖 =
exp⁡( 𝒙 𝑖 𝜷 𝑗)
1+ exp⁡( 𝒙 𝑖 𝜷 𝑘)𝑚−1
𝑘=1
𝑗 = 1, … , 𝑚 − 1
𝑃 𝑚𝑖 =
1
1+ exp⁡( 𝒙 𝑖 𝜷 𝑘)𝑚−1
𝑘=1
• La categoría m es la “categoría base”.
• La decisión por alguna de las alternativas depende de las
características 𝒙𝑖.
• Esto es una generalización del logit binomial. Por
ejemplo, en el caso m=2,
9

𝑃1𝑖 =⁡
exp⁡( 𝒙 𝑖 𝜷 𝟏)
1+exp⁡( 𝒙 𝑖 𝜷 𝟏)
y 𝑃2𝑖 =⁡
1
1+exp⁡( 𝒙 𝑖 𝜷 𝟏)
• En el caso m = 3,
𝑃1𝑖 =
exp⁡( 𝒙 𝑖 𝜷 𝟏)
1+exp 𝒙 𝑖 𝜷 𝟏 +exp⁡( 𝒙 𝑖 𝜷 𝟐)
(1)
𝑃2𝑖 =
exp⁡( 𝒙 𝑖 𝜷 𝟐)
(2)
𝑃3𝑖 =
1
(3)
10

• Nótese que en el caso m = 2, solo se estima un vector de
parámetros 𝜷 𝟏.
• Si m=3, se estiman 2 vectores de parámetros 𝜷 𝟏 y 𝜷 𝟐. En
general se estimarán 𝑚 − 1 vectores de parámetros.
• Para estimar estos parámetros, se define la función de
verosimilitud apropiada.
11

• Definamos las dummies 𝑌𝑖𝑗 = 1 si individuo i escoge o
cae en la categoría j, y 𝑌𝑖𝑗 = 0 de otro modo.
• Luego, se estiman los 𝑚 − 1 vectores de parámetros,
𝜷 𝟏, 𝜷 𝟐, … , 𝜷 𝒎−𝟏, maximizando la verosimilitud
𝐿 = 𝑃𝑖1
𝑌 𝑖1
𝑃𝑖2
𝑌 𝑖2
… 𝑃𝑖𝑚
𝑌 𝑖𝑚
𝑛
𝑖=1
12

• Tomando logaritmos:
𝑙𝑛𝐿 = 𝑌𝑖𝑗 𝑙𝑛𝑃𝑖𝑗
𝑚
𝑗=1
𝑛
𝑖=1
• Maximizando esta función se obtienen los estimadores
𝜷 𝟏, 𝜷 𝟐, … , 𝜷 𝒎−𝟏
13

• Interpretación de los 𝜷 en logit multinomial:
• A diferencia del logit simple con m = 2, a partir de m=3
en adelante los coeficientes y signos de los 𝛽 tienen una
interpretación más compleja.
• Recordemos que en el caso logit binomial (m=2), se
cumple que
𝑝𝑖 =
exp⁡( 𝒙 𝑖 𝜷)
1+exp⁡( 𝒙 𝑖 𝜷)
y 1 − 𝑝𝑖 =
1
1+exp⁡( 𝒙 𝑖 𝜷)
14

• Dividiendo tenemos
𝑝 𝑖
1−𝑝 𝑖
= exp⁡( 𝒙𝑖 𝜷)
• Tomando logaritmo ⁡ln
𝑝 𝑖
1−𝑝 𝑖
= 𝒙𝑖 𝜷
• Es decir, los 𝜷 en el logit son el impacto de X sobre el
logaritmo de la razón de probabilidades (relative risk
ratio).
• Por ejemplo, si 𝑝𝑖 es la prob de tener crédito y
(1 − 𝑝𝑖) la prob de no tenerlo, 𝑝𝑖 1 − 𝑝𝑖 = 4
indica que es 4 veces más probable tener crédito a
no tenerlo.
15

• Intentaremos dar una interpretación similar para m>2.
• Ejemplo: m = 3
• Medio de Transporte
• Categoría base: Bus.
1. Auto
Particular
2. Taxi
3. Bus
16

• De las ecuaciones (1)-(3),
𝑃1𝑖
𝑃3𝑖
= exp 𝒙𝑖 𝜷1
𝑃2𝑖
𝑃3𝑖
= exp 𝒙𝑖 𝜷2
𝑃1𝑖
𝑃2𝑖
=
exp 𝒙𝒊 𝜷 𝟏
exp 𝒙𝒊 𝜷 𝟐
= exp 𝒙𝑖 𝜷1 − 𝜷 𝟐
• Tomando logaritmos,
17

• Se cumple que
𝑙𝑛
𝑃𝑖1
𝑃𝑖3
= 𝒙𝑖 𝜷 𝟏 ⁡⁡⁡⁡⁡⁡…⁡⁡(4)
𝑙𝑛
𝑃𝑖2
𝑃𝑖3
= 𝒙𝑖 𝜷 𝟐 ⁡⁡⁡⁡⁡⁡…⁡⁡⁡(5)
𝑙𝑛
𝑃𝑖1
𝑃𝑖2
= 𝒙𝑖 𝜷1 − 𝜷2 ⁡… (6)
18

• Supongamos que 𝑥𝑖 = [1⁡𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖⁡𝐸𝑑𝑎𝑑𝑖]
• Podemos escribir a (4), (5) y (6) como:
(4) 𝑙𝑛
𝑃 𝑖1
𝑃 𝑖3
= 𝛽1
1
+ 𝛽2
1
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 + 𝛽3
1
𝐸𝑑𝑎𝑑𝑖
(5) 𝑙𝑛
𝑃 𝑖2
𝑃 𝑖3
= 𝛽1
2
+ 𝛽2
2
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 + 𝛽3
2
(6) 𝑙𝑛
𝑃 𝑖1
𝑃 𝑖2
= 𝛽1
1
− 𝛽1
2
+ 𝛽2
1
− 𝛽2
2
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 +
(𝛽3
1
− 𝛽3
2
)𝐸𝑑𝑎𝑑𝑖
19

• En la ecuación (4), los betas mide el efecto de cambios en
𝒙𝑖 sobre el ln de la razón de probabilidades (Relative
Risk Ratio – RRR) de elegir un auto propio respecto a
viajar en bus.
• En la (5) es lo mismo solo que entre taxi y bus.
• El signo esperado de 𝛽2
1
es positivo, pues si aumentan los
ingresos, es más probable que una persona viaje en auto
particular en lugar de bus.
20

• Similarmente, en (5), 𝛽2
2
mide el efecto de cambios en el
ingreso sobre el ln de la razón de probabilidades de elegir
un taxi respecto a viajar en bus.
• Si, por ejemplo, 𝛽2
2
> 0, es más probable que las
personas de ingresos más altos prefieran viajar en taxi en
vez de bus.
• Observar que el análisis se limita a comparar solo pares
de alternativas, similarmente al logit simple.
21

• Si queremos ver el efecto de un cambio en el ingreso
sobre la propensión a usar auto en vez de taxi, el efecto
es 𝛽2
1
− 𝛽2
2
. Si es positivo, entonces 𝛽2
1
> 𝛽2
2
.
• ¿Cómo cambia el análisis si cambiamos la base?
• Ahora la base es: taxi.
22

𝑃1𝑖 =
exp⁡( 𝒙 𝑖 𝜶 𝟏)
1+exp 𝒙 𝑖 𝜶 𝟏 +exp⁡( 𝒙 𝑖 𝜶3)
(7)
𝑃2𝑖 =
1
1+exp 𝒙 𝑖 𝜶 𝟏 +exp⁡( 𝒙 𝑖 𝜶3)
(8)
𝑃3𝑖 =
exp⁡( 𝒙 𝑖 𝜶 𝟑)
1+exp 𝒙 𝑖 𝜶 𝟏 +exp⁡( 𝒙 𝑖 𝜶 𝟑)
(9)
• Notar que solo hay los vectores 𝜶 𝟏 y 𝜶 𝟑.
23

• Calculando los ratios y tomando log
𝑙𝑛
𝑃1𝑖
𝑃2𝑖
= 𝒙𝑖 𝜶 𝟏 ⁡⁡⁡⁡⁡⁡…⁡⁡(10)
𝑙𝑛
𝑃3𝑖
𝑃2𝑖
= 𝒙𝑖 𝜶 𝟑 ⁡⁡⁡⁡⁡⁡…⁡⁡⁡(11)
𝑙𝑛
𝑃𝑖1
𝑃𝑖3
= 𝒙𝑖 𝜶1 − 𝜶3 ⁡… (12)
24

• Siguiendo con el ejemplo, las ecuaciones (10) -(12) se
pueden escribir como:
𝑙𝑛
𝑃𝑖1
𝑃𝑖2
= 𝛼1
1
+ 𝛼2
1
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 + 𝛼3
1
𝑙𝑛
𝑃𝑖3
𝑃𝑖2
= 𝛼1
3
+ 𝛼2
3
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 + 𝛼3
3
𝑙𝑛
𝑃𝑖1
𝑃𝑖3
= 𝛼1
1
− 𝛼1
3
+ (𝛼2
1
− 𝛼2
3
)𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖
+(𝛼3
1
− 𝛼3
3
)𝐸𝑑𝑎𝑑𝑖
25

• El cambio de base no debería alterar las conclusiones del
modelo. Solo hay que tener cuidado con la interpretación
de los coeficientes nuevos.
• De hecho se cumplirá que:
𝛼2
1
= 𝛽2
1
− 𝛽2
2
𝛼2
1
− 𝛼2
3
= 𝛽2
1
−𝛼2
3
= 𝛽2
2
26

• Efectos Marginales en logit multinomial
• Entrega el efecto de un cambio en la variable sobre la
probabilidad absoluta de caer en una de las alternativas.
• A diferencia de los betas, su interpretación no es relativa
(en comparación con una alternativa base) sino absoluta:
el impacto sobre la probabilidad de estar en una
categoría.
• Por ello, los efectos marginales no se alteran si se cambia
de base.
27

• Siguiendo con el ejemplo en el caso m = 3, deseamos
calcular el efecto marginal de un cambio en el ingreso
sobre las probabilidades de que el individuo i caiga en las
opciones 1 (auto) o 2 (taxi), 𝑃2𝑖.
• Luego de cálculos algebraicos se llega a
28

•
𝜕𝑃 𝑖1
𝜕𝐼𝑛𝑔𝑟𝑒𝑠𝑜 𝑖
= 𝑃𝑖1 ∙ (𝛽2
1
− 𝑃𝑖2 𝛽2
2
− 𝑃𝑖1 𝛽2
1
)
•
𝜕𝑃 𝑖2
𝜕𝐼𝑛𝑔𝑟𝑒𝑠𝑜 𝑖
= 𝑃𝑖2 ∙ (𝛽2
2
− 𝑃𝑖1 𝛽2
1
− 𝑃𝑖2 𝛽2
2
)
• Notar que el superíndice de los betas indica el vector.
29

• El efecto marginal de la opción 1 no solo depende de los
betas de vector 𝜷 𝟏 sino también de 𝜷 𝟐. El efecto sobre
𝑃𝑖2 también depende de ambos vectores.
• Es evidente que la interpretación del efecto marginal no
es comparable con aquella sobre los betas. Miden cosas
distintas.
30

• Adicionalmente, el signo del efecto marginal puede ser
distinto al del parámetro. Es decir podría ocurrir que
𝑠𝑖𝑔𝑛𝑜(𝛽2
1
) ≠ 𝑠𝑖𝑔𝑛𝑜(𝑃𝑖1 ∙ 𝛽2
1
− 𝑃𝑖2 𝛽2
2
− 𝑃𝑖1 𝛽2
1
)
• Esto no ocurría en el logit binomial en donde los dos
signos siempre coinciden.
31

• Esto no debería ser sorprendente. Por ejemplo, si al
aumentar el ingreso resulta que Pr(auto) sube, y Pr(taxi)
cae y Pr(bus) cae. Si Pr(taxi) cae menos que la Pr(bus),
entonces el parámetro 𝛽2
2
> 0, pero
𝜕 Pr(𝑡𝑎𝑥𝑖)
𝜕𝐼𝑛𝑔𝑟𝑒𝑠𝑜
< 0.
32

• Independencia de Alternativas Irrelevantes (IIA)
• Nótese que, dado un par de alternativas, digamos la 1
(auto) y la 3 (bus), el análisis no involucra a la restante
opción (taxi).
• Si por ejemplo elimináramos la posibilidad de transporte
en taxi (opción 2), redefinimos las probabilidades
restantes como 𝑃𝑖1
∗
=
𝑃 𝑖1
𝑃 𝑖1+𝑃 𝑖3
y 𝑃𝑖3
∗
=
𝑃 𝑖3
𝑃 𝑖1+𝑃 𝑖3
33

• Luego, 𝑙𝑛
𝑃𝑖1
∗
𝑃𝑖3
∗ = 𝒙𝑖 𝜷1
• Que es lo mismo que la ecuación (4) pues
⁡
𝑃𝑖1
∗
𝑃𝑖3
∗ =
𝑃𝑖1
𝑃𝑖3
• Esta propiedad se llama “independencia de alternativas
irrelevantes”, e indica que si agregamos o quitamos
alternativas, las razones de probabilidad entre
alternativas 𝑃𝑗/𝑃ℎ no se alteran.
• Esta propiedad no es muy realista.
34

• Si tuviéramos solamente {auto, bus}, supongamos que las
probabilidades son 𝑃𝑎𝑢𝑡𝑜 = 0.3 y 𝑃𝑏𝑢𝑠 = 0.7. La razón de
probabilidades es 0.3 0.7 = 0.4285.
• Supongamos que agregamos la alternativa {taxi}, que es
un sustituto cercano del auto particular.
• Imaginemos que las nuevas probabilidades son:
𝑃𝑎𝑢𝑡𝑜 = 0.10, 𝑃𝑡𝑎𝑥𝑖 = 0.20 y 𝑃𝑏𝑢𝑠 = 0.7
• Luego, la razón de probabilidades de auto con bus
cambia a 0.10 0.7 = 0.1428.
• Con el logit multinomial, tal razón de probabilidades no
cambia.
35

• Deficiencias del Logit Multinomial:
– Independencia de alternativas irrelevantes
– Solo incluye como regresores a las características de los
individuos 𝒙𝑖.
36

Caso I: No ordenado Logit Condicional
• Generalización: Modelo Logit Condicional
• Este modelos permite introducir regresores que reflejen
los atributos o características de las categorías, tal como
las percibe el individuo i.
• En el ejemplo del transporte, algunas de estas variables
son: calidad del servicio, precios, distancia, etc.
• Se utiliza el modelo de variables latentes llamado
“Random Utility Model”.
37

• Por fines didácticos, empezaremos con el modelo más
simple binomial.
• Hay dos categorías o alternativas, 𝑗 = 1⁡𝑜⁡2.
• Sea 𝑌𝑖𝑗
∗
=⁡Nivel de utilidad de individuo 𝑖 escogiendo la
alternativa 𝑗.
• Ocurrirá que un individuo 𝑖 elige 𝑗 si:
𝑌ij
∗
= max⁡{ 𝑌𝑖1
∗
, 𝑌𝑖2
∗
}
con lo cual se observará 𝑌𝑖𝑗 = 1 y 𝑌𝑖𝑘 = 0 ∀𝑘 ≠ 𝑗.
38

• Modelando las utilidades en función de las características
del individuo i
𝑌𝑖1
∗
= 𝒙𝑖 𝜷 𝟏 + 𝜀𝑖1 Utilidad si elige la opción 1 (Ejem:
participa en el mercado laboral)
𝑌𝑖2
∗
= 𝒙𝑖 𝜷 𝟐 + 𝜀𝑖2 Utilidad si elige la opción 2 (Ejem: no
participa en el mercado laboral)
𝜀𝑖𝑗~𝑉𝑎𝑙𝑜𝑟⁡𝐸𝑥𝑡𝑟𝑒𝑚𝑜, 𝐹 𝜀𝑖𝑗 = exp⁡(−𝑒−𝜀 𝑖𝑗)
𝑓 𝜀𝑖𝑗 = exp⁡ −𝜀𝑖𝑗 − exp −𝜀𝑖𝑗
• Se observará que 𝑌𝑖1 = 1 si 𝑌𝑖1
∗
> 𝑌𝑖2
∗
.
39

• Restando:
𝑌𝑖1
∗
− 𝑌𝑖2
∗
= 𝒙𝑖 𝜷1 − 𝜷2 + (𝜀𝑖1 − 𝜀𝑖2)
𝑌𝑖
∗
= 𝒙𝑖 𝜷 + 𝑢𝑖
donde esta probado que 𝑢𝑖 = 𝜀𝑖1 − 𝜀𝑖2 se distribuye como
una logística. Luego se tiene el modelo logit.
• La alternativa 2 es la base.
• El vector 𝜷 estimado por logit es la resta de los vectores
𝜷1 y 𝜷2, por eso se interpreta la alternativa 1 en
comparación con la base (alternativa 2).
40

• Las probabilidades de las alternativas 1 y 2 según este
enfoque son:
𝑃𝑖1 =
𝑒 𝒙 𝑖 𝜷1
𝑒 𝒙 𝑖 𝜷1+𝑒 𝒙 𝑖 𝜷2
𝑃𝑖2 =
𝑒 𝒙 𝑖 𝜷 𝟐
𝑒 𝒙 𝑖 𝜷1+𝑒 𝒙 𝑖 𝜷2
Las cuales son equivalentes a las que vimos en el logit
binomial (haciendo 𝛽 = 𝛽1 − 𝛽2)
𝑃𝑖1 =
𝑒 𝒙 𝑖 𝜷
𝑒 𝒙 𝑖 𝜷+1
𝑃𝑖2 =
1
𝑒 𝒙 𝑖 𝜷+1
41

• Similarmente el modelo logit multinomial con 𝑚 categorías se
puede presentar con el modelo RUM como
𝑌𝑖𝑗
∗
= 𝒙𝑖 𝜷 𝑗 + 𝜀𝑖𝑗
• Ocurrirá que un individuo 𝑖 elige 𝑗 si:
𝑌𝑖𝑗
∗
= max⁡{ 𝑌𝑖1
∗
, 𝑌𝑖2
∗
, … , 𝑌𝑖𝑚
∗
}
con lo cual se observará 𝑌𝑖𝑗 = 1 y 𝑌𝑖𝑘 = 0 ∀𝑘 ≠ 𝑗. También, la
probabilidad de que 𝑖 elija 𝑗 es
𝑃𝑖𝑗 =
𝑒 𝒙 𝑖 𝜷 𝑗
𝑒 𝒙 𝑖 𝜷 𝑘𝑚
𝑘=1
42

Tomando como base a la categoría m,
𝑃𝑖𝑗 =
𝑒 𝒙 𝑖 𝜷
1+ 𝑒 𝒙 𝑖 𝜷 𝑘𝑚−1
𝑘=1
y 𝑃𝑖𝑚 =
1
1+ 𝑒 𝒙 𝑖 𝜷 𝑘𝑚−1
𝑘=1
• Ahora extendemos el modelo agregando más regresores.
• Sea:
• 𝒛𝑖𝑗 = Vector de atributos de categoría 𝑗 tal como los
percibe individuo 𝑖 (p.ej.: comodidad, distancia, precio)
43

• Luego
𝑌𝑖𝑗
∗
= 𝒛𝑖𝑗 𝜶 + 𝒙𝑖 𝜷 𝑗 + 𝜀𝑖𝑗
donde 𝜶, 𝜷⁡son vectores de parámetros, y
𝜀𝑖𝑗~𝑉𝑎𝑙𝑜𝑟⁡𝐸𝑥𝑡𝑟𝑒𝑚𝑜
𝐹 𝜀𝑖𝑗 = exp⁡(−𝑒−𝜀 𝑖𝑗)
𝑓 𝜀𝑖𝑗 = exp⁡ −𝜀𝑖𝑗 − exp −𝜀𝑖𝑗
44

• Se puede demostrar que:
𝑃𝑖𝑗 =
𝑒 𝒛𝑖𝑗 𝜶+𝒙 𝑖 𝜷 𝑗
𝑒 𝒛 𝑖𝑘 𝜶+𝒙 𝑖 𝜷 𝑘𝑚
𝑘=1
• Con estas probabilidades se puede construir la función
de verosimilitud, la cual se maximiza con respecto a
𝜶, 𝜷 𝟏, … , 𝜷 𝒎.
• Para facilitar la interpretación se puede elegir una
alternativa base, digamos la “m”. Entonces se estima el
vector 𝜶 y los 𝑚 − 1 vectores 𝜷.
45

• Ventajas del logit condicional
– Permite la inclusión de variables propias de las alternativas
o categorías.
• Desventajas del logit condicional
– Aún se cumple la Independencia de Alternativas
irrelevantes (poco realista).
– Requiere una base de datos muy especial (datos de cada
categoría para cada individuo). Por ejemplo, en la elección
del transporte, para la variable tiempo de espera se
necesita el tiempo de espera de la persona 𝑖 de cada una
de las alternativas.
46

Ejemplo: Logit Multinomial
• Se pretende estimar los determinantes de la decisión de
estudiar, trabajar o hacer ambas cosas.
• Se usa la base de datos de ENAHO 2012.
• Se regresionan las cuatro posibilidades (1=no hacer
nada, 2= solo estudiar, 3=solo trabajar, 4= estudiar y
trabajar), contra algunas variables como sexo, edad e
ingresos familiares.
47

Ejemplo: Logit Multinomial
Total 18,508 100.00
4 3,604 19.47 100.00
3 7,750 41.87 80.53
2 4,335 23.42 38.65
1 2,819 15.23 15.23
dedica Freq. Percent Cum.
. tab dedica if P208A>14 & P208A<25
Total 16,090 2,418 18,508
4 3,505 99 3,604
3 6,173 1,577 7,750
2 4,264 71 4,335
1 2,148 671 2,819
dedica 0 1 Total
convcas
. tab dedica convcas if P208A>14 & P208A<25
Nada
Estudia
Trabaja
Estudia y Trabaja
Nada
Estudia
Trabaja
Estudia y Trabaja
48

_cons 1.254727 .1877319 6.68 0.000 .886779 1.622674
GASHOG2D 7.84e-06 1.54e-06 5.08 0.000 4.81e-06 .0000109
convcas -2.099632 .1139519 -18.43 0.000 -2.322973 -1.87629
P208A -.0691895 .010161 -6.81 0.000 -.0891048 -.0492743
P207 .6141879 .0529173 11.61 0.000 .510472 .7179039
4
_cons -2.620248 .1678923 -15.61 0.000 -2.949311 -2.291185
GASHOG2D -8.03e-06 1.43e-06 -5.60 0.000 -.0000108 -5.22e-06
convcas -.3608565 .0584973 -6.17 0.000 -.4755091 -.246204
P208A .1778496 .0087947 20.22 0.000 .1606123 .1950869
P207 .8952164 .0469898 19.05 0.000 .803118 .9873148
3
_cons 3.599426 .1871194 19.24 0.000 3.232678 3.966173
GASHOG2D .0000168 1.47e-06 11.43 0.000 .0000139 .0000197
convcas -2.464972 .1308225 -18.84 0.000 -2.721379 -2.208565
P208A -.1931568 .0103402 -18.68 0.000 -.2134232 -.1728905
P207 .2414731 .0517325 4.67 0.000 .1400792 .3428671
2
1 (base outcome)
dedica Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -21786.497 Pseudo R2 = 0.1012
Prob > chi2 = 0.0000
LR chi2(12) = 4907.40
Multinomial logistic regression Number of obs = 18508
Iteration 5: log likelihood = -21786.497
. mlogit dedica P207 P208A convcas GASHOG2D if P208A>14 & P208A<25, b(1)
nada
Estudia
Trabaja
Estudia
y
Trabaja
49

_cons -2.344699 .1707189 -13.73 0.000 -2.679302 -2.010096
GASHOG2D -8.95e-06 1.20e-06 -7.44 0.000 -.0000113 -6.59e-06
convcas .3653404 .1596006 2.29 0.022 .0525289 .6781519
P208A .1239673 .0095442 12.99 0.000 .105261 .1426736
P207 .3727148 .0457605 8.14 0.000 .2830259 .4624037
4
_cons -6.219674 .1598 -38.92 0.000 -6.532876 -5.906472
GASHOG2D -.0000248 1.24e-06 -20.09 0.000 -.0000272 -.0000224
convcas 2.104115 .1273818 16.52 0.000 1.854452 2.353779
P208A .3710064 .0087445 42.43 0.000 .3538676 .3881452
P207 .6537433 .04254 15.37 0.000 .5703664 .7371201
3
2 (base outcome)
_cons -3.599426 .1871194 -19.24 0.000 -3.966173 -3.232678
GASHOG2D -.0000168 1.47e-06 -11.43 0.000 -.0000197 -.0000139
convcas 2.464972 .1308225 18.84 0.000 2.208565 2.721379
P208A .1931568 .0103402 18.68 0.000 .1728905 .2134232
P207 -.2414731 .0517325 -4.67 0.000 -.3428671 -.1400792
1
dedica Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -21786.497 Pseudo R2 = 0.1012
Prob > chi2 = 0.0000
LR chi2(12) = 4907.40
Multinomial logistic regression Number of obs = 18508
. mlogit dedica P207 P208A convcas GASHOG2D if P208A>14 & P208A<25, b(2)
nada
Estudia
Trabaja
Estudia
y
Trabaja
50

GASHOG2D 8.33e-07 1.59e-07 5.25 0.000 5.22e-07 1.14e-06
convcas -.1581544 .0169366 -9.34 0.000 -.1913496 -.1249593
P208A -.0123815 .0010203 -12.14 0.000 -.0143812 -.0103818
P207 .0171736 .0056589 3.03 0.002 .0060824 .0282648
dy/dx Std. Err. z P>|z| [95% Conf. Interval]
Delta-method
dy/dx w.r.t. : P207 P208A convcas GASHOG2D
Expression : Pr(dedica==4), predict(out(4))
Model VCE : OIM
Average marginal effects Number of obs = 18508
. margins, dydx(*) pr(out(4))
51

Ejemplo: Logit Condicional
• Elección del medio de transporte:
• Se permite que haya características de los individuos y
características de las categorías (medios de transporte)
• La base de datos se ve así:
52

ttme = Tiempo en el terminal
(cero para carros)
hinc = ingreso del hogar
gc = costo generalizado
mode = La elección de la persona
53

_cons -.3249561 .5763335 -0.56 0.573 -1.454549 .8046369
hinc -.0511884 .0147352 -3.47 0.001 -.0800689 -.0223079
Train
_cons -5.874813 .8020903 -7.32 0.000 -7.446882 -4.302745
hinc .0053735 .0115294 0.47 0.641 -.0172237 .0279707
Car
_cons -1.744529 .6775004 -2.57 0.010 -3.072406 -.4166531
hinc -.0232107 .0162306 -1.43 0.153 -.055022 .0086006
Bus
Air (base alternative)
gc -.0109274 .0045878 -2.38 0.017 -.0199192 -.0019355
ttme -.0954606 .0104732 -9.11 0.000 -.1159876 -.0749335
transport
mode Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -189.52515 Prob > chi2 = 0.0000
Wald chi2(5) = 105.78
max = 4
avg = 4.0
Alternative variable: transport Alts per case: min = 4
Case variable: id Number of cases = 210
Alternative-specific conditional logit Number of obs = 840
. asclogit mode ttme gc, casevars(hinc) case(id) alternatives(transport)
54

CASO II: CATEGORÍAS AGRUPADAS
55

Caso II: Categorías Agrupadas Logit Anidado
• Consideremos un caso similar al Logit Condicional en
donde algunas de las categorías son muy “próximas” o
similares.
• Estas categorías similares pueden formar un subgrupo o
rama de categorías.
• Conviene pensar en un modelo en donde las decisiones
se hacen en forma secuencial: primero se decide sobre
las “ramas” o “grupos”, y luego por las categorías o
alternativas en ellos.
Luis García - PUCP (c) 56

• Ejemplo: Elección del medio de transporte: {auto propio,
taxi, bus}
Bus Auto
propio
Taxi
Auto

• La decisión inicial es entre movilizarse en Bus o en un
auto. Si se elige auto hay dos opciones, taxi o auto
propio.
• En este escenario, la probabilidad de elegir un taxi
depende de que previamente se haya elegido la opción
bus.

Pr 𝑡𝑎𝑥𝑖 = Pr 𝑡𝑎𝑥𝑖 𝑎𝑢𝑡𝑜 ∗ Pr⁡( 𝑎𝑢𝑡𝑜)
Pr 𝐴𝑢𝑡𝑜⁡𝑃𝑟𝑜𝑝𝑖𝑜 = Pr 𝐴𝑢𝑡𝑜⁡𝑃𝑟𝑜𝑝𝑖𝑜⁡ 𝐴𝑢𝑡𝑜) ∗ Pr 𝐴𝑢𝑡𝑜

• Logit Anidado (nested logit)
• Generalizamos para el caso de random utility model
(RUM).
• Según el modelo, la utilidad del individuo i por elegir la
alternativa j es:
𝑈𝑖𝑗
∗
= 𝒛𝑖𝑗 𝜶 + 𝒙𝑖 𝜷 𝑗 + 𝜀𝑖𝑗

• Donde al igual que antes,
𝒛𝑖𝑗 = Vector de atributos de categoría 𝑗 tal como los
percibe individuo 𝑖 (p.ej.: comodidad, distancia, tiempo),
𝒙𝑖 = Vector de características del individuo 𝑖 (p.ej.: edad,
sexo, nivel educativo, ingresos).

• Por simplicidad en la notación omitiremos el subíndice 𝑖.
Entonces,
𝑈𝑗
∗
= 𝒛𝑗 𝜶 + 𝒙𝜷 𝑗 + 𝜀𝑗
• Llamaremos 𝑉𝑗 = 𝒛 𝑗 𝜶 + 𝒙𝜷 𝑗.
• Se asume que 𝜀𝑗 se distribuye como valor extremo.

• Asumamos que hay en total 𝐽 alternativas o categorías,
las cuales han sido agrupadas en 𝐿 ramas, 𝑙 = 1,2, … , 𝐿.
Cada rama tiene 𝐽𝑙 categorías., donde
𝐽1 + 𝐽2 + ⋯ + 𝐽𝐿 = 𝐽
• La probabilidad de caer en la categoría 𝑗 ∈ 𝑙 se
descompone en:
Pr 𝑗 = Pr⁡( 𝑗|𝑙) ∙ Pr⁡( 𝑙)

• Bajo los supuestos mencionados se puede comprobar
que:
Pr 𝑗 𝑙 =
exp
1
𝜏𝑙
𝑉𝑗
exp
1
𝜏𝑙
𝑉𝑘𝑘∈𝐽 𝑙
• Se define el “valor inclusivo” de la rama 𝑚 como
𝐼𝑉𝑚 = 𝑙𝑛 exp
1
𝜏 𝑚
𝑉𝑘
𝑘∈𝐽 𝑚

• El valor inclusivo 𝐼𝑉𝑚 es una suerte de utilidad de la rama
“𝑚”.
• El parámetro 𝜏𝑙 es nuevo y debe ser estimado.
• Por otra parte, la probabilidad de caer en la rama 𝑙 es:
Pr 𝑙 =
exp⁡( 𝜏𝑙 𝐼𝑉𝑙)
exp⁡( 𝜏 𝑚 𝐼𝑉𝑚)𝑚

• Luego, la probabilidad de caer en la alternativa 𝑗 es
Pr 𝑗 =
exp
1
𝜏𝑙
𝑉𝑗
exp
1
𝜏𝑙
𝑉𝑘𝑘∈𝐽 𝑙
∙
exp⁡( 𝜏𝑙 𝐼𝑉𝑙)
exp⁡( 𝜏 𝑚 𝐼𝑉𝑚)𝑚
• Si 𝜏𝑙 = 1, entonces el modelo se resume al caso de Logit
Condicional, y por lo tanto las ramas podría
desagregarse.

• Normalmente se espera que 𝜏𝑙 se encuentre en el
intervalo unitario (0, 1]
• Si 𝜏𝑙 < 0, un incremento en la utilidad de una alternativa
𝑗 de 𝑙 reduciría la probabilidad de elegir a la alternativa 𝑙.
(No tiene sentido)
• Si 𝜏𝑙 = 0, un incremento en la utilidad en una alternativa
𝑗 de 𝑙 no incrementaría la probabilidad de elegir a la
rama 𝑙 (no tiene sentido).

• Si 𝜏𝑙 > 1, tal incremento en la utilidad de 𝑗 elevaría no
solo la probabilidad de elegir 𝑗 sino también de las demás
alternativas en la rama 𝑙. (Podría generar un espiral
explosivo).

• Por último, el modelo puede ser estimado por máxima
verosimilitud, en donde los parámetros 𝜷 𝑗 se estiman
para cada alternativa menos una (la base, similar al logit
multinomial), y los parámetros 𝜶 son generales para
todas las ramas.
• La función de verosimilitud que se maximiza es:
𝑙𝑛𝐿 = 𝑌𝑖𝑗𝑙ln⁡[Pr 𝑗 𝑙 𝑃𝑟 𝑙 ]
𝑗∈𝐽 𝑙
𝐿
𝑙=1
𝑛
𝑖=1

Ejemplo: Logit anidado
• Usando los mismos datos de elección del medio de
transporte, vamos a definir las siguientes ramas:
Aéreo Carro Bus Tren
Transporte
Público
Otro

• Se utilizarán las mismas variables del ejemplo de Logit
Condicional.
– gc = costo generalizado del transporte
– gtme = tiempo en el terminal
– hinc = Ingreso del hogar.
• En términos de los vectores, será:
𝑧𝑖𝑗 = [𝑡𝑡𝑚𝑒⁡𝑔𝑐] 𝑥𝑖 = [ℎ𝑖𝑛𝑐]

• Usaremos el comando nlogitrum, que es consistente
con el modelo RUM que estamos desarrollando.
(buscarlo con findit nlogitrum).

N = number of observations at each level
k = number of times alternative is chosen
total 840 210
Train 210 63
Public 420 Bus 210 30
Car 210 59
Other 420 Air 210 58
type N transport N k
tree structure specified for the nested logit model
. nlogittree transport type, choice(mode)
. nlogitgen type = transport(Other: Air | Car, Public: Train | Bus)

gen travel = 1 if transport=="Air"
replace travel = 2 if transport=="Train"
replace travel = 3 if transport=="Bus"
replace travel = 4 if transport=="Car"
label define travel 1 "air" 2 "train" 3 "bus" 4 "car", replace
tab transport, gen(c_) /*en nlogitrum hay que introducir las ctes para
cada categoría manualmente como dummies*/
rename c_1 c_air
rename c_2 c_bus
rename c_3 c_car
rename c_4 c_train
gen hinc_air=hinc*c_air /*para el ingreso es igual, sino entiende que es
constante para cada categoría*/
gen hinc_bus=hinc*c_bus
gen hinc_car=hinc*c_car
gen hinc_train=hinc*c_train

LR test of homoskedasticity (iv = 1): chi2(2)= 4.99 Prob > chi2 = 0.0827
/Public .8827306 .2207062 4.00 0.000 .4501543 1.315307
/Other 1.638208 .4323238 3.79 0.000 .7908685 2.485547
type
IV params:
c_train .1287731 .7574739 0.17 0.865 -1.355849 1.613395
hinc_train -.0490925 .0165844 -2.96 0.003 -.0815973 -.0165877
c_car -6.210651 1.180069 -5.26 0.000 -8.523543 -3.897759
hinc_car .0055489 .0168452 0.33 0.742 -.027467 .0385649
c_bus -1.355943 .8589491 -1.58 0.114 -3.039452 .3275666
hinc_bus -.0220306 .0177663 -1.24 0.215 -.0568519 .0127908
gc -.0178538 .0065678 -2.72 0.007 -.0307264 -.0049811
ttme -.103126 .016843 -6.12 0.000 -.1361377 -.0701143
travel
mode Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -187.03247 Prob > chi2 = 0.0000
Dependent variable = mode LR chi2(10) = 208.1787
Levels = 2 Number of obs = 840
Nested logit, RUM consistent
nlogitrum mode ttme gc hinc_bus c_bus hinc_car c_car hinc_train c_train,
group(id) nests(travel type)

Extensiones multinomiales parte i

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Extensiones multinomiales parte i

Similar a Extensiones multinomiales parte i (20)

Último

Último (20)

Extensiones multinomiales parte i