Modelación flexible de elecciones discretas: una revisión crítica

MODELACIÓN FLEXIBLE DE ELECCIONES DISCRETAS:

UNA REVISIÓN CRÍTICA

Ricardo Álvarez Daziano y Marcela A. Munizaga
Departamento de Ingeniería Civil, Universidad de Chile. Casilla 228-3, Santiago, Chile.
mamuniza@cec.uchile.cl, ralvarez@cec.uchile.cl
http://tamarugo.cec.uchile.cl/~dicidet/

RESUMEN

El enfoque de modelación comúnmente aceptado en elecciones discretas se basa en la teoría
de la utilidad aleatoria, que supone que la utilidad de un individuo puede ser descompuesta en
una componente determinística y otra aleatoria. La distribución que se asuma sobre el término
de error juega un rol fundamental, dado que de ella dependen los distintos modelos que es
posible formular. Por un lado están los modelos tradicionales de la familia Logit, que ofrecen
probabilidades de elección cerradas, pero con supuestos simplificatorios –identidad e
independencia- que no siempre son sostenibles. Por otro, están los modelos más sofisticados,
como por ejemplo Mixed Logit, Logit Heteroscedástico de Valor Extremo y Probit, con una
estructura de error más general, pero cuya estimación resulta a su vez más compleja. En el
desafío de incorporar estructuras de error más generales, es importante analizar qué
estructuras sería deseable poder estimar y por qué. En este trabajo se discute las principales
fuentes correlación y heteroscedasticidad, así como la estructura de covarianza aceptada por
modelos como el Logit Multinomial, Logit Jerárquico, Probit, Logit de Nidos Cruzados, Logit
Heteroscedástico de Valor extremo y Mixed Logit. Se discute las principales propiedades de
los modelos y aspectos de estimación como la identificabilidad de los parámetros. Con esta
revisión se desea aclarar que la búsqueda de mayor flexibilidad no es un fin en sí mismo: cada
modelo tiene asociadas potencialidades y desventajas. Este trabajo pretende difundir el uso
adecuado de modelos, haciendo notar la importancia de la justificación de los supuestos que
se realicen sobre el término de error.

PALABRAS CLAVE
elecciones discretas, correlación, heteroscedasticidad

1. INTRODUCCIÓN

La econometría de elecciones discretas ha experimentado un crecimiento notable en los
últimos años, que sólo ha sido incorporado tímidamente a la práctica. Esto se puede explicar
por distintas razones, pero un factor crítico parece ser el que no se conocen claramente las
ventajas y potencialidades asociadas a los modelos más nuevos. Los modelos de elección
discreta utilizados en la modelación de demanda de transporte, están construidos de acuerdo a
la teoría de la utilidad aleatoria (McFadden, 1974). Es así como se reconoce la complejidad de
conocer la función de utilidad completa y se considera la presencia de múltiples fuentes de
error. Por ello se asume que la utilidad de un individuo puede ser descompuesta en una
componente determinística (observada) y otra aleatoria (no observada). El término estocástico
recoge la incapacidad del modelador para observar todas las variables que influyen en la
decisión, errores de medición, diferencias entre individuos, percepciones incorrectas de
atributos y la aleatoriedad inherente a la naturaleza humana (Manski, 1977). La distribución
que se asuma sobre el término de error juega un rol fundamental, dado que de ella dependen
los distintos modelos que es posible formular (Ortúzar y Willumsen, 1994; McFadden, 2000).

Por un lado están los modelos tradicionales de la familia Logit: Multinomial (McFadden,
1974) y Jerárquico (Williams, 1977; McFadden, 1978), que ofrecen probabilidades de
elección cerradas, pero con supuestos simplificatorios - identidad e independencia - que no
siempre son sostenibles. Por otra parte, se encuentra el modelo Probit (Daganzo, 1979), con
una estructura de error general, pero cuya estimación resulta bastante compleja. En este
contexto, caracterizado además por avances tecnológicos en computación y métodos
numéricos, se ha cuestionado el uso de modelos simplificados y se han desarrollado algunos
modelos más complejos propuestos en la literatura a nivel teórico desde hace algún tiempo,
haciendo estimables por ejemplo los modelos Mixed Logit (Ben Akiva y Bolduc, 1996;
Brownstone y Train, 1999), Logit Heteroscedástico de Valor Extremo (Bhat, 1995; Hensher,
1996) y Probit (Bunch, 1991; Munizaga y Ortúzar, 1997). Sin embargo en la práctica
profesional se siguen utilizando los modelos más simples.

Si se desea incorporar modelos que permitan estructuras de error más generales, es importante
analizar qué estructuras sería deseable poder estimar y por qué. La posible existencia de
correlación y heteroscedasticidad (distinta varianza) en los términos de error se puede dar
entre alternativas y entre observaciones. En la segunda sección del presente trabajo se discute
las principales fuentes de correlación y heteroscedasticidad que se puede detectar a nivel
práctico. En la sección tres se efectúa una revisión de modelos de elección discreta y su
estructura de covarianza. En la sección cuatro se muestra cómo se complica la estimación de
los modelos al plantear estructuras de covarianza más sofisticadas. Por último, en la sección 5
se entregan las principales conclusiones en un marco de recomendaciones de modelación
cuando se espera la presencia de correlación o heteroscedasticidad.

2. HETEROGENEIDAD DEL TÉRMINO DE ERROR

Como se dijo en la introducción, en algunos casos sería deseable levantar los supuestos de
independencia y homoscedasticidad e incorporar lo que se puede denominar heterogeneidad
del término de error, agregando flexibilidad a la modelación. A continuación se discute
algunos de esos casos.

En primer lugar, es necesario recordar que si se asume un supuesto simplificatorio que obvia
la estructura real de la matriz de covarianza, el modelo perderá su capacidad de reproducir la
realidad de un modo correcto y adecuado. Si se aplica un modelo para una situación particular
en la cual los supuestos con los que fue construido no se cumplen, entonces se cae en un error
de especificación del modelo y eventualmente se obtendrá parámetros estimados y
probabilidades de elección inconsistentes (Horowitz, 1981).

A modo de ejemplo, se puede mencionar los efectos de la conocida propiedad de
Independencia de Alternativas Irrelevantes (IAI), propia del modelo Logit Multinomial y, en
general, de cualquier modelo que suponga independencia de los términos de error (Ben-Akiva
y Lerman, 1985). Horowitz (1981) plantea que hay dos formas potenciales de solucionar este
problema: incluir variables independientes adicionales en un intento por recoger aquellas
variables que están causando el levantamiento del supuesto iid, o bien trabajar con modelos
más generales que el Logit, que no necesiten dicho supuesto. Este último camino, que puede
describirse como la relajación del supuesto iid de los términos de error, puede subdividirse en
(Bhat, 1997):
• Errores correlacionados idénticamente distribuidos.
• Errores independientes no idénticamente distribuidos.
• Errores correlacionados no idénticamente distribuidos.
Estos grupos de supuestos estadísticos del comportamiento se asocian a grupos de modelos
específicos. A continuación se describe distintas fuentes de heteroscedasticidad y correlación.

Heteroscedasticidad
Hay características de modelación que pueden implicar que no todas las alternativas tengan la
misma varianza del término de error. Esto es lo que puede llamarse heteroscedasticidad entre
alternativas (Munizaga et al, 2000). Un ejemplo claro es el de un individuo que se ve
enfrentado a un experimento de elección en el cual una de las alternativas es la que él o ella
utiliza habitualmente. Es probable que su percepción de los atributos sea mucho más precisa
para esa opción que para las restantes, presentando por tanto una menor varianza. Otra causa
que se puede identificar es el caso en que algunas alternativas presentan mayor varianza que
otras en sus atributos, como por ejemplo en el caso de alternativas de transporte que
comparten infraestructura (transporte de superficie) versus alternativas que cuentan con vía
exclusiva (metro).

En el caso de heteroscedasticidad entre observaciones, probablemente el ejemplo más claro es
la estimación con datos mixtos de Preferencias Reveladas y Preferencias Declaradas. Como se
trata de bases de datos de distinta naturaleza, no se puede suponer que ambas tengan la misma
varianza del término de error. Otro ejemplo, que es posible encontrar, es cuando algunos
usuarios poseen información más precisa sobre los atributos de las alternativas que otros
(producto por ejemplo de dispositivos de información en línea).

Correlación
En términos estadísticos, levantar el supuesto de independencia de los términos de error
corresponde a aceptar términos fuera de la diagonal en la matriz de covarianza. Recogiendo
los trabajos de Horowitz (1981) y Munizaga (1997), las fuentes de correlación pueden ser
agrupadas en tres grandes grupos:

Alternativas similares: cuando hay alternativas que poseen variables no observadas comunes
o correlacionadas. Los casos más frecuentes en modelación de transporte son: alternativas de
transporte privado versus alternativas de transporte público, presencia de alternativas
combinadas, y modelación de elección de ruta en que algunas rutas comparten arcos. Algunos
de estos casos es posible representarlos con una estructura de covarianza diagonal por bloques
(en que no hay correlación cruzada).

Variaciones en los gustos: si existe variaciones en los gustos y no se recoge en la modelación,
entonces se obtiene la presencia de una variable no observada, propia del individuo (el
parámetro de gusto individual), que es fuente de correlación entre alternativas y entre
observaciones. El enfoque usual es considerar que los gustos son fijos y estables en el tiempo,
y para modelar las potenciales diferencias lo que se hace es segmentar (Swait y Bernardino,
2000), sin desconocer que puede ser deseable modelar variaciones dentro de cada segmento.

Múltiples respuestas en PD: Cuando a una persona se le aplica una encuesta de preferencias
declaradas (PD), se le somete a varios juegos de elección. Ciertamente en este caso es
razonable sostener que las respuestas de un mismo individuo podrían estar correlacionadas.
Sin embargo, no existe consenso en la forma de representar esa correlación en un modelo
estimable, y en general los estudios no han llegado a resultados concluyentes (ver Ortúzar et
al, 1997). Munizaga (1997) plantea que el problema puede ser representado asumiendo la
presencia de variaciones en los gustos entre individuos, al suponer que todas las
observaciones de un mismo individuo corresponderán a un mismo valor de los parámetros de
gusto. Una aplicación en esta línea es posible encontrarla también en el trabajo de Revelt y
Train (1998).

3. MODELOS DE ELECCIÓN Y SU ESTRUCTURA DE COVARIANZA

3.1. El Logit Multinomial (MNL)

Como el MNL supone errores Gumbel independientes e idénticamente distribuidos, entonces
no acepta correlación ni heteroscedasticidad. Luego, la matriz de covarianza asociada a este
modelo es diagonal. Además, como la varianza del término Gumbel se asocia con el factor de
escala, entonces se tiene:
σ 2 0 L 0 
 
0 σ2 O M  π2
Σ= = σ 2 I J n ×J n = 2 I J n × J n (1)
 M O O 0 6λ
 
0 L 0 σ 2
 
Para que el modelo sea identificable, debe fijarse el valor del factor de escala. En la mayoría
de los casos implícitamente se hace el supuesto que el factor de escala (λ) es igual a uno.

3.2. El modelo Logit Jerárquico (LJ)

El modelo Logit Jerárquico fue construido para representar correlación entre grupos disjuntos
de alternativas, las que se asocian a un nido. Consideremos, entonces, dos alternativas i,j en el
nido k. A cada una de estas alternativas se le asocia una función de utilidad:

U in = Vin + µkn + ξin (2)
U jn = V jn + µkn + ξ jn (3)

donde ξin ~ Gumbel (0,λk) y µkn ~ f(0, σµ2 ), una distribución tal que µkn + máxi ξin ~ Gumbel
(0,Λ). Es claro que ambas alternativas comparten el término µkn, que por cierto es el causante
de la correlación presente entre i y j. Por lo tanto al calcular la covarianza se obtiene:
cov(U in ,U jn ) = var( µkn ) = σ µ
2
(4)

Además, por construcción del modelo, la varianza es
var(U in ) = var( µkn ) + var( ξin ) = σµ + σξ2 = σε2
2
(5)

cuyo valor resulta independiente de la alternativa. En otras palabras, el LJ resulta
homoscedástico por construcción. Luego, en términos generales
 var( µkn ) i , j ∈ Ck , i ≠ j

cov(U in ,U jn ) = var( µkn ) + var(ξin ) i , j ∈ Ck , i = j (6)
 0 ~

En resumen, este modelo permite una matriz de covarianza homoscedástica diagonal por
bloques, modelando correlación positiva entre alternativas. Si se extiende el modelo a más
niveles, entonces es capaz de recoger casos en que algunas alternativas son más similares
entre sí que otras 1 (manteniendo siempre la estructura diagonal por bloques, es decir, sin
correlación cruzada). La relación entre la magnitud de la correlación y el parámetro
estructural del modelo φk = Λ/λk está dada por:
1 − φk2 i, j ∈ Ck , i ≠ j
corr (Uin , U jn ) =  (7)
 0

y consecuentemente, la covarianza está dada por:
π2
cov(U in ,U jn ) = (1 − φ ) 2
2
(8)
6Λ
k

Por ejemplo, consideremos una situación de elección con cuatro alternativas. Supongamos
además que éstas pueden agruparse en dos nidos de dos alternativas cada uno. En este caso
específico la matriz de covarianza tiene la forma:

 1 (1 − φ12 ) 0 0 
2  
π  (1 − φ1 )
2
1 0 0 
Σ= (9)
6Λ2  0 0 1 (1 − φ22 ) 
 
 0
 0 (1 − φ22 ) 1  

Para una excelente revisión de este modelo se propone consultar Ortúzar (2001), Munizaga y
Ortúzar (1999) y Carrasco y Ortúzar (2002).

1 La estructura de nidos de una elección multidimendional debe ser interpretada como distintos niveles de
similitud y no como jerarquías entre las decisiones.

3.4. El modelo Logit de Nidos Cruzados (CNL)

Desarrollado por Vovsha (1997), ampliado en trabajos de Papola (2000) y Koppelman y Wen
(2000a) e implementando una idea original de Williams (1977)2 , este modelo GEV
corresponde a una generalización del LJ y permite que una alternativa pertenezca a la vez a
más de un nido con diferentes grados de similitud α, permitiendo modelar estructuras de
correlación cruzada. La expresión general para la matriz de covarianza de un Logit de Nidos
Cruzados es (Papola, 2000):
π2
cov(U i ,U j ) =
6Λ2
∑α 1/ 2
ik ⋅ α1jk/ 2 (1 − φk2 ) (10)
k

Para la diagonal se cumple que:
π2 π2 π2
cov(U i ,U i ) = var( U i ) =
6Λ2
∑ α1ik/ 2 ⋅α1ik/ 2 (1 − 0) = 6Λ2
∑αik = 6 Λ2
(11)
k k

Un punto importante de destacar, es que existe cierta confusión en la aplicación del modelo
CNL. En modelos de elección de ruta es práctica usual considerar una matriz de covarianza
proporcional a la utilidad 3 (Papola, 2000; Yai et al, 1997). Para construir esta matriz se
necesita que la función de utilidad pueda ser descompuesta en elementos separables; en el
caso de elección de ruta típicamente se considera la impedancia de cada arco. Esto ha
motivado una metodología de estimación del CNL que calcula los parámetros αik imponiendo
que la covarianza del modelo corresponda a una matriz dada.

Para facilitar la estimación, se utiliza una forma artificial de construir los nidos, en que las
alternativas de elección (rutas) definen los nidos; mientras que los arcos (componentes
separables que definen una ruta) son considerados alternativas elementales. En términos más
simples, los nidos se crean a partir de las verdaderas alternativas, y como alternativas se
consideran elementos que permitan obtener una matriz proporcional a la utilidad. La
confusión se crea al asociar esta metodología como una condición del modelo, lo que puede
llevar a asumir correlación cruzada cuando en efecto no la hay. No está de más señalar, que el
modelo también permite trabajar con una estructura de nidos tradicional.

Existe otro modelo, denominado Logit Combinatorial Pareado (PCL), propuesto
originalmente por Chu (1989) y retomado en estudios recientes como el trabajo de Bekhor
(1999) y Koppelman y Wen (2000b), que junta las alternativas de a pares, asociándoles un
parámetro de similitud entre ellas. Este modelo no se ha incluido en este trabajo, debido a que
su estructura de covarianza puede ser fácilmente modelada como un caso particular del CNL.

3.5. El modelo Logit Heteroscedástico de Valor Extremo

Este modelo, cuya implementación es reciente (ver Munizaga et al, 2000) se basa en suponer
que los errores distribuyen independiente, pero no idénticamente, Valor Extremo de Tipo I
(Bhat, 1997; Hensher, 1996). Los elementos en la diagonal de la matriz de covarianza están

2
Williams describe un modelo al que llama Logit de Correlación Cruzada, sin asumir directamente una
distribución para los errores.
3
Se asume que la matriz de covarianza es proporcional a las impedancias de las rutas (por ejemplo, el largo o
costo de cada ruta define cada varianza; y el largo o costo común entre rutas, cada covarianza).

dados por:
π2 2
σi2 = θi (12)
6

Consecuentemente los elementos fuera de la diagonal son cero. Nótese que para hacer
identificable el modelo, debe fijarse uno de los factores de escala θi. La propiedad IAI no rige
en este modelo a menos que todos los parámetros de escala sean iguales. Aún más, Bhat
(1995) demostró que un cambio marginal en la utilidad determinística de una alternativa
induce cambios en la partición de mercado del resto que serán más pequeños para aquellas
alternativas con un parámetro de escala mayor.

3.6. El modelo Probit

El modelo Probit asume que el vector aleatorio εn que contiene a los errores de cada
alternativa, distribuye en conjunto Normal multivariada, con una matriz de covarianza
general.
( )
εn = (ε1n ,K , εin , K, εJ n n ) t , εn ~ N 0 J n ×1 , Σ J n × J n (13)

 σ12 σ12 L σ1 J n 
 
σ σ22
M 
Σ n =  12 (14)
 M O M 
 
σ1 J n
 L L σJ2n  
Sin embargo, no todos los elementos de la matriz de covarianza pueden ser estimados
econométricamente. Existen restricciones de identificabilidad que se deducen a partir de
estudiar el modelo desviado con respecto a una alternativa (ver Bolduc, 1992). Esto hace
particularmente interesante la discusión de la estructura de la matriz de covarianza esperada
en cada caso particular de modelación.

3.7. El modelo Mixed Logit (ML)

El modelo Mixed Logit se deriva de suponer un término de error iid Gumbel, tal como lo hace
el MNL, pero con una componente de error adicional que es la que permite trabajar con
mayor flexibilidad (Brownstone y Train, 1999). Dada la siguiente función de utilidad:
U in = Vin + ηin + εin (15)
donde η ~ f(η/θ*) y ε es iid Gumbel. Para construir la matriz de covarianza consideremos que
ηin = µn t zin , que zn es la matriz de dimensión K×J que contiene a los vectores zin para cada
alternativa perteneciente al conjunto de elección del individuo (i ∈ Cn ) y que εn es un vector
aleatorio iid Gumbel con matriz de covarianza Σ ε que contiene a los elementos εin . Si se
asume que cada término de µn tiene una función densidad con media cero y varianza σ2 k y que
el vector en su conjunto tiene una matriz de covarianza Ω, entonces la matriz de covarianza
del modelo (Σ), puede escribirse como:
Σ = z n ⋅ Ω ⋅ z n + Σ ε = zn ⋅ Ω ⋅ z n + σ ε2 I
t t
(16)

Dependiendo de los supuestos considerados sobre los distintos términos de error, se puede
modelar correlación y heteroscedasticidad (Brownstone y Train, 1999; Munizaga y Álvarez,
2000); su estructura puede entenderse como una parametrización de la matriz de covarianza,
que puede ser tan general como se desee. En otras palabras, el ML permite trabajar con
estructuras complejas de heterogeneidad, tales como correlación cruzada y variaciones en los
gustos; sin embargo, la flexibilidad en términos de la matriz de covarianza que el modelo
puede representar está limitada por las estructuras que se puedan generar a partir de los
términos de error adicionales, y sujeta a las restricciones de identificabilidad.

4. EL COMPROMISO ESTIMABILIDAD/FLEXIBILIDAD

En general se puede afirmar que al adquirir mayor flexibilidad en el término de error
modelado, se pierden las facilidades de estimación asociadas a los modelos más simples. Los
modelos MNL y LJ pueden ser estimados simplemente mediante máxima verosimilitud,
debido a que sus probabilidades de elección presentan expresiones matemáticas cerradas. Por
otro lado, los modelos más flexibles requieren de simulación para la estimación de los
parámetros. Esto debido a que la expresión de la probabilidad de elección corresponde a una
integral que carece de primitiva. Por ello es posible hablar de un compromiso entre
estimabilidad y flexibilidad.

4.1. Estimación por máxima verosimilitud simulada

Existen distintos métodos que intentan resolver el problema de la estimación de modelos con
funciones objetivo analíticamente intratables. Dependiendo del contexto de modelación, la
función objetivo puede ser una función de logverosimilitud, una función de pseudo-
logverosimilitud o una función momento condicional (Bhat, 2000). Asimismo, es posible
reconocer tres grupos metodológicos de evaluación de integrales multidimensionales:

Métodos de integración por cuadratura : Relacionado con la teoría de polinomios
ortogonales, estos métodos corresponden a una integración numérica a través de interpolación
polinomial. Sin embargo, la construcción de fórmulas de integración eficientes basadas en
interpolación polinomial para integrales multidimensionales es sustancialmente más compleja
que para problemas unidimensionales, donde este tipo de métodos es altamente utilizado.

Métodos de Simulación de Monte Carlo (o Pseudo Monte Carlo): Los métodos de
integración basados en simulación de Monte Carlo obtienen el integrando para una secuencia
aleatoria de puntos y calculan el promedio de estos valores. La idea básica que hay detrás es
el reemplazo de una esperanza continua por un promedio discreto para puntos aleatoriamente
seleccionados. El método se ve respaldado por la ley de los grandes números, la que
prácticamente asegura la convergencia. En términos prácticos no se dispone de secuencias de
números aleatorios, sino de secuencias determinísticas pseudoaleatorias que aparecen como
aleatorias a la luz de los tests estadísticos.

Simulación de Cuasi Monte Carlo: El concepto básico de estos métodos (MCMC) es el
mismo de la simulación de Monte Carlo: se evalúa la integral multidimensional reemplazando
con un promedio de los valores del integrando calculados en puntos discretos. Sin embargo,
en vez de utilizar números pseudoaleatorios se recurre a secuencias que distribuyen de manera

“inteligente” más uniformemente en el dominio de integración. El no usar números
pseudoaleatorios para definir los puntos discretos en los que se evalúa el integrando no
conlleva ningún tipo de problemas; de hecho, lo importante es que en esta secuencia cuasi
aleatoria los números elegidos sean lo suficientemente representativos del espacio de
integración, de modo que, por medio de una mayor dispersión de estos puntos, se asegure una
convergencia más rápida. Las secuencias cuasi aleatorias más utilizadas en el último tiempo
son las denominadas series de Halton (Bhat, 2000).

Para el caso del modelo HEVL, la integral que describe su probabilidad de elección no puede
ser evaluada directamente, pero puede ser reescrita de forma de evaluarla usando cuadratura
de Gauss-Laguerre (Bhat, 1997; Munizaga et al, 2000).

El método de estimación del Probit más difundido en la actualidad es el simulador de
probabilidades GHK (ver Munizaga y Ortúzar, 1997), el cual entrega buenos resultados, aún
considerando números bajos de repeticiones. Sin embargo, para casos extremos presenta
dificultad para encontrar las probabilidades. En el trabajo de Munizaga y Alvarez-Daziano
(2001) se encontró dos casos específicos en los que falla el simulador: alternativas con
probabilidad muy baja de ser escogidas (lo que en la literatura se denomina outliers ) y
alternativas con un grado de correlación muy alto. En primer lugar, si una alternativa tiene
una probabilidad muy baja de ser escogida, entonces se afecta la matriz de covarianza y por
ello no siempre es posible descomponerla. Por otro lado, si la correlación es muy alta,
numéricamente ambas alternativas aparecen virtualmente iguales, por lo que la matriz de
covarianza se vuelve semidefinida positiva. Así, al presentar columnas linealmente
dependientes se viola que sea definida positiva, ya que deja de ser de rango completo y el
vector de error sólo se mueve en un subespacio del originalmente definido. Dado que el
simulador GHK se basa justamente en que la matriz de covarianza sea definida positiva, se
vuelve imposible encontrar la factorización de Cholesky que permite reducir el problema.

En cuanto a los procedimientos de estimación de los modelos Mixed Logit la recomendación
de la literatura es utilizar métodos de Máxima Verosimilitud Simulada a través de Métodos
Pseudo Monte Carlo (MPMC) y Cuasi Monte Carlo (MCMC). El análisis de convergencia en
el contexto de errores estocásticos correlacionados realizado por Munizaga y Alvarez-
Daziano (2001), mostró que el uso de series de Halton asegura una convergencia más rápida,
por lo que se requiere un menor número de repeticiones de la simulación en comparación al
uso de números pseudoaleatorios, siendo esto coincidente con lo reportado en otros estudios.
Esta situación se explica por dos causas: En primer lugar, se encuentra el hecho intrínseco de
las series de Halton, que permiten cubrir el dominio de integración de una forma inteligente.
Sin embargo, esta explicación no es suficiente, ya que la convergencia más rápida de los
MCMC no está asegurada a no ser que el integrando se trate de una función con buenas
propiedades matemáticas. Es así como se encuentra la segunda explicación que vuelve los
MCMC la alternativa más atractiva: los modelos Mixed Logit poseen un integrando tipo
Logit. Esta función es suave, diferenciable y bien comportada, lo que permite asegurar una
tasa de convergencia menor.

4.2. Identificabilidad de los parámetros

Tanto en la literatura como en la aplicación práctica, el análisis de la identificabilidad suele
restringirse a la normalización de uno de los parámetros para fijar los efectos de escala

propios de los modelos de elección discreta. Esto se cumple en general en los modelos con
estructuras de error más simples (Ben-Akiva y Lerman, 1985); sin embargo, al agregar
flexibilidad aparecen otros efectos que no permiten identificar la totalidad de los parámetros.

Bunch (1991) presenta reglas claras que permiten concluir de qué forma se pueden identificar
los parámetros, considerando condiciones de orden y rango. La condición de orden,
necesaria para la identificabilidad, establece una cota para el número de parámetros
identificables en un modelo determinado. Para efectuar el análisis conviene separar los
términos de la matriz de covarianza que son constantes a lo largo de la muestra de los que no
lo son. Las condiciones de orden sólo aplican a la porción constante de la matriz de
covarianza y, considerando un conjunto universal de elección (C, compuesto de J
alternativas), establece el siguiente máximo para el número de parámetros identificables:
J ( J − 1)
s* = −1 (17)
2
Este número es igual a la cantidad de elementos en la matriz de covarianza diferenciada con
respecto a una alternativa cualquiera, menos un término que se escoge arbitrariamente a fin de
fijar la escala del modelo 4 .

La condición de rango, suficiente para la identificabilidad, es más restrictiva que la
condición de orden y se basa en el análisis del rango de la matriz de covarianza diferenciada,
pasando por alto su estructura interna. De esta forma, de acuerdo al rango se obtiene el
número de columnas linealmente independientes que pueden ser usadas para encontrar los
parámetros de la matriz. Bolduc (1992) y Bunch (1991) describen un mecanismo para
encontrar la condición de rango, para el cual se estudia la matriz Jacobiana de la matriz de
covarianza desviada. El número de parámetros que pueden ser estimados resulta igual al
rango de la matriz Jacobiana, menos uno (al fijar la escala del modelo).

Si de las condiciones de orden y rango se concluye que se debe imponer restricciones de
identificabilidad (normalizaciones), entonces se requiere la condición de matriz definida
positiva (Ben Akiva et al, 2001) para determinar el conjunto aceptable de normalizaciones.
La normalización se requiere debido a que hay infinitas soluciones posibles asociadas a la
estructura de covarianza. Así, la normalización permite encontrar una solución única, sin
cambiar la estructura de covarianza de la diferencia de utilidades. Una normalización será
válida, entonces, si la matriz de covarianza diferenciada es igual a la matriz no normalizada
(teórica) del modelo y si aquélla es definida positiva.

La aplicación de estas condiciones se justifica porque la identificabilidad de los parámetros no
siempre es intutiva. Por ejemplo, si se trabaja con alternativas agrupadas en dos nidos según
un Nested Mixed Logit 5 (ver Munizaga y Alvarez-Daziano, 2001), no es posible estimar la
varianza propia de cada nido (que es la que induce correlación). La explicación simple es que
en la matriz de covarianza desviada con respecto a una alternativa, que es la que el modelo
“observa” durante la estimación, sólo aparece la suma de las varianzas, permitiendo
identificar esa suma, pero no cada componente por separado. El peligro está en la factibilidad
de estimar este modelo, ocultando el problema y conduciendo a conclusiones erróneas.
4
En el caso de parámetros aleatorios, la matriz de covarianza varía de individuo a individuo. Esto ofrece un
límite que en efecto no representa una restricción (Ben Akiva et al, 2001)
5
Este modelo se construye agregando una componente de error adicional propia de cada nido.

5. CONCLUSIONES

Cada modelo de elección discreta posee sus propiedades, ventajas y limitaciones que deben
ser consideradas a la hora de tomar el desafío de incorporar a la modelación los últimos
avances en econometría. Hay que estudiar con cuidado las hipótesis sobre las cuales se basa la
forma actual de modelar, analizando rigurosamente cada especificación particular. Así, se
puede promover el uso de herramientas más sofisticadas en aquellos casos en los que se
justifica adecuadamente los supuestos utilizados y se ha analizado sus consecuencias previo a
la estimación de los parámetros. Lo primero tiene que ver con cuánta flexibilidad (estructura
de la matriz de covarianza) se necesita de acuerdo al contexto de modelación; por otro lado, se
debe tener claro cuáles serán las implicancias en términos de la estimación del modelo.

En este trabajo se ha ofrecido una síntesis de los modelos de elección discreta más utilizados,
poniendo énfasis en el compromiso flexibilidad/estimación. Se ha descrito la estructura de
error asociada a cada uno de ellos y las técnicas de estimación de los modelos más flexibles.
También se trató el tema de la identificabilidad de los parámetros. En conjunto se hace ver la
necesidad de estudiar en profundidad la matriz de covarianza, como una herramienta útil para
contestar la difícil pregunta de qué modelo utilizar para una situación dada.

Finalmente, es posible dar algunas recomendaciones de modelación. Ante la presencia de
correlación entre alternativas es posible utilizar los modelos Logit Jerárquico, Logit de Nidos
Cruzados, Probit y Mixed Logit. Sin embargo, nótese que cada uno va a tener sus propios
supuestos y que se requiere un número elevado de observaciones para recoger adecuadamente
los parámetros asociados a correlación. Para modelar variaciones en los gustos es posible usar
Probit, aunque el Mixed Logit aparece como una aplicación natural. A través de un Mixed
Logit en panel de datos es posible abordar el problema aún pendiente de correlación entre
observaciones. Si se desea modelar heteroscedasticidad, entonces se debe recurrir a modelos
cuya matriz de covarianza acepte elementos distintos en la diagonal: Mixed Logit y el modelo
Logit Heteroscedástico de Valor extremo son una posibilidad.

AGRADECIMIENTOS

Esta investigación ha sido parcialmente financiada por Fondecyt el programa Milenium.

REFERENCIAS
Bekhor, S. (1999) Integration of Behavioral Transportation Planning Models with the Traffic Assignment Problem.
Tesis Doctoral, Technion – Israel Institute of Technology, Haifa.
Ben-Akiva, M.E. y D. Bolduc (1996) Multinomial probit with a logit kernel and a general parametric
specification of the covariance structure. Working Paper, Department d’Economique, Université Laval,
Québec.
Ben-Akiva, M., D.Bolduc, y J. Walker (2001) Specification, Identification, and Estimation of the Logit Kernel
(or Continous Mixed Logit) Model. Working Paper presentado en el 5th Invitational Choice Symposium,
Asilomar, California.
Ben-Akiva, M.E. y S.R. Lerman (1985) Discrete Choice Analysis: Theory and Application to Travel Demand.
The MIT Press, Cambridge, Mass.
Bhat, C.R. (1995) A heteroscedastic extreme value model of intercity travel mode choice. Transportation
Research 29B, 461-483.
Bhat, C.R. (1997) Recent methodological advances relevant to activity and travel behavior analysis. Resource
Paper Prepared for the IATBR Conference, Austin, Texas, Septiembre.

Bhat, C.R. (2000) Quasi-random maximum simulated likelihood estimation of the mixed multinomial logit
model. 9 th International Association for Travel Behaviour Research Conference, Queensland, Australia.
Bolduc, D (1992) Generalized autoregressive error in the multinomial probit model. Transportation Research 26B,
155-170.
Brownstone, D. y K.E. Train (1999) Forescating new product penetration with flexible substitution patterns.
Journal of Econometrics 89, 109-129.
Bunch, D.A. (1991) Estimability in the multinomial probit model, Transportation Research 25B, 1-12.
Carrasco, J.A. y J.deD. Ortúzar (2002) A review and assessment of the nested logit model. Transport Reviews 22
(en imprenta).
Chu, C. (1989) A paired combinatorial logit model for travel demand analysis. Proceedings of the Fifth World
Conference on Transportation Research 4, Ventura, CA. 295-309.
Daganzo, C.F. (1979) Multinomial Probit: The Theory and its Applications to Travel Demand Forecasting.
Academic Press, Nueva York.
Hensher (1996) Extending valuation to controlled value functions and non-uniform scaling with generalised
unobserved variances, Working paper ITS-WP-96-9, Institute of Transport Studies, University of Sydney.
Horowitz, J. (1981) Identification and diagnosis of specification error in the multinomial logit model.
Transportation Research 15B, 345-360.
Koppelman, F.S. y C.H. Wen (2000a) The generalized nested logit model. 79 th Annual Meeting Transportation
Research Board, Washington, Enero 2000.
Koppelman, F.S. y C.H. Wen (2000b) The paired combinatorial logit model: properties, estimation and
application. Transportation Research 34B, 75-89.
Manski, C. (1977) The structure of random utility models. Theory and Decision 8. 229-254.
McFadden, D. (1974) Conditional logit analysis of qualitative choice behavior. En P Zarembka (ed.), Frontiers
in Econometrics. Academic Press, Nueva York
McFadden, D. (1978) Modelling the choice of residential location. En A.Karlqvist, L.Lundqvist, F.Snickars y
J.Weibull (eds.), Spatial interaction theory and residential location, North-Holland, Amsterdam, 75-96.
McFadden, D. (2000) Disaggregate behavioral travel demand’s RUM Side. A 30-year retrospective. 9 th
International Association for Travel Behaviour Research Conference, Queensland, Australia.
Munizaga, M.A. (1997) Implicancias de la Naturaleza de los Datos en la Modelación de Elecciones Discretas.
Tesis Doctoral. Pontificia Universidad Católica de Chile, Escuela de Ingeniería.
Munizaga, M.A. y R. Alvarez-Daziano (2000) Modelos mixed logit: uso y potencialidades. Actas del XI
Congreso Panamericano de Ingeniería de Tránsito y Transporte, Noviembre, Gramado, Brasil, 523-535.
Munizaga. M.A. y R. Alvarez-Daziano (2001) Mixed MNL models: a comparison with nested logit and probit.
Working Paper presentado en la Invitational Choice Conference, Asilomar, California.
Munizaga, M.A. y J.de D. Ortúzar (1997) On the applicability of the multinomial probit model. Proceedings of
the 25th European Transport Forum P415, PTRC Education and Research Services Ltd., London.
Munizaga, M.A. y J.de D. Ortúzar (1999) Nested logit modelling: some hard facts. Proceedings of the European
Transport Forum P434, PTRC Education and Research Services Ltd., Londres.
Munizaga, M.A., B.G. Heydecker y J. de D. Ortúzar (2000) Representation of heteroskedasticity in discrete
choice models. Transportation Research 34B, 219-240.
Ortúzar, J.deD. (2001) On the development of the nested logit model. Transportation Research 32B, 213-216.
Ortúzar, J.deD. y L.G. Willumsen (1994) Modelling Transport. Segunda Edición, John Wiley and Sons,
Chichester.
Ortúzar, J.deD., D. Roncagliolo y U. Velarde (1997) Interactions and independence in stated preference
modelling. Proceedings of the 25th European Transport Forum P415, PTRC Education and Research
Services Ltd., London.
Papola, A. (2000) Some development on the cross-nested logit model. 9 th International Association for Travel
Behaviour Research Conference, Queensland, Australia.
Revelt, D. y K.E. Train (1998) Mixed logit with repeated choices: household’s choice of appliance efficiency
level. Review of Economics and Statistics 80, 647-657.
Swait, J. y A. Bernardino, (2000) Distinguishing taste variation from error structure in discrete choice data.
Transportation Research 34B, 1-15.
Vovsha, P. (1997) Cross nested logit model: an application to mode choice in the Tel-Aviv metropolitan area.
Transportation Research Board , 76th Annual meeting, Washington D.C.
Williams, H.C.W.L. (1977) On the formation of travel demand models and economic evaluation measures of
user benefit. Environment and Planning 9A, 285-344.
Yai, T., S. Iwakura y S. Morichi (1997) Multinomial Probit with structured covariance for route choice
behaviour. Transportation Research 31B, 195-207.

Modelación flexible de elecciones discretas: una revisión crítica

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Modelación flexible de elecciones discretas: una revisión crítica

Similar a Modelación flexible de elecciones discretas: una revisión crítica (20)

Último

Último (20)

Modelación flexible de elecciones discretas: una revisión crítica