Modelos de Elección Discreta

MODELOS DE ELECCIÓN DISCRETA
Julio Cesar Lavado Yarasca
Ing. Civil (Universidad Nacional de Ingeniería)
Mg. Economía (Universidad del Pacifico)

MODELOS DE ELECCION DISCRETA – ESTIMACION DE LOS MODELOS
 La estimación de la demanda de viajes mediante
modelos matemáticos, ya sean aplicados a la
situación actual o a escenarios hipotéticos,
requiere la especificación, calibración y
validación de dichos modelos.
 Es decir, es necesario definir la forma funcional y
las variables incluidas en el modelo, estimar los
coeficientes o parámetros del modelo y verificar
su calidad estadística.
 Un buen modelo de demanda suele ser el
resultado de un proceso de prueba y error en el
que el ciclo de especificación, calibración y
validación se repite varias veces hasta que se
obtiene un resultado satisfactorio.
 En este proceso, el juicio y la experiencia del
modelador juegan un papel central.
 Estas operaciones, que en conjunto se
denominan ESTIMACIÓN DEL MODELO, se pueden
realizar a partir de la información sobre el
comportamiento del viaje en una muestra de los
usuarios.
 Este enfoque se denomina estimación
desagregada de modelos de demanda. En
general, las encuestas que se utilizan para
recopilar información básica son de dos clases
diferentes:
 EPR: Encuestas de comportamiento de viaje real
en un contexto real (encuestas de preferencia
revelada, Revealed Preference or RP surveys)
 EPD: Encuestas de comportamiento de viaje
hipotético en escenarios ficticios (Stated
Preference or SP surveys)

 El método tradicional de preferencia revelada se
basa en encuestas clásicas las cuales son
tomadas normalmente en EODH, las cuales
proporcionan información sobre las elecciones
reales de los usuarios en situaciones relevantes
para el modelo a calibrar (por ejemplo, sobre el
modo de transporte elegido para la calibración
de un modelo de elección de modo). Por tanto, el
diseño de la encuesta consiste en la definición
del tamaño de la muestra, el cuestionario y la
estrategia de muestreo.
 Las encuestas de preferencia declarada (EPD), por
otro lado, son conceptualmente equivalentes a un
experimento de laboratorio diseñado con un
mayor número de grados de libertad. Dada la
complejidad del tema, los diseños de la encuesta
EPD y su uso serán tratados en un próximo
capitulo.
 Independientemente de su interpretación
(conductual o descriptiva) y forma funcional, los
modelos de demanda pueden verse como
relaciones matemáticas que dan la probabilidad
de que un usuario elija una opción de viaje
particular entre las opciones disponibles.
Probabilidad de elegir un modo “m” entre todos los
viajes entre las zonas “o” y “d” con propósito “s”.
Esta sección aborda el problema de construir
modelos de demanda o sistemas de modelos,
refiriéndose genéricamente a un modelo de elección
genérico que expresa la probabilidad
𝑝𝑖[𝑗]
A continuación se discute algunas consideraciones
generales relevantes para la especificación del
modelo. Seguido de los métodos de calibración y,
finalmente, se describe algunos métodos de
𝑃[𝑚|𝑜𝑑𝑠]
Usuario (viajero,
encuestado)
Probabilidad
Elección de viaje

 La especificación de un modelo de demanda se
puede definir como la identificación completa de
su estructura matemática, es decir, la definición
de su forma funcional y de las variables
dependientes e independientes (explicativas) que
incorpora.
 La elección de la forma funcional de un modelo
(por ejemplo, logit multinomial o logit
jerárquico) depende de muchos factores como su
tractabilidad computacional, los resultados
obtenidos en casos similares o las expectativas a
priori con respecto a la correlación de residuos
aleatorios. En general, los supuestos pueden
probarse a posteriori utilizando alguna pruebas
estadísticas que se describirán en lo siguientes
slides.
 La elección de las variables explicativas depende
claramente del tipo específico de modelo. Sin
embargo, hay algunas reglas que deben
 En general, deben evitarse las variables que son
colineales (es decir, que dependen linealmente
entre sí).
 De hecho, si la función de utilidad sistemática es
lineal con respecto a los atributos colineales,
infinitas combinaciones de sus valores de
coeficientes dan valores iguales de utilidades
sistemáticas y probabilidades de elección.
 Esto hace que sea imposible estimar (identificar)
por separado esos coeficientes durante la
calibración del modelo.
 Se podría introducir un ejemplo típico de
colinealidad cuando un atributo se deriva de
otro.
 Esto sucedería, por ejemplo, si el tiempo de viaje
se derivara de la distancia asumiendo una
velocidad constante; El tiempo de viaje y la
Especificación del modelo

 También debe tenerse en cuenta que, modelos
de utilidad aleatorios demasiado invariantes, las
probabilidades de elección dependen de las
diferencias entre las utilidades percibidas de las
alternativas y no del nivel absoluto de las mismas
utilidades percibidas.
 Por tanto, es posible agregar una constante a la
utilidad percibida de cada alternativa, sin
cambiar las probabilidades de elección
correspondientes.
 Esta propiedad da lugar a una regla de
especificación correcta según la cual en un
modelo de utilidad aleatorio invariante con “m”
alternativas, se tiene que como máximo “m-1”
ASA independiente puede introducirse.
 De hecho, si ASA es el coeficiente de ASA relativo
a la alternativa j y V, el resto parte de la utilidad
sistemática, podemos escribir:
 En consecuencia, al agregar a las utilidades
sistemáticas de todas las alternativas una
constante igual a 𝛽𝑘
𝐴𝑆𝐴
de la alternativa k elegida
arbitrariamente, la fórmula anterior puede tomar
la siguiente forma:
 Y esto muestra que las probabilidades de
elección calculadas, introduciendo el ASA en
todas las alternativas, son iguales a las que se
obtendrían al introducirlas en todas las
alternativas excepto una, elegida arbitrariamente.
ASA: Alternative Specific
Attribute
ASC: Alternative Specific
Constant
𝑝𝑗=prob 𝑉
𝑗 + 𝜀𝑗 > 𝑉𝑖 + 𝜀𝑖
𝑝𝑗=prob 𝑉
𝑗 + 𝛽𝑗
𝐴𝑆𝐴
+ 𝜀𝑗 > 𝑉𝑖 + 𝛽𝑖
𝐴𝑆𝐴
+ 𝜀𝑖
𝑝𝑗=prob 𝑉
𝑗 + 𝛽𝑗
𝐴𝑆𝐴
− 𝛽𝑘
𝐴𝑆𝐴
+ 𝜀𝑗 > 𝑉𝑖 + 𝛽𝑖
𝐴𝑆𝐴
− 𝛽𝑘
𝐴𝑆𝐴
+ 𝜀𝑖

 Con pasos similares se puede demostrar que los
atributos socioeconómicos del usuario, como los
ingresos o la propiedad de un automóvil, pueden
introducirse como máximo en la función de
utilidad de todas las alternativas excepto una y
no a través de variables específicas de la
alternativa.
 Por ejemplo, no se pueden introducir dos
variables de "altos ingresos" en las utilidades
sistemáticas de las alternativas de automóvil y
taxi con coeficientes diferentes.
 Como se muestra en las ecuaciones (a) y (b), en
la fase de especificación del modelo es necesario
definir la expresión de utilidades sistemáticas de
alternativas en función de variables explicativas
(atributos) identificadas de acuerdo con las reglas
descritas hasta aquí.
 Habitualmente se recurre a una dependencia
funcional que es lineal, a veces vale la pena
introducir una no linealidad; una interesante
transformación paramétrica funcional para
variables no negativas es la de Box — Cox:
𝑉
𝑗
𝑖
= 𝑘 𝛽𝑘𝑥𝑘𝑗
𝑖
k
𝑉
𝑗
𝑖
= 𝛽𝑇
𝑋𝑗
𝑖
Parámetr
os
Variables
(Atributos)
𝑉
𝑗
𝑖
=
𝑘
𝛽𝑘𝑓𝑘(𝑥𝑘𝑗
𝑖
)
𝑉
𝑗
𝑖
= 𝛽𝑇
𝑓(𝑋𝑗
𝑖
)
𝑥𝑘
𝑥𝑘
𝜆𝑘−1
𝜆𝑘
si 𝜆𝑘 ≠ 0
log(𝑥𝑘) si 𝜆𝑘 =
0
 Donde 𝜆𝑘 es el parámetro de transformación

 Los modelos de utilidad aleatorios pueden verse
como relaciones matemáticas que expresan la
probabilidad:
 𝜃 : función de probabilidad conjunta de los
residuos aleatorios.
Parámetr
os
Variables
(Atributos)
Calibración del modelo
𝑝𝑖
[𝑗](X, 𝛽, 𝜃)
Alternativ
a
individuo
la función de probabilidad conjunta de los residuos
𝑓 𝑡 = 𝜇𝑒−𝜇(𝑡−𝜂)𝑒−𝑒−𝜇(𝑡−𝜂)
𝑝 𝜀 ≤ 𝑐 = 𝐹 𝑐 =
−∞
𝑐
𝑓 𝑡 𝑑𝑡
= 𝑒−𝑒−𝜇(𝑐−𝜂)
Probability density
function (pdf)
Cumulative distribution
function (cdf)
𝑝𝑖=
𝑒𝜇𝑉𝑖
𝑒𝜇𝑉𝑖 + 𝑒𝜇𝑉𝑗
𝜇 =
1
𝜃
𝑉𝐴𝑅 =
𝜋2𝜃2
6
=
𝜋2
6𝜇2
De las expresiones se puede deducir que la desviación
estándar de la
Variable aleatoria tipo Gumbel es directamente proporcional
al parámetro 𝜃
LA figura muestra algunos Funciones de densidad de
probabilidad de la media cero Gumbel r.v. para diferentes

 𝜃 : función de probabilidad conjunta de los residuos
aleatorios.
 Los parámetros estructurales 𝜃 incluyen todos los
parámetros relacionados con la función de distribución
de probabilidad residual aleatoria.
 Así, en el caso de los modelos logit multinomiales, 𝜃 es
el parámetro de escala de las variables aleatorias de
Gumbel.
 En el logit jerárquico, 𝜃 consta de los parámetros de
escala 𝜃𝑜 y 𝜃𝑟 asociados con los nodos estructurales.
 En el modelo probit, 𝜃 consta de todos los elementos de
la matriz de varianza - covarianza, etc.
 La calibración del modelo requiere estimar los vectores
𝛽, y 𝜃 a partir de datos sobre las elecciones realizadas
por una muestra o usuarios.
 Cabe observar que en general no todos los coeficientes
se pueden identificar, es decir, estimar por separado.
Parámetr
os
Variables
(Atributos)
𝑝𝑖
[𝑗](X, 𝛽, 𝜃)
Alternativ
a
individuo
El método de máxima verosimilitud.
 La máxima verosimilitud (ML) es el
método más utilizado para estimar
los parámetros del modelo.
 En la estimación de máxima
verosimilitud, la probabilidad de
observar las elecciones hechas por
una muestra de usuarios (la
probabilidad de la muestra) se
expresa como una función de los
parámetros desconocidos del modelo,
y las estimaciones de los parámetros
son aquellas que maximizan esa
probabilidad.
 La probabilidad muestral depende no
solo del modelo y sus parámetros,
sino también de la estrategia de

 En el caso del muestreo aleatorio simple de n usuarios,
las observaciones son estadísticamente independientes y
la probabilidad de obtener las opciones observadas es el
producto de las probabilidades de que cada usuario 𝑖
elija la opción y 𝑗(𝑖), es decir, la alternativa realmente
elegida por él o ella.
 Las probabilidades 𝑝𝑖[𝑗(𝑖)](𝑋𝑖, 𝛽, 𝜃) se calculan mediante
el modelo de utilidad aleatorio y, por lo tanto, dependen
de los vectores de coeficientes.
 Por lo tanto, la probabilidad "𝑳" [Likelihood function] de
observar la muestra completa es una función (la función
de verosimilitud) de los parámetro desconocidos:
𝐿 𝛽, 𝜃 =
𝑖=1…𝑛
𝑝𝑖
[𝑗(𝑖)](𝑋𝑖
, 𝛽, 𝜃)
La estimación de máxima verosimilitud
[𝛽, 𝜃]𝑀𝐿 de los vectores de parámetros 𝛽
y 𝜃 se obtiene maximizando "𝑳" o, más
convenientemente, su logaritmo natural
(the log-likelihood function):
[𝛽, 𝜃]𝑀𝐿= arg max ln 𝐿 𝛽, 𝜃
[𝛽, 𝜃]𝑀𝐿= arg max
𝑖=1…𝑛
𝐿𝑛 𝑝𝑖
, 𝛽, 𝜃)

 En la calibración de algunos modelos, los
“𝑛" usuarios pueden, naturalmente, agruparse en
conjuntos de “𝑛𝑖" usuarios, y todos los usuarios
de un conjunto eligen la misma alternativa y
tienen los mismos atributos. Un ejemplo típico
es un modelo de distribución agregada en el
que los usuarios que viajan entre el mismo par
O-D poseen los mismos atributos, a saber, los
costos de viaje entre pares de zonas y las
variables de atracción de cada destino.
𝐿 𝛽, 𝜃 =
𝑖=1…𝑛
𝑝𝑖[𝑗(𝑖)]𝑛𝑖(𝑋𝑖, 𝛽, 𝜃)
En el muestreo aleatorio estratificado, “𝑛ℎ"
usuarios se muestrean al azar de los “𝑁ℎ"
miembros de cada estrato (h=1, ..., H) con una
tasa de muestreo 𝛼ℎ = 𝑛ℎ
𝑁ℎ
.
La probabilidad de observar las elecciones de la
muestra y, por tanto, la función de verosimilitud,
depende del método utilizado para identificar los
estratos.
Si la población se estratifica utilizando, directa o
indirectamente, los atributos X pero no las
opciones a modelar, la estrategia se conoce como
muestreo estratificado exógeno.
Ejemplos típicos son la estratificación geográfica
(los atributos de nivel de servicio dependen de la
zona o par de zonas en las que se lleva a cabo la
estratificación) y/o estratificación de ingresos.
ln 𝐿 𝛽, 𝜃 =
𝑖=1…𝑛
𝑛𝑖𝐿𝑛 𝑝𝑖[𝑗(𝑖)](𝑋𝑖, 𝛽, 𝜃)

 Para muestras obtenidas mediante muestreo
estratificado exógeno, se puede demostrar
que la función logarítmica de verosimilitud
es:
 Que, además de un término constante,
coincide con la función anterior obtenida
para una muestra aleatoria simple de tamaño
n.
 Si la estratificación se basa en las elecciones
hechas por los usuarios, la estrategia de
muestreo se conoce como muestreo
estratificado basado en elecciones.
 Este es el caso, por ejemplo, si la muestra
utilizada para calibrar un modelo de elección
de modo se obtiene seleccionando
 La función logarítmica de verosimilitud en forma
cerrada exacta es bastante compleja para esta
estrategia de muestreo.
 Como aproximación, se puede adoptar el
estimador de máxima verosimilitud con
ponderaciones exógenas; en este caso la
función ln(L) se expresa como:
 Además de los pesos 𝑤ℎ y 𝛼ℎ , coincide con las
formulas anteriormente presentadas y por tanto,
para aplicar el estimador de máxima
verosimilitud con ponderaciones exógenas a
una muestra estratificada basada en elecciones,
es necesario tener una estimación de la
ponderación de cada estrato, es decir, de la
fracción de la población total que elige cada
alternativa. Esta información puede obtenerse
ℎ=1,…,𝐻 𝑖=1…𝑛ℎ
𝑛𝑖𝐿𝑛 𝑝𝑖[𝑗(𝑖)](𝑋𝑖, 𝛽, 𝜃) + 𝑐𝑜𝑛𝑠𝑡
ℎ=1,…,𝐻
𝑤ℎ
𝛼ℎ
𝑖=1…𝑛ℎ
𝑛𝑖𝐿𝑛 𝑝𝑖
, 𝛽, 𝜃)

 Bajo supuestos bastante generales, los
estimadores de máxima verosimilitud tienen
muchas propiedades estadísticas asintóticas
deseables tales como consistencia, eficiencia
y normalidad, independientemente del
modelo usado para expresar las
probabilidades 𝑝𝑖
[𝑗(𝑖)] Es más, es posible
obtener estimaciones aproximadas de las
varianzas y covarianzas de los componentes
de 𝛽𝑀𝐿, porque su matriz de varianza-
covarianza Matriz Σ es asintóticamente igual
a la inversa negativa del hessiano de la
función logarítmica de verosimilitud,
evaluado en el punto 𝛽, 𝜃 𝑀𝐿
 Si la muestra es suficientemente grande, la
expresión puede usarse para estimar las
 Desde el punto de vista algorítmico, la
estimación de máxima verosimilitud requiere la
solución de un problema de maximización sin
restricciones, como:
 Este problema se puede resolver aplicando un
algoritmo de gradiente del tipo descrito en el
Apéndice A. El gradiente de la función objetivo
se puede calcular analítica o numéricamente,
dependiendo de la forma funcional del modelo
𝑝𝑖
[𝑗(𝑖)] para ser calibrado.
𝛽, 𝜃
= −
𝜕2
ln 𝐿 𝛽, 𝜃
𝜕 𝛽, 𝜃 𝜕 𝛽, 𝜃 𝑇
𝛽, 𝜃 𝑀𝐿
−1
[𝛽, 𝜃]𝑀𝐿= arg max
𝑖=1…𝑛
𝐿𝑛 𝑝𝑖[𝑗(𝑖)](𝑋𝑖, 𝛽, 𝜃)

 Una vez que se ha especificado y calibrado un
modelo de demanda, se debe validar. En esta
fase se verifica la razonabilidad y la
importancia de los coeficientes estimados, así
como la capacidad del modelo para reproducir
las elecciones realizadas por una muestra de
usuarios. Además, se prueban los supuestos
subyacentes a la forma funcional asumida por
el modelo. Todas estas actividades se pueden
completar con pruebas apropiadas de hipótesis
para una muestra de usuarios.
 Pruebas informales sobre coeficientes.
Estas pruebas se basan en expectativas sobre los
signos de los coeficientes calibrados y las
relaciones entre sus valores.
Los signos incorrectos o los coeficientes son
probablemente indicadores de errores de atributo
en la base de datos de resultados de la encuesta
o de especificación incorrecta del modelo.
Validación del modelo
 Se pueden realizar otras comprobaciones sobre
las proporciones de los coeficientes de
diferentes atributos. la relación entre el tiempo
y los coeficientes de costo monetario se puede
interpretar como un valor del tiempo (VOT), y se
puede comparar con los resultados de otras
calibraciones y con las expectativas sobre la
disposición de los usuarios a pagar.
 Los parámetros de los atributos
correspondientes a los diferentes componentes
del tiempo de viaje (por ejemplo, el tiempo de
espera y a bordo) deben tener valores absolutos
crecientes para componentes más onerosos. En
general, los resultados reportados en la
literatura científica y técnica son muy útiles en
estos análisis.

 Pruebas formales sobre
coeficientes.
Prueba formal de coeficiente. Para
muestras suficientemente grandes, las
propiedades asintóticas de las
estimaciones de máxima verosimilitud
pueden explotarse para probar
diferentes supuestos sobre 𝛽𝑀𝐿
 Alternativamente, el estadístico t de Student se puede utilizar
para probar la hipótesis de que dos coeficientes 𝛽𝑘 y 𝛽𝑗 son
iguales (𝐻0 ∶ 𝛽𝑘 = 𝛽𝑗).
Prueba t de Student sobre coeficientes
particulares
Estas pruebas verifican la hipótesis
nula del valor verdadero de un
coeficiente 𝛽𝑘 es igual a cero y su
estimación 𝛽𝑘
𝑀𝐿
difiere de cero
debido a errores de muestreo
(𝐻0 ∶ 𝛽𝑘 = 0 ).
Se basan en el estadístico t-Student:
𝑡 =
𝛽𝑘
𝑀𝐿
𝑉𝐴𝑅[𝛽𝑘
𝑀𝐿
]1/2
𝑡 =
𝛽𝑘
𝑀𝐿
− 𝛽𝑗
𝑀𝐿
[𝑉𝐴𝑅 𝛽𝑘
𝑀𝐿
+ 𝑉𝐴𝑅 𝛽𝑗
𝑀𝐿
− 2𝐶𝑜𝑣[𝛽𝑘
𝑀𝐿
𝛽𝑗
𝑀𝐿
]]1/2
Bajo hipótesis nula, el “estadístico t” se distribuye como una
variable de t-Student con grados de libertad iguales al
tamaño de la muestra menos el número de coeficientes
estimados.
Dados los tamaños de muestra típicos, generalmente se
supone que el estadístico t se distribuye como una variable
normal estándar N (0, 1), que es la distribución límite de la
variable t-Student a medida que aumenta el tamaño de la
muestra.
Las estimaciones de muestra de varianzas y covarianzas se
pueden calcular mediante la expresión:
𝛽, 𝜃
= −
𝜕2
ln 𝐿 𝛽, 𝜃
𝜕 𝛽, 𝜃 𝜕 𝛽, 𝜃 𝑇
𝛽, 𝜃 𝑀𝐿
−1

Como es bien sabido, la hipótesis nula se
rechaza con una probabilidad ∝ de cometer
un error de Tipo I (por ejemplo, rechazar una
suposición verdadera) si el valor del
estadístico t está fuera del intervalo
(𝑍∝/2, 𝑍1−∝/2), para ∝ = 0,95 es igual a ±1.96
En resumen por lo general, se usa para
probar la hipótesis nula de que el valor
real del parámetro es cero. Esta hipótesis
puede rechazarse con un 95% de confianza
si:
|𝑡𝑘| ≥ 1.96

Transmite exactamente la misma información
que el estadístico t, presentado de una
manera diferente. Es la probabilidad de
obtener un estadístico t al menos tan grande
(en valor absoluto) como el reportado, bajo la
hipótesis nula de que βk = 0. La hipótesis
nula puede rechazarse con un nivel de
confianza 1 - pk.
𝑝𝑘 = 2(1 − Φ(𝑡𝑘) )
P - Value
Φ . : 𝑓𝑢𝑛𝑐𝑖𝑜𝑛 𝑑𝑒 𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑑𝑒 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖𝑜𝑛 𝑛𝑜𝑟𝑚𝑎𝑙

Para probar la hipótesis nula de que el vector
verdadero de coeficiente 𝛽 o uno de sus
subvectores es igual a un vector dado 𝛽∗
(𝐻0 ∶
𝛽 = 𝛽∗
), se puede utilizar el siguiente
estadístico.
Si la hipótesis nula es cierta, el estadístico 𝜒2
se distribuye asintóticamente como una
variable chi-cuadrado con grados de libertad
iguales al número de componentes 𝛽.
Tenga en cuenta que las expresiones (8.3.12)
y (8.3.13) se pueden utilizar para obtener el
intervalo de confianza para un coeficiente
único, así como la región de confianza en un
Prueba Chi-cuadrado en vectores de
coeficientes
𝑐ℎ𝑖2
𝛽∗
= (𝛽𝑀𝐿
−𝛽∗
)𝑇
𝛽
−1
(𝛽𝑀𝐿
−𝛽∗
)

Es similar a la anterior en que prueba la hipótesis
nula de que el vector 𝛽, o uno de sus subvectores,
es igual a un vector 𝛽∗
. El vector 𝛽∗
puede definirse
implícitamente por imponer algunas restricciones
a 𝛽, por ejemplo, especificando un conjunto de
factibilidad 𝛽 (con 𝛽 ∈ B). Tanto en el caso
implícito como en el explícito, 𝛽∗
puede verse
como el vector que maximiza la función
logarítmica de verosimilitud bajo las restricciones:
Por ejemplo, se puede probar la hipótesis de que
𝛽 es nulo o que solo algunos de sus componentes
son nulos; en el último caso, los otros
componentes de 𝛽∗
se estimarán resolviendo el
problema de maximización restringida.
Prueba Razón de verosimilitud [LR]en vectores
de coeficientes
𝐿𝑅 𝛽∗ = −2 [ln(𝛽∗) − ln(𝛽𝑀𝐿)]
𝛽∗
= arg max ln(𝛽)
𝛽 ∈ B
La hipótesis nula 𝐻0 ∶ 𝛽 = 𝛽∗
se puede probar
utilizando el estadístico de razón de verosimilitud
LR:
que, bajo la hipótesis nula, se distribuye
asintóticamente como una variable chi-cuadrado
con grados de libertad iguales al número de
restricciones impuestas al estimar 𝛽∗.
El estadístico LR es siempre mayor que cero
porque el máximo no restringido ln(𝛽𝑀𝐿
) de la
función ln(𝛽) no es menor que el máximo
restringido de la misma función, ln(𝛽∗
) .
Tenga en cuenta que la prueba LR es equivalente,
pero no igual desde el punto de vista numérico, a
la prueba chi-cuadrado descrita anteriormente
cuando las restricciones identifican
completamente el vector 𝛽∗
.

Por ejemplo, en el caso de 𝛽∗
= 0 se obtiene:
Prueba Razón de verosimilitud [LR] en vectores
de coeficientes
Se obtiene una especificación más desafiante de la
prueba comparando el modelo calibrado con un
modelo cuyos únicos parámetros son los atributos
alternativos específicos 𝛽𝐴𝑆𝐴.
El vector 𝛽∗ = 𝛽𝐴𝑆𝐴
𝑀𝐿
se obtiene maximizando la
probabilidad función logarítmica ln 𝐿(𝛽) con todos
los demás coeficientes restringidos a ser iguales a
cero: el número de ASA y sus coeficientes, 𝑁𝐴𝑆𝐴 ,
puede ser como máximo uno menos que el número
de alternativas; es decir, 𝑁𝐴𝑆𝐴 ≤ (J - 1). En este caso,
la estadística LR se convierte en:
Las estadísticas 𝐿𝑅 0 y 𝐿𝑅 𝛽𝐴𝑆𝐴 con sus respectivos
grados de libertad. Estas estadísticas superan con
creces el percentil 95 de las variables de chi-
cuadrado correspondientes con 𝑁𝛽 y 𝑁𝛽- 𝑁𝐴𝑆𝐴 grados
de libertad y, por lo tanto, las suposiciones de que el
modelo "verdadero" tiene coeficientes nulos o
𝐿𝑅 0 = −2 [ln 𝐿(0) − ln 𝐿(𝛽𝑀𝐿)]
La hipótesis nula 𝛽∗ = 0 corresponde a asumir un
modelo "verdadero" con todos los coeficientes
iguales a cero, que por lo tanto predice iguales
probabilidades para todas las alternativas (𝑉
𝑗 =
0 ∀𝑗 → 𝑝 𝑗 = 1
𝐽)
Cuanto mayor sea la diferencia entre la
probabilidad de observar las elecciones de los
usuarios con el modelo calibrado (ln 𝐿(𝛽𝑀𝐿
)) y la
probabilidad correspondiente con un modelo de
coeficientes cero (ln 𝐿(0)), menos probable es esta
hipótesis.
Bajo la hipótesis nula, el estadístico LR (0) se
distribuirá como una variable chi-cuadrado con
𝐿𝑅 𝛽𝐴𝑆𝐴 = −2 [ln 𝐿(𝛽𝐴𝑆𝐴
𝑀𝐿
) − ln 𝐿(𝛽𝑀𝐿)]

A diferencia de la regresión lineal, existen varias
medidas de bondad de ajuste. Ninguno de ellos se
puede utilizar de forma absoluta. Solo se pueden
utilizar para comparar dos modelos.
Claramente, una medida obvia es la probabilidad
logarítmica en sí. Es habitual compararlo con un
modelo de referencia. Por ejemplo, considere un
modelo trivial sin parámetro, asociando una
probabilidad del 50% con cada uno de las dos
alternativas:
Prueba Razón de verosimilitud [LR] en vectores
de coeficientes
𝐿𝑛 𝐿 0 = ln
1
2𝑁
Donde N es el número de observaciones. Se puede
utilizar para calcular la estadística de razón de
verosimilitud LR:
Se llama así porque es el logaritmo de la razón de
los respectivos valores de verosimilitud.
El estadístico se utiliza para probar la hipótesis
nula Ho de que el modelo estimado es equivalente
al modelo de igual probabilidad.
Bajo Ho, −2 [ln 𝐿(0) − ln 𝐿(𝛽𝑀𝐿
)] se distribuye
asintóticamente como χ2 con K grados de
libertad.
𝑃𝑗 = 𝑃𝑖 =1/2
Por tanto, la probabilidad logarítmica de la muestra
es:
𝐿𝑛 𝐿 0 = −N ln 2
−2 [ln 𝐿(0) − ln 𝐿(𝛽𝑀𝐿
)]

La capacidad del modelo para reproducir las
elecciones realizadas por una muestra de usuarios
(*) se puede medir utilizando la estadística rho-
cuadrado:
Estadísticas y pruebas de bondad de ajuste
𝜌2
= 1 −
ln 𝐿(𝛽𝑀𝐿)
ln 𝐿(0)
Esta estadística es una medida normalizada en
el intervalo [0, 1]. Es igual a cero si L (β ML) es
igual a L (0) (es decir, el modelo no tiene
capacidad explicativa); es igual a uno si el
modelo arroja la probabilidad uno de observar
las elecciones realmente hechas por cada
usuario en la muestra (es decir, el modelo
tiene la capacidad perfecta para reproducir las
elecciones observadas).
(*) En teoría, la bondad de ajuste del modelo debe probarse en una muestra de observaciones diferente de la muestra utilizada para
la calibración (una muestra reservada). En la práctica, no siempre se sigue este procedimiento para aprovechar al máximo toda la
información disponible, dado el tamaño limitado de muchas muestras disponibles.

Como se mencionó anteriormente, el valor en sí
no se puede interpretar y debe usarse solo para
comparar dos modelos. En particular, a diferencia
de la regresión lineal, es posible tener un buen
modelo con un valor bajo de 𝜌2
y un modelo malo
con un valor alto.
Estadísticas y pruebas de bondad de ajuste
𝜌2
= 1 −
ln 𝐿(𝛽𝑀𝐿)
ln 𝐿(0)
Una limitación importante de esta medida de
bondad de ajuste es que es monotónica en el
número de parámetros del modelo. Significa que
𝜌2
aumenta mecánicamente cada vez que se
agrega una variable adicional al modelo, incluso
si esta variable no explica nada. Por lo tanto, a
menudo se prefiere la siguiente medida
corregida:
𝜌2
= 1 −
ln 𝐿(𝛽𝑀𝐿
)−K
ln 𝐿(0)

Modelos de Elección Discreta

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Modelos de Elección Discreta

Similar a Modelos de Elección Discreta (20)

Más de Julio Cesar Lavado Yarasca

Más de Julio Cesar Lavado Yarasca (15)

Último

Último (20)

Modelos de Elección Discreta