modelos de conteo.pdf

▪ Número de visitas al doctor
▪ Ausencias en el lugar de trabajo
▪ Número de vuelos por turismo que toman las familias
▪ Número de accidentes de carro que tienen los hogares
▪ Número de niños que tienen las familias
▪ Número de accidentes que experimenta una aerolínea

Propiedades de la variable dependiente:
✓ Los datos de conteo son enteros no negativos que
representan el número de ocurrencias de un evento dentro
de un periodo fijo.
✓ La variable toma datos que se concentran en unos pocos y
pequeños valores como (0,1,2,3)
✓ Los datos pueden estar concentrados hacia la derecha
✓ Los datos son intrínsicamente heterocedásticos con una
varianza que se incrementa con la media

Problemas con MCO:
✓ Las estimaciones pueden ser negativas
✓ Las estimaciones puede predecir valores no-enteros
✓ Los datos son heterocedásticos

Ejemplos
de
variables
de conteo
Fuente: Cameron y Trivedi (1996)

Distribución Poisson
• Función de probabilidad discreta
• Describe cuando un evento aleatorio ocurre aleatoriamente e
independientemente a una tasa instantánea promedio que es fija.
• Es una probabilidad de distribución que describe y analiza eventos
con baja ocurrencia. Para observar tales eventos se debe tener un
tamaño grande de la muestra.
• 𝜆 es el único parámetro de la distribución Poisson, la distribución
tiende a ser más simétrica a medida que es más grande

El Modelo de Regresión de Poisson
Si una variable aleatoria discreta 𝑦 sigue la distribución de Poisson, su función
de densidad de probabilidad está dada por:
𝑓 𝑌 𝑦𝑖 = 𝑃 𝑌 = 𝑦𝑖 =
𝑒−𝜆𝑖𝜆𝑖
𝑦𝑖
𝑦𝑖!
, 𝑦𝑖 = 0,1,2. .
𝑓 𝑌 𝑦𝑖 es la probabilidad de que una variable aleatoria discreta tome un
valor entero no-negativo. 𝜆 es el parámetro de la distribución de Poisson.
𝐸(𝑦𝑖) = 𝜆𝑖
𝑣𝑎𝑟(𝑦𝑖) = 𝜆𝑖
La distribución de Poisson requiere que la varianza y la media sean iguales,
esta propiedad se denomina equidispersión. En la práctica la varianza de las
variables de conteo es mayor a la media.

El Modelo de Regresión de Poisson
𝑦𝑖 = 𝐸(𝑦𝑖) + 𝑢𝑖 = 𝜆𝑖 + 𝑢𝑖
𝑃 𝑌 = 𝑦𝑖 𝑋 =
𝑒−𝐵𝑋𝜆𝑖
𝑦𝑖
𝑦𝑖!
, 𝑦𝑖 = 0,1,2. .
𝜆𝑖 = 𝐸 𝑦𝑖 𝑋𝑖 = exp 𝛽1 + 𝛽2𝑋2𝑖 + ⋯ + 𝛽𝑘𝑋𝑘𝑖 = exp(𝐵𝑋)
La estimación de los 𝛽 se realiza a través de la función de máxima
verosimilitud
ln L 𝛽 = σ𝑖=1
𝑁
𝑦𝑖𝑥𝑖𝛽 − exp 𝑥′
𝑖𝛽 − ln 𝑦𝑖!

Efectos marginales del modelo Poisson
El efecto marginal de una variable sobre el número promedio
de eventos es:
𝐸 𝑌 𝑋 /𝜕𝑋𝑗 = 𝛽𝑗 exp 𝑥′
𝑖𝛽

Equidispersión
Esta condición suele ser muy restrictiva para los datos de conteo. El problema
radica en que la distribución es parametrizada en términos en un único
escalar, de manera que todos los momentos de 𝑦 están en función 𝜆. En
contraste la función normal tiene diferentes parámetros para la ubicación y
escala.
Una de las maneras en que se refleja estas restricciones es que en muchas
aplicaciones cuando se emplea la función de Poisson la probabilidad de tener
un cero es considerablemente menor que lo que se observa en la data.
Los estimadores son consistente pero ineficientes con errores estándar que
son subestimados, por lo que puede sobrestimar la significancia estadística.

Test de sobredispersión
Antes de correr una regresión de Poisson es deseable correr un test de
sobredispersión. La mayoría de los modelos de conteo con sobredispersión
toman la forma de:
𝑉 𝑦 𝜇, 𝛼 = 𝜇𝑖 + 𝛼𝑔(𝜇𝑖)
𝛼 es un parámetro desconocido y 𝑔(. ) es una función conocida. 𝑔 𝜇 = 𝜇 o
𝑔 𝜇 = 𝜇2. Se asume que bajo la hipótesis nula y alternativa la media está
correctamente específicada.
En un test simple de sobresdispersión:
𝐻0: 𝛼 = 0
𝐻1: 𝛼 ≠ 0

Distribución Binomial Negativa
Esta representa el número de fracasos antes que el éxito 𝑟 ocurra, con la
probabilidad de éxito 𝑝 en cada intento.
Para los modelos de conteo asumimos que hay procesos independientes
generando “éxito” y “fracaso” de manera independiente y solo podemos
contar cuantos fracasos hubo antes de cierto número de éxitos.
Se puede interpretar como una generalización de la distribución
Poisson.

El Modelo de Regresión Binomial Negativa
En un modelo de regression binomial negativa se puede tener
sobredispersión. Los primeros dos momentos de una distribución
binomial negativa se definen como:
𝐸 𝑦 𝜇, 𝛼 = 𝜇
𝑉 𝑦 𝜇, 𝛼 = 𝜇 (1 + α𝜇)
La varianza es mayor que la media, dado que α > 0 y 𝜇 > 0.

Ejemplo Winkelmann, 2015
En 1997 se reformó el sistema de salud en Alemania, esta reforma incluyó
incrementos en los copagos para la prescripción de drogas. La reforma de
1997 incrementó el gasto de bolsillo por la prescripción de drogas en un
monto fijo. Las consideraciones sociales resultaron en excepciones a ciertos
grupos poblacionales como los hogares de bajos ingresos o los enfermos
crónicos.
Idealmente se buscaría una fuente de información que tuviese los datos de
demanda por prescripción de medicamentos pero el German Socio-Economic
Panel no tiene esta información. Sin embargo, la prescripción requiere visitas
al médico.

Ejemplo Winkelmann, 2015
A través de un modelo de diff-diff se tomaron datos antes y después de la
reforma y de quienes tenían el seguro de salud estatutario (grupo
tratamiento) y quienes tenían un seguro privado (grupo control)
Los resultados de la estimación que empleó un modelo de regresión de
Poisson indica que la probabilidad de ser un usuario de medicamentos
prescritos disminuyo 3%, mientras la disminución en el margen intensivo fue
del 6.1%.
Otras estimaciones basadas en un Hurdle model indican que la disminución
en el margen extensivo fueron de 6.7% y en el margen intensivo del 2.6%.

Comentarios finales
Si los eventos ocurren de manera completamente aleatoria con una
probabilidad constante, es razonable emplear los modelos Poisson. Por
ejemplo, es válido en un contexto de frecuencia de accidentes de tráfico. Pero
no sería tan apropiado en otros contextos como las ausencias de los
trabajadores, que se sabe son más probables para ciertos días de la semana.
Igualmente, las ausencias de una trabajador el día de mañana son más
probables (dependencia de la ocurrencia). Finalmente, ciertas características
de los trabajadores también hacen más probables las ausencias que para
otros trabajadores (heterogeneidad no observada).
Ambas condiciones (dependencia de la ocurrencia y heterogeneidad no
observada) invalidan los supuestos de un modelo Poisson.

Comentarios finales
Muchas veces el número de ceros en la muestra no se va a predecir
correctamente con los modelos de regresion Poisson y Binomial negativa.
Hurdle models combinan un modelo de probabilidad binaria que determina si
el resultado es cero o estrictamente positivo, y otro con una especificación
paramétrica de la distibución condicional de los valores positivos. Modelos
populares en economía de la salud (uso de las instalaciones médicas, drogas,
alcohol)
1. Modelo de probabilidad para tener más de cero ocurrencias (Logit)
2. Modelo para el número de ocurrencias dado que este número es mayor a
cero (poisson)

Comentarios finales
Zero-inflated count data asumen que los datos vienes de dos poblaciones
distintas: una población que nunca experimentó el evento y otra para la cual
los eventos son generados de un modelo estándar.
1. Modelo para el conteo
2. Modelo para el exceso de ceros

Comentarios finales
Fuente: Cameron y Trivedi (1996)

Comentarios finales
Existe una relación entre los modelos de duración y los modelos de conteo.
La transición de un estado a otro se puede estimar a través de los modelos de
duración. Un modelo de regresión para datos de conteo muestra la relación
entre el número de eventos de interés en un intervalo fijo de tiempo y un
conjunto de regresores.
Por ejemplo, si las ofertas por adquisición de las firmas siguen un proceso
Poisson, el tiempo entre las ofertas es exponencialmente distribuido. Se
puede mostrar que si la frecuencia de los eventos sigue una distribución de
Poisson el modelo de duración sigue una distribución exponencial.

modelos de conteo.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a modelos de conteo.pdf

Similar a modelos de conteo.pdf (20)

Último

Último (20)

modelos de conteo.pdf