Este documento describe diferentes modelos lineales generalizados, incluyendo el modelo lineal, modelo Gamma y modelo binomial negativo. Explica que los modelos lineales generalizados relajan el supuesto de normalidad del modelo lineal estándar. Luego, realiza un ejercicio práctico en R comparando estos modelos y evalúa cuál se ajusta mejor a un conjunto de datos sobre especies de plantas.
2. Modelo GLM
Un modelo de regresión es un modelo matemático que busca
determinar la relación entre una variable dependiente (Y) y
otras variables denominadas explicativas (X) o dependientes.
𝒀𝒊 = 𝒇 𝑿𝒊 + 𝒆𝒊
Supuestos sobre los errores
• Independencia
• Homocedasticidad: la varianza es constante
• Media cero de los errores, se espera que los errores sean cero
• Normalidad
Esto se puede representar de la siguiente manera:
𝒀𝒊~ 𝑵[𝒇 𝑿𝒊 , 𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂]
3. Si relajamos elsupuesto de normalidad es un modelo
linealgeneralizado
Se pretende modelar el valor esperado de Y [𝐸 𝑌𝑖 = 𝜇𝑖] en términos
del predictor lineal 𝑓 𝑋𝑖 =∩, mediante una función de enlace 𝑔(𝑢𝑖)
𝑔 𝑢𝑖 = 𝑓 𝑋𝑖 entonces la predicción de Y
𝑢𝑖 = 𝑔−1
[𝑓 𝑋𝑖 ]
Por ejemplo si los valores estimados deben ser positivos se puede
tomar la función de enlace 𝑔(𝑥) = log(𝑥)
4. Funcionesde enlaceg(u)
Ejemplos
Función link Se denota el valor esperado de Y como µ = E(Y ), entonces la función link especifica
una función g(·) que relaciona µ con el predictor lineal como
La función g más simple es g(µ) = µ, esto es, la identidad que da lugar al modelo de regresión lineal clásico
5. DistribuciónGamma
Pertenece a la familia
exponencial
Función de enlace o vínculo más
utilizado en Gamma es la función
inversa
Valor Esperado: 𝐸 𝑌 =
λ
𝜗
Varianza: 𝑉 𝑌 =
λ
𝜗2
Función de densidad de probabilidad
fdp =
(𝜗. 𝑦)λ−1
. 𝜗. 𝑒−𝜗𝑦
Ƭ(λ)
𝑦 > 0
0 𝑦 ≤ 0
Se utiliza en datos continuos y
positivos
Ƭ λ =
0
∞
(𝜗. 𝑦)λ−1
𝑒−𝑦
𝑑𝑦
6. BinomialNegativa
Si una variable Y se distribuye como una binomial negativa, entonces la función de probabilidad es:
El parámetro
𝟏
𝒌
es un parámetro de dispersión, de modo que si
𝟏
𝒌
→ 0
entonces V ar(Y ) → µ y la distribución binomial negativa converge a
una distribución de Poisson.
7. Ejercicio Práctico en R
Comparación de los Modelos Lineales Generalizados
Regresión Lineal
Gamma
Binomial Negativo
8. Modelo Lineal
Modelo Lineal
Teniendo en cuenta los resultados de Pr, las variables mas significativas son:
Elevación
Adjacent
El valor de R^2 es 0,77 se acerca a 1, entonces la variable dependiente tiene en
este modelo una representación aceptable de acuerdo a este tipo de datos
9. Modelo Lineal
El histograma muestra
tendencia de normalidad de los
datos
En el gráfico qqplot no se
observa linealidad para los
cuantiles presentados
10. Modelo Lineal
Residuales de la función lineal deben tener
variación constante cercana a cero, en este
caso se observa mucha variación y esto
permite afirmar que el modelo lineal no es
el apropiado para estos datos
La prueba indica normalidad en los
residuales p<0,05
11. Modelo Lineal Ajustado
El histograma muestra tendencia a normalidad
Los resultados del gráfico qqplot presenta una mejora de la
linealidad frente a los cuantiles planteados
Las pruebas de residuales dan
información de normalidad
12. Modelo Lineal Ajustado
Residuales de la función lineal deben tener variación constante
cercana a cero, en este caso se observa mucha variación y esto
permite afirmar que el modelo lineal no es el apropiado para estos
datos. Mejora el comportamiento frente al modelo sin ajuste
13. Modelo Lineal Ajustado
Prueba de Multicolinealidad VIF (Factor de inflación de la varianza)
Para el modelo lineal general los valores obtenidos se encuentran dentro del rango 1< VIF < 5
Para el modelo lineal ajustado los valores obtenidos se encuentran
dentro del rango 1< VIF < 5 para cada variable independiente
En ambos casos no hay problema de multicolinealidad
15. Modelo Gamma
modgamma <- glm(Species ~ ., family = Gamma(link = "log"), data = gala)
Normalidad
Se asume una distribución normal en los residuos, un nivel de
significancia del 5% (α=0.05) y se plantean las siguientes
hipótesis:
H0:Los datos tienen distribución normal
HA: Los datos no tienen distribución normal
En la prueba de Crammer se evidencia que, el p-value < α, para un
α = 0,05, por esta razón se rechaza H0 y se verifica que no hay
normalidad en la variable respuesta.