R – Ambiente de programación para
análisis de datos –Regresión
data scientist lab
Ing. Giovanni Barrero Ortiz
Regresión Lineal
Regresión Lineal(Heterocedasticidad – Estándar
Robusto de errores)
Predicción de valores y Residuos
Regresión simulada sin interacciones (análisis de covarianza, efectos fijos)
Reordenar las variables del factor
•
NOTA: "tipo" es una variable categóricao de factor con tres opciones: bc (cuello azul), prof
(profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor
y lo trata en consecuencia. En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor
debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulta http:
//dss.princeton. Edu / training / Regression101.pdfNOTA: Para la interpretaciónde resultados
(efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
Otras formas de correr el mismo modelo
•
NOTA: "tipo" es una variable categóricao de factor con tres opciones: bc (cuello azul), prof
(profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor
y lo trata en consecuencia.En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor
debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulte
http://dss.princeton.edu/training/Regression101.pdfNOTA: Para la interpretación de resultados
(efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
Diagnósticos para Regresión Lineal(residual plots)
•
# Qué buscar: Sin patrones, sin problemas. # Todos los p deben ser no significativos. # Modelo ok si
los residuos tienen media = 0 y varianza = 1 (Fox, 316) # Prueba de Tukey hipótesis nula: el modelo
es aditivo.
Variables de influencia
•
# Id.n - id observación más influyente # Id.cex - tamaño de fuente para id. # Gráficosresultado vs variables predictor que tienen el resto constante
(también llamado parcela de regresión parcial) # Ayudar a identificar el efecto (o influencia) de una observación sobre el coeficiente de regresión de
la variable predictoraNOTA: Para ver la versión de Stata, consulte http://dss.princeton.edu/training/Regression101.pdf
Outliers – QQ-Plots
Outliers – Bonferonni test
Puntos de apalancamiento alto (sombrero) (gráfico
•
# La distancia del cocinero mide cuánto una observación influye en el modelo
general o los valores predichos # Residuos estudiados son los residuos divididos
por su desviación estándar estimada como una forma de estandarizar # Prueba
Bonferroni para identificar valores atípicos # Los puntos de sombrero identifican
observaciones influyentes (tienen un alto impacto en las variables predictoras)
NOTA: Si una observación es atípica e influyente (alto apalancamiento), entonces
esa observación puede cambiar el ajuste del modelo lineal, es aconsejable
quitarlo. Para eliminar un caso (s) de tipo Reg1a <- update (prestige.reg4,
subconjunto = rownames (Prestige)! = "General.managers") Reg1b <- update
(prestige.reg4, subconjunto =! (Rownames (Prestige)% en% c ("general.managers",
"medical.technicians"))) NOTA: Para ver la versión de Stata, consulte
http://dss.princeton.edu/training/Regression101.pdf
Plots de influencia
• # Creates a bubble-plotcombining the display of Studentized residuals, hat-values, and Cook's distance (represented in the circles).
Pruebas para Normalidad
•
# Busca las colas, los puntos deben estar cerca de la línea o dentro de los intervalos de confianza. #
Las gráficas cuádruples comparan los residuos Studentized vs una distribución t # Otras pruebas:
shapiro.test(), mshapiro.test () en la biblioteca (mvnormtest)-library (ts)
Pruebas pata
Heteroscedasticidad
Pruebas de multicolinealidad
• # A gvif> 4 sugiere colinealidad. "Cuando existen relaciones lineales fuertes entre los predictores en
un análisis de regresión, la precisión de los coeficientesde regresión estimados en modelos lineales
disminuye en comparación con lo que hubiera sido si los predictores no estuvieran correlacionados
entre sí" (Fox: 359)
•
Regresión lineal (errores estándar robustos de cluster)
Referencias/links utiles
• DSS Online Training Section
http://dss.princeton.edu/training/
• Princeton DSS Libguideshttp://libguides.princeton.edu/dss
• John Fox’ssitehttp://socserv.mcmaster.ca/jfox/
• Quick-R http://www.statmethods.net/
• UCLA Resourcestolearnand use R
http://www.ats.ucla.edu/stat/R/
• UCLA Resources to learn and use Stata
http://www.ats.ucla.edu/stat/stata/
• DSS -Stata http://dss/online_help/stats_packages/stata/
• DSS -R
http://dss.princeton.edu/online_help/stats_packages/r

Regresion

  • 1.
    R – Ambientede programación para análisis de datos –Regresión data scientist lab Ing. Giovanni Barrero Ortiz
  • 4.
  • 5.
    Regresión Lineal(Heterocedasticidad –Estándar Robusto de errores)
  • 6.
  • 8.
    Regresión simulada sininteracciones (análisis de covarianza, efectos fijos)
  • 9.
  • 10.
    • NOTA: "tipo" esuna variable categóricao de factor con tres opciones: bc (cuello azul), prof (profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor y lo trata en consecuencia. En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulta http: //dss.princeton. Edu / training / Regression101.pdfNOTA: Para la interpretaciónde resultados (efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
  • 12.
    Otras formas decorrer el mismo modelo
  • 13.
    • NOTA: "tipo" esuna variable categóricao de factor con tres opciones: bc (cuello azul), prof (profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor y lo trata en consecuencia.En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulte http://dss.princeton.edu/training/Regression101.pdfNOTA: Para la interpretación de resultados (efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
  • 14.
    Diagnósticos para RegresiónLineal(residual plots)
  • 16.
    • # Qué buscar:Sin patrones, sin problemas. # Todos los p deben ser no significativos. # Modelo ok si los residuos tienen media = 0 y varianza = 1 (Fox, 316) # Prueba de Tukey hipótesis nula: el modelo es aditivo.
  • 17.
    Variables de influencia • #Id.n - id observación más influyente # Id.cex - tamaño de fuente para id. # Gráficosresultado vs variables predictor que tienen el resto constante (también llamado parcela de regresión parcial) # Ayudar a identificar el efecto (o influencia) de una observación sobre el coeficiente de regresión de la variable predictoraNOTA: Para ver la versión de Stata, consulte http://dss.princeton.edu/training/Regression101.pdf
  • 18.
  • 19.
  • 20.
    Puntos de apalancamientoalto (sombrero) (gráfico
  • 21.
    • # La distanciadel cocinero mide cuánto una observación influye en el modelo general o los valores predichos # Residuos estudiados son los residuos divididos por su desviación estándar estimada como una forma de estandarizar # Prueba Bonferroni para identificar valores atípicos # Los puntos de sombrero identifican observaciones influyentes (tienen un alto impacto en las variables predictoras) NOTA: Si una observación es atípica e influyente (alto apalancamiento), entonces esa observación puede cambiar el ajuste del modelo lineal, es aconsejable quitarlo. Para eliminar un caso (s) de tipo Reg1a <- update (prestige.reg4, subconjunto = rownames (Prestige)! = "General.managers") Reg1b <- update (prestige.reg4, subconjunto =! (Rownames (Prestige)% en% c ("general.managers", "medical.technicians"))) NOTA: Para ver la versión de Stata, consulte http://dss.princeton.edu/training/Regression101.pdf
  • 22.
    Plots de influencia •# Creates a bubble-plotcombining the display of Studentized residuals, hat-values, and Cook's distance (represented in the circles).
  • 23.
    Pruebas para Normalidad • #Busca las colas, los puntos deben estar cerca de la línea o dentro de los intervalos de confianza. # Las gráficas cuádruples comparan los residuos Studentized vs una distribución t # Otras pruebas: shapiro.test(), mshapiro.test () en la biblioteca (mvnormtest)-library (ts)
  • 24.
  • 25.
    Pruebas de multicolinealidad •# A gvif> 4 sugiere colinealidad. "Cuando existen relaciones lineales fuertes entre los predictores en un análisis de regresión, la precisión de los coeficientesde regresión estimados en modelos lineales disminuye en comparación con lo que hubiera sido si los predictores no estuvieran correlacionados entre sí" (Fox: 359) •
  • 26.
    Regresión lineal (erroresestándar robustos de cluster)
  • 27.
    Referencias/links utiles • DSSOnline Training Section http://dss.princeton.edu/training/ • Princeton DSS Libguideshttp://libguides.princeton.edu/dss • John Fox’ssitehttp://socserv.mcmaster.ca/jfox/ • Quick-R http://www.statmethods.net/ • UCLA Resourcestolearnand use R http://www.ats.ucla.edu/stat/R/ • UCLA Resources to learn and use Stata http://www.ats.ucla.edu/stat/stata/ • DSS -Stata http://dss/online_help/stats_packages/stata/ • DSS -R http://dss.princeton.edu/online_help/stats_packages/r