SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
R – Ambiente de programación para
análisis de datos –Regresión
data scientist lab
Ing. Giovanni Barrero Ortiz
Regresión Lineal
Regresión Lineal(Heterocedasticidad – Estándar
Robusto de errores)
Predicción de valores y Residuos
Regresión simulada sin interacciones (análisis de covarianza, efectos fijos)
Reordenar las variables del factor
•
NOTA: "tipo" es una variable categóricao de factor con tres opciones: bc (cuello azul), prof
(profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor
y lo trata en consecuencia. En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor
debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulta http:
//dss.princeton. Edu / training / Regression101.pdfNOTA: Para la interpretaciónde resultados
(efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
Otras formas de correr el mismo modelo
•
NOTA: "tipo" es una variable categóricao de factor con tres opciones: bc (cuello azul), prof
(profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor
y lo trata en consecuencia.En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor
debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulte
http://dss.princeton.edu/training/Regression101.pdfNOTA: Para la interpretación de resultados
(efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
Diagnósticos para Regresión Lineal(residual plots)
•
# Qué buscar: Sin patrones, sin problemas. # Todos los p deben ser no significativos. # Modelo ok si
los residuos tienen media = 0 y varianza = 1 (Fox, 316) # Prueba de Tukey hipótesis nula: el modelo
es aditivo.
Variables de influencia
•
# Id.n - id observación más influyente # Id.cex - tamaño de fuente para id. # Gráficosresultado vs variables predictor que tienen el resto constante
(también llamado parcela de regresión parcial) # Ayudar a identificar el efecto (o influencia) de una observación sobre el coeficiente de regresión de
la variable predictoraNOTA: Para ver la versión de Stata, consulte http://dss.princeton.edu/training/Regression101.pdf
Outliers – QQ-Plots
Outliers – Bonferonni test
Puntos de apalancamiento alto (sombrero) (gráfico
•
# La distancia del cocinero mide cuánto una observación influye en el modelo
general o los valores predichos # Residuos estudiados son los residuos divididos
por su desviación estándar estimada como una forma de estandarizar # Prueba
Bonferroni para identificar valores atípicos # Los puntos de sombrero identifican
observaciones influyentes (tienen un alto impacto en las variables predictoras)
NOTA: Si una observación es atípica e influyente (alto apalancamiento), entonces
esa observación puede cambiar el ajuste del modelo lineal, es aconsejable
quitarlo. Para eliminar un caso (s) de tipo Reg1a <- update (prestige.reg4,
subconjunto = rownames (Prestige)! = "General.managers") Reg1b <- update
(prestige.reg4, subconjunto =! (Rownames (Prestige)% en% c ("general.managers",
"medical.technicians"))) NOTA: Para ver la versión de Stata, consulte
http://dss.princeton.edu/training/Regression101.pdf
Plots de influencia
• # Creates a bubble-plotcombining the display of Studentized residuals, hat-values, and Cook's distance (represented in the circles).
Pruebas para Normalidad
•
# Busca las colas, los puntos deben estar cerca de la línea o dentro de los intervalos de confianza. #
Las gráficas cuádruples comparan los residuos Studentized vs una distribución t # Otras pruebas:
shapiro.test(), mshapiro.test () en la biblioteca (mvnormtest)-library (ts)
Pruebas pata
Heteroscedasticidad
Pruebas de multicolinealidad
• # A gvif> 4 sugiere colinealidad. "Cuando existen relaciones lineales fuertes entre los predictores en
un análisis de regresión, la precisión de los coeficientesde regresión estimados en modelos lineales
disminuye en comparación con lo que hubiera sido si los predictores no estuvieran correlacionados
entre sí" (Fox: 359)
•
Regresión lineal (errores estándar robustos de cluster)
Referencias/links utiles
• DSS Online Training Section
http://dss.princeton.edu/training/
• Princeton DSS Libguideshttp://libguides.princeton.edu/dss
• John Fox’ssitehttp://socserv.mcmaster.ca/jfox/
• Quick-R http://www.statmethods.net/
• UCLA Resourcestolearnand use R
http://www.ats.ucla.edu/stat/R/
• UCLA Resources to learn and use Stata
http://www.ats.ucla.edu/stat/stata/
• DSS -Stata http://dss/online_help/stats_packages/stata/
• DSS -R
http://dss.princeton.edu/online_help/stats_packages/r

Más contenido relacionado

La actualidad más candente

UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES Erick Cantona
 
Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Juan Carlos Valdez
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con EviewsRodrigo Paniagua
 
Algoritmia estructuras de control
Algoritmia estructuras de controlAlgoritmia estructuras de control
Algoritmia estructuras de controlFernando Realpe
 
Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSSJosé Felipe
 
Variables Aleatorias - Mapa Conceptual
Variables Aleatorias - Mapa ConceptualVariables Aleatorias - Mapa Conceptual
Variables Aleatorias - Mapa ConceptualLeonel Quintero
 
Analisis de Sencibilidad
Analisis de SencibilidadAnalisis de Sencibilidad
Analisis de Sencibilidadmichaz
 
Variables Aleatorias Pdf. karly
Variables Aleatorias Pdf. karlyVariables Aleatorias Pdf. karly
Variables Aleatorias Pdf. karlykarlyanaya
 
Variables Aleatorias Power Point. Karly
Variables Aleatorias Power Point. KarlyVariables Aleatorias Power Point. Karly
Variables Aleatorias Power Point. Karlykarlyanaya
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidadfranbf66
 

La actualidad más candente (20)

UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES
 
Mic sesión 14
Mic sesión 14Mic sesión 14
Mic sesión 14
 
Tutorial eviews (normalidad)
Tutorial eviews (normalidad)Tutorial eviews (normalidad)
Tutorial eviews (normalidad)
 
Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con Eviews
 
Algoritmia estructuras de control
Algoritmia estructuras de controlAlgoritmia estructuras de control
Algoritmia estructuras de control
 
Regresión múltiple
Regresión múltipleRegresión múltiple
Regresión múltiple
 
Disenos factoriales
Disenos factorialesDisenos factoriales
Disenos factoriales
 
DISEÑO DE BLOQUES COMPLETO AL AZAR 1
DISEÑO DE BLOQUES COMPLETO AL AZAR 1DISEÑO DE BLOQUES COMPLETO AL AZAR 1
DISEÑO DE BLOQUES COMPLETO AL AZAR 1
 
Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
 
Tutoría Econometría 1 2 B
Tutoría  Econometría 1 2 BTutoría  Econometría 1 2 B
Tutoría Econometría 1 2 B
 
Variables Aleatorias - Mapa Conceptual
Variables Aleatorias - Mapa ConceptualVariables Aleatorias - Mapa Conceptual
Variables Aleatorias - Mapa Conceptual
 
Analisis de Sencibilidad
Analisis de SencibilidadAnalisis de Sencibilidad
Analisis de Sencibilidad
 
Análisis de Regresión Múltiple
Análisis de Regresión MúltipleAnálisis de Regresión Múltiple
Análisis de Regresión Múltiple
 
Variables Aleatorias Pdf. karly
Variables Aleatorias Pdf. karlyVariables Aleatorias Pdf. karly
Variables Aleatorias Pdf. karly
 
Variables Aleatorias Power Point. Karly
Variables Aleatorias Power Point. KarlyVariables Aleatorias Power Point. Karly
Variables Aleatorias Power Point. Karly
 
Unidad 4
Unidad 4Unidad 4
Unidad 4
 
Regresión lineal múltiple
Regresión lineal múltipleRegresión lineal múltiple
Regresión lineal múltiple
 
Clase 4 diseños de bloques - final
Clase 4   diseños de bloques - finalClase 4   diseños de bloques - final
Clase 4 diseños de bloques - final
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidad
 

Similar a Regresion

Simulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaSimulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaNovarMichellCastaeda
 
MODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.ppt
MODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.pptMODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.ppt
MODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.pptUGMA
 
Machine Learning para la Optimización y Mejora de Procesos
Machine Learning para la Optimización y Mejora de ProcesosMachine Learning para la Optimización y Mejora de Procesos
Machine Learning para la Optimización y Mejora de ProcesosMiguel Angel Patiño Antonioli
 
Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Luis Pons
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosSergio Valenzuela Mayer
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosSergio Valenzuela Mayer
 
Modelización de la aleatoriedad unidad ii
Modelización de la aleatoriedad unidad iiModelización de la aleatoriedad unidad ii
Modelización de la aleatoriedad unidad iiUGMA
 
Simulación: Teoría y aplicaciones con Promodel
Simulación: Teoría y aplicaciones con PromodelSimulación: Teoría y aplicaciones con Promodel
Simulación: Teoría y aplicaciones con PromodelAlvaro Gil
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experienciasDiego Gomez
 
Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10Jose Turcios
 
resumen del capitulo 10
resumen del capitulo 10resumen del capitulo 10
resumen del capitulo 10sandoval06
 
AnáLisis EstadíStico De Datos Usando R 1
AnáLisis EstadíStico De Datos Usando R 1AnáLisis EstadíStico De Datos Usando R 1
AnáLisis EstadíStico De Datos Usando R 1Pablo R.
 
Exposición analisis de datos experimentales
Exposición analisis de datos experimentalesExposición analisis de datos experimentales
Exposición analisis de datos experimentalesdiana2196
 
Graficos de control estadístico
Graficos de control estadísticoGraficos de control estadístico
Graficos de control estadísticoMarisol-Lopez-Mora
 

Similar a Regresion (20)

Control Estadistico De Procesos
Control Estadistico De ProcesosControl Estadistico De Procesos
Control Estadistico De Procesos
 
Simulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaSimulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria Ingeniería
 
MODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.ppt
MODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.pptMODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.ppt
MODELIZACIÓN DE LA ALEATORIEDAD-UNIDAD II.ppt
 
Simulacion uam
Simulacion uamSimulacion uam
Simulacion uam
 
Machine Learning para la Optimización y Mejora de Procesos
Machine Learning para la Optimización y Mejora de ProcesosMachine Learning para la Optimización y Mejora de Procesos
Machine Learning para la Optimización y Mejora de Procesos
 
Diseño de Experimentos
Diseño de ExperimentosDiseño de Experimentos
Diseño de Experimentos
 
Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
 
Expoanalisis
ExpoanalisisExpoanalisis
Expoanalisis
 
Modelización de la aleatoriedad unidad ii
Modelización de la aleatoriedad unidad iiModelización de la aleatoriedad unidad ii
Modelización de la aleatoriedad unidad ii
 
Simulación: Teoría y aplicaciones con Promodel
Simulación: Teoría y aplicaciones con PromodelSimulación: Teoría y aplicaciones con Promodel
Simulación: Teoría y aplicaciones con Promodel
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experiencias
 
Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10
 
Diagrama de control
Diagrama de controlDiagrama de control
Diagrama de control
 
Presentación1
Presentación1Presentación1
Presentación1
 
resumen del capitulo 10
resumen del capitulo 10resumen del capitulo 10
resumen del capitulo 10
 
AnáLisis EstadíStico De Datos Usando R 1
AnáLisis EstadíStico De Datos Usando R 1AnáLisis EstadíStico De Datos Usando R 1
AnáLisis EstadíStico De Datos Usando R 1
 
Exposición analisis de datos experimentales
Exposición analisis de datos experimentalesExposición analisis de datos experimentales
Exposición analisis de datos experimentales
 
Graficos de control estadístico
Graficos de control estadísticoGraficos de control estadístico
Graficos de control estadístico
 

Más de Giovanni Barrero Ortiz (20)

Analisis calidad software rpg 4
Analisis calidad software rpg 4Analisis calidad software rpg 4
Analisis calidad software rpg 4
 
Analisis calidad software rpg 3
Analisis calidad software rpg 3Analisis calidad software rpg 3
Analisis calidad software rpg 3
 
Analisis calidad software rpg 2
Analisis calidad software rpg 2Analisis calidad software rpg 2
Analisis calidad software rpg 2
 
Analisis calidad software rpg 2
Analisis calidad software rpg 2Analisis calidad software rpg 2
Analisis calidad software rpg 2
 
Analisis calidad software rpg
Analisis calidad software rpgAnalisis calidad software rpg
Analisis calidad software rpg
 
Software quality 2
Software quality 2Software quality 2
Software quality 2
 
Analisis calidad software rpg
Analisis calidad software rpgAnalisis calidad software rpg
Analisis calidad software rpg
 
Analisis calidad software rpg
Analisis calidad software rpgAnalisis calidad software rpg
Analisis calidad software rpg
 
Speed400
Speed400Speed400
Speed400
 
Speed400
Speed400Speed400
Speed400
 
Presentación source400
Presentación source400Presentación source400
Presentación source400
 
Presentación source400
Presentación source400Presentación source400
Presentación source400
 
Lenguaje r lattice package
Lenguaje r  lattice packageLenguaje r  lattice package
Lenguaje r lattice package
 
Lenguaje r - paquete Plotly
Lenguaje r  - paquete PlotlyLenguaje r  - paquete Plotly
Lenguaje r - paquete Plotly
 
Lenguaje r - paquete Plotrix
Lenguaje r  - paquete PlotrixLenguaje r  - paquete Plotrix
Lenguaje r - paquete Plotrix
 
Lenguaje r
Lenguaje rLenguaje r
Lenguaje r
 
Brochure curso de business intelligence
Brochure curso de business intelligenceBrochure curso de business intelligence
Brochure curso de business intelligence
 
Curso ea
Curso eaCurso ea
Curso ea
 
Curso dashboards
Curso dashboardsCurso dashboards
Curso dashboards
 
SCRUM
SCRUM SCRUM
SCRUM
 

Regresion

  • 1. R – Ambiente de programación para análisis de datos –Regresión data scientist lab Ing. Giovanni Barrero Ortiz
  • 2.
  • 3.
  • 5. Regresión Lineal(Heterocedasticidad – Estándar Robusto de errores)
  • 7.
  • 8. Regresión simulada sin interacciones (análisis de covarianza, efectos fijos)
  • 10. • NOTA: "tipo" es una variable categóricao de factor con tres opciones: bc (cuello azul), prof (profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor y lo trata en consecuencia. En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulta http: //dss.princeton. Edu / training / Regression101.pdfNOTA: Para la interpretaciónde resultados (efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
  • 11.
  • 12. Otras formas de correr el mismo modelo
  • 13. • NOTA: "tipo" es una variable categóricao de factor con tres opciones: bc (cuello azul), prof (profesional, gerencial y técnico) y wc (cuello blanco). R lo reconoce automáticamentecomo factor y lo trata en consecuencia.En Stata necesitas identificarlocon el prefijo "i." (En Stata 10.x o mayor debes agregar "xi:") NOTA: Para la interpretación de salida (regresión lineal), consulte http://dss.princeton.edu/training/Regression101.pdfNOTA: Para la interpretación de resultados (efectosfijos), consulte http://dss.princeton.edu/training/Panel101.pdf
  • 14. Diagnósticos para Regresión Lineal(residual plots)
  • 15.
  • 16. • # Qué buscar: Sin patrones, sin problemas. # Todos los p deben ser no significativos. # Modelo ok si los residuos tienen media = 0 y varianza = 1 (Fox, 316) # Prueba de Tukey hipótesis nula: el modelo es aditivo.
  • 17. Variables de influencia • # Id.n - id observación más influyente # Id.cex - tamaño de fuente para id. # Gráficosresultado vs variables predictor que tienen el resto constante (también llamado parcela de regresión parcial) # Ayudar a identificar el efecto (o influencia) de una observación sobre el coeficiente de regresión de la variable predictoraNOTA: Para ver la versión de Stata, consulte http://dss.princeton.edu/training/Regression101.pdf
  • 20. Puntos de apalancamiento alto (sombrero) (gráfico
  • 21. • # La distancia del cocinero mide cuánto una observación influye en el modelo general o los valores predichos # Residuos estudiados son los residuos divididos por su desviación estándar estimada como una forma de estandarizar # Prueba Bonferroni para identificar valores atípicos # Los puntos de sombrero identifican observaciones influyentes (tienen un alto impacto en las variables predictoras) NOTA: Si una observación es atípica e influyente (alto apalancamiento), entonces esa observación puede cambiar el ajuste del modelo lineal, es aconsejable quitarlo. Para eliminar un caso (s) de tipo Reg1a <- update (prestige.reg4, subconjunto = rownames (Prestige)! = "General.managers") Reg1b <- update (prestige.reg4, subconjunto =! (Rownames (Prestige)% en% c ("general.managers", "medical.technicians"))) NOTA: Para ver la versión de Stata, consulte http://dss.princeton.edu/training/Regression101.pdf
  • 22. Plots de influencia • # Creates a bubble-plotcombining the display of Studentized residuals, hat-values, and Cook's distance (represented in the circles).
  • 23. Pruebas para Normalidad • # Busca las colas, los puntos deben estar cerca de la línea o dentro de los intervalos de confianza. # Las gráficas cuádruples comparan los residuos Studentized vs una distribución t # Otras pruebas: shapiro.test(), mshapiro.test () en la biblioteca (mvnormtest)-library (ts)
  • 25. Pruebas de multicolinealidad • # A gvif> 4 sugiere colinealidad. "Cuando existen relaciones lineales fuertes entre los predictores en un análisis de regresión, la precisión de los coeficientesde regresión estimados en modelos lineales disminuye en comparación con lo que hubiera sido si los predictores no estuvieran correlacionados entre sí" (Fox: 359) •
  • 26. Regresión lineal (errores estándar robustos de cluster)
  • 27. Referencias/links utiles • DSS Online Training Section http://dss.princeton.edu/training/ • Princeton DSS Libguideshttp://libguides.princeton.edu/dss • John Fox’ssitehttp://socserv.mcmaster.ca/jfox/ • Quick-R http://www.statmethods.net/ • UCLA Resourcestolearnand use R http://www.ats.ucla.edu/stat/R/ • UCLA Resources to learn and use Stata http://www.ats.ucla.edu/stat/stata/ • DSS -Stata http://dss/online_help/stats_packages/stata/ • DSS -R http://dss.princeton.edu/online_help/stats_packages/r