SlideShare una empresa de Scribd logo
1 de 12
Análisis y modelación de datos a través de
Minería de Datos y algoritmos evolutivos de
Regresión Lineal Múltiple
Juan Pablo Bribiesca Espinosa
ITAM 2015
Conceptos Básicos
Definición de Base de Datos
Exclusión de candidatos
Definición de variable de Respuesta
Inclusión de Base de Datos
Muestreo Aleatorio sin remplazo
Definición de Clases (tuplas)
Exclusión de datos potencialmente
erróneos y estabilización del modelo
Outliers:
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠:
𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995
Apalancamiento:
Distancia de Cook ∶
𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1
, 1)
25
50
75
0 25 50 75 100
horas trabajadas
edad
Amer-Indian-Eskimo Asian-Pac-Islander Black Other White
𝑦𝑖0 = β00 +
𝑗=1
𝑘
𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
Determinación de Transformaciones
• Modelos no lineales por mínimos cuadrados.
• Relaciones Funcionales - Familias:
– Familia Polinomial
– Familia Exponencial
– Funciones Potencia
– Modelos Rendimiento-Densidad
– Modelos Sigmoidales
– Splines
Determinación de Transformaciones
Correlación de Pearson
Escalamiento
Jerarquización vía Coeficientes de
Determinación Ajustados 𝜌
𝜌 = 𝜌 ∗ 1 − 0.0005 ∗ 𝑑𝑓 − 1
Definición de Transformaciones
𝑦𝑖2 = β02 +
𝑗=1
𝜑∗𝑘
𝛽𝑗2 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗))
𝑖 = 1,2, … , 𝑛 2
Criterio de Información de Akaike
• Depuración de regresores vía análisis AIC
𝐴𝐼𝐶 = 𝑛 ∗ log 𝑀𝑆 𝑅𝑒𝑠 + 2𝑘
𝑦𝑖3 = β03 +
𝑗=1
𝑘
𝛽𝑗3 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗))
𝑖 = 1,2, … , 𝑛 3
𝑘 ≤ 𝜑 ∗ 𝑘
Inserción de Relaciones
• 𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜:
– 𝑝 − 𝑣𝑎𝑙𝑢𝑒
– 𝑑𝑓 ≤ 4: regresores númericos
– 𝑑𝑓 ≤ 6: Regresores categóricos
𝑌𝑖4 =
𝑗=1
𝑤
𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) ∗ 𝛽𝑗4
+
𝑗=𝑤+1
𝑠
(
𝑟 𝜖 {𝛼,𝛽,…,}
𝜗
𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑟)) ∗ 𝛽𝑗4
)
𝑖 = 1,2, … , 𝑛4
𝜗: candidatos a transformación
𝑎=1
𝜗−1 𝑎∗(𝑎+1)
2
: posibles interacciones
Modelo final
Stepwise AIC
Outliers:
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠:
𝑦𝑖𝐹|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.9995
Distancia de Cook:
𝑦𝑖𝐹|𝐷𝑖 > 𝑚𝑎𝑥 𝑞 𝑔𝑎𝑚𝑚𝑎0.995+0.001∗ 𝑤−1
, 1
𝑖 = 1,2, … , 𝑛 𝐹
𝑤: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑡𝑒𝑟𝑎𝑐𝑖ó𝑛
Criterios
• Análisis Exploratorio de Datos (aproximación)
• Estadísticos:
– Análisis de Varianza.
– Contraste de White.
– Prueba de normalidad de K-S.
“Cuando las estadísticas nos dicen que la
familia mexicana tiene un promedio de cuatro
hijos y medio, nos explicamos por qué
siempre hay uno chaparrito.”
Marco Antonio Almazán

Más contenido relacionado

Destacado

Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesJaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesjuliobayonahernandez
 
Muestreo aguacate
Muestreo aguacateMuestreo aguacate
Muestreo aguacatejcgarma10
 
El Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampEl Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampPepeCambronne
 
28 beneficiosalos empleados
28 beneficiosalos empleados28 beneficiosalos empleados
28 beneficiosalos empleadossantanes
 
5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptxCristian Montes de Oca
 
Bulletin No1 du SNMG
Bulletin No1 du SNMGBulletin No1 du SNMG
Bulletin No1 du SNMGmarocsyndicat
 
MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO TATACABEZAS
 
"Endevina, endevinalla"
"Endevina, endevinalla""Endevina, endevinalla"
"Endevina, endevinalla"RaquelLopez235
 
Aprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesAprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesemilyesperanzahum
 
Procedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesProcedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesgen0003
 
Pasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordPasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordROSIO0412
 
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...dannelaravazquez
 
Météo
MétéoMétéo
Météorco35
 

Destacado (20)

Power
Power Power
Power
 
Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesJaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
 
Muestreo aguacate
Muestreo aguacateMuestreo aguacate
Muestreo aguacate
 
Lupiita
LupiitaLupiita
Lupiita
 
El Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampEl Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel Duchamp
 
28 beneficiosalos empleados
28 beneficiosalos empleados28 beneficiosalos empleados
28 beneficiosalos empleados
 
Tecnología
TecnologíaTecnología
Tecnología
 
5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx
 
Obras en comparación
Obras en comparaciónObras en comparación
Obras en comparación
 
Bulletin No1 du SNMG
Bulletin No1 du SNMGBulletin No1 du SNMG
Bulletin No1 du SNMG
 
MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO
 
"Endevina, endevinalla"
"Endevina, endevinalla""Endevina, endevinalla"
"Endevina, endevinalla"
 
AS
ASAS
AS
 
Aprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesAprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos moviles
 
Diaporama
DiaporamaDiaporama
Diaporama
 
Procedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesProcedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientes
 
Pasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordPasosparacombinarcorrespondenciaenword
Pasosparacombinarcorrespondenciaenword
 
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
 
#FIDmola - Reto_1
#FIDmola - Reto_1#FIDmola - Reto_1
#FIDmola - Reto_1
 
Météo
MétéoMétéo
Météo
 

Similar a Análisis y modelación masiva de datos a través

Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaDataLab Community
 
2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdfVictorZP2
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobiTefy Ruiz
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobiTefy Ruiz
 
Control_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptControl_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptBrandonPuentes2
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulationFer_casas
 
2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricasdaser wicho
 
2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricasDarwin Izurieta Calle
 
IT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaIT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaMiguel Pajuelo Villanueva
 

Similar a Análisis y modelación masiva de datos a través (20)

Introducción al Machine Learning
Introducción al Machine LearningIntroducción al Machine Learning
Introducción al Machine Learning
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando Garcia
 
2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf
 
Ajuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no linealAjuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no lineal
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 
Final.docx
Final.docxFinal.docx
Final.docx
 
A9 r55a7
A9 r55a7A9 r55a7
A9 r55a7
 
Sistemas Difusos
Sistemas DifusosSistemas Difusos
Sistemas Difusos
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobi
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobi
 
Otto Challenge report
Otto Challenge reportOtto Challenge report
Otto Challenge report
 
Control_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptControl_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.ppt
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulation
 
Trabajo practico - Grafos y Matrices (332) - UNA
Trabajo practico - Grafos y Matrices (332) - UNATrabajo practico - Grafos y Matrices (332) - UNA
Trabajo practico - Grafos y Matrices (332) - UNA
 
2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas
 
2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas
 
02 modelización numerica
02 modelización numerica02 modelización numerica
02 modelización numerica
 
IT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaIT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificada
 
Matematicas 9
Matematicas 9Matematicas 9
Matematicas 9
 
Modelos de elección discreta II
Modelos de elección discreta IIModelos de elección discreta II
Modelos de elección discreta II
 

Último

Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.pptVitobailon
 
Normas para los aceros basados en ASTM y AISI
Normas para los aceros basados en ASTM y AISINormas para los aceros basados en ASTM y AISI
Normas para los aceros basados en ASTM y AISIfimumsnhoficial
 
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfPresentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfMIGUELANGELCONDORIMA4
 
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.ariannytrading
 
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfPresentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfMirthaFernandez12
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdfEdwinAlexanderSnchez2
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMarceloQuisbert6
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTFundación YOD YOD
 
Fijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEFijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEANDECE
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdfFlorenciopeaortiz
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdfevin1703e
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)ssuser563c56
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfyoseka196
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCANDECE
 
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023ANDECE
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5
 
Unidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxUnidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxEverardoRuiz8
 
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa  tipos y funcionamientoCaldera Recuperadora de químicos en celulosa  tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa tipos y funcionamientoRobertoAlejandroCast6
 
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALCHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALKATHIAMILAGRITOSSANC
 

Último (20)

Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.ppt
 
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfVALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
 
Normas para los aceros basados en ASTM y AISI
Normas para los aceros basados en ASTM y AISINormas para los aceros basados en ASTM y AISI
Normas para los aceros basados en ASTM y AISI
 
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfPresentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
 
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
 
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfPresentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principios
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NIST
 
Fijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEFijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSE
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdf
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdf
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdf
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRC
 
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptx
 
Unidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxUnidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptx
 
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa  tipos y funcionamientoCaldera Recuperadora de químicos en celulosa  tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
 
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALCHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
 

Análisis y modelación masiva de datos a través

  • 1. Análisis y modelación de datos a través de Minería de Datos y algoritmos evolutivos de Regresión Lineal Múltiple Juan Pablo Bribiesca Espinosa ITAM 2015
  • 3. Definición de Base de Datos Exclusión de candidatos Definición de variable de Respuesta Inclusión de Base de Datos Muestreo Aleatorio sin remplazo Definición de Clases (tuplas)
  • 4. Exclusión de datos potencialmente erróneos y estabilización del modelo Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995 Apalancamiento: Distancia de Cook ∶ 𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1 , 1) 25 50 75 0 25 50 75 100 horas trabajadas edad Amer-Indian-Eskimo Asian-Pac-Islander Black Other White 𝑦𝑖0 = β00 + 𝑗=1 𝑘 𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
  • 5. Determinación de Transformaciones • Modelos no lineales por mínimos cuadrados. • Relaciones Funcionales - Familias: – Familia Polinomial – Familia Exponencial – Funciones Potencia – Modelos Rendimiento-Densidad – Modelos Sigmoidales – Splines
  • 6. Determinación de Transformaciones Correlación de Pearson Escalamiento Jerarquización vía Coeficientes de Determinación Ajustados 𝜌 𝜌 = 𝜌 ∗ 1 − 0.0005 ∗ 𝑑𝑓 − 1 Definición de Transformaciones 𝑦𝑖2 = β02 + 𝑗=1 𝜑∗𝑘 𝛽𝑗2 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 2
  • 7. Criterio de Información de Akaike • Depuración de regresores vía análisis AIC 𝐴𝐼𝐶 = 𝑛 ∗ log 𝑀𝑆 𝑅𝑒𝑠 + 2𝑘 𝑦𝑖3 = β03 + 𝑗=1 𝑘 𝛽𝑗3 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 3 𝑘 ≤ 𝜑 ∗ 𝑘
  • 8. Inserción de Relaciones • 𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜: – 𝑝 − 𝑣𝑎𝑙𝑢𝑒 – 𝑑𝑓 ≤ 4: regresores númericos – 𝑑𝑓 ≤ 6: Regresores categóricos 𝑌𝑖4 = 𝑗=1 𝑤 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) ∗ 𝛽𝑗4 + 𝑗=𝑤+1 𝑠 ( 𝑟 𝜖 {𝛼,𝛽,…,} 𝜗 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑟)) ∗ 𝛽𝑗4 ) 𝑖 = 1,2, … , 𝑛4 𝜗: candidatos a transformación 𝑎=1 𝜗−1 𝑎∗(𝑎+1) 2 : posibles interacciones
  • 9. Modelo final Stepwise AIC Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖𝐹|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.9995 Distancia de Cook: 𝑦𝑖𝐹|𝐷𝑖 > 𝑚𝑎𝑥 𝑞 𝑔𝑎𝑚𝑚𝑎0.995+0.001∗ 𝑤−1 , 1 𝑖 = 1,2, … , 𝑛 𝐹 𝑤: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑡𝑒𝑟𝑎𝑐𝑖ó𝑛
  • 10. Criterios • Análisis Exploratorio de Datos (aproximación) • Estadísticos: – Análisis de Varianza. – Contraste de White. – Prueba de normalidad de K-S.
  • 11.
  • 12. “Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito.” Marco Antonio Almazán