1. Análisis y modelación de datos a través de
Minería de Datos y algoritmos evolutivos de
Regresión Lineal Múltiple
Juan Pablo Bribiesca Espinosa
ITAM 2015
3. Definición de Base de Datos
Exclusión de candidatos
Definición de variable de Respuesta
Inclusión de Base de Datos
Muestreo Aleatorio sin remplazo
Definición de Clases (tuplas)
4. Exclusión de datos potencialmente
erróneos y estabilización del modelo
Outliers:
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠:
𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995
Apalancamiento:
Distancia de Cook ∶
𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1
, 1)
25
50
75
0 25 50 75 100
horas trabajadas
edad
Amer-Indian-Eskimo Asian-Pac-Islander Black Other White
𝑦𝑖0 = β00 +
𝑗=1
𝑘
𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
5. Determinación de Transformaciones
• Modelos no lineales por mínimos cuadrados.
• Relaciones Funcionales - Familias:
– Familia Polinomial
– Familia Exponencial
– Funciones Potencia
– Modelos Rendimiento-Densidad
– Modelos Sigmoidales
– Splines
10. Criterios
• Análisis Exploratorio de Datos (aproximación)
• Estadísticos:
– Análisis de Varianza.
– Contraste de White.
– Prueba de normalidad de K-S.
11.
12. “Cuando las estadísticas nos dicen que la
familia mexicana tiene un promedio de cuatro
hijos y medio, nos explicamos por qué
siempre hay uno chaparrito.”
Marco Antonio Almazán