Charla de Introducción al Data Mining dada en el Posgrado de BI de la UTN Regional Buenos Aires, el martes 23 de Octubre del 2012 (http://bitly.com/REorwN).
plan-de-trabajo-colegiado en una institucion educativa
Introducción al Data Mining: qué es, para qué sirve y cómo funciona
1. Ing. Andrés Eyherabide
@aeyherabide
www.datalytics.com Posgrado BI UTN - Introducción al Data Mining
2. Que es Datalytics?
Fundada en el año 2007, Datalytics es una empresa de servicios profesionales
independiente, orientada exclusivamente a las prácticas de:
Data Integration
Business Intelligence
Data Mining
Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).
Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.
Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.
Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo
necesario para asegurar una solución exitosa que soporte los procesos de negocios.
Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios
de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau
Veritas. Recertificación Septiembre 2012 aprobada.
3. Introducción
Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos,
de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones
significativas.
El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus
operaciones por medio de un mayor entendimiento de su entorno:
Que clientes es más probable que acepte una oferta?
Que cliente tiene mayor probabilidad de dejar de pagar?
Que cliente tiene alta probabilidad de pedir la baja del servicio?
Que demanda puedo esperar de mis productos para el próximo trimestre?
Estos análisis se basan en que los datos pasados sirven para predecir el futuro.
La calidad de los datos y el conocimiento del negocio son críticos en el análisis.
Los datos deben ser entendidos como un activo que le permitirá a las organizaciones
diferenciarse proporcionando proporcionar más y mejores servicios.
4. Por que minar datos?
Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:
Datos generados en la nube, redes sociales.
Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,
etc.
Transacciones bancarias / Tarjetas de Crédito.
Machine generated data: sensores, web logs, etc.
Frecuentemente hay información “oculta” en los datos que no es directamente evidente a
los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a
ser analizada.
El GAP entre el volumen de información y el número de analista crece exponencialmente.
La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un
activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir
eventos futuros, anticiparse a ellos, etc.
5. El ciclo de vida de los datos
Data Mining
Datos Información Conocimiento / Acción
Transaccionales Extracción, transformación y carga Programas de retención
Operacionales Limpieza y calidad Optimización acciones de MKT
Demográficos Almacenamiento Análisis de riesgo y rentabilidad
Financieros Acceso en tiempo y forma Detección de fraudes
Económicos Transformar datos en información
Gubernamentales
Asociaciones
6. Que NO es Data Mining?
No es un producto de SW que se compra sino una disciplina que debe ser dominada.
No es una solución mágica ni mucho menos instantánea a los problemas de negocio.
No es un fin en sí mismo, sino un proceso.
No es un dogma de fe, es una disciplina con sustento matemático y estadístico.
Algunos ejemplos de lo que NO es Data Mining:
Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no
han cursado estudios universitarios.
Determinar la bebida gaseosa más vendida en cada departamento.
Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio
(por ejemplo, ventas * 1,17).
7. Que SI es Data Mining?
Determinar la probabilidad de que un cliente solicite la baja de su servicio en los
próximos 3 meses.
Determinar que clientes son más propensos a responder afirmativamente a una
determinada acción de MKT con una oferta determinada.
Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda
hacer frente al pago del mismo en tiempo y forma, cayendo en mora.
Segmentar nuestra cartera de clientes para encontrar grupos de clientes con
características de comportamiento similares.
Analizar el comportamiento de compras de nuestros clientes para la confección de
ofertas de productos.
8. Donde encaja Data Mining?
ETL DW OLAP & Reporting
VSAM
MQSeries
AS/400
Pentaho,
Oracle/Hyperion,
Microstrategy,
DB2 UDB
SAS, Etc.
Informix
Oracle Extract
Microsoft Transform
... Clean
Siebel Load
PeopleSoft
DW
Datastage ODS Data Mart
SAP R/3
Informatica
XML Oracle
Oracle DI
Pentaho DI IBM DB2
SAS DIS SQL Server
Archivos Planos
Etc. Teradata
FTP
Sybase IQ
Etc.
Data Mining
SAS, SPSS,
Web Logs Rapid Miner
9. Metodologías de Trabajo
1. Conocimiento del Negocio 2. Conocimiento de los datos
Recolección y entendimiento de los datos.
Objetivos / Entorno
Exploración, evaluación de la calidad
Supuestos, restricciones, riesgos y
contingencias
Definir análisis a realizar
3. Preparación de los datos
Selección, limpieza ,
personalización y agregación
de los datos
6. Implementación
Desarrollo de plan de
implementación
Auditoría de implemen-
tación
Mantenimiento 4. Análisis & Modelado
Definir la técnica más
adecuada de Data Mining
5. Evaluación Desarrollo del modelo /
solución
Evaluar e interpretar resultados
Auditar el proceso
Definir próximos pasos
10. Orígenes del Data Mining
Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition,
estadística y sistemas de bases de datos.
Las técnicas tradicionales pueden ser inadecuadas debido a:
Gran volumen de datos
Alta dimensionalidad de los datos
Naturaleza heterogénea y distribuida de los datos
Estadística
DM
Bases de Int.
Datos Artificial
11. Orígenes del Data Mining
Data Mining y la Estadística:
Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.
Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.
La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.
En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones
entre ellas.
Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de
datos.
Data Mining y la Inteligencia Artificial:
La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.
Se utilizan para construir modelos predictivos no lineales que aprenden a través de
entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.
12. Tipos de Análisis del Data Mining
Regresiones Lineales Redes Neuronales
Predictivos
Data Mining
Regresiones Logisticas Series de Tiempo
Clusters Arboles de Decision
Descriptivos
Promedios Móviles Análisis Multivariados
Distribuciones Tablas de Contingencia
Varianza Correlaciones
Desvío Standard Rankings, Percentiles, etc.
Inteligencia (Valor Agregado)
13. Procesos de Modelado Predictivo
Actualidad
Horizonte
Datos Históricos
Predicción
Entrenamiento y
Validación
Horizonte
Datos Históricos
Predicción
Corrida real
14. Modelado: Tipos de Variables
Var. Descriptivas
Var. de Clase
/ Target
Entrenamiento
En base a información histórica
se generan distintos modelos
Clasifica
Modelo
15. Entrenamiento del Modelo
Datos de
entrenamiento
Sexo Edad Estado Ingreso $ # Mora
Civil Anual Credito Cuotas
M 24 Casado 120K 20K 4 Si
Construir y entrenar
F 36 Casado 240K 34K 12 No
el modelo
F 28 Casado 180K 60K 3 Si
M 32 Soltero 120K 12K 8 No
M 29 Soltero 134K 56K 12 No
M 46 Casado 182K 128K 14 No Y luego predecir
M 34 Soltero 227K 134K 8 Si
F 44 Casado 132K 240K 12 No Sexo Edad Estado Ingreso $ # Mora
Civil Anual Credito Cuotas
M 29 Casado 134K 27K 6 ?
F 46 Casado 182K 41K 12 ?
F 34 Casado 72K 26K 10 ?
M 44 Soltero 152K 42K 8 ?
16. Resumen de Modelado
Preparación Datos Preselección de Variables Desarrollo Implementación
• Definición de Set de Datos • Análisis Exploratorio • Construcción de Construcción de un
• Tratamiento de Valores • Personalización de Variables. Modelo Score
Missing • Transformación de Variables • Evaluación del Presentar Resultados
• División de Población • Buscar patrones Modelo
Training – Validación – Test (multivariados)
• Detección de Outliers
(errores)
Scoring
17. Análisis Desriptivo: Clustering
Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
una medida de similitud entre ellos, hallar clusters/segmentos tal que:
Los objetos en un cluster son más similares entre sí.
Los objetos en clusters separados sean lo más distintos posibles entre sí.
Minimizar la distancia intracluster
Maximizar la distancia intercluster
18. Clustering: Segmentación de Mercado
Una segmentación muy conocida de clientes es la segmentación RFM:
Recency: cuando fue la última vez que compró?
Frequency: cuantas veces compró?
Monetary Value: cuanto dinero gastó?
En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su
comportamiento de consumo.
Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los
clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con
ingresos superiores a $ 10.800.
19. Análisis Predictivo: Árboles de Decisión
Dado un conjunto de registros, Cada registro se define por un conjunto de variables,
siendo una de ellos la clase (también llamada target).
Objetivo: hallar un modelo para determinar la variable target como una función de los
valores de las otras variables.
El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto
de datos dados se divide en training y test sets, con el training set usado para construir el
modelo y el test set usado para validarlo.
Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera
“aceptable” la variable target para registros desconocidos y nuevos casos.
20. Análisis Predictivo: Árboles de Decisión
Beneficios:
Fácil Interpretación e implementación
Las ramas del árbol definen directamente las reglas de asignación
Los resultados son operativos de forma inmediata
Minimiza el pre-tratamiento de los datos (no hay problema de outliers)
Antigüedad cliente
% Saldo Financiado % Utilización
Respuesta: 65% Últimos 3 meses
Respuesta: 35%
10 -60%
Respuesta:5% Respuesta: 13% Respuesta:47% Respuesta: 5% Respuesta:30%
21. Características de modelos Predictivos
Técnicas de Árbol de Regresión
Regresión Lineal Red Neuronal
Modelización Decisión Logística
Tipo de Variable Continua y
Discreta Discreta Continua
Target Discreta
Tipo de
Discreta Continua Continua Continua
predicción
Poder de
Regular Bueno Bueno Muy Bueno
Predicción
Rapidez de
Rápido Mediano Mediano Mediano
Modelización
Facilidad de
Fácil Mediano Mediano Difícil
Interpretación
Manejo de
Muy Bueno Regular Regular Regular
Valores Missing
Robustez ante
Muy Bueno Bueno Bueno Bueno
outliers
22. Presentación Caso de Negocio
Compañía financiera fundada en 2003, una de las más especializadas del mercado de
Factoring.
Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis
áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).
Promotores de la legislación que favorece la unificación de la factura como título valor
con libre negociabilidad.
La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).
Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que
le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese
crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
que le aseguren una relación estratégica a lo largo del tiempo.
23. Quien es quien?
La compañía decidió llevar adelante un proceso de segmentación de clientes basada en
modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha
segmentación.
Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados,
se recurrió a una segmentación basada en el comportamiento denominada RFM:
Recency, Frequency, Money Value.
Definiciones previas:
Cliente activo: al menos 1 negocio en los últimos 180 días.
Cliente inactivo: sin negocios en los últimos 180 días.
Cliente recurrente: más de 1 negocio.
Principales métricas usadas:
Cantidad de Negocios (frecuencia y recurrencia).
Total Valor $, Valor $ Promedio (money value)
Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).
28. Estrategia de Segmentación
Segmentar por $ Valor (4 segmentos):
Segmentar por Fidelidad y Actividad (4 segmentos):
Cruzar ambos segmentos, y fusionar segmentos poco significativos.
30. Resultado Final
0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días
desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios.
Ej.: T3 Textiles S.A.S.
1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.:
MetalPlastics S.A.S.
2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio.
En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.
3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor
antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas
de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.
4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto.
Ej.: C.I. Agrodex S.A.
5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
Foods S.A.S.
31. El Minero
Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.
Traduce los requerimientos de información en preguntas apropiadas para su análisis con
las herramientas de minería.
Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por
ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..
Habilidades:
Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!
Conocimientos de estadística “avanzada”.
Conocimiento de técnicas de minería y análisis exploratorio.
Conocimiento de técnicas de manipulación de datos (SQL u otros).
Pero por sobre todo curiosidad y creatividad.
Y paciencia...
32. Desafíos
El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.
El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y
puesto en práctica por los usuarios.
La calidad de los modelos esta directamente relacionado con la calidad de los datos.
Problemas con los datos:
Pocos datos
Poca historia
Ruido, valores anómalos
Valores incompletos
Eficiencia y escalabilidad de algoritmos de Data Mining.
Y por último pero no menos importante… BIG DATA .
33. Que es BIG DATA?
Big Data es el nombre que se le da a conjuntos de información que crecen de una
manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
métodos o técnicas tradicionales del mundo de base de datos relacionales.
Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos
móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.
Big Data son tres V’s y una C:
Velocidad: los datos se generan a un ritmo exponencial.
Volumen: la irrupción de Big Data dejó en el
pasado el Terabyte para hablar de Petabytes y
Zetabytes.
Variedad: datos estructurados y no estructurados,
proveniente de la web 2.0, sensores, logs, etc.
Complejidad: volumen de datos tal que no
permite procesarlo con técnicas tradicionales
34. El desafío de BIG DATA
LOS DATOS SE
40 DUPLICAN CADA 2 AÑOS 80%
35 DE LA INFORMACIÓN ES NO
30 ESTRUCTURADA
(Gartner, December 2011)
25
ZB
20
15 LAS EMPRESAS MANEJARÁN
10 50X MÁS DATOS
5 EN LA PRÓXIMA DÉCADA
2005 2010 2015 2020
0 (IDC Digital Universe Study, June 2011)
(IDC Digital Universe Study, June 2011)
“El aumento exponencial en la cantidad de información disponible ha hecho
que las empresas recurran a nuevas herramientas y procesos para recopilar
datos (tanto estructurados como no estructurados) y para almacenar,
administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011