Introducción al Data Mining: qué es, para qué sirve y cómo funciona

Ing. Andrés Eyherabide
@aeyherabide
www.datalytics.com Posgrado BI UTN - Introducción al Data Mining

Que es Datalytics?
 Fundada en el año 2007, Datalytics es una empresa de servicios profesionales
independiente, orientada exclusivamente a las prácticas de:
 Data Integration
 Business Intelligence
 Data Mining
 Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).
 Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.
 Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.
 Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo
necesario para asegurar una solución exitosa que soporte los procesos de negocios.
 Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios
de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau
Veritas. Recertificación Septiembre 2012 aprobada.

Introducción
 Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos,
de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones
significativas.
 El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus
operaciones por medio de un mayor entendimiento de su entorno:
 Que clientes es más probable que acepte una oferta?
 Que cliente tiene mayor probabilidad de dejar de pagar?
 Que cliente tiene alta probabilidad de pedir la baja del servicio?
 Que demanda puedo esperar de mis productos para el próximo trimestre?
 Estos análisis se basan en que los datos pasados sirven para predecir el futuro.
 La calidad de los datos y el conocimiento del negocio son críticos en el análisis.
 Los datos deben ser entendidos como un activo que le permitirá a las organizaciones
diferenciarse proporcionando proporcionar más y mejores servicios.

Por que minar datos?
 Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:
 Datos generados en la nube, redes sociales.
 Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,
etc.
 Transacciones bancarias / Tarjetas de Crédito.
 Machine generated data: sensores, web logs, etc.
 Frecuentemente hay información “oculta” en los datos que no es directamente evidente a
los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a
ser analizada.
 El GAP entre el volumen de información y el número de analista crece exponencialmente.
 La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un
activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir
eventos futuros, anticiparse a ellos, etc.

El ciclo de vida de los datos
Data Mining

Datos Información Conocimiento / Acción
Transaccionales Extracción, transformación y carga Programas de retención
Operacionales Limpieza y calidad Optimización acciones de MKT
Demográficos Almacenamiento Análisis de riesgo y rentabilidad
Financieros Acceso en tiempo y forma Detección de fraudes
Económicos Transformar datos en información
Gubernamentales
Asociaciones

Que NO es Data Mining?
 No es un producto de SW que se compra sino una disciplina que debe ser dominada.
 No es una solución mágica ni mucho menos instantánea a los problemas de negocio.
 No es un fin en sí mismo, sino un proceso.
 No es un dogma de fe, es una disciplina con sustento matemático y estadístico.
 Algunos ejemplos de lo que NO es Data Mining:
 Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no
han cursado estudios universitarios.
 Determinar la bebida gaseosa más vendida en cada departamento.
 Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio
(por ejemplo, ventas * 1,17).

Que SI es Data Mining?
 Determinar la probabilidad de que un cliente solicite la baja de su servicio en los
próximos 3 meses.
 Determinar que clientes son más propensos a responder afirmativamente a una
determinada acción de MKT con una oferta determinada.
 Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda
hacer frente al pago del mismo en tiempo y forma, cayendo en mora.
 Segmentar nuestra cartera de clientes para encontrar grupos de clientes con
características de comportamiento similares.
 Analizar el comportamiento de compras de nuestros clientes para la confección de
ofertas de productos.

Donde encaja Data Mining?

ETL DW OLAP & Reporting
VSAM
MQSeries
AS/400
Pentaho,
Oracle/Hyperion,
Microstrategy,
DB2 UDB
SAS, Etc.
Informix
Oracle Extract
Microsoft Transform
... Clean
Siebel Load
PeopleSoft
DW
Datastage ODS Data Mart
SAP R/3
Informatica
XML Oracle
Oracle DI
Pentaho DI IBM DB2
SAS DIS SQL Server
Archivos Planos
Etc. Teradata
FTP
Sybase IQ
Etc.
Data Mining
SAS, SPSS,
Web Logs Rapid Miner

Metodologías de Trabajo

1. Conocimiento del Negocio 2. Conocimiento de los datos
 Recolección y entendimiento de los datos.
 Objetivos / Entorno
 Exploración, evaluación de la calidad
 Supuestos, restricciones, riesgos y
contingencias
 Definir análisis a realizar

3. Preparación de los datos
 Selección, limpieza ,
personalización y agregación
de los datos
6. Implementación
 Desarrollo de plan de
implementación
 Auditoría de implemen-
tación
 Mantenimiento 4. Análisis & Modelado
 Definir la técnica más
adecuada de Data Mining
5. Evaluación  Desarrollo del modelo /
solución
 Evaluar e interpretar resultados
 Auditar el proceso
 Definir próximos pasos

Orígenes del Data Mining
 Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition,
estadística y sistemas de bases de datos.
 Las técnicas tradicionales pueden ser inadecuadas debido a:
 Gran volumen de datos
 Alta dimensionalidad de los datos
 Naturaleza heterogénea y distribuida de los datos
Estadística

DM
Bases de Int.
Datos Artificial

Orígenes del Data Mining
 Data Mining y la Estadística:
 Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.
 Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.
 La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.
 En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones
entre ellas.
 Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de
datos.
 Data Mining y la Inteligencia Artificial:
 La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.
 Se utilizan para construir modelos predictivos no lineales que aprenden a través de
entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.

Tipos de Análisis del Data Mining

Regresiones Lineales Redes Neuronales
Predictivos

Data Mining
Regresiones Logisticas Series de Tiempo

Clusters Arboles de Decision
Descriptivos

Promedios Móviles Análisis Multivariados
Distribuciones Tablas de Contingencia
Varianza Correlaciones
Desvío Standard Rankings, Percentiles, etc.

Inteligencia (Valor Agregado)

Procesos de Modelado Predictivo
Actualidad

Horizonte
Datos Históricos
Predicción
Entrenamiento y
Validación

Horizonte
Datos Históricos
Predicción

Corrida real

Modelado: Tipos de Variables
Var. Descriptivas

Var. de Clase
/ Target

Entrenamiento
En base a información histórica
se generan distintos modelos

Clasifica
Modelo

Entrenamiento del Modelo
Datos de
entrenamiento
Sexo Edad Estado Ingreso $ # Mora
Civil Anual Credito Cuotas
M 24 Casado 120K 20K 4 Si
Construir y entrenar
F 36 Casado 240K 34K 12 No
el modelo
F 28 Casado 180K 60K 3 Si
M 32 Soltero 120K 12K 8 No
M 29 Soltero 134K 56K 12 No
M 46 Casado 182K 128K 14 No Y luego predecir
M 34 Soltero 227K 134K 8 Si
F 44 Casado 132K 240K 12 No Sexo Edad Estado Ingreso $ # Mora
Civil Anual Credito Cuotas
M 29 Casado 134K 27K 6 ?
F 46 Casado 182K 41K 12 ?
F 34 Casado 72K 26K 10 ?
M 44 Soltero 152K 42K 8 ?

Resumen de Modelado

Preparación Datos Preselección de Variables Desarrollo Implementación

• Definición de Set de Datos • Análisis Exploratorio • Construcción de  Construcción de un
• Tratamiento de Valores • Personalización de Variables. Modelo Score
Missing • Transformación de Variables • Evaluación del  Presentar Resultados
• División de Población • Buscar patrones Modelo
Training – Validación – Test (multivariados)
• Detección de Outliers
(errores)

Scoring

Análisis Desriptivo: Clustering
 Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
una medida de similitud entre ellos, hallar clusters/segmentos tal que:
 Los objetos en un cluster son más similares entre sí.
 Los objetos en clusters separados sean lo más distintos posibles entre sí.

Minimizar la distancia intracluster

Maximizar la distancia intercluster

Clustering: Segmentación de Mercado
 Una segmentación muy conocida de clientes es la segmentación RFM:
 Recency: cuando fue la última vez que compró?
 Frequency: cuantas veces compró?
 Monetary Value: cuanto dinero gastó?
 En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su
comportamiento de consumo.
 Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los
clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con
ingresos superiores a $ 10.800.

Análisis Predictivo: Árboles de Decisión
 Dado un conjunto de registros, Cada registro se define por un conjunto de variables,
siendo una de ellos la clase (también llamada target).
 Objetivo: hallar un modelo para determinar la variable target como una función de los
valores de las otras variables.
 El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto
de datos dados se divide en training y test sets, con el training set usado para construir el
modelo y el test set usado para validarlo.
 Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera
“aceptable” la variable target para registros desconocidos y nuevos casos.

Análisis Predictivo: Árboles de Decisión
 Beneficios:
 Fácil Interpretación e implementación
 Las ramas del árbol definen directamente las reglas de asignación
 Los resultados son operativos de forma inmediata
 Minimiza el pre-tratamiento de los datos (no hay problema de outliers)

Antigüedad cliente

% Saldo Financiado % Utilización
Respuesta: 65% Últimos 3 meses
Respuesta: 35%
10 -60%

Respuesta:5% Respuesta: 13% Respuesta:47% Respuesta: 5% Respuesta:30%

Características de modelos Predictivos
Técnicas de Árbol de Regresión
Regresión Lineal Red Neuronal
Modelización Decisión Logística

Tipo de Variable Continua y
Discreta Discreta Continua
Target Discreta
Tipo de
Discreta Continua Continua Continua
predicción

Poder de
Regular Bueno Bueno Muy Bueno
Predicción

Rapidez de
Rápido Mediano Mediano Mediano
Modelización

Facilidad de
Fácil Mediano Mediano Difícil
Interpretación

Manejo de
Muy Bueno Regular Regular Regular
Valores Missing
Robustez ante
Muy Bueno Bueno Bueno Bueno
outliers

Presentación Caso de Negocio
 Compañía financiera fundada en 2003, una de las más especializadas del mercado de
Factoring.
 Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis
áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).
 Promotores de la legislación que favorece la unificación de la factura como título valor
con libre negociabilidad.
 La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).
 Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que
le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese
crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
que le aseguren una relación estratégica a lo largo del tiempo.

Quien es quien?
 La compañía decidió llevar adelante un proceso de segmentación de clientes basada en
modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha
segmentación.
 Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados,
se recurrió a una segmentación basada en el comportamiento denominada RFM:
Recency, Frequency, Money Value.
 Definiciones previas:
 Cliente activo: al menos 1 negocio en los últimos 180 días.
 Cliente inactivo: sin negocios en los últimos 180 días.
 Cliente recurrente: más de 1 negocio.
 Principales métricas usadas:
 Cantidad de Negocios (frecuencia y recurrencia).
 Total Valor $, Valor $ Promedio (money value)
 Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).

Activos vs. Inactivos y Recurrencia
 # Clientes Activos = 70,31% del total de cuentas desde el 2010
 # Clientes Activos no Recurrentes = 5,74%
 # Negocios Clientes Activos = 5,37%
 Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%)

# Clientes # Negocios Valor $ (Millones)
5%

14%
30%
Activos Activos Activos
Inactivos Inactivos Inactivos

70%
95% 85%

Estrategia de Segmentación
 Segmentar por $ Valor (4 segmentos):

 Segmentar por Fidelidad y Actividad (4 segmentos):

 Cruzar ambos segmentos, y fusionar segmentos poco significativos.

Resultado Final
 0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días
desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios.
Ej.: T3 Textiles S.A.S.
 1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.:
MetalPlastics S.A.S.
 2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio.
En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.
 3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor
antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas
de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.
 4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto.
Ej.: C.I. Agrodex S.A.
 5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
Foods S.A.S.

El Minero
 Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.
 Traduce los requerimientos de información en preguntas apropiadas para su análisis con
las herramientas de minería.
 Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por
ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..
 Habilidades:
 Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!
 Conocimientos de estadística “avanzada”.
 Conocimiento de técnicas de minería y análisis exploratorio.
 Conocimiento de técnicas de manipulación de datos (SQL u otros).
 Pero por sobre todo curiosidad y creatividad.
 Y paciencia...

Desafíos
 El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.
 El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y
puesto en práctica por los usuarios.
 La calidad de los modelos esta directamente relacionado con la calidad de los datos.
Problemas con los datos:
 Pocos datos
 Poca historia
 Ruido, valores anómalos
 Valores incompletos
 Eficiencia y escalabilidad de algoritmos de Data Mining.

 Y por último pero no menos importante… BIG DATA .

Que es BIG DATA?
 Big Data es el nombre que se le da a conjuntos de información que crecen de una
manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
métodos o técnicas tradicionales del mundo de base de datos relacionales.
 Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos
móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.
 Big Data son tres V’s y una C:
 Velocidad: los datos se generan a un ritmo exponencial.
 Volumen: la irrupción de Big Data dejó en el
pasado el Terabyte para hablar de Petabytes y
Zetabytes.
 Variedad: datos estructurados y no estructurados,
proveniente de la web 2.0, sensores, logs, etc.
 Complejidad: volumen de datos tal que no
permite procesarlo con técnicas tradicionales

El desafío de BIG DATA

LOS DATOS SE
40 DUPLICAN CADA 2 AÑOS 80%
35 DE LA INFORMACIÓN ES NO
30 ESTRUCTURADA
(Gartner, December 2011)
25
ZB
20
15 LAS EMPRESAS MANEJARÁN
10 50X MÁS DATOS
5 EN LA PRÓXIMA DÉCADA
2005 2010 2015 2020
0 (IDC Digital Universe Study, June 2011)
(IDC Digital Universe Study, June 2011)

“El aumento exponencial en la cantidad de información disponible ha hecho
que las empresas recurran a nuevas herramientas y procesos para recopilar
datos (tanto estructurados como no estructurados) y para almacenar,
administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011

Introducción al Data Mining: qué es, para qué sirve y cómo funciona

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (12)

Similar a Introducción al Data Mining: qué es, para qué sirve y cómo funciona

Similar a Introducción al Data Mining: qué es, para qué sirve y cómo funciona (20)

Último

Último (20)

Introducción al Data Mining: qué es, para qué sirve y cómo funciona