1
Julio Iglesias
12 Junio 2014
Cuando Nemo encontró
a (su) patrón
Minería de datos
Minería de datos
 Definición y características
 Algoritmos
 Metodología
• Demos
Objetivos y agenda
Cuando Nemo encontró...
Evolución
37
Informes
barras verdes
Herramientas
primarias
1970s
Documentar
el negocio
E-comm
Merchandising
analítico
2000...
TECNOLOGIAS QUE PERMITEN “ABSTRAER” LA INFORMACION EN CONOCIMIENTO
Tecnologías de BI
¿Qué buscamos?
6
Análisis Predictivo
Predictive Analysis
Presentation Exploration Discovery
Passive
Interactive
Proactive
Role of Softwar...
7
WH?
QUE
(What)
QUIEN
(Who)
DONDE
(Where)
CUANDO
(When)
CUAL
(Which)
POR
QUE?
(Why)
Otras tecnologías de BI no dan respue...
Minería de datos
Extracción y análisis de información oculta y predecible de grandes bases
de datos mediante identificación de modelos, pat...
Ejemplo supermercado
11
Mediante el Data Mining seremos capaces de realizar acciones
específicas y personalizadas:
• Descubrir patrones de comp...
Minería de datos
Componentes
Componentes
Algoritmos
(estadística)
Datos Modelo
Datos
Datos
Datos, necesito datos….
16
Tarjetas perforadas
5 ¼
3 ½ 20 Mb
100 Mb
600 Mb
1 Gb
4 Gb
4,7 Gb
9 Gb
16 Gb
1 Tb
<20 años 1 millón
Evolución capacidad
Datos, necesito datos…
Datos, muchos datos…
Algoritmos
Algoritmos
(estadística)
 Conjunto de herramientas y
técnicas para buscar
patrones.
 Componente estadística
...
 Decision Trees
 Naïve Bayesian
 Clustering
 Sequence Clustering
 Association Rules
 Neural Network
 Time Series
 ...
 Qué clientes comprarán un determinado producto con una
probabilidad X?
Clasificación (Predicción)
 Probabilidad de que ...
√ √ √ √ √ √
√ √ √ √ √
√ √ √
√ √ √ √ √ √
√ √ √
√
√
Classification
Regression
Segmentaion
Assoc. Analysis
Anomaly Detect.
Se...
Algorithm Description
Decision Trees Finds the odds of an outcome based on values in a training set
Association
Rules
Iden...
Veamos algunos ejemplos…
Arboles de decisión
Arboles de decisión
262626
 Arboles de Decisión (modelos predictivos)
 Son útiles para predecir el valor de ciertos valo...
Componentes
Arboles de decisión
Asociación
Amazon y Netflix
Amazon: 35% de las ventas del producto
provienen de recomendaciones
Netflix: 75% del streaming de vídeo
v...
Asociación
Cesta compra
Navegación Web
Componentes
Asociación
Series temporales
33
 Análisis de Series Temporales
Se utilizan para hallar predecir el comprotamiento de variables que
dependen del tiempo...
Componentes
Previsión
Clústering
36
 Clustering
Utilizado para realizar agrupaciones de registros de acuerdo a
características comunes, obteniendo grupos ...
Componentes
Clustering
38
No todo es comercial….
Componentes
Breast Cancer
Modelo
Modelo
41
 ¿ Como se realiza el proceso de DM ?
Modelo
Motor
DM
Datos
a tratar
Motor
DM
Datos tratados
Datos de
entrenamiento
Mo...
42
 Uno de los pasos más importantes en un estudio es obtener la
base de datos para el estudio.
 Las bases de datos o mu...
43
El siguiente paso a realizar para obtener la base preparada para el
estudio es realizar unos procesos de calidad de los...
Estandarización Puntos de Tiempo
• Examinar los últimos meses antes de abandono
• Abandono de diferentes clientes ocurren ...
45
Interpretar los resultados
Resumen
47
Interpretar los resultados
“…no disponer de la información correcta / necesaria,
puede ser peor…”
Cuando Nemo encontró ...
Correlación vs Causalidad
La causalidad es una relación entre un evento (causa) y un segundo
evento (efecto), en la cual e...
Correlación vs Causalidad
http://www.tylervigen.com/
He visto la luz… ¿?
51
Conclusiones
• No es ciencia ficción, pero hay que trabajarlo
• VOLUMEN: Grandes volúmenes de datos.
• Minería no es ne...
www.eug.es
julio.iglesias@eug.es
Próxima SlideShare
Cargando en…5
×

Minería de Datos: Qué significa realmente y ejemplos de utilización

1.528 visualizaciones

Publicado el

3ª Sesión Técnica del Ciclo de Conferencias sobre BI, celebrada el 12 de junio. Fue conducida por Julio Iglesias, Director del Departamento de Business Intelligence en IFR Group, experto especializado en proyectos de este tipo, y profesor asociado de nuestra Escuela Universitaria
¿Qué significa realmente la minería de datos? ,¿Cómo se engloba en un proyecto de BI?, ¿Puede mi empresa con los datos que genera hacer proyectos de este tipo? Y ¿Dónde está el límite para abordar proyectos de este tipo?
Bancos, hospitales, empresas de retail y páginas web son algunos de los sectores que utilizan esta tecnología. A lo largo de la sesión se analizó qué significa y qué implica la minería de datos: concepto y definición, casos, algoritmos de utilización… y de forma práctica se vieron un par de proyectos de ejemplo de las posibilidades que ofrece esta tecnología tan aplicada en la actualidad. Los asistentes tuvieron la oportunidad de ver de primera mano cómo las empresas utilizan los datos y la estadística para crear ofertas personalizadas.

Publicado en: Tecnología

Minería de Datos: Qué significa realmente y ejemplos de utilización

  1. 1. 1 Julio Iglesias 12 Junio 2014 Cuando Nemo encontró a (su) patrón Minería de datos
  2. 2. Minería de datos  Definición y características  Algoritmos  Metodología • Demos Objetivos y agenda Cuando Nemo encontró a su patrón
  3. 3. Evolución 37 Informes barras verdes Herramientas primarias 1970s Documentar el negocio E-comm Merchandising analítico 2000 OLAP Reporting Basado en Web Data Mining 1990s1980s Primeros DWs Data Marts Hojas de cálculo Informes DSS 2010+ Big Data Data Streaming Comprender el negocio Mejorar el negocio Predecir el negocio Qué pasa con el negocio ¿?
  4. 4. TECNOLOGIAS QUE PERMITEN “ABSTRAER” LA INFORMACION EN CONOCIMIENTO Tecnologías de BI
  5. 5. ¿Qué buscamos?
  6. 6. 6 Análisis Predictivo Predictive Analysis Presentation Exploration Discovery Passive Interactive Proactive Role of Software Business Insight Canned reporting Ad-hoc reporting OLAP Data mining Self-service Analysis
  7. 7. 7 WH? QUE (What) QUIEN (Who) DONDE (Where) CUANDO (When) CUAL (Which) POR QUE? (Why) Otras tecnologías de BI no dan respuesta… WH?
  8. 8. Minería de datos
  9. 9. Extracción y análisis de información oculta y predecible de grandes bases de datos mediante identificación de modelos, patrones y relaciones. Definición También conocida por (KDD- Knowledge Discovery in Databases)
  10. 10. Ejemplo supermercado
  11. 11. 11 Mediante el Data Mining seremos capaces de realizar acciones específicas y personalizadas: • Descubrir patrones de comportamiento • Fidelizar a los “mejores” clientes • Motivos de éxito o fracaso de un nuevo producto/medicamento • Distinguir los clientes/pacientes potencialmente más compradores o usuarios de un servicio/producto • Predecir automáticamente los comportamientos y futuras compras de un cliente comparando con clientes del mismo perfil • Detección de fraude • Conocer las características de los clientes desvinculados y sus motivos de abandono • Qué productos tienden a venderse con otros • ¿A qué grupos de clientes debo lanzar una campaña específica? • … Posibles utilidades
  12. 12. Minería de datos
  13. 13. Componentes
  14. 14. Componentes Algoritmos (estadística) Datos Modelo
  15. 15. Datos Datos Datos, necesito datos….
  16. 16. 16 Tarjetas perforadas 5 ¼ 3 ½ 20 Mb 100 Mb 600 Mb 1 Gb 4 Gb 4,7 Gb 9 Gb 16 Gb 1 Tb <20 años 1 millón Evolución capacidad
  17. 17. Datos, necesito datos…
  18. 18. Datos, muchos datos…
  19. 19. Algoritmos Algoritmos (estadística)  Conjunto de herramientas y técnicas para buscar patrones.  Componente estadística  Algunos pueden producir más de un resultado  Utilizar diferentes algoritmos para diferentes tareas  Combinar algoritmos para solucionar un problema particular
  20. 20.  Decision Trees  Naïve Bayesian  Clustering  Sequence Clustering  Association Rules  Neural Network  Time Series  …. Algoritmos de minería
  21. 21.  Qué clientes comprarán un determinado producto con una probabilidad X? Clasificación (Predicción)  Probabilidad de que un cliente tenga un determinado perfil? Segmentación  Recomendar un producto a un cliente que realiza una determianda compra Asociación  Probabilidad de que un cliente compre un producto en el futuro Predicción de secuencias  Predecir la venta de los próximos 5 meses y su error Forecasting Escenarios
  22. 22. √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ Classification Regression Segmentaion Assoc. Analysis Anomaly Detect. Seq. Analysis Time series √ - second choice√ - first choice ¿Cuál escoger?
  23. 23. Algorithm Description Decision Trees Finds the odds of an outcome based on values in a training set Association Rules Identifies relationships between cases Clustering Classifies cases into distinctive groups based on any attribute sets Naïve Bayes Clearly shows the differences in a particular variable for various data elements Sequence Clustering Groups or clusters data based on a sequence of previous events Time Series Analyzes and forecasts time-based data combining the powerof ARTXP (developed by Microsoft Research) for short-term predictionswith ARIMA (in SQL 2008) for long-term accuracy. Neural Nets Seeks to uncover non-intuitive relationships in data Linear Regression Determines the relationship between columns in order to predict an outcome Logistic Regression Determines the relationship between columns in order to evaluate the probability that a column will contain a specific state Algoritmos/Técnicas
  24. 24. Veamos algunos ejemplos…
  25. 25. Arboles de decisión
  26. 26. Arboles de decisión 262626  Arboles de Decisión (modelos predictivos)  Son útiles para predecir el valor de ciertos valores a partir de otros datos  Se realiza una clasificación, empezando por los atributos más significativos hasta terminar por los menos significativos.  De esta manera es posible establecer una serie de reglas sobre qué factores (atributos) afectan a cada caso del modelo y tener una base a partir de la cual estimar como responderán otros casos en el futuro (predicción) Riesgo Crediticio Casados Bajo:55% Alto:45% Solteros Bajo:45% Alto:55% Asalariados Bajo:65% Alto:35% Casados Bajo:45% Alto:55% Solteros Bajo:40% Alto:60% Autónomos Bajo:50% Alto:50% DeudasBajas Bajo:80% Alto:20% DeudasAltas 100% Todos 100%
  27. 27. Componentes Arboles de decisión
  28. 28. Asociación
  29. 29. Amazon y Netflix Amazon: 35% de las ventas del producto provienen de recomendaciones Netflix: 75% del streaming de vídeo viene de recomendaciones
  30. 30. Asociación Cesta compra Navegación Web
  31. 31. Componentes Asociación
  32. 32. Series temporales
  33. 33. 33  Análisis de Series Temporales Se utilizan para hallar predecir el comprotamiento de variables que dependen del tiempo. Se necesita una base de datos histórica. Se utiliza para la pevisión de demanda o stocks en un almacén o para la previsión del número de periódicos a enviar a un quiosco, etc. tiempo Ene Feb Mar Abr May Jun Jul Aug Sep Oct Nov Dic Ene PresentePasado Futuro ? Series temporales
  34. 34. Componentes Previsión
  35. 35. Clústering
  36. 36. 36  Clustering Utilizado para realizar agrupaciones de registros de acuerdo a características comunes, obteniendo grupos de registros con comportamiento o características parecidas entre entre ellos y diferenciadas con los otros grupos.. El clustering es útil especialmente para realizar tareas de Marketing tales como segmentación de clientes. Clase1 Clase2 Clase3 Ingresos anuales Edad Clase1 Clase2 Clase3 Ingresos anuales Edad Clase1 Clase2 Clase3 Ingresos anuales Edad Clustering Casos Clústering
  37. 37. Componentes Clustering
  38. 38. 38 No todo es comercial….
  39. 39. Componentes Breast Cancer
  40. 40. Modelo Modelo
  41. 41. 41  ¿ Como se realiza el proceso de DM ? Modelo Motor DM Datos a tratar Motor DM Datos tratados Datos de entrenamiento Modelo Modelo Creación de un modelo
  42. 42. 42  Uno de los pasos más importantes en un estudio es obtener la base de datos para el estudio.  Las bases de datos o muestras de estudio no sólo se elaboran con información interna de la empresa, sino que muchas veces se necesita de información externa.  Si no se dispone de la información correcta o de la información necesaria, el estudio o análisis puede resultar un fracaso o inducir a conclusiones equivocadas. Importante dedicar un extenso tiempo en obtener la información y también en validarla. A tener en cuenta
  43. 43. 43 El siguiente paso a realizar para obtener la base preparada para el estudio es realizar unos procesos de calidad de los datos y de la muestra. • Comprobar que la muestra sea representativa (que represente a la población que queremos analizar) • Conocer cómo se han obtenido los datos, si han sido tratados o manipulados con anterioridad, etc. • Que no haya valores o registros erróneos • Que no haya valores perdidos o missing • … Todos aquellos registros erróneos no se deben tener en cuenta en el estudio. Calidad de los datos
  44. 44. Estandarización Puntos de Tiempo • Examinar los últimos meses antes de abandono • Abandono de diferentes clientes ocurren en diferentes momentos 44
  45. 45. 45 Interpretar los resultados
  46. 46. Resumen
  47. 47. 47 Interpretar los resultados “…no disponer de la información correcta / necesaria, puede ser peor…” Cuando Nemo encontró a (su) patrón “…no disponer de la información es malo…”
  48. 48. Correlación vs Causalidad La causalidad es una relación entre un evento (causa) y un segundo evento (efecto), en la cual el segundo evento se entiende como consecuencia del primero Causalidad Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de las otras. Correlación
  49. 49. Correlación vs Causalidad http://www.tylervigen.com/
  50. 50. He visto la luz… ¿?
  51. 51. 51 Conclusiones • No es ciencia ficción, pero hay que trabajarlo • VOLUMEN: Grandes volúmenes de datos. • Minería no es necesariamente Big Data • ALGORITMO: • Cada algoritmo pudiera necesitar la información de entrada de una forma determinada. • Respuesta = ¿+? De un algoritmo • INTERPRETACION: Se deben hacer preguntas concretas y saber interpretar las respuestas. • MODELO: Importante contar con alguien experto en el tema para validarlo • MADUREZ en la empresa en proyectos de BI
  52. 52. www.eug.es julio.iglesias@eug.es

×