2. Historia “revolucionaria” del Data Mining
• Una “revolución” tras otra:
– Reglas de asociación
– Arboles de decisiones
– Redes neuronales
– Análisis de supervivencia
– Analytics
– Uplifting
– SNA (redes sociales)
– Servicios de data mining
– Big Data y “Data Science”
www.dataminingperu.com
3. Fuerzas detrás de las “revoluciones”
• Necesidad de las empresas de mejorar su
competitividad
• Necesidad de las empresas de software y
consultoras de ampliar su oferta de productos y
servicios
• Desarrollos en el mundo académico en busca de
ser “útiles”
• Necesidad del mundo “académico” de ampliar
su oferta educativa
www.dataminingperu.com
4. Características generales de las “revoluciones”
en data mining
• Mucho ruido y pocas nueces
• Clientes confundidos y muchos proyectos
fallidos
• Múltiple reinvención de la rueda
• Muchos disparates…
• Mucha “mala praxis”
• Muchas veces más de lo mismo
• Pero, finalmente algo queda…
www.dataminingperu.com
6. Importancia de las redes sociales
o Las redes son un componente importante en el
mundo físico, biológico y social: redes químicas,
cadenas alimentarias, jerarquías sociales, etc.
o En el mundo actual, las redes son aun más
prominentes: WWW, supply chain, comunidades
virtuales, etc.
o Los avances tecnológicos tienen mucho que ver en
esta importancia: Internet, celulares, transporte,
procesamiento de datos, mayor nivel de
interconexión en general
o Este hecho plantea la necesidad de desarrollar
instrumentos para utilizar los datos sobre las redes
de un modo efectivo
www.dataminingperu.com
7. Desarrollos académicos
• Descubrimiento de las limitaciones expresivas de
los modelos clásicos de data mining
• Desarrollo e identificación de representaciones más
expresivas
• Desarrollo e implementación de técnicas de Data
Mining Relacional
www.dataminingperu.com
8. Limitaciones expresivas de los modelos clásicos
de data mining
o Los modelos clásicos están implícitamente limitados
a describir un solo objeto (cliente, caso, etc.)
o Las relaciones entre atributos o fenómenos que
involucran relaciones entre objetos no pueden
incorporarse a un modelo a menos que se las
recodifique como atributos asociados a los objetos
individuales
o Supuesto de “Tabla única”
www.dataminingperu.com
9. Representaciones más expresivas
o Bases de datos relacionales: conjunto de tablas de
entidades y relaciones
o Bases de conocimiento de lógica de primer orden:
conjunto de sentencias de lógica de primer orden
o Grafos: Hipergrafos (dirigidos o no) tipificados
donde los nodos representan objetos y los
hiperarcos relaciones
www.dataminingperu.com
10. Desarrollo e implementación de técnicas de Data
Proposicionales Relacionales
Modelos
Arboles de
Mining Relacional
Arboles
Gráficos decisiones relacionales
No Modelo relacional
probabilís- SNA
ticos Reglas Reglas
No gráficos relacionales
Lógica prop. Lógica relacional
No Redes Markovianas Redes Markov.
dirigidos (MN) Relacionales
(RMN)
Redes de Redes de depen-
Gráficos dencia rel. (RDN)
dependencia (DN)
Probabilís- Dirigidos Redes bayesianas Redes bayesianas
ticos (BN) rel. (RBN)
Modelos de grupos
latentes (LGM)
Reglas prob. Reglas prob. Rel.
No gráficos Modelos lógicos Modelos lógicos
www.dataminingperu.com
probabilísticos probab. relac.
11. Implementaciones comerciales actuales de SNA
• Implementaciones de representaciones de grafos y
algoritmos sobre estos para determinar
comunidades, roles, etc.
• Generación de reportes y alertas
• En algunos casos un “framework” más general que
incluye SNA como componente
www.dataminingperu.com
12. Proceso de desarrollo para SNA
Asignación de
Proceso de Reglas de Detección de
roles por Reportes
ETL negocio comunidades
comunidad
• Cargar tres meses • Restringir el análisis •Probar diversos • Para todo nodo • Tabla de resultados
de CDR (Call detail solo a celulares de algoritmos para identificar un rol entre a ser usado por el
record) todas las compañías detección de los siguientes: departamento de
• Sumarizar los 3 • Solo usar CDR de comunidades • Líder. marketing.
meses en una tabla llamadas, SMS, MMS • Seguidor • Tabla excel para
relacional y tiempo de • Marginal grado 1 consultar los
• Cargar variables transferencia. • Marginal grado 2 resultados.
demográficas sobre • Si un nodo tiene • Antagonista • Objeto JAVA para
las líneas más de 150 graficar las
relaciones con otros comunidades
nodos, no incluir en
el análisis.
•Si un nodo A tiene
más de 20.000
sucesos de contacto
con un nodo B, no
incluir este número
en el análisis.
•Si una relacion A-B
tiene menos de 4
contactos en tres
meses, no
considerarla.
www.dataminingperu.com
13. Algunas aplicaciones
• Detección de churn y potenciales adquisiciones en
Telcos
– Los nodos son los clientes
– Los arcos son los patrones de comunicaciones entre los
clientes (según los CDR)
• Detección de fraude
– Los nodos son cuentas y/o propiedades de esas cuentas
– Los arcos son transferencias monetarias o vínculos entre
propiedades de las cuentas (usualmente identidad)
• Marketing viral
– Los nodos son clientes
– Los arcos son mensajes
www.dataminingperu.com
14. Enfoque híbrido de detección de fraudes
(Framework de riesgo de SAS)
Patrones Patrones Patrones Patrones
conocidos desconocidos complejos asociativos
Reglas Detección de Modelos SNA
anomalías supervisados
Definir reglas Detectar Aplicar Aplicar
para filtrar patrones modelos visualización y
transacciones anormales predictivos de métricas de
fraudulentas individuales y data mining grafos para
agregados relacional descubrir
anomalías
Ejemplo: Dos Ejemplos: Ejemplos: Ejemplos:
transacciones Análisis de modelos Conceptos de
entre cuentas secuencias, relacionales teoría de grafos
“marcadas” outliers, estadísticos
clustering
15. Algunos desafíos del SNA
o Encontrar un balance apropiado entre la
información local asociada al cliente e información
de la red: No todo está en el individuo ni en la red
o Poder aplicar procedimientos que permitan inferir
(predecir) la conducta de conjuntos de nodos
simultáneamente: inferencia colectiva
o Resolver el problema de la validación de un modelo:
no se puede partir aleatoriamente una red en
conjuntos de entrenamiento y validación:
www.dataminingperu.com
16. Estado actual de los SNA en Latinoamérica
• Dificultades en la carga de datos (CDR)
• Dificultades en la definición de conceptos y alertas
• Solo aplicaciones básicas de teoría de grafos
• Dificultades en enriquecer modelos tradicionales o
utilizar las redes de un modo realmente productivo
• Dificultades en usar la red más globalmente
(concentración “local” en el nodo)
• Ausencia total de modelos predictivos “colectivos”
www.dataminingperu.com
18. Tendencias recientes
• Data mining como servicio
• Extensión a nuevas áreas de aplicación
• Big Data y el “Data Science”
www.dataminingperu.com
19. Data mining como servicio
• Dos sentidos:
– Sector centralizado de data mining dentro de una
empresa
– Modelización predictiva anidada en soluciones
www.dataminingperu.com
20. Evolución de la inserción del data mining en las empresas
• Servicio externo en sectores aislados
• Función incorporada en distintos sectores
(modelos in house)
– Difusión de modelos creados centralmente y
ajustados localmente
• Servicio interno más o menos centralizado
www.dataminingperu.com
21. Servicio externo en sectores aislados
• Modelos cerrados para el cliente (poca posibilidad
de control o ajuste)
• El negocio de las consultoras externas es el de
modelos “genéricos”, con el mínimo ajuste posible
• Baja transferencia de know-how y capacitación al
cliente
www.dataminingperu.com
22. Función incorporada en sectores particulares
(modelos in house)
• Mayor control sobre los modelos
• Mayor precisión de los mismos
• Metodologías, criterios, evaluaciones y capacitación
fragmentadas y muchas veces inconsistentes o
incoherentes entre diversos sectores de una misma
organización
• Poca experiencia, capacitación; evaluación pobre de
los modelos y transferencia deficiente de
conocimientos
www.dataminingperu.com
23. Servicio interno centralizado
• Un sector especializado y capacitado tiene el
control de los modelos, las metodologías, etc.
• Mayor coherencia en toda la organización
• Capacitación centralizada y más eficaz
• Mejor transferencia de conocimientos
• Mejor vinculación con otros sectores
(especialmente IT)
www.dataminingperu.com
24. Modelización anidada (I)
• Plataformas de BI que incluyen funciones de
analytics predictivo (Alteryx, Pentaho)
• Plataformas de BPM (Business Process
Management) con funciones de modelización
predictiva (Pegasystems, Rage Frameworks)
• Database Analytics: RDBMSs, EDWs, NoSQLs,
BDOGs, Hadoop: contienen funciones de
modelización predictiva (usualmente muy
limitadas y mediante código) (Aster, Apache
Mahout para Hadoop, etc.)
www.dataminingperu.com
25. Modelización anidada (II)
• Modelos anidados en soluciones
– Framework de riesgo
– Automatización de marketing
– Mantenimiento predictivo
www.dataminingperu.com
26. Mantenimiento Predictivo
• Motivaciones:
– Pérdidas económicas importantes cuando falla
un recurso (baja en producción, multas, etc.)
– Deterioro en la “reputación”
– Regulaciones estatales, acuerdos de niveles de
servicio y requerimientos de seguridad
– Disminuir el costo de mantenimiento (15 a
60% del costo del bien en venta – COGS)
www.dataminingperu.com
27. Valor del mantenimiento predictivo
• Beneficios a partir del inicio de un programa de
mantenimiento predictivo:
– ROI: 10 veces
– Reducción en los costos de mantenimiento: 25% -
30%
– Eliminación de eventos de fuera de servicio: 70% -
75%
– Reducción del tiempo fuera de servicio: 35% - 45%
– Aumento en la producción: 20% - 25%.
Fuente: Operations and Maintenance Best Practices
Guide. US Department of Energy
www.dataminingperu.com
28. Analytics en mantenimiento predictivo
Qué alertas habría que
Optimización del atender primero? Cómo
mantenimiento puedo optimizar mi estrategia
de mantenimiento?
Valor/Confiabilidad
Qué recursos debieran recibir
Mantenimiento
Predictivo
mantenimiento/reemplazarse
debido a que es probable que fallen
durante el próximo ciclo de
mantenimiento?
Mantenimiento
Preventivo Cómo puedo impedir salidas de
servicio en ciclos costo-
eficientes de mantenimiento?
Mantenimiento
Reactivo Alertas….Qué está pasando?
Dónde? Qué está afectado?
Inteligencia
www.dataminingperu.com
30. Nuevas aplicaciones: Government Analytics
• La aplicación de técnicas analíticas (econometría,
estadística, modelización predictiva, optimización,
etc.) a la gestión gubernamental.
• Provee un marco para la toma de decisiones que
ayuda a los Gobiernos a resolver dificultades
complejas, mejorar su desempeño y anticiparse a la
ocurrencia de los problemas administrando y
balanceando de manera apropiada los riesgos que
le son propios.
www.dataminingperu.com
31. ¿Qué es Government Analytics?
• Es la siguiente etapa de lo que se denomina
Government Intelligence, un estadio de
desarrollo de la Gestión Pública Orientada a
Resultados ampliamente difundida en
latinoamérica, en la que los gobiernos ajustan su
accionar con base en patrones correctivos, es
decir, mediante la revisión de los resultados
históricos alcanzados
www.dataminingperu.com
32. ¿Qué es Government Analytics?
• Government Analytics supone un cambio radical
en la administración pública:
la obliga a pasar de un esquema pasivo de
formulación de políticas públicas a un modelo
completamente proactivo en el que puede
predecir los resultados y las reformulaciones
incluso antes de proceder a su implementación.
www.dataminingperu.com
33. Big Data
• “Big data analytics promete revolucionar el
modo en que las organizaciones analizan y
obtienen valor de sus datos”.
www.dataminingperu.com
34. Big Data
• “Las organizaciones de todas las formas y
tamaños cuentan con la capacidad para
aprovechar la cantidad siempre creciente de
datos que recolectan. Sin embargo, muchas
todavía luchan por producir valor de los datos
que ya tienen a su disposición”.
Big Data Insight Group
www.dataminingperu.com
36. Big Data
• Cada día creamos
2.5 quintillones
(1018) bytes
• El 90% de los
datos disponibles
fueron creados en
los últimos dos
años
www.dataminingperu.com
38. ¿Qué es Big Data?
• Big data es un término relativo que describe una
situación en la que el volumen, velocidad y variedad
de los datos exceden la capacidad de
almacenamiento y utilización para una toma de
decisiones precisa y oportuna
• Big data se define menos por el volumen – que es
un blanco móvil – que por su siempre creciente
variedad, velocidad, variabilidad y complejidad
www.dataminingperu.com
39. ¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
40. ¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
41. ¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
42. ¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
43. ¿Big Data es Data Mining rebautizado?
“En resumen, vemos que al proceso de análisis
de datos se le dió muchos nombres diferentes,
dependiendo de diversas tendencias en áreas
de negocios y marketing. Nuevas tendencias
surgirán y podemos esperar que los términos,
ahora de moda, de data science y big data
serán reemplazados en unos pocos años”.
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
44. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Consultoras “revolucionarias”
www.dataminingperu.com
45. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
Big Data Journal
www.dataminingperu.com
46. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books
www.dataminingperu.com
47. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books
• Big Data Certificates
www.dataminingperu.com
48. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books
• Big Data Certificates
• Big Data Tools
www.dataminingperu.com
49. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books
• Big Data Certificates
• Big Data Tools
• ¡Una nueva ciencia¡
Data Science
Wikipedia
www.dataminingperu.com
50. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Próximamente
• Muñequitos de acción Big Data!!
www.dataminingperu.com
51. ¿Big Data es el último grito de la moda?
(La industria del Big Data)
• Próximamente
• Muñequitos de acción Big Data!!
• La secuela: BIG DATA 2
www.dataminingperu.com
52. Evaluación del mercado de proveedores
• Mejor manejo de grandes volúmenes de datos,
herramientas de modelización fáciles de
aprender/usar y una amplia variedad de algoritmos
de análisis para datos estructurados y no
estructurados dictan cuál proveedor liderará el
mercado. Prevemos que el mercado de las
soluciones analíticas de Big Data será vibrante,
altamente competitivo y poblado de nuevos
jugadores durante los próximos tres años”.
The Forrester Wave™: Big Data
Predictive Analytics Solutions, Q1 2013
www.dataminingperu.com
53. Forrester Wave™: Big Data Predictive Analytics Solutions,
Q1 ’13
Forrester define las
soluciones analíticas
predictivas de big data
así:
Soluciones de software
y/o hardware que
permiten a las empresas
descubrir, evaluar,
optimizar y desplegar
modelos predictivos
resultantes del análisis de
fuentes de datos de gran
volúmen para mejorar la
performance del negocio
o mitigar los riesgos. www.dataminingperu.com
54. Big data según SAS
• Estrategias:
– Repensar la gestión de datos
• Integrar los procesos de integración de datos, data
quality, administración de metadatos y data governance
– Incorporar muy grandes volúmenes de datos en
tareas analíticas
• Analytics de Alta Performance: computación en grids,
procesamiento en base de datos, analytics en memoria
• Data Analytics Warehouse
– Determinación temprana de relevancia de los datos
www.dataminingperu.com
55. Information Management for Big Data
• Big data no solo intensifica la necesidad de
almacenar inmensos volúmenes de datos, sino
también la necesidad de data quality y data
governance, de anidar las funciones de analytics en
los sistemas operacionales y las cuestiones de
seguridad, privacidad y regulaciones.
• Todo lo que antes era problemático ahora se hará
más problemático.
www.dataminingperu.com
56. Information Management for Big Data
• En lugar de hacer una gestión reactiva de los datos,
hacer una gestión proactiva y predictiva
• Componentes clave:
– Gestión integrada de los datos incluyendo data
governance, integración de datos, data quality y gestión
de metadatos
– Gestión completa de los procesos analíticos, incluyendo
la gestión de modelos, su puesta en producción y
monitoreo
– Gestión efectiva de las decisiones para anidar fácilmente
la información y los resultados analíticos en los procesos
de negocios (en reglas de negocio, workflows y lógica de
sucesos)
www.dataminingperu.com
57. High-Performance Analytics for Big Data
• Diversas opciones de alta performance
– Computación en grid
– Procesamiento en base de datos
– Analytics en memoria
– Soporte para Hadoop
– Analytics visual en Web
www.dataminingperu.com
58. Determinación temprana de relevancia de los datos
• Incorporar analytics de alta performance al propio
proceso de gestión de datos
• Este análisis identifica los datos relevantes que
debieran ser llevados al DW o sobre los que
debieran hacerse procesos analíticos de alta
performance
www.dataminingperu.com
60. Enfoque
• ¿Nuestro sistema de procesamiento de
información (individual y colectivo) se parece
más a un disco rígido o a un sistema digestivo?
Big Data no es revolución, sino
•´
evolución
www.dataminingperu.com
61. Utilidad
• Maldición de la dimensionalidad:
– Mayor cantidad de casos aumenta la probabilidad de
encontrar patrones espurios
– Mayor cantidad de variables aumenta
exponencialmente la cantidad necesaria de casos
• Muchos datos (casos o dimensiones) no
necesariamente significan mejores modelos
www.dataminingperu.com
63. Prioridades
• ¿Cuántas empresas locales tienen petabytes de
datos?
• ¿Las muy pocas que los tienen, los subutilizan por
falta de Big Data?
• ¿Cuáles es realmente el estado del data mining en
las empresas latinoamericanas?
www.dataminingperu.com
64. Estado de cosas
• Capacitación deficiente de los data miners
• Confusión en la metodología o metodologías
débiles:
– En la preparación de datos
– En la estrategia de modelización
– En la utilización y gestión de los modelos
– En la evaluación de los mismos
• Considerable confusión en los “clientes”
www.dataminingperu.com
65. En síntesis
• Hay mucho que hacer antes de llegar al Big Data
• Cuando lo hagamos (si lo hacemos)
probablemente ya haya cambiado de nombre….
• Data Mining como servicio, aplicaciones en
campos como gobierno, mantenimiento y otros
parecen más útiles en este momento
• También el refuerzo y profundización en áreas
como el análisis de supervivencia y el SNA
www.dataminingperu.com