Tendencias Recientes en Data Mining

Tendencias recientes en
Data Mining

José Angel Alvarez
Febrero 2013

Historia “revolucionaria” del Data Mining

• Una “revolución” tras otra:
– Reglas de asociación
– Arboles de decisiones
– Redes neuronales
– Análisis de supervivencia
– Analytics
– Uplifting
– SNA (redes sociales)
– Servicios de data mining
– Big Data y “Data Science”

www.dataminingperu.com

Fuerzas detrás de las “revoluciones”

• Necesidad de las empresas de mejorar su
competitividad
• Necesidad de las empresas de software y
consultoras de ampliar su oferta de productos y
servicios
• Desarrollos en el mundo académico en busca de
ser “útiles”
• Necesidad del mundo “académico” de ampliar
su oferta educativa

Características generales de las “revoluciones”
en data mining

• Mucho ruido y pocas nueces
• Clientes confundidos y muchos proyectos
fallidos
• Múltiple reinvención de la rueda
• Muchos disparates…
• Mucha “mala praxis”
• Muchas veces más de lo mismo
• Pero, finalmente algo queda…


Análisis de redes
sociales


Importancia de las redes sociales

o Las redes son un componente importante en el
mundo físico, biológico y social: redes químicas,
cadenas alimentarias, jerarquías sociales, etc.
o En el mundo actual, las redes son aun más
prominentes: WWW, supply chain, comunidades
virtuales, etc.
o Los avances tecnológicos tienen mucho que ver en
esta importancia: Internet, celulares, transporte,
procesamiento de datos, mayor nivel de
interconexión en general
o Este hecho plantea la necesidad de desarrollar
instrumentos para utilizar los datos sobre las redes
de un modo efectivo

Desarrollos académicos

• Descubrimiento de las limitaciones expresivas de
los modelos clásicos de data mining
• Desarrollo e identificación de representaciones más
expresivas
• Desarrollo e implementación de técnicas de Data
Mining Relacional


Limitaciones expresivas de los modelos clásicos
de data mining

o Los modelos clásicos están implícitamente limitados
a describir un solo objeto (cliente, caso, etc.)
o Las relaciones entre atributos o fenómenos que
involucran relaciones entre objetos no pueden
incorporarse a un modelo a menos que se las
recodifique como atributos asociados a los objetos
individuales
o Supuesto de “Tabla única”


Representaciones más expresivas

o Bases de datos relacionales: conjunto de tablas de
entidades y relaciones
o Bases de conocimiento de lógica de primer orden:
conjunto de sentencias de lógica de primer orden
o Grafos: Hipergrafos (dirigidos o no) tipificados
donde los nodos representan objetos y los
hiperarcos relaciones


Desarrollo e implementación de técnicas de Data
Proposicionales Relacionales
Modelos
Arboles de
Mining Relacional
Arboles
Gráficos decisiones relacionales
No Modelo relacional
probabilís- SNA
ticos Reglas Reglas
No gráficos relacionales
Lógica prop. Lógica relacional
No Redes Markovianas Redes Markov.
dirigidos (MN) Relacionales
(RMN)
Redes de Redes de depen-
Gráficos dencia rel. (RDN)
dependencia (DN)
Probabilís- Dirigidos Redes bayesianas Redes bayesianas
ticos (BN) rel. (RBN)
Modelos de grupos
latentes (LGM)
Reglas prob. Reglas prob. Rel.
No gráficos Modelos lógicos Modelos lógicos
probabilísticos probab. relac.

Implementaciones comerciales actuales de SNA

• Implementaciones de representaciones de grafos y
algoritmos sobre estos para determinar
comunidades, roles, etc.
• Generación de reportes y alertas
• En algunos casos un “framework” más general que
incluye SNA como componente


Proceso de desarrollo para SNA

Asignación de
Proceso de Reglas de Detección de
roles por Reportes
ETL negocio comunidades
comunidad

• Cargar tres meses • Restringir el análisis •Probar diversos • Para todo nodo • Tabla de resultados
de CDR (Call detail solo a celulares de algoritmos para identificar un rol entre a ser usado por el
record) todas las compañías detección de los siguientes: departamento de
• Sumarizar los 3 • Solo usar CDR de comunidades • Líder. marketing.
meses en una tabla llamadas, SMS, MMS • Seguidor • Tabla excel para
relacional y tiempo de • Marginal grado 1 consultar los
• Cargar variables transferencia. • Marginal grado 2 resultados.
demográficas sobre • Si un nodo tiene • Antagonista • Objeto JAVA para
las líneas más de 150 graficar las
relaciones con otros comunidades
nodos, no incluir en
el análisis.
•Si un nodo A tiene
más de 20.000
sucesos de contacto
con un nodo B, no
incluir este número
en el análisis.
•Si una relacion A-B
tiene menos de 4
contactos en tres
meses, no
considerarla.


Algunas aplicaciones

• Detección de churn y potenciales adquisiciones en
Telcos
– Los nodos son los clientes
– Los arcos son los patrones de comunicaciones entre los
clientes (según los CDR)
• Detección de fraude
– Los nodos son cuentas y/o propiedades de esas cuentas
– Los arcos son transferencias monetarias o vínculos entre
propiedades de las cuentas (usualmente identidad)
• Marketing viral
– Los nodos son clientes
– Los arcos son mensajes


Enfoque híbrido de detección de fraudes
(Framework de riesgo de SAS)
Patrones Patrones Patrones Patrones
conocidos desconocidos complejos asociativos

Reglas Detección de Modelos SNA
anomalías supervisados

Definir reglas Detectar Aplicar Aplicar
para filtrar patrones modelos visualización y
transacciones anormales predictivos de métricas de
fraudulentas individuales y data mining grafos para
agregados relacional descubrir
anomalías
Ejemplo: Dos Ejemplos: Ejemplos: Ejemplos:
transacciones Análisis de modelos Conceptos de
entre cuentas secuencias, relacionales teoría de grafos
“marcadas” outliers, estadísticos
clustering

Algunos desafíos del SNA

o Encontrar un balance apropiado entre la
información local asociada al cliente e información
de la red: No todo está en el individuo ni en la red
o Poder aplicar procedimientos que permitan inferir
(predecir) la conducta de conjuntos de nodos
simultáneamente: inferencia colectiva
o Resolver el problema de la validación de un modelo:
no se puede partir aleatoriamente una red en
conjuntos de entrenamiento y validación:


Estado actual de los SNA en Latinoamérica

• Dificultades en la carga de datos (CDR)
• Dificultades en la definición de conceptos y alertas
• Solo aplicaciones básicas de teoría de grafos
• Dificultades en enriquecer modelos tradicionales o
utilizar las redes de un modo realmente productivo
• Dificultades en usar la red más globalmente
(concentración “local” en el nodo)
• Ausencia total de modelos predictivos “colectivos”


Tendencias recientes

• Data mining como servicio
• Extensión a nuevas áreas de aplicación
• Big Data y el “Data Science”


Data mining como servicio

• Dos sentidos:
– Sector centralizado de data mining dentro de una
empresa
– Modelización predictiva anidada en soluciones


Evolución de la inserción del data mining en las empresas

• Servicio externo en sectores aislados
• Función incorporada en distintos sectores
(modelos in house)
– Difusión de modelos creados centralmente y
ajustados localmente
• Servicio interno más o menos centralizado


Servicio externo en sectores aislados

• Modelos cerrados para el cliente (poca posibilidad
de control o ajuste)
• El negocio de las consultoras externas es el de
modelos “genéricos”, con el mínimo ajuste posible
• Baja transferencia de know-how y capacitación al
cliente


Función incorporada en sectores particulares
(modelos in house)

• Mayor control sobre los modelos
• Mayor precisión de los mismos
• Metodologías, criterios, evaluaciones y capacitación
fragmentadas y muchas veces inconsistentes o
incoherentes entre diversos sectores de una misma
organización
• Poca experiencia, capacitación; evaluación pobre de
los modelos y transferencia deficiente de
conocimientos


Servicio interno centralizado

• Un sector especializado y capacitado tiene el
control de los modelos, las metodologías, etc.
• Mayor coherencia en toda la organización
• Capacitación centralizada y más eficaz
• Mejor transferencia de conocimientos
• Mejor vinculación con otros sectores
(especialmente IT)


Modelización anidada (I)

• Plataformas de BI que incluyen funciones de
analytics predictivo (Alteryx, Pentaho)
• Plataformas de BPM (Business Process
Management) con funciones de modelización
predictiva (Pegasystems, Rage Frameworks)
• Database Analytics: RDBMSs, EDWs, NoSQLs,
BDOGs, Hadoop: contienen funciones de
modelización predictiva (usualmente muy
limitadas y mediante código) (Aster, Apache
Mahout para Hadoop, etc.)


Modelización anidada (II)

• Modelos anidados en soluciones
– Framework de riesgo
– Automatización de marketing
– Mantenimiento predictivo


Mantenimiento Predictivo

• Motivaciones:
– Pérdidas económicas importantes cuando falla
un recurso (baja en producción, multas, etc.)
– Deterioro en la “reputación”
– Regulaciones estatales, acuerdos de niveles de
servicio y requerimientos de seguridad
– Disminuir el costo de mantenimiento (15 a
60% del costo del bien en venta – COGS)


Valor del mantenimiento predictivo

• Beneficios a partir del inicio de un programa de
mantenimiento predictivo:
– ROI: 10 veces
– Reducción en los costos de mantenimiento: 25% -
30%
– Eliminación de eventos de fuera de servicio: 70% -
75%
– Reducción del tiempo fuera de servicio: 35% - 45%
– Aumento en la producción: 20% - 25%.
Fuente: Operations and Maintenance Best Practices
Guide. US Department of Energy

Analytics en mantenimiento predictivo

Qué alertas habría que
Optimización del atender primero? Cómo
mantenimiento puedo optimizar mi estrategia
de mantenimiento?
Valor/Confiabilidad

Qué recursos debieran recibir
Mantenimiento
Predictivo
mantenimiento/reemplazarse
debido a que es probable que fallen
durante el próximo ciclo de
mantenimiento?
Mantenimiento
Preventivo Cómo puedo impedir salidas de
servicio en ciclos costo-
eficientes de mantenimiento?
Mantenimiento
Reactivo Alertas….Qué está pasando?
Dónde? Qué está afectado?

Inteligencia

Performance
SAS PAM Monitoring, Indicators
and Dashboards
Data Stores
Predictive Asset Maintenance
ETL Access to OPC
Data Warehouse (Events, Asset …)

Data Mart
Reporting
and Alerts
Scoring & Alerting on
Validation, Cleanup, Issue

Data Mart Analytics Scheduled Process

Predictive Modeling
• Enterprise Miner
Filtering • Enterprise Guide Model

Repository
Model
Monitoring

Filtered Subsets Root Cause Analysis
• Enterprise Miner Case Management
• Enterprise Guide (SAS ECM)
• JMP
Publish
Copyright © 2010 SAS Institute Inc. All rights reserved.
29

Nuevas aplicaciones: Government Analytics

• La aplicación de técnicas analíticas (econometría,
estadística, modelización predictiva, optimización,
etc.) a la gestión gubernamental.
• Provee un marco para la toma de decisiones que
ayuda a los Gobiernos a resolver dificultades
complejas, mejorar su desempeño y anticiparse a la
ocurrencia de los problemas administrando y
balanceando de manera apropiada los riesgos que
le son propios.


¿Qué es Government Analytics?

• Es la siguiente etapa de lo que se denomina
Government Intelligence, un estadio de
desarrollo de la Gestión Pública Orientada a
Resultados ampliamente difundida en
latinoamérica, en la que los gobiernos ajustan su
accionar con base en patrones correctivos, es
decir, mediante la revisión de los resultados
históricos alcanzados


¿Qué es Government Analytics?

• Government Analytics supone un cambio radical
en la administración pública:

la obliga a pasar de un esquema pasivo de
formulación de políticas públicas a un modelo
completamente proactivo en el que puede
predecir los resultados y las reformulaciones
incluso antes de proceder a su implementación.


Big Data

• “Big data analytics promete revolucionar el
modo en que las organizaciones analizan y
obtienen valor de sus datos”.


Big Data

• “Las organizaciones de todas las formas y
tamaños cuentan con la capacidad para
aprovechar la cantidad siempre creciente de
datos que recolectan. Sin embargo, muchas
todavía luchan por producir valor de los datos
que ya tienen a su disposición”.
Big Data Insight Group


Big Data


Big Data

• Cada día creamos
2.5 quintillones
(1018) bytes
• El 90% de los
datos disponibles
fueron creados en
los últimos dos
años


¿Qué es Big Data?

• Big data es un término relativo que describe una
situación en la que el volumen, velocidad y variedad
de los datos exceden la capacidad de
almacenamiento y utilización para una toma de
decisiones precisa y oportuna
• Big data se define menos por el volumen – que es
un blanco móvil – que por su siempre creciente
variedad, velocidad, variabilidad y complejidad


¿Big Data es Data Mining rebautizado?

http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro

¿Big Data es Data Mining rebautizado?

“En resumen, vemos que al proceso de análisis
de datos se le dió muchos nombres diferentes,
dependiendo de diversas tendencias en áreas
de negocios y marketing. Nuevas tendencias
surgirán y podemos esperar que los términos,
ahora de moda, de data science y big data
serán reemplazados en unos pocos años”.

http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro

¿Big Data es el último grito de la moda?
(La industria del Big Data)

• Consultoras “revolucionarias”



• Revistas ¿científicas?
Big Data Journal



• Big Data Books



• Big Data Books
• Big Data Certificates



• Big Data Books
• Big Data Tools



• Big Data Books
• Big Data Tools
• ¡Una nueva ciencia¡
Data Science

Wikipedia



• Próximamente
• Muñequitos de acción Big Data!!



• Próximamente
• Muñequitos de acción Big Data!!
• La secuela: BIG DATA 2


Evaluación del mercado de proveedores

• Mejor manejo de grandes volúmenes de datos,
herramientas de modelización fáciles de
aprender/usar y una amplia variedad de algoritmos
de análisis para datos estructurados y no
estructurados dictan cuál proveedor liderará el
mercado. Prevemos que el mercado de las
soluciones analíticas de Big Data será vibrante,
altamente competitivo y poblado de nuevos
jugadores durante los próximos tres años”.
The Forrester Wave™: Big Data
Predictive Analytics Solutions, Q1 2013


Forrester Wave™: Big Data Predictive Analytics Solutions,
Q1 ’13

Forrester define las
soluciones analíticas
predictivas de big data
así:
Soluciones de software
y/o hardware que
permiten a las empresas
descubrir, evaluar,
optimizar y desplegar
modelos predictivos
resultantes del análisis de
fuentes de datos de gran
volúmen para mejorar la
performance del negocio
o mitigar los riesgos. www.dataminingperu.com

Big data según SAS

• Estrategias:
– Repensar la gestión de datos
• Integrar los procesos de integración de datos, data
quality, administración de metadatos y data governance
– Incorporar muy grandes volúmenes de datos en
tareas analíticas
• Analytics de Alta Performance: computación en grids,
procesamiento en base de datos, analytics en memoria
• Data Analytics Warehouse
– Determinación temprana de relevancia de los datos


Information Management for Big Data

• Big data no solo intensifica la necesidad de
almacenar inmensos volúmenes de datos, sino
también la necesidad de data quality y data
governance, de anidar las funciones de analytics en
los sistemas operacionales y las cuestiones de
seguridad, privacidad y regulaciones.
• Todo lo que antes era problemático ahora se hará
más problemático.


Information Management for Big Data

• En lugar de hacer una gestión reactiva de los datos,
hacer una gestión proactiva y predictiva
• Componentes clave:
– Gestión integrada de los datos incluyendo data
governance, integración de datos, data quality y gestión
de metadatos
– Gestión completa de los procesos analíticos, incluyendo
la gestión de modelos, su puesta en producción y
monitoreo
– Gestión efectiva de las decisiones para anidar fácilmente
la información y los resultados analíticos en los procesos
de negocios (en reglas de negocio, workflows y lógica de
sucesos)


High-Performance Analytics for Big Data

• Diversas opciones de alta performance
– Computación en grid
– Procesamiento en base de datos
– Analytics en memoria
– Soporte para Hadoop
– Analytics visual en Web


Determinación temprana de relevancia de los datos

• Incorporar analytics de alta performance al propio
proceso de gestión de datos
• Este análisis identifica los datos relevantes que
debieran ser llevados al DW o sobre los que
debieran hacerse procesos analíticos de alta
performance


Algunas Reflexiones

• Enfoque
• Utilidad
• Educación
• Prioridades


Enfoque

• ¿Nuestro sistema de procesamiento de
información (individual y colectivo) se parece
más a un disco rígido o a un sistema digestivo?

Big Data no es revolución, sino
•´

evolución


Utilidad

• Maldición de la dimensionalidad:
– Mayor cantidad de casos aumenta la probabilidad de
encontrar patrones espurios
– Mayor cantidad de variables aumenta
exponencialmente la cantidad necesaria de casos
• Muchos datos (casos o dimensiones) no
necesariamente significan mejores modelos


¡Es la educación estúpido!


Prioridades

• ¿Cuántas empresas locales tienen petabytes de
datos?
• ¿Las muy pocas que los tienen, los subutilizan por
falta de Big Data?
• ¿Cuáles es realmente el estado del data mining en
las empresas latinoamericanas?


Estado de cosas

• Capacitación deficiente de los data miners
• Confusión en la metodología o metodologías
débiles:
– En la preparación de datos
– En la estrategia de modelización
– En la utilización y gestión de los modelos
– En la evaluación de los mismos
• Considerable confusión en los “clientes”


En síntesis

• Hay mucho que hacer antes de llegar al Big Data
• Cuando lo hagamos (si lo hacemos)
probablemente ya haya cambiado de nombre….
• Data Mining como servicio, aplicaciones en
campos como gobierno, mantenimiento y otros
parecen más útiles en este momento
• También el refuerzo y profundización en áreas
como el análisis de supervivencia y el SNA


Tendencias Recientes en Data Mining

Más contenido relacionado

La actualidad más candente

Destacado

Similar a Tendencias Recientes en Data Mining

Más de DMC Perú

Último

Tendencias Recientes en Data Mining