SlideShare una empresa de Scribd logo
1 de 66
Descargar para leer sin conexión
Tendencias recientes en
     Data Mining


  José Angel Alvarez
    Febrero 2013
Historia “revolucionaria” del Data Mining

• Una “revolución” tras otra:
  – Reglas de asociación
  – Arboles de decisiones
  – Redes neuronales
  – Análisis de supervivencia
  – Analytics
  – Uplifting
  – SNA (redes sociales)
  – Servicios de data mining
  – Big Data y “Data Science”

                     www.dataminingperu.com
Fuerzas detrás de las “revoluciones”

• Necesidad de las empresas de mejorar su
  competitividad
• Necesidad de las empresas de software y
  consultoras de ampliar su oferta de productos y
  servicios
• Desarrollos en el mundo académico en busca de
  ser “útiles”
• Necesidad del mundo “académico” de ampliar
  su oferta educativa
                    www.dataminingperu.com
Características generales de las “revoluciones”
                                              en data mining

• Mucho ruido y pocas nueces
• Clientes confundidos y muchos proyectos
  fallidos
• Múltiple reinvención de la rueda
• Muchos disparates…
• Mucha “mala praxis”
• Muchas veces más de lo mismo
• Pero, finalmente algo queda…

                      www.dataminingperu.com
Análisis de redes
                                   sociales




www.dataminingperu.com
Importancia de las redes sociales


o Las redes son un componente importante en el
  mundo físico, biológico y social: redes químicas,
  cadenas alimentarias, jerarquías sociales, etc.
o En el mundo actual, las redes son aun más
  prominentes: WWW, supply chain, comunidades
  virtuales, etc.
o Los avances tecnológicos tienen mucho que ver en
  esta importancia: Internet, celulares, transporte,
  procesamiento de datos, mayor nivel de
  interconexión en general
o Este hecho plantea la necesidad de desarrollar
  instrumentos para utilizar los datos sobre las redes
  de un modo efectivo
                      www.dataminingperu.com
Desarrollos académicos


• Descubrimiento de las limitaciones expresivas de
  los modelos clásicos de data mining
• Desarrollo e identificación de representaciones más
  expresivas
• Desarrollo e implementación de técnicas de Data
  Mining Relacional




                      www.dataminingperu.com
Limitaciones expresivas de los modelos clásicos
                                         de data mining


o Los modelos clásicos están implícitamente limitados
  a describir un solo objeto (cliente, caso, etc.)
o Las relaciones entre atributos o fenómenos que
  involucran relaciones entre objetos no pueden
  incorporarse a un modelo a menos que se las
  recodifique como atributos asociados a los objetos
  individuales
o Supuesto de “Tabla única”


                      www.dataminingperu.com
Representaciones más expresivas



o Bases de datos relacionales: conjunto de tablas de
  entidades y relaciones
o Bases de conocimiento de lógica de primer orden:
  conjunto de sentencias de lógica de primer orden
o Grafos: Hipergrafos (dirigidos o no) tipificados
  donde los nodos representan objetos y los
  hiperarcos relaciones



                     www.dataminingperu.com
Desarrollo e implementación de técnicas de Data
                             Proposicionales Relacionales
Modelos
                             Arboles de
                                        Mining Relacional
                                             Arboles
              Gráficos               decisiones           relacionales
No                                                        Modelo relacional
probabilís-                                               SNA
ticos                                Reglas               Reglas
              No gráficos                                 relacionales
                                     Lógica prop.         Lógica relacional
                         No          Redes Markovianas Redes Markov.
                         dirigidos   (MN)              Relacionales
                                                       (RMN)
                                     Redes de          Redes de depen-
              Gráficos                                 dencia rel. (RDN)
                                     dependencia (DN)
Probabilís-              Dirigidos   Redes bayesianas     Redes bayesianas
ticos                                (BN)                 rel. (RBN)
                                                          Modelos de grupos
                                                          latentes (LGM)
                                        Reglas prob.      Reglas prob. Rel.
              No gráficos               Modelos lógicos   Modelos lógicos
                               www.dataminingperu.com
                                        probabilísticos   probab. relac.
Implementaciones comerciales actuales de SNA


• Implementaciones de representaciones de grafos y
  algoritmos sobre estos para determinar
  comunidades, roles, etc.
• Generación de reportes y alertas
• En algunos casos un “framework” más general que
  incluye SNA como componente




                     www.dataminingperu.com
Proceso de desarrollo para SNA


                                                                            Asignación de
   Proceso de             Reglas de                 Detección de
                                                                              roles por                  Reportes
      ETL                  negocio                  comunidades
                                                                             comunidad

• Cargar tres meses   • Restringir el análisis    •Probar diversos        • Para todo nodo           • Tabla de resultados
de CDR (Call detail   solo a celulares de         algoritmos para         identificar un rol entre   a ser usado por el
record)               todas las compañías         detección de            los siguientes:            departamento de
• Sumarizar los 3     • Solo usar CDR de          comunidades             • Líder.                   marketing.
meses en una tabla    llamadas, SMS, MMS                                  • Seguidor                 • Tabla excel para
relacional            y tiempo de                                         • Marginal grado 1         consultar los
• Cargar variables    transferencia.                                      • Marginal grado 2         resultados.
demográficas sobre    • Si un nodo tiene                                  • Antagonista              • Objeto JAVA para
las líneas            más de 150                                                                     graficar las
                      relaciones con otros                                                           comunidades
                      nodos, no incluir en
                      el análisis.
                      •Si un nodo A tiene
                      más de 20.000
                      sucesos de contacto
                      con un nodo B, no
                      incluir este número
                      en el análisis.
                      •Si una relacion A-B
                      tiene menos de 4
                      contactos en tres
                      meses, no
                      considerarla.

                                                 www.dataminingperu.com
Algunas aplicaciones


• Detección de churn y potenciales adquisiciones en
  Telcos
   – Los nodos son los clientes
   – Los arcos son los patrones de comunicaciones entre los
     clientes (según los CDR)
• Detección de fraude
   – Los nodos son cuentas y/o propiedades de esas cuentas
   – Los arcos son transferencias monetarias o vínculos entre
     propiedades de las cuentas (usualmente identidad)
• Marketing viral
   – Los nodos son clientes
   – Los arcos son mensajes

                         www.dataminingperu.com
Enfoque híbrido de detección de fraudes
        (Framework de riesgo de SAS)
Patrones         Patrones         Patrones         Patrones
conocidos        desconocidos     complejos        asociativos

Reglas           Detección de     Modelos          SNA
                 anomalías        supervisados

Definir reglas   Detectar         Aplicar          Aplicar
para filtrar     patrones         modelos          visualización y
transacciones    anormales        predictivos de   métricas de
fraudulentas     individuales y   data mining      grafos para
                 agregados        relacional       descubrir
                                                   anomalías
Ejemplo: Dos     Ejemplos:        Ejemplos:        Ejemplos:
transacciones    Análisis de      modelos          Conceptos de
entre cuentas    secuencias,      relacionales     teoría de grafos
“marcadas”       outliers,        estadísticos
                 clustering
Algunos desafíos del SNA


o Encontrar un balance apropiado entre la
  información local asociada al cliente e información
  de la red: No todo está en el individuo ni en la red
o Poder aplicar procedimientos que permitan inferir
  (predecir) la conducta de conjuntos de nodos
  simultáneamente: inferencia colectiva
o Resolver el problema de la validación de un modelo:
  no se puede partir aleatoriamente una red en
  conjuntos de entrenamiento y validación:



                     www.dataminingperu.com
Estado actual de los SNA en Latinoamérica

• Dificultades en la carga de datos (CDR)
• Dificultades en la definición de conceptos y alertas
• Solo aplicaciones básicas de teoría de grafos
• Dificultades en enriquecer modelos tradicionales o
  utilizar las redes de un modo realmente productivo
• Dificultades en usar la red más globalmente
  (concentración “local” en el nodo)
• Ausencia total de modelos predictivos “colectivos”


                      www.dataminingperu.com
Tendencias Recientes
Tendencias recientes

• Data mining como servicio
• Extensión a nuevas áreas de aplicación
• Big Data y el “Data Science”




                     www.dataminingperu.com
Data mining como servicio


• Dos sentidos:
  – Sector centralizado de data mining dentro de una
    empresa
  – Modelización predictiva anidada en soluciones




                     www.dataminingperu.com
Evolución de la inserción del data mining en las empresas




• Servicio externo en sectores aislados
• Función incorporada en distintos sectores
  (modelos in house)
   – Difusión de modelos creados centralmente y
     ajustados localmente
• Servicio interno más o menos centralizado



                       www.dataminingperu.com
Servicio externo en sectores aislados


• Modelos cerrados para el cliente (poca posibilidad
  de control o ajuste)
• El negocio de las consultoras externas es el de
  modelos “genéricos”, con el mínimo ajuste posible
• Baja transferencia de know-how y capacitación al
  cliente




                      www.dataminingperu.com
Función incorporada en sectores particulares
                                    (modelos in house)

• Mayor control sobre los modelos
• Mayor precisión de los mismos
• Metodologías, criterios, evaluaciones y capacitación
  fragmentadas y muchas veces inconsistentes o
  incoherentes entre diversos sectores de una misma
  organización
• Poca experiencia, capacitación; evaluación pobre de
  los modelos y transferencia deficiente de
  conocimientos

                      www.dataminingperu.com
Servicio interno centralizado


• Un sector especializado y capacitado tiene el
  control de los modelos, las metodologías, etc.
• Mayor coherencia en toda la organización
• Capacitación centralizada y más eficaz
• Mejor transferencia de conocimientos
• Mejor vinculación con otros sectores
  (especialmente IT)



                    www.dataminingperu.com
Modelización anidada (I)


• Plataformas de BI que incluyen funciones de
  analytics predictivo (Alteryx, Pentaho)
• Plataformas de BPM (Business Process
  Management) con funciones de modelización
  predictiva (Pegasystems, Rage Frameworks)
• Database Analytics: RDBMSs, EDWs, NoSQLs,
  BDOGs, Hadoop: contienen funciones de
  modelización predictiva (usualmente muy
  limitadas y mediante código) (Aster, Apache
  Mahout para Hadoop, etc.)

                   www.dataminingperu.com
Modelización anidada (II)


• Modelos anidados en soluciones
  – Framework de riesgo
  – Automatización de marketing
  – Mantenimiento predictivo




                    www.dataminingperu.com
Mantenimiento Predictivo


• Motivaciones:
  – Pérdidas económicas importantes cuando falla
    un recurso (baja en producción, multas, etc.)
  – Deterioro en la “reputación”
  – Regulaciones estatales, acuerdos de niveles de
    servicio y requerimientos de seguridad
  – Disminuir el costo de mantenimiento (15 a
    60% del costo del bien en venta – COGS)


                    www.dataminingperu.com
Valor del mantenimiento predictivo

• Beneficios a partir del inicio de un programa de
  mantenimiento predictivo:
  – ROI: 10 veces
  – Reducción en los costos de mantenimiento: 25% -
    30%
  – Eliminación de eventos de fuera de servicio: 70% -
    75%
  – Reducción del tiempo fuera de servicio: 35% - 45%
  – Aumento en la producción: 20% - 25%.
   Fuente: Operations and Maintenance Best Practices
    Guide. US Department of Energy
                       www.dataminingperu.com
Analytics en mantenimiento predictivo

                                                                                    Qué alertas habría que
                                                    Optimización del                atender primero? Cómo
                                                    mantenimiento                   puedo optimizar mi estrategia
                                                                                    de mantenimiento?
Valor/Confiabilidad




                                                                           Qué recursos debieran recibir
                                            Mantenimiento
                                            Predictivo
                                                                           mantenimiento/reemplazarse
                                                                           debido a que es probable que fallen
                                                                           durante el próximo ciclo de
                                                                           mantenimiento?
                                  Mantenimiento
                                  Preventivo                Cómo puedo impedir salidas de
                                                            servicio en ciclos costo-
                                                            eficientes de mantenimiento?
                      Mantenimiento
                      Reactivo            Alertas….Qué está pasando?
                                          Dónde? Qué está afectado?



                                                  Inteligencia
                                                      www.dataminingperu.com
Performance
                                  SAS PAM                                                                                       Monitoring, Indicators
                                                                                                                                  and Dashboards
                   Data Stores
                                  Predictive Asset Maintenance
    ETL           Access to OPC
Data Warehouse (Events, Asset …)




                                                                                                                   Data Mart
                                                                                                                   Reporting
                                                                                                                   and Alerts
                                                                                                                                Scoring & Alerting on
      Validation, Cleanup,                                                                                                              Issue




          Data Mart                                           Analytics Scheduled Process




                                          Predictive Modeling
                                          • Enterprise Miner
        Filtering                         • Enterprise Guide                                                                     Model




                                                                                                  Repository
                                                                                                    Model
                                                                                                                                Monitoring




     Filtered Subsets                     Root Cause Analysis
                                          • Enterprise Miner                                                   Case Management
                                          • Enterprise Guide                                                       (SAS ECM)
                                          • JMP
                                                                                                                   Publish
                                       Copyright © 2010 SAS Institute Inc. All rights reserved.
                                                                                                                                                         29
Nuevas aplicaciones: Government Analytics


• La aplicación de técnicas analíticas (econometría,
  estadística, modelización predictiva, optimización,
  etc.) a la gestión gubernamental.
• Provee un marco para la toma de decisiones que
  ayuda a los Gobiernos a resolver dificultades
  complejas, mejorar su desempeño y anticiparse a la
  ocurrencia de los problemas administrando y
  balanceando de manera apropiada los riesgos que
  le son propios.

                     www.dataminingperu.com
¿Qué es Government Analytics?


• Es la siguiente etapa de lo que se denomina
  Government Intelligence, un estadio de
  desarrollo de la Gestión Pública Orientada a
  Resultados ampliamente difundida en
  latinoamérica, en la que los gobiernos ajustan su
  accionar con base en patrones correctivos, es
  decir, mediante la revisión de los resultados
  históricos alcanzados


                    www.dataminingperu.com
¿Qué es Government Analytics?

• Government Analytics supone un cambio radical
  en la administración pública:

  la obliga a pasar de un esquema pasivo de
  formulación de políticas públicas a un modelo
  completamente proactivo en el que puede
  predecir los resultados y las reformulaciones
  incluso antes de proceder a su implementación.


                   www.dataminingperu.com
Big Data

• “Big data analytics promete revolucionar el
  modo en que las organizaciones analizan y
  obtienen valor de sus datos”.




                    www.dataminingperu.com
Big Data

• “Las organizaciones de todas las formas y
  tamaños cuentan con la capacidad para
  aprovechar la cantidad siempre creciente de
  datos que recolectan. Sin embargo, muchas
  todavía luchan por producir valor de los datos
  que ya tienen a su disposición”.
                             Big Data Insight Group




                     www.dataminingperu.com
Big Data




www.dataminingperu.com
Big Data



• Cada día creamos
  2.5 quintillones
  (1018) bytes
• El 90% de los
  datos disponibles
  fueron creados en
  los últimos dos
  años

                  www.dataminingperu.com
Big Data




www.dataminingperu.com
¿Qué es Big Data?

• Big data es un término relativo que describe una
  situación en la que el volumen, velocidad y variedad
  de los datos exceden la capacidad de
  almacenamiento y utilización para una toma de
  decisiones precisa y oportuna
• Big data se define menos por el volumen – que es
  un blanco móvil – que por su siempre creciente
  variedad, velocidad, variabilidad y complejidad



                      www.dataminingperu.com
¿Big Data es Data Mining rebautizado?




http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
                     www.dataminingperu.com
¿Big Data es Data Mining rebautizado?




http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
                      www.dataminingperu.com
¿Big Data es Data Mining rebautizado?




http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
                     www.dataminingperu.com
¿Big Data es Data Mining rebautizado?




http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
From Data Mining to Big Data and Beyond
Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
                      www.dataminingperu.com
¿Big Data es Data Mining rebautizado?



“En resumen, vemos que al proceso de análisis
  de datos se le dió muchos nombres diferentes,
  dependiendo de diversas tendencias en áreas
  de negocios y marketing. Nuevas tendencias
  surgirán y podemos esperar que los términos,
  ahora de moda, de data science y big data
  serán reemplazados en unos pocos años”.

     http://www.insideanalysis.com/2012/04/data-mining-and-beyond/
     From Data Mining to Big Data and Beyond
     Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
                          www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                (La industria del Big Data)

• Consultoras “revolucionarias”




                    www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                (La industria del Big Data)

• Consultoras “revolucionarias”
• Revistas ¿científicas?
     Big Data Journal




                    www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                (La industria del Big Data)

• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books




                    www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                  (La industria del Big Data)

•   Consultoras “revolucionarias”
•   Revistas ¿científicas?
•   Big Data Books
•   Big Data Certificates




                      www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                  (La industria del Big Data)

•   Consultoras “revolucionarias”
•   Revistas ¿científicas?
•   Big Data Books
•   Big Data Certificates
•   Big Data Tools




                      www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                  (La industria del Big Data)

•   Consultoras “revolucionarias”
•   Revistas ¿científicas?
•   Big Data Books
•   Big Data Certificates
•   Big Data Tools
•   ¡Una nueva ciencia¡
             Data Science

                                           Wikipedia

                      www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                (La industria del Big Data)

• Próximamente
• Muñequitos de acción Big Data!!




                    www.dataminingperu.com
¿Big Data es el último grito de la moda?
                                (La industria del Big Data)

• Próximamente
• Muñequitos de acción Big Data!!
• La secuela: BIG DATA 2




                    www.dataminingperu.com
Evaluación del mercado de proveedores

• Mejor manejo de grandes volúmenes de datos,
  herramientas de modelización fáciles de
  aprender/usar y una amplia variedad de algoritmos
  de análisis para datos estructurados y no
  estructurados dictan cuál proveedor liderará el
  mercado. Prevemos que el mercado de las
  soluciones analíticas de Big Data será vibrante,
  altamente competitivo y poblado de nuevos
  jugadores durante los próximos tres años”.
                        The Forrester Wave™: Big Data
                Predictive Analytics Solutions, Q1 2013

                      www.dataminingperu.com
Forrester Wave™: Big Data Predictive Analytics Solutions,
                                                          Q1 ’13


Forrester define las
soluciones analíticas
predictivas de big data
así:
Soluciones de software
y/o hardware que
permiten a las empresas
descubrir, evaluar,
optimizar y desplegar
modelos predictivos
resultantes del análisis de
fuentes de datos de gran
volúmen para mejorar la
performance del negocio
o mitigar los riesgos.        www.dataminingperu.com
Big data según SAS

• Estrategias:
  – Repensar la gestión de datos
     • Integrar los procesos de integración de datos, data
       quality, administración de metadatos y data governance
  – Incorporar muy grandes volúmenes de datos en
    tareas analíticas
     • Analytics de Alta Performance: computación en grids,
       procesamiento en base de datos, analytics en memoria
     • Data Analytics Warehouse
  – Determinación temprana de relevancia de los datos


                        www.dataminingperu.com
Information Management for Big Data


• Big data no solo intensifica la necesidad de
  almacenar inmensos volúmenes de datos, sino
  también la necesidad de data quality y data
  governance, de anidar las funciones de analytics en
  los sistemas operacionales y las cuestiones de
  seguridad, privacidad y regulaciones.
• Todo lo que antes era problemático ahora se hará
  más problemático.



                      www.dataminingperu.com
Information Management for Big Data

• En lugar de hacer una gestión reactiva de los datos,
  hacer una gestión proactiva y predictiva
• Componentes clave:
  – Gestión integrada de los datos incluyendo data
    governance, integración de datos, data quality y gestión
    de metadatos
  – Gestión completa de los procesos analíticos, incluyendo
    la gestión de modelos, su puesta en producción y
    monitoreo
  – Gestión efectiva de las decisiones para anidar fácilmente
    la información y los resultados analíticos en los procesos
    de negocios (en reglas de negocio, workflows y lógica de
    sucesos)

                        www.dataminingperu.com
High-Performance Analytics for Big Data

• Diversas opciones de alta performance
  – Computación en grid
  – Procesamiento en base de datos
  – Analytics en memoria
  – Soporte para Hadoop
  – Analytics visual en Web




                     www.dataminingperu.com
Determinación temprana de relevancia de los datos


• Incorporar analytics de alta performance al propio
  proceso de gestión de datos
• Este análisis identifica los datos relevantes que
  debieran ser llevados al DW o sobre los que
  debieran hacerse procesos analíticos de alta
  performance




                      www.dataminingperu.com
Algunas Reflexiones

•   Enfoque
•   Utilidad
•   Educación
•   Prioridades




                  www.dataminingperu.com
Enfoque

• ¿Nuestro sistema de procesamiento de
  información (individual y colectivo) se parece
  más a un disco rígido o a un sistema digestivo?


                 Big Data no es revolución, sino
                •´

                evolución




                     www.dataminingperu.com
Utilidad

• Maldición de la dimensionalidad:
  – Mayor cantidad de casos aumenta la probabilidad de
    encontrar patrones espurios
  – Mayor cantidad de variables aumenta
    exponencialmente la cantidad necesaria de casos
• Muchos datos (casos o dimensiones) no
  necesariamente significan mejores modelos




                     www.dataminingperu.com
¡Es la educación estúpido!




www.dataminingperu.com
Prioridades


• ¿Cuántas empresas locales tienen petabytes de
  datos?
• ¿Las muy pocas que los tienen, los subutilizan por
  falta de Big Data?
• ¿Cuáles es realmente el estado del data mining en
  las empresas latinoamericanas?




                      www.dataminingperu.com
Estado de cosas

• Capacitación deficiente de los data miners
• Confusión en la metodología o metodologías
  débiles:
  – En la preparación de datos
  – En la estrategia de modelización
  – En la utilización y gestión de los modelos
  – En la evaluación de los mismos
• Considerable confusión en los “clientes”


                       www.dataminingperu.com
En síntesis


• Hay mucho que hacer antes de llegar al Big Data
• Cuando lo hagamos (si lo hacemos)
  probablemente ya haya cambiado de nombre….
• Data Mining como servicio, aplicaciones en
  campos como gobierno, mantenimiento y otros
  parecen más útiles en este momento
• También el refuerzo y profundización en áreas
  como el análisis de supervivencia y el SNA

                    www.dataminingperu.com
¿Preguntas?

Más contenido relacionado

La actualidad más candente

Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaEfimatica
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)DANIEL VENTURA
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Titiushko Jazz
 
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocioDiseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocioSebastian Rodriguez Robotham
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioMiguel Orquera
 
2.1 Data warehousing acceso, análisis y visualización
2.1 Data warehousing acceso, análisis y visualización2.1 Data warehousing acceso, análisis y visualización
2.1 Data warehousing acceso, análisis y visualizaciónEduardo S de Loera
 
Almacenes, mineria y análisis de datos
Almacenes, mineria y análisis de datosAlmacenes, mineria y análisis de datos
Almacenes, mineria y análisis de datosliras loca
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data AnalyticsStratebi
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big DataAMETIC
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Pentaho
 
Inteligencia de Negocios - FISI - UNMSM - DataWareHouse
Inteligencia de Negocios - FISI - UNMSM - DataWareHouseInteligencia de Negocios - FISI - UNMSM - DataWareHouse
Inteligencia de Negocios - FISI - UNMSM - DataWareHouseJulio Pari
 
Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)Stratebi
 

La actualidad más candente (20)

Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimatica
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Actividad 2
Actividad 2Actividad 2
Actividad 2
 
Entregable final
Entregable finalEntregable final
Entregable final
 
Actividad 1
Actividad 1Actividad 1
Actividad 1
 
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocioDiseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
 
S15 bi v1-1
S15 bi v1-1S15 bi v1-1
S15 bi v1-1
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocio
 
2.1 Data warehousing acceso, análisis y visualización
2.1 Data warehousing acceso, análisis y visualización2.1 Data warehousing acceso, análisis y visualización
2.1 Data warehousing acceso, análisis y visualización
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Almacenes, mineria y análisis de datos
Almacenes, mineria y análisis de datosAlmacenes, mineria y análisis de datos
Almacenes, mineria y análisis de datos
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big Data
 
Sap Business Objects - Sector Banca
Sap Business Objects - Sector BancaSap Business Objects - Sector Banca
Sap Business Objects - Sector Banca
 
Diseño Dimensional
Diseño DimensionalDiseño Dimensional
Diseño Dimensional
 
Fundamentos de BI
Fundamentos de BIFundamentos de BI
Fundamentos de BI
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
 
Inteligencia de Negocios - FISI - UNMSM - DataWareHouse
Inteligencia de Negocios - FISI - UNMSM - DataWareHouseInteligencia de Negocios - FISI - UNMSM - DataWareHouse
Inteligencia de Negocios - FISI - UNMSM - DataWareHouse
 
Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)
 

Destacado

PhD_Thesis_GionaMatasci_2014_wCopyrights
PhD_Thesis_GionaMatasci_2014_wCopyrightsPhD_Thesis_GionaMatasci_2014_wCopyrights
PhD_Thesis_GionaMatasci_2014_wCopyrightsGiona Matasci
 
Almacenes de datos, olap y minería de datos
Almacenes de datos, olap y minería de datosAlmacenes de datos, olap y minería de datos
Almacenes de datos, olap y minería de datosFiorella Urbina Vera
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Ejemplo de Aplicaciones en Weka
Ejemplo de Aplicaciones en WekaEjemplo de Aplicaciones en Weka
Ejemplo de Aplicaciones en WekaRaquel Solano
 
Aplicaciones Distribuidas
Aplicaciones DistribuidasAplicaciones Distribuidas
Aplicaciones DistribuidasSorey García
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosRoberto Espinosa
 
Base de datos (diseño conceptual,logico y fisico)
Base de datos (diseño conceptual,logico y fisico)Base de datos (diseño conceptual,logico y fisico)
Base de datos (diseño conceptual,logico y fisico)claudiachiri
 

Destacado (14)

PhD_Thesis_GionaMatasci_2014_wCopyrights
PhD_Thesis_GionaMatasci_2014_wCopyrightsPhD_Thesis_GionaMatasci_2014_wCopyrights
PhD_Thesis_GionaMatasci_2014_wCopyrights
 
Almacenes de datos, olap y minería de datos
Almacenes de datos, olap y minería de datosAlmacenes de datos, olap y minería de datos
Almacenes de datos, olap y minería de datos
 
Agile BI Governance (congreso UC3M)
Agile BI Governance (congreso UC3M)Agile BI Governance (congreso UC3M)
Agile BI Governance (congreso UC3M)
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Ejemplo de Aplicaciones en Weka
Ejemplo de Aplicaciones en WekaEjemplo de Aplicaciones en Weka
Ejemplo de Aplicaciones en Weka
 
Aplicaciones Distribuidas
Aplicaciones DistribuidasAplicaciones Distribuidas
Aplicaciones Distribuidas
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Data Mining
Data MiningData Mining
Data Mining
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Base de datos (diseño conceptual,logico y fisico)
Base de datos (diseño conceptual,logico y fisico)Base de datos (diseño conceptual,logico y fisico)
Base de datos (diseño conceptual,logico y fisico)
 
Data Science
Data ScienceData Science
Data Science
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 

Similar a Tendencias Recientes en Data Mining

Data mining
Data miningData mining
Data miningrubza
 
Data mining
Data miningData mining
Data miningrubzabet
 
Clase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesClase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesLester López Carrió
 
Mijares,marize.presentacion
Mijares,marize.presentacionMijares,marize.presentacion
Mijares,marize.presentacionMarize Marize
 
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Neo4j
 
Bases de datos NoSQL (+ ámbito geoespacial)
Bases de datos NoSQL (+ ámbito geoespacial)Bases de datos NoSQL (+ ámbito geoespacial)
Bases de datos NoSQL (+ ámbito geoespacial)Valentín Sastre Calvi
 
Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...
Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...
Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...Richard Moya
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos SecuencialesMarilyn Jaramillo
 
Tarea de redes ejecucion
Tarea de redes ejecucionTarea de redes ejecucion
Tarea de redes ejecucioncorderocarlos11
 
Diapositiva_BD_Unidad_02_TES.pdf
Diapositiva_BD_Unidad_02_TES.pdfDiapositiva_BD_Unidad_02_TES.pdf
Diapositiva_BD_Unidad_02_TES.pdfMauroAlvarez42
 
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu..... ..
 
Sistema de bases de datos
Sistema de bases de datosSistema de bases de datos
Sistema de bases de datosAriel Medina
 
Modelos de bases de datos
Modelos de bases de datosModelos de bases de datos
Modelos de bases de datosJperez98
 
DB1 Unidad 2: Modelo ER y modelo relacional
DB1 Unidad 2: Modelo ER y modelo relacionalDB1 Unidad 2: Modelo ER y modelo relacional
DB1 Unidad 2: Modelo ER y modelo relacionalFranklin Parrales Bravo
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuencialesMarilyn Jaramillo
 

Similar a Tendencias Recientes en Data Mining (20)

Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Gestión de Bases de Datos
Gestión de Bases de DatosGestión de Bases de Datos
Gestión de Bases de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Clase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesClase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos Relacionales
 
74 221-1-pb
74 221-1-pb74 221-1-pb
74 221-1-pb
 
Mijares,marize.presentacion
Mijares,marize.presentacionMijares,marize.presentacion
Mijares,marize.presentacion
 
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
 
Bases de datos NoSQL (+ ámbito geoespacial)
Bases de datos NoSQL (+ ámbito geoespacial)Bases de datos NoSQL (+ ámbito geoespacial)
Bases de datos NoSQL (+ ámbito geoespacial)
 
Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...
Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...
Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistema...
 
Md session1
Md session1Md session1
Md session1
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 
Tarea de redes ejecucion
Tarea de redes ejecucionTarea de redes ejecucion
Tarea de redes ejecucion
 
Diapositiva_BD_Unidad_02_TES.pdf
Diapositiva_BD_Unidad_02_TES.pdfDiapositiva_BD_Unidad_02_TES.pdf
Diapositiva_BD_Unidad_02_TES.pdf
 
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
 
Base de datos
Base de datosBase de datos
Base de datos
 
Sistema de bases de datos
Sistema de bases de datosSistema de bases de datos
Sistema de bases de datos
 
Modelos de bases de datos
Modelos de bases de datosModelos de bases de datos
Modelos de bases de datos
 
DB1 Unidad 2: Modelo ER y modelo relacional
DB1 Unidad 2: Modelo ER y modelo relacionalDB1 Unidad 2: Modelo ER y modelo relacional
DB1 Unidad 2: Modelo ER y modelo relacional
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuenciales
 

Más de DMC Perú

DMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Perú
 
DMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Perú
 
Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú DMC Perú
 
Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018DMC Perú
 
Democratización de ciencia de datos
Democratización de ciencia de datosDemocratización de ciencia de datos
Democratización de ciencia de datosDMC Perú
 
Big data y Marketing digital
Big data y Marketing digitalBig data y Marketing digital
Big data y Marketing digitalDMC Perú
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaDMC Perú
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaDMC Perú
 
Soluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASSoluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASDMC Perú
 
Evolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataEvolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataDMC Perú
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoDMC Perú
 
La Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de InnovaciónLa Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de InnovaciónDMC Perú
 
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"DMC Perú
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataDMC Perú
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big DataDMC Perú
 
BigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopBigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopDMC Perú
 
Caso netflix
Caso netflixCaso netflix
Caso netflixDMC Perú
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?DMC Perú
 

Más de DMC Perú (20)

DMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Talk - Blockchain Stamping
DMC Talk - Blockchain Stamping
 
DMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Talk - Presentacion Voicebots
DMC Talk - Presentacion Voicebots
 
Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú
 
Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018
 
Democratización de ciencia de datos
Democratización de ciencia de datosDemocratización de ciencia de datos
Democratización de ciencia de datos
 
Big data y Marketing digital
Big data y Marketing digitalBig data y Marketing digital
Big data y Marketing digital
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Soluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASSoluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SAS
 
Evolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataEvolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigData
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
 
La Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de InnovaciónLa Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de Innovación
 
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big Data
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big Data
 
BigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopBigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y Hadoop
 
Caso netflix
Caso netflixCaso netflix
Caso netflix
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Web Mining
Web MiningWeb Mining
Web Mining
 
¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?
 

Último

el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSjlorentemartos
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdfDemetrio Ccesa Rayme
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdfBaker Publishing Company
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxPryhaSalam
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 

Último (20)

el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdf
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 

Tendencias Recientes en Data Mining

  • 1. Tendencias recientes en Data Mining José Angel Alvarez Febrero 2013
  • 2. Historia “revolucionaria” del Data Mining • Una “revolución” tras otra: – Reglas de asociación – Arboles de decisiones – Redes neuronales – Análisis de supervivencia – Analytics – Uplifting – SNA (redes sociales) – Servicios de data mining – Big Data y “Data Science” www.dataminingperu.com
  • 3. Fuerzas detrás de las “revoluciones” • Necesidad de las empresas de mejorar su competitividad • Necesidad de las empresas de software y consultoras de ampliar su oferta de productos y servicios • Desarrollos en el mundo académico en busca de ser “útiles” • Necesidad del mundo “académico” de ampliar su oferta educativa www.dataminingperu.com
  • 4. Características generales de las “revoluciones” en data mining • Mucho ruido y pocas nueces • Clientes confundidos y muchos proyectos fallidos • Múltiple reinvención de la rueda • Muchos disparates… • Mucha “mala praxis” • Muchas veces más de lo mismo • Pero, finalmente algo queda… www.dataminingperu.com
  • 5. Análisis de redes sociales www.dataminingperu.com
  • 6. Importancia de las redes sociales o Las redes son un componente importante en el mundo físico, biológico y social: redes químicas, cadenas alimentarias, jerarquías sociales, etc. o En el mundo actual, las redes son aun más prominentes: WWW, supply chain, comunidades virtuales, etc. o Los avances tecnológicos tienen mucho que ver en esta importancia: Internet, celulares, transporte, procesamiento de datos, mayor nivel de interconexión en general o Este hecho plantea la necesidad de desarrollar instrumentos para utilizar los datos sobre las redes de un modo efectivo www.dataminingperu.com
  • 7. Desarrollos académicos • Descubrimiento de las limitaciones expresivas de los modelos clásicos de data mining • Desarrollo e identificación de representaciones más expresivas • Desarrollo e implementación de técnicas de Data Mining Relacional www.dataminingperu.com
  • 8. Limitaciones expresivas de los modelos clásicos de data mining o Los modelos clásicos están implícitamente limitados a describir un solo objeto (cliente, caso, etc.) o Las relaciones entre atributos o fenómenos que involucran relaciones entre objetos no pueden incorporarse a un modelo a menos que se las recodifique como atributos asociados a los objetos individuales o Supuesto de “Tabla única” www.dataminingperu.com
  • 9. Representaciones más expresivas o Bases de datos relacionales: conjunto de tablas de entidades y relaciones o Bases de conocimiento de lógica de primer orden: conjunto de sentencias de lógica de primer orden o Grafos: Hipergrafos (dirigidos o no) tipificados donde los nodos representan objetos y los hiperarcos relaciones www.dataminingperu.com
  • 10. Desarrollo e implementación de técnicas de Data Proposicionales Relacionales Modelos Arboles de Mining Relacional Arboles Gráficos decisiones relacionales No Modelo relacional probabilís- SNA ticos Reglas Reglas No gráficos relacionales Lógica prop. Lógica relacional No Redes Markovianas Redes Markov. dirigidos (MN) Relacionales (RMN) Redes de Redes de depen- Gráficos dencia rel. (RDN) dependencia (DN) Probabilís- Dirigidos Redes bayesianas Redes bayesianas ticos (BN) rel. (RBN) Modelos de grupos latentes (LGM) Reglas prob. Reglas prob. Rel. No gráficos Modelos lógicos Modelos lógicos www.dataminingperu.com probabilísticos probab. relac.
  • 11. Implementaciones comerciales actuales de SNA • Implementaciones de representaciones de grafos y algoritmos sobre estos para determinar comunidades, roles, etc. • Generación de reportes y alertas • En algunos casos un “framework” más general que incluye SNA como componente www.dataminingperu.com
  • 12. Proceso de desarrollo para SNA Asignación de Proceso de Reglas de Detección de roles por Reportes ETL negocio comunidades comunidad • Cargar tres meses • Restringir el análisis •Probar diversos • Para todo nodo • Tabla de resultados de CDR (Call detail solo a celulares de algoritmos para identificar un rol entre a ser usado por el record) todas las compañías detección de los siguientes: departamento de • Sumarizar los 3 • Solo usar CDR de comunidades • Líder. marketing. meses en una tabla llamadas, SMS, MMS • Seguidor • Tabla excel para relacional y tiempo de • Marginal grado 1 consultar los • Cargar variables transferencia. • Marginal grado 2 resultados. demográficas sobre • Si un nodo tiene • Antagonista • Objeto JAVA para las líneas más de 150 graficar las relaciones con otros comunidades nodos, no incluir en el análisis. •Si un nodo A tiene más de 20.000 sucesos de contacto con un nodo B, no incluir este número en el análisis. •Si una relacion A-B tiene menos de 4 contactos en tres meses, no considerarla. www.dataminingperu.com
  • 13. Algunas aplicaciones • Detección de churn y potenciales adquisiciones en Telcos – Los nodos son los clientes – Los arcos son los patrones de comunicaciones entre los clientes (según los CDR) • Detección de fraude – Los nodos son cuentas y/o propiedades de esas cuentas – Los arcos son transferencias monetarias o vínculos entre propiedades de las cuentas (usualmente identidad) • Marketing viral – Los nodos son clientes – Los arcos son mensajes www.dataminingperu.com
  • 14. Enfoque híbrido de detección de fraudes (Framework de riesgo de SAS) Patrones Patrones Patrones Patrones conocidos desconocidos complejos asociativos Reglas Detección de Modelos SNA anomalías supervisados Definir reglas Detectar Aplicar Aplicar para filtrar patrones modelos visualización y transacciones anormales predictivos de métricas de fraudulentas individuales y data mining grafos para agregados relacional descubrir anomalías Ejemplo: Dos Ejemplos: Ejemplos: Ejemplos: transacciones Análisis de modelos Conceptos de entre cuentas secuencias, relacionales teoría de grafos “marcadas” outliers, estadísticos clustering
  • 15. Algunos desafíos del SNA o Encontrar un balance apropiado entre la información local asociada al cliente e información de la red: No todo está en el individuo ni en la red o Poder aplicar procedimientos que permitan inferir (predecir) la conducta de conjuntos de nodos simultáneamente: inferencia colectiva o Resolver el problema de la validación de un modelo: no se puede partir aleatoriamente una red en conjuntos de entrenamiento y validación: www.dataminingperu.com
  • 16. Estado actual de los SNA en Latinoamérica • Dificultades en la carga de datos (CDR) • Dificultades en la definición de conceptos y alertas • Solo aplicaciones básicas de teoría de grafos • Dificultades en enriquecer modelos tradicionales o utilizar las redes de un modo realmente productivo • Dificultades en usar la red más globalmente (concentración “local” en el nodo) • Ausencia total de modelos predictivos “colectivos” www.dataminingperu.com
  • 18. Tendencias recientes • Data mining como servicio • Extensión a nuevas áreas de aplicación • Big Data y el “Data Science” www.dataminingperu.com
  • 19. Data mining como servicio • Dos sentidos: – Sector centralizado de data mining dentro de una empresa – Modelización predictiva anidada en soluciones www.dataminingperu.com
  • 20. Evolución de la inserción del data mining en las empresas • Servicio externo en sectores aislados • Función incorporada en distintos sectores (modelos in house) – Difusión de modelos creados centralmente y ajustados localmente • Servicio interno más o menos centralizado www.dataminingperu.com
  • 21. Servicio externo en sectores aislados • Modelos cerrados para el cliente (poca posibilidad de control o ajuste) • El negocio de las consultoras externas es el de modelos “genéricos”, con el mínimo ajuste posible • Baja transferencia de know-how y capacitación al cliente www.dataminingperu.com
  • 22. Función incorporada en sectores particulares (modelos in house) • Mayor control sobre los modelos • Mayor precisión de los mismos • Metodologías, criterios, evaluaciones y capacitación fragmentadas y muchas veces inconsistentes o incoherentes entre diversos sectores de una misma organización • Poca experiencia, capacitación; evaluación pobre de los modelos y transferencia deficiente de conocimientos www.dataminingperu.com
  • 23. Servicio interno centralizado • Un sector especializado y capacitado tiene el control de los modelos, las metodologías, etc. • Mayor coherencia en toda la organización • Capacitación centralizada y más eficaz • Mejor transferencia de conocimientos • Mejor vinculación con otros sectores (especialmente IT) www.dataminingperu.com
  • 24. Modelización anidada (I) • Plataformas de BI que incluyen funciones de analytics predictivo (Alteryx, Pentaho) • Plataformas de BPM (Business Process Management) con funciones de modelización predictiva (Pegasystems, Rage Frameworks) • Database Analytics: RDBMSs, EDWs, NoSQLs, BDOGs, Hadoop: contienen funciones de modelización predictiva (usualmente muy limitadas y mediante código) (Aster, Apache Mahout para Hadoop, etc.) www.dataminingperu.com
  • 25. Modelización anidada (II) • Modelos anidados en soluciones – Framework de riesgo – Automatización de marketing – Mantenimiento predictivo www.dataminingperu.com
  • 26. Mantenimiento Predictivo • Motivaciones: – Pérdidas económicas importantes cuando falla un recurso (baja en producción, multas, etc.) – Deterioro en la “reputación” – Regulaciones estatales, acuerdos de niveles de servicio y requerimientos de seguridad – Disminuir el costo de mantenimiento (15 a 60% del costo del bien en venta – COGS) www.dataminingperu.com
  • 27. Valor del mantenimiento predictivo • Beneficios a partir del inicio de un programa de mantenimiento predictivo: – ROI: 10 veces – Reducción en los costos de mantenimiento: 25% - 30% – Eliminación de eventos de fuera de servicio: 70% - 75% – Reducción del tiempo fuera de servicio: 35% - 45% – Aumento en la producción: 20% - 25%. Fuente: Operations and Maintenance Best Practices Guide. US Department of Energy www.dataminingperu.com
  • 28. Analytics en mantenimiento predictivo Qué alertas habría que Optimización del atender primero? Cómo mantenimiento puedo optimizar mi estrategia de mantenimiento? Valor/Confiabilidad Qué recursos debieran recibir Mantenimiento Predictivo mantenimiento/reemplazarse debido a que es probable que fallen durante el próximo ciclo de mantenimiento? Mantenimiento Preventivo Cómo puedo impedir salidas de servicio en ciclos costo- eficientes de mantenimiento? Mantenimiento Reactivo Alertas….Qué está pasando? Dónde? Qué está afectado? Inteligencia www.dataminingperu.com
  • 29. Performance SAS PAM Monitoring, Indicators and Dashboards Data Stores Predictive Asset Maintenance ETL Access to OPC Data Warehouse (Events, Asset …) Data Mart Reporting and Alerts Scoring & Alerting on Validation, Cleanup, Issue Data Mart Analytics Scheduled Process Predictive Modeling • Enterprise Miner Filtering • Enterprise Guide Model Repository Model Monitoring Filtered Subsets Root Cause Analysis • Enterprise Miner Case Management • Enterprise Guide (SAS ECM) • JMP Publish Copyright © 2010 SAS Institute Inc. All rights reserved. 29
  • 30. Nuevas aplicaciones: Government Analytics • La aplicación de técnicas analíticas (econometría, estadística, modelización predictiva, optimización, etc.) a la gestión gubernamental. • Provee un marco para la toma de decisiones que ayuda a los Gobiernos a resolver dificultades complejas, mejorar su desempeño y anticiparse a la ocurrencia de los problemas administrando y balanceando de manera apropiada los riesgos que le son propios. www.dataminingperu.com
  • 31. ¿Qué es Government Analytics? • Es la siguiente etapa de lo que se denomina Government Intelligence, un estadio de desarrollo de la Gestión Pública Orientada a Resultados ampliamente difundida en latinoamérica, en la que los gobiernos ajustan su accionar con base en patrones correctivos, es decir, mediante la revisión de los resultados históricos alcanzados www.dataminingperu.com
  • 32. ¿Qué es Government Analytics? • Government Analytics supone un cambio radical en la administración pública: la obliga a pasar de un esquema pasivo de formulación de políticas públicas a un modelo completamente proactivo en el que puede predecir los resultados y las reformulaciones incluso antes de proceder a su implementación. www.dataminingperu.com
  • 33. Big Data • “Big data analytics promete revolucionar el modo en que las organizaciones analizan y obtienen valor de sus datos”. www.dataminingperu.com
  • 34. Big Data • “Las organizaciones de todas las formas y tamaños cuentan con la capacidad para aprovechar la cantidad siempre creciente de datos que recolectan. Sin embargo, muchas todavía luchan por producir valor de los datos que ya tienen a su disposición”. Big Data Insight Group www.dataminingperu.com
  • 36. Big Data • Cada día creamos 2.5 quintillones (1018) bytes • El 90% de los datos disponibles fueron creados en los últimos dos años www.dataminingperu.com
  • 38. ¿Qué es Big Data? • Big data es un término relativo que describe una situación en la que el volumen, velocidad y variedad de los datos exceden la capacidad de almacenamiento y utilización para una toma de decisiones precisa y oportuna • Big data se define menos por el volumen – que es un blanco móvil – que por su siempre creciente variedad, velocidad, variabilidad y complejidad www.dataminingperu.com
  • 39. ¿Big Data es Data Mining rebautizado? http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro www.dataminingperu.com
  • 40. ¿Big Data es Data Mining rebautizado? http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro www.dataminingperu.com
  • 41. ¿Big Data es Data Mining rebautizado? http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro www.dataminingperu.com
  • 42. ¿Big Data es Data Mining rebautizado? http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro www.dataminingperu.com
  • 43. ¿Big Data es Data Mining rebautizado? “En resumen, vemos que al proceso de análisis de datos se le dió muchos nombres diferentes, dependiendo de diversas tendencias en áreas de negocios y marketing. Nuevas tendencias surgirán y podemos esperar que los términos, ahora de moda, de data science y big data serán reemplazados en unos pocos años”. http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro www.dataminingperu.com
  • 44. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Consultoras “revolucionarias” www.dataminingperu.com
  • 45. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Consultoras “revolucionarias” • Revistas ¿científicas? Big Data Journal www.dataminingperu.com
  • 46. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Consultoras “revolucionarias” • Revistas ¿científicas? • Big Data Books www.dataminingperu.com
  • 47. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Consultoras “revolucionarias” • Revistas ¿científicas? • Big Data Books • Big Data Certificates www.dataminingperu.com
  • 48. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Consultoras “revolucionarias” • Revistas ¿científicas? • Big Data Books • Big Data Certificates • Big Data Tools www.dataminingperu.com
  • 49. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Consultoras “revolucionarias” • Revistas ¿científicas? • Big Data Books • Big Data Certificates • Big Data Tools • ¡Una nueva ciencia¡ Data Science Wikipedia www.dataminingperu.com
  • 50. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Próximamente • Muñequitos de acción Big Data!! www.dataminingperu.com
  • 51. ¿Big Data es el último grito de la moda? (La industria del Big Data) • Próximamente • Muñequitos de acción Big Data!! • La secuela: BIG DATA 2 www.dataminingperu.com
  • 52. Evaluación del mercado de proveedores • Mejor manejo de grandes volúmenes de datos, herramientas de modelización fáciles de aprender/usar y una amplia variedad de algoritmos de análisis para datos estructurados y no estructurados dictan cuál proveedor liderará el mercado. Prevemos que el mercado de las soluciones analíticas de Big Data será vibrante, altamente competitivo y poblado de nuevos jugadores durante los próximos tres años”. The Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 2013 www.dataminingperu.com
  • 53. Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 ’13 Forrester define las soluciones analíticas predictivas de big data así: Soluciones de software y/o hardware que permiten a las empresas descubrir, evaluar, optimizar y desplegar modelos predictivos resultantes del análisis de fuentes de datos de gran volúmen para mejorar la performance del negocio o mitigar los riesgos. www.dataminingperu.com
  • 54. Big data según SAS • Estrategias: – Repensar la gestión de datos • Integrar los procesos de integración de datos, data quality, administración de metadatos y data governance – Incorporar muy grandes volúmenes de datos en tareas analíticas • Analytics de Alta Performance: computación en grids, procesamiento en base de datos, analytics en memoria • Data Analytics Warehouse – Determinación temprana de relevancia de los datos www.dataminingperu.com
  • 55. Information Management for Big Data • Big data no solo intensifica la necesidad de almacenar inmensos volúmenes de datos, sino también la necesidad de data quality y data governance, de anidar las funciones de analytics en los sistemas operacionales y las cuestiones de seguridad, privacidad y regulaciones. • Todo lo que antes era problemático ahora se hará más problemático. www.dataminingperu.com
  • 56. Information Management for Big Data • En lugar de hacer una gestión reactiva de los datos, hacer una gestión proactiva y predictiva • Componentes clave: – Gestión integrada de los datos incluyendo data governance, integración de datos, data quality y gestión de metadatos – Gestión completa de los procesos analíticos, incluyendo la gestión de modelos, su puesta en producción y monitoreo – Gestión efectiva de las decisiones para anidar fácilmente la información y los resultados analíticos en los procesos de negocios (en reglas de negocio, workflows y lógica de sucesos) www.dataminingperu.com
  • 57. High-Performance Analytics for Big Data • Diversas opciones de alta performance – Computación en grid – Procesamiento en base de datos – Analytics en memoria – Soporte para Hadoop – Analytics visual en Web www.dataminingperu.com
  • 58. Determinación temprana de relevancia de los datos • Incorporar analytics de alta performance al propio proceso de gestión de datos • Este análisis identifica los datos relevantes que debieran ser llevados al DW o sobre los que debieran hacerse procesos analíticos de alta performance www.dataminingperu.com
  • 59. Algunas Reflexiones • Enfoque • Utilidad • Educación • Prioridades www.dataminingperu.com
  • 60. Enfoque • ¿Nuestro sistema de procesamiento de información (individual y colectivo) se parece más a un disco rígido o a un sistema digestivo? Big Data no es revolución, sino •´ evolución www.dataminingperu.com
  • 61. Utilidad • Maldición de la dimensionalidad: – Mayor cantidad de casos aumenta la probabilidad de encontrar patrones espurios – Mayor cantidad de variables aumenta exponencialmente la cantidad necesaria de casos • Muchos datos (casos o dimensiones) no necesariamente significan mejores modelos www.dataminingperu.com
  • 62. ¡Es la educación estúpido! www.dataminingperu.com
  • 63. Prioridades • ¿Cuántas empresas locales tienen petabytes de datos? • ¿Las muy pocas que los tienen, los subutilizan por falta de Big Data? • ¿Cuáles es realmente el estado del data mining en las empresas latinoamericanas? www.dataminingperu.com
  • 64. Estado de cosas • Capacitación deficiente de los data miners • Confusión en la metodología o metodologías débiles: – En la preparación de datos – En la estrategia de modelización – En la utilización y gestión de los modelos – En la evaluación de los mismos • Considerable confusión en los “clientes” www.dataminingperu.com
  • 65. En síntesis • Hay mucho que hacer antes de llegar al Big Data • Cuando lo hagamos (si lo hacemos) probablemente ya haya cambiado de nombre…. • Data Mining como servicio, aplicaciones en campos como gobierno, mantenimiento y otros parecen más útiles en este momento • También el refuerzo y profundización en áreas como el análisis de supervivencia y el SNA www.dataminingperu.com