SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
Ing. Andrés Eyherabide
  @aeyherabide
www.datalytics.com       Posgrado BI UTN - Introducción al Data Mining
Que es Datalytics?
   Fundada en el año 2007, Datalytics es una empresa de servicios profesionales
    independiente, orientada exclusivamente a las prácticas de:
       Data Integration
       Business Intelligence
       Data Mining
   Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).
   Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.
   Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.
   Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo
    necesario para asegurar una solución exitosa que soporte los procesos de negocios.
   Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios
    de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau
    Veritas. Recertificación Septiembre 2012 aprobada.
Introducción
   Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos,
    de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones
    significativas.
   El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus
    operaciones por medio de un mayor entendimiento de su entorno:
        Que clientes es más probable que acepte una oferta?
        Que cliente tiene mayor probabilidad de dejar de pagar?
        Que cliente tiene alta probabilidad de pedir la baja del servicio?
        Que demanda puedo esperar de mis productos para el próximo trimestre?
   Estos análisis se basan en que los datos pasados sirven para predecir el futuro.
   La calidad de los datos y el conocimiento del negocio son críticos en el análisis.
   Los datos deben ser entendidos como un activo que le permitirá a las organizaciones
    diferenciarse proporcionando proporcionar más y mejores servicios.
Por que minar datos?
   Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:
        Datos generados en la nube, redes sociales.
        Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,
         etc.
        Transacciones bancarias / Tarjetas de Crédito.
        Machine generated data: sensores, web logs, etc.
   Frecuentemente hay información “oculta” en los datos que no es directamente evidente a
    los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a
    ser analizada.
   El GAP entre el volumen de información y el número de analista crece exponencialmente.
   La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un
    activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir
    eventos futuros, anticiparse a ellos, etc.
El ciclo de vida de los datos
                                                          Data Mining




Datos                 Información                            Conocimiento / Acción
 Transaccionales   Extracción, transformación y carga   Programas   de retención
 Operacionales     Limpieza y calidad                   Optimización acciones de MKT
 Demográficos      Almacenamiento                       Análisis de riesgo y rentabilidad
 Financieros       Acceso en tiempo y forma             Detección de fraudes
 Económicos        Transformar datos en información
 Gubernamentales
 Asociaciones
Que NO es Data Mining?
   No es un producto de SW que se compra sino una disciplina que debe ser dominada.
   No es una solución mágica ni mucho menos instantánea a los problemas de negocio.
   No es un fin en sí mismo, sino un proceso.
   No es un dogma de fe, es una disciplina con sustento matemático y estadístico.
   Algunos ejemplos de lo que NO es Data Mining:
        Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no
         han cursado estudios universitarios.
        Determinar la bebida gaseosa más vendida en cada departamento.
        Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio
         (por ejemplo, ventas * 1,17).
Que SI es Data Mining?
   Determinar la probabilidad de que un cliente solicite la baja de su servicio en los
    próximos 3 meses.
   Determinar que clientes son más propensos a responder afirmativamente a una
    determinada acción de MKT con una oferta determinada.
   Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda
    hacer frente al pago del mismo en tiempo y forma, cayendo en mora.
   Segmentar nuestra cartera de clientes para encontrar grupos de clientes con
    características de comportamiento similares.
   Analizar el comportamiento de compras de nuestros clientes para la confección de
    ofertas de productos.
Donde encaja Data Mining?

 ETL                               DW                OLAP & Reporting
  VSAM
  MQSeries
  AS/400
                                                               Pentaho,
                                                               Oracle/Hyperion,
                                                               Microstrategy,
 DB2 UDB
                                                               SAS, Etc.
 Informix
 Oracle            Extract
 Microsoft         Transform
 ...               Clean
 Siebel            Load
 PeopleSoft
                                                DW
                     Datastage       ODS                 Data Mart
 SAP R/3
                     Informatica
 XML                               Oracle
                     Oracle DI
                     Pentaho DI    IBM DB2
                     SAS DIS       SQL Server
 Archivos Planos
                     Etc.          Teradata
 FTP
                                   Sybase IQ
                                   Etc.
                                                     Data Mining
                                                     SAS, SPSS,
 Web Logs                                            Rapid Miner
Metodologías de Trabajo

1. Conocimiento del Negocio                2. Conocimiento de los datos
                                             Recolección y entendimiento de los datos.
   Objetivos / Entorno
                                             Exploración, evaluación de la calidad
   Supuestos, restricciones, riesgos y
    contingencias
   Definir análisis a realizar

                                                     3. Preparación de los datos
                                                         Selección, limpieza ,
                                                          personalización y agregación
                                                          de los datos
6. Implementación
  Desarrollo de plan de
   implementación
  Auditoría de implemen-
   tación
  Mantenimiento                                     4. Análisis & Modelado
                                                        Definir la técnica más
                                                         adecuada de Data Mining
   5. Evaluación                                        Desarrollo del modelo /
                                                         solución
       Evaluar e interpretar resultados
       Auditar el proceso
       Definir próximos pasos
Orígenes del Data Mining
   Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition,
    estadística y sistemas de bases de datos.
   Las técnicas tradicionales pueden ser inadecuadas debido a:
        Gran volumen de datos
        Alta dimensionalidad de los datos
        Naturaleza heterogénea y distribuida de los datos
                                                             Estadística

                                                                  DM
                                                      Bases de                Int.
                                                       Datos                Artificial
Orígenes del Data Mining
   Data Mining y la Estadística:
        Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.
        Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.
        La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.
        En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones
         entre ellas.
        Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de
         datos.
   Data Mining y la Inteligencia Artificial:
        La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.
        Se utilizan para construir modelos predictivos no lineales que aprenden a través de
         entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.
Tipos de Análisis del Data Mining


                     Regresiones Lineales       Redes Neuronales
      Predictivos




                                                                       Data Mining
                     Regresiones Logisticas     Series de Tiempo

                     Clusters                   Arboles de Decision
      Descriptivos




                     Promedios Móviles          Análisis Multivariados
                     Distribuciones             Tablas de Contingencia
                     Varianza                   Correlaciones
                     Desvío Standard            Rankings, Percentiles, etc.


                                Inteligencia (Valor Agregado)
Procesos de Modelado Predictivo
                                         Actualidad



                                  Horizonte
   Datos Históricos
                                  Predicción
                                                         Entrenamiento y
                                                            Validación




                                                      Horizonte
                      Datos Históricos
                                                      Predicción

                                                                           Corrida real
Modelado: Tipos de Variables
Var. Descriptivas



                                Var. de Clase
                                  / Target




                           Entrenamiento
                    En base a información histórica
                     se generan distintos modelos

                                                      Clasifica
                                  Modelo
Entrenamiento del Modelo
                    Datos de
                 entrenamiento
Sexo   Edad   Estado    Ingreso      $        #      Mora
               Civil     Anual    Credito   Cuotas
M        24   Casado      120K       20K         4   Si
                                                                          Construir y entrenar
F        36   Casado      240K       34K       12    No
                                                                              el modelo
F        28   Casado      180K       60K         3   Si
M        32   Soltero     120K       12K         8   No
M        29   Soltero     134K       56K       12    No
M        46   Casado      182K      128K       14    No                                       Y luego predecir
M        34   Soltero     227K      134K         8   Si
F        44   Casado      132K      240K       12    No     Sexo   Edad   Estado    Ingreso      $        #      Mora
                                                                           Civil     Anual    Credito   Cuotas
                                                            M        29   Casado      134K       27K         6   ?
                                                            F        46   Casado      182K       41K       12    ?
                                                            F        34   Casado        72K      26K       10    ?
                                                            M        44   Soltero     152K       42K         8   ?
Resumen de Modelado

      Preparación Datos            Preselección de Variables                Desarrollo        Implementación

•   Definición de Set de Datos     •   Análisis Exploratorio           •   Construcción de       Construcción de un
•   Tratamiento de Valores         •   Personalización de Variables.       Modelo                 Score
    Missing                        •   Transformación de Variables     •   Evaluación del        Presentar Resultados
•   División de Población          •   Buscar patrones                     Modelo
    Training – Validación – Test       (multivariados)
•   Detección de Outliers
    (errores)




                                                                                             Scoring
Análisis Desriptivo: Clustering
   Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
    una medida de similitud entre ellos, hallar clusters/segmentos tal que:
        Los objetos en un cluster son más similares entre sí.
        Los objetos en clusters separados sean lo más distintos posibles entre sí.

                                                                     Minimizar la distancia intracluster




                                                         Maximizar la distancia intercluster
Clustering: Segmentación de Mercado
   Una segmentación muy conocida de clientes es la segmentación RFM:
        Recency: cuando fue la última vez que compró?
        Frequency: cuantas veces compró?
        Monetary Value: cuanto dinero gastó?
   En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su
    comportamiento de consumo.
   Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los
    clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con
    ingresos superiores a $ 10.800.
Análisis Predictivo: Árboles de Decisión
   Dado un conjunto de registros, Cada registro se define por un conjunto de variables,
    siendo una de ellos la clase (también llamada target).
   Objetivo: hallar un modelo para determinar la variable target como una función de los
    valores de las otras variables.
   El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto
    de datos dados se divide en training y test sets, con el training set usado para construir el
    modelo y el test set usado para validarlo.
   Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera
    “aceptable” la variable target para registros desconocidos y nuevos casos.
Análisis Predictivo: Árboles de Decisión
   Beneficios:
        Fácil Interpretación e implementación
        Las ramas del árbol definen directamente las reglas de asignación
        Los resultados son operativos de forma inmediata
        Minimiza el pre-tratamiento de los datos (no hay problema de outliers)

                                                 Antigüedad cliente




                    % Saldo Financiado                                           % Utilización
                     Respuesta: 65%                                             Últimos 3 meses
                                                                                Respuesta: 35%
                         10 -60%


Respuesta:5%         Respuesta: 13%        Respuesta:47%              Respuesta: 5%          Respuesta:30%
Características de modelos Predictivos
  Técnicas de       Árbol de    Regresión
                                            Regresión Lineal   Red Neuronal
 Modelización       Decisión    Logística

 Tipo de Variable                                               Continua y
                     Discreta    Discreta      Continua
      Target                                                     Discreta
    Tipo de
                     Discreta   Continua       Continua          Continua
   predicción

    Poder de
                     Regular     Bueno           Bueno          Muy Bueno
   Predicción

   Rapidez de
                     Rápido     Mediano        Mediano           Mediano
  Modelización

  Facilidad de
                      Fácil     Mediano         Mediano           Difícil
 Interpretación

   Manejo de
                    Muy Bueno    Regular        Regular          Regular
 Valores Missing
  Robustez ante
                    Muy Bueno    Bueno           Bueno            Bueno
     outliers
Presentación Caso de Negocio
   Compañía financiera fundada en 2003, una de las más especializadas del mercado de
    Factoring.
   Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis
    áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).
   Promotores de la legislación que favorece la unificación de la factura como título valor
    con libre negociabilidad.
   La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
    1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).
   Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que
    le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese
    crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
    que le aseguren una relación estratégica a lo largo del tiempo.
Quien es quien?
   La compañía decidió llevar adelante un proceso de segmentación de clientes basada en
    modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha
    segmentación.
   Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados,
    se recurrió a una segmentación basada en el comportamiento denominada RFM:
    Recency, Frequency, Money Value.
   Definiciones previas:
        Cliente activo: al menos 1 negocio en los últimos 180 días.
        Cliente inactivo: sin negocios en los últimos 180 días.
        Cliente recurrente: más de 1 negocio.
   Principales métricas usadas:
        Cantidad de Negocios (frecuencia y recurrencia).
        Total Valor $, Valor $ Promedio (money value)
        Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).
Análisis Exploratorio
Activos vs. Inactivos y Recurrencia
   # Clientes Activos = 70,31% del total de cuentas desde el 2010
   # Clientes Activos no Recurrentes = 5,74%
   # Negocios Clientes Activos = 5,37%
   Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%)



    # Clientes                       # Negocios                     Valor $ (Millones)
                                          5%

                                                                        14%
    30%
                         Activos                        Activos                          Activos
                         Inactivos                      Inactivos                        Inactivos

             70%
                                               95%                            85%
VADs Activos
Fidelidad vs. Status
Estrategia de Segmentación
   Segmentar por $ Valor (4 segmentos):




   Segmentar por Fidelidad y Actividad (4 segmentos):




   Cruzar ambos segmentos, y fusionar segmentos poco significativos.
Resultado Final
Resultado Final
   0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días
    desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios.
    Ej.: T3 Textiles S.A.S.
   1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.:
    MetalPlastics S.A.S.
   2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio.
    En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.
   3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor
    antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas
    de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.
   4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto.
    Ej.: C.I. Agrodex S.A.
   5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
    Foods S.A.S.
El Minero
   Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.
   Traduce los requerimientos de información en preguntas apropiadas para su análisis con
    las herramientas de minería.
   Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por
    ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..
   Habilidades:
        Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!
        Conocimientos de estadística “avanzada”.
        Conocimiento de técnicas de minería y análisis exploratorio.
        Conocimiento de técnicas de manipulación de datos (SQL u otros).
        Pero por sobre todo curiosidad y creatividad.
        Y paciencia...
Desafíos
   El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.
   El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y
    puesto en práctica por los usuarios.
   La calidad de los modelos esta directamente relacionado con la calidad de los datos.
    Problemas con los datos:
        Pocos datos
        Poca historia
        Ruido, valores anómalos
        Valores incompletos
   Eficiencia y escalabilidad de algoritmos de Data Mining.



   Y por último pero no menos importante…    BIG DATA                          .
Que es BIG DATA?
   Big Data es el nombre que se le da a conjuntos de información que crecen de una
    manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
    métodos o técnicas tradicionales del mundo de base de datos relacionales.
   Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos
    móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.
   Big Data son tres V’s y una C:
        Velocidad: los datos se generan a un ritmo exponencial.
        Volumen: la irrupción de Big Data dejó en el
         pasado el Terabyte para hablar de Petabytes y
         Zetabytes.
        Variedad: datos estructurados y no estructurados,
         proveniente de la web 2.0, sensores, logs, etc.
        Complejidad: volumen de datos tal que no
         permite procesarlo con técnicas tradicionales
El desafío de BIG DATA

           LOS DATOS SE
      40   DUPLICAN CADA 2 AÑOS                                        80%
      35                                                               DE LA INFORMACIÓN ES NO
      30                                                               ESTRUCTURADA
                                                                                              (Gartner, December 2011)
      25
 ZB
      20
      15                                                               LAS EMPRESAS MANEJARÁN
      10                                                               50X MÁS DATOS
       5                                                               EN LA PRÓXIMA DÉCADA
            2005       2010        2015      2020
       0                                                                            (IDC Digital Universe Study, June 2011)
           (IDC Digital Universe Study, June 2011)


“El aumento exponencial en la cantidad de información disponible ha hecho
que las empresas recurran a nuevas herramientas y procesos para recopilar
datos (tanto estructurados como no estructurados) y para almacenar,
administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
Muchas Gracias!

Más contenido relacionado

La actualidad más candente

Why Data Virtualization? An Introduction by Denodo
Why Data Virtualization? An Introduction by DenodoWhy Data Virtualization? An Introduction by Denodo
Why Data Virtualization? An Introduction by DenodoJusto Hidalgo
 
From KPIs to dashboards
From KPIs to dashboardsFrom KPIs to dashboards
From KPIs to dashboardsAni Lopez
 
Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...
Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...
Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...DATAVERSITY
 
Gartner: Seven Building Blocks of Master Data Management
Gartner: Seven Building Blocks of Master Data ManagementGartner: Seven Building Blocks of Master Data Management
Gartner: Seven Building Blocks of Master Data ManagementGartner
 
Intelligent Document Processing IDP.pdf
Intelligent Document Processing IDP.pdfIntelligent Document Processing IDP.pdf
Intelligent Document Processing IDP.pdfJamieDornan2
 
Driving growth and differential performance among Class I railroads
Driving growth and differential performance among Class I railroadsDriving growth and differential performance among Class I railroads
Driving growth and differential performance among Class I railroadsDeloitte United States
 
What are data products and why are they different from other products?
What are data products and why are they different from other products?What are data products and why are they different from other products?
What are data products and why are they different from other products?inovex GmbH
 
People Analytics: State of the Market - Top Ten List
People Analytics:  State of the Market - Top Ten ListPeople Analytics:  State of the Market - Top Ten List
People Analytics: State of the Market - Top Ten ListJosh Bersin
 
Forget disruption, it's time for Transformation
Forget disruption, it's time for TransformationForget disruption, it's time for Transformation
Forget disruption, it's time for TransformationScopernia
 
2022 Trends in Enterprise Analytics
2022 Trends in Enterprise Analytics2022 Trends in Enterprise Analytics
2022 Trends in Enterprise AnalyticsDATAVERSITY
 
The top 15 strategic things that Talent Management should be doing
The top 15 strategic things that Talent Management should be doingThe top 15 strategic things that Talent Management should be doing
The top 15 strategic things that Talent Management should be doingDr. John Sullivan
 
Transformation (e-commerce to e- business)
Transformation (e-commerce to e- business)Transformation (e-commerce to e- business)
Transformation (e-commerce to e- business)Nishant Pahad
 
HRM Employee Value Proposition Survey Results
HRM Employee Value Proposition Survey ResultsHRM Employee Value Proposition Survey Results
HRM Employee Value Proposition Survey Resultsgmorris1974
 
People analytics: Breaking myths with agility and passion | Talent Connect 2016
People analytics: Breaking myths with agility and passion | Talent Connect 2016People analytics: Breaking myths with agility and passion | Talent Connect 2016
People analytics: Breaking myths with agility and passion | Talent Connect 2016LinkedIn Talent Solutions
 
How to Start People Analytics Practice?
How to Start People Analytics Practice?How to Start People Analytics Practice?
How to Start People Analytics Practice?Martin Boudikianov
 
5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data Lake5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data LakeMetroStar
 
Fundamentals of Designing, Building, & Implementing a Service Delivery Center
Fundamentals of Designing, Building, & Implementing a Service Delivery CenterFundamentals of Designing, Building, & Implementing a Service Delivery Center
Fundamentals of Designing, Building, & Implementing a Service Delivery CenterScottMadden, Inc.
 
Turnover reduction control phase
Turnover reduction control phaseTurnover reduction control phase
Turnover reduction control phasekellykozik
 

La actualidad más candente (20)

Why Data Virtualization? An Introduction by Denodo
Why Data Virtualization? An Introduction by DenodoWhy Data Virtualization? An Introduction by Denodo
Why Data Virtualization? An Introduction by Denodo
 
From KPIs to dashboards
From KPIs to dashboardsFrom KPIs to dashboards
From KPIs to dashboards
 
Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...
Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...
Webinar: Decoding the Mystery - How to Know if You Need a Data Catalog, a Dat...
 
Gartner: Seven Building Blocks of Master Data Management
Gartner: Seven Building Blocks of Master Data ManagementGartner: Seven Building Blocks of Master Data Management
Gartner: Seven Building Blocks of Master Data Management
 
Intelligent Document Processing IDP.pdf
Intelligent Document Processing IDP.pdfIntelligent Document Processing IDP.pdf
Intelligent Document Processing IDP.pdf
 
Driving growth and differential performance among Class I railroads
Driving growth and differential performance among Class I railroadsDriving growth and differential performance among Class I railroads
Driving growth and differential performance among Class I railroads
 
What are data products and why are they different from other products?
What are data products and why are they different from other products?What are data products and why are they different from other products?
What are data products and why are they different from other products?
 
People Analytics: State of the Market - Top Ten List
People Analytics:  State of the Market - Top Ten ListPeople Analytics:  State of the Market - Top Ten List
People Analytics: State of the Market - Top Ten List
 
Forget disruption, it's time for Transformation
Forget disruption, it's time for TransformationForget disruption, it's time for Transformation
Forget disruption, it's time for Transformation
 
2022 Trends in Enterprise Analytics
2022 Trends in Enterprise Analytics2022 Trends in Enterprise Analytics
2022 Trends in Enterprise Analytics
 
The top 15 strategic things that Talent Management should be doing
The top 15 strategic things that Talent Management should be doingThe top 15 strategic things that Talent Management should be doing
The top 15 strategic things that Talent Management should be doing
 
The Data Unicorns
The Data UnicornsThe Data Unicorns
The Data Unicorns
 
Escalation
EscalationEscalation
Escalation
 
Transformation (e-commerce to e- business)
Transformation (e-commerce to e- business)Transformation (e-commerce to e- business)
Transformation (e-commerce to e- business)
 
HRM Employee Value Proposition Survey Results
HRM Employee Value Proposition Survey ResultsHRM Employee Value Proposition Survey Results
HRM Employee Value Proposition Survey Results
 
People analytics: Breaking myths with agility and passion | Talent Connect 2016
People analytics: Breaking myths with agility and passion | Talent Connect 2016People analytics: Breaking myths with agility and passion | Talent Connect 2016
People analytics: Breaking myths with agility and passion | Talent Connect 2016
 
How to Start People Analytics Practice?
How to Start People Analytics Practice?How to Start People Analytics Practice?
How to Start People Analytics Practice?
 
5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data Lake5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data Lake
 
Fundamentals of Designing, Building, & Implementing a Service Delivery Center
Fundamentals of Designing, Building, & Implementing a Service Delivery CenterFundamentals of Designing, Building, & Implementing a Service Delivery Center
Fundamentals of Designing, Building, & Implementing a Service Delivery Center
 
Turnover reduction control phase
Turnover reduction control phaseTurnover reduction control phase
Turnover reduction control phase
 

Destacado

Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Data mining
Data miningData mining
Data miningmayimez
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenSoftware Guru
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine LearningStratebi
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosRoberto Espinosa
 

Destacado (12)

Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Data Mining en Forman
Data Mining en FormanData Mining en Forman
Data Mining en Forman
 
Data Mining
Data MiningData Mining
Data Mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesen
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 

Similar a Introducción al Data Mining

Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptChemyTacza
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BIfabian fernandez
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5siusma
 
Ecosistema actual de bi y data mining
Ecosistema actual de bi y data miningEcosistema actual de bi y data mining
Ecosistema actual de bi y data miningCarlos Alvarez
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datosSergio Salimbeni
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Facultad de Informática UCM
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 

Similar a Introducción al Data Mining (20)

Md session1
Md session1Md session1
Md session1
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
 
ppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdfppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdf
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5
 
bi-180616123404 (1).pptx
bi-180616123404 (1).pptxbi-180616123404 (1).pptx
bi-180616123404 (1).pptx
 
Ecosistema actual de bi y data mining
Ecosistema actual de bi y data miningEcosistema actual de bi y data mining
Ecosistema actual de bi y data mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
Data
DataData
Data
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 

Último

Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOluismii249
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfRaulGomez822561
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024IES Vicent Andres Estelles
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Katherine Concepcion Gonzalez
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdfDemetrio Ccesa Rayme
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptAlberto Rubio
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIAFabiolaGarcia751855
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxhenarfdez
 
Factores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdfFactores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdfJonathanCovena1
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxroberthirigoinvasque
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesMarisolMartinez707897
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primariaWilian24
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOluismii249
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxiemerc2024
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...Ars Erótica
 

Último (20)

Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Los dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la VerdadLos dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la Verdad
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptx
 
Usos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicasUsos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicas
 
Factores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdfFactores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdf
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
Sesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdfSesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdf
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
 

Introducción al Data Mining

  • 1. Ing. Andrés Eyherabide @aeyherabide www.datalytics.com Posgrado BI UTN - Introducción al Data Mining
  • 2. Que es Datalytics?  Fundada en el año 2007, Datalytics es una empresa de servicios profesionales independiente, orientada exclusivamente a las prácticas de:  Data Integration  Business Intelligence  Data Mining  Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).  Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.  Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.  Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo necesario para asegurar una solución exitosa que soporte los procesos de negocios.  Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau Veritas. Recertificación Septiembre 2012 aprobada.
  • 3. Introducción  Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos, de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones significativas.  El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus operaciones por medio de un mayor entendimiento de su entorno:  Que clientes es más probable que acepte una oferta?  Que cliente tiene mayor probabilidad de dejar de pagar?  Que cliente tiene alta probabilidad de pedir la baja del servicio?  Que demanda puedo esperar de mis productos para el próximo trimestre?  Estos análisis se basan en que los datos pasados sirven para predecir el futuro.  La calidad de los datos y el conocimiento del negocio son críticos en el análisis.  Los datos deben ser entendidos como un activo que le permitirá a las organizaciones diferenciarse proporcionando proporcionar más y mejores servicios.
  • 4. Por que minar datos?  Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:  Datos generados en la nube, redes sociales.  Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales, etc.  Transacciones bancarias / Tarjetas de Crédito.  Machine generated data: sensores, web logs, etc.  Frecuentemente hay información “oculta” en los datos que no es directamente evidente a los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a ser analizada.  El GAP entre el volumen de información y el número de analista crece exponencialmente.  La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir eventos futuros, anticiparse a ellos, etc.
  • 5. El ciclo de vida de los datos Data Mining Datos Información Conocimiento / Acción Transaccionales Extracción, transformación y carga Programas de retención Operacionales Limpieza y calidad Optimización acciones de MKT Demográficos Almacenamiento Análisis de riesgo y rentabilidad Financieros Acceso en tiempo y forma Detección de fraudes Económicos Transformar datos en información Gubernamentales Asociaciones
  • 6. Que NO es Data Mining?  No es un producto de SW que se compra sino una disciplina que debe ser dominada.  No es una solución mágica ni mucho menos instantánea a los problemas de negocio.  No es un fin en sí mismo, sino un proceso.  No es un dogma de fe, es una disciplina con sustento matemático y estadístico.  Algunos ejemplos de lo que NO es Data Mining:  Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no han cursado estudios universitarios.  Determinar la bebida gaseosa más vendida en cada departamento.  Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio (por ejemplo, ventas * 1,17).
  • 7. Que SI es Data Mining?  Determinar la probabilidad de que un cliente solicite la baja de su servicio en los próximos 3 meses.  Determinar que clientes son más propensos a responder afirmativamente a una determinada acción de MKT con una oferta determinada.  Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda hacer frente al pago del mismo en tiempo y forma, cayendo en mora.  Segmentar nuestra cartera de clientes para encontrar grupos de clientes con características de comportamiento similares.  Analizar el comportamiento de compras de nuestros clientes para la confección de ofertas de productos.
  • 8. Donde encaja Data Mining? ETL DW OLAP & Reporting VSAM MQSeries AS/400 Pentaho, Oracle/Hyperion, Microstrategy, DB2 UDB SAS, Etc. Informix Oracle Extract Microsoft Transform ... Clean Siebel Load PeopleSoft DW Datastage ODS Data Mart SAP R/3 Informatica XML Oracle Oracle DI Pentaho DI IBM DB2 SAS DIS SQL Server Archivos Planos Etc. Teradata FTP Sybase IQ Etc. Data Mining SAS, SPSS, Web Logs Rapid Miner
  • 9. Metodologías de Trabajo 1. Conocimiento del Negocio 2. Conocimiento de los datos  Recolección y entendimiento de los datos.  Objetivos / Entorno  Exploración, evaluación de la calidad  Supuestos, restricciones, riesgos y contingencias  Definir análisis a realizar 3. Preparación de los datos  Selección, limpieza , personalización y agregación de los datos 6. Implementación  Desarrollo de plan de implementación  Auditoría de implemen- tación  Mantenimiento 4. Análisis & Modelado  Definir la técnica más adecuada de Data Mining 5. Evaluación  Desarrollo del modelo / solución  Evaluar e interpretar resultados  Auditar el proceso  Definir próximos pasos
  • 10. Orígenes del Data Mining  Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition, estadística y sistemas de bases de datos.  Las técnicas tradicionales pueden ser inadecuadas debido a:  Gran volumen de datos  Alta dimensionalidad de los datos  Naturaleza heterogénea y distribuida de los datos Estadística DM Bases de Int. Datos Artificial
  • 11. Orígenes del Data Mining  Data Mining y la Estadística:  Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.  Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.  La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.  En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones entre ellas.  Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de datos.  Data Mining y la Inteligencia Artificial:  La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.  Se utilizan para construir modelos predictivos no lineales que aprenden a través de entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.
  • 12. Tipos de Análisis del Data Mining Regresiones Lineales Redes Neuronales Predictivos Data Mining Regresiones Logisticas Series de Tiempo Clusters Arboles de Decision Descriptivos Promedios Móviles Análisis Multivariados Distribuciones Tablas de Contingencia Varianza Correlaciones Desvío Standard Rankings, Percentiles, etc. Inteligencia (Valor Agregado)
  • 13. Procesos de Modelado Predictivo Actualidad Horizonte Datos Históricos Predicción Entrenamiento y Validación Horizonte Datos Históricos Predicción Corrida real
  • 14. Modelado: Tipos de Variables Var. Descriptivas Var. de Clase / Target Entrenamiento En base a información histórica se generan distintos modelos Clasifica Modelo
  • 15. Entrenamiento del Modelo Datos de entrenamiento Sexo Edad Estado Ingreso $ # Mora Civil Anual Credito Cuotas M 24 Casado 120K 20K 4 Si Construir y entrenar F 36 Casado 240K 34K 12 No el modelo F 28 Casado 180K 60K 3 Si M 32 Soltero 120K 12K 8 No M 29 Soltero 134K 56K 12 No M 46 Casado 182K 128K 14 No Y luego predecir M 34 Soltero 227K 134K 8 Si F 44 Casado 132K 240K 12 No Sexo Edad Estado Ingreso $ # Mora Civil Anual Credito Cuotas M 29 Casado 134K 27K 6 ? F 46 Casado 182K 41K 12 ? F 34 Casado 72K 26K 10 ? M 44 Soltero 152K 42K 8 ?
  • 16. Resumen de Modelado Preparación Datos Preselección de Variables Desarrollo Implementación • Definición de Set de Datos • Análisis Exploratorio • Construcción de  Construcción de un • Tratamiento de Valores • Personalización de Variables. Modelo Score Missing • Transformación de Variables • Evaluación del  Presentar Resultados • División de Población • Buscar patrones Modelo Training – Validación – Test (multivariados) • Detección de Outliers (errores) Scoring
  • 17. Análisis Desriptivo: Clustering  Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y una medida de similitud entre ellos, hallar clusters/segmentos tal que:  Los objetos en un cluster son más similares entre sí.  Los objetos en clusters separados sean lo más distintos posibles entre sí. Minimizar la distancia intracluster Maximizar la distancia intercluster
  • 18. Clustering: Segmentación de Mercado  Una segmentación muy conocida de clientes es la segmentación RFM:  Recency: cuando fue la última vez que compró?  Frequency: cuantas veces compró?  Monetary Value: cuanto dinero gastó?  En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su comportamiento de consumo.  Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con ingresos superiores a $ 10.800.
  • 19. Análisis Predictivo: Árboles de Decisión  Dado un conjunto de registros, Cada registro se define por un conjunto de variables, siendo una de ellos la clase (también llamada target).  Objetivo: hallar un modelo para determinar la variable target como una función de los valores de las otras variables.  El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto de datos dados se divide en training y test sets, con el training set usado para construir el modelo y el test set usado para validarlo.  Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera “aceptable” la variable target para registros desconocidos y nuevos casos.
  • 20. Análisis Predictivo: Árboles de Decisión  Beneficios:  Fácil Interpretación e implementación  Las ramas del árbol definen directamente las reglas de asignación  Los resultados son operativos de forma inmediata  Minimiza el pre-tratamiento de los datos (no hay problema de outliers) Antigüedad cliente % Saldo Financiado % Utilización Respuesta: 65% Últimos 3 meses Respuesta: 35% 10 -60% Respuesta:5% Respuesta: 13% Respuesta:47% Respuesta: 5% Respuesta:30%
  • 21. Características de modelos Predictivos Técnicas de Árbol de Regresión Regresión Lineal Red Neuronal Modelización Decisión Logística Tipo de Variable Continua y Discreta Discreta Continua Target Discreta Tipo de Discreta Continua Continua Continua predicción Poder de Regular Bueno Bueno Muy Bueno Predicción Rapidez de Rápido Mediano Mediano Mediano Modelización Facilidad de Fácil Mediano Mediano Difícil Interpretación Manejo de Muy Bueno Regular Regular Regular Valores Missing Robustez ante Muy Bueno Bueno Bueno Bueno outliers
  • 22. Presentación Caso de Negocio  Compañía financiera fundada en 2003, una de las más especializadas del mercado de Factoring.  Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).  Promotores de la legislación que favorece la unificación de la factura como título valor con libre negociabilidad.  La empresa cuenta con diferentes productos, con una cartera de clientes que supera los 1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).  Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes que le aseguren una relación estratégica a lo largo del tiempo.
  • 23. Quien es quien?  La compañía decidió llevar adelante un proceso de segmentación de clientes basada en modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha segmentación.  Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados, se recurrió a una segmentación basada en el comportamiento denominada RFM: Recency, Frequency, Money Value.  Definiciones previas:  Cliente activo: al menos 1 negocio en los últimos 180 días.  Cliente inactivo: sin negocios en los últimos 180 días.  Cliente recurrente: más de 1 negocio.  Principales métricas usadas:  Cantidad de Negocios (frecuencia y recurrencia).  Total Valor $, Valor $ Promedio (money value)  Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).
  • 25. Activos vs. Inactivos y Recurrencia  # Clientes Activos = 70,31% del total de cuentas desde el 2010  # Clientes Activos no Recurrentes = 5,74%  # Negocios Clientes Activos = 5,37%  Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%) # Clientes # Negocios Valor $ (Millones) 5% 14% 30% Activos Activos Activos Inactivos Inactivos Inactivos 70% 95% 85%
  • 28. Estrategia de Segmentación  Segmentar por $ Valor (4 segmentos):  Segmentar por Fidelidad y Actividad (4 segmentos):  Cruzar ambos segmentos, y fusionar segmentos poco significativos.
  • 30. Resultado Final  0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios. Ej.: T3 Textiles S.A.S.  1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.: MetalPlastics S.A.S.  2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio. En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.  3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.  4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto. Ej.: C.I. Agrodex S.A.  5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion Foods S.A.S.
  • 31. El Minero  Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.  Traduce los requerimientos de información en preguntas apropiadas para su análisis con las herramientas de minería.  Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..  Habilidades:  Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!  Conocimientos de estadística “avanzada”.  Conocimiento de técnicas de minería y análisis exploratorio.  Conocimiento de técnicas de manipulación de datos (SQL u otros).  Pero por sobre todo curiosidad y creatividad.  Y paciencia...
  • 32. Desafíos  El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.  El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y puesto en práctica por los usuarios.  La calidad de los modelos esta directamente relacionado con la calidad de los datos. Problemas con los datos:  Pocos datos  Poca historia  Ruido, valores anómalos  Valores incompletos  Eficiencia y escalabilidad de algoritmos de Data Mining.  Y por último pero no menos importante… BIG DATA .
  • 33. Que es BIG DATA?  Big Data es el nombre que se le da a conjuntos de información que crecen de una manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con métodos o técnicas tradicionales del mundo de base de datos relacionales.  Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.  Big Data son tres V’s y una C:  Velocidad: los datos se generan a un ritmo exponencial.  Volumen: la irrupción de Big Data dejó en el pasado el Terabyte para hablar de Petabytes y Zetabytes.  Variedad: datos estructurados y no estructurados, proveniente de la web 2.0, sensores, logs, etc.  Complejidad: volumen de datos tal que no permite procesarlo con técnicas tradicionales
  • 34. El desafío de BIG DATA LOS DATOS SE 40 DUPLICAN CADA 2 AÑOS 80% 35 DE LA INFORMACIÓN ES NO 30 ESTRUCTURADA (Gartner, December 2011) 25 ZB 20 15 LAS EMPRESAS MANEJARÁN 10 50X MÁS DATOS 5 EN LA PRÓXIMA DÉCADA 2005 2010 2015 2020 0 (IDC Digital Universe Study, June 2011) (IDC Digital Universe Study, June 2011) “El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y para almacenar, administrar, manipular, analizar, e integrar datos. ” J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011