SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
Ing. Andrés Eyherabide
  @aeyherabide
www.datalytics.com       Posgrado BI UTN - Introducción al Data Mining
Que es Datalytics?
   Fundada en el año 2007, Datalytics es una empresa de servicios profesionales
    independiente, orientada exclusivamente a las prácticas de:
       Data Integration
       Business Intelligence
       Data Mining
   Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).
   Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.
   Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.
   Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo
    necesario para asegurar una solución exitosa que soporte los procesos de negocios.
   Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios
    de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau
    Veritas. Recertificación Septiembre 2012 aprobada.
Introducción
   Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos,
    de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones
    significativas.
   El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus
    operaciones por medio de un mayor entendimiento de su entorno:
        Que clientes es más probable que acepte una oferta?
        Que cliente tiene mayor probabilidad de dejar de pagar?
        Que cliente tiene alta probabilidad de pedir la baja del servicio?
        Que demanda puedo esperar de mis productos para el próximo trimestre?
   Estos análisis se basan en que los datos pasados sirven para predecir el futuro.
   La calidad de los datos y el conocimiento del negocio son críticos en el análisis.
   Los datos deben ser entendidos como un activo que le permitirá a las organizaciones
    diferenciarse proporcionando proporcionar más y mejores servicios.
Por que minar datos?
   Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:
        Datos generados en la nube, redes sociales.
        Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,
         etc.
        Transacciones bancarias / Tarjetas de Crédito.
        Machine generated data: sensores, web logs, etc.
   Frecuentemente hay información “oculta” en los datos que no es directamente evidente a
    los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a
    ser analizada.
   El GAP entre el volumen de información y el número de analista crece exponencialmente.
   La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un
    activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir
    eventos futuros, anticiparse a ellos, etc.
El ciclo de vida de los datos
                                                          Data Mining




Datos                 Información                            Conocimiento / Acción
 Transaccionales   Extracción, transformación y carga   Programas   de retención
 Operacionales     Limpieza y calidad                   Optimización acciones de MKT
 Demográficos      Almacenamiento                       Análisis de riesgo y rentabilidad
 Financieros       Acceso en tiempo y forma             Detección de fraudes
 Económicos        Transformar datos en información
 Gubernamentales
 Asociaciones
Que NO es Data Mining?
   No es un producto de SW que se compra sino una disciplina que debe ser dominada.
   No es una solución mágica ni mucho menos instantánea a los problemas de negocio.
   No es un fin en sí mismo, sino un proceso.
   No es un dogma de fe, es una disciplina con sustento matemático y estadístico.
   Algunos ejemplos de lo que NO es Data Mining:
        Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no
         han cursado estudios universitarios.
        Determinar la bebida gaseosa más vendida en cada departamento.
        Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio
         (por ejemplo, ventas * 1,17).
Que SI es Data Mining?
   Determinar la probabilidad de que un cliente solicite la baja de su servicio en los
    próximos 3 meses.
   Determinar que clientes son más propensos a responder afirmativamente a una
    determinada acción de MKT con una oferta determinada.
   Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda
    hacer frente al pago del mismo en tiempo y forma, cayendo en mora.
   Segmentar nuestra cartera de clientes para encontrar grupos de clientes con
    características de comportamiento similares.
   Analizar el comportamiento de compras de nuestros clientes para la confección de
    ofertas de productos.
Donde encaja Data Mining?

 ETL                               DW                OLAP & Reporting
  VSAM
  MQSeries
  AS/400
                                                               Pentaho,
                                                               Oracle/Hyperion,
                                                               Microstrategy,
 DB2 UDB
                                                               SAS, Etc.
 Informix
 Oracle            Extract
 Microsoft         Transform
 ...               Clean
 Siebel            Load
 PeopleSoft
                                                DW
                     Datastage       ODS                 Data Mart
 SAP R/3
                     Informatica
 XML                               Oracle
                     Oracle DI
                     Pentaho DI    IBM DB2
                     SAS DIS       SQL Server
 Archivos Planos
                     Etc.          Teradata
 FTP
                                   Sybase IQ
                                   Etc.
                                                     Data Mining
                                                     SAS, SPSS,
 Web Logs                                            Rapid Miner
Metodologías de Trabajo

1. Conocimiento del Negocio                2. Conocimiento de los datos
                                             Recolección y entendimiento de los datos.
   Objetivos / Entorno
                                             Exploración, evaluación de la calidad
   Supuestos, restricciones, riesgos y
    contingencias
   Definir análisis a realizar

                                                     3. Preparación de los datos
                                                         Selección, limpieza ,
                                                          personalización y agregación
                                                          de los datos
6. Implementación
  Desarrollo de plan de
   implementación
  Auditoría de implemen-
   tación
  Mantenimiento                                     4. Análisis & Modelado
                                                        Definir la técnica más
                                                         adecuada de Data Mining
   5. Evaluación                                        Desarrollo del modelo /
                                                         solución
       Evaluar e interpretar resultados
       Auditar el proceso
       Definir próximos pasos
Orígenes del Data Mining
   Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition,
    estadística y sistemas de bases de datos.
   Las técnicas tradicionales pueden ser inadecuadas debido a:
        Gran volumen de datos
        Alta dimensionalidad de los datos
        Naturaleza heterogénea y distribuida de los datos
                                                             Estadística

                                                                  DM
                                                      Bases de                Int.
                                                       Datos                Artificial
Orígenes del Data Mining
   Data Mining y la Estadística:
        Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.
        Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.
        La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.
        En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones
         entre ellas.
        Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de
         datos.
   Data Mining y la Inteligencia Artificial:
        La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.
        Se utilizan para construir modelos predictivos no lineales que aprenden a través de
         entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.
Tipos de Análisis del Data Mining


                     Regresiones Lineales       Redes Neuronales
      Predictivos




                                                                       Data Mining
                     Regresiones Logisticas     Series de Tiempo

                     Clusters                   Arboles de Decision
      Descriptivos




                     Promedios Móviles          Análisis Multivariados
                     Distribuciones             Tablas de Contingencia
                     Varianza                   Correlaciones
                     Desvío Standard            Rankings, Percentiles, etc.


                                Inteligencia (Valor Agregado)
Procesos de Modelado Predictivo
                                         Actualidad



                                  Horizonte
   Datos Históricos
                                  Predicción
                                                         Entrenamiento y
                                                            Validación




                                                      Horizonte
                      Datos Históricos
                                                      Predicción

                                                                           Corrida real
Modelado: Tipos de Variables
Var. Descriptivas



                                Var. de Clase
                                  / Target




                           Entrenamiento
                    En base a información histórica
                     se generan distintos modelos

                                                      Clasifica
                                  Modelo
Entrenamiento del Modelo
                    Datos de
                 entrenamiento
Sexo   Edad   Estado    Ingreso      $        #      Mora
               Civil     Anual    Credito   Cuotas
M        24   Casado      120K       20K         4   Si
                                                                          Construir y entrenar
F        36   Casado      240K       34K       12    No
                                                                              el modelo
F        28   Casado      180K       60K         3   Si
M        32   Soltero     120K       12K         8   No
M        29   Soltero     134K       56K       12    No
M        46   Casado      182K      128K       14    No                                       Y luego predecir
M        34   Soltero     227K      134K         8   Si
F        44   Casado      132K      240K       12    No     Sexo   Edad   Estado    Ingreso      $        #      Mora
                                                                           Civil     Anual    Credito   Cuotas
                                                            M        29   Casado      134K       27K         6   ?
                                                            F        46   Casado      182K       41K       12    ?
                                                            F        34   Casado        72K      26K       10    ?
                                                            M        44   Soltero     152K       42K         8   ?
Resumen de Modelado

      Preparación Datos            Preselección de Variables                Desarrollo        Implementación

•   Definición de Set de Datos     •   Análisis Exploratorio           •   Construcción de       Construcción de un
•   Tratamiento de Valores         •   Personalización de Variables.       Modelo                 Score
    Missing                        •   Transformación de Variables     •   Evaluación del        Presentar Resultados
•   División de Población          •   Buscar patrones                     Modelo
    Training – Validación – Test       (multivariados)
•   Detección de Outliers
    (errores)




                                                                                             Scoring
Análisis Desriptivo: Clustering
   Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
    una medida de similitud entre ellos, hallar clusters/segmentos tal que:
        Los objetos en un cluster son más similares entre sí.
        Los objetos en clusters separados sean lo más distintos posibles entre sí.

                                                                     Minimizar la distancia intracluster




                                                         Maximizar la distancia intercluster
Clustering: Segmentación de Mercado
   Una segmentación muy conocida de clientes es la segmentación RFM:
        Recency: cuando fue la última vez que compró?
        Frequency: cuantas veces compró?
        Monetary Value: cuanto dinero gastó?
   En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su
    comportamiento de consumo.
   Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los
    clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con
    ingresos superiores a $ 10.800.
Análisis Predictivo: Árboles de Decisión
   Dado un conjunto de registros, Cada registro se define por un conjunto de variables,
    siendo una de ellos la clase (también llamada target).
   Objetivo: hallar un modelo para determinar la variable target como una función de los
    valores de las otras variables.
   El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto
    de datos dados se divide en training y test sets, con el training set usado para construir el
    modelo y el test set usado para validarlo.
   Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera
    “aceptable” la variable target para registros desconocidos y nuevos casos.
Análisis Predictivo: Árboles de Decisión
   Beneficios:
        Fácil Interpretación e implementación
        Las ramas del árbol definen directamente las reglas de asignación
        Los resultados son operativos de forma inmediata
        Minimiza el pre-tratamiento de los datos (no hay problema de outliers)

                                                 Antigüedad cliente




                    % Saldo Financiado                                           % Utilización
                     Respuesta: 65%                                             Últimos 3 meses
                                                                                Respuesta: 35%
                         10 -60%


Respuesta:5%         Respuesta: 13%        Respuesta:47%              Respuesta: 5%          Respuesta:30%
Características de modelos Predictivos
  Técnicas de       Árbol de    Regresión
                                            Regresión Lineal   Red Neuronal
 Modelización       Decisión    Logística

 Tipo de Variable                                               Continua y
                     Discreta    Discreta      Continua
      Target                                                     Discreta
    Tipo de
                     Discreta   Continua       Continua          Continua
   predicción

    Poder de
                     Regular     Bueno           Bueno          Muy Bueno
   Predicción

   Rapidez de
                     Rápido     Mediano        Mediano           Mediano
  Modelización

  Facilidad de
                      Fácil     Mediano         Mediano           Difícil
 Interpretación

   Manejo de
                    Muy Bueno    Regular        Regular          Regular
 Valores Missing
  Robustez ante
                    Muy Bueno    Bueno           Bueno            Bueno
     outliers
Presentación Caso de Negocio
   Compañía financiera fundada en 2003, una de las más especializadas del mercado de
    Factoring.
   Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis
    áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).
   Promotores de la legislación que favorece la unificación de la factura como título valor
    con libre negociabilidad.
   La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
    1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).
   Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que
    le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese
    crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
    que le aseguren una relación estratégica a lo largo del tiempo.
Quien es quien?
   La compañía decidió llevar adelante un proceso de segmentación de clientes basada en
    modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha
    segmentación.
   Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados,
    se recurrió a una segmentación basada en el comportamiento denominada RFM:
    Recency, Frequency, Money Value.
   Definiciones previas:
        Cliente activo: al menos 1 negocio en los últimos 180 días.
        Cliente inactivo: sin negocios en los últimos 180 días.
        Cliente recurrente: más de 1 negocio.
   Principales métricas usadas:
        Cantidad de Negocios (frecuencia y recurrencia).
        Total Valor $, Valor $ Promedio (money value)
        Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).
Análisis Exploratorio
Activos vs. Inactivos y Recurrencia
   # Clientes Activos = 70,31% del total de cuentas desde el 2010
   # Clientes Activos no Recurrentes = 5,74%
   # Negocios Clientes Activos = 5,37%
   Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%)



    # Clientes                       # Negocios                     Valor $ (Millones)
                                          5%

                                                                        14%
    30%
                         Activos                        Activos                          Activos
                         Inactivos                      Inactivos                        Inactivos

             70%
                                               95%                            85%
VADs Activos
Fidelidad vs. Status
Estrategia de Segmentación
   Segmentar por $ Valor (4 segmentos):




   Segmentar por Fidelidad y Actividad (4 segmentos):




   Cruzar ambos segmentos, y fusionar segmentos poco significativos.
Resultado Final
Resultado Final
   0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días
    desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios.
    Ej.: T3 Textiles S.A.S.
   1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.:
    MetalPlastics S.A.S.
   2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio.
    En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.
   3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor
    antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas
    de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.
   4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto.
    Ej.: C.I. Agrodex S.A.
   5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
    Foods S.A.S.
El Minero
   Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.
   Traduce los requerimientos de información en preguntas apropiadas para su análisis con
    las herramientas de minería.
   Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por
    ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..
   Habilidades:
        Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!
        Conocimientos de estadística “avanzada”.
        Conocimiento de técnicas de minería y análisis exploratorio.
        Conocimiento de técnicas de manipulación de datos (SQL u otros).
        Pero por sobre todo curiosidad y creatividad.
        Y paciencia...
Desafíos
   El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.
   El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y
    puesto en práctica por los usuarios.
   La calidad de los modelos esta directamente relacionado con la calidad de los datos.
    Problemas con los datos:
        Pocos datos
        Poca historia
        Ruido, valores anómalos
        Valores incompletos
   Eficiencia y escalabilidad de algoritmos de Data Mining.



   Y por último pero no menos importante…    BIG DATA                          .
Que es BIG DATA?
   Big Data es el nombre que se le da a conjuntos de información que crecen de una
    manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
    métodos o técnicas tradicionales del mundo de base de datos relacionales.
   Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos
    móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.
   Big Data son tres V’s y una C:
        Velocidad: los datos se generan a un ritmo exponencial.
        Volumen: la irrupción de Big Data dejó en el
         pasado el Terabyte para hablar de Petabytes y
         Zetabytes.
        Variedad: datos estructurados y no estructurados,
         proveniente de la web 2.0, sensores, logs, etc.
        Complejidad: volumen de datos tal que no
         permite procesarlo con técnicas tradicionales
El desafío de BIG DATA

           LOS DATOS SE
      40   DUPLICAN CADA 2 AÑOS                                        80%
      35                                                               DE LA INFORMACIÓN ES NO
      30                                                               ESTRUCTURADA
                                                                                              (Gartner, December 2011)
      25
 ZB
      20
      15                                                               LAS EMPRESAS MANEJARÁN
      10                                                               50X MÁS DATOS
       5                                                               EN LA PRÓXIMA DÉCADA
            2005       2010        2015      2020
       0                                                                            (IDC Digital Universe Study, June 2011)
           (IDC Digital Universe Study, June 2011)


“El aumento exponencial en la cantidad de información disponible ha hecho
que las empresas recurran a nuevas herramientas y procesos para recopilar
datos (tanto estructurados como no estructurados) y para almacenar,
administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
Muchas Gracias!

Más contenido relacionado

La actualidad más candente

Introduction to Data Analytics
Introduction to Data AnalyticsIntroduction to Data Analytics
Introduction to Data AnalyticsUtkarsh Sharma
 
Data Mining & Applications
Data Mining & ApplicationsData Mining & Applications
Data Mining & ApplicationsFazle Rabbi Ador
 
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...Uwe Printz
 
What Is Data Science? | Introduction to Data Science | Data Science For Begin...
What Is Data Science? | Introduction to Data Science | Data Science For Begin...What Is Data Science? | Introduction to Data Science | Data Science For Begin...
What Is Data Science? | Introduction to Data Science | Data Science For Begin...Simplilearn
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data ScienceNiko Vuokko
 
How to Become a Data Scientist
How to Become a Data ScientistHow to Become a Data Scientist
How to Become a Data Scientistryanorban
 
Introduction to data science.pptx
Introduction to data science.pptxIntroduction to data science.pptx
Introduction to data science.pptxSadhanaParameswaran
 
Data Science - Part III - EDA & Model Selection
Data Science - Part III - EDA & Model SelectionData Science - Part III - EDA & Model Selection
Data Science - Part III - EDA & Model SelectionDerek Kane
 
DATA PREPROCESSING AND DATA CLEANSING
DATA PREPROCESSING AND DATA CLEANSINGDATA PREPROCESSING AND DATA CLEANSING
DATA PREPROCESSING AND DATA CLEANSINGAhtesham Ullah khan
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data ScienceEdureka!
 
Ciclo de vida de b.i
Ciclo de vida de b.iCiclo de vida de b.i
Ciclo de vida de b.iBrayanDZ92
 

La actualidad más candente (20)

Introduction to Data Analytics
Introduction to Data AnalyticsIntroduction to Data Analytics
Introduction to Data Analytics
 
Data Mining & Applications
Data Mining & ApplicationsData Mining & Applications
Data Mining & Applications
 
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
 
What is Data Science
What is Data ScienceWhat is Data Science
What is Data Science
 
What is big data?
What is big data?What is big data?
What is big data?
 
What Is Data Science? | Introduction to Data Science | Data Science For Begin...
What Is Data Science? | Introduction to Data Science | Data Science For Begin...What Is Data Science? | Introduction to Data Science | Data Science For Begin...
What Is Data Science? | Introduction to Data Science | Data Science For Begin...
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Introduction to Data Analytics
Introduction to Data AnalyticsIntroduction to Data Analytics
Introduction to Data Analytics
 
Data cube
Data cubeData cube
Data cube
 
Introduction to data science
Introduction to data scienceIntroduction to data science
Introduction to data science
 
How to Become a Data Scientist
How to Become a Data ScientistHow to Become a Data Scientist
How to Become a Data Scientist
 
Data analytics
Data analyticsData analytics
Data analytics
 
Introduction to data science.pptx
Introduction to data science.pptxIntroduction to data science.pptx
Introduction to data science.pptx
 
Data Science - Part III - EDA & Model Selection
Data Science - Part III - EDA & Model SelectionData Science - Part III - EDA & Model Selection
Data Science - Part III - EDA & Model Selection
 
Data science
Data scienceData science
Data science
 
Data Science
Data ScienceData Science
Data Science
 
DATA PREPROCESSING AND DATA CLEANSING
DATA PREPROCESSING AND DATA CLEANSINGDATA PREPROCESSING AND DATA CLEANSING
DATA PREPROCESSING AND DATA CLEANSING
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Ciclo de vida de b.i
Ciclo de vida de b.iCiclo de vida de b.i
Ciclo de vida de b.i
 
Data science 101
Data science 101Data science 101
Data science 101
 

Destacado

Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Data mining
Data miningData mining
Data miningmayimez
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenSoftware Guru
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine LearningStratebi
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosRoberto Espinosa
 

Destacado (12)

Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Data Mining en Forman
Data Mining en FormanData Mining en Forman
Data Mining en Forman
 
Data Mining
Data MiningData Mining
Data Mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesen
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 

Similar a Introducción al Data Mining: qué es, para qué sirve y cómo funciona

Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptChemyTacza
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BIfabian fernandez
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5siusma
 
Ecosistema actual de bi y data mining
Ecosistema actual de bi y data miningEcosistema actual de bi y data mining
Ecosistema actual de bi y data miningCarlos Alvarez
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datosSergio Salimbeni
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Facultad de Informática UCM
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 

Similar a Introducción al Data Mining: qué es, para qué sirve y cómo funciona (20)

Md session1
Md session1Md session1
Md session1
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
 
ppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdfppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdf
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5
 
bi-180616123404 (1).pptx
bi-180616123404 (1).pptxbi-180616123404 (1).pptx
bi-180616123404 (1).pptx
 
Ecosistema actual de bi y data mining
Ecosistema actual de bi y data miningEcosistema actual de bi y data mining
Ecosistema actual de bi y data mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
Data
DataData
Data
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 

Último

LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialpatriciaines1993
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfManuel Molina
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxYeseniaRivera50
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfCarol Andrea Eraso Guerrero
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
plan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativaplan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativafiorelachuctaya2
 

Último (20)

LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
Unidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDIUnidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDI
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundial
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
plan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativaplan-de-trabajo-colegiado en una institucion educativa
plan-de-trabajo-colegiado en una institucion educativa
 

Introducción al Data Mining: qué es, para qué sirve y cómo funciona

  • 1. Ing. Andrés Eyherabide @aeyherabide www.datalytics.com Posgrado BI UTN - Introducción al Data Mining
  • 2. Que es Datalytics?  Fundada en el año 2007, Datalytics es una empresa de servicios profesionales independiente, orientada exclusivamente a las prácticas de:  Data Integration  Business Intelligence  Data Mining  Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).  Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.  Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.  Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo necesario para asegurar una solución exitosa que soporte los procesos de negocios.  Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau Veritas. Recertificación Septiembre 2012 aprobada.
  • 3. Introducción  Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos, de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones significativas.  El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus operaciones por medio de un mayor entendimiento de su entorno:  Que clientes es más probable que acepte una oferta?  Que cliente tiene mayor probabilidad de dejar de pagar?  Que cliente tiene alta probabilidad de pedir la baja del servicio?  Que demanda puedo esperar de mis productos para el próximo trimestre?  Estos análisis se basan en que los datos pasados sirven para predecir el futuro.  La calidad de los datos y el conocimiento del negocio son críticos en el análisis.  Los datos deben ser entendidos como un activo que le permitirá a las organizaciones diferenciarse proporcionando proporcionar más y mejores servicios.
  • 4. Por que minar datos?  Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:  Datos generados en la nube, redes sociales.  Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales, etc.  Transacciones bancarias / Tarjetas de Crédito.  Machine generated data: sensores, web logs, etc.  Frecuentemente hay información “oculta” en los datos que no es directamente evidente a los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a ser analizada.  El GAP entre el volumen de información y el número de analista crece exponencialmente.  La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir eventos futuros, anticiparse a ellos, etc.
  • 5. El ciclo de vida de los datos Data Mining Datos Información Conocimiento / Acción Transaccionales Extracción, transformación y carga Programas de retención Operacionales Limpieza y calidad Optimización acciones de MKT Demográficos Almacenamiento Análisis de riesgo y rentabilidad Financieros Acceso en tiempo y forma Detección de fraudes Económicos Transformar datos en información Gubernamentales Asociaciones
  • 6. Que NO es Data Mining?  No es un producto de SW que se compra sino una disciplina que debe ser dominada.  No es una solución mágica ni mucho menos instantánea a los problemas de negocio.  No es un fin en sí mismo, sino un proceso.  No es un dogma de fe, es una disciplina con sustento matemático y estadístico.  Algunos ejemplos de lo que NO es Data Mining:  Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no han cursado estudios universitarios.  Determinar la bebida gaseosa más vendida en cada departamento.  Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio (por ejemplo, ventas * 1,17).
  • 7. Que SI es Data Mining?  Determinar la probabilidad de que un cliente solicite la baja de su servicio en los próximos 3 meses.  Determinar que clientes son más propensos a responder afirmativamente a una determinada acción de MKT con una oferta determinada.  Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda hacer frente al pago del mismo en tiempo y forma, cayendo en mora.  Segmentar nuestra cartera de clientes para encontrar grupos de clientes con características de comportamiento similares.  Analizar el comportamiento de compras de nuestros clientes para la confección de ofertas de productos.
  • 8. Donde encaja Data Mining? ETL DW OLAP & Reporting VSAM MQSeries AS/400 Pentaho, Oracle/Hyperion, Microstrategy, DB2 UDB SAS, Etc. Informix Oracle Extract Microsoft Transform ... Clean Siebel Load PeopleSoft DW Datastage ODS Data Mart SAP R/3 Informatica XML Oracle Oracle DI Pentaho DI IBM DB2 SAS DIS SQL Server Archivos Planos Etc. Teradata FTP Sybase IQ Etc. Data Mining SAS, SPSS, Web Logs Rapid Miner
  • 9. Metodologías de Trabajo 1. Conocimiento del Negocio 2. Conocimiento de los datos  Recolección y entendimiento de los datos.  Objetivos / Entorno  Exploración, evaluación de la calidad  Supuestos, restricciones, riesgos y contingencias  Definir análisis a realizar 3. Preparación de los datos  Selección, limpieza , personalización y agregación de los datos 6. Implementación  Desarrollo de plan de implementación  Auditoría de implemen- tación  Mantenimiento 4. Análisis & Modelado  Definir la técnica más adecuada de Data Mining 5. Evaluación  Desarrollo del modelo / solución  Evaluar e interpretar resultados  Auditar el proceso  Definir próximos pasos
  • 10. Orígenes del Data Mining  Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition, estadística y sistemas de bases de datos.  Las técnicas tradicionales pueden ser inadecuadas debido a:  Gran volumen de datos  Alta dimensionalidad de los datos  Naturaleza heterogénea y distribuida de los datos Estadística DM Bases de Int. Datos Artificial
  • 11. Orígenes del Data Mining  Data Mining y la Estadística:  Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.  Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.  La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.  En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones entre ellas.  Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de datos.  Data Mining y la Inteligencia Artificial:  La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.  Se utilizan para construir modelos predictivos no lineales que aprenden a través de entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.
  • 12. Tipos de Análisis del Data Mining Regresiones Lineales Redes Neuronales Predictivos Data Mining Regresiones Logisticas Series de Tiempo Clusters Arboles de Decision Descriptivos Promedios Móviles Análisis Multivariados Distribuciones Tablas de Contingencia Varianza Correlaciones Desvío Standard Rankings, Percentiles, etc. Inteligencia (Valor Agregado)
  • 13. Procesos de Modelado Predictivo Actualidad Horizonte Datos Históricos Predicción Entrenamiento y Validación Horizonte Datos Históricos Predicción Corrida real
  • 14. Modelado: Tipos de Variables Var. Descriptivas Var. de Clase / Target Entrenamiento En base a información histórica se generan distintos modelos Clasifica Modelo
  • 15. Entrenamiento del Modelo Datos de entrenamiento Sexo Edad Estado Ingreso $ # Mora Civil Anual Credito Cuotas M 24 Casado 120K 20K 4 Si Construir y entrenar F 36 Casado 240K 34K 12 No el modelo F 28 Casado 180K 60K 3 Si M 32 Soltero 120K 12K 8 No M 29 Soltero 134K 56K 12 No M 46 Casado 182K 128K 14 No Y luego predecir M 34 Soltero 227K 134K 8 Si F 44 Casado 132K 240K 12 No Sexo Edad Estado Ingreso $ # Mora Civil Anual Credito Cuotas M 29 Casado 134K 27K 6 ? F 46 Casado 182K 41K 12 ? F 34 Casado 72K 26K 10 ? M 44 Soltero 152K 42K 8 ?
  • 16. Resumen de Modelado Preparación Datos Preselección de Variables Desarrollo Implementación • Definición de Set de Datos • Análisis Exploratorio • Construcción de  Construcción de un • Tratamiento de Valores • Personalización de Variables. Modelo Score Missing • Transformación de Variables • Evaluación del  Presentar Resultados • División de Población • Buscar patrones Modelo Training – Validación – Test (multivariados) • Detección de Outliers (errores) Scoring
  • 17. Análisis Desriptivo: Clustering  Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y una medida de similitud entre ellos, hallar clusters/segmentos tal que:  Los objetos en un cluster son más similares entre sí.  Los objetos en clusters separados sean lo más distintos posibles entre sí. Minimizar la distancia intracluster Maximizar la distancia intercluster
  • 18. Clustering: Segmentación de Mercado  Una segmentación muy conocida de clientes es la segmentación RFM:  Recency: cuando fue la última vez que compró?  Frequency: cuantas veces compró?  Monetary Value: cuanto dinero gastó?  En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su comportamiento de consumo.  Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con ingresos superiores a $ 10.800.
  • 19. Análisis Predictivo: Árboles de Decisión  Dado un conjunto de registros, Cada registro se define por un conjunto de variables, siendo una de ellos la clase (también llamada target).  Objetivo: hallar un modelo para determinar la variable target como una función de los valores de las otras variables.  El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto de datos dados se divide en training y test sets, con el training set usado para construir el modelo y el test set usado para validarlo.  Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera “aceptable” la variable target para registros desconocidos y nuevos casos.
  • 20. Análisis Predictivo: Árboles de Decisión  Beneficios:  Fácil Interpretación e implementación  Las ramas del árbol definen directamente las reglas de asignación  Los resultados son operativos de forma inmediata  Minimiza el pre-tratamiento de los datos (no hay problema de outliers) Antigüedad cliente % Saldo Financiado % Utilización Respuesta: 65% Últimos 3 meses Respuesta: 35% 10 -60% Respuesta:5% Respuesta: 13% Respuesta:47% Respuesta: 5% Respuesta:30%
  • 21. Características de modelos Predictivos Técnicas de Árbol de Regresión Regresión Lineal Red Neuronal Modelización Decisión Logística Tipo de Variable Continua y Discreta Discreta Continua Target Discreta Tipo de Discreta Continua Continua Continua predicción Poder de Regular Bueno Bueno Muy Bueno Predicción Rapidez de Rápido Mediano Mediano Mediano Modelización Facilidad de Fácil Mediano Mediano Difícil Interpretación Manejo de Muy Bueno Regular Regular Regular Valores Missing Robustez ante Muy Bueno Bueno Bueno Bueno outliers
  • 22. Presentación Caso de Negocio  Compañía financiera fundada en 2003, una de las más especializadas del mercado de Factoring.  Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).  Promotores de la legislación que favorece la unificación de la factura como título valor con libre negociabilidad.  La empresa cuenta con diferentes productos, con una cartera de clientes que supera los 1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).  Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes que le aseguren una relación estratégica a lo largo del tiempo.
  • 23. Quien es quien?  La compañía decidió llevar adelante un proceso de segmentación de clientes basada en modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha segmentación.  Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados, se recurrió a una segmentación basada en el comportamiento denominada RFM: Recency, Frequency, Money Value.  Definiciones previas:  Cliente activo: al menos 1 negocio en los últimos 180 días.  Cliente inactivo: sin negocios en los últimos 180 días.  Cliente recurrente: más de 1 negocio.  Principales métricas usadas:  Cantidad de Negocios (frecuencia y recurrencia).  Total Valor $, Valor $ Promedio (money value)  Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).
  • 25. Activos vs. Inactivos y Recurrencia  # Clientes Activos = 70,31% del total de cuentas desde el 2010  # Clientes Activos no Recurrentes = 5,74%  # Negocios Clientes Activos = 5,37%  Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%) # Clientes # Negocios Valor $ (Millones) 5% 14% 30% Activos Activos Activos Inactivos Inactivos Inactivos 70% 95% 85%
  • 28. Estrategia de Segmentación  Segmentar por $ Valor (4 segmentos):  Segmentar por Fidelidad y Actividad (4 segmentos):  Cruzar ambos segmentos, y fusionar segmentos poco significativos.
  • 30. Resultado Final  0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios. Ej.: T3 Textiles S.A.S.  1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.: MetalPlastics S.A.S.  2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio. En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.  3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.  4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto. Ej.: C.I. Agrodex S.A.  5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion Foods S.A.S.
  • 31. El Minero  Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.  Traduce los requerimientos de información en preguntas apropiadas para su análisis con las herramientas de minería.  Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..  Habilidades:  Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!  Conocimientos de estadística “avanzada”.  Conocimiento de técnicas de minería y análisis exploratorio.  Conocimiento de técnicas de manipulación de datos (SQL u otros).  Pero por sobre todo curiosidad y creatividad.  Y paciencia...
  • 32. Desafíos  El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.  El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y puesto en práctica por los usuarios.  La calidad de los modelos esta directamente relacionado con la calidad de los datos. Problemas con los datos:  Pocos datos  Poca historia  Ruido, valores anómalos  Valores incompletos  Eficiencia y escalabilidad de algoritmos de Data Mining.  Y por último pero no menos importante… BIG DATA .
  • 33. Que es BIG DATA?  Big Data es el nombre que se le da a conjuntos de información que crecen de una manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con métodos o técnicas tradicionales del mundo de base de datos relacionales.  Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.  Big Data son tres V’s y una C:  Velocidad: los datos se generan a un ritmo exponencial.  Volumen: la irrupción de Big Data dejó en el pasado el Terabyte para hablar de Petabytes y Zetabytes.  Variedad: datos estructurados y no estructurados, proveniente de la web 2.0, sensores, logs, etc.  Complejidad: volumen de datos tal que no permite procesarlo con técnicas tradicionales
  • 34. El desafío de BIG DATA LOS DATOS SE 40 DUPLICAN CADA 2 AÑOS 80% 35 DE LA INFORMACIÓN ES NO 30 ESTRUCTURADA (Gartner, December 2011) 25 ZB 20 15 LAS EMPRESAS MANEJARÁN 10 50X MÁS DATOS 5 EN LA PRÓXIMA DÉCADA 2005 2010 2015 2020 0 (IDC Digital Universe Study, June 2011) (IDC Digital Universe Study, June 2011) “El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y para almacenar, administrar, manipular, analizar, e integrar datos. ” J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011