SlideShare una empresa de Scribd logo
Minería de Datos para
Principiantes
Webimar
Software Guru
23 de octubre de 2013
Por Rafael Gregorio Gamboa Hirales
ITAM
Agenda
• La Minería de Datos. Objetivo.
• Modelos, fundamentos y técnicas.
• Herramientas Comerciales para MD.
– Software libre
– Software propietario

• Caso de ejemplo de un modelo de
clasificación con aplicación comercial.
• Conclusiones
Minería de Datos para Principiantes.

2
La Minería de Datos. Objetivo.
El objetivo de la MD es el desarrollo y aplicación de
procesos de estimación de valores objetivo. Se
tienen dos situaciones:
1. Obtener la estimación del “grado de
pertenencia” de un elemento a una clase.
2. Obtener la estimación del valor de una variable
que representa una cantidad directa y
objetivamente medible.
Muy importante: La MD se basa en casos (datos) de
experiencias pasadas en los que ya sabemos el
valor de la “variable objetivo”.
Minería de Datos para Principiantes.

3
Modelos
Con estas dos situaciones en mente podemos desarrollar
modelos para:
i.
Clasificar clientes como los que están en el grupo que
responde a una promoción con cierta “probabilidad” (o que
la densidad de casos “exitosos” está arriba de cierta
densidad).
ii. Pronosticar o estimar el valor esperado de una variable del
“negocio” estando esta variable en un rango continuo de
valores.
iii. Obtener grupos de clientes de acuerdo a sus características
y/o comportamiento.
Minería de Datos para Principiantes.

4
Modelos, fundamentos y técnicas.
El fundamento teórico ad-hoc es la Estadística.
Ello nos permite elaborar pruebas de hipótesis y
validar nuestros modelos.
Sin embargo en ocasiones los negocios nos
demandan desarrollo mas rápidos de los modelos.
Por ello, en MD procedemos “partiendo” nuestro
conjunto de datos en al menos dos subconjuntos y
los utilizamos para desarrollar y “verificar”,
“probar” o “validar” nuestro modelo.
Minería de Datos para Principiantes.

5
Pre - requisitos
Los pasos que seguiremos suponen que:
1. Conocemos a la perfección las variables que
definen nuestro conjunto de datos.
2. Los datos son de “buena calidad”.
3. Se han eliminado variables “redundantes”.
4. Los dos conjuntos elegidos tienen características
similares al del conjunto original y estas
características se conservan en el conjunto al
cual se ha de aplicar el modelo.
Minería de Datos para Principiantes.

6
Proceso de elaboración del modelo
Paso 0: Partir los datos en los dos subconjuntos
mencionados. Diremos que los subconjuntos
son conjunto de entrenamiento y conjunto de
prueba.
Paso 1: “Entrenar”, - i.e. obtener los parámetros
del modelo que hacen que la V.O. se “calcule” en
términos de las variables de soporte,- uno o más
modelos con el conjunto de entrenamiento.
Minería de Datos para Principiantes.

7
Paso 2) “Validar” o probar el modelo
aplicándolo al conjunto de (datos de) prueba.
Paso 3) Si el resultado es “aceptable” ya
acabamos, en caso contrario debemos iterar
eligiendo otros “Modeladores” y/o
transformando las variables de soporte o
modificando el enfoque mismo del problema.

Minería de Datos para Principiantes.

8
¿Cómo saber si el modelo es “aceptable”?
La bondad (de ajuste) del modelo tiene que ver con el
objetivo de “negocio” a obtener. Por ejemplo, maximizar
utilidad, minimizar costo, o bien se define una función de
utilidad ad-hoc (no necesariamente monetaria).
Otra situación se plantea en el desarrollo de un modelo para
recomendar el tratamiento ( de entre cinco posibles
tratamientos) para un padecimiento. Es posible que para
ciertos casos no sea muy relevante el “entrecruzamiento” de
la decisión, i.e. si a un paciente en lugar de recomendarle el
mejor tratamiento según sus características se le recomienda
un sub-óptimo. Pero si el paciente es diabético si que puede
ser muy importante. Por ello conviene penalizar estos casos
para que el modelo se “equivoque” lo menos posible en ellos.
Minería de Datos para Principiantes.

9
Campaña de promoción de la venta de
un producto o servicio.
Se desea realizar una campaña promoviendo un
producto/servicio. Consideraremos el caso más simple:
El costo de promoción es c unidades monetarias, c > 0.
El ingreso es f unidades monetarias. Supondremos f > c.
Esto implica que en caso de “hacer hit” se tendrá una
utilidad u = f – c unidades monetarias.
En caso de “no hacer hit” se pierden c unidades
monetarias.
Digamos VO e {0,1}, 1 = “hit”, si el cliente compra.

Minería de Datos para Principiantes.

10
Densidad de umbral
Ahora consideremos el concepto de “densidad
de umbral”, que es la densidad de casos exitosos
que se requiere para que la campaña salga
“tablas”. i.e. si d* es la densidad de umbral:
d* x u – ( 1 – d* ) x c = 0; d* e [0,1].
Despejando d*:
d* = c/(u+c)

Minería de Datos para Principiantes.

11
Campaña intrínsecamente ganadora.
Modelo de Clasificación.
Bajo estas características y conceptos una campaña
será intrínsecamente ganadora si la densidad
original de casos exitosos en la muestra es mayor
que d*. (Aún en esos casos la MD puede hacer que
la utilidad sea mejor…)
Si la densidad original de casos exitosos es menor
que d* utilizamos la MD para tratar de obtener las
características de subconjuntos de casos que tienen
densidades mayores a la de umbral y poder calificar
nuevos casos con este modelo.
Minería de Datos para Principiantes.

12
Modeladores
Técnicas más populares
•
•
•
•
•
•
•

CART (Árboles de decisión)
Regresión Logística
Análisis Discriminante
Redes Neuronales
Vecinos Cercanos
Bayes Naive
Redes Bayesianas
Minería de Datos para Principiantes.

13
Resultado del modelado
El resultado del modelado es:
1. El modelo en sí, en ocasiones el código o parámetros que lo
implementan para ser ejecutado por procesos autónomos o
dependientes de la herramienta.
2. Las estadísticas del modelo y métricas de la “bondad de ajuste”,
como ROC, elevaciones o mejoras y matriz de confusión.
3. Los conjuntos de entrenamiento y prueba con sus “scores” o
“Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna
su valor de P(VO=1) y el complemento es P(VO=0).

Post procesamos estos registros y obtenemos la “Curva de Utilidad” la
cual indica la utilidad obtenida al ir procesando secuencialmente los
casos habiendo ordenado los casos de mayor a menor según el score o
“P(VO=1)”.

Minería de Datos para Principiantes.

14
Curva de utilidad
a) Ordenar descendentemente los casos del subconjunto
en cuestión (entrenamiento o prueba) de acuerdo a
“P(VO=1)”.
b) Para cada caso, si VO=1 ganamos la cantidad u, si
VO=0 perdemos la cantidad c.
c) Vamos acumulando la utilidad y pérdida desde el
“primer” caso hasta el caso del registro actual.
d) Graficamos el numero de caso en el eje horizontal y la
utilidad o pérdida acumulada en el eje vertical.
(Gráfica de dispersión para el caso general).

Minería de Datos para Principiantes.

15
Curva de Utilidad
CART
post procesado propio
Utilidad_Acum

Tree Train: Utilidades

Util_Real_acum

4000

Utilidad (Pérdida)

2000
0
-2000 0

2,000

4,000

6,000

-4000
-6000
-8000
-10000
-12000
-14000
Casos Promovidos

Minería de Datos para Principiantes.

16
Curva de utilidad
Con esta gráfica podemos determinar hasta
dónde debemos de llevar a cabo la promoción.
Debemos considerar que el corte debe hacerse
en un lugar donde podamos diferenciar el valor
del score. Esta consideración es muy importante
en el caso de los árboles donde todos los casos
que caen en el mismo nodo tienen el mismo
valor de “score” o “P(VO=1)”.
Minería de Datos para Principiantes.

17
Caso de ejemplo
Modelo de clasificación con aplicación comercial.
Consideremos el popular caso “Insurance”. Se desea realizar una
campaña de venta de un seguro y se tiene una campaña realizada con
anterioridad que se supone con las mismas características a la que se
desea llevar a cabo actualmente. Los parámetros son:
Densidad de la muestra: 2%.
Costo individual de promoción: $4
Utilidad por caso exitoso: $96
La densidad de umbral es 4%
Si se ejecuta la campaña sin realizar la preselección de los clientes se
obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2.

¡¡¡La casa pierde!!!!
¿Se puede hacer algo al respecto?
Minería de Datos para Principiantes.

18
Demo con SAS Enterprise Miner
SAS define su metodología con las siglas
“SEMMA”: Sample, Exploration, Modificaction, Modeling,
Assesment.
En castellano: Muestrear, Explorar, Modificar, Modelar y
Evaluar. “MEMEE”.
Esta herramienta permite definirle entre otras, la matriz
de costos - utilidades y decirle si la muestra está
“sobrecargada” para que “compense” la salida del
modelo, entregando la situación como será en la realidad.
La herramienta se maneja gráficamente, de una manera
muy ad-hoc para el trabajo con los modelos de MD.
Entrega los modelos en SAS, C, java y DB2.
Minería de Datos para Principiantes.

19
Flujo de proceso en SAS EM ™

Minería de Datos para Principiantes.

20
ROC

Minería de Datos para Principiantes.

21
Demo con Weka
Weka es una de las herramientas libres para MD
más populares. Está programada en java y
ofrece procesos y procedimientos para poner en
producción los modelos obtenidos.
Ofrece cuatro ambientes para trabajar con los
modelos y los datos:
Explorer, Experimenter, Knowledge Flow y
comandos “a pié” (texto).
Minería de Datos para Principiantes.

22
Flujo en Weka

Minería de Datos para Principiantes.

23
Herramientas Comerciales para MD.
• Software libre y/o gratuito:
– Weka, R, Rapid Miner, Orange, etc…

• Software propietario:
– SAS Enterprise Miner
– Modeler de SPSS
– Addendums a herramientas de BI.

Ahora se les llama “Analytics” e incorporan algunos
elementos para llevar a cabo Minería de Textos y
Herramientas para el análisis de características y
relaciones sobre redes sociales.
Minería de Datos para Principiantes.

24
Analytics
Se incorporan datos no estructurados en el
sentido de un esquema de base de datos
relacional.
Google es el pionero en la explotación de estos
elementos, aunque los grandes jugadores ya se
pusieron las pilas y ofrecen productos “llave en
mano” para algunas de las necesidades donde
hay más recursos económicos.
Minería de Datos para Principiantes.

25
Conclusiones y Tendencias
• La MD es una técnica auxiliar en muchos campos de la investigación y los
negocios.
• Requiere la conjunción de conocimientos de Computación, Estadística,
Matemáticas y del área propia de aplicación.
• Actualmente debido a varios factores (reducción de precio del bit
procesado, de los medios de almacenamiento y las telecomunicaciones)
está en “ebullición” al tener datos explotables y manera de explotarlos.
• Los desarrollos actuales se encaminan a tener los resultados de manera
temprana y oportuna, dándole ventajas a las organizaciones que se
puedan apropiar de esta forma de trabajo dentro de su estrategia de
negocio. Ej. High Performance Analytics de SAS.
• El recurso humano (capital intelectual) es de los más requeridos.
• Se destacan la formación en “Machine Learning” , “Data Science” en la
parte de avanzada, trabajando con volúmenes grandes de datos, en
ocasiones no estructurados, dispersos y con gran diversidad. A ello se le
conoce como “Big Data”.
Minería de Datos para Principiantes.

26
Muchas gracias
imagen de fondo tomada del Artículo sobre Minería de Wikipedia

Minería de Datos para Principiantes.

27

Más contenido relacionado

La actualidad más candente

Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)
DATAVERSITY
 
NoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesNoSQL bases de datos no relacionales
NoSQL bases de datos no relacionales
Andrés Londoño
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Néstor González
 
‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management
‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management
‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management
Ahmed Alorage
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negocios
Franklin Parrales Bravo
 
Chapter 7: Data Security Management
Chapter 7: Data Security ManagementChapter 7: Data Security Management
Chapter 7: Data Security Management
Ahmed Alorage
 
ETL
ETLETL
Presentacion BD NoSQL
Presentacion  BD NoSQLPresentacion  BD NoSQL
Presentacion BD NoSQL
Andrea Antunes
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
Roman Herrera
 
Key Considerations While Rolling Out Denodo Platform
Key Considerations While Rolling Out Denodo PlatformKey Considerations While Rolling Out Denodo Platform
Key Considerations While Rolling Out Denodo Platform
Denodo
 
Modelo Entidad Relacion E-R
Modelo Entidad Relacion E-RModelo Entidad Relacion E-R
Modelo Entidad Relacion E-R
Robert Rodriguez
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
Alianzo Networks
 
DMBOK - Chapter 1 Summary
DMBOK - Chapter 1 SummaryDMBOK - Chapter 1 Summary
DMBOK - Chapter 1 Summary
Nicolas Ruslim
 
Overall Approach to Data Quality ROI
Overall Approach to Data Quality ROIOverall Approach to Data Quality ROI
Overall Approach to Data Quality ROI
FindWhitePapers
 
Big data
Big dataBig data
Big data
Monserrat Lopez
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
Carlos Barbieri
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
Eduardo Castro
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
Stratebi
 
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...
DATAVERSITY
 

La actualidad más candente (20)

Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)
 
NoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesNoSQL bases de datos no relacionales
NoSQL bases de datos no relacionales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management
‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management
‏‏‏‏‏‏‏‏Chapter 11: Meta-data Management
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negocios
 
Chapter 7: Data Security Management
Chapter 7: Data Security ManagementChapter 7: Data Security Management
Chapter 7: Data Security Management
 
ETL
ETLETL
ETL
 
Funciones del DBA, SA Y DA
Funciones del DBA, SA Y DAFunciones del DBA, SA Y DA
Funciones del DBA, SA Y DA
 
Presentacion BD NoSQL
Presentacion  BD NoSQLPresentacion  BD NoSQL
Presentacion BD NoSQL
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Key Considerations While Rolling Out Denodo Platform
Key Considerations While Rolling Out Denodo PlatformKey Considerations While Rolling Out Denodo Platform
Key Considerations While Rolling Out Denodo Platform
 
Modelo Entidad Relacion E-R
Modelo Entidad Relacion E-RModelo Entidad Relacion E-R
Modelo Entidad Relacion E-R
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
DMBOK - Chapter 1 Summary
DMBOK - Chapter 1 SummaryDMBOK - Chapter 1 Summary
DMBOK - Chapter 1 Summary
 
Overall Approach to Data Quality ROI
Overall Approach to Data Quality ROIOverall Approach to Data Quality ROI
Overall Approach to Data Quality ROI
 
Big data
Big dataBig data
Big data
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...
 

Destacado

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Departamento de Redes UNL
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes socialesMaría Muñoz Parra
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Zeus Ruiz Montilla
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
MONICA MONTOYA CORDERO
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
diana marcela alegria escobar
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Arnoldo Gil
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all EmployeesTalent Innovations
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
elsemieni
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
Yaz_Cuapio
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
anag catal
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
María Inés Cahuana Lázaro
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
04071977
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
Juan Flores
 

Destacado (18)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 

Similar a Minería de datos

Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
Victor Jaime Polo Romero
 
Machine learning for business
Machine learning for businessMachine learning for business
Machine learning for business
Fran Castillo
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Eduardo Castro
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Renata Briseño
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuido
Software Guru
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
JCarlos Gonzalez Joyé
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
LPI ONG
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOSergio Sanchez
 
Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414
Gerard Alba
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
ICEMD
 
EMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine LearningEMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine Learning
Laybor EMBdata Training & Consulting
 

Similar a Minería de datos (20)

Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Machine learning for business
Machine learning for businessMachine learning for business
Machine learning for business
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining
Data MiningData Mining
Data Mining
 
Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuido
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
4.data mining
4.data mining4.data mining
4.data mining
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñO
 
Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
EMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine LearningEMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine Learning
 

Más de Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
Software Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
Software Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
Software Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
Software Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
Software Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
Software Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
Software Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
Software Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
Software Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
Software Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Software Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
Software Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
Software Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
Software Guru
 

Más de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfTRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
thomasdcroz38
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
Leidyfuentes19
 
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
marianabz2403
 
Diagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdfDiagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdf
ManuelCampos464987
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
ValeriaAyala48
 
Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5
JulyMuoz18
 
Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024
Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024
Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024
CesarPazosQuispe
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
cj3806354
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
cofferub
 
Diagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestreDiagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestre
DiegoCampos433849
 
trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
zoecaicedosalazar
 
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB  S2. PARA VSATMANUAL DEL DECODIFICADOR DVB  S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
Ing. Julio Iván Mera Casas
 
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
espinozaernesto427
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
Luis Enrique Zafra Haro
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
vazquezgarciajesusma
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
rafaelsalazar0615
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
cristianrb0324
 
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
sarasofiamontezuma
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
PABLOCESARGARZONBENI
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
coloradxmaria
 

Último (20)

TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfTRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
 
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
 
Diagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdfDiagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdf
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
 
Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5
 
Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024
Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024
Semana 10_MATRIZ IPER_UPN_ADM_03.06.2024
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
 
Diagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestreDiagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestre
 
trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
 
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB  S2. PARA VSATMANUAL DEL DECODIFICADOR DVB  S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
 
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
 
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
 

Minería de datos

  • 1. Minería de Datos para Principiantes Webimar Software Guru 23 de octubre de 2013 Por Rafael Gregorio Gamboa Hirales ITAM
  • 2. Agenda • La Minería de Datos. Objetivo. • Modelos, fundamentos y técnicas. • Herramientas Comerciales para MD. – Software libre – Software propietario • Caso de ejemplo de un modelo de clasificación con aplicación comercial. • Conclusiones Minería de Datos para Principiantes. 2
  • 3. La Minería de Datos. Objetivo. El objetivo de la MD es el desarrollo y aplicación de procesos de estimación de valores objetivo. Se tienen dos situaciones: 1. Obtener la estimación del “grado de pertenencia” de un elemento a una clase. 2. Obtener la estimación del valor de una variable que representa una cantidad directa y objetivamente medible. Muy importante: La MD se basa en casos (datos) de experiencias pasadas en los que ya sabemos el valor de la “variable objetivo”. Minería de Datos para Principiantes. 3
  • 4. Modelos Con estas dos situaciones en mente podemos desarrollar modelos para: i. Clasificar clientes como los que están en el grupo que responde a una promoción con cierta “probabilidad” (o que la densidad de casos “exitosos” está arriba de cierta densidad). ii. Pronosticar o estimar el valor esperado de una variable del “negocio” estando esta variable en un rango continuo de valores. iii. Obtener grupos de clientes de acuerdo a sus características y/o comportamiento. Minería de Datos para Principiantes. 4
  • 5. Modelos, fundamentos y técnicas. El fundamento teórico ad-hoc es la Estadística. Ello nos permite elaborar pruebas de hipótesis y validar nuestros modelos. Sin embargo en ocasiones los negocios nos demandan desarrollo mas rápidos de los modelos. Por ello, en MD procedemos “partiendo” nuestro conjunto de datos en al menos dos subconjuntos y los utilizamos para desarrollar y “verificar”, “probar” o “validar” nuestro modelo. Minería de Datos para Principiantes. 5
  • 6. Pre - requisitos Los pasos que seguiremos suponen que: 1. Conocemos a la perfección las variables que definen nuestro conjunto de datos. 2. Los datos son de “buena calidad”. 3. Se han eliminado variables “redundantes”. 4. Los dos conjuntos elegidos tienen características similares al del conjunto original y estas características se conservan en el conjunto al cual se ha de aplicar el modelo. Minería de Datos para Principiantes. 6
  • 7. Proceso de elaboración del modelo Paso 0: Partir los datos en los dos subconjuntos mencionados. Diremos que los subconjuntos son conjunto de entrenamiento y conjunto de prueba. Paso 1: “Entrenar”, - i.e. obtener los parámetros del modelo que hacen que la V.O. se “calcule” en términos de las variables de soporte,- uno o más modelos con el conjunto de entrenamiento. Minería de Datos para Principiantes. 7
  • 8. Paso 2) “Validar” o probar el modelo aplicándolo al conjunto de (datos de) prueba. Paso 3) Si el resultado es “aceptable” ya acabamos, en caso contrario debemos iterar eligiendo otros “Modeladores” y/o transformando las variables de soporte o modificando el enfoque mismo del problema. Minería de Datos para Principiantes. 8
  • 9. ¿Cómo saber si el modelo es “aceptable”? La bondad (de ajuste) del modelo tiene que ver con el objetivo de “negocio” a obtener. Por ejemplo, maximizar utilidad, minimizar costo, o bien se define una función de utilidad ad-hoc (no necesariamente monetaria). Otra situación se plantea en el desarrollo de un modelo para recomendar el tratamiento ( de entre cinco posibles tratamientos) para un padecimiento. Es posible que para ciertos casos no sea muy relevante el “entrecruzamiento” de la decisión, i.e. si a un paciente en lugar de recomendarle el mejor tratamiento según sus características se le recomienda un sub-óptimo. Pero si el paciente es diabético si que puede ser muy importante. Por ello conviene penalizar estos casos para que el modelo se “equivoque” lo menos posible en ellos. Minería de Datos para Principiantes. 9
  • 10. Campaña de promoción de la venta de un producto o servicio. Se desea realizar una campaña promoviendo un producto/servicio. Consideraremos el caso más simple: El costo de promoción es c unidades monetarias, c > 0. El ingreso es f unidades monetarias. Supondremos f > c. Esto implica que en caso de “hacer hit” se tendrá una utilidad u = f – c unidades monetarias. En caso de “no hacer hit” se pierden c unidades monetarias. Digamos VO e {0,1}, 1 = “hit”, si el cliente compra. Minería de Datos para Principiantes. 10
  • 11. Densidad de umbral Ahora consideremos el concepto de “densidad de umbral”, que es la densidad de casos exitosos que se requiere para que la campaña salga “tablas”. i.e. si d* es la densidad de umbral: d* x u – ( 1 – d* ) x c = 0; d* e [0,1]. Despejando d*: d* = c/(u+c) Minería de Datos para Principiantes. 11
  • 12. Campaña intrínsecamente ganadora. Modelo de Clasificación. Bajo estas características y conceptos una campaña será intrínsecamente ganadora si la densidad original de casos exitosos en la muestra es mayor que d*. (Aún en esos casos la MD puede hacer que la utilidad sea mejor…) Si la densidad original de casos exitosos es menor que d* utilizamos la MD para tratar de obtener las características de subconjuntos de casos que tienen densidades mayores a la de umbral y poder calificar nuevos casos con este modelo. Minería de Datos para Principiantes. 12
  • 13. Modeladores Técnicas más populares • • • • • • • CART (Árboles de decisión) Regresión Logística Análisis Discriminante Redes Neuronales Vecinos Cercanos Bayes Naive Redes Bayesianas Minería de Datos para Principiantes. 13
  • 14. Resultado del modelado El resultado del modelado es: 1. El modelo en sí, en ocasiones el código o parámetros que lo implementan para ser ejecutado por procesos autónomos o dependientes de la herramienta. 2. Las estadísticas del modelo y métricas de la “bondad de ajuste”, como ROC, elevaciones o mejoras y matriz de confusión. 3. Los conjuntos de entrenamiento y prueba con sus “scores” o “Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna su valor de P(VO=1) y el complemento es P(VO=0). Post procesamos estos registros y obtenemos la “Curva de Utilidad” la cual indica la utilidad obtenida al ir procesando secuencialmente los casos habiendo ordenado los casos de mayor a menor según el score o “P(VO=1)”. Minería de Datos para Principiantes. 14
  • 15. Curva de utilidad a) Ordenar descendentemente los casos del subconjunto en cuestión (entrenamiento o prueba) de acuerdo a “P(VO=1)”. b) Para cada caso, si VO=1 ganamos la cantidad u, si VO=0 perdemos la cantidad c. c) Vamos acumulando la utilidad y pérdida desde el “primer” caso hasta el caso del registro actual. d) Graficamos el numero de caso en el eje horizontal y la utilidad o pérdida acumulada en el eje vertical. (Gráfica de dispersión para el caso general). Minería de Datos para Principiantes. 15
  • 16. Curva de Utilidad CART post procesado propio Utilidad_Acum Tree Train: Utilidades Util_Real_acum 4000 Utilidad (Pérdida) 2000 0 -2000 0 2,000 4,000 6,000 -4000 -6000 -8000 -10000 -12000 -14000 Casos Promovidos Minería de Datos para Principiantes. 16
  • 17. Curva de utilidad Con esta gráfica podemos determinar hasta dónde debemos de llevar a cabo la promoción. Debemos considerar que el corte debe hacerse en un lugar donde podamos diferenciar el valor del score. Esta consideración es muy importante en el caso de los árboles donde todos los casos que caen en el mismo nodo tienen el mismo valor de “score” o “P(VO=1)”. Minería de Datos para Principiantes. 17
  • 18. Caso de ejemplo Modelo de clasificación con aplicación comercial. Consideremos el popular caso “Insurance”. Se desea realizar una campaña de venta de un seguro y se tiene una campaña realizada con anterioridad que se supone con las mismas características a la que se desea llevar a cabo actualmente. Los parámetros son: Densidad de la muestra: 2%. Costo individual de promoción: $4 Utilidad por caso exitoso: $96 La densidad de umbral es 4% Si se ejecuta la campaña sin realizar la preselección de los clientes se obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2. ¡¡¡La casa pierde!!!! ¿Se puede hacer algo al respecto? Minería de Datos para Principiantes. 18
  • 19. Demo con SAS Enterprise Miner SAS define su metodología con las siglas “SEMMA”: Sample, Exploration, Modificaction, Modeling, Assesment. En castellano: Muestrear, Explorar, Modificar, Modelar y Evaluar. “MEMEE”. Esta herramienta permite definirle entre otras, la matriz de costos - utilidades y decirle si la muestra está “sobrecargada” para que “compense” la salida del modelo, entregando la situación como será en la realidad. La herramienta se maneja gráficamente, de una manera muy ad-hoc para el trabajo con los modelos de MD. Entrega los modelos en SAS, C, java y DB2. Minería de Datos para Principiantes. 19
  • 20. Flujo de proceso en SAS EM ™ Minería de Datos para Principiantes. 20
  • 21. ROC Minería de Datos para Principiantes. 21
  • 22. Demo con Weka Weka es una de las herramientas libres para MD más populares. Está programada en java y ofrece procesos y procedimientos para poner en producción los modelos obtenidos. Ofrece cuatro ambientes para trabajar con los modelos y los datos: Explorer, Experimenter, Knowledge Flow y comandos “a pié” (texto). Minería de Datos para Principiantes. 22
  • 23. Flujo en Weka Minería de Datos para Principiantes. 23
  • 24. Herramientas Comerciales para MD. • Software libre y/o gratuito: – Weka, R, Rapid Miner, Orange, etc… • Software propietario: – SAS Enterprise Miner – Modeler de SPSS – Addendums a herramientas de BI. Ahora se les llama “Analytics” e incorporan algunos elementos para llevar a cabo Minería de Textos y Herramientas para el análisis de características y relaciones sobre redes sociales. Minería de Datos para Principiantes. 24
  • 25. Analytics Se incorporan datos no estructurados en el sentido de un esquema de base de datos relacional. Google es el pionero en la explotación de estos elementos, aunque los grandes jugadores ya se pusieron las pilas y ofrecen productos “llave en mano” para algunas de las necesidades donde hay más recursos económicos. Minería de Datos para Principiantes. 25
  • 26. Conclusiones y Tendencias • La MD es una técnica auxiliar en muchos campos de la investigación y los negocios. • Requiere la conjunción de conocimientos de Computación, Estadística, Matemáticas y del área propia de aplicación. • Actualmente debido a varios factores (reducción de precio del bit procesado, de los medios de almacenamiento y las telecomunicaciones) está en “ebullición” al tener datos explotables y manera de explotarlos. • Los desarrollos actuales se encaminan a tener los resultados de manera temprana y oportuna, dándole ventajas a las organizaciones que se puedan apropiar de esta forma de trabajo dentro de su estrategia de negocio. Ej. High Performance Analytics de SAS. • El recurso humano (capital intelectual) es de los más requeridos. • Se destacan la formación en “Machine Learning” , “Data Science” en la parte de avanzada, trabajando con volúmenes grandes de datos, en ocasiones no estructurados, dispersos y con gran diversidad. A ello se le conoce como “Big Data”. Minería de Datos para Principiantes. 26
  • 27. Muchas gracias imagen de fondo tomada del Artículo sobre Minería de Wikipedia Minería de Datos para Principiantes. 27