SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
Minería de Datos para
Principiantes
Webimar
Software Guru
23 de octubre de 2013
Por Rafael Gregorio Gamboa Hirales
ITAM
Agenda
• La Minería de Datos. Objetivo.
• Modelos, fundamentos y técnicas.
• Herramientas Comerciales para MD.
– Software libre
– Software propietario

• Caso de ejemplo de un modelo de
clasificación con aplicación comercial.
• Conclusiones
Minería de Datos para Principiantes.

2
La Minería de Datos. Objetivo.
El objetivo de la MD es el desarrollo y aplicación de
procesos de estimación de valores objetivo. Se
tienen dos situaciones:
1. Obtener la estimación del “grado de
pertenencia” de un elemento a una clase.
2. Obtener la estimación del valor de una variable
que representa una cantidad directa y
objetivamente medible.
Muy importante: La MD se basa en casos (datos) de
experiencias pasadas en los que ya sabemos el
valor de la “variable objetivo”.
Minería de Datos para Principiantes.

3
Modelos
Con estas dos situaciones en mente podemos desarrollar
modelos para:
i.
Clasificar clientes como los que están en el grupo que
responde a una promoción con cierta “probabilidad” (o que
la densidad de casos “exitosos” está arriba de cierta
densidad).
ii. Pronosticar o estimar el valor esperado de una variable del
“negocio” estando esta variable en un rango continuo de
valores.
iii. Obtener grupos de clientes de acuerdo a sus características
y/o comportamiento.
Minería de Datos para Principiantes.

4
Modelos, fundamentos y técnicas.
El fundamento teórico ad-hoc es la Estadística.
Ello nos permite elaborar pruebas de hipótesis y
validar nuestros modelos.
Sin embargo en ocasiones los negocios nos
demandan desarrollo mas rápidos de los modelos.
Por ello, en MD procedemos “partiendo” nuestro
conjunto de datos en al menos dos subconjuntos y
los utilizamos para desarrollar y “verificar”,
“probar” o “validar” nuestro modelo.
Minería de Datos para Principiantes.

5
Pre - requisitos
Los pasos que seguiremos suponen que:
1. Conocemos a la perfección las variables que
definen nuestro conjunto de datos.
2. Los datos son de “buena calidad”.
3. Se han eliminado variables “redundantes”.
4. Los dos conjuntos elegidos tienen características
similares al del conjunto original y estas
características se conservan en el conjunto al
cual se ha de aplicar el modelo.
Minería de Datos para Principiantes.

6
Proceso de elaboración del modelo
Paso 0: Partir los datos en los dos subconjuntos
mencionados. Diremos que los subconjuntos
son conjunto de entrenamiento y conjunto de
prueba.
Paso 1: “Entrenar”, - i.e. obtener los parámetros
del modelo que hacen que la V.O. se “calcule” en
términos de las variables de soporte,- uno o más
modelos con el conjunto de entrenamiento.
Minería de Datos para Principiantes.

7
Paso 2) “Validar” o probar el modelo
aplicándolo al conjunto de (datos de) prueba.
Paso 3) Si el resultado es “aceptable” ya
acabamos, en caso contrario debemos iterar
eligiendo otros “Modeladores” y/o
transformando las variables de soporte o
modificando el enfoque mismo del problema.

Minería de Datos para Principiantes.

8
¿Cómo saber si el modelo es “aceptable”?
La bondad (de ajuste) del modelo tiene que ver con el
objetivo de “negocio” a obtener. Por ejemplo, maximizar
utilidad, minimizar costo, o bien se define una función de
utilidad ad-hoc (no necesariamente monetaria).
Otra situación se plantea en el desarrollo de un modelo para
recomendar el tratamiento ( de entre cinco posibles
tratamientos) para un padecimiento. Es posible que para
ciertos casos no sea muy relevante el “entrecruzamiento” de
la decisión, i.e. si a un paciente en lugar de recomendarle el
mejor tratamiento según sus características se le recomienda
un sub-óptimo. Pero si el paciente es diabético si que puede
ser muy importante. Por ello conviene penalizar estos casos
para que el modelo se “equivoque” lo menos posible en ellos.
Minería de Datos para Principiantes.

9
Campaña de promoción de la venta de
un producto o servicio.
Se desea realizar una campaña promoviendo un
producto/servicio. Consideraremos el caso más simple:
El costo de promoción es c unidades monetarias, c > 0.
El ingreso es f unidades monetarias. Supondremos f > c.
Esto implica que en caso de “hacer hit” se tendrá una
utilidad u = f – c unidades monetarias.
En caso de “no hacer hit” se pierden c unidades
monetarias.
Digamos VO e {0,1}, 1 = “hit”, si el cliente compra.

Minería de Datos para Principiantes.

10
Densidad de umbral
Ahora consideremos el concepto de “densidad
de umbral”, que es la densidad de casos exitosos
que se requiere para que la campaña salga
“tablas”. i.e. si d* es la densidad de umbral:
d* x u – ( 1 – d* ) x c = 0; d* e [0,1].
Despejando d*:
d* = c/(u+c)

Minería de Datos para Principiantes.

11
Campaña intrínsecamente ganadora.
Modelo de Clasificación.
Bajo estas características y conceptos una campaña
será intrínsecamente ganadora si la densidad
original de casos exitosos en la muestra es mayor
que d*. (Aún en esos casos la MD puede hacer que
la utilidad sea mejor…)
Si la densidad original de casos exitosos es menor
que d* utilizamos la MD para tratar de obtener las
características de subconjuntos de casos que tienen
densidades mayores a la de umbral y poder calificar
nuevos casos con este modelo.
Minería de Datos para Principiantes.

12
Modeladores
Técnicas más populares
•
•
•
•
•
•
•

CART (Árboles de decisión)
Regresión Logística
Análisis Discriminante
Redes Neuronales
Vecinos Cercanos
Bayes Naive
Redes Bayesianas
Minería de Datos para Principiantes.

13
Resultado del modelado
El resultado del modelado es:
1. El modelo en sí, en ocasiones el código o parámetros que lo
implementan para ser ejecutado por procesos autónomos o
dependientes de la herramienta.
2. Las estadísticas del modelo y métricas de la “bondad de ajuste”,
como ROC, elevaciones o mejoras y matriz de confusión.
3. Los conjuntos de entrenamiento y prueba con sus “scores” o
“Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna
su valor de P(VO=1) y el complemento es P(VO=0).

Post procesamos estos registros y obtenemos la “Curva de Utilidad” la
cual indica la utilidad obtenida al ir procesando secuencialmente los
casos habiendo ordenado los casos de mayor a menor según el score o
“P(VO=1)”.

Minería de Datos para Principiantes.

14
Curva de utilidad
a) Ordenar descendentemente los casos del subconjunto
en cuestión (entrenamiento o prueba) de acuerdo a
“P(VO=1)”.
b) Para cada caso, si VO=1 ganamos la cantidad u, si
VO=0 perdemos la cantidad c.
c) Vamos acumulando la utilidad y pérdida desde el
“primer” caso hasta el caso del registro actual.
d) Graficamos el numero de caso en el eje horizontal y la
utilidad o pérdida acumulada en el eje vertical.
(Gráfica de dispersión para el caso general).

Minería de Datos para Principiantes.

15
Curva de Utilidad
CART
post procesado propio
Utilidad_Acum

Tree Train: Utilidades

Util_Real_acum

4000

Utilidad (Pérdida)

2000
0
-2000 0

2,000

4,000

6,000

-4000
-6000
-8000
-10000
-12000
-14000
Casos Promovidos

Minería de Datos para Principiantes.

16
Curva de utilidad
Con esta gráfica podemos determinar hasta
dónde debemos de llevar a cabo la promoción.
Debemos considerar que el corte debe hacerse
en un lugar donde podamos diferenciar el valor
del score. Esta consideración es muy importante
en el caso de los árboles donde todos los casos
que caen en el mismo nodo tienen el mismo
valor de “score” o “P(VO=1)”.
Minería de Datos para Principiantes.

17
Caso de ejemplo
Modelo de clasificación con aplicación comercial.
Consideremos el popular caso “Insurance”. Se desea realizar una
campaña de venta de un seguro y se tiene una campaña realizada con
anterioridad que se supone con las mismas características a la que se
desea llevar a cabo actualmente. Los parámetros son:
Densidad de la muestra: 2%.
Costo individual de promoción: $4
Utilidad por caso exitoso: $96
La densidad de umbral es 4%
Si se ejecuta la campaña sin realizar la preselección de los clientes se
obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2.

¡¡¡La casa pierde!!!!
¿Se puede hacer algo al respecto?
Minería de Datos para Principiantes.

18
Demo con SAS Enterprise Miner
SAS define su metodología con las siglas
“SEMMA”: Sample, Exploration, Modificaction, Modeling,
Assesment.
En castellano: Muestrear, Explorar, Modificar, Modelar y
Evaluar. “MEMEE”.
Esta herramienta permite definirle entre otras, la matriz
de costos - utilidades y decirle si la muestra está
“sobrecargada” para que “compense” la salida del
modelo, entregando la situación como será en la realidad.
La herramienta se maneja gráficamente, de una manera
muy ad-hoc para el trabajo con los modelos de MD.
Entrega los modelos en SAS, C, java y DB2.
Minería de Datos para Principiantes.

19
Flujo de proceso en SAS EM ™

Minería de Datos para Principiantes.

20
ROC

Minería de Datos para Principiantes.

21
Demo con Weka
Weka es una de las herramientas libres para MD
más populares. Está programada en java y
ofrece procesos y procedimientos para poner en
producción los modelos obtenidos.
Ofrece cuatro ambientes para trabajar con los
modelos y los datos:
Explorer, Experimenter, Knowledge Flow y
comandos “a pié” (texto).
Minería de Datos para Principiantes.

22
Flujo en Weka

Minería de Datos para Principiantes.

23
Herramientas Comerciales para MD.
• Software libre y/o gratuito:
– Weka, R, Rapid Miner, Orange, etc…

• Software propietario:
– SAS Enterprise Miner
– Modeler de SPSS
– Addendums a herramientas de BI.

Ahora se les llama “Analytics” e incorporan algunos
elementos para llevar a cabo Minería de Textos y
Herramientas para el análisis de características y
relaciones sobre redes sociales.
Minería de Datos para Principiantes.

24
Analytics
Se incorporan datos no estructurados en el
sentido de un esquema de base de datos
relacional.
Google es el pionero en la explotación de estos
elementos, aunque los grandes jugadores ya se
pusieron las pilas y ofrecen productos “llave en
mano” para algunas de las necesidades donde
hay más recursos económicos.
Minería de Datos para Principiantes.

25
Conclusiones y Tendencias
• La MD es una técnica auxiliar en muchos campos de la investigación y los
negocios.
• Requiere la conjunción de conocimientos de Computación, Estadística,
Matemáticas y del área propia de aplicación.
• Actualmente debido a varios factores (reducción de precio del bit
procesado, de los medios de almacenamiento y las telecomunicaciones)
está en “ebullición” al tener datos explotables y manera de explotarlos.
• Los desarrollos actuales se encaminan a tener los resultados de manera
temprana y oportuna, dándole ventajas a las organizaciones que se
puedan apropiar de esta forma de trabajo dentro de su estrategia de
negocio. Ej. High Performance Analytics de SAS.
• El recurso humano (capital intelectual) es de los más requeridos.
• Se destacan la formación en “Machine Learning” , “Data Science” en la
parte de avanzada, trabajando con volúmenes grandes de datos, en
ocasiones no estructurados, dispersos y con gran diversidad. A ello se le
conoce como “Big Data”.
Minería de Datos para Principiantes.

26
Muchas gracias
imagen de fondo tomada del Artículo sobre Minería de Wikipedia

Minería de Datos para Principiantes.

27

Más contenido relacionado

La actualidad más candente

Data Enrichment for Better Lead Generation
Data Enrichment for Better Lead GenerationData Enrichment for Better Lead Generation
Data Enrichment for Better Lead GenerationVbout.com
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Ana Delgado
 
Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISPÓscar Alonso
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Introduction to Data Mining
Introduction to Data Mining Introduction to Data Mining
Introduction to Data Mining Sushil Kulkarni
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Capitulo 10 libro sistemas de informacion gerencial
Capitulo 10 libro sistemas de informacion gerencialCapitulo 10 libro sistemas de informacion gerencial
Capitulo 10 libro sistemas de informacion gerencialPepe Vazquez
 
Mapa conceptual seguridad informatica
Mapa conceptual   seguridad informaticaMapa conceptual   seguridad informatica
Mapa conceptual seguridad informaticajuliovan85
 
UD. MC. T2. Modelos determinísticos para la gestión de inventarios
UD. MC. T2. Modelos determinísticos para la gestión de inventariosUD. MC. T2. Modelos determinísticos para la gestión de inventarios
UD. MC. T2. Modelos determinísticos para la gestión de inventariosAlex Rayón Jerez
 
DI&A Slides: Data Lake vs. Data Warehouse
DI&A Slides: Data Lake vs. Data WarehouseDI&A Slides: Data Lake vs. Data Warehouse
DI&A Slides: Data Lake vs. Data WarehouseDATAVERSITY
 
Data mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, ClassificationData mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, ClassificationDr. Abdul Ahad Abro
 
A brief history of "big data"
A brief history of "big data"A brief history of "big data"
A brief history of "big data"Nicola Ferraro
 
Drug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache SparkDrug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache SparkDatabricks
 

La actualidad más candente (20)

Data Enrichment for Better Lead Generation
Data Enrichment for Better Lead GenerationData Enrichment for Better Lead Generation
Data Enrichment for Better Lead Generation
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
seguridad de la informacion
seguridad de la informacionseguridad de la informacion
seguridad de la informacion
 
Introducción Business Intelligence
Introducción Business IntelligenceIntroducción Business Intelligence
Introducción Business Intelligence
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISP
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Introduction to Data Mining
Introduction to Data Mining Introduction to Data Mining
Introduction to Data Mining
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Capitulo 10 libro sistemas de informacion gerencial
Capitulo 10 libro sistemas de informacion gerencialCapitulo 10 libro sistemas de informacion gerencial
Capitulo 10 libro sistemas de informacion gerencial
 
Big Data y Redes Sociales: Ejemplos y casos de éxito
Big Data y Redes Sociales: Ejemplos y casos de éxitoBig Data y Redes Sociales: Ejemplos y casos de éxito
Big Data y Redes Sociales: Ejemplos y casos de éxito
 
Mapa conceptual seguridad informatica
Mapa conceptual   seguridad informaticaMapa conceptual   seguridad informatica
Mapa conceptual seguridad informatica
 
UD. MC. T2. Modelos determinísticos para la gestión de inventarios
UD. MC. T2. Modelos determinísticos para la gestión de inventariosUD. MC. T2. Modelos determinísticos para la gestión de inventarios
UD. MC. T2. Modelos determinísticos para la gestión de inventarios
 
DI&A Slides: Data Lake vs. Data Warehouse
DI&A Slides: Data Lake vs. Data WarehouseDI&A Slides: Data Lake vs. Data Warehouse
DI&A Slides: Data Lake vs. Data Warehouse
 
Ciberseguridad en empresas
Ciberseguridad en empresasCiberseguridad en empresas
Ciberseguridad en empresas
 
Data mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, ClassificationData mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, Classification
 
A brief history of "big data"
A brief history of "big data"A brief history of "big data"
A brief history of "big data"
 
Teoria de las Restricciones
Teoria de las RestriccionesTeoria de las Restricciones
Teoria de las Restricciones
 
Drug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache SparkDrug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache Spark
 

Destacado (16)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 

Similar a Minería de datos

Machine learning for business
Machine learning for businessMachine learning for business
Machine learning for businessFran Castillo
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerEduardo Castro
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoSoftware Guru
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...JCarlos Gonzalez Joyé
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid MinerLPI ONG
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOSergio Sanchez
 
Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Gerard Alba
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big DataICEMD
 

Similar a Minería de datos (20)

Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Machine learning for business
Machine learning for businessMachine learning for business
Machine learning for business
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining
Data MiningData Mining
Data Mining
 
Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuido
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
4.data mining
4.data mining4.data mining
4.data mining
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñO
 
Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
EMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine LearningEMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine Learning
 

Más de Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

Más de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 

Último (15)

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 

Minería de datos

  • 1. Minería de Datos para Principiantes Webimar Software Guru 23 de octubre de 2013 Por Rafael Gregorio Gamboa Hirales ITAM
  • 2. Agenda • La Minería de Datos. Objetivo. • Modelos, fundamentos y técnicas. • Herramientas Comerciales para MD. – Software libre – Software propietario • Caso de ejemplo de un modelo de clasificación con aplicación comercial. • Conclusiones Minería de Datos para Principiantes. 2
  • 3. La Minería de Datos. Objetivo. El objetivo de la MD es el desarrollo y aplicación de procesos de estimación de valores objetivo. Se tienen dos situaciones: 1. Obtener la estimación del “grado de pertenencia” de un elemento a una clase. 2. Obtener la estimación del valor de una variable que representa una cantidad directa y objetivamente medible. Muy importante: La MD se basa en casos (datos) de experiencias pasadas en los que ya sabemos el valor de la “variable objetivo”. Minería de Datos para Principiantes. 3
  • 4. Modelos Con estas dos situaciones en mente podemos desarrollar modelos para: i. Clasificar clientes como los que están en el grupo que responde a una promoción con cierta “probabilidad” (o que la densidad de casos “exitosos” está arriba de cierta densidad). ii. Pronosticar o estimar el valor esperado de una variable del “negocio” estando esta variable en un rango continuo de valores. iii. Obtener grupos de clientes de acuerdo a sus características y/o comportamiento. Minería de Datos para Principiantes. 4
  • 5. Modelos, fundamentos y técnicas. El fundamento teórico ad-hoc es la Estadística. Ello nos permite elaborar pruebas de hipótesis y validar nuestros modelos. Sin embargo en ocasiones los negocios nos demandan desarrollo mas rápidos de los modelos. Por ello, en MD procedemos “partiendo” nuestro conjunto de datos en al menos dos subconjuntos y los utilizamos para desarrollar y “verificar”, “probar” o “validar” nuestro modelo. Minería de Datos para Principiantes. 5
  • 6. Pre - requisitos Los pasos que seguiremos suponen que: 1. Conocemos a la perfección las variables que definen nuestro conjunto de datos. 2. Los datos son de “buena calidad”. 3. Se han eliminado variables “redundantes”. 4. Los dos conjuntos elegidos tienen características similares al del conjunto original y estas características se conservan en el conjunto al cual se ha de aplicar el modelo. Minería de Datos para Principiantes. 6
  • 7. Proceso de elaboración del modelo Paso 0: Partir los datos en los dos subconjuntos mencionados. Diremos que los subconjuntos son conjunto de entrenamiento y conjunto de prueba. Paso 1: “Entrenar”, - i.e. obtener los parámetros del modelo que hacen que la V.O. se “calcule” en términos de las variables de soporte,- uno o más modelos con el conjunto de entrenamiento. Minería de Datos para Principiantes. 7
  • 8. Paso 2) “Validar” o probar el modelo aplicándolo al conjunto de (datos de) prueba. Paso 3) Si el resultado es “aceptable” ya acabamos, en caso contrario debemos iterar eligiendo otros “Modeladores” y/o transformando las variables de soporte o modificando el enfoque mismo del problema. Minería de Datos para Principiantes. 8
  • 9. ¿Cómo saber si el modelo es “aceptable”? La bondad (de ajuste) del modelo tiene que ver con el objetivo de “negocio” a obtener. Por ejemplo, maximizar utilidad, minimizar costo, o bien se define una función de utilidad ad-hoc (no necesariamente monetaria). Otra situación se plantea en el desarrollo de un modelo para recomendar el tratamiento ( de entre cinco posibles tratamientos) para un padecimiento. Es posible que para ciertos casos no sea muy relevante el “entrecruzamiento” de la decisión, i.e. si a un paciente en lugar de recomendarle el mejor tratamiento según sus características se le recomienda un sub-óptimo. Pero si el paciente es diabético si que puede ser muy importante. Por ello conviene penalizar estos casos para que el modelo se “equivoque” lo menos posible en ellos. Minería de Datos para Principiantes. 9
  • 10. Campaña de promoción de la venta de un producto o servicio. Se desea realizar una campaña promoviendo un producto/servicio. Consideraremos el caso más simple: El costo de promoción es c unidades monetarias, c > 0. El ingreso es f unidades monetarias. Supondremos f > c. Esto implica que en caso de “hacer hit” se tendrá una utilidad u = f – c unidades monetarias. En caso de “no hacer hit” se pierden c unidades monetarias. Digamos VO e {0,1}, 1 = “hit”, si el cliente compra. Minería de Datos para Principiantes. 10
  • 11. Densidad de umbral Ahora consideremos el concepto de “densidad de umbral”, que es la densidad de casos exitosos que se requiere para que la campaña salga “tablas”. i.e. si d* es la densidad de umbral: d* x u – ( 1 – d* ) x c = 0; d* e [0,1]. Despejando d*: d* = c/(u+c) Minería de Datos para Principiantes. 11
  • 12. Campaña intrínsecamente ganadora. Modelo de Clasificación. Bajo estas características y conceptos una campaña será intrínsecamente ganadora si la densidad original de casos exitosos en la muestra es mayor que d*. (Aún en esos casos la MD puede hacer que la utilidad sea mejor…) Si la densidad original de casos exitosos es menor que d* utilizamos la MD para tratar de obtener las características de subconjuntos de casos que tienen densidades mayores a la de umbral y poder calificar nuevos casos con este modelo. Minería de Datos para Principiantes. 12
  • 13. Modeladores Técnicas más populares • • • • • • • CART (Árboles de decisión) Regresión Logística Análisis Discriminante Redes Neuronales Vecinos Cercanos Bayes Naive Redes Bayesianas Minería de Datos para Principiantes. 13
  • 14. Resultado del modelado El resultado del modelado es: 1. El modelo en sí, en ocasiones el código o parámetros que lo implementan para ser ejecutado por procesos autónomos o dependientes de la herramienta. 2. Las estadísticas del modelo y métricas de la “bondad de ajuste”, como ROC, elevaciones o mejoras y matriz de confusión. 3. Los conjuntos de entrenamiento y prueba con sus “scores” o “Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna su valor de P(VO=1) y el complemento es P(VO=0). Post procesamos estos registros y obtenemos la “Curva de Utilidad” la cual indica la utilidad obtenida al ir procesando secuencialmente los casos habiendo ordenado los casos de mayor a menor según el score o “P(VO=1)”. Minería de Datos para Principiantes. 14
  • 15. Curva de utilidad a) Ordenar descendentemente los casos del subconjunto en cuestión (entrenamiento o prueba) de acuerdo a “P(VO=1)”. b) Para cada caso, si VO=1 ganamos la cantidad u, si VO=0 perdemos la cantidad c. c) Vamos acumulando la utilidad y pérdida desde el “primer” caso hasta el caso del registro actual. d) Graficamos el numero de caso en el eje horizontal y la utilidad o pérdida acumulada en el eje vertical. (Gráfica de dispersión para el caso general). Minería de Datos para Principiantes. 15
  • 16. Curva de Utilidad CART post procesado propio Utilidad_Acum Tree Train: Utilidades Util_Real_acum 4000 Utilidad (Pérdida) 2000 0 -2000 0 2,000 4,000 6,000 -4000 -6000 -8000 -10000 -12000 -14000 Casos Promovidos Minería de Datos para Principiantes. 16
  • 17. Curva de utilidad Con esta gráfica podemos determinar hasta dónde debemos de llevar a cabo la promoción. Debemos considerar que el corte debe hacerse en un lugar donde podamos diferenciar el valor del score. Esta consideración es muy importante en el caso de los árboles donde todos los casos que caen en el mismo nodo tienen el mismo valor de “score” o “P(VO=1)”. Minería de Datos para Principiantes. 17
  • 18. Caso de ejemplo Modelo de clasificación con aplicación comercial. Consideremos el popular caso “Insurance”. Se desea realizar una campaña de venta de un seguro y se tiene una campaña realizada con anterioridad que se supone con las mismas características a la que se desea llevar a cabo actualmente. Los parámetros son: Densidad de la muestra: 2%. Costo individual de promoción: $4 Utilidad por caso exitoso: $96 La densidad de umbral es 4% Si se ejecuta la campaña sin realizar la preselección de los clientes se obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2. ¡¡¡La casa pierde!!!! ¿Se puede hacer algo al respecto? Minería de Datos para Principiantes. 18
  • 19. Demo con SAS Enterprise Miner SAS define su metodología con las siglas “SEMMA”: Sample, Exploration, Modificaction, Modeling, Assesment. En castellano: Muestrear, Explorar, Modificar, Modelar y Evaluar. “MEMEE”. Esta herramienta permite definirle entre otras, la matriz de costos - utilidades y decirle si la muestra está “sobrecargada” para que “compense” la salida del modelo, entregando la situación como será en la realidad. La herramienta se maneja gráficamente, de una manera muy ad-hoc para el trabajo con los modelos de MD. Entrega los modelos en SAS, C, java y DB2. Minería de Datos para Principiantes. 19
  • 20. Flujo de proceso en SAS EM ™ Minería de Datos para Principiantes. 20
  • 21. ROC Minería de Datos para Principiantes. 21
  • 22. Demo con Weka Weka es una de las herramientas libres para MD más populares. Está programada en java y ofrece procesos y procedimientos para poner en producción los modelos obtenidos. Ofrece cuatro ambientes para trabajar con los modelos y los datos: Explorer, Experimenter, Knowledge Flow y comandos “a pié” (texto). Minería de Datos para Principiantes. 22
  • 23. Flujo en Weka Minería de Datos para Principiantes. 23
  • 24. Herramientas Comerciales para MD. • Software libre y/o gratuito: – Weka, R, Rapid Miner, Orange, etc… • Software propietario: – SAS Enterprise Miner – Modeler de SPSS – Addendums a herramientas de BI. Ahora se les llama “Analytics” e incorporan algunos elementos para llevar a cabo Minería de Textos y Herramientas para el análisis de características y relaciones sobre redes sociales. Minería de Datos para Principiantes. 24
  • 25. Analytics Se incorporan datos no estructurados en el sentido de un esquema de base de datos relacional. Google es el pionero en la explotación de estos elementos, aunque los grandes jugadores ya se pusieron las pilas y ofrecen productos “llave en mano” para algunas de las necesidades donde hay más recursos económicos. Minería de Datos para Principiantes. 25
  • 26. Conclusiones y Tendencias • La MD es una técnica auxiliar en muchos campos de la investigación y los negocios. • Requiere la conjunción de conocimientos de Computación, Estadística, Matemáticas y del área propia de aplicación. • Actualmente debido a varios factores (reducción de precio del bit procesado, de los medios de almacenamiento y las telecomunicaciones) está en “ebullición” al tener datos explotables y manera de explotarlos. • Los desarrollos actuales se encaminan a tener los resultados de manera temprana y oportuna, dándole ventajas a las organizaciones que se puedan apropiar de esta forma de trabajo dentro de su estrategia de negocio. Ej. High Performance Analytics de SAS. • El recurso humano (capital intelectual) es de los más requeridos. • Se destacan la formación en “Machine Learning” , “Data Science” en la parte de avanzada, trabajando con volúmenes grandes de datos, en ocasiones no estructurados, dispersos y con gran diversidad. A ello se le conoce como “Big Data”. Minería de Datos para Principiantes. 26
  • 27. Muchas gracias imagen de fondo tomada del Artículo sobre Minería de Wikipedia Minería de Datos para Principiantes. 27