SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
Minería de Datos para
Principiantes
Webimar
Software Guru
23 de octubre de 2013
Por Rafael Gregorio Gamboa Hirales
ITAM
Agenda
• La Minería de Datos. Objetivo.
• Modelos, fundamentos y técnicas.
• Herramientas Comerciales para MD.
– Software libre
– Software propietario

• Caso de ejemplo de un modelo de
clasificación con aplicación comercial.
• Conclusiones
Minería de Datos para Principiantes.

2
La Minería de Datos. Objetivo.
El objetivo de la MD es el desarrollo y aplicación de
procesos de estimación de valores objetivo. Se
tienen dos situaciones:
1. Obtener la estimación del “grado de
pertenencia” de un elemento a una clase.
2. Obtener la estimación del valor de una variable
que representa una cantidad directa y
objetivamente medible.
Muy importante: La MD se basa en casos (datos) de
experiencias pasadas en los que ya sabemos el
valor de la “variable objetivo”.
Minería de Datos para Principiantes.

3
Modelos
Con estas dos situaciones en mente podemos desarrollar
modelos para:
i.
Clasificar clientes como los que están en el grupo que
responde a una promoción con cierta “probabilidad” (o que
la densidad de casos “exitosos” está arriba de cierta
densidad).
ii. Pronosticar o estimar el valor esperado de una variable del
“negocio” estando esta variable en un rango continuo de
valores.
iii. Obtener grupos de clientes de acuerdo a sus características
y/o comportamiento.
Minería de Datos para Principiantes.

4
Modelos, fundamentos y técnicas.
El fundamento teórico ad-hoc es la Estadística.
Ello nos permite elaborar pruebas de hipótesis y
validar nuestros modelos.
Sin embargo en ocasiones los negocios nos
demandan desarrollo mas rápidos de los modelos.
Por ello, en MD procedemos “partiendo” nuestro
conjunto de datos en al menos dos subconjuntos y
los utilizamos para desarrollar y “verificar”,
“probar” o “validar” nuestro modelo.
Minería de Datos para Principiantes.

5
Pre - requisitos
Los pasos que seguiremos suponen que:
1. Conocemos a la perfección las variables que
definen nuestro conjunto de datos.
2. Los datos son de “buena calidad”.
3. Se han eliminado variables “redundantes”.
4. Los dos conjuntos elegidos tienen características
similares al del conjunto original y estas
características se conservan en el conjunto al
cual se ha de aplicar el modelo.
Minería de Datos para Principiantes.

6
Proceso de elaboración del modelo
Paso 0: Partir los datos en los dos subconjuntos
mencionados. Diremos que los subconjuntos
son conjunto de entrenamiento y conjunto de
prueba.
Paso 1: “Entrenar”, - i.e. obtener los parámetros
del modelo que hacen que la V.O. se “calcule” en
términos de las variables de soporte,- uno o más
modelos con el conjunto de entrenamiento.
Minería de Datos para Principiantes.

7
Paso 2) “Validar” o probar el modelo
aplicándolo al conjunto de (datos de) prueba.
Paso 3) Si el resultado es “aceptable” ya
acabamos, en caso contrario debemos iterar
eligiendo otros “Modeladores” y/o
transformando las variables de soporte o
modificando el enfoque mismo del problema.

Minería de Datos para Principiantes.

8
¿Cómo saber si el modelo es “aceptable”?
La bondad (de ajuste) del modelo tiene que ver con el
objetivo de “negocio” a obtener. Por ejemplo, maximizar
utilidad, minimizar costo, o bien se define una función de
utilidad ad-hoc (no necesariamente monetaria).
Otra situación se plantea en el desarrollo de un modelo para
recomendar el tratamiento ( de entre cinco posibles
tratamientos) para un padecimiento. Es posible que para
ciertos casos no sea muy relevante el “entrecruzamiento” de
la decisión, i.e. si a un paciente en lugar de recomendarle el
mejor tratamiento según sus características se le recomienda
un sub-óptimo. Pero si el paciente es diabético si que puede
ser muy importante. Por ello conviene penalizar estos casos
para que el modelo se “equivoque” lo menos posible en ellos.
Minería de Datos para Principiantes.

9
Campaña de promoción de la venta de
un producto o servicio.
Se desea realizar una campaña promoviendo un
producto/servicio. Consideraremos el caso más simple:
El costo de promoción es c unidades monetarias, c > 0.
El ingreso es f unidades monetarias. Supondremos f > c.
Esto implica que en caso de “hacer hit” se tendrá una
utilidad u = f – c unidades monetarias.
En caso de “no hacer hit” se pierden c unidades
monetarias.
Digamos VO e {0,1}, 1 = “hit”, si el cliente compra.

Minería de Datos para Principiantes.

10
Densidad de umbral
Ahora consideremos el concepto de “densidad
de umbral”, que es la densidad de casos exitosos
que se requiere para que la campaña salga
“tablas”. i.e. si d* es la densidad de umbral:
d* x u – ( 1 – d* ) x c = 0; d* e [0,1].
Despejando d*:
d* = c/(u+c)

Minería de Datos para Principiantes.

11
Campaña intrínsecamente ganadora.
Modelo de Clasificación.
Bajo estas características y conceptos una campaña
será intrínsecamente ganadora si la densidad
original de casos exitosos en la muestra es mayor
que d*. (Aún en esos casos la MD puede hacer que
la utilidad sea mejor…)
Si la densidad original de casos exitosos es menor
que d* utilizamos la MD para tratar de obtener las
características de subconjuntos de casos que tienen
densidades mayores a la de umbral y poder calificar
nuevos casos con este modelo.
Minería de Datos para Principiantes.

12
Modeladores
Técnicas más populares
•
•
•
•
•
•
•

CART (Árboles de decisión)
Regresión Logística
Análisis Discriminante
Redes Neuronales
Vecinos Cercanos
Bayes Naive
Redes Bayesianas
Minería de Datos para Principiantes.

13
Resultado del modelado
El resultado del modelado es:
1. El modelo en sí, en ocasiones el código o parámetros que lo
implementan para ser ejecutado por procesos autónomos o
dependientes de la herramienta.
2. Las estadísticas del modelo y métricas de la “bondad de ajuste”,
como ROC, elevaciones o mejoras y matriz de confusión.
3. Los conjuntos de entrenamiento y prueba con sus “scores” o
“Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna
su valor de P(VO=1) y el complemento es P(VO=0).

Post procesamos estos registros y obtenemos la “Curva de Utilidad” la
cual indica la utilidad obtenida al ir procesando secuencialmente los
casos habiendo ordenado los casos de mayor a menor según el score o
“P(VO=1)”.

Minería de Datos para Principiantes.

14
Curva de utilidad
a) Ordenar descendentemente los casos del subconjunto
en cuestión (entrenamiento o prueba) de acuerdo a
“P(VO=1)”.
b) Para cada caso, si VO=1 ganamos la cantidad u, si
VO=0 perdemos la cantidad c.
c) Vamos acumulando la utilidad y pérdida desde el
“primer” caso hasta el caso del registro actual.
d) Graficamos el numero de caso en el eje horizontal y la
utilidad o pérdida acumulada en el eje vertical.
(Gráfica de dispersión para el caso general).

Minería de Datos para Principiantes.

15
Curva de Utilidad
CART
post procesado propio
Utilidad_Acum

Tree Train: Utilidades

Util_Real_acum

4000

Utilidad (Pérdida)

2000
0
-2000 0

2,000

4,000

6,000

-4000
-6000
-8000
-10000
-12000
-14000
Casos Promovidos

Minería de Datos para Principiantes.

16
Curva de utilidad
Con esta gráfica podemos determinar hasta
dónde debemos de llevar a cabo la promoción.
Debemos considerar que el corte debe hacerse
en un lugar donde podamos diferenciar el valor
del score. Esta consideración es muy importante
en el caso de los árboles donde todos los casos
que caen en el mismo nodo tienen el mismo
valor de “score” o “P(VO=1)”.
Minería de Datos para Principiantes.

17
Caso de ejemplo
Modelo de clasificación con aplicación comercial.
Consideremos el popular caso “Insurance”. Se desea realizar una
campaña de venta de un seguro y se tiene una campaña realizada con
anterioridad que se supone con las mismas características a la que se
desea llevar a cabo actualmente. Los parámetros son:
Densidad de la muestra: 2%.
Costo individual de promoción: $4
Utilidad por caso exitoso: $96
La densidad de umbral es 4%
Si se ejecuta la campaña sin realizar la preselección de los clientes se
obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2.

¡¡¡La casa pierde!!!!
¿Se puede hacer algo al respecto?
Minería de Datos para Principiantes.

18
Demo con SAS Enterprise Miner
SAS define su metodología con las siglas
“SEMMA”: Sample, Exploration, Modificaction, Modeling,
Assesment.
En castellano: Muestrear, Explorar, Modificar, Modelar y
Evaluar. “MEMEE”.
Esta herramienta permite definirle entre otras, la matriz
de costos - utilidades y decirle si la muestra está
“sobrecargada” para que “compense” la salida del
modelo, entregando la situación como será en la realidad.
La herramienta se maneja gráficamente, de una manera
muy ad-hoc para el trabajo con los modelos de MD.
Entrega los modelos en SAS, C, java y DB2.
Minería de Datos para Principiantes.

19
Flujo de proceso en SAS EM ™

Minería de Datos para Principiantes.

20
ROC

Minería de Datos para Principiantes.

21
Demo con Weka
Weka es una de las herramientas libres para MD
más populares. Está programada en java y
ofrece procesos y procedimientos para poner en
producción los modelos obtenidos.
Ofrece cuatro ambientes para trabajar con los
modelos y los datos:
Explorer, Experimenter, Knowledge Flow y
comandos “a pié” (texto).
Minería de Datos para Principiantes.

22
Flujo en Weka

Minería de Datos para Principiantes.

23
Herramientas Comerciales para MD.
• Software libre y/o gratuito:
– Weka, R, Rapid Miner, Orange, etc…

• Software propietario:
– SAS Enterprise Miner
– Modeler de SPSS
– Addendums a herramientas de BI.

Ahora se les llama “Analytics” e incorporan algunos
elementos para llevar a cabo Minería de Textos y
Herramientas para el análisis de características y
relaciones sobre redes sociales.
Minería de Datos para Principiantes.

24
Analytics
Se incorporan datos no estructurados en el
sentido de un esquema de base de datos
relacional.
Google es el pionero en la explotación de estos
elementos, aunque los grandes jugadores ya se
pusieron las pilas y ofrecen productos “llave en
mano” para algunas de las necesidades donde
hay más recursos económicos.
Minería de Datos para Principiantes.

25
Conclusiones y Tendencias
• La MD es una técnica auxiliar en muchos campos de la investigación y los
negocios.
• Requiere la conjunción de conocimientos de Computación, Estadística,
Matemáticas y del área propia de aplicación.
• Actualmente debido a varios factores (reducción de precio del bit
procesado, de los medios de almacenamiento y las telecomunicaciones)
está en “ebullición” al tener datos explotables y manera de explotarlos.
• Los desarrollos actuales se encaminan a tener los resultados de manera
temprana y oportuna, dándole ventajas a las organizaciones que se
puedan apropiar de esta forma de trabajo dentro de su estrategia de
negocio. Ej. High Performance Analytics de SAS.
• El recurso humano (capital intelectual) es de los más requeridos.
• Se destacan la formación en “Machine Learning” , “Data Science” en la
parte de avanzada, trabajando con volúmenes grandes de datos, en
ocasiones no estructurados, dispersos y con gran diversidad. A ello se le
conoce como “Big Data”.
Minería de Datos para Principiantes.

26
Muchas gracias
imagen de fondo tomada del Artículo sobre Minería de Wikipedia

Minería de Datos para Principiantes.

27

Más contenido relacionado

La actualidad más candente

Diseño de Sistemas
Diseño de SistemasDiseño de Sistemas
Diseño de Sistemas
JUANESTEFA
 
Uml lenguaje unificado de modelado
Uml lenguaje unificado de modeladoUml lenguaje unificado de modelado
Uml lenguaje unificado de modelado
Marvin Zumbado
 
Modelo de casos de uso 2ª versión
Modelo de casos de uso 2ª versiónModelo de casos de uso 2ª versión
Modelo de casos de uso 2ª versión
Jose Torres Gonzales
 

La actualidad más candente (20)

Busquedas Heuristicas vs Busquedas Ciegas
Busquedas Heuristicas vs Busquedas CiegasBusquedas Heuristicas vs Busquedas Ciegas
Busquedas Heuristicas vs Busquedas Ciegas
 
Grupo 1 diagramas-consorcio-juridico
Grupo 1 diagramas-consorcio-juridicoGrupo 1 diagramas-consorcio-juridico
Grupo 1 diagramas-consorcio-juridico
 
Scrum vs RUP
Scrum vs RUPScrum vs RUP
Scrum vs RUP
 
Planeacion
PlaneacionPlaneacion
Planeacion
 
Diseño de Sistemas
Diseño de SistemasDiseño de Sistemas
Diseño de Sistemas
 
Casos de uso
Casos de usoCasos de uso
Casos de uso
 
TARSecurity : Análisis de Impacto al Negocio (BIA)
TARSecurity : Análisis de Impacto al Negocio (BIA) TARSecurity : Análisis de Impacto al Negocio (BIA)
TARSecurity : Análisis de Impacto al Negocio (BIA)
 
Uml lenguaje unificado de modelado
Uml lenguaje unificado de modeladoUml lenguaje unificado de modelado
Uml lenguaje unificado de modelado
 
Miv enfoques de investigación
Miv enfoques de investigaciónMiv enfoques de investigación
Miv enfoques de investigación
 
Modelo de desarrollo de software
Modelo de desarrollo de softwareModelo de desarrollo de software
Modelo de desarrollo de software
 
Modelamiento predictivo en Analítica Predictiva
Modelamiento predictivo en Analítica PredictivaModelamiento predictivo en Analítica Predictiva
Modelamiento predictivo en Analítica Predictiva
 
Técnicas de representación del conocimiento
Técnicas de representación del conocimientoTécnicas de representación del conocimiento
Técnicas de representación del conocimiento
 
Metodología Elicitacion de Requisitos
Metodología Elicitacion de RequisitosMetodología Elicitacion de Requisitos
Metodología Elicitacion de Requisitos
 
Modelo de casos de uso 2ª versión
Modelo de casos de uso 2ª versiónModelo de casos de uso 2ª versión
Modelo de casos de uso 2ª versión
 
Investigacion de operaciones
Investigacion de operaciones Investigacion de operaciones
Investigacion de operaciones
 
Requisitos
RequisitosRequisitos
Requisitos
 
Proyecto final de Curso de Seguridad Informatica
Proyecto final de Curso de Seguridad InformaticaProyecto final de Curso de Seguridad Informatica
Proyecto final de Curso de Seguridad Informatica
 
Ingeniería de software II- Parte 3.2
Ingeniería de software II- Parte 3.2Ingeniería de software II- Parte 3.2
Ingeniería de software II- Parte 3.2
 
Sistemas expertos y sus aplicaciones
Sistemas expertos y sus aplicacionesSistemas expertos y sus aplicaciones
Sistemas expertos y sus aplicaciones
 
norma iso 17799
norma iso 17799norma iso 17799
norma iso 17799
 

Destacado

Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
María Muñoz Parra
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
Talent Innovations
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
edmaga
 

Destacado (19)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 

Similar a Minería de datos

Data Mining
Data MiningData Mining
Data Mining
brobelo
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
Snoop Consulting
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñO
Sergio Sanchez
 

Similar a Minería de datos (20)

Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Machine learning for business
Machine learning for businessMachine learning for business
Machine learning for business
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining
Data MiningData Mining
Data Mining
 
Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuido
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
4.data mining
4.data mining4.data mining
4.data mining
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñO
 
Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 

Más de Software Guru

Más de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (11)

Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 

Minería de datos

  • 1. Minería de Datos para Principiantes Webimar Software Guru 23 de octubre de 2013 Por Rafael Gregorio Gamboa Hirales ITAM
  • 2. Agenda • La Minería de Datos. Objetivo. • Modelos, fundamentos y técnicas. • Herramientas Comerciales para MD. – Software libre – Software propietario • Caso de ejemplo de un modelo de clasificación con aplicación comercial. • Conclusiones Minería de Datos para Principiantes. 2
  • 3. La Minería de Datos. Objetivo. El objetivo de la MD es el desarrollo y aplicación de procesos de estimación de valores objetivo. Se tienen dos situaciones: 1. Obtener la estimación del “grado de pertenencia” de un elemento a una clase. 2. Obtener la estimación del valor de una variable que representa una cantidad directa y objetivamente medible. Muy importante: La MD se basa en casos (datos) de experiencias pasadas en los que ya sabemos el valor de la “variable objetivo”. Minería de Datos para Principiantes. 3
  • 4. Modelos Con estas dos situaciones en mente podemos desarrollar modelos para: i. Clasificar clientes como los que están en el grupo que responde a una promoción con cierta “probabilidad” (o que la densidad de casos “exitosos” está arriba de cierta densidad). ii. Pronosticar o estimar el valor esperado de una variable del “negocio” estando esta variable en un rango continuo de valores. iii. Obtener grupos de clientes de acuerdo a sus características y/o comportamiento. Minería de Datos para Principiantes. 4
  • 5. Modelos, fundamentos y técnicas. El fundamento teórico ad-hoc es la Estadística. Ello nos permite elaborar pruebas de hipótesis y validar nuestros modelos. Sin embargo en ocasiones los negocios nos demandan desarrollo mas rápidos de los modelos. Por ello, en MD procedemos “partiendo” nuestro conjunto de datos en al menos dos subconjuntos y los utilizamos para desarrollar y “verificar”, “probar” o “validar” nuestro modelo. Minería de Datos para Principiantes. 5
  • 6. Pre - requisitos Los pasos que seguiremos suponen que: 1. Conocemos a la perfección las variables que definen nuestro conjunto de datos. 2. Los datos son de “buena calidad”. 3. Se han eliminado variables “redundantes”. 4. Los dos conjuntos elegidos tienen características similares al del conjunto original y estas características se conservan en el conjunto al cual se ha de aplicar el modelo. Minería de Datos para Principiantes. 6
  • 7. Proceso de elaboración del modelo Paso 0: Partir los datos en los dos subconjuntos mencionados. Diremos que los subconjuntos son conjunto de entrenamiento y conjunto de prueba. Paso 1: “Entrenar”, - i.e. obtener los parámetros del modelo que hacen que la V.O. se “calcule” en términos de las variables de soporte,- uno o más modelos con el conjunto de entrenamiento. Minería de Datos para Principiantes. 7
  • 8. Paso 2) “Validar” o probar el modelo aplicándolo al conjunto de (datos de) prueba. Paso 3) Si el resultado es “aceptable” ya acabamos, en caso contrario debemos iterar eligiendo otros “Modeladores” y/o transformando las variables de soporte o modificando el enfoque mismo del problema. Minería de Datos para Principiantes. 8
  • 9. ¿Cómo saber si el modelo es “aceptable”? La bondad (de ajuste) del modelo tiene que ver con el objetivo de “negocio” a obtener. Por ejemplo, maximizar utilidad, minimizar costo, o bien se define una función de utilidad ad-hoc (no necesariamente monetaria). Otra situación se plantea en el desarrollo de un modelo para recomendar el tratamiento ( de entre cinco posibles tratamientos) para un padecimiento. Es posible que para ciertos casos no sea muy relevante el “entrecruzamiento” de la decisión, i.e. si a un paciente en lugar de recomendarle el mejor tratamiento según sus características se le recomienda un sub-óptimo. Pero si el paciente es diabético si que puede ser muy importante. Por ello conviene penalizar estos casos para que el modelo se “equivoque” lo menos posible en ellos. Minería de Datos para Principiantes. 9
  • 10. Campaña de promoción de la venta de un producto o servicio. Se desea realizar una campaña promoviendo un producto/servicio. Consideraremos el caso más simple: El costo de promoción es c unidades monetarias, c > 0. El ingreso es f unidades monetarias. Supondremos f > c. Esto implica que en caso de “hacer hit” se tendrá una utilidad u = f – c unidades monetarias. En caso de “no hacer hit” se pierden c unidades monetarias. Digamos VO e {0,1}, 1 = “hit”, si el cliente compra. Minería de Datos para Principiantes. 10
  • 11. Densidad de umbral Ahora consideremos el concepto de “densidad de umbral”, que es la densidad de casos exitosos que se requiere para que la campaña salga “tablas”. i.e. si d* es la densidad de umbral: d* x u – ( 1 – d* ) x c = 0; d* e [0,1]. Despejando d*: d* = c/(u+c) Minería de Datos para Principiantes. 11
  • 12. Campaña intrínsecamente ganadora. Modelo de Clasificación. Bajo estas características y conceptos una campaña será intrínsecamente ganadora si la densidad original de casos exitosos en la muestra es mayor que d*. (Aún en esos casos la MD puede hacer que la utilidad sea mejor…) Si la densidad original de casos exitosos es menor que d* utilizamos la MD para tratar de obtener las características de subconjuntos de casos que tienen densidades mayores a la de umbral y poder calificar nuevos casos con este modelo. Minería de Datos para Principiantes. 12
  • 13. Modeladores Técnicas más populares • • • • • • • CART (Árboles de decisión) Regresión Logística Análisis Discriminante Redes Neuronales Vecinos Cercanos Bayes Naive Redes Bayesianas Minería de Datos para Principiantes. 13
  • 14. Resultado del modelado El resultado del modelado es: 1. El modelo en sí, en ocasiones el código o parámetros que lo implementan para ser ejecutado por procesos autónomos o dependientes de la herramienta. 2. Las estadísticas del modelo y métricas de la “bondad de ajuste”, como ROC, elevaciones o mejoras y matriz de confusión. 3. Los conjuntos de entrenamiento y prueba con sus “scores” o “Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna su valor de P(VO=1) y el complemento es P(VO=0). Post procesamos estos registros y obtenemos la “Curva de Utilidad” la cual indica la utilidad obtenida al ir procesando secuencialmente los casos habiendo ordenado los casos de mayor a menor según el score o “P(VO=1)”. Minería de Datos para Principiantes. 14
  • 15. Curva de utilidad a) Ordenar descendentemente los casos del subconjunto en cuestión (entrenamiento o prueba) de acuerdo a “P(VO=1)”. b) Para cada caso, si VO=1 ganamos la cantidad u, si VO=0 perdemos la cantidad c. c) Vamos acumulando la utilidad y pérdida desde el “primer” caso hasta el caso del registro actual. d) Graficamos el numero de caso en el eje horizontal y la utilidad o pérdida acumulada en el eje vertical. (Gráfica de dispersión para el caso general). Minería de Datos para Principiantes. 15
  • 16. Curva de Utilidad CART post procesado propio Utilidad_Acum Tree Train: Utilidades Util_Real_acum 4000 Utilidad (Pérdida) 2000 0 -2000 0 2,000 4,000 6,000 -4000 -6000 -8000 -10000 -12000 -14000 Casos Promovidos Minería de Datos para Principiantes. 16
  • 17. Curva de utilidad Con esta gráfica podemos determinar hasta dónde debemos de llevar a cabo la promoción. Debemos considerar que el corte debe hacerse en un lugar donde podamos diferenciar el valor del score. Esta consideración es muy importante en el caso de los árboles donde todos los casos que caen en el mismo nodo tienen el mismo valor de “score” o “P(VO=1)”. Minería de Datos para Principiantes. 17
  • 18. Caso de ejemplo Modelo de clasificación con aplicación comercial. Consideremos el popular caso “Insurance”. Se desea realizar una campaña de venta de un seguro y se tiene una campaña realizada con anterioridad que se supone con las mismas características a la que se desea llevar a cabo actualmente. Los parámetros son: Densidad de la muestra: 2%. Costo individual de promoción: $4 Utilidad por caso exitoso: $96 La densidad de umbral es 4% Si se ejecuta la campaña sin realizar la preselección de los clientes se obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2. ¡¡¡La casa pierde!!!! ¿Se puede hacer algo al respecto? Minería de Datos para Principiantes. 18
  • 19. Demo con SAS Enterprise Miner SAS define su metodología con las siglas “SEMMA”: Sample, Exploration, Modificaction, Modeling, Assesment. En castellano: Muestrear, Explorar, Modificar, Modelar y Evaluar. “MEMEE”. Esta herramienta permite definirle entre otras, la matriz de costos - utilidades y decirle si la muestra está “sobrecargada” para que “compense” la salida del modelo, entregando la situación como será en la realidad. La herramienta se maneja gráficamente, de una manera muy ad-hoc para el trabajo con los modelos de MD. Entrega los modelos en SAS, C, java y DB2. Minería de Datos para Principiantes. 19
  • 20. Flujo de proceso en SAS EM ™ Minería de Datos para Principiantes. 20
  • 21. ROC Minería de Datos para Principiantes. 21
  • 22. Demo con Weka Weka es una de las herramientas libres para MD más populares. Está programada en java y ofrece procesos y procedimientos para poner en producción los modelos obtenidos. Ofrece cuatro ambientes para trabajar con los modelos y los datos: Explorer, Experimenter, Knowledge Flow y comandos “a pié” (texto). Minería de Datos para Principiantes. 22
  • 23. Flujo en Weka Minería de Datos para Principiantes. 23
  • 24. Herramientas Comerciales para MD. • Software libre y/o gratuito: – Weka, R, Rapid Miner, Orange, etc… • Software propietario: – SAS Enterprise Miner – Modeler de SPSS – Addendums a herramientas de BI. Ahora se les llama “Analytics” e incorporan algunos elementos para llevar a cabo Minería de Textos y Herramientas para el análisis de características y relaciones sobre redes sociales. Minería de Datos para Principiantes. 24
  • 25. Analytics Se incorporan datos no estructurados en el sentido de un esquema de base de datos relacional. Google es el pionero en la explotación de estos elementos, aunque los grandes jugadores ya se pusieron las pilas y ofrecen productos “llave en mano” para algunas de las necesidades donde hay más recursos económicos. Minería de Datos para Principiantes. 25
  • 26. Conclusiones y Tendencias • La MD es una técnica auxiliar en muchos campos de la investigación y los negocios. • Requiere la conjunción de conocimientos de Computación, Estadística, Matemáticas y del área propia de aplicación. • Actualmente debido a varios factores (reducción de precio del bit procesado, de los medios de almacenamiento y las telecomunicaciones) está en “ebullición” al tener datos explotables y manera de explotarlos. • Los desarrollos actuales se encaminan a tener los resultados de manera temprana y oportuna, dándole ventajas a las organizaciones que se puedan apropiar de esta forma de trabajo dentro de su estrategia de negocio. Ej. High Performance Analytics de SAS. • El recurso humano (capital intelectual) es de los más requeridos. • Se destacan la formación en “Machine Learning” , “Data Science” en la parte de avanzada, trabajando con volúmenes grandes de datos, en ocasiones no estructurados, dispersos y con gran diversidad. A ello se le conoce como “Big Data”. Minería de Datos para Principiantes. 26
  • 27. Muchas gracias imagen de fondo tomada del Artículo sobre Minería de Wikipedia Minería de Datos para Principiantes. 27