2. MINERIA DE DATOS
“Torturar a los datos hasta que confiesen”
Junior Villafuerte Beita
Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
3. Protocolos
Introducción
Universidad Latina de Costa Rica
Definición
Técnicas y Algoritmos
Conclusión
Procesos
Software
Principales Usos
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Contenido
4. Universidad Latina de Costa Rica
INTRODUCCIÓN
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Introducción al DM
5. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Introducción al DM
Era de la Información (Tecnologías de la Información y la Comunicación)
Información = Poder & Éxito
Ordenadores + Medios de Almacenamiento Masivo
Enormes Cantidades de Información
Enormes Colecciones de Información = Nuevas necesidades
“Data Mining” – Minería de Datos
Explorar y Analizar grandes volúmenes de Información
Encontrar correlaciones significativas (Tendencias & Comportamientos)
6. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Introducción al DM
¿Qué es la Minería de Datos?
• Deducir conocimiento examinando los datos y realizando
predicciones.
• En otras palabras, la minería de datos prepara, sondea y
explora los datos para sacar la información oculta en ellos.
• Deducimos conocimiento en: Patrones, Clusters, Reglas, Árboles
de Decisión, Redes Neuronales, Reglas de Asociación,….
7. Universidad Latina de Costa Rica
DEFINICIÓN DEL DM
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Definición del DM
8. ² ² ² ² ²² ²
Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Definición del DM
Proceso de exploración y análisis de grandes volúmenes de datos para
hacerlos mas comprensibles, predecir tendencias y comportamientos.
Conjunto de técnicas y herramientas usadas para encontrar y
entender relaciones en grandes cantidades de datos y presentarlas en
una forma útil y ventajosa.
“Encontrar pepitas de oro o diamantes en una mina de carbón”
Principios:
1. La estadística clásica
2. La inteligencia artificial (AI)
3. La Maquina de aprendizaje
Data Mining – Minería de Datos
90’s – Gregory Platetsky-Shapiro
Knowledge Discovery in Databases
Data Fishing
Data Dredging
Data Archaelogy
Información Discovery
9. Universidad Latina de Costa Rica
PROCESOS PARA APLICAR DM
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Procesos para aplicar el DM
10. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Procesos para aplicar el DM
Selección del conjunto de datos
Análisis de los datos
Transformación del conjunto de datos de entrada
Seleccionar y aplicar la técnica de minería de datos
Extracción de conocimiento
Interpretación y evaluación de datos
11. Universidad Latina de Costa Rica
Protocolo de un Proyecto de
DM
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Procesos para aplicar el DM
12. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Procesos para aplicar el DM
Comprensión: del negocio y del problema que se quiere resolver.
Determinación, obtención y limpieza: de los datos necesarios.
Creación de modelos matemáticos.
Validación, comunicación: de los resultados obtenidos.
Integración: si procede, de los resultados en un sistema transaccional o
similar.
13. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Procesos para aplicar el DM
Formulación del Problema de Negocio
Recolección de Datos
Limpieza y Transformación de Datos
Transformación numérica
Agrupación
Agregación
Manejo de valores «perdidos»
Eliminar los «extremos»
Creación del Modelo
Selección del Algoritmo
Prueba y Error en muchos casos
14. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Procesos para aplicar el DM
Evaluación del Modelo
Evaluar la fiabilidad del modelo
dentro de nuestro negocio
Reporting y Predicción
Integración en Aplicaciones
Gestión del Modelo
Dependiendo del escenario puede
ser muy volátil
Planificar «Entrenamiento»
15. Universidad Latina de Costa Rica
Técnicas de la Minería de Datos
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Técnicas y Algoritmos de DM
16. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Técnicas y Algoritmos de DM
Redes Neuronales
o Procesamiento automático inspirado en la forma en que funciona
el sistema nervioso; Se trata de un sistema de interconexión
de neuronas en una red que colabora para producir un estímulo de
salida como la percepción.
Regresión Lineal
o Es la más utilizada para formar relaciones entre datos. Rápida y
eficaz pero insuficiente en espacios multidimensionales donde
puedan relacionarse más de 2 variables.
Modelos Estadisticos
o Una ecuación que se emplea en todos los diseños experimentales y
en la regresión para indicar los diferentes factores que modifican la
variable de respuesta.
17. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Técnicas y Algoritmos de DM
Árboles de Decisión
o Un árbol de decisión es un modelo de predicción utilizado en el
ámbito de la inteligencia artificial
Agrupamiento o Clustering
o Es un procedimiento de agrupación de una serie de vectores según
criterios habitualmente de distancia; se tratará de disponer los
vectores de entrada de forma que estén más cercanos aquellos que
tengan características comunes.
Reglas de Asociación
o Se utilizan para descubrir hechos que ocurren en común dentro de
un determinado conjunto de datos.
18. Universidad Latina de Costa Rica
Algoritmos de la Minería de
Datos
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Técnicas y Algoritmos de DM
19. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Técnicas y Algoritmos de DM
IA y Estadística
Como ya se ha comentado, las técnicas de la minería de datos
provienen de la inteligencia artificial y de la estadística, dichas
técnicas, no son más que algoritmos, más o menos sofisticados que
se aplican sobre un conjunto de datos para obtener unos resultados.
20. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Técnicas y Algoritmos de DM
De Forecasting.
Dada una tendencia ¿Cuál es la previsión?
Supervisados.
Conocemos la respuesta ¿Qué está correlacionado?
No Supervisados.
Desconocemos la respuesta ¿Cuáles son los grupos?
21. Universidad Latina de Costa Rica
Principales Usos de DM
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Principales Usos de DM
22. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Principales Usos de DM
Negocios y Comercio
Empleo
Fraudes y Terrorismo
Elecciones
Medicina
Ciencia e Ingeniería
Comportamiento de Internet
Genética
Juegos
23. Universidad Latina de Costa Rica
Software para aplicar DM
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Software para aplicar DM
24. Universidad Latina de Costa Rica
Ofrecen Soporte y Facilitan la toma de decisiones.
Comerciales y Libres
Desarrollo de Modelos de Minería de Datos
Uso del Estándar:
PMML (Predictive Model Markup Language)
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Software para aplicar DM
25. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Software para aplicar DM
26. Universidad Latina de Costa Rica
Ejemplo
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Ejemplo
27. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Ejemplo
El ejemplo clásico de aplicación de la minería de datos tiene
que ver con la detección de hábitos de compra en
supermercados. Un estudio muy citado detectó que los viernes
había una cantidad inusualmente elevada de clientes que
adquirían a la vez pañales y cerveza. Se detectó que se debía
a que dicho día solían acudir al supermercado padres jóvenes
cuya perspectiva para el fin de semana consistía en quedarse
en casa cuidando de su hijo y viendo la televisión con una
cerveza en la mano. El supermercado pudo incrementar sus
ventas de cerveza colocándolas próximas a los pañales para
fomentar las ventas compulsivas.
28. Universidad Latina de Costa Rica
Conclusión
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Conclusión
29. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Conclusión
Una visión a grande escala de los patrones que la información
oculta.
Permite tomar decisiones asertivas a problemas, o para formular
estrategias de mejora.
Data Mining y modelos en constante evolución.
Los patrones pueden cambiar.
30. Universidad Latina de Costa Rica
Ingeniería de Sistemas Informáticos
Base de Datos II
Data Mining
Gracias
“Torturar a los datos hasta que confiesen”