Este documento explica la minería de datos y su proceso. La minería de datos es el uso de algoritmos para extraer patrones y conocimiento de grandes cantidades de datos. El proceso de minería de datos incluye la selección, limpieza y transformación de datos, la aplicación de algoritmos de minería, la interpretación de resultados y la incorporación del conocimiento descubierto. La minería de datos se utiliza en varias aplicaciones como el comercio minorista, los deportes y la televisión para obtener conocimientos útiles a partir de grandes cantidades de
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
MD en bases de datos
1. Trabajo de Investigación
ICI344- Bases de datos.
Minería de datos.
Enzo Barbaguelatta D.
Fernando Püschel A.
Nicolas Zárate G.
2. Bases de datos
• Mundo actual muy dependiente de la
información.
• Generación de datos en masa.
• Rápidas consultas de rápida respuesta.
• Empleo de bases de datos.
3. Pero…
• Éstas consultas son superficiales.
• Principalmente no se ve mas allá de los datos
en “crudo”.
• Datos podrían aprovecharse aun mas de lo
que ya se esta aprovechando actualmente.
5. Minería de datos
(Data mining).
Muchas definiciones.
• Un mecanismo de explotación
consistente en la búsqueda de
información valiosa en grandes
volúmenes de datos.
• Análisis de bitácoras y archivos,
buscando relaciones, patrones,
reglas, las cuales pueden ser
útiles para la toma de decisiones.
• Y mas…
6. En el entorno comercial
• Una de las etapas de descubrimiento de la
extracción de conocimiento en la información.
KDD
7. Historia de la minería de datos
Extracción del conocimiento de la
información.
8. KDD
Knowledge Discovery in Databases
• Los datos son la materia prima bruta.
• En el momento que el usuario les atribuye algún
significado especial pasan a convertirse en
información.
• Cuando los especialistas elaboran o encuentran
un modelo, haciendo que la interpretación de la
información y ese modelo representen un valor
agregado, entonces nos referimos al
conocimiento.
9. KDD
Knowledge Discovery in Databases
• El proceso de KDD • Se estima que la
consiste en usar extracción de
métodos de patrones
minería de datos (minería) de los
(algoritmos) para datos ocupa solo
extraer (identificar) el 15% - 20% del
lo que se considera esfuerzo total.
como
conocimiento.
10. • Determinar las fuentes de información:
Que pueden ser útiles y dónde
conseguirlas.
• Diseñar el esquema de un almacén de
datos (Data Warehouse): Que consiga
unificar de manera operativa toda la
información recogida.
Pasos del KDD
11. Selección, limpieza y
transformación de los
datos que se van a
analizar.
Implantación del
almacén de datos. • La limpieza y pre-
procesamiento de datos
• Permitir la se logra diseñando una
visualización de estrategia adecuada
datos para discernir para manejar ruido,
cuales estudiar. valores incompletos,
secuencias de tiempo,
Pasos del KDD casos extremos (si es
necesario), etc.
12. • Seleccionar y aplicar el
método de minería de
datos apropiado: Se
selecciona lo que se desea
buscar, utilizando Búsqueda de patrones y su
algoritmos y técnicas representación en
apropiadas para ello. modelos(dependiendo del
algoritmo de minería).
Pasos del KDD
13. • Evaluación, interpretación,
transformación y representación de los
patrones extraídos.
• Interpretar los resultados y posiblemente regresar a los
pasos anteriores.
• Involucrar repetir el proceso, quizás con otros datos,
otros algoritmos, otras metas y otras estrategias.
• Requiere tener conocimiento del dominio.
• La interpretación puede beneficiarse de procesos de
visualización, y sirve también para borrar patrones
redundantes o irrelevantes.
Pasos del KDD
14. • Difusión y uso del nuevo conocimiento.
• Incorporar el conocimiento descubierto al
sistema (normalmente para mejorarlo) lo
cual puede incluir resolver conflictos
potenciales con el conocimiento existente.
Pasos del KDD
16. • Minería de datos para
el descubrimiento de
la información
• Minería de datos (MMDC).
predictiva (MDP). Uso de diversas técnicas
Emplea uso de técnicas de inteligencia artificial
estadísticas. para obtener datos.
2 tipos esenciales
17. Funcionamiento
• Emplean técnicas de diversas ciencias para
lograr su trabajo.
• Muchas veces se mezclan éstas para reforzar las
técnicas.
• Han estado en constante evolución.
18. Sub-procesos data mining
• Extracción de datos.
• Interpretación de éstos.
• Generación de nuevo conocimiento.
• La interpretación de los datos generalmente es apoyado por
herramientas y personas no profesionales en los campos.
• Todo este proceso está basado en el método científico.
19. Procesos y Técnicas
• Técnicas de Visualización: Se utiliza para
determinar calidad en los datos.
• Reglas de Asociación: Permite realizar asociaciones
entre perfiles de los clientes.
• Descripción: Análisis preliminar de los datos, para
aumentar el conocimiento posterior.
20. Extensiones de la MD
• WEB Mining: Aplicación
de las técnicas de la MD
a documentos y servicios
webs.
• Text Mining:
Examinación de las
colecciones de
documentos con el fin de
encontrar información
no contenida en ningún
documento individual.
21. Resultados
• La minería de datos añade a la situación inicial nuevo
conocimiento de calidad.
• Permite tener visión global de los datos, inclusive ocultos.
• Ayuda a una mejor toma de decisiones, y a hacer
pronósticos de tendencias.
• Todo lo anterior puede trabajarse en masas grandes de
datos, automáticamente.
• No necesariamente requiere de equipamiento
especializado.
22. Pero también…
• Altos costos, tanto infraestructura como
implementación.
• Personal especializado.
• Puesta en marcha de largo plazo. Difícil.
• No existen estandarizaciones respecto a la
minería de datos.
23. Casos de uso, presente y futuro
Minería de datos en la actualidad.
24. Aplicaciones de la MD
• FBI. Trata de buscar a
potenciales terroristas, con
antelación antes de que puedan
cometer un atentado.
• Tiendas Comerciales. Busca
conocer los hábitos de los
clientes con respecto a los
productos que compran.
• Deportes. La NBA utiliza la MD
para apoyar a su cuerpo técnico
en la toma de decisiones en las
futuras tácticas.
25. Aplicaciones de la MD
• Televisión: Se puede
estimar el rating de los
programas.
• Entrevistas de
trabajo: Se ocupa la
MD para identificar las
características de los
empleados.
• Y más…
26. Futuro de la minería de datos.
• Muy bien aprovechado en el presente.
• Tecnología aún emergente, aún falta más
investigación.
• No hay estandarización.
• Nuevas técnicas emergentes.