1. Temas de investigación
Técnicaseficientesde mineríade datos
Escalabilidad
Técnicas incrementales
Algoritmos paralelos
Incorporaciónde conocimientoprevio
Evaluaciónde resultados(interés)
Interacciónconel usuario
Técnicasinteractivas (a distintos nivelesde
abstracción)
Técnicasde presentaciónyvisualizaciónde
resultados
Análisisde “nuevos”tiposde datos
Estructuras complejas (grafos, redes sociales)
Bases de datos heterogéneas…
Bibliografía: Libros de texto
Jiawei Han & Micheline Kamber:
“Data Mining: Concepts and Techniques”
Morgan Kaufmann, 2006, ISBN 1558609016
Pang-Ning Tan, Michael Steinbach & Vipin Kumar:
“Introduction to Data Mining”
Addison-Wesley, 2006, ISBN 0321321367
REVISTAS
• ACM Transactions on KDD
• IEEE Transactions on Knowledge and Data
Engineering
• Data Mining and Knowledge Discovery (DMKD)
• ACM SIGKDD Explorations
• Data & Knowledge Engineering (DKE)
CONGRESOS
• KDD (ACM SIGKDD International Conference
on KDD)
• ICDM (IEEE International Conference on Data
Mining)
• SDM (SIAM Data Mining Conference)
• PKDD (Principles and Practices of KDD)
• SIGMOD (Management of Data)
• CIKM (Information and Knowledge
Management)
WEB:http://www.kdnuggets.com/
Data Mining en Empresas
Baltodano Vigo Luis Enrique
lbaltodanov@uladech.edu.pe
¿Qué es la minería de datos?
Extracción de patrones (“conocimiento”)
en grandes cantidades de datos
2. Carácter multidisciplinar
Clasificación de técnicas
En funciónde su propósitogeneral:
Técnicasdescriptivas
Técnicaspredictivas
Tambiénse puedenclasificaratendiendoa:
El tipode datos que hayque analizar
El tipode “conocimiento”que se obtiene
El tipode herramientaque utiliza
El dominiode aplicación.
Fuentes de datos
Basesde datosrelacionales
Basesde datosmultidimensionales(DW)
Basesde datostransaccionales
Series temporales,secuenciasy datastreams
Datosestructurados(grafos,redessociales)
Datosespacialesy espaciotemporales
Textose hipertextos(p.ej.Web)
Basesde datosmultimedia(p.ej.imágenes)
Técnicas de Data Mining
Caracterizaciónoresumen
Discriminaciónocontraste
Patronesfrecuentes,
asociacionesy correlaciones
Clasificaciónypredicción
Detecciónde agrupamientos(clustering)
Detecciónde anomalías(outliers)
Análisisde tendencias(seriestemporales)
Evaluación de resultados
Unresultado es interesantesi…
Es comprensible(porseres humanos)
es válido con cierto grado decerteza
Es potencialmenteútil
Es novedoso o sirveparavalidar unahipótesis
El interés de los resultadossepuedeevaluar
objetivamente(criteriosestadísticos)
subjetivamente(perspectivadelusuario)
Sistemas de Data Mining
Una tarea de minería de datos
puede describirse en términos de…
Datos relevantes
(lo que hay que analizar)
Tipo de conocimiento
(lo que se desea obtener)
Conocimiento previo
(background knowledge, paraguiarel proceso)
Medidas de interés
(para evaluarlos resultados obtenidos)
Técnicas de representación
(para representarlos resultados obtenidos)
Extracción de conocimiento en bases de datos
Limpieza de datos
(eliminación de ruido e inconsistencias)
Integración de datos
(combinaciónde múltiples fuentes de datos)
Reducción/Selección de datos
(identificaciónde datos relevantes para el problema)
Transformación de datos
(preparaciónde los datos parasu análisis)
Minería de datos
(técnicas de extracción de patrones y medidas de interés)
Presentación de resultados
(técnicas de visualización y de representación del
conocimiento)