1. See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/333339261
Metodologías de desarrollo de proyectos de minería de datos - Una visión
centrada en CRISP-DM
Presentation · May 2019
DOI: 10.13140/RG.2.2.34208.02566
CITATIONS
0
READS
990
1 author:
Some of the authors of this publication are also working on these related projects:
Open for Submissions - Special Issue "Artificial Intelligence for Children, Teenagers and People with Health Problems" View project
GruaRV: Smart Virtual Reality Simulator for learning human risks during the control of bridge cranes View project
César García-Osorio
Universidad de Burgos
87 PUBLICATIONS 826 CITATIONS
SEE PROFILE
All content following this page was uploaded by César García-Osorio on 24 May 2019.
The user has requested enhancement of the downloaded file.
2. METODOLOGÍAS DE DESARROLLO
DE PROYECTOS DE MINERÍA
DE DATOS
Una visión centrada en CRISP-DM
20 de mayo del 2019 Sede:
Dr. César Ignacio García Osorio
cgosorio@ubu.es
Universidad de Burgos
http://admirable-ubu.es
3. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
¿Quién soy?
■ Ingeniero superior en informática por la Universidad de Valladolid.
■ Doctor por la University of the West of Scotland.
■ Coordinador del programa de doctorado de Tecnologías
Industriales e Ingeniería Civil de la Universidad de Burgos.
■ Profesor del Grado de Ingeniería Informática de la Universidad de
Burgos.
■ Profesor del Máster Universitario en Inteligencia de Negocio y
Big Data en Entornos Seguros, máster en línea, interuniversitario
entre las universidades de Burgos, Valladolid y León.
2 de 52
cgosorio@ubu.es
4. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Contenidos
1. Introducción
2. Fases, tareas y documentos
3. Descomposición
4. Utilización
5. Otras metodologías
3 de 52
cgosorio@ubu.es
6. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Introducción
CRISP-DM (CRoss-Industry Standard Process for Data Mining)
■ Metodología no propietaria y abierta, nacida del esfuerzo
conjunto de un consorcio de empresas (inicialmente bajo una
subvención de la Comisión Europea), incluyendo SPSS, NCR y
DaimlerChrysler (2000).
■ Proceso iterativo y adaptable con 6 fases.
Secuencia no rígida, a menudo hay
que retroceder a fases previas.
▶ Las flechas indican las
dependencias más importantes
y frecuentes entre fases.
▶ El círculo exterior simboliza la
naturaleza cíclica del proceso
de minería de datos.
▶ Tras finalizar un proyecto, lo
aprendido en el mismo puede
motivar el lanzamiento de un
nuevo proyecto.
5 de 52
cgosorio@ubu.es
8. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
7 de 52
cgosorio@ubu.es
Entender los objetivos y requerimientos
del proyecto desde una
perspectiva empresarial para
convertir ese conocimiento en la
definición de un problema de
minería de datos con un plan
preliminar para la consecución de esos
objetivos.
9. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
8 de 52
cgosorio@ubu.es
Recopilar, explorar y familiarizarse con
los datos, identificar los problemas de
calidad de datos y ver las primeras
potencialidades y subconjuntos de datos que
puede ser interesante analizar (según los
objetivos de negocio en la fase anterior).
10. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
9 de 52
cgosorio@ubu.es
El objetivo de esta fase es obtener la «vista
minable». Aquí se incluyen todas las operaciones que
tienen que ver con la adecuación de los datos
a la tarea de aprendizaje automático.
11. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
10 de 52
cgosorio@ubu.es
Es la aplicación de técnicas de
modelado o de minería de datos
propiamente dichas a las vistas
«minables» anteriores. El modelo
se evalúa usando las técnicas
específicas de aprendizaje
automático.
12. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
11 de 52
cgosorio@ubu.es
Es necesario evaluar, desde el
punto de vista del objetivo del
negocio, los resultados de la fase
anterior. Es decir, si es posible
responder a algunos de los
requerimientos empresariales.
13. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
12 de 52
cgosorio@ubu.es
Se trata de explotar la potencialidad de los
modelos, integrarlos en los procesos de toma
de decisión de la organización, difundir informes
sobre el conocimiento extraído, etc.
15. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Descomposición jerárquica
Visión global
CRISP está estructurado en 4 niveles de abstracción.
14 de 52
cgosorio@ubu.es
16. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Descomposición jerárquica
Niveles
■ Primer nivel: un proceso de MD está organizado en fases,
consistentes en varias tareas genéricas del siguiente nivel.
■ Segundo nivel: tareas genéricas lo suficientemente
generales como para que sean necesarias en todas las
posibles situaciones, son: completas (cubren todo el proceso
de MD) y estables (válidas para nuevas técnicas).
■ Tercer nivel: nivel de las tareas especializadas, donde se
describe como deberían llevarse a cabo las acciones de las
tareas genéricas en una situación específica.
■ Cuarto nivel: instancia de proceso, que registra todas las
acciones, decisiones y resultados de un proyecto de MD
concreto; organizada de acuerdo con las tareas definidas en
los niveles superiores, pero describe lo que ha ocurrido o está
ocurriendo realmente en un proyecto concreto de MD.
15 de 52
cgosorio@ubu.es
18. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Utilización de la metodología
Modelo de referencia y guía de usuario
En CRISP se diferencia entre el modelo de referencia y la guía de
usuario.
■ El modelo de referencia presenta una visión global de las
fases, tareas y resultados, y describe qué hacer en un proyecto
de minería de datos. Define el modelo genérico de proceso
CRISP.
■ La guía de usuario da información detallada de cada una de
las fases y las tareas dentro de cada fase, y describe cómo
hacer el proyecto de minería de datos.
17 de 52
cgosorio@ubu.es
https://www.the-modeling-agency.com/crisp-dm.pdf
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/es/CRISP-DM.pdf
19. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Utilización de la metodología
Del modelo genérico a los modelos especializados
Para pasar del nivel genérico al especializado, hay que tener en
cuenta el contexto específico de MD, caracterizado por cuatro
dimensiones cuyo valor hay que fijar para cada proyecto.
18 de 52
cgosorio@ubu.es
20. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Utilización de la metodología
Del modelo genérico a los modelos especializados
Hay dos formas de pasar del modelo genérico al específico.
Aplicación para el presente Se utiliza el modelo genérico para un
único proyecto de MD aplicando las tareas genéricas y sus
descripciones al proyecto concreto.
Aplicación para el futuro Se especializa el modelo genérico de
acuerdo con un contexto predefinido, para obtener un modelo
especializado reutilizable en contextos similares.
¿Cómo proceder? (la estrategia es la misma para los dos tipos de aplicación)
■ Analizar el contexto específico.
■ Añadir los detalles específicos al contexto.
■ Eliminar los detalles no aplicables al contexto específico.
■ Especializar (o instanciar) los contenidos genéricos de acuerdo con las
características concretas del contexto.
■ También es posible renombrar los contenidos genéricos para proporcionar
una semántica más cercanas al contexto concreto.
19 de 52
cgosorio@ubu.es
22. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
¿Por qué nos hemos centrado en CRISP-DM?
Según las encuestas realizadas por KDnuggetsTM
es la metodología más utilizada.
21 de 52
cgosorio@ubu.es
https://www.kdnuggets.com/2014/10/
crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html
23. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
KDD: Knowledge Discovery in Databases
Fayyad, 1996
22 de 52
cgosorio@ubu.es
https://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf
24. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
SEMMA
SAS, 2002
23 de 52
cgosorio@ubu.es
http://support.sas.com/documentation/cdl/en/emcs/66392/HTML/default/viewer.htm#
n0pejm83csbja4n1xueveo2uoujy.htm
25. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Team Data Science Process
Microsoft, 2016
24 de 52
cgosorio@ubu.es
https://docs.microsoft.com/en-gb/azure/machine-learning/team-data-science-process/overview
26. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Guerrilla analytics
Enda Ridge, 2015
25 de 52
cgosorio@ubu.es
http://guerrilla-analytics.net/ http://guerrilla-analytics.net/the-principles/
27. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Comparación
CRISP-DM KDD SEMMA TDSP Guerrilla
Compresión
del negocio
Compresión
del negocio
Compresión
de los datos Selección
Sample
Data
acquisition
and
understanding
Extract
Explore
Preparación
de los datos
Pre-procesado
Manipulate
Receive
Transformación Load
Modelado Data mining Model
Modeling
Analytics
Evaluación
Interpretación/
evaluación
Asses Consolidate
Explotación
Deployment Work
products
Reporting
and customer
acceptance
26 de 52
cgosorio@ubu.es
30. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Metodología CRISP-DM El término general para todos los
conceptos desarrollados y definidos en CRISP-DM.
Modelo de referencia Descomposición de proyectos de minería
de datos en fases, tareas, y salidas.
Guía de usuario Asesoramiento específico sobre como realizar
proyectos concretos de minería de datos.
Contexto de minería de datos Un conjunto de restricciones y
presunciones, tales como el tipo de problema, las técnicas o
herramientas, el dominio de aplicación.
29 de 52
cgosorio@ubu.es
31. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Fase Un término para la parte de alto nivel del modelo de proceso
CRISP-DM; consiste en tareas relacionadas.
Tarea Una serie de actividades para producir una o más salidas;
parte de una fase.
Actividad Es parte de una tarea en la Guía de Usuario; describe
las acciones para realizar una tarea.
Salida El resultado tangible de la ejecución de una tarea.
30 de 52
cgosorio@ubu.es
32. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Tareas genéricas Tareas lo suficientemente generales como para
que aparezcan en todos los posibles proyectos de minería de
datos; tan completas (entre todas cubren todo el proceso de
MD y todas las posibles aplicaciones de la MD) y estables
(validas para desarrollos futuros de nuevas técnicas de
modelado) como sea posible.
Tareas especializadas Una tarea que hace presunciones
específicas en contextos específicos de minería de datos.
Describe como deberían llevarse a cabo las acciones de una
tarea genérica en una situación específica.
31 de 52
cgosorio@ubu.es
33. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Modelo de proceso Define la estructura de proyectos de minería
de datos y proporciona la guía para su ejecución; consiste en el
modelo de referencia y en la guía de usuario.
Caso del proceso Un proyecto específico descrito en términos del
modelo de proceso.
Tipos de problemas de minería de datos Una clase de problemas
típicos de minería de datos, tales como la descripción de datos y
el resumen, la segmentación, las descripciones de conceptos, la
clasificación, la predicción, el análisis de dependencia.
32 de 52
cgosorio@ubu.es
35. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Descripción de datos y resumen
34 de 52
cgosorio@ubu.es
36. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Segmentación (agrupamiento o clustering)
35 de 52
cgosorio@ubu.es
37. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Descripciones de concepto
36 de 52
cgosorio@ubu.es
38. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Clasificación ****
37 de 52
cgosorio@ubu.es
39. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación
Clasificación binaria
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e
yi ∈ Y = {0, 1}
■ Problema: Dado un valor de x predecir si se le puede asignar o
no la única etiqueta existente.
a1 a2 y
x1 5.0 4.5 1
x2 2.0 2.5 0
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 1
x 4.0 2.5 ?
38 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
40. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación
Clasificación multiclase — Primera aproximación
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e
yi ∈ L = {λ1, λ2, . . . , λq}.
■ Problema: Predecir el valor de la etiqueta y dado un valor de x.
a1 a2 y
x1 5.0 4.5 λ1
x2 2.0 2.5 λq
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 λ2
x 4.0 2.5 ?
39 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
41. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Regresión
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ R.
■ Datos: Predecir el valor de y dado un valor de x.
a1 a2 y
x1 5.0 4.5 2.1
x2 2.0 2.5 0.2
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 -1.2
x 4.0 2.5 ?
40 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
43. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación multiclase
Segunda aproximación
■ Datos:{(x1, y1), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Y = {0, 1}q,
pero sólo una de las componentes del vector y es igual a 1.
■ Problema: Predecir el vector y = {y1, y2, . . . , yq} dado un valor
de x (la técnica ove-vs-all convierte este problema en q
problemas de clasificación binaria). Los nuevos problemas
pueden verse como variantes de esta aproximación.
a1 a2 y1 y2 · · · yq
x1 5.0 4.5 1 0 0
x2 2.0 2.5 0 0 1
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 0 1 0
x 4.0 2.5 ? ? ?
42 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
44. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación multietiqueta
Primer enfoque
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e
yi ∈ Y = {0, 1}q, varias de las componentes del vector yi
pueden ser igual a 1.
■ Problema: Predecir el vector y = {y1, y2, . . . , yq} dado un valor
de x.
a1 a2 y1 y2 · · · yq
x1 5.0 4.5 1 1 0
x2 2.0 2.5 0 1 1
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 1 0 1
x 4.0 2.5 ? ? ?
43 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
45. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación multietiqueta
Segundo enfoque
■ Datos: {(x1, Y1), (x2, Y2), . . . , (xm, Ym)}, donde xi ∈ Rd e
Yi ∈ P(L = {λ1, λ2, . . . , λq}) (Yi es el conjunto potencia de Y, el
conjunto de todos los subconjuntos de L)
■ Problema: Predecir el valor de Y dado un valor de x.
■ El enfoque basado en el conjunto potencia (power set)
considera que cada subconjunto L es una nueva etiqueta ω.
a1 a2 Y Y′
x1 5.0 4.5 {λ1, λ2} ω1,2
x2 2.0 2.5 {λ1, λ4, λq} ω1,4,q
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 {λ1, λ3} ω1,3
x 4.0 2.5 ? ?
44 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
46. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Regresión de salida múltiple
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Rq.
■ Problema: predecir el vector de valores y = {y1, y2, . . . , yq}
para un valor dado de x.
a1 a2 y1 y2 · · · yq
x1 5.0 4.5 12 0.3 5.2
x2 2.0 2.5 14 1.2 4.5
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 20 0.8 3.3
x 4.0 2.5 ? ? ?
45 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
47. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Label ranking
■ Se podría traducir por ordenamiento de etiquetas.
■ También conocido como aprendizaje de preferencias.
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde yi es una
ordenación o permutación de un número fijo de posibles
alternativas.
■ Problema: Predecir una permutación (yπ(1), yπ(2), . . . , yπ(q))
para un valor dado de x.
a1 a2 y1 y2 y3
x1 5.0 4.5 1 3 2
x2 2.0 2.5 2 1 3
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 3 1 2
x 4.0 2.5 ? ? ?
46 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
49. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Minería de datos vs aprendizaje automático
48 de 52
cgosorio@ubu.es
From https://blogs.sas.com/content/subconsciousmusings/2014/08/22/
looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/
50. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Minería de datos
Minería de datos
La minería de datos (Data Mining) es el proceso de extracción
de información significativa de grandes bases de datos, infor-
mación que revela inteligencia del negocio, a través de factores
ocultos, tendencias y correlaciones para permitir al usuario reali-
zar predicciones que resuelven problemas del negocio propor-
cionando una ventaja competitiva.
Utiliza los métodos de la inteligencia artificial, aprendizaje au-
tomático, estadística y sistemas de bases de datos.
49 de 52
cgosorio@ubu.es
https://www.gestiopolis.com/que-es-data-mining/
https://www.sinnexus.com/business_intelligence/datamining.aspx
51. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Aprendizaje automático
Aprendizaje automático
El aprendizaje automático (Machine Learning) es una rama den-
tro del campo de la IA cuyo objetivo es dotar a los ordenadores
de la capacidad de aprender sin necesidad de ser programada.
O en otras palabras, el conjunto de algoritmos que proporcio-
nan al ordenador la habilidad de aprender de los datos, para la
posterior toma de decisiones y realización de predicciones.
Tiene gran relevancia en la actualidad debido al aumento de la
capacidad de computación así como los grandes volúmenes de
datos que las empresas tienen que manejar.
50 de 52
cgosorio@ubu.es
52. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Sobreajuste y generalización
51 de 52
cgosorio@ubu.es
From https://es.wikipedia.org/wiki/Sobreajuste, https://en.wikipedia.org/wiki/Early_stopping
53. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Validación cruzada
52 de 52
cgosorio@ubu.es
From https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada
View publication stats
View publication stats