SlideShare una empresa de Scribd logo
1 de 53
Descargar para leer sin conexión
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/333339261
Metodologías de desarrollo de proyectos de minería de datos - Una visión
centrada en CRISP-DM
Presentation · May 2019
DOI: 10.13140/RG.2.2.34208.02566
CITATIONS
0
READS
990
1 author:
Some of the authors of this publication are also working on these related projects:
Open for Submissions - Special Issue "Artificial Intelligence for Children, Teenagers and People with Health Problems" View project
GruaRV: Smart Virtual Reality Simulator for learning human risks during the control of bridge cranes View project
César García-Osorio
Universidad de Burgos
87 PUBLICATIONS   826 CITATIONS   
SEE PROFILE
All content following this page was uploaded by César García-Osorio on 24 May 2019.
The user has requested enhancement of the downloaded file.
METODOLOGÍAS DE DESARROLLO
DE PROYECTOS DE MINERÍA
DE DATOS
Una visión centrada en CRISP-DM
20 de mayo del 2019 Sede:
Dr. César Ignacio García Osorio
cgosorio@ubu.es
Universidad de Burgos
http://admirable-ubu.es
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
¿Quién soy?
■ Ingeniero superior en informática por la Universidad de Valladolid.
■ Doctor por la University of the West of Scotland.
■ Coordinador del programa de doctorado de Tecnologías
Industriales e Ingeniería Civil de la Universidad de Burgos.
■ Profesor del Grado de Ingeniería Informática de la Universidad de
Burgos.
■ Profesor del Máster Universitario en Inteligencia de Negocio y
Big Data en Entornos Seguros, máster en línea, interuniversitario
entre las universidades de Burgos, Valladolid y León.
2 de 52
cgosorio@ubu.es
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Contenidos
1. Introducción
2. Fases, tareas y documentos
3. Descomposición
4. Utilización
5. Otras metodologías
3 de 52
cgosorio@ubu.es
INTRODUCCIÓN
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Introducción
CRISP-DM (CRoss-Industry Standard Process for Data Mining)
■ Metodología no propietaria y abierta, nacida del esfuerzo
conjunto de un consorcio de empresas (inicialmente bajo una
subvención de la Comisión Europea), incluyendo SPSS, NCR y
DaimlerChrysler (2000).
■ Proceso iterativo y adaptable con 6 fases.
Secuencia no rígida, a menudo hay
que retroceder a fases previas.
▶ Las flechas indican las
dependencias más importantes
y frecuentes entre fases.
▶ El círculo exterior simboliza la
naturaleza cíclica del proceso
de minería de datos.
▶ Tras finalizar un proyecto, lo
aprendido en el mismo puede
motivar el lanzamiento de un
nuevo proyecto.
5 de 52
cgosorio@ubu.es
FASES, TAREAS Y
DOCUMENTOS
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
7 de 52
cgosorio@ubu.es
Entender los objetivos y requerimientos
del proyecto desde una
perspectiva empresarial para
convertir ese conocimiento en la
definición de un problema de
minería de datos con un plan
preliminar para la consecución de esos
objetivos.
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
8 de 52
cgosorio@ubu.es
Recopilar, explorar y familiarizarse con
los datos, identificar los problemas de
calidad de datos y ver las primeras
potencialidades y subconjuntos de datos que
puede ser interesante analizar (según los
objetivos de negocio en la fase anterior).
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
9 de 52
cgosorio@ubu.es
El objetivo de esta fase es obtener la «vista
minable». Aquí se incluyen todas las operaciones que
tienen que ver con la adecuación de los datos
a la tarea de aprendizaje automático.
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
10 de 52
cgosorio@ubu.es
Es la aplicación de técnicas de
modelado o de minería de datos
propiamente dichas a las vistas
«minables» anteriores. El modelo
se evalúa usando las técnicas
específicas de aprendizaje
automático.
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
11 de 52
cgosorio@ubu.es
Es necesario evaluar, desde el
punto de vista del objetivo del
negocio, los resultados de la fase
anterior. Es decir, si es posible
responder a algunos de los
requerimientos empresariales.
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
12 de 52
cgosorio@ubu.es
Se trata de explotar la potencialidad de los
modelos, integrarlos en los procesos de toma
de decisión de la organización, difundir informes
sobre el conocimiento extraído, etc.
DESCOMPOSICIÓN
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Descomposición jerárquica
Visión global
CRISP está estructurado en 4 niveles de abstracción.
14 de 52
cgosorio@ubu.es
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Descomposición jerárquica
Niveles
■ Primer nivel: un proceso de MD está organizado en fases,
consistentes en varias tareas genéricas del siguiente nivel.
■ Segundo nivel: tareas genéricas lo suficientemente
generales como para que sean necesarias en todas las
posibles situaciones, son: completas (cubren todo el proceso
de MD) y estables (válidas para nuevas técnicas).
■ Tercer nivel: nivel de las tareas especializadas, donde se
describe como deberían llevarse a cabo las acciones de las
tareas genéricas en una situación específica.
■ Cuarto nivel: instancia de proceso, que registra todas las
acciones, decisiones y resultados de un proyecto de MD
concreto; organizada de acuerdo con las tareas definidas en
los niveles superiores, pero describe lo que ha ocurrido o está
ocurriendo realmente en un proyecto concreto de MD.
15 de 52
cgosorio@ubu.es
UTILIZACIÓN
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Utilización de la metodología
Modelo de referencia y guía de usuario
En CRISP se diferencia entre el modelo de referencia y la guía de
usuario.
■ El modelo de referencia presenta una visión global de las
fases, tareas y resultados, y describe qué hacer en un proyecto
de minería de datos. Define el modelo genérico de proceso
CRISP.
■ La guía de usuario da información detallada de cada una de
las fases y las tareas dentro de cada fase, y describe cómo
hacer el proyecto de minería de datos.
17 de 52
cgosorio@ubu.es
https://www.the-modeling-agency.com/crisp-dm.pdf
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/es/CRISP-DM.pdf
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Utilización de la metodología
Del modelo genérico a los modelos especializados
Para pasar del nivel genérico al especializado, hay que tener en
cuenta el contexto específico de MD, caracterizado por cuatro
dimensiones cuyo valor hay que fijar para cada proyecto.
18 de 52
cgosorio@ubu.es
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Utilización de la metodología
Del modelo genérico a los modelos especializados
Hay dos formas de pasar del modelo genérico al específico.
Aplicación para el presente Se utiliza el modelo genérico para un
único proyecto de MD aplicando las tareas genéricas y sus
descripciones al proyecto concreto.
Aplicación para el futuro Se especializa el modelo genérico de
acuerdo con un contexto predefinido, para obtener un modelo
especializado reutilizable en contextos similares.
¿Cómo proceder? (la estrategia es la misma para los dos tipos de aplicación)
■ Analizar el contexto específico.
■ Añadir los detalles específicos al contexto.
■ Eliminar los detalles no aplicables al contexto específico.
■ Especializar (o instanciar) los contenidos genéricos de acuerdo con las
características concretas del contexto.
■ También es posible renombrar los contenidos genéricos para proporcionar
una semántica más cercanas al contexto concreto.
19 de 52
cgosorio@ubu.es
OTRAS METODOLOGÍAS
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
¿Por qué nos hemos centrado en CRISP-DM?
Según las encuestas realizadas por KDnuggetsTM
es la metodología más utilizada.
21 de 52
cgosorio@ubu.es
https://www.kdnuggets.com/2014/10/
crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
KDD: Knowledge Discovery in Databases
Fayyad, 1996
22 de 52
cgosorio@ubu.es
https://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
SEMMA
SAS, 2002
23 de 52
cgosorio@ubu.es
http://support.sas.com/documentation/cdl/en/emcs/66392/HTML/default/viewer.htm#
n0pejm83csbja4n1xueveo2uoujy.htm
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Team Data Science Process
Microsoft, 2016
24 de 52
cgosorio@ubu.es
https://docs.microsoft.com/en-gb/azure/machine-learning/team-data-science-process/overview
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Guerrilla analytics
Enda Ridge, 2015
25 de 52
cgosorio@ubu.es
http://guerrilla-analytics.net/ http://guerrilla-analytics.net/the-principles/
Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías
Comparación
CRISP-DM KDD SEMMA TDSP Guerrilla
Compresión
del negocio
Compresión
del negocio
Compresión
de los datos Selección
Sample
Data
acquisition
and
understanding
Extract
Explore
Preparación
de los datos
Pre-procesado
Manipulate
Receive
Transformación Load
Modelado Data mining Model
Modeling
Analytics
Evaluación
Interpretación/
evaluación
Asses Consolidate
Explotación
Deployment Work
products
Reporting
and customer
acceptance
26 de 52
cgosorio@ubu.es
https://medium.com/intuitionmachine/the-seven-is-of-big-data-science-methodology-711af03ef5b
TERMINOLOGÍA
CRISP-DM
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Metodología CRISP-DM El término general para todos los
conceptos desarrollados y definidos en CRISP-DM.
Modelo de referencia Descomposición de proyectos de minería
de datos en fases, tareas, y salidas.
Guía de usuario Asesoramiento específico sobre como realizar
proyectos concretos de minería de datos.
Contexto de minería de datos Un conjunto de restricciones y
presunciones, tales como el tipo de problema, las técnicas o
herramientas, el dominio de aplicación.
29 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Fase Un término para la parte de alto nivel del modelo de proceso
CRISP-DM; consiste en tareas relacionadas.
Tarea Una serie de actividades para producir una o más salidas;
parte de una fase.
Actividad Es parte de una tarea en la Guía de Usuario; describe
las acciones para realizar una tarea.
Salida El resultado tangible de la ejecución de una tarea.
30 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Tareas genéricas Tareas lo suficientemente generales como para
que aparezcan en todos los posibles proyectos de minería de
datos; tan completas (entre todas cubren todo el proceso de
MD y todas las posibles aplicaciones de la MD) y estables
(validas para desarrollos futuros de nuevas técnicas de
modelado) como sea posible.
Tareas especializadas Una tarea que hace presunciones
específicas en contextos específicos de minería de datos.
Describe como deberían llevarse a cabo las acciones de una
tarea genérica en una situación específica.
31 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Glosario/Terminología
Modelo de proceso Define la estructura de proyectos de minería
de datos y proporciona la guía para su ejecución; consiste en el
modelo de referencia y en la guía de usuario.
Caso del proceso Un proyecto específico descrito en términos del
modelo de proceso.
Tipos de problemas de minería de datos Una clase de problemas
típicos de minería de datos, tales como la descripción de datos y
el resumen, la segmentación, las descripciones de conceptos, la
clasificación, la predicción, el análisis de dependencia.
32 de 52
cgosorio@ubu.es
PROBLEMAS DE
MINERÍA DE DATOS
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Descripción de datos y resumen
34 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Segmentación (agrupamiento o clustering)
35 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Descripciones de concepto
36 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Tipos de problemas de MD
Clasificación ****
37 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación
Clasificación binaria
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e
yi ∈ Y = {0, 1}
■ Problema: Dado un valor de x predecir si se le puede asignar o
no la única etiqueta existente.
a1 a2 y
x1 5.0 4.5 1
x2 2.0 2.5 0
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 1
x 4.0 2.5 ?
38 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación
Clasificación multiclase — Primera aproximación
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e
yi ∈ L = {λ1, λ2, . . . , λq}.
■ Problema: Predecir el valor de la etiqueta y dado un valor de x.
a1 a2 y
x1 5.0 4.5 λ1
x2 2.0 2.5 λq
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 λ2
x 4.0 2.5 ?
39 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Regresión
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ R.
■ Datos: Predecir el valor de y dado un valor de x.
a1 a2 y
x1 5.0 4.5 2.1
x2 2.0 2.5 0.2
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 -1.2
x 4.0 2.5 ?
40 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
NUEVOS PROBLEMAS
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación multiclase
Segunda aproximación
■ Datos:{(x1, y1), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Y = {0, 1}q,
pero sólo una de las componentes del vector y es igual a 1.
■ Problema: Predecir el vector y = {y1, y2, . . . , yq} dado un valor
de x (la técnica ove-vs-all convierte este problema en q
problemas de clasificación binaria). Los nuevos problemas
pueden verse como variantes de esta aproximación.
a1 a2 y1 y2 · · · yq
x1 5.0 4.5 1 0 0
x2 2.0 2.5 0 0 1
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 0 1 0
x 4.0 2.5 ? ? ?
42 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación multietiqueta
Primer enfoque
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e
yi ∈ Y = {0, 1}q, varias de las componentes del vector yi
pueden ser igual a 1.
■ Problema: Predecir el vector y = {y1, y2, . . . , yq} dado un valor
de x.
a1 a2 y1 y2 · · · yq
x1 5.0 4.5 1 1 0
x2 2.0 2.5 0 1 1
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 1 0 1
x 4.0 2.5 ? ? ?
43 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Clasificación multietiqueta
Segundo enfoque
■ Datos: {(x1, Y1), (x2, Y2), . . . , (xm, Ym)}, donde xi ∈ Rd e
Yi ∈ P(L = {λ1, λ2, . . . , λq}) (Yi es el conjunto potencia de Y, el
conjunto de todos los subconjuntos de L)
■ Problema: Predecir el valor de Y dado un valor de x.
■ El enfoque basado en el conjunto potencia (power set)
considera que cada subconjunto L es una nueva etiqueta ω.
a1 a2 Y Y′
x1 5.0 4.5 {λ1, λ2} ω1,2
x2 2.0 2.5 {λ1, λ4, λq} ω1,4,q
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 {λ1, λ3} ω1,3
x 4.0 2.5 ? ?
44 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Regresión de salida múltiple
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Rq.
■ Problema: predecir el vector de valores y = {y1, y2, . . . , yq}
para un valor dado de x.
a1 a2 y1 y2 · · · yq
x1 5.0 4.5 12 0.3 5.2
x2 2.0 2.5 14 1.2 4.5
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 20 0.8 3.3
x 4.0 2.5 ? ? ?
45 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Label ranking
■ Se podría traducir por ordenamiento de etiquetas.
■ También conocido como aprendizaje de preferencias.
■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde yi es una
ordenación o permutación de un número fijo de posibles
alternativas.
■ Problema: Predecir una permutación (yπ(1), yπ(2), . . . , yπ(q))
para un valor dado de x.
a1 a2 y1 y2 y3
x1 5.0 4.5 1 3 2
x2 2.0 2.5 2 1 3
.
.
.
.
.
.
.
.
.
.
.
.
xn 3.0 3.5 3 1 2
x 4.0 2.5 ? ? ?
46 de 52
cgosorio@ubu.es
From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
ALGUNOS CONCEPTOS
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Minería de datos vs aprendizaje automático
48 de 52
cgosorio@ubu.es
From https://blogs.sas.com/content/subconsciousmusings/2014/08/22/
looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Minería de datos
Minería de datos
La minería de datos (Data Mining) es el proceso de extracción
de información significativa de grandes bases de datos, infor-
mación que revela inteligencia del negocio, a través de factores
ocultos, tendencias y correlaciones para permitir al usuario reali-
zar predicciones que resuelven problemas del negocio propor-
cionando una ventaja competitiva.
Utiliza los métodos de la inteligencia artificial, aprendizaje au-
tomático, estadística y sistemas de bases de datos.
49 de 52
cgosorio@ubu.es
https://www.gestiopolis.com/que-es-data-mining/
https://www.sinnexus.com/business_intelligence/datamining.aspx
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Aprendizaje automático
Aprendizaje automático
El aprendizaje automático (Machine Learning) es una rama den-
tro del campo de la IA cuyo objetivo es dotar a los ordenadores
de la capacidad de aprender sin necesidad de ser programada.
O en otras palabras, el conjunto de algoritmos que proporcio-
nan al ordenador la habilidad de aprender de los datos, para la
posterior toma de decisiones y realización de predicciones.
Tiene gran relevancia en la actualidad debido al aumento de la
capacidad de computación así como los grandes volúmenes de
datos que las empresas tienen que manejar.
50 de 52
cgosorio@ubu.es
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Sobreajuste y generalización
51 de 52
cgosorio@ubu.es
From https://es.wikipedia.org/wiki/Sobreajuste, https://en.wikipedia.org/wiki/Early_stopping
Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos
Validación cruzada
52 de 52
cgosorio@ubu.es
From https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada
View publication stats
View publication stats

Más contenido relacionado

La actualidad más candente (9)

Bab 13 steganografi dan watermarking
Bab 13 steganografi dan watermarkingBab 13 steganografi dan watermarking
Bab 13 steganografi dan watermarking
 
Arquitectura token ring
Arquitectura token ringArquitectura token ring
Arquitectura token ring
 
Extranet
ExtranetExtranet
Extranet
 
Laboratorio Computación Gráfica - Práctica 05
 Laboratorio Computación Gráfica - Práctica 05 Laboratorio Computación Gráfica - Práctica 05
Laboratorio Computación Gráfica - Práctica 05
 
Procesamiento superescalar
Procesamiento superescalarProcesamiento superescalar
Procesamiento superescalar
 
Agentes inteligentes
Agentes inteligentesAgentes inteligentes
Agentes inteligentes
 
Slide Chapter 6 Pengkodean
Slide Chapter 6 PengkodeanSlide Chapter 6 Pengkodean
Slide Chapter 6 Pengkodean
 
Clase 4 logica difusa
Clase 4 logica difusaClase 4 logica difusa
Clase 4 logica difusa
 
CI19.2 Presentaciones: Canales inalámbricos, Introducción
CI19.2 Presentaciones: Canales inalámbricos, IntroducciónCI19.2 Presentaciones: Canales inalámbricos, Introducción
CI19.2 Presentaciones: Canales inalámbricos, Introducción
 

Similar a CRISP-DM.v3.pdf

Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISP
Óscar Alonso
 
Metodos del desarrollo de sistema de informacion
Metodos del desarrollo de sistema de informacionMetodos del desarrollo de sistema de informacion
Metodos del desarrollo de sistema de informacion
caroyu
 
Clasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de softwareClasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de software
ElvisAR
 
clasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdf
clasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdfclasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdf
clasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdf
CESARAS4
 

Similar a CRISP-DM.v3.pdf (20)

CRISP-DM
CRISP-DMCRISP-DM
CRISP-DM
 
Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISP
 
Ciclo de vida de una Base de Datos
Ciclo de vida de una Base de DatosCiclo de vida de una Base de Datos
Ciclo de vida de una Base de Datos
 
INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx
INTRODUCCIÓN A LA CIENCIA DE DATOS.pptxINTRODUCCIÓN A LA CIENCIA DE DATOS.pptx
INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx
 
Guia#1. base de datos(1)
Guia#1. base de datos(1)Guia#1. base de datos(1)
Guia#1. base de datos(1)
 
Dsdm_f
Dsdm_fDsdm_f
Dsdm_f
 
Dsdm
DsdmDsdm
Dsdm
 
DSDM
DSDMDSDM
DSDM
 
Metodologia DSDM
Metodologia DSDMMetodologia DSDM
Metodologia DSDM
 
Itsa metodologias de desarrollo de software (alejandra virrueta mendez)
Itsa  metodologias de desarrollo de software (alejandra virrueta mendez)Itsa  metodologias de desarrollo de software (alejandra virrueta mendez)
Itsa metodologias de desarrollo de software (alejandra virrueta mendez)
 
Metodos del desarrollo de sistema de informacion
Metodos del desarrollo de sistema de informacionMetodos del desarrollo de sistema de informacion
Metodos del desarrollo de sistema de informacion
 
01.introduccion
01.introduccion01.introduccion
01.introduccion
 
BIGDATA
BIGDATABIGDATA
BIGDATA
 
Session01.pptx
Session01.pptxSession01.pptx
Session01.pptx
 
Clasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de softwareClasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de software
 
clasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdf
clasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdfclasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdf
clasificacindelasmetodologasdedesarrollodesoftware-151201230639-lva1-app6892.pdf
 
Insidencias En Los Paradigmas De La Ingeniera De Software
Insidencias En Los Paradigmas De La Ingeniera De SoftwareInsidencias En Los Paradigmas De La Ingeniera De Software
Insidencias En Los Paradigmas De La Ingeniera De Software
 
Documento_completo.pdf-PDFA UWE.pdf
Documento_completo.pdf-PDFA UWE.pdfDocumento_completo.pdf-PDFA UWE.pdf
Documento_completo.pdf-PDFA UWE.pdf
 
Fases para la creación de una base de datos
Fases para la creación de una base de datosFases para la creación de una base de datos
Fases para la creación de una base de datos
 
Mirla montano
Mirla montanoMirla montano
Mirla montano
 

Último

DESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdf
DESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdfDESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdf
DESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdf
ssuser6a4120
 
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdfHolland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
frank0071
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
llacza2004
 
Piccato, P. - Historia mínima de la violencia en México [2022].pdf
Piccato, P. - Historia mínima de la violencia en México [2022].pdfPiccato, P. - Historia mínima de la violencia en México [2022].pdf
Piccato, P. - Historia mínima de la violencia en México [2022].pdf
frank0071
 
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdfGribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
frank0071
 

Último (20)

Diálisis peritoneal en los pacientes delicados de salud
Diálisis peritoneal en los pacientes delicados de saludDiálisis peritoneal en los pacientes delicados de salud
Diálisis peritoneal en los pacientes delicados de salud
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
 
Informe Aemet Tornados Sabado Santo Marchena Paradas
Informe Aemet Tornados Sabado Santo Marchena ParadasInforme Aemet Tornados Sabado Santo Marchena Paradas
Informe Aemet Tornados Sabado Santo Marchena Paradas
 
Tema 1. Generalidades de Microbiologia Universidad de Oriente
Tema 1. Generalidades de Microbiologia Universidad de OrienteTema 1. Generalidades de Microbiologia Universidad de Oriente
Tema 1. Generalidades de Microbiologia Universidad de Oriente
 
DESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdf
DESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdfDESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdf
DESPOTISMO ILUSTRADOO - copia - copia - copia - copia.pdf
 
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
 
TEMA: ULTRASONOGRAFIA EN NUTRICION
TEMA:         ULTRASONOGRAFIA EN NUTRICIONTEMA:         ULTRASONOGRAFIA EN NUTRICION
TEMA: ULTRASONOGRAFIA EN NUTRICION
 
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdfHolland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
 
LA RADIACTIVIDAD. TRABAJO DE 3º DE LA ESO..pdf
LA RADIACTIVIDAD. TRABAJO DE 3º DE LA ESO..pdfLA RADIACTIVIDAD. TRABAJO DE 3º DE LA ESO..pdf
LA RADIACTIVIDAD. TRABAJO DE 3º DE LA ESO..pdf
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
 
el amor en los tiempos del colera (resumen).pptx
el amor en los tiempos del colera (resumen).pptxel amor en los tiempos del colera (resumen).pptx
el amor en los tiempos del colera (resumen).pptx
 
Plokhi, Serhii. - El último imperio. Los días finales de la Unión Soviética [...
Plokhi, Serhii. - El último imperio. Los días finales de la Unión Soviética [...Plokhi, Serhii. - El último imperio. Los días finales de la Unión Soviética [...
Plokhi, Serhii. - El último imperio. Los días finales de la Unión Soviética [...
 
Piccato, P. - Historia mínima de la violencia en México [2022].pdf
Piccato, P. - Historia mínima de la violencia en México [2022].pdfPiccato, P. - Historia mínima de la violencia en México [2022].pdf
Piccato, P. - Historia mínima de la violencia en México [2022].pdf
 
Glándulas Salivales.pptx................
Glándulas Salivales.pptx................Glándulas Salivales.pptx................
Glándulas Salivales.pptx................
 
tecnica de necropsia en bovinos rum.pptx
tecnica de necropsia en bovinos rum.pptxtecnica de necropsia en bovinos rum.pptx
tecnica de necropsia en bovinos rum.pptx
 
Características emociones y sentimientos
Características emociones y sentimientosCaracterísticas emociones y sentimientos
Características emociones y sentimientos
 
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdfGribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
 
Sucesión de hongos en estiércol de vaca experimento
Sucesión de hongos en estiércol de vaca experimentoSucesión de hongos en estiércol de vaca experimento
Sucesión de hongos en estiércol de vaca experimento
 
Patologias del quiasma optico .pptxxxxxx
Patologias del quiasma optico .pptxxxxxxPatologias del quiasma optico .pptxxxxxx
Patologias del quiasma optico .pptxxxxxx
 

CRISP-DM.v3.pdf

  • 1. See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/333339261 Metodologías de desarrollo de proyectos de minería de datos - Una visión centrada en CRISP-DM Presentation · May 2019 DOI: 10.13140/RG.2.2.34208.02566 CITATIONS 0 READS 990 1 author: Some of the authors of this publication are also working on these related projects: Open for Submissions - Special Issue "Artificial Intelligence for Children, Teenagers and People with Health Problems" View project GruaRV: Smart Virtual Reality Simulator for learning human risks during the control of bridge cranes View project César García-Osorio Universidad de Burgos 87 PUBLICATIONS   826 CITATIONS    SEE PROFILE All content following this page was uploaded by César García-Osorio on 24 May 2019. The user has requested enhancement of the downloaded file.
  • 2. METODOLOGÍAS DE DESARROLLO DE PROYECTOS DE MINERÍA DE DATOS Una visión centrada en CRISP-DM 20 de mayo del 2019 Sede: Dr. César Ignacio García Osorio cgosorio@ubu.es Universidad de Burgos http://admirable-ubu.es
  • 3. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías ¿Quién soy? ■ Ingeniero superior en informática por la Universidad de Valladolid. ■ Doctor por la University of the West of Scotland. ■ Coordinador del programa de doctorado de Tecnologías Industriales e Ingeniería Civil de la Universidad de Burgos. ■ Profesor del Grado de Ingeniería Informática de la Universidad de Burgos. ■ Profesor del Máster Universitario en Inteligencia de Negocio y Big Data en Entornos Seguros, máster en línea, interuniversitario entre las universidades de Burgos, Valladolid y León. 2 de 52 cgosorio@ubu.es
  • 4. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Contenidos 1. Introducción 2. Fases, tareas y documentos 3. Descomposición 4. Utilización 5. Otras metodologías 3 de 52 cgosorio@ubu.es
  • 6. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Introducción CRISP-DM (CRoss-Industry Standard Process for Data Mining) ■ Metodología no propietaria y abierta, nacida del esfuerzo conjunto de un consorcio de empresas (inicialmente bajo una subvención de la Comisión Europea), incluyendo SPSS, NCR y DaimlerChrysler (2000). ■ Proceso iterativo y adaptable con 6 fases. Secuencia no rígida, a menudo hay que retroceder a fases previas. ▶ Las flechas indican las dependencias más importantes y frecuentes entre fases. ▶ El círculo exterior simboliza la naturaleza cíclica del proceso de minería de datos. ▶ Tras finalizar un proyecto, lo aprendido en el mismo puede motivar el lanzamiento de un nuevo proyecto. 5 de 52 cgosorio@ubu.es
  • 8. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías 7 de 52 cgosorio@ubu.es Entender los objetivos y requerimientos del proyecto desde una perspectiva empresarial para convertir ese conocimiento en la definición de un problema de minería de datos con un plan preliminar para la consecución de esos objetivos.
  • 9. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías 8 de 52 cgosorio@ubu.es Recopilar, explorar y familiarizarse con los datos, identificar los problemas de calidad de datos y ver las primeras potencialidades y subconjuntos de datos que puede ser interesante analizar (según los objetivos de negocio en la fase anterior).
  • 10. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías 9 de 52 cgosorio@ubu.es El objetivo de esta fase es obtener la «vista minable». Aquí se incluyen todas las operaciones que tienen que ver con la adecuación de los datos a la tarea de aprendizaje automático.
  • 11. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías 10 de 52 cgosorio@ubu.es Es la aplicación de técnicas de modelado o de minería de datos propiamente dichas a las vistas «minables» anteriores. El modelo se evalúa usando las técnicas específicas de aprendizaje automático.
  • 12. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías 11 de 52 cgosorio@ubu.es Es necesario evaluar, desde el punto de vista del objetivo del negocio, los resultados de la fase anterior. Es decir, si es posible responder a algunos de los requerimientos empresariales.
  • 13. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías 12 de 52 cgosorio@ubu.es Se trata de explotar la potencialidad de los modelos, integrarlos en los procesos de toma de decisión de la organización, difundir informes sobre el conocimiento extraído, etc.
  • 15. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Descomposición jerárquica Visión global CRISP está estructurado en 4 niveles de abstracción. 14 de 52 cgosorio@ubu.es
  • 16. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Descomposición jerárquica Niveles ■ Primer nivel: un proceso de MD está organizado en fases, consistentes en varias tareas genéricas del siguiente nivel. ■ Segundo nivel: tareas genéricas lo suficientemente generales como para que sean necesarias en todas las posibles situaciones, son: completas (cubren todo el proceso de MD) y estables (válidas para nuevas técnicas). ■ Tercer nivel: nivel de las tareas especializadas, donde se describe como deberían llevarse a cabo las acciones de las tareas genéricas en una situación específica. ■ Cuarto nivel: instancia de proceso, que registra todas las acciones, decisiones y resultados de un proyecto de MD concreto; organizada de acuerdo con las tareas definidas en los niveles superiores, pero describe lo que ha ocurrido o está ocurriendo realmente en un proyecto concreto de MD. 15 de 52 cgosorio@ubu.es
  • 18. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Utilización de la metodología Modelo de referencia y guía de usuario En CRISP se diferencia entre el modelo de referencia y la guía de usuario. ■ El modelo de referencia presenta una visión global de las fases, tareas y resultados, y describe qué hacer en un proyecto de minería de datos. Define el modelo genérico de proceso CRISP. ■ La guía de usuario da información detallada de cada una de las fases y las tareas dentro de cada fase, y describe cómo hacer el proyecto de minería de datos. 17 de 52 cgosorio@ubu.es https://www.the-modeling-agency.com/crisp-dm.pdf ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/es/CRISP-DM.pdf
  • 19. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Utilización de la metodología Del modelo genérico a los modelos especializados Para pasar del nivel genérico al especializado, hay que tener en cuenta el contexto específico de MD, caracterizado por cuatro dimensiones cuyo valor hay que fijar para cada proyecto. 18 de 52 cgosorio@ubu.es
  • 20. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Utilización de la metodología Del modelo genérico a los modelos especializados Hay dos formas de pasar del modelo genérico al específico. Aplicación para el presente Se utiliza el modelo genérico para un único proyecto de MD aplicando las tareas genéricas y sus descripciones al proyecto concreto. Aplicación para el futuro Se especializa el modelo genérico de acuerdo con un contexto predefinido, para obtener un modelo especializado reutilizable en contextos similares. ¿Cómo proceder? (la estrategia es la misma para los dos tipos de aplicación) ■ Analizar el contexto específico. ■ Añadir los detalles específicos al contexto. ■ Eliminar los detalles no aplicables al contexto específico. ■ Especializar (o instanciar) los contenidos genéricos de acuerdo con las características concretas del contexto. ■ También es posible renombrar los contenidos genéricos para proporcionar una semántica más cercanas al contexto concreto. 19 de 52 cgosorio@ubu.es
  • 22. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías ¿Por qué nos hemos centrado en CRISP-DM? Según las encuestas realizadas por KDnuggetsTM es la metodología más utilizada. 21 de 52 cgosorio@ubu.es https://www.kdnuggets.com/2014/10/ crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html
  • 23. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías KDD: Knowledge Discovery in Databases Fayyad, 1996 22 de 52 cgosorio@ubu.es https://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf
  • 24. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías SEMMA SAS, 2002 23 de 52 cgosorio@ubu.es http://support.sas.com/documentation/cdl/en/emcs/66392/HTML/default/viewer.htm# n0pejm83csbja4n1xueveo2uoujy.htm
  • 25. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Team Data Science Process Microsoft, 2016 24 de 52 cgosorio@ubu.es https://docs.microsoft.com/en-gb/azure/machine-learning/team-data-science-process/overview
  • 26. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Guerrilla analytics Enda Ridge, 2015 25 de 52 cgosorio@ubu.es http://guerrilla-analytics.net/ http://guerrilla-analytics.net/the-principles/
  • 27. Introducción Fases, tareas y documentos Descomposición Utilización Otras metodologías Comparación CRISP-DM KDD SEMMA TDSP Guerrilla Compresión del negocio Compresión del negocio Compresión de los datos Selección Sample Data acquisition and understanding Extract Explore Preparación de los datos Pre-procesado Manipulate Receive Transformación Load Modelado Data mining Model Modeling Analytics Evaluación Interpretación/ evaluación Asses Consolidate Explotación Deployment Work products Reporting and customer acceptance 26 de 52 cgosorio@ubu.es
  • 30. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Glosario/Terminología Metodología CRISP-DM El término general para todos los conceptos desarrollados y definidos en CRISP-DM. Modelo de referencia Descomposición de proyectos de minería de datos en fases, tareas, y salidas. Guía de usuario Asesoramiento específico sobre como realizar proyectos concretos de minería de datos. Contexto de minería de datos Un conjunto de restricciones y presunciones, tales como el tipo de problema, las técnicas o herramientas, el dominio de aplicación. 29 de 52 cgosorio@ubu.es
  • 31. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Glosario/Terminología Fase Un término para la parte de alto nivel del modelo de proceso CRISP-DM; consiste en tareas relacionadas. Tarea Una serie de actividades para producir una o más salidas; parte de una fase. Actividad Es parte de una tarea en la Guía de Usuario; describe las acciones para realizar una tarea. Salida El resultado tangible de la ejecución de una tarea. 30 de 52 cgosorio@ubu.es
  • 32. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Glosario/Terminología Tareas genéricas Tareas lo suficientemente generales como para que aparezcan en todos los posibles proyectos de minería de datos; tan completas (entre todas cubren todo el proceso de MD y todas las posibles aplicaciones de la MD) y estables (validas para desarrollos futuros de nuevas técnicas de modelado) como sea posible. Tareas especializadas Una tarea que hace presunciones específicas en contextos específicos de minería de datos. Describe como deberían llevarse a cabo las acciones de una tarea genérica en una situación específica. 31 de 52 cgosorio@ubu.es
  • 33. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Glosario/Terminología Modelo de proceso Define la estructura de proyectos de minería de datos y proporciona la guía para su ejecución; consiste en el modelo de referencia y en la guía de usuario. Caso del proceso Un proyecto específico descrito en términos del modelo de proceso. Tipos de problemas de minería de datos Una clase de problemas típicos de minería de datos, tales como la descripción de datos y el resumen, la segmentación, las descripciones de conceptos, la clasificación, la predicción, el análisis de dependencia. 32 de 52 cgosorio@ubu.es
  • 35. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Tipos de problemas de MD Descripción de datos y resumen 34 de 52 cgosorio@ubu.es
  • 36. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Tipos de problemas de MD Segmentación (agrupamiento o clustering) 35 de 52 cgosorio@ubu.es
  • 37. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Tipos de problemas de MD Descripciones de concepto 36 de 52 cgosorio@ubu.es
  • 38. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Tipos de problemas de MD Clasificación **** 37 de 52 cgosorio@ubu.es
  • 39. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Clasificación Clasificación binaria ■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Y = {0, 1} ■ Problema: Dado un valor de x predecir si se le puede asignar o no la única etiqueta existente. a1 a2 y x1 5.0 4.5 1 x2 2.0 2.5 0 . . . . . . . . . . . . xn 3.0 3.5 1 x 4.0 2.5 ? 38 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 40. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Clasificación Clasificación multiclase — Primera aproximación ■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ L = {λ1, λ2, . . . , λq}. ■ Problema: Predecir el valor de la etiqueta y dado un valor de x. a1 a2 y x1 5.0 4.5 λ1 x2 2.0 2.5 λq . . . . . . . . . . . . xn 3.0 3.5 λ2 x 4.0 2.5 ? 39 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 41. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Regresión ■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ R. ■ Datos: Predecir el valor de y dado un valor de x. a1 a2 y x1 5.0 4.5 2.1 x2 2.0 2.5 0.2 . . . . . . . . . . . . xn 3.0 3.5 -1.2 x 4.0 2.5 ? 40 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 43. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Clasificación multiclase Segunda aproximación ■ Datos:{(x1, y1), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Y = {0, 1}q, pero sólo una de las componentes del vector y es igual a 1. ■ Problema: Predecir el vector y = {y1, y2, . . . , yq} dado un valor de x (la técnica ove-vs-all convierte este problema en q problemas de clasificación binaria). Los nuevos problemas pueden verse como variantes de esta aproximación. a1 a2 y1 y2 · · · yq x1 5.0 4.5 1 0 0 x2 2.0 2.5 0 0 1 . . . . . . . . . . . . xn 3.0 3.5 0 1 0 x 4.0 2.5 ? ? ? 42 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 44. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Clasificación multietiqueta Primer enfoque ■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Y = {0, 1}q, varias de las componentes del vector yi pueden ser igual a 1. ■ Problema: Predecir el vector y = {y1, y2, . . . , yq} dado un valor de x. a1 a2 y1 y2 · · · yq x1 5.0 4.5 1 1 0 x2 2.0 2.5 0 1 1 . . . . . . . . . . . . xn 3.0 3.5 1 0 1 x 4.0 2.5 ? ? ? 43 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 45. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Clasificación multietiqueta Segundo enfoque ■ Datos: {(x1, Y1), (x2, Y2), . . . , (xm, Ym)}, donde xi ∈ Rd e Yi ∈ P(L = {λ1, λ2, . . . , λq}) (Yi es el conjunto potencia de Y, el conjunto de todos los subconjuntos de L) ■ Problema: Predecir el valor de Y dado un valor de x. ■ El enfoque basado en el conjunto potencia (power set) considera que cada subconjunto L es una nueva etiqueta ω. a1 a2 Y Y′ x1 5.0 4.5 {λ1, λ2} ω1,2 x2 2.0 2.5 {λ1, λ4, λq} ω1,4,q . . . . . . . . . . . . . . . xn 3.0 3.5 {λ1, λ3} ω1,3 x 4.0 2.5 ? ? 44 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 46. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Regresión de salida múltiple ■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde xi ∈ Rd e yi ∈ Rq. ■ Problema: predecir el vector de valores y = {y1, y2, . . . , yq} para un valor dado de x. a1 a2 y1 y2 · · · yq x1 5.0 4.5 12 0.3 5.2 x2 2.0 2.5 14 1.2 4.5 . . . . . . . . . . . . xn 3.0 3.5 20 0.8 3.3 x 4.0 2.5 ? ? ? 45 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 47. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Label ranking ■ Se podría traducir por ordenamiento de etiquetas. ■ También conocido como aprendizaje de preferencias. ■ Datos: {(x1, y1), (x2, y2), . . . , (xm, ym)}, donde yi es una ordenación o permutación de un número fijo de posibles alternativas. ■ Problema: Predecir una permutación (yπ(1), yπ(2), . . . , yπ(q)) para un valor dado de x. a1 a2 y1 y2 y3 x1 5.0 4.5 1 3 2 x2 2.0 2.5 2 1 3 . . . . . . . . . . . . xn 3.0 3.5 3 1 2 x 4.0 2.5 ? ? ? 46 de 52 cgosorio@ubu.es From http://www.cs.put.poznan.pl/kdembczynski/pdf/mlc-plsigml.pdf
  • 49. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Minería de datos vs aprendizaje automático 48 de 52 cgosorio@ubu.es From https://blogs.sas.com/content/subconsciousmusings/2014/08/22/ looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/
  • 50. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Minería de datos Minería de datos La minería de datos (Data Mining) es el proceso de extracción de información significativa de grandes bases de datos, infor- mación que revela inteligencia del negocio, a través de factores ocultos, tendencias y correlaciones para permitir al usuario reali- zar predicciones que resuelven problemas del negocio propor- cionando una ventaja competitiva. Utiliza los métodos de la inteligencia artificial, aprendizaje au- tomático, estadística y sistemas de bases de datos. 49 de 52 cgosorio@ubu.es https://www.gestiopolis.com/que-es-data-mining/ https://www.sinnexus.com/business_intelligence/datamining.aspx
  • 51. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Aprendizaje automático Aprendizaje automático El aprendizaje automático (Machine Learning) es una rama den- tro del campo de la IA cuyo objetivo es dotar a los ordenadores de la capacidad de aprender sin necesidad de ser programada. O en otras palabras, el conjunto de algoritmos que proporcio- nan al ordenador la habilidad de aprender de los datos, para la posterior toma de decisiones y realización de predicciones. Tiene gran relevancia en la actualidad debido al aumento de la capacidad de computación así como los grandes volúmenes de datos que las empresas tienen que manejar. 50 de 52 cgosorio@ubu.es
  • 52. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Sobreajuste y generalización 51 de 52 cgosorio@ubu.es From https://es.wikipedia.org/wiki/Sobreajuste, https://en.wikipedia.org/wiki/Early_stopping
  • 53. Terminología CRISP-DM Problemas de minería de datos Nuevos problemas Algunos conceptos Validación cruzada 52 de 52 cgosorio@ubu.es From https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada View publication stats View publication stats