SlideShare una empresa de Scribd logo
1 de 5
Descargar para leer sin conexión
Metodología CRISP-DM

Abstract

Durante 1996 el interés en data mining (a partir de ahora DM) iba creciendo pero se trataba
de una industria joven e inmadura lo que provocaba que los acercamientos a este tipo de
proyectos fueran dubitativos.

A finales de este año tres líderes de la industria: DaimlerBenz, SPSS (entonces ISL) y NCR
formaron un consorcio, inventaron un acrónimo CRISP-DM (CRoss-Industry Standard
Process for Data Mining) y comenzaron a proponer ideas.

Actualmente existen alrededor de 200 miembros del CRISP-DM Special Interest Group (SIG),
incluidos proveedores de DM, consultores y usuarios finales. La metodología CRISP tiene la
ventaja de que no ha sido construida de manera teórica y académica sino que se basa en
experiencias reales de cómo la gente hace proyectos de DM.

El modelo CRISP-DM

La metodología se describe en términos de un proceso jerárquico, consistente en un grupo
de tareas descritas en cuatro niveles de abstracción (de general a específico): fase, tarea
genérica, tarea especializada e instancia de proceso (ver figura 1).




FIGURA 1 – NIVELES DE LA METODOLOGÍA


En el nivel superior encontramos las fases, que se dividen en varios niveles de tareas
genéricas. Este segundo nivel es llamado genérico porque pretende ser lo bastante general
como para cubrir todas las situaciones posibles.
En el tercer nivel, el de las tareas especializadas, describe cómo las tareas genéricas del
segundo nivel han de ser tratadas en determinadas situaciones. P.e. en el segundo nivel
puede haber una tarea llamada limpieza de datos y en el tercer nivel describir cómo esta
tarea cambia en situaciones diferentes, tales como la limpieza de valores numéricos frente a
la limpieza de valores categóricos.
El cuarto nivel es un registro de las acciones, decisiones y resultados del proyecto
representando lo que ha sucedido en un caso particular en lugar de lo que sucede a nivel
general.

El modelo provee una representación completa del ciclo de vida de un proyecto de DM, que
se divide en seis fases, sus tareas y relaciones entre ellas.
La secuencia de estas fases no es estricta y son frecuentes los movimientos hacia delante y
hacia atrás. Éstos dependen del resultado de cada fase o cuál es la tarea siguiente que se ha
de ejecutar.
Estas fases ayudan a las organizaciones a entender el proceso y proveen de un “mapa del
camino” a seguir: conocimiento del negocio, conocimiento de los datos, preparación de los
datos, modelado, evaluación, despliegue.




FIGURA 2 - FASES DEL MODELO CRISP-DM


La figura 2 muestra las fases de un proceso de DM. Las flechas indican las más importantes
y frecuentes dependencias entre las fases, mientras que el círculo exterior simboliza la
naturaleza cíclica de un proyecto de estas características e ilustra que las lecciones
aprendidas durante el proceso y a partir de la fase de evaluación pueden hacernos tener
nuevas cuestiones relativas al negocio. Los siguientes procesos se beneficiarán de las
experiencias obtenidas en los anteriores.

El plan del proyecto describe los timing para alcanzar los objetivos, un estándar de facto es
que el reparto sea:

•   50-70 % fase de preparación de los datos,
•   20-30 % fase de conocimiento de los datos,
•   10-20 % en el modelado, evaluación y conocimiento del negocio, y
•   5-10 % fase de despliegue.

Fase 1: Conocimiento del negocio

La fase más importante de cualquier proyecto de data mining consiste en entender
los objetivos del proyecto desde una perspectiva de negocio para a continuación
desarrollar un plan preliminar para alcanzar los objetivos.
Con el objetivo de entender qué datos deben ser analizados y cómo, es vital que los
diseñadores del proyecto tengan un completo entendimiento del negocio para el
que están encontrando una solución.
La fase de conocimiento del negocio involucra pasos clave como determinar los
objetivos del negocio, comprender la situación, determinar los objetivos del
proyecto de data mining y producir el plan del proyecto.

Fase 2: Conocimiento de los datos

Esta fase arranca con una colección inicial de datos. El analista procede a
familiarizarse con los datos, identificar la calidad de los mismos, descubrir ideas
iniciales en los datos o detectar subconjuntos para formar hipótesis sobre
información escondida.

Esta fase incluye cuatro pasos:

•   recolección inicial de los datos,
•   descripción de los mismos,
•   exploración y
•   verificación de su calidad.

Fase 3: Preparación de los datos

Cubre todas las actividades para construir el conjunto final de los datos que serán
utilizados en la(s) herramienta(s) de modelado. Las tareas incluyen la selección de
tablas, registros y atributos, así como la transformación y limpieza de los datos
para las herramientas de modelado.

Las cinco tareas incluidas en la fase de preparación de los datos son:

•   selección,
•   limpieza,
•   construcción e
•   integración y
•   formateo de los datos.

Las técnicas utilizadas para asegurar la calidad de los datos y que estén en la forma
adecuada son:

•   limpieza,
•   transformación y
•   reducción de la dimensionalidad.

Fase 4: Modelado

En esta fase, varias técnicas de modelado son seleccionadas y aplicadas y sus
parámetros son calibrados a valores óptimos. Usualmente existen varias técnicas
para los mismos problemas de data mining. Algunas de ellas tienen requerimientos
específicos en el formato de los datos, por lo que el paso atrás a la fase de
preparación de los datos puede ser necesario.

Las tareas de modelado incluyen:

•   selección de la técnica de modelado,
•   generación de las pruebas,
•   creación de los modelos e
•   interpretación.
Fase 5: Evaluación

Antes de proceder a la fase de despliegue final es importante evaluar el modelo y
revisar la construcción a fin de comprobar que se cumplen los objetivos del
negocio.

Aquí es crítico determinar si partes importantes del negocio han sido lo
suficientemente consideradas. Al final de esta fase, el líder del proyecto debe
decidir exactamente cómo utilizar los resultados del proceso de data mining.

Las fases son:

•   evaluación de los resultados,
•   revisión de los procesos y
•   determinar los siguientes pasos a seguir.

Es en esta fase y con la ayuda del analista de los datos que gracias a la naturaleza
iterativa de un proyecto de data mining pueden surgir nuevas preguntas a
responder que hagan que el proyecto retorne a la fase de conocimiento del negocio
a fin de poder responderlas.

Fase 6: Despliegue

La creación del modelo no es el final del proyecto. El conocimiento obtenido debe
ser organizado y presentado de manera que el usuario lo pueda utilizar.

Dependiendo de los requerimientos, esta fase puede ser tan simple como la
generación de un informe o tan compleja como implementar un proceso de data
mining repetible a través de la organización.

Es importante que el usuario entienda qué acciones deben ser llevadas a cabo para
utilizar los modelos creados.

Las tareas son:
•  planificar el despliegue, la monitorización y el mantenimiento,
•  generar un informe final y
•  revisar el proyecto a fin de identificar fracasos y éxitos y potenciales áreas de
   mejora para el uso en futuros proyectos.
FIGURA 3 – TAREAS GENÉRICAS Y RESULTADOS DEL MODELO


La figura 3 presenta las fases del modelo acompañadas de las tareas genéricas (en negrita)
y los resultados (en cursiva).

¿Por qué utilizar un proceso estándar?

CRISP se diseñó para dar una guía a inexpertos en DM y para proveer un modelo genérico
que se puede especializar de acuerdo con las necesidades de cualquier compañía o sector
particular, lo que permitirá a los analistas tener una razonable seguridad de que sus
esfuerzos serán útiles y válidos.

Se provee una manera de reaprovechar la experiencia y ayuda a la planificación y gestión del
proyecto.

DaimlerChrysler ha adaptado CRISP-DM para desarrollar su herramienta de CRM
especializado, SPSS y NCR han adoptado el modelo y lo han utilizado en numerosos
proyectos en diferentes industrias y con requerimientos de negocio.

No obstante el modelo no pretende ser un libro mágico de instrucciones que
instantáneamente haga al más inexperto triunfar en proyectos de DM. Sin embargo,
combinado con formación, así como con la ayuda de consultores expertos, puede ser una
valiosa herramienta para ayudar a los analistas más inexpertos a comprender las tareas
involucradas en un ciclo de vida de un proyecto de DM.


BIBLIOGRAFÍA

Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinatz, Colin
Shearer, Rudiger Wirth. CRISP-DM 1.0, Step by step data mining guide, www.spss.com,
2000.

Colin Shearer. The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data
Warehousing, volume 5, number 4, fall 2000.

CRISP-DM, www.crisp-dm.org




                              Autor: Oscar Alonso Llombart (oalonsol@uoc.edu)

Más contenido relacionado

La actualidad más candente

Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSlalopg
 
Metodología rmm resumido
Metodología rmm resumidoMetodología rmm resumido
Metodología rmm resumidoAngel Morinigo
 
Tipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y DesventajasTipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y DesventajasJuanMiguelCustodioMo
 
Implementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlImplementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlPipe Muñoz
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business IntelligenceCarlos Escobar
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOsystemprisoners
 
comunicacion de sistemas distribuidos
comunicacion de sistemas distribuidoscomunicacion de sistemas distribuidos
comunicacion de sistemas distribuidoscarlosrolo
 
AUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOSAUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOSGRECIAGALLEGOS
 
Base de datos 2(tema 3)
Base de datos 2(tema 3)Base de datos 2(tema 3)
Base de datos 2(tema 3)Edwin Arias
 
Componentes de una base de datos
Componentes de una base de datosComponentes de una base de datos
Componentes de una base de datosSteven Nuñez
 

La actualidad más candente (20)

Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Metodología rmm resumido
Metodología rmm resumidoMetodología rmm resumido
Metodología rmm resumido
 
Fundamentos de las bases de datos
Fundamentos de las bases de datosFundamentos de las bases de datos
Fundamentos de las bases de datos
 
Tipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y DesventajasTipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y Desventajas
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Administracion de Bases de datos
Administracion de Bases de datosAdministracion de Bases de datos
Administracion de Bases de datos
 
Implementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlImplementacion de bases de datos en mysql
Implementacion de bases de datos en mysql
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Modelo incremental
Modelo incrementalModelo incremental
Modelo incremental
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
 
comunicacion de sistemas distribuidos
comunicacion de sistemas distribuidoscomunicacion de sistemas distribuidos
comunicacion de sistemas distribuidos
 
Data mart
Data martData mart
Data mart
 
AUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOSAUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOS
 
Base de datos 2(tema 3)
Base de datos 2(tema 3)Base de datos 2(tema 3)
Base de datos 2(tema 3)
 
Componentes de una base de datos
Componentes de una base de datosComponentes de una base de datos
Componentes de una base de datos
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Weka completo
Weka completoWeka completo
Weka completo
 
IN Unidad 3: Minería de datos
IN Unidad 3: Minería de datosIN Unidad 3: Minería de datos
IN Unidad 3: Minería de datos
 

Similar a Metodología de Data Mining CRISP (20)

Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Session01.pptx
Session01.pptxSession01.pptx
Session01.pptx
 
Em bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementaciónEm bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementación
 
Seis sigma
Seis sigmaSeis sigma
Seis sigma
 
INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx
INTRODUCCIÓN A LA CIENCIA DE DATOS.pptxINTRODUCCIÓN A LA CIENCIA DE DATOS.pptx
INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx
 
Six sigma 3
Six sigma 3Six sigma 3
Six sigma 3
 
Six sigma
Six sigmaSix sigma
Six sigma
 
Six sigma
Six sigmaSix sigma
Six sigma
 
6 sigmas
6 sigmas6 sigmas
6 sigmas
 
6 sigmas
6 sigmas6 sigmas
6 sigmas
 
Compás contable: a dummie for a web magazine project
Compás contable: a dummie for a web magazine projectCompás contable: a dummie for a web magazine project
Compás contable: a dummie for a web magazine project
 
Six sigma
Six sigmaSix sigma
Six sigma
 
Investigación six sigma
Investigación six sigmaInvestigación six sigma
Investigación six sigma
 
Lectura 3
Lectura 3Lectura 3
Lectura 3
 
INTRODUCCIÓN A SEIS SIGMA
INTRODUCCIÓN A SEIS SIGMAINTRODUCCIÓN A SEIS SIGMA
INTRODUCCIÓN A SEIS SIGMA
 
Metodologìa integradora de procesos empresariales
Metodologìa integradora de procesos empresarialesMetodologìa integradora de procesos empresariales
Metodologìa integradora de procesos empresariales
 
Diapos de informatik terminado
Diapos de informatik  terminadoDiapos de informatik  terminado
Diapos de informatik terminado
 
CRISP-DM.v3.pdf
CRISP-DM.v3.pdfCRISP-DM.v3.pdf
CRISP-DM.v3.pdf
 

Más de Óscar Alonso

Plan de negocio eFormalia Consulting
Plan de negocio eFormalia ConsultingPlan de negocio eFormalia Consulting
Plan de negocio eFormalia ConsultingÓscar Alonso
 
ExpansióN Guia Para Subir A La Nube De Internet
ExpansióN Guia Para Subir A La Nube De InternetExpansióN Guia Para Subir A La Nube De Internet
ExpansióN Guia Para Subir A La Nube De InternetÓscar Alonso
 
Revista Cuore Oracle Tendencias En El Uso De Soa En EspañA
Revista Cuore Oracle Tendencias En El Uso De Soa En EspañARevista Cuore Oracle Tendencias En El Uso De Soa En EspañA
Revista Cuore Oracle Tendencias En El Uso De Soa En EspañAÓscar Alonso
 
La informática anda por las nubes
La informática anda por las nubesLa informática anda por las nubes
La informática anda por las nubesÓscar Alonso
 
Computerworld Informe Soa Julio 2009
Computerworld   Informe Soa   Julio 2009Computerworld   Informe Soa   Julio 2009
Computerworld Informe Soa Julio 2009Óscar Alonso
 
Tecnología por las nubes
Tecnología por las nubesTecnología por las nubes
Tecnología por las nubesÓscar Alonso
 
Gestion Guiada Eventos Hacia Bi Operacional
Gestion Guiada Eventos Hacia Bi OperacionalGestion Guiada Eventos Hacia Bi Operacional
Gestion Guiada Eventos Hacia Bi OperacionalÓscar Alonso
 
CPM y estrategias empresariales
CPM y estrategias empresarialesCPM y estrategias empresariales
CPM y estrategias empresarialesÓscar Alonso
 

Más de Óscar Alonso (10)

Plan de negocio eFormalia Consulting
Plan de negocio eFormalia ConsultingPlan de negocio eFormalia Consulting
Plan de negocio eFormalia Consulting
 
ExpansióN Guia Para Subir A La Nube De Internet
ExpansióN Guia Para Subir A La Nube De InternetExpansióN Guia Para Subir A La Nube De Internet
ExpansióN Guia Para Subir A La Nube De Internet
 
Revista Cuore Oracle Tendencias En El Uso De Soa En EspañA
Revista Cuore Oracle Tendencias En El Uso De Soa En EspañARevista Cuore Oracle Tendencias En El Uso De Soa En EspañA
Revista Cuore Oracle Tendencias En El Uso De Soa En EspañA
 
La informática anda por las nubes
La informática anda por las nubesLa informática anda por las nubes
La informática anda por las nubes
 
Observador Penteo
Observador PenteoObservador Penteo
Observador Penteo
 
Computerworld Informe Soa Julio 2009
Computerworld   Informe Soa   Julio 2009Computerworld   Informe Soa   Julio 2009
Computerworld Informe Soa Julio 2009
 
Tecnología por las nubes
Tecnología por las nubesTecnología por las nubes
Tecnología por las nubes
 
Bi Y LogíStica
Bi Y LogíSticaBi Y LogíStica
Bi Y LogíStica
 
Gestion Guiada Eventos Hacia Bi Operacional
Gestion Guiada Eventos Hacia Bi OperacionalGestion Guiada Eventos Hacia Bi Operacional
Gestion Guiada Eventos Hacia Bi Operacional
 
CPM y estrategias empresariales
CPM y estrategias empresarialesCPM y estrategias empresariales
CPM y estrategias empresariales
 

Último

9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 

Último (15)

9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 

Metodología de Data Mining CRISP

  • 1. Metodología CRISP-DM Abstract Durante 1996 el interés en data mining (a partir de ahora DM) iba creciendo pero se trataba de una industria joven e inmadura lo que provocaba que los acercamientos a este tipo de proyectos fueran dubitativos. A finales de este año tres líderes de la industria: DaimlerBenz, SPSS (entonces ISL) y NCR formaron un consorcio, inventaron un acrónimo CRISP-DM (CRoss-Industry Standard Process for Data Mining) y comenzaron a proponer ideas. Actualmente existen alrededor de 200 miembros del CRISP-DM Special Interest Group (SIG), incluidos proveedores de DM, consultores y usuarios finales. La metodología CRISP tiene la ventaja de que no ha sido construida de manera teórica y académica sino que se basa en experiencias reales de cómo la gente hace proyectos de DM. El modelo CRISP-DM La metodología se describe en términos de un proceso jerárquico, consistente en un grupo de tareas descritas en cuatro niveles de abstracción (de general a específico): fase, tarea genérica, tarea especializada e instancia de proceso (ver figura 1). FIGURA 1 – NIVELES DE LA METODOLOGÍA En el nivel superior encontramos las fases, que se dividen en varios niveles de tareas genéricas. Este segundo nivel es llamado genérico porque pretende ser lo bastante general como para cubrir todas las situaciones posibles. En el tercer nivel, el de las tareas especializadas, describe cómo las tareas genéricas del segundo nivel han de ser tratadas en determinadas situaciones. P.e. en el segundo nivel puede haber una tarea llamada limpieza de datos y en el tercer nivel describir cómo esta tarea cambia en situaciones diferentes, tales como la limpieza de valores numéricos frente a la limpieza de valores categóricos. El cuarto nivel es un registro de las acciones, decisiones y resultados del proyecto representando lo que ha sucedido en un caso particular en lugar de lo que sucede a nivel general. El modelo provee una representación completa del ciclo de vida de un proyecto de DM, que se divide en seis fases, sus tareas y relaciones entre ellas.
  • 2. La secuencia de estas fases no es estricta y son frecuentes los movimientos hacia delante y hacia atrás. Éstos dependen del resultado de cada fase o cuál es la tarea siguiente que se ha de ejecutar. Estas fases ayudan a las organizaciones a entender el proceso y proveen de un “mapa del camino” a seguir: conocimiento del negocio, conocimiento de los datos, preparación de los datos, modelado, evaluación, despliegue. FIGURA 2 - FASES DEL MODELO CRISP-DM La figura 2 muestra las fases de un proceso de DM. Las flechas indican las más importantes y frecuentes dependencias entre las fases, mientras que el círculo exterior simboliza la naturaleza cíclica de un proyecto de estas características e ilustra que las lecciones aprendidas durante el proceso y a partir de la fase de evaluación pueden hacernos tener nuevas cuestiones relativas al negocio. Los siguientes procesos se beneficiarán de las experiencias obtenidas en los anteriores. El plan del proyecto describe los timing para alcanzar los objetivos, un estándar de facto es que el reparto sea: • 50-70 % fase de preparación de los datos, • 20-30 % fase de conocimiento de los datos, • 10-20 % en el modelado, evaluación y conocimiento del negocio, y • 5-10 % fase de despliegue. Fase 1: Conocimiento del negocio La fase más importante de cualquier proyecto de data mining consiste en entender los objetivos del proyecto desde una perspectiva de negocio para a continuación desarrollar un plan preliminar para alcanzar los objetivos.
  • 3. Con el objetivo de entender qué datos deben ser analizados y cómo, es vital que los diseñadores del proyecto tengan un completo entendimiento del negocio para el que están encontrando una solución. La fase de conocimiento del negocio involucra pasos clave como determinar los objetivos del negocio, comprender la situación, determinar los objetivos del proyecto de data mining y producir el plan del proyecto. Fase 2: Conocimiento de los datos Esta fase arranca con una colección inicial de datos. El analista procede a familiarizarse con los datos, identificar la calidad de los mismos, descubrir ideas iniciales en los datos o detectar subconjuntos para formar hipótesis sobre información escondida. Esta fase incluye cuatro pasos: • recolección inicial de los datos, • descripción de los mismos, • exploración y • verificación de su calidad. Fase 3: Preparación de los datos Cubre todas las actividades para construir el conjunto final de los datos que serán utilizados en la(s) herramienta(s) de modelado. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y limpieza de los datos para las herramientas de modelado. Las cinco tareas incluidas en la fase de preparación de los datos son: • selección, • limpieza, • construcción e • integración y • formateo de los datos. Las técnicas utilizadas para asegurar la calidad de los datos y que estén en la forma adecuada son: • limpieza, • transformación y • reducción de la dimensionalidad. Fase 4: Modelado En esta fase, varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros son calibrados a valores óptimos. Usualmente existen varias técnicas para los mismos problemas de data mining. Algunas de ellas tienen requerimientos específicos en el formato de los datos, por lo que el paso atrás a la fase de preparación de los datos puede ser necesario. Las tareas de modelado incluyen: • selección de la técnica de modelado, • generación de las pruebas, • creación de los modelos e • interpretación.
  • 4. Fase 5: Evaluación Antes de proceder a la fase de despliegue final es importante evaluar el modelo y revisar la construcción a fin de comprobar que se cumplen los objetivos del negocio. Aquí es crítico determinar si partes importantes del negocio han sido lo suficientemente consideradas. Al final de esta fase, el líder del proyecto debe decidir exactamente cómo utilizar los resultados del proceso de data mining. Las fases son: • evaluación de los resultados, • revisión de los procesos y • determinar los siguientes pasos a seguir. Es en esta fase y con la ayuda del analista de los datos que gracias a la naturaleza iterativa de un proyecto de data mining pueden surgir nuevas preguntas a responder que hagan que el proyecto retorne a la fase de conocimiento del negocio a fin de poder responderlas. Fase 6: Despliegue La creación del modelo no es el final del proyecto. El conocimiento obtenido debe ser organizado y presentado de manera que el usuario lo pueda utilizar. Dependiendo de los requerimientos, esta fase puede ser tan simple como la generación de un informe o tan compleja como implementar un proceso de data mining repetible a través de la organización. Es importante que el usuario entienda qué acciones deben ser llevadas a cabo para utilizar los modelos creados. Las tareas son: • planificar el despliegue, la monitorización y el mantenimiento, • generar un informe final y • revisar el proyecto a fin de identificar fracasos y éxitos y potenciales áreas de mejora para el uso en futuros proyectos.
  • 5. FIGURA 3 – TAREAS GENÉRICAS Y RESULTADOS DEL MODELO La figura 3 presenta las fases del modelo acompañadas de las tareas genéricas (en negrita) y los resultados (en cursiva). ¿Por qué utilizar un proceso estándar? CRISP se diseñó para dar una guía a inexpertos en DM y para proveer un modelo genérico que se puede especializar de acuerdo con las necesidades de cualquier compañía o sector particular, lo que permitirá a los analistas tener una razonable seguridad de que sus esfuerzos serán útiles y válidos. Se provee una manera de reaprovechar la experiencia y ayuda a la planificación y gestión del proyecto. DaimlerChrysler ha adaptado CRISP-DM para desarrollar su herramienta de CRM especializado, SPSS y NCR han adoptado el modelo y lo han utilizado en numerosos proyectos en diferentes industrias y con requerimientos de negocio. No obstante el modelo no pretende ser un libro mágico de instrucciones que instantáneamente haga al más inexperto triunfar en proyectos de DM. Sin embargo, combinado con formación, así como con la ayuda de consultores expertos, puede ser una valiosa herramienta para ayudar a los analistas más inexpertos a comprender las tareas involucradas en un ciclo de vida de un proyecto de DM. BIBLIOGRAFÍA Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinatz, Colin Shearer, Rudiger Wirth. CRISP-DM 1.0, Step by step data mining guide, www.spss.com, 2000. Colin Shearer. The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data Warehousing, volume 5, number 4, fall 2000. CRISP-DM, www.crisp-dm.org Autor: Oscar Alonso Llombart (oalonsol@uoc.edu)