SlideShare una empresa de Scribd logo
1 de 16
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 16
Funcionalidad
Predictiva:
◦ En base a una clasificación: por ejemplo si el cliente
pagará o no pagará, o el tipo de dolencia que puede
tener un paciente.
◦ En base a una regresión: por ejemplo calcular el
tiempo previsible que se empleará en corregir los
errores de un desarrollo de software.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 17
Funcionalidad
Descriptiva:
◦ Agrupamiento (clustering): clasificar individuos en
grupos en base a sus características. Por ejemplo,
clasificar pacientes del hospital.
◦ Reglas de asociación: conocer cómo se relacionan los
datos o campos. Por ejemplo conocer en el
hipermercado que un cliente que compra leche muy
probablemente comprará también pan.
◦ Secuenciación: intentar predecir el valor de una
variable en función del tiempo. Por ejemplo la
demanda de energía eléctrica.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 18
Relación con otras
disciplinas
Las bases de datos. Uso de almacenes de datos y/o
OLAP (On-Line Analytical Processing).
◦ OLAP Este tipo de procesamiento en tiempo real
maneja operaciones únicamente de consulta sobre
grandes cantidades de información con la finalidad
de realizar informes y resúmenes → toma de
decisiones.
La recuperación de información. Obtener información
desde datos textuales.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 19
Relación con otras
disciplinas
La estadística. Son necesarios cálculos para obtener: la
media, la varianza, las distribuciones, el análisis
univariante y multivariante, la regresión lineal y no
lineal, la teoría del muestreo, la validación cruzada, la
modelación paramétrica y no paramétrica, técnicas
bayesianas.
El aprendizaje automático. La máquina usa algunos
ejemplos para aprender un modelo y los utiliza para
resolver el problema.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 20
Relación con otras
disciplinas
Los sistemas para la toma de decisión. El análisis ROC
(Receiver Operating Characteristic) y los árboles de
decisión.
La visualización de datos. Uso de diagramas de barras,
graficas de dispersión, histogramas, coloreado de
imágenes.
La computación paralela y distribuida. Distribuir las
tareas más complejas entre diferentes procesadores o
nodos.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 21
Relación con otras
disciplinas
Procesamiento del lenguaje natural. Es una disciplina
encargada de producir sistemas informáticos que
ayuden en la comunicación, por medio de la voz o del
texto.
El proceso de KDD
MC BEATRIZ BELTRÁN MARTÍNEZ
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 23
KDD
El KDD (Knowledge Discovery from Databases) es el
proceso no trivial de identificar patrones válidos,
novedosos, potencialmente útiles y en última instancia,
comprensibles a partir de los datos. (Fayyad)
El objetivo fundamental del KDD (Knowledge Discovery
from Databases), es encontrar conocimiento útil,
válido, relevante y nuevo sobre una determinada
actividad mediante algoritmos, dadas las crecientes
órdenes de magnitud en los datos
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 24
Etapas de KDD
Datos Datos
objetivos
Datos
procesados
Patrones
Datos
transformados
Conocimiento
Selección
Preprocesamiento
Transformación
Minería de Datos
Interpretación/
Evaluación
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 25
Etapas de KDD
Selección de datos. Consiste en buscar el objetivo y las
herramientas del proceso de minería, identificando los
datos que han ser extraídos, buscando los atributos
apropiados de entrada y la información de salida para
representar la tarea.
Esto quiere decir, primero se debe tener en cuenta lo
que se saber lo que se quiere obtener y cuáles son los
datos que nos facilitarán esa información para poder
llegar a nuestra meta, antes de comenzar el proceso en
tal.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 26
Etapas de KDD
Limpieza de datos. En este paso se limpian los datos
sucios, incluyendo los datos incompletos (donde hay
atributos o valores de atributos perdidos), el ruido
(valores incorrectos o inesperados) y datos
inconsistentes (conteniendo valores y atributos con
nombres diferentes).
Los datos sucios en algunos casos deben ser eliminados
ya que pueden contribuir a un análisis inexacto y
resultados incorrectos.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 27
Etapas de KDD
Integración de datos. Combina datos de múltiples
procedencias incluyendo múltiples bases de datos, que
podrían tener diferentes contenidos y formatos.
Transformación de datos. Consisten en modificaciones
sintácticas llevadas a cabo sobre datos sin que
supongan un cambio para la técnica de minería
aplicada. Las transformaciones discretas de los datos
tienen la ventaja de que mejoran la comprensión de las
reglas descubiertas al transformar los datos de bajo
nivel en datos de alto y también reduce el tiempo de
ejecución del algoritmo de búsqueda.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 28
Etapas de KDD
Su principal desventaja es que se puede reducir la
exactitud del conocimiento descubierto, debido a que
puede causar la perdida de alguna información.
Reducción de datos. Reducir el tamaño de los datos,
encontrando las características Más significativas
dependiendo del objetivo del proceso.
Se pueden utilizar métodos de transformación para
reducir el número efectivo de variables a ser
consideradas, o para encontrar otras representaciones
de los datos.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 29
Etapas de KDD
◦ reducción de dimensiones (la extracción irrelevante y
débil de atributo), compresión de datos
(reemplazando valores de datos con datos
alternativos codificados),
◦ reducción de tamaño (reemplazando valores de
datos con representación alternativa más pequeña),
◦ una generalización de datos (reemplazando valores
de datos de niveles conceptuales bajos con niveles
conceptuales más altos), etc.
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 30
Etapas de KDD
Minería de Datos. Consiste en la búsqueda de los
patrones de interés que pueden Expresarse como un
modelo o simplemente que expresen dependencia de
los datos.
Se tiene que especificar un criterio de preferencia para
seleccionar un modelo de un conjunto de posibles
modelos. También se tiene que especificar la estrategia
de búsqueda a utilizar (normalmente está determinado
en el algoritmo de minería).
Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 31
Etapas de KDD
Evaluación de los patrones. Se identifican
verdaderamente patrones interesantes que
representan conocimiento usando diferentes técnicas
incluyendo análisis estadísticos y lenguajes de
consultas.
Interpretación de resultados. Consiste en entender los
resultados del análisis y sus implicaciones y puede
llevar a regresar a algunos de los pasos anteriores

Más contenido relacionado

Similar a Tipos Data Mining.ppt (20)

Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Parte1
Parte1Parte1
Parte1
 
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
 
Mineria1 2010
Mineria1 2010Mineria1 2010
Mineria1 2010
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.ppt
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Conceptos de minería de datos
Conceptos de minería de datosConceptos de minería de datos
Conceptos de minería de datos
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
 

Último

PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfvladimiroflores1
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfAnnimoUno1
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 

Último (11)

PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 

Tipos Data Mining.ppt

  • 1. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 16 Funcionalidad Predictiva: ◦ En base a una clasificación: por ejemplo si el cliente pagará o no pagará, o el tipo de dolencia que puede tener un paciente. ◦ En base a una regresión: por ejemplo calcular el tiempo previsible que se empleará en corregir los errores de un desarrollo de software.
  • 2. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 17 Funcionalidad Descriptiva: ◦ Agrupamiento (clustering): clasificar individuos en grupos en base a sus características. Por ejemplo, clasificar pacientes del hospital. ◦ Reglas de asociación: conocer cómo se relacionan los datos o campos. Por ejemplo conocer en el hipermercado que un cliente que compra leche muy probablemente comprará también pan. ◦ Secuenciación: intentar predecir el valor de una variable en función del tiempo. Por ejemplo la demanda de energía eléctrica.
  • 3. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 18 Relación con otras disciplinas Las bases de datos. Uso de almacenes de datos y/o OLAP (On-Line Analytical Processing). ◦ OLAP Este tipo de procesamiento en tiempo real maneja operaciones únicamente de consulta sobre grandes cantidades de información con la finalidad de realizar informes y resúmenes → toma de decisiones. La recuperación de información. Obtener información desde datos textuales.
  • 4. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 19 Relación con otras disciplinas La estadística. Son necesarios cálculos para obtener: la media, la varianza, las distribuciones, el análisis univariante y multivariante, la regresión lineal y no lineal, la teoría del muestreo, la validación cruzada, la modelación paramétrica y no paramétrica, técnicas bayesianas. El aprendizaje automático. La máquina usa algunos ejemplos para aprender un modelo y los utiliza para resolver el problema.
  • 5. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 20 Relación con otras disciplinas Los sistemas para la toma de decisión. El análisis ROC (Receiver Operating Characteristic) y los árboles de decisión. La visualización de datos. Uso de diagramas de barras, graficas de dispersión, histogramas, coloreado de imágenes. La computación paralela y distribuida. Distribuir las tareas más complejas entre diferentes procesadores o nodos.
  • 6. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 21 Relación con otras disciplinas Procesamiento del lenguaje natural. Es una disciplina encargada de producir sistemas informáticos que ayuden en la comunicación, por medio de la voz o del texto.
  • 7. El proceso de KDD MC BEATRIZ BELTRÁN MARTÍNEZ
  • 8. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 23 KDD El KDD (Knowledge Discovery from Databases) es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia, comprensibles a partir de los datos. (Fayyad) El objetivo fundamental del KDD (Knowledge Discovery from Databases), es encontrar conocimiento útil, válido, relevante y nuevo sobre una determinada actividad mediante algoritmos, dadas las crecientes órdenes de magnitud en los datos
  • 9. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 24 Etapas de KDD Datos Datos objetivos Datos procesados Patrones Datos transformados Conocimiento Selección Preprocesamiento Transformación Minería de Datos Interpretación/ Evaluación
  • 10. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 25 Etapas de KDD Selección de datos. Consiste en buscar el objetivo y las herramientas del proceso de minería, identificando los datos que han ser extraídos, buscando los atributos apropiados de entrada y la información de salida para representar la tarea. Esto quiere decir, primero se debe tener en cuenta lo que se saber lo que se quiere obtener y cuáles son los datos que nos facilitarán esa información para poder llegar a nuestra meta, antes de comenzar el proceso en tal.
  • 11. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 26 Etapas de KDD Limpieza de datos. En este paso se limpian los datos sucios, incluyendo los datos incompletos (donde hay atributos o valores de atributos perdidos), el ruido (valores incorrectos o inesperados) y datos inconsistentes (conteniendo valores y atributos con nombres diferentes). Los datos sucios en algunos casos deben ser eliminados ya que pueden contribuir a un análisis inexacto y resultados incorrectos.
  • 12. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 27 Etapas de KDD Integración de datos. Combina datos de múltiples procedencias incluyendo múltiples bases de datos, que podrían tener diferentes contenidos y formatos. Transformación de datos. Consisten en modificaciones sintácticas llevadas a cabo sobre datos sin que supongan un cambio para la técnica de minería aplicada. Las transformaciones discretas de los datos tienen la ventaja de que mejoran la comprensión de las reglas descubiertas al transformar los datos de bajo nivel en datos de alto y también reduce el tiempo de ejecución del algoritmo de búsqueda.
  • 13. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 28 Etapas de KDD Su principal desventaja es que se puede reducir la exactitud del conocimiento descubierto, debido a que puede causar la perdida de alguna información. Reducción de datos. Reducir el tamaño de los datos, encontrando las características Más significativas dependiendo del objetivo del proceso. Se pueden utilizar métodos de transformación para reducir el número efectivo de variables a ser consideradas, o para encontrar otras representaciones de los datos.
  • 14. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 29 Etapas de KDD ◦ reducción de dimensiones (la extracción irrelevante y débil de atributo), compresión de datos (reemplazando valores de datos con datos alternativos codificados), ◦ reducción de tamaño (reemplazando valores de datos con representación alternativa más pequeña), ◦ una generalización de datos (reemplazando valores de datos de niveles conceptuales bajos con niveles conceptuales más altos), etc.
  • 15. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 30 Etapas de KDD Minería de Datos. Consiste en la búsqueda de los patrones de interés que pueden Expresarse como un modelo o simplemente que expresen dependencia de los datos. Se tiene que especificar un criterio de preferencia para seleccionar un modelo de un conjunto de posibles modelos. También se tiene que especificar la estrategia de búsqueda a utilizar (normalmente está determinado en el algoritmo de minería).
  • 16. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 31 Etapas de KDD Evaluación de los patrones. Se identifican verdaderamente patrones interesantes que representan conocimiento usando diferentes técnicas incluyendo análisis estadísticos y lenguajes de consultas. Interpretación de resultados. Consiste en entender los resultados del análisis y sus implicaciones y puede llevar a regresar a algunos de los pasos anteriores