Descubrimiento de Conocimiento en Bases de Datos “ Proceso  no trivial de identificación de patrones  válidos ,  novedosos , potencialmente  útiles  y deseablemente  entendibles  a partir de datos” proces o :  KDD es iterativo, al encontrar información útil en los datos, se realizan mejores preguntas  v á lid o :  generalizable para el futuro nov edoso :  desconocido con anterioridad útil :  aplicable, útil para nuestra meta  entendible :  nos lleva a comprensión
Descubrimiento de Conocimiento en Bases de datos Implícitamente existe una medida (definida por el usuario), que determina qué tan  interesantes  pueden  ser los patrones. Existe un pre- y post-procesamiento significativo de datos La extracción de patrones (minería) de los datos ocupa solo el 15%-20% del esfuerzo total del proceso de KDD
Metas Procesar automáticamente grandes cantidades de datos crudos, Identificar los patrones más significativos y relevantes, y Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Areas Relacionadas KDD es un nuevo campo multidisciplinario Recono. de patrones Soft computing Aprend. Computa. Estadística Base de datos Cómputo   de alto desempeño Visualización KDD
Areas Relacionadas Tecno. BD y Bodegas de Datos: maneras eficientes de almacenar, accesar y manipular datos Aprend., estadística,  soft computing* : desarrollo de técnicas para extraer conocimiento de datos Reconocimiento de patrones: desarrollo de herramientas de clasificación Visualización: interfaz entre humanos y datos/patrones Cómputo de alto desempeño: mejora de desempeño de algoritmos debido a su complejidad y cantidad de datos (*) redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico
Componentes: Interface Evaluación Extracc. Patrones BD Conocimiento Del dominio Interface BD Control Foco de Atención
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos => KDD involucra interacciones complejas con herramientas heterogéneas.
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Tradicional mente   una simple tabla en  ASCII Tendencia   a   Bodegas de Datos que están optimizadas para proceso analítico  Herramientas de  KDD  pueden incluir mecanismos para almacenar y accesar datos
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos S elec ción  de conjunto o subconjunto de bases de datos  S elec ción de subconjunto de variables a usar en DM  S elec cción   de muestras de datos  (instanc ia s)
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Limpieza de datos y preprocesamiento  Eliminación de ruido y casos extremos  ( si  apropia do   y  neces ario ) Manejo de datos faltantes y desconocidos
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Transforma c i ó n  al formato requerido por el algoritmo específico de minería de datos
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Búsqueda de patrones de interés en una forma particular de representación  Pueden expresarse como un modelo, o  Como un patrón que expresa cierta dependencia entre datos  Incluye  clasifica c i ó n, regresi ó n, clustering, r. neuronales...
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos El modelo: Su función  (clasifica c i ó n, regresi ó n, clustering, …) Forma de  representa rlo  ( función  linea l ,  conjunto de reglas , …) Criterio de preferencia Qué modelo dentro de un conjunto de modelos es el mejor ? Qué conjunto de parámetros del modelo? Estrategia de búsqueda
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Proceso de  KDD Crucial! Interpreta c i ó n  de los patrones descubiertos ,  puede beneficiarse grandemente usando visualización  Puede borrar patrones redundantes o irrelevantes Los patrones pueden compararse con conocimiento previamente almacenado (o extraido)
Proceso de  KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Realizar acciones Incorpora r el conocimiento descubierto en un sistema de desempeño Document ar el conocimiento y reportarlo a personas interesadas

Parte1

  • 1.
    Descubrimiento de Conocimientoen Bases de Datos “ Proceso no trivial de identificación de patrones válidos , novedosos , potencialmente útiles y deseablemente entendibles a partir de datos” proces o : KDD es iterativo, al encontrar información útil en los datos, se realizan mejores preguntas v á lid o : generalizable para el futuro nov edoso : desconocido con anterioridad útil : aplicable, útil para nuestra meta entendible : nos lleva a comprensión
  • 2.
    Descubrimiento de Conocimientoen Bases de datos Implícitamente existe una medida (definida por el usuario), que determina qué tan interesantes pueden ser los patrones. Existe un pre- y post-procesamiento significativo de datos La extracción de patrones (minería) de los datos ocupa solo el 15%-20% del esfuerzo total del proceso de KDD
  • 3.
    Metas Procesar automáticamentegrandes cantidades de datos crudos, Identificar los patrones más significativos y relevantes, y Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
  • 4.
    Areas Relacionadas KDDes un nuevo campo multidisciplinario Recono. de patrones Soft computing Aprend. Computa. Estadística Base de datos Cómputo de alto desempeño Visualización KDD
  • 5.
    Areas Relacionadas Tecno.BD y Bodegas de Datos: maneras eficientes de almacenar, accesar y manipular datos Aprend., estadística, soft computing* : desarrollo de técnicas para extraer conocimiento de datos Reconocimiento de patrones: desarrollo de herramientas de clasificación Visualización: interfaz entre humanos y datos/patrones Cómputo de alto desempeño: mejora de desempeño de algoritmos debido a su complejidad y cantidad de datos (*) redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico
  • 6.
    Componentes: Interface EvaluaciónExtracc. Patrones BD Conocimiento Del dominio Interface BD Control Foco de Atención
  • 7.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos => KDD involucra interacciones complejas con herramientas heterogéneas.
  • 8.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Tradicional mente una simple tabla en ASCII Tendencia a Bodegas de Datos que están optimizadas para proceso analítico Herramientas de KDD pueden incluir mecanismos para almacenar y accesar datos
  • 9.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos S elec ción de conjunto o subconjunto de bases de datos S elec ción de subconjunto de variables a usar en DM S elec cción de muestras de datos (instanc ia s)
  • 10.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Limpieza de datos y preprocesamiento Eliminación de ruido y casos extremos ( si apropia do y neces ario ) Manejo de datos faltantes y desconocidos
  • 11.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Transforma c i ó n al formato requerido por el algoritmo específico de minería de datos
  • 12.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Búsqueda de patrones de interés en una forma particular de representación Pueden expresarse como un modelo, o Como un patrón que expresa cierta dependencia entre datos Incluye clasifica c i ó n, regresi ó n, clustering, r. neuronales...
  • 13.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos El modelo: Su función (clasifica c i ó n, regresi ó n, clustering, …) Forma de representa rlo ( función linea l , conjunto de reglas , …) Criterio de preferencia Qué modelo dentro de un conjunto de modelos es el mejor ? Qué conjunto de parámetros del modelo? Estrategia de búsqueda
  • 14.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Proceso de KDD Crucial! Interpreta c i ó n de los patrones descubiertos , puede beneficiarse grandemente usando visualización Puede borrar patrones redundantes o irrelevantes Los patrones pueden compararse con conocimiento previamente almacenado (o extraido)
  • 15.
    Proceso de KDD P roces o general de descubrimiento de conocimiento útil a partir de datos Realizar acciones Incorpora r el conocimiento descubierto en un sistema de desempeño Document ar el conocimiento y reportarlo a personas interesadas