Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 44 Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Anuncio

Similares a mineria de datos (20)

Anuncio

Más reciente (20)

mineria de datos

  1. 1. DATA WAREHOUSE & DATA MINING http://www.espol.edu.ec
  2. 2. INTEGRANTES <ul><li>Bastidas Santos Washington Raúl </li></ul><ul><li>López Serrano Silvio Stephan </li></ul><ul><li>Montiel Salazar Marcos Xavier  </li></ul>
  3. 3. DATA WAREHOUSE
  4. 4. INTRODUCCIÓN <ul><li>DW es una tecnología construida para optimizar el uso y análisis de información utilizado por las organizaciones para adaptarse a los cambios en los mercados. </li></ul><ul><li>Su función esencial es ser la base de un sistema de información gerencial. Debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas. </li></ul>
  5. 5. <ul><li>Se caracteriza por ser integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza </li></ul>DATA WAREHOUSE
  6. 6. DETALLES <ul><li>El DW se encuentra normalmente implementado dentro de una arquitectura de cliente/servidor. </li></ul><ul><li>Por la complejidad de los DW es común utilizar middleware entre los clientes y los servidores dando una arquitectura de 3 niveles ( three tier ). </li></ul>
  7. 8. ARQUITECTURA <ul><li>Online Transaction Processing (OLTP) </li></ul><ul><li>Consolidación </li></ul><ul><li>Middleware </li></ul><ul><li>Online Analytical Process (OLAP) </li></ul><ul><li>Data Marts </li></ul>
  8. 9. OLTP <ul><li>Consultas rápidas, escuetas y predecibles </li></ul><ul><li>Poco volumen de información e información disgregada </li></ul><ul><li>Transacciones rápidas </li></ul><ul><li>Gran nivel de concurrencia </li></ul><ul><li>Modo de actualización on-line </li></ul><ul><li>Baja redundancia de datos </li></ul>
  9. 10. <ul><li>Consolidación </li></ul><ul><li>Se encarga de producir el cambio de los sistemas OLTP a las Bases de Datos OLAP. (comprobar validez, consistencia, actualización, propagación datos) </li></ul><ul><li>Middleware </li></ul><ul><li>Es un término genérico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas </li></ul>
  10. 11. OLAP <ul><li>Estructura de datos transparente al usuario </li></ul><ul><li>Solo Consulta, trabajan sobre la información operacional generada por los sistemas OLTP </li></ul><ul><li>Consultas sobre grandes volúmenes de datos no predecibles </li></ul><ul><li>Información histórica </li></ul><ul><li>Modo de actualización Batch </li></ul><ul><li>Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta </li></ul><ul><li>Poderoso Back-end analítico para múltiples aplicaciones de usuarios </li></ul>
  11. 12. TIPOS DE SISTEMAS OLAP <ul><li>ROLAP </li></ul><ul><li>Motor relacional. Datos detallados, tablas normalizadas. Los esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve </li></ul><ul><li>MOLAP </li></ul><ul><li>Base de datos multidimensional. el resumen de la información es usualmente calculado por adelantado. </li></ul><ul><li>HOLAP (Hybrid OLAP ) </li></ul><ul><li>Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional </li></ul>
  12. 13. DATA MARTS
  13. 14. DATA MARTS <ul><li>Es una versión especial de DW </li></ul><ul><li>El Data Mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos. </li></ul><ul><li>Es consultado mediante herramientas OLAP que ofrecen una visión multidimensional de la información. </li></ul><ul><li>Sobre estas bases de datos se pueden construir EIS y DSS . </li></ul><ul><li>Data Mining: Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil. </li></ul>
  14. 15. IMPLEMENTACIONES DE DW <ul><li>DW central: un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa. </li></ul><ul><li>DW distribuido: estructura de un solo nivel que se particiona para distribuirlo a nivel departamental. </li></ul><ul><li>DW de dos niveles: soporta requerimientos de información tanto a nivel empresarial como departamental. </li></ul>
  15. 16. Extract, Transform and Load (ETL)
  16. 17. EXTRACT, TRANSFORM AND LOAD (ETL) <ul><li>Extraer los datos desde los sistemas de origen (Normalmente en DB relacionales). Debe causar un impacto mínimo. </li></ul><ul><li>Transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. </li></ul><ul><li>Carga los datos de la fase anterior en el sistema de destino. Se aplicarán todas las restricciones y triggers definidos. </li></ul>
  17. 18. ETL – PROCESAMIENTO PARALELO <ul><li>De datos: dividir un único archivo secuencial en pequeños archivos de datos. </li></ul><ul><li>De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios componentes en el mismo flujo de datos. </li></ul><ul><li>De componente: funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos en el mismo puesto de trabajo. </li></ul>
  18. 19. ESQUEMA EN ESTRELLA <ul><ul><li>Modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el análisis, rodeada de las dimensiones estas tiene una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las demás. </li></ul></ul>
  19. 20. ESQUEMA EN COPO DE NIEVE <ul><li>Un esquema en copo de nieve es una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de las dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las tablas y así reducir el espacio de almacenamiento al eliminar la redundancia de datos </li></ul>
  20. 21. DATAWAREHOUSE – DATA MINING
  21. 22. DATA WAREHOUSE
  22. 23. EXECUTIVE INFORMATION SYSTEM (EIS) <ul><li>Herramienta orientada a usuarios de nivel gerencial. </li></ul><ul><li>Permite a usuarios con perfil no técnico construir nuevos informes y navegar por los datos de la compañía para descubrir información relevante. </li></ul><ul><li>Provee acceso instantáneo al estado de los indicadores de negocio que le afectan. </li></ul>
  23. 24. DECISION SUPPORT SYSTEM (DSS) <ul><li>Sistema informático utilizado para servir de apoyo, más que automatizar, el proceso de toma de decisiones, realizando análisis de las diferentes variables del negocio. </li></ul><ul><li>Capacidad de análisis multidimensional (OLAP) que permite profundizar en la información hasta llegar a un alto nivel de detalle </li></ul>
  24. 27. DATA MINING
  25. 28. INTRODUCCION <ul><li>Proceso de extraer conocimiento útil y comprensible, previamente desconocido ( Witten y Frank, 2000 ) </li></ul><ul><li>Que no es? </li></ul><ul><ul><li>Data warehousing </li></ul></ul><ul><ul><li>SQL / Ad Hoc Queries / Reporting </li></ul></ul><ul><ul><li>Software Agents </li></ul></ul><ul><ul><li>Online Analytical Processing (OLAP) </li></ul></ul><ul><ul><li>Data Visualization </li></ul></ul>“ Rico en datos, Pobre en información ” Conocimiento (patrones interesantes)
  26. 29. POR QUÉ MINERÍA DE DATOS? <ul><li>Gran cantidad de datos para analizar de forma clásica </li></ul><ul><li>¿Cómo explorar millones de registros, decenas o cientos de campos, y encontrar patrones? </li></ul>QUERY RESULT (Latitude, Longitude) 1 (Latitude, Longitude) 2
  27. 30. Knowledge Discovery in Databases Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos ”. Fayyad et al. 1996
  28. 31. Computational Knowledge Discovery
  29. 32. QUÉ TIPOS DE DATOS ? <ul><li>Data Warehouses </li></ul><ul><li>Base de Datos Transaccionales </li></ul><ul><li>Sistemas de Base de Datos Avanzado: </li></ul><ul><ul><li>Objetos Relacionales </li></ul></ul><ul><ul><li>Temporales y Espaciales </li></ul></ul><ul><ul><li>Serie de Tiempo </li></ul></ul><ul><ul><li>Multimedia, Texto </li></ul></ul><ul><ul><li>WWW </li></ul></ul>Structure - 3D Anatomy Function – 1D Signal Metadata – Annotation
  30. 33. MULTIPLES DISCIPLINAS ? 20x20 ~ 2^400  10^120 patterns
  31. 34. CLASIFICACIÓN DE ALGORITMOS
  32. 35. CLASIFICACIÓN <ul><li>Encuentra modelos que describen y distinguen clases o conceptos. </li></ul><ul><li>El objetivo es describir los datos o para hacer el futuro de predicción. </li></ul><ul><li>Árbol de decisiones, la clasificación general, redes neuronales. </li></ul>
  33. 36. EJEMPLO CLASIFICACIÓN categoria categoria Continuo clase Test Set Training Set Modelo Clasifica- dor
  34. 37. REPRESENTACIÓN : ÁRBOL DE DECISIONES Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced < 80K > 80K Atributos Divididos categoria categoria continuo clase
  35. 38. CLUSTERING <ul><li>Divide la información en diferentes grupos. </li></ul><ul><li>A diferencia de la clasificación, no se sabe donde habrá clúster o con que atributos de los datos se harán los clústeres. </li></ul><ul><li>Algoritmo K-means y Mapas de Presentación de Kohonen </li></ul><ul><li>Clustering schemes </li></ul><ul><ul><li>Basado en Distancia ( Distancia entre vectores ) </li></ul></ul><ul><ul><li>Basado en Partición (Enumera y valora) </li></ul></ul><ul><ul><li>Basado en Modelo( </li></ul></ul>
  36. 39. ALGORITMO K-MEANS Initial seeds
  37. 40. ALGORITMO K-MEANS Nuevos Centros
  38. 41. ALGORITMO K-MEANS Centros Finales
  39. 42. MODELO LÓGICO Mining Model Mining Model Training Data DB data Client data Application data Data Mining Engine To Predict Predicted Data Mining Model DB data Client data Application data “ Just one row ” Data Mining Engine algorithm
  40. 43. MODELO FÍSICO Analysis Services Server Mining Model Data Mining Algorithm Data Source Interfaz Gráfica OLE DB/ ADOMD/ XMLA App Data Resultado de la Evaulacion
  41. 44. MINERIA DE DATOS DISTRIBUIDA <ul><li>Hacer frente a plataformas heterogéneas, con múltiples bases de datos y (posiblemente) diferentes esquemas </li></ul><ul><li>Diseñar e implementar protocolos escalables y eficaces para la comunicación con los datos de los sitios. </li></ul><ul><li>Combine información recién adquiridos que previamente no estaban disponibles cuando los modelos se calcularon con los modelos existentes </li></ul><ul><li>La flexibilidad para incorporar nuevas técnicas de minería de datos </li></ul>

Notas del editor

×