Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

La minería de datos en el proceso de KDD

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 33 Anuncio

La minería de datos en el proceso de KDD

Descargar para leer sin conexión

La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.los contenidos de la unidad 2.

La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.los contenidos de la unidad 2.

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a La minería de datos en el proceso de KDD (20)

Anuncio

Más reciente (20)

La minería de datos en el proceso de KDD

  1. 1. Minería de Datos I Dr. Ricardo Rico Molina rricom@uaemex.mx Centro Universitario UAEM Nezahualcóyotl
  2. 2. Directorio Titulo de la presentación
  3. 3. Directorio Nezahualcóyotl Titulo de la presentación Dra. en C. Magally Martínez Reyes Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl M. en GyA. P. Ma. Teresa Cruz Patiño Subdirector Académico CP. Martha Osorio González Subdirector Administrativo D. en C.A. Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados M. en A. Victor Manuel Durán López Coordinador de Planeación y Desarrollo Institucional M. en C. E. Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional M S.S. Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud Dra. en Ing. de Sist. Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas Inteligentes M. en I. Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte Dr. en E.J. Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana
  4. 4. Mapa curricular Titulo de la presentación
  5. 5. Contenido Titulo de la presentación Minería de Datos Unidad 2. La minería de datos en el proceso de KDD Contenidos: 2.1 Etapas de proceso de KDD 2.1.1 Integración y recopilación 2.1.2 Selección, limpieza y transformación 2.1.3 Minería de Datos 2.1.4 Evaluación e Interpretación 2.1.5 Difusión y uso
  6. 6. Secuencia Didáctica Unidad 2. La minería de datos en el proceso de KDD 2.1 Etapas de proceso de KDD 2.1.1 Integración y recopilación 2.1.2 Selección, limpieza y transformación 2.1.3 Minería de Datos 2.1.4 Evaluación e Interpretación 2.1.5 Difusión y uso
  7. 7. Presentación Titulo de la presentación El presente Material Visual de la Unidad de Aprendizaje Mineria de datos de la licenciatura en Ingeniería en Sistemas Inteligentes reúne los contenidos de la unidad 2. La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD, Integración y recopilación, Selección, limpieza y transformación, Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.
  8. 8. 2.1 Etapas de proceso de KDD ¿Que es KDD? De acuerdo a Fallad et al., 1996 el KDD es el Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos . El cual se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados.
  9. 9. 2.1 Etapas de proceso de KDD ¿Que es KDD? Los conceptos con los que podemos definir el KDD son Lenguaje de alto nivel, precisión, Interés y Eficiencia. Los cuales se definen: Lenguaje de alto nivel: El conocimiento descubierto se representa en un lenguaje de alto nivel, inteligible desde el punto de vista humano.
  10. 10. 2.1 Etapas de proceso de KDD ¿Que es KDD? Precisión: Los descubrimientos representan el contenido de la base de datos que, como reflejo de la realidad, puede contener imperfecciones y ruido. Por tanto, será raro que algún conocimiento se cumpla con todos los datos. El grado de certidumbre medirá el crédito o confianza que el sistema o usuario puede asignar a cierto descubrimiento; si la certeza no es lo suficientemente alta, los patrones descubiertos no llegarán a ser conocimiento.
  11. 11. 2.1 Etapas de proceso de KDD ¿Que es KDD? Interés: Aunque es posible extraer numerosos patrones de cualquier base de datos, sólo se consideran como conocimiento aquéllos que resulten interesantes según ciertos criterios del usuario. En particular, un patrón interesante debe ser nuevo, potencialmente útil y no trivial.
  12. 12. 2.1 Etapas de proceso de KDD ¿Que es KDD? Eficiencia: Son deseables procesos de descubrimiento que puedan ser eficientemente implementados en una computadora. Se considera que un algoritmo es eficiente cuando su tiempo de ejecución y el espacio de memoria requerido crecen de forma polinomial con el tamaño de los datos de entrada
  13. 13. 2.1 Etapas de proceso de KDD ¿Que es KDD? Es la convergencia del Aprendizaje Automático, la Estadística, el “reconocimiento de patrones”, “la inteligencia artificial”, “las bases de datos”, “la visualización de datos”, “los sistemas para el apoyo a la toma de decisiones”, “la recuperación de información”, entre otros campos Las metas del KDD son: • Procesar automáticamente grandes cantidades de datos crudos. • Identificar los patrones más significativos y relevantes. • Presentarlos como conocimiento apropiado para satisfacer las metas del usuario (Vallejo, 2006).
  14. 14. 2.1 Etapas de proceso de KDD Metodología KDD
  15. 15. 2.1 Etapas de proceso de KDD Selección Determinar los objetivos que se deseen lograr, estos, deben ser precisos o medibles Preprocesamiento Recolectar datos útiles para alcanzar los objetivos, así como verificar que la base de datos sea coherente, confiable, relevante y actualizada
  16. 16. 2.1 Etapas de proceso de KDD Transformación Grafica los datos para tener una perspectiva de la información, en caso de observar comportamientos atípicos o out-layer, proceder a limpiarlos. Si existen múltiples dimensiones que no permita procesar la información correctamente, se puede reducir para manipularlo Minería de Datos Elegir el algoritmo que mas se adecue a la problemática que se requiere resolver (Cluster, Arboles , regresión, red neuronal, valles)
  17. 17. 2.1 Etapas de proceso de KDD Interpretación del conocimiento En la evaluación, verificar que los supuestos de evaluación se cumplan (Bootstrapping o cross validation). Se puede replantear el problema para probar otro algoritmo
  18. 18. 2.1 Etapas de proceso de KDD Cabe decir que existen otras metodologías como CRISP-DM, SEMMA
  19. 19. 2.1.1 Integración y recopilación Se deben identificar los datos necesarios, sus fuentes e integrarlos. La integración con lleva solucionar conflictos de tipos de datos, niveles de agregación, llaves primarias y foráneas, codificación, etc. Esta integración da lugar a data warehouse (almacenes de datos) Se sugiere: Hacer una copia de las BD integrantes eliminando inconsistencias. Aplicar Data warehouse (Implica agregar y cruzar información, generando una DB multidimensional)
  20. 20. 2.1.2 Selección, limpieza y transformación “La calidad de los datos obtenidos influye en el resultado final.” Es bien sabido que en la minería de datos no basta en aplicar diferente algoritmos, para obtener información, es por eso la necesidad e importancia de una selección adecuada. Después de integrarlos esta fase da pie a mejorar los datos por medio de la limpieza y trasformación.
  21. 21. 2.1.2 Selección, limpieza y transformación En este sentido se hace necesario identificar los datos necesarios y lo que no va a aportar nada. Por lo cual se procede a identificar y eliminar. El proceso de eliminación de datos fuera de rango o atípicos, en algunos caso modifican fuertemente el resultado (cabe resalta que esta decisión depende del tipo de problema que estemos enfrentando, debido a que en el caso de movimientos atípicos en cuentas bancarias, daría información que podría ayudar a la detección de fraudes)
  22. 22. 2.1.2 Selección, limpieza y transformación Recordar que se pueden tener datos atípicos (outliers), pero también se tiene que encontrar datos faltantes (missing values), si es posible saber el motivo de la omisión. “No todos los atributos son relevantes” En este sentido debido a que ya se ha hecho trabajo en conocer el objeto de estudio, permitirá de forma fácil discernir que atributo me va a servir.
  23. 23. 2.1.2 Selección, limpieza y transformación Algunos atributos pueden construirse Algunos atributos pueden generarse de la interacción de varios, a través de operaciones y que apoyarían a la simplificación de la base de datos El tipo de atributos puede cambiarse Desde el punto del proceso de algunos algoritmos , se facilita el proceso de estos, si, los datos son discretizados
  24. 24. 2.1.3 Minería de Datos En esta fase, lo que se busca es extraer conocimiento o información útil, para el usuario. Esto puede ser por medio de modelos basados en los datos, lo que permite obtener respuestas. “La selección del algoritmo adecuado para el tipo de problema” La experiencia determinara como se procesa los datos, existen diversos tipos de tareas, que ayudara a procesar los datos de mejor manera (no se saca un tornillo con un martillo)
  25. 25. 2.1.3 Minería de Datos Ahondando en el punto anterior, se tienen que tener en cuenta, los tipos de datos que maneja cada tarea. “Determinar que tipo de tarea aplica a nuestra problemática (clasificación, regresión, clusterizacion, correlación, asociación, asociación secuencial)” Clasificación: valores discretos (se obtienen predicciones de nuevas instancias de acuerdo a los datos alimentados)
  26. 26. 2.1.3 Minería de Datos Regresión: valores reales ( se obtiene instancias cuyo fin es predecir instancias nuevas por medio de una función) Clusterizacion: valores discretos (los grupos obtenidos son de elementos con un grado alto de similitud entre instancias)
  27. 27. 2.1.3 Minería de Datos Correlaciones: valores reales (la correlación indica que grado de relación tienen los datos ) Asociación: valores discretos (se obtiene reglas de asociación, basadas en relación de tipo “A es B =› C es D ” ) Asociación secuencial: Valores discretos y reales (se obtiene reglas de asociación dependientes de una dimensión temporal)
  28. 28. 2.1.3 Minería de Datos Tarea: • Buscar una base de datos para proyecto final • Reportar que tareas o algoritmos para procesamiento de datos conoce
  29. 29. 2.1.4 Evaluación e Interpretación En esta fase es importante obtener patrones precisos, comprensibles e interesantes. “Si no es entendible lo obtenido una o varias fases puede estar mal planteadas” Si bien es cierto, una tarea llevada adecuadamente será interpretada de manera automática, se podría asumir que con esto están validadas, esta suposición es errónea.
  30. 30. 2.1.4 Evaluación e Interpretación “La validación es necesaria” Una forma rápida para validar seria mediante el uso de datos o casos distintos, a los que se usaron en el entrenamiento (Valida dación Simple y Validación Cruzada). Así mismo es importante recordar lo anterior no es general, para cada tipo de tarea existe la validación adecuada.
  31. 31. 2.1.5 Difusión y uso La difusión y uso se enfoca; en recomendaciones con base al modelo obtenido y a través de este aplicarlo a distintos datos. Así mismo se hace la mención, que el modelo obtenido, es susceptible a modificaciones adaptaciones, por la continua evolución de los sistemas.
  32. 32. REFERENCIAS 1. Kantardzic M. (2011). “Data mining : concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455 2. Kao A. Poteet S. (2010). “Natural language processing and text mining” Ed. Springer ISBN: 9781849965583 9781846287541 3. Han J. Kamber M. Pei J. (2011). “Data mining : concepts and techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790 4. Basu S. Davidson I. Wagstaff K. (2009). “Constrained clustering : advances in algorithms, theory, and applications” Ed. CRC Press ISBN: 9781584889960 5. LongB. Zhang Z, Yu P. (2010) “Relational data clustering : models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617 6. Ian H. Witten, Eibe Frank, Mark A. Hall.(2011) Data mining : practical machine learning tools and techniques Ed. Elsevier ISBN: 9780123748560 7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919 8. Dunham M. (2003) “Data mining introductory and advanced topics” Ed. Prentice Hall/Pearson Education ISBN: 0130888923 9. Growth R. (2000). “Data mining : building competitive advantage” Ed. Prentice Hall PTR ISBN: 0130862711 10. Feldman R. Sanger J. (2007). “The text mining handbook : advanced approaches in analyzing unstructured data” Ed. Cambridge University Press ISBN: 0521836573 9780521836579 11. Shmueli G. Patel N. Bruce P. (2010). “Data mining for business intelligence : concepts, techniques, and applications in Microsoft Office Excel with XLMiner” Ed.Wiley ISBN: 9780470526828 12. Bratko I. (2001). “Prolog programming for artificial intelligence” Ed. Pearson 13. Fayyad U. (1996). Advances in knowledge discovery. Ed. Pearson ISBN: 0262560976 14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662 15. Palma J. Marin M. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183 16. Beltran B (s/a), “Notas Mineria de Datos” , FCC 17. Vallejos S. (2006) “Mineria de datos” LSIC

×