Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

IN Unidad 3: Minería de datos

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 133 Anuncio

IN Unidad 3: Minería de datos

Objetivo: Aplicar técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.

Objetivo: Aplicar técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a IN Unidad 3: Minería de datos (20)

Anuncio

Más de Franklin Parrales Bravo (20)

Más reciente (20)

Anuncio

IN Unidad 3: Minería de datos

  1. 1. Ph.D. Franklin Parrales 1 08/02/2022 Inteligencia de Negocios Carrera de Software Minería de datos Unidad 3 Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo para uso de los cursos de Inteligencia de Negocios
  2. 2. Ph.D. Franklin Parrales 2 08/02/2022 Inteligencia de Negocios Carrera de Software Objetivo general de la Unidad 3 Aplicar técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.
  3. 3. Ph.D. Franklin Parrales 3 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  4. 4. Ph.D. Franklin Parrales 4 08/02/2022 Inteligencia de Negocios Carrera de Software
  5. 5. Ph.D. Franklin Parrales 5 08/02/2022 Inteligencia de Negocios Carrera de Software Proceso de Descubrimiento del conocimiento KDD Se suele componer de cuatro etapas principales: • Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en minería de datos. • Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de minería de datos. • Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. • Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
  6. 6. Ph.D. Franklin Parrales 6 08/02/2022 Inteligencia de Negocios Carrera de Software CRISP-DM • CRISP-DM (del inglés Cross Industry Standard Process for Data Mining)​ se trata de un modelo estándar abierto del proceso que describe los enfoques comunes que utilizan los expertos en minería de datos. • La metodología CRISP-DM aborda el ciclo de vida de un proyecto de minería de datos
  7. 7. Ph.D. Franklin Parrales 7 08/02/2022 Inteligencia de Negocios Carrera de Software CRISP-DM Clinical data Comprender los requisitos Comprensión de datos Preprocesamiento de datos Modelado Evaluación Clinical data Data Despliegue
  8. 8. Ph.D. Franklin Parrales 8 08/02/2022 Inteligencia de Negocios Carrera de Software Comprender los requisitos Comprensión de datos Preprocesamiento de datos Modelado Determinar los objetivos médicos • Antecedentes • Objetivos • Criterios de éxito Evaluar la situación • Inventario de recursos • Requisitos, suposiciones y restricciones • Riesgos y Contingencias • Terminología • Costos y beneficios Determinar Objetivos de minería de datos • Objetivos de minería de datos • Criterios de éxito en minería de datos Producir el plan de proyecto • Plan de proyecto • Evaluación inicial de herramientas y técnicas Conjunto de datos • Descripción del conjunto de datos Seleccionar datos • Justificación para la inclusión / exclusión Limpieza de datos • Informe de limpieza de datos Construcción de datos • Atributos derivados • Registros generados Integrar datos • Mezclar datos Formato de datos • Datos reformateados • Recoger datos iniciales • Describir datos • Explorar datos Seleccionar técnica de modelado • Técnica de modelado • Suposiciones de modelado Generar diseño de prueba • Diseño de prueba Construir modelo • Ajustes de parámetros de los modelos • Descripción del modelo Modelo de evaluación • Evaluación del modelo • Ajustes de parámetros revisados
  9. 9. Ph.D. Franklin Parrales 9 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación Despliegue Evaluar resultados • Evaluación resultados de acuerdo a los criterios de éxito. Modelos aprobados Proceso de revisión • Revisión del proceso Determinar los próximos pasos • Lista de acciones posibles • Decisión Implementación del plan • Plan de empleo Plan de monitoreo y mantenimiento • Monitoreo y mantenimiento Producir informe final • Reporte final • Presentación final Proyecto de Revisión • Documentación de experiencias
  10. 10. Ph.D. Franklin Parrales 10 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  11. 11. Ph.D. Franklin Parrales 11 08/02/2022 Inteligencia de Negocios Carrera de Software Minería de datos • Es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos para predecir resultados. • Empleando una amplia variedad de técnicas, se puede utilizar esta información para incrementar sus ingresos, recortar costos, mejorar sus relaciones con clientes, reducir riesgos y más. • La minería de datos es un método asistido por ordenador que utiliza conceptos obtenidos de las tecnologías de la información, estadísticas y matemáticas para analizar datos.
  12. 12. Ph.D. Franklin Parrales 12 08/02/2022 Inteligencia de Negocios Carrera de Software Ventajas aplicada a los negocios • Permite descubrir información que no esperábamos obtener. Esto se debe a su funcionamiento con algoritmos, ya que permite hacer muchas combinaciones distintas. • Es capaz de analizar bases de datos con una enorme cantidad de datos. • Los resultados son muy fáciles de interpretar y no es necesario tener conocimientos en ingeniería informática. • Permite encontrar, atraer y retener clientes. • La empresa puede mejorar la atención al cliente a partir de la información obtenida. • Da a las empresas la posibilidad de ofrecer a los clientes los productos o servicios que necesitan. • Antes de usar los modelos, estos son comprobados mediante estadísticas para verificar que las predicciones obtenidas son válidas. • Ahorra costes a la empresa y abre nuevas oportunidades de negocio.
  13. 13. Ph.D. Franklin Parrales 13 08/02/2022 Inteligencia de Negocios Carrera de Software Desventajas aplicada a los negocios • Dependiendo del tipo de datos que se quiera recopilar, nos puede llevar mucho trabajo. • La inversión inicial para obtener las tecnologías necesarias para la recopilación de datos puede tener un coste elevado.
  14. 14. Ph.D. Franklin Parrales 14 08/02/2022 Inteligencia de Negocios Carrera de Software Aplicación de la minería de datos • 'Marketing'. El data mining en marketing predice también qué usuarios pueden darse de baja de un servicio, qué les interesa según sus búsquedas o qué debe incluir una lista de correo para lograr una tasa de respuesta mayor. • Comercio minorista. Los supermercados, por ejemplo, emplean los patrones de compra conjunta para identificar asociaciones de productos y decidir cómo situarlos en los diferentes pasillos y estanterías de los lineales. El data mining detecta además qué ofertas son las más valoradas por los clientes o incrementa la venta en la cola de caja. • Banca. Los bancos recurren a la minería de datos para entender mejor los riesgos del mercado. • Medicina. La minería de datos favorece diagnósticos más precisos. Al contar con toda la información del paciente —historial, examen físico y patrones de terapias anteriores— se pueden prescribir tratamientos más efectivos. • Televisión y radio. Hay cadenas que aplican la minería de datos en tiempo real a sus registros de audiencia en televisión online (IPTV) y radio. Estos sistemas recaban y analizan sobre la marcha información anónima de las visualizaciones, las retransmisiones y la programación de los canales. Gracias al data mining se pueden emitir recomendaciones personalizadas a los radioyentes y telespectadores.
  15. 15. Ph.D. Franklin Parrales 15 08/02/2022 Inteligencia de Negocios Carrera de Software Tipos de datos que pueden ser minados No todos los modelos de datos pueden ser minados. • Datos almacenados en una base de datos • Data warehouse • Data transaccional • Otros tipos de datos – Datos de diseño de ingeniería – Datos de secuencia – Flujos de datos – Datos de gráficos – Datos espaciales – Multimedia Cualquier dato que tenga estructura, significados semánticos
  16. 16. Ph.D. Franklin Parrales 16 08/02/2022 Inteligencia de Negocios Carrera de Software Diferencias entre minado de datos y Big Data • Aunque parezca lo mismo, el minado de datos y el Big Data son conceptos diferentes, aunque con una misma base. • El Big Data es una tecnología que tiene la capacidad de capturar, gestionar y procesar de forma veraz todo tipo de datos, utilizando herramientas o softwares que identifican patrones comunes. • Cuando hablamos de Data Mining nos referimos al análisis de los grandes datos. • En resumen, Big Data y Minería de datos podrían ser definidos como el “activo” y el “manejo”, respectivamente. • No hay minería de datos sin Big Data
  17. 17. Ph.D. Franklin Parrales 17 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  18. 18. Ph.D. Franklin Parrales 18 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué es la ciencia de datos? • La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas( estructurados/no estructurados).
  19. 19. Ph.D. Franklin Parrales 19 08/02/2022 Inteligencia de Negocios Carrera de Software ¿quién es un científico de datos ? • Es una persona formada en las ciencias matemáticas y las estadísticas que domina la programación y sus diferentes lenguajes(Python, R, Scala, etc..), ciencias de la computación y analítica. • Además, debe saber comunicar sus hallazgos a medida que los tiene, no sólo al área de tecnología sino además al sector de los negocios.
  20. 20. Ph.D. Franklin Parrales 20 08/02/2022 Inteligencia de Negocios Carrera de Software ¿quién es un científico de datos ?
  21. 21. Ph.D. Franklin Parrales 21 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué hace un científico de datos? Masson y Wiggins (A taxonomy of Data Science Mason and Wiggins, 2010) definen los cinco pasos que realiza un científico de datos: – Obtener datos – Manipular datos – Explorar datos – Modelar datos – Intepretar datos
  22. 22. Ph.D. Franklin Parrales 22 08/02/2022 Inteligencia de Negocios Carrera de Software ¿ quién es un científico de datos ? • Trabajan en cualquier área, con el objetivo de obtener respuestas fiables a problemas cotidianos como por ejemplo: – Saber cual es el mejor momento para comprar un boleto de avión, hacer una reservación a un hotel (Bueno, Bonito y Barato). Por ejemplo: Best Day, Trivago, etc.. – Predecir los gustos de los usuarios y mostrarle la mejor opción y/o recomendación. Por ejemplo: Amazon, Netflix. – Descubrir si una persona puede tener riesgo de padecer una enfermedad. Por ejemplo: La secuenciación, mapeo y análisis de los códigos ADN y ARN para, de esta manera, comprender cómo los genes funcionan y qué impacto tienen en las enfermedades.
  23. 23. Ph.D. Franklin Parrales 23 08/02/2022 Inteligencia de Negocios Carrera de Software Recordando… ¿qué es big data? • Big data (en español, grandes datos o grandes volúmenes de datos) es un término evolutivo que describe cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información.
  24. 24. Ph.D. Franklin Parrales 24 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué lo motiva? • Los blogs generan cerca de 2 millones de entradas nuevas. • En Google se realizan más de 5 millones de consultas. • WhatsApp envía 25 millones de mensajes. • El número de correos electrónicos que se envían supera los 100 millones.
  25. 25. Ph.D. Franklin Parrales 25 08/02/2022 Inteligencia de Negocios Carrera de Software Entonces, ¿cuál es la diferencia entre ciencia de datos y big data? El Big Data es parte de la Ciencia de Datos, y para hacer Ciencia de Datos NO necesitas Big Data.
  26. 26. Ph.D. Franklin Parrales 26 08/02/2022 Inteligencia de Negocios Carrera de Software Ciencia de Datos (Big Data) + Redes Sociales • Análisis de sentimiento o Minería de opinión – Ejemplo: Campaña de Barack Obama • Sistemas de recomendación – Ejemplo: Recomendación de amigos en facebook • Segmentación de clientes – Ejemplo: Campañas dirigidas
  27. 27. Ph.D. Franklin Parrales 27 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  28. 28. Ph.D. Franklin Parrales 28 08/02/2022 Inteligencia de Negocios Carrera de Software A modo de introducción… Id Age Relatives with cancer Stage Treatment 1 child yes I X 2 young no II Y 3 adult yes III Z 4 young yes II Y 5 adult no IV Z … … … … … Dataset Instancia/Record Atributos Class attribute Etiqueta/Label
  29. 29. Ph.D. Franklin Parrales 29 08/02/2022 Inteligencia de Negocios Carrera de Software Algoritmos • Los algoritmos de minería de datos revelan relaciones lógicas en forma de patrones y tendencias. • Son de gran ayuda para identificar correlaciones, regularidades, problemas y puntos débiles.
  30. 30. Ph.D. Franklin Parrales 30 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje Supervisado • En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados” (labeled data) • Intentan encontrar una función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. • El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida (Simeone, 2018)
  31. 31. Ph.D. Franklin Parrales 31 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje Supervisado Las dos grandes familias de algoritmos supervisados son: • Los algoritmos de regresión cuando el resultado a predecir es un atributo numérico. • Los algoritmos de clasificación cuando el resultado a predecir es un atributo categórico
  32. 32. Ph.D. Franklin Parrales 32 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje Supervisado Documentos, textos de entrenamiento , imágenes, etc. Etiquetas Nuevo documentos, texto, imagen, etc. Algoritmo de aprendizaje automático Modelo predictivo Etiqueta esperada Vectores de características Vector de características
  33. 33. Ph.D. Franklin Parrales 33 08/02/2022 Inteligencia de Negocios Carrera de Software Clustering (agrupamiento) Aprendizaje NO supervisado: Encuentra agrupaciones "naturales" de instancias con datos no etiquetados.
  34. 34. Ph.D. Franklin Parrales 34 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje No Supervisado El aprendizaje no supervisado está dedicado a las tareas de agrupamiento, también llamadas clustering o segmentación, donde su objetivo es encontrar grupos similares en el conjunto de datos.
  35. 35. Ph.D. Franklin Parrales 35 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación vs. Clustering (agrupamiento) Clasificación: Aprendizaje supervizado: Aprende un método para predecir la clase de instancia a partir de instancias previamente etiquetadas (clasificadas)
  36. 36. Ph.D. Franklin Parrales 36 08/02/2022 Inteligencia de Negocios Carrera de Software Modelos y algoritmos ordenador (algoritmo de aprendizaje) Datos de entrada Datos de salida Patrones Datos de entrenamiento Modelo x, y g() g(x, y) = f() f(x) = y ^ ^ ^
  37. 37. Ph.D. Franklin Parrales 37 08/02/2022 Inteligencia de Negocios Carrera de Software Proceso Obtención de datos Análisis de datos Preprocesamiento Modelado Análisis del modelo Integración selección, extracción, captura, muestreo, observación, medición, sondeo, enriquecimiento… estadística descriptiva, histograma, dispersión, valores atípicos, valores vacíos interpretación, evaluación, validación, valoración, análisis de errores aplicación, explotación, uso aprendizaje automático (supervisado o no) transformación, escalado, normalización, redimensionado...
  38. 38. Ph.D. Franklin Parrales 38 08/02/2022 Inteligencia de Negocios Carrera de Software “Debemos sospechar de cualquier conjunto de datos (grande o pequeño) que parezca perfecto.” David J. Hand Hand, David J. "Statistical challenges of administrative and transaction data." Journal of the Royal Statistical Society: Series A (Statistics in Society) 181.3 (2018): 555-605. Advertencia!
  39. 39. Ph.D. Franklin Parrales 39 08/02/2022 Inteligencia de Negocios Carrera de Software Preprocesamiento Preprocesamiento ● Extracción de características ● Estandarización ● Transformaciones no lineales ● Normalización ● Codificación de datos categóricos ● Discretización ● Imputación de valores desconocidos ● Generación de características polinomiales ● Generación de características ad-hoc ● Reducción de la dimensionalidad ● Codificación de la variable objetivo ● Etc.
  40. 40. Ph.D. Franklin Parrales 40 08/02/2022 Inteligencia de Negocios Carrera de Software Problemas en Datos clínicos
  41. 41. Ph.D. Franklin Parrales 41 08/02/2022 Inteligencia de Negocios Carrera de Software Problemas en Datos clínicos
  42. 42. Ph.D. Franklin Parrales 42 08/02/2022 Inteligencia de Negocios Carrera de Software Algunos datos no categorizados y heterogéneos Toxin-age of onset (years) Body mass index (kg/m2) Hemoglobin (g/dL) Creatinine (mg/dL) Platelets (u/mcL) 51 17.21 13.4 0.71 213000 49 24.5 14.2 0.55 252000 36 28.54 13.5 0.44 304000 26 36.14 13.1 0.66 218000 31 31.05 14.8 0.71 327000 65 41.07 16.2 0.74 327000
  43. 43. Ph.D. Franklin Parrales 43 08/02/2022 Inteligencia de Negocios Carrera de Software “La cuestión de la calidad de la historia clínica (datos erróneos, faltantes y ambiguos) y de los datos extraídos de ella sigue siendo poco estudiada” Cabitza et al., 2019 Cabitza, F., Ciucci, D. & Rasoini, R. A giant with feet of clay: on the validity of the data that feed machine learning in medicine. In Organizing for the Digital World, pages 121–136. Springer, 2019. Situación actual
  44. 44. Ph.D. Franklin Parrales 44 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo de atributos heterogéneos, continuos y categorizados disponibles en los datos clínicos Toxin-age of onset (years) Body mass index (kg/m2) Hemoglobin (g/dL) Creatinine (mg/dL) Platelets (u/mcL) 51 17.21 13.4 0.71 213000 49 24.5 14.2 0.55 252000 36 28.54 13.5 0.44 304000 26 36.14 13.1 0.66 218000 31 31.05 14.8 0.71 327000 65 41.07 16.2 0.74 327000 [Vmin, µ-σ] (µ-σ, µ+σ] (µ+σ,Vmax] 1 2 3 Categorización basada en Media y std-deviation
  45. 45. Ph.D. Franklin Parrales 45 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué son los datos faltantes (missing data)? • En la práctica, los datos consisten en (a) las observaciones realmente realizadas (donde '?' denota una observación faltante): • y (b) el patrón de valores faltantes: Variable Unit 1 2 3 4 5 6 7 1 1 2 3.4 4.5 ? 10 1.2 2 1 3 ? ? B 12 ? 3 2 ? 2.6 ? C 15 0 Variable Unit 1 2 3 4 5 6 7 1 1 1 1 1 0 1 1 2 1 1 0 0 1 1 0 3 1 0 1 0 1 1 1
  46. 46. Ph.D. Franklin Parrales 46 08/02/2022 Inteligencia de Negocios Carrera de Software Completers analysis • Los datos de la derecha tienen una observación faltante en la variable 2, unidad 10. • Completers analysis elimina todas las unidades con datos incompletos del análisis (aquí la unidad 10). Variable Unit 1 2 1 3.4 5.67 2 3.9 4.81 3 2.6 4.93 4 1.9 6.21 5 2.2 6.83 6 3.3 5.61 7 1.7 5.45 8 2.4 4.94 9 2.8 5.73 10 3.6 ?
  47. 47. Ph.D. Franklin Parrales 47 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué tiene de malo el completers analysis? • Es ineficiente • Es problemático en la regresión cuando faltan los valores de covariables y es necesario comparar modelos con varios conjuntos de variables explicativas. – O seguimos cambiando el tamaño del dataset, a medida que agregamos/eliminamos variables explicativas con missing values, – O usamos el subconjunto (potencialmente muy pequeño y no representativo) de los datos sin missing values. • Cuando las observaciones que faltan no son una selección completamente aleatoria de los datos, un completers analysis dará estimaciones sesgadas e inferencias inválidas.
  48. 48. Ph.D. Franklin Parrales 48 08/02/2022 Inteligencia de Negocios Carrera de Software Imputación de datos • Se encarga de completar los datos que faltan con algunos valores plausibles. Este ha sido un método popular para manejar problemas de missing values (Barnard 1999) • Una vez que se completan los missing values, los métodos estándar de minería de datos que operan en conjuntos de datos completos pueden ser aplicados fácilmente para obtener modelos predictivos, y así evitar la complicación en el manejo, cálculo y análisis de datos debido a irregularidades en los modelos.
  49. 49. Ph.D. Franklin Parrales 49 08/02/2022 Inteligencia de Negocios Carrera de Software Imputación de datos Para tener un análisis basado en dataset parcialmente imputados, se deben cumplir dos requisitos: 1. El método o modelo de imputación debe capturar razonablemente las relaciones distributivas reales entre lo no observado y lo observado. 2. El análisis debe tener en cuenta la incertidumbre en los valores imputados, porque no importa cuánto esfuerzo se haga, los valores imputados simplemente no son las observaciones reales.
  50. 50. Ph.D. Franklin Parrales 50 08/02/2022 Inteligencia de Negocios Carrera de Software Imputación media simple • Reemplazamos los datos faltantes con el promedio aritmético de los datos observados para esa variable. En la tabla de 10 casos será 5,58. • Se usa la moda en lugar del promedio para las variables categóricas Variable Unit 1 2 1 3.4 5.67 2 3.9 4.81 3 2.6 4.93 4 1.9 6.21 5 2.2 6.83 6 3.3 5.61 7 1.7 5.45 8 2.4 4.94 9 2.8 5.73 10 3.6 5.58
  51. 51. Ph.D. Franklin Parrales 51 08/02/2022 Inteligencia de Negocios Carrera de Software Feature Selection: ¿Por qué? Tiene algunos datos y desea usarlos para crear un clasificador, de modo que pueda predecir algo (por ejemplo, la probabilidad de cáncer) Los datos tienen 10.000 campos (atributos) debe reducirlo a 1000 campos antes de hacer uso de técnicas de aprendizaje automático. ¿Cuáles 1000? El proceso de elegir los 1000 campos que se van a utilizar se denomina Selección de características (Feature Selection)
  52. 52. Ph.D. Franklin Parrales 52 08/02/2022 Inteligencia de Negocios Carrera de Software Conjuntos de datos con muchos atributos Gene expression datasets (~10,000 features) http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds Proteomics data (~20,000 features) http://www.ebi.ac.uk/pride/
  53. 53. Ph.D. Franklin Parrales 53 08/02/2022 Inteligencia de Negocios Carrera de Software Descripción general • ¿Por qué necesitamos FS?: 1. Para mejorar el rendimiento (en términos de velocidad, poder predictivo, simplicidad del modelo). 2. Para visualizar los datos para la selección del modelo. 3. Para reducir la dimensionalidad y eliminar el ruido.. • Feature Selection es un proceso que elige un subconjunto óptimo de atributos de acuerdo a cierto criterio.
  54. 54. Ph.D. Franklin Parrales 54 08/02/2022 Inteligencia de Negocios Carrera de Software Descripción general • Las razones para realizar FS pueden incluir… – eliminar datos irrelevantes. – aumentar la exactitud predictiva de los modelos aprendidos. – reducir el costo de los datos. – mejorar la eficiencia del aprendizaje, como reducir los requisitos de almacenamiento y el costo computacional. – reducir la complejidad de la descripción del modelo resultante, mejorando la comprensión de los datos y del modelo.
  55. 55. Ph.D. Franklin Parrales 55 08/02/2022 Inteligencia de Negocios Carrera de Software Feature Selection: ¿Por qué? The accuracy of all test Web URLs when chang the number of top words for category file 74% 76% 78% 80% 82% 84% 86% 88% 90% top10 top20 top30 top40 top50 top60 top70 top80 top90 top100 top110 top120 top130 top140 top150 top160 top170 top180 top190 top200 Number of top words for category file Accuracy
  56. 56. Ph.D. Franklin Parrales 56 08/02/2022 Inteligencia de Negocios Carrera de Software Feature Selection: ¿Por qué? From http://elpub.scix.net/data/works/att/02-28.content.pdf Bastante fácil de encontrar muchos más casos de artículos, donde los experimentos muestran que la exactitud se reduce cuando usan más atributos
  57. 57. Ph.D. Franklin Parrales 57 08/02/2022 Inteligencia de Negocios Carrera de Software Feature selection methods
  58. 58. Ph.D. Franklin Parrales 58 08/02/2022 Inteligencia de Negocios Carrera de Software Técnicas de minería de datos • En el ámbito de la investigación las técnicas de data mining pueden ayudar a los científicos a clasificar y segmentar datos y a formar hipótesis. • El data mining permite encontrar información escondida en los datos que no siempre resulta aparente, ya que, dado el gigantesco volumen de datos existentes, gran parte de ese volumen nunca será analizado. • Las técnicas de data mining pueden ser de dos tipos: – Métodos descriptivos– Buscan patrones interpretables para describir datos. Son los siguientes: clustering, descubrimiento de reglas de asociación y descubrimiento de patrones secuenciales. • Los métodos descriptivos se han utilizado, por ejemplo, para ver que productos suelen adquirirse conjuntamente en el supermercado. – Métodos predictivos- Usan algunas variables para predecir valores futuros o desconocidos de otras variables. Son los siguientes: clasificación, regresión y detección de la desviación.
  59. 59. Ph.D. Franklin Parrales 59 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  60. 60. Ph.D. Franklin Parrales 60 08/02/2022 Inteligencia de Negocios Carrera de Software Métodos de Clustering • Muchos métodos y algoritmos diferentes: – Para datos numéricos y / o simbólicos – Determinista vs. probabilista – Exclusivo vs. superpuesto – Jerárquico vs. plano – Top-down vs. bottom-up
  61. 61. Ph.D. Franklin Parrales 61 08/02/2022 Inteligencia de Negocios Carrera de Software Clusters: exclusivo vs. superpuesto (overlapping) Simple 2-D representation Non-overlapping Venn diagram Overlapping a k j i h g f e d c b a k j i h g f e d c b
  62. 62. Ph.D. Franklin Parrales 62 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación de Clusters • Inspección manual • Benchmarking de etiquetas existentes • Medidas de calidad del clúster – medidas de distancia – alta similitud dentro de un grupo, baja entre grupos
  63. 63. Ph.D. Franklin Parrales 63 08/02/2022 Inteligencia de Negocios Carrera de Software La función de distancia • Caso más simple: un atributo numérico A – Distancia(X,Y) = A(X) – A(Y) • Varios atributos numéricos: – Distancia(X,Y) = distancia euclidea entre X,Y • Atributos nominales: la distancia se establece en 1 si los valores son diferentes, 0 si son iguales • ¿Son todos los atributos igualmente importantes? – Podría ser necesario ponderar los atributos
  64. 64. Ph.D. Franklin Parrales 64 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  65. 65. Ph.D. Franklin Parrales 65 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación Aprender un modelo para predecir la clase de una instancia a partir de instancias previamente etiquetadas (clasificadas) Muchos métodos: Regresión, Árboles de clasificación, Redes bayesianas, Redes neuronales, ... Dado un conjunto de puntos de clases cual es la clase de nuevo punto ?
  66. 66. Ph.D. Franklin Parrales 66 08/02/2022 Inteligencia de Negocios Carrera de Software Sobreajuste (overfitting) f2 f1
  67. 67. Ph.D. Franklin Parrales 67 08/02/2022 Inteligencia de Negocios Carrera de Software 67 El problema del clima Outlook Temperature Humidity Windy Play sunny 85 85 false no sunny 80 90 true no overcast 83 86 false yes rainy 70 96 false yes rainy 68 80 false yes rainy 65 70 true no overcast 64 65 true yes sunny 72 95 false no sunny 69 70 false yes rainy 75 80 false yes sunny 75 70 true yes overcast 72 90 true yes overcast 81 75 false yes rainy 71 91 true no Dados los datos históricos, puedes obtener las reglas para ¿Jugar / no jugar? ¿De qué va el juego?
  68. 68. Ph.D. Franklin Parrales 68 08/02/2022 Inteligencia de Negocios Carrera de Software El problema del clima • Condiciones para jugar al golf Outlook Temperature Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild Normal False Yes … … … … … If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity = normal then play = yes If none of the above then play = yes
  69. 69. Ph.D. Franklin Parrales 69 08/02/2022 Inteligencia de Negocios Carrera de Software Datos meteorológicos con atributos mixtos • Algunos atributos tienen valores numéricos Outlook Temperature Humidity Windy Play Sunny 85 85 False No Sunny 80 90 True No Overcast 83 86 False Yes Rainy 75 80 False Yes … … … … … If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity < 85 then play = yes If none of the above then play = yes
  70. 70. Ph.D. Franklin Parrales 70 08/02/2022 Inteligencia de Negocios Carrera de Software Los datos de las lentes de contacto Age Spectacle prescription Astigmatism Tear production rate Recommended lenses Young Myope No Reduced None Young Myope No Normal Soft Young Myope Yes Reduced None Young Myope Yes Normal Hard Young Hypermetrope No Reduced None Young Hypermetrope No Normal Soft Young Hypermetrope Yes Reduced None Young Hypermetrope Yes Normal hard Pre-presbyopic Myope No Reduced None Pre-presbyopic Myope No Normal Soft Pre-presbyopic Myope Yes Reduced None Pre-presbyopic Myope Yes Normal Hard Pre-presbyopic Hypermetrope No Reduced None Pre-presbyopic Hypermetrope No Normal Soft Pre-presbyopic Hypermetrope Yes Reduced None Pre-presbyopic Hypermetrope Yes Normal None Presbyopic Myope No Reduced None Presbyopic Myope No Normal None Presbyopic Myope Yes Reduced None Presbyopic Myope Yes Normal Hard Presbyopic Hypermetrope No Reduced None Presbyopic Hypermetrope No Normal Soft Presbyopic Hypermetrope Yes Reduced None Presbyopic Hypermetrope Yes Normal None
  71. 71. Ph.D. Franklin Parrales 71 08/02/2022 Inteligencia de Negocios Carrera de Software Un conjunto de reglas completo y correcto If tear production rate = reduced then recommendation = none If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft If age = presbyopic and spectacle prescription = myope and astigmatic = no then recommendation = none If spectacle prescription = hypermetrope and astigmatic = no and tear production rate = normal then recommendation = soft If spectacle prescription = myope and astigmatic = yes and tear production rate = normal then recommendation = hard If age young and astigmatic = yes and tear production rate = normal then recommendation = hard If age = pre-presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none If age = presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none
  72. 72. Ph.D. Franklin Parrales 72 08/02/2022 Inteligencia de Negocios Carrera de Software Un árbol de clasificación para este problema.
  73. 73. Ph.D. Franklin Parrales 73 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación iris de flores Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 1.4 0.2 Iris setosa … 51 7.0 3.2 4.7 1.4 Iris versicolor 52 6.4 3.2 4.5 1.5 Iris versicolor … 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 5.1 1.9 Iris virginica … If petal length < 2.45 then Iris setosa If sepal width < 2.10 then Iris versicolor ...
  74. 74. Ph.D. Franklin Parrales 74 08/02/2022 Inteligencia de Negocios Carrera de Software • Example: 209 different computer configurations • Linear regression function Predecir el rendimiento de la CPU Cycle time (ns) Main memory (Kb) Cache (Kb) Channels Performance MYCT MMIN MMAX CACH CHMIN CHMAX PRP 1 125 256 6000 256 16 128 198 2 29 8000 32000 32 8 32 269 … 208 480 512 8000 32 0 0 67 209 480 1000 4000 0 0 0 45 PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
  75. 75. Ph.D. Franklin Parrales 75 08/02/2022 Inteligencia de Negocios Carrera de Software El papel del conocimiento del dominio If leaf condition is normal and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown then diagnosis is rhizoctonia root rot If leaf malformation is absent and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown then diagnosis is rhizoctonia root rot Pero en este dominio, “leaf condition is normal” implica “leaf malformation is absent”!
  76. 76. Ph.D. Franklin Parrales 76 08/02/2022 Inteligencia de Negocios Carrera de Software Dividiendo el dataset (conjunto de datos) + + - - + Data Training set 90% Testing set 10%
  77. 77. Ph.D. Franklin Parrales 77 08/02/2022 Inteligencia de Negocios Carrera de Software Entrenamiento de modelos Training set + + - - + Data Construcción del modelo Testing set
  78. 78. Ph.D. Franklin Parrales 78 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación de modelos Data Predicciones Y N Training set Testing set + + - - + Construcción del modelo Evaluar + - + -
  79. 79. Ph.D. Franklin Parrales 79 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: entrenamiento, validación, prueba Data Predicciones Y N Resultados Conocidos Training set Validation set + + - - + Construcción del modelo Evaluar + - + - Final Model Final Test Set + - + - Final Evaluation Construcció n del modelo
  80. 80. Ph.D. Franklin Parrales 80 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación sobre datasets “INMENSOS” • Si hay muchos (miles) de instancias disponibles, incluidos varios cientos de instancias de cada clase, una evaluación simple es suficiente. – Divida aleatoriamente los datos en conjuntos de entrenamiento y prueba (generalmente 2/3 para entrenamiento, 1/3 para prueba) • Construya un clasificador usando el conjunto de entrenamiento (training set) y evalúelo usando el conjunto de prueba (test set)
  81. 81. Ph.D. Franklin Parrales 81 08/02/2022 Inteligencia de Negocios Carrera de Software Métricas TP FN TN FP - + + - Predicted class value Actual class value • Positive values: “high” therapeutic response to treatment • Negative values: “low” therapeutic response to treatment
  82. 82. Ph.D. Franklin Parrales 82 08/02/2022 Inteligencia de Negocios Carrera de Software ▪ Matriz de confusión/contingencia (p.ej. para el conjunto de test): abrir (p) cerrar (n) ABRIR (P) TP FP CERRAR (N) FN TN Real Predicho Diagonal de los aciertos • A partir de aquí, se han definido una serie de métricas: ❖ True Positive Rate: TPR = TP / (TP + FN). (“recall” o ”sensitivity” o “positive accuracy”). ❖ False Negative Rate: FNR = FN / (TP + FN). (“positive error”) ❖ True Negative Rate: TNR = TN / (TN + FP). (”specificity” o ”negative accuracy”). ❖ False Positive Rate: FPR = FP / (TN + FP). (“negative error”) ❖ Positive Predictive Value: PPV = TP / (TP + FP). (”precision”). ❖ Negative Predictive Value: NPV = TN / (TN + FN). ❖ Macro-average = MEDIA(TPR, TNR). (La media puede ser aritmética, geométrica u otra) ❖ BREAK-EVEN= (Precision + Recall) / 2 = (PPV + TPR) / 2 ❖ F-MEASURE= (Precision * Recall) / BREAK-EVEN = 2*PPV*TPR / (PPV + TPR)
  83. 83. Ph.D. Franklin Parrales 83 08/02/2022 Inteligencia de Negocios Carrera de Software • Ejemplo: (conjunto de test de 100.000 instancias) c1 abrir cerrar ABRIR 300 500 CERRAR 200 99000 Real Pred c3 abrir cerrar ABRIR 400 5400 CERRAR 100 94100 Real c2 abrir cerrar ABRIR 0 0 CERRAR 500 99500 Real ERROR: 0,7% TPR= 300 / 500 = 60% FNR= 200 / 500 = 40% TNR= 99000 / 99500 = 99,5% FPR= 500 / 99500 = 0,5% PPV= 300 / 800 = 37,5% NPV= 99000 / 99200 = 99,8% Macromedia= (60 + 99,5 ) / 2 = 79,75% ERROR: 0,5% TPR= 0 / 500 = 0% FNR= 500 / 500 = 100% TNR= 99500 / 99500 = 100% FPR= 0 / 99500 = 0% PPV= 0 / 0 = INDEFINIDO NPV= 99500 / 10000 = 99,5% Macromedia= (0 + 100 ) / 2 = 50% ERROR: 5,5% TPR= 400 / 500 = 80% FNR= 100 / 500 = 20% TNR= 94100 / 99500 = 94,6% FPR= 5400 / 99500 = 5,4% PPV= 400 / 5800 = 6,9% NPV= 94100 / 94200 = 99,9% Macromedia= (80 + 94,6 ) / 2 = 87,3% ¿Qué clasificador es mejor? Especificidad Sensitividad Recall Precision
  84. 84. Ph.D. Franklin Parrales 84 08/02/2022 Inteligencia de Negocios Carrera de Software ▪ Evaluación sensible al coste: ▪ En muchas situaciones todos los errores producidos por un modelo predictivo no tienen las mismas consecuencias: ▪ Ejemplo: Dejar cerrada una válvula en una central nuclear cuando es necesario abrirla, puede provocar una explosión, mientras que abrir una válvula cuando puede mantenerse cerrada, puede provocar una parada. ▪ Matriz de costes: ▪ Lo importante no es obtener un “clasificador” que yerre lo menos posible sino que tenga un coste menor. ▪ A partir de la matriz se calcula el coste de un clasificador. ▪ Los clasificadores se evalúan con dichos costes. ▪ Se selecciona el clasificador de menos coste. abrir cerrar ABRIR 0 100€ CERRAR 2000€ 0 Real Predicho
  85. 85. Ph.D. Franklin Parrales 85 08/02/2022 Inteligencia de Negocios Carrera de Software ▪ Ejemplos: abrir cerrar ABRIR 0 100€ CERRAR 2000€ 0 Real Predicho c1 abrir cerrar ABRIR 300 500 CERRAR 200 99000 Real Pred c3 abrir cerrar ABRIR 400 5400 CERRAR 100 94100 Real c2 abrir cerrar ABRIR 0 0 CERRAR 500 99500 Real c1 abrir cerrar ABRIR 0€ 50.000€ CERRAR 400.000€ 0€ c3 abrir cerrar ABRIR 0€ 540.000€ CERRAR 200.000€ 0€ c2 abrir cerrar ABRIR 0€ 0€ CERRAR 1.000.000€ 0€ COSTE TOTAL: 450.000€ COSTE TOTAL: 1.000.000€ COSTE TOTAL: 740.000€ Matrices de confusión Matriz de coste Matrices resultado
  86. 86. Ph.D. Franklin Parrales 86 08/02/2022 Inteligencia de Negocios Carrera de Software ▪¿De qué depende el coste final? ▪ Para dos clases. Depende de un contexto (o skew): ▪ El coste de los falsos positivos y falsos negativos: FPcost y FNcost ▪ El porcentaje de ejemplos de la clase negativa respecto de ejemplos de la clase positiva. (Neg / Pos). ▪ Se calcula: (para el ejemplo anterior) 20 1 2000 100 = = FNcost FPcost 199 500 99500 = = Pos Neg 95 , 9 199 · 20 1 = = slope – Para dos clases, el valor “slope” es suficiente para determinar qué clasificador será mejor. Clasifi. 1: FNR= 40%, FPR= 0,5% Coste Unitario = 1 x 0,40 + 9,95 x 0,005 = 0,45 Clasifi. 2: FNR= 100%, FPR= 0% Coste Unitario = 1 x 1 + 9,95 x 0 = 1 Clasifi. 3: FNR= 20%, FPR= 5,4% Coste Unitario = 1 x 0,20 + 9,95 x 0,054 = 0,74
  87. 87. Ph.D. Franklin Parrales 87 08/02/2022 Inteligencia de Negocios Carrera de Software 87 ▪ El clasificador con menor error no es, frecuentemente, el mejor clasificador. ▪ El contexto (la distribución de clases y los costes de cada error) determinan la bondad de los clasificadores. ▪ PROBLEMA: ▪ En muchas aplicaciones, hasta el momento de aplicación, no se conoce la distribución de clases y/o es difícil estimar la matriz de costes. P.ej. un clasificador de spam. ▪ Pero los modelos se aprenden antes generalmente. ▪ Análisis ROC (Receiver Operating Characteristic). ▪ Usado por primera vez para evaluar radares en la 2ª guerra mundial, posteriormente se usó para el análisis de respuesta de transistores, se desarrolló fundamentalmente para aplicaciones de diagnóstico médico a partir de 1970 y comienza a popularizarse a finales de los 90 en minería de datos.
  88. 88. Ph.D. Franklin Parrales 88 08/02/2022 Inteligencia de Negocios Carrera de Software Espacio ROC 0,000 0,200 0,400 0,600 0,800 1,000 0,000 0,200 0,400 0,600 0,800 1,000 False Positives True Positives ▪El espacio ROC ▪ Se normaliza la matriz de confusión por columnas: TPR, FNR TNR, FPR. abrir cerrar ABRIR 400 12000 CERRAR 100 87500 Real Pred abrir cerrar ABRIR 0,8 0,121 CERRAR 0,2 0,879 Real Pred TPR= 400 / 500 = 80% FNR= 100 / 500 = 20% TNR= 87500 / 99500 = 87,9% FPR= 12000 / 99500 = 12,1%
  89. 89. Ph.D. Franklin Parrales 89 08/02/2022 Inteligencia de Negocios Carrera de Software ▪Espacio ROC: buenos y malos clasificadores. 0 1 1 0 FPR TPR • Buen clasificador. – Alto TPR. – Bajo FPR. 0 1 1 0 FPR TPR 0 1 1 0 FPR TPR • Mal clasificador. – Bajo TPR. – Alto FPR. • Mal clasificador (en realidad).
  90. 90. Ph.D. Franklin Parrales 90 08/02/2022 Inteligencia de Negocios Carrera de Software ▪La Curva ROC. Construcción. ROC diagram 0 1 1 0 FPR TPR ▪ Construimos el “casco convexo” (convex hull) de sus puntos (FPR,TPR) además de los dos clasificadores triviales (0,0) y (1,1). ▪ Los clasificadores que caen debajo de la curva ROC se descartan. ▪ El mejor clasificador de los que quedan se seleccionará en el momento de aplicación… ▪ Dados varios clasificadores: Podemos descartar los que están por debajo porque no hay ninguna combinación de distribución de clases / matriz de costes para la cual puedan ser óptimos. La diagonal muestra por tanto la peor situación posible.
  91. 91. Ph.D. Franklin Parrales 91 08/02/2022 Inteligencia de Negocios Carrera de Software Medición honesta: Cross-validation • Cross-validation evita la superposición de conjuntos de prueba – Primer paso: los datos se dividen en k subconjuntos de igual tamaño – Segundo paso: cada subconjunto a su vez se usa para pruebas y el resto para entrenamiento • Eso es llamado k-fold cross-validation • A menudo, los subconjuntos se estratifican antes de que se realice la validación cruzada. • Las estimaciones de error se promedian para producir una estimación de error general
  92. 92. Ph.D. Franklin Parrales 92 08/02/2022 Inteligencia de Negocios Carrera de Software Cross-validation: Ejemplo — Divida los datos en grupos del mismo tamaño — — — Mantenga a un lado un grupo para probar y use el resto para construir el modelo — — Repetir Test
  93. 93. Ph.D. Franklin Parrales 93 08/02/2022 Inteligencia de Negocios Carrera de Software D4 D3 D2 D1 Classificatio n algorithm M D4 D3 D2 D1 D4 D3 D2 D1 D4 D3 D2 D1 D4 D3 D2 D1 M1 M2 M3 M4 Accuracy1 Accuracy2 Accuracy3 Accuracy4 Classificatio n algorithm Classificatio n algorithm Classificatio n algorithm Classificatio n algorithm K-fold cross validation (k=4, ej, didáctico)
  94. 94. Ph.D. Franklin Parrales 94 08/02/2022 Inteligencia de Negocios Carrera de Software Diseño de un experimento Entrenamiento Evaluación Validación train dev test Modelo (parámetros) Hiperparámetros Análisis de errores: - de sesgo - de varianza Datos Preprocesamiento Rendimiento real del modelo
  95. 95. Ph.D. Franklin Parrales 95 08/02/2022 Inteligencia de Negocios Carrera de Software Parámetros e hiperparámetros Fuente: stanford.edu Hiperparámetros: Son los valores que tenemos a mano para configurar el algoritmo de aprendizaje automático (épocas, número de capas, ratio de aprendizaje, etc.). Se establecen manualmente o usando un proceso de búsqueda y optimización (AutoML) Parámetros: Son los valores numéricos que define el modelo matemático aprendido (pesos, umbrales, etc.). Se calculan automáticamente (se aprenden automáticamente). Entrenamiento Modelo (parámetros) Hiperparámetros
  96. 96. Ph.D. Franklin Parrales 96 08/02/2022 Inteligencia de Negocios Carrera de Software Análisis de errores ● Muestra aleatoria de errores (10, 20, 50, 100) ● Intentamos identificar tipos de causas de error ● Rediseñamos aprendizaje (algoritmo, hiperparámetros...) ID ejemplo Tipo de error Esperado Predicho Causa del error 1 I FALSE TRUE Peso incorrecto 34 II TRUE FALSE Categoría desconocida 54 I FALSE TRUE Peso incorrecto 345 II TRUE FALSE Valores próximos 534 II TRUE FALSE Valores próximos 6578 I FALSE TRUE Categoría desconocida
  97. 97. Ph.D. Franklin Parrales 97 08/02/2022 Inteligencia de Negocios Carrera de Software Interpretación del error Fuente: stanford.edu ● Error de sesgo (bias) Error alto en train y dev Soluciones: - mayor complejidad en el modelo - más tiempo de entrenamiento - … ● Error de varianza (variance) Error bajo en train, alto en dev Soluciones: Generalización (más datos, regularización, parada temprana, menor complejidad del modelo…)
  98. 98. Ph.D. Franklin Parrales 98 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  99. 99. Ph.D. Franklin Parrales 99 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Regresión Lineal ▪ Regresión lineal w0 + w1 x + w2 y >= 0 ▪ Regresión calcula wi de los datos para minimizar el error al cuadrado para "ajustar" los datos ▪ No es suficientemente flexible
  100. 100. Ph.D. Franklin Parrales 100 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Reglas X Y 5 2 3 if X > 5 then purple else if Y > 3 then purple else if X > 2 then green else purple
  101. 101. Ph.D. Franklin Parrales 101 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Árboles de clasificación X Y 5 2 3 Es un modelo de clasificación supervisado que utiliza la estructura de árbol para describir la relación entre las características del modelo y los probables resultados X >5 purple Y >3 purple <= 5 X <= 3 purple >2 green <= 2
  102. 102. Ph.D. Franklin Parrales 102 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas P(X|Asia=yes,Smoker=yes,Dyspnea=yes)?
  103. 103. Ph.D. Franklin Parrales 103 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Ej. Caso completo (“Robo o terremoto”) [Pearl’88] Alarm Earthq. Burglary WatsonCalls News
  104. 104. Ph.D. Franklin Parrales 104 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Consultas: probabilidades posteriores Dada alguna evidencia e (observaciones), Probabilidad Posterior de una variable(s) objetivo X : Otros nombres: propagación de probabilidad, actualización de creencias o revisión … Alarm Earth. Burgl. WCalls News ? Vector
  105. 105. Ph.D. Franklin Parrales 105 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Semánticamente, por cualquier tipo de razonamiento Razonamiento predictivo o deductivo (inferencia causal): predice efectos Alarm Earth. Burgl. WCalls News ? Razonamiento diagnóstico (inferencia diagnóstica): diagnosticar las causas Alarm Earth. Burgl. WCalls News ? Sintomas|Enfermedad Enfermedad|Sintomas Variable objetivo es usualmente una descendiente de la evidencia Variable objetivo es usualmente un ancestro de la evidencia
  106. 106. Ph.D. Franklin Parrales 106 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas … para cualquier tipo de razonamiento Razonamiento intercausal: entre causas de un efecto común Alarm Earth. Burgl. WCalls News ? B y E son independientes el uno del otro Suponer que A=Yes → Esto aumenta la Prob. para ambas posibles causas B y E Suponer luego que B=Yes → Esto explica el A observado, que a su vez baja la Prob. de E=Yes Dos causas inicialmente independientes. Si el efecto es conocido, la presencia de una causa explicativa hace que la causa alternativa sea menos probable (Esto es alejamiento explicativo)
  107. 107. Ph.D. Franklin Parrales 107 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas … para cualquier tipo de razonamiento La dirección del arco entre las variables no restringe el tipo de consulta que se debe realizar: la inferencia probabilística puede combinar evidencia de todas las partes de la red Razonamiento bidirectional(inferencia mixta): combina 2 o mas de las anteriores Alarm Earth. Burgl. WCalls News ? Razonamiento diagnóstico y predictivo Razonamiento diagnóstico e intercausal
  108. 108. Ph.D. Franklin Parrales 108 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Más consultas: conjunta y verosimilitud Conjunta posterior: prob. condicional de muchas variables El tamaño de la respuesta a la consulta es exponencial en el número de variables en la conjunta Verosimilitud de la evidencia: la consulta mas simple, ej: la prob. de la evidencia
  109. 109. Ph.D. Franklin Parrales 109 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes neuronales ▪ Puede seleccionar regiones más complejas ▪ Puede ser más precisa ▪ Además, puede sobreajustar los datos – encontrar patrones en ruido aleatorio
  110. 110. Ph.D. Franklin Parrales 110 08/02/2022 Inteligencia de Negocios Carrera de Software Clustering Simple: K-means Funciona solo con datos numéricos 1) Elija un número (K) de centros de clústers/grupos (al azar) 2) Asignar cada elemento a su centro de grupo más cercano (por ejemplo, utilizando la distancia euclidiana) 3) Mueva cada centro de clúster a la media de sus elementos asignados 4) Repita los pasos 2, 3 hasta la convergencia (cambio en las asignaciones de clúster por debajo de un umbral)
  111. 111. Ph.D. Franklin Parrales 111 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo K-means, paso 1 k1 k2 k3 X Y Elija 3 centros de grupo iniciales (al azar)
  112. 112. Ph.D. Franklin Parrales 112 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo K-means, paso 2 k1 k2 k3 X Y Asignar cada punto al centro del grupo más cercano
  113. 113. Ph.D. Franklin Parrales 113 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo K-means, paso 3 X Y Mueva cada centro de grupo a la media de cada grupo k1 k2 k2 k1 k3 k3
  114. 114. Ph.D. Franklin Parrales 114 08/02/2022 Inteligencia de Negocios Carrera de Software Discusión • El resultado puede variar significativamente según la elección inicial de semillas. • Puede quedar atrapado en un mínimo local – Ejemplo: • Para aumentar la posibilidad de encontrar el óptimo global: reinicie con diferentes semillas aleatorias instances initial cluster centers
  115. 115. Ph.D. Franklin Parrales 115 08/02/2022 Inteligencia de Negocios Carrera de Software Resumen de agrupación en clústeres por K-means • Ventajas – Simple, comprensible – elementos asignados automáticamente a clústeres • Desventajas – Debe elegir el número de grupos de antemano – Todos los elementos forzados a agruparse – Demasiado sensible a los valores atípicos
  116. 116. Ph.D. Franklin Parrales 116 08/02/2022 Inteligencia de Negocios Carrera de Software Variaciones de K-means • K-medoids – en lugar de medias, usa las medianas de cada grupo – Media de 1, 3, 5, 7, 9 es – Media de 1, 3, 5, 7, 1009 es – Mediana de 1, 3, 5, 7, 1009 es – Ventaja de la mediana: no afectado por valores extremos • Para bases de datos grandes, use muestreo 5 205 5
  117. 117. Ph.D. Franklin Parrales 117 08/02/2022 Inteligencia de Negocios Carrera de Software *Clustering jerárquico • Bottom up – Comience con clústeres de instancia única – En cada paso, une los dos grupos más cercanos – Decisión de diseño: distancia entre clústeres • P.ej. dos instancias más cercanas en grupos vs. distancia entre medias • Top down – Comience con un clúster universal – Encuentra dos grupos – Proceda de forma recursiva en cada subconjunto – Puede ser muy rápido • Ambos métodos producen un dendrograma. g a c i e d k b j f h
  118. 118. Ph.D. Franklin Parrales 118 08/02/2022 Inteligencia de Negocios Carrera de Software *Clustering incremental • Enfoque heurístico (COBWEB/CLASSIT) • Forma una jerarquía de clústeres de forma incremental • Inicio: – el árbol consta de un nodo raíz vacío • Luego: – agregar instancias una por una – actualizar el árbol de manera apropiada en cada etapa – para actualizar, busque la hoja correcta para una instancia – Puede implicar la reestructuración del árbol. • Basar las decisiones de actualización en la utilidad de la categoría
  119. 119. Ph.D. Franklin Parrales 119 08/02/2022 Inteligencia de Negocios Carrera de Software *Clusterizando datos meteorológicos • 1 ID Outlook Temp. Humidity Windy A Sunny Hot High False B Sunny Hot High True C Overcast Hot High False D Rainy Mild High False E Rainy Cool Normal False F Rainy Cool Normal True G Overcast Cool Normal True H Sunny Mild High False I Sunny Cool Normal False J Rainy Mild Normal False K Sunny Mild Normal True L Overcast Mild High True M Overcast Hot Normal False N Rainy Mild High True 2 3 1
  120. 120. Ph.D. Franklin Parrales 120 08/02/2022 Inteligencia de Negocios Carrera de Software *Clusterizando datos meteorológicos • 4 ID Outlook Temp. Humidity Windy A Sunny Hot High False B Sunny Hot High True C Overcast Hot High False D Rainy Mild High False E Rainy Cool Normal False F Rainy Cool Normal True G Overcast Cool Normal True H Sunny Mild High False I Sunny Cool Normal False J Rainy Mild Normal False K Sunny Mild Normal True L Overcast Mild High True M Overcast Hot Normal False N Rainy Mild High True 3 Merge best host and runner-up 5 Consider splitting the best host if merging doesn’t help 4
  121. 121. Ph.D. Franklin Parrales 121 08/02/2022 Inteligencia de Negocios Carrera de Software *Jerarquía final ID Outlook Temp. Humidity Windy A Sunny Hot High False B Sunny Hot High True C Overcast Hot High False D Rainy Mild High False Oops! a and b are actually very similar
  122. 122. Ph.D. Franklin Parrales 122 08/02/2022 Inteligencia de Negocios Carrera de Software *Ejemplo: los datos del iris (subconjunto)
  123. 123. Ph.D. Franklin Parrales 123 08/02/2022 Inteligencia de Negocios Carrera de Software *Clustering con corte
  124. 124. Ph.D. Franklin Parrales 124 08/02/2022 Inteligencia de Negocios Carrera de Software *Utilidad de la categoría • Utilidad de la categoría: función de pérdida cuadrática definida en probabilidades condicionales: • Cada instancia en una categoría diferente  numerador se convierte en k v a C v a C C C C CU l i j ij i l ij i l k   = − = = ) ] Pr[ ] | (Pr[ ] Pr[ ) ,..., , ( 2 2 2 1 2 ] Pr[ ij i v a m = − maximum number of attributes
  125. 125. Ph.D. Franklin Parrales 125 08/02/2022 Inteligencia de Negocios Carrera de Software * Heurística para evitar sobreajuste • Si cada instancia se coloca en una categoría diferente, el numerador se convierte en (máximo): • Donde n es el número de todos los posibles valores de atributo. • Entonces, sin k en el denominador de la fórmula UC, ¡cada grupo consistiría en una instancia!  = − i j ij v i a n 2 ] Pr[ Valor Máximo de UC
  126. 126. Ph.D. Franklin Parrales 126 08/02/2022 Inteligencia de Negocios Carrera de Software Niveles de Clustering
  127. 127. Ph.D. Franklin Parrales 127 08/02/2022 Inteligencia de Negocios Carrera de Software Clustering jerárquico • Los clústeres se crean en niveles creando realmente conjuntos de clústeres en cada nivel. • Aglomerativo – Inicialmente, cada elemento en su propio grupo – Iterativamente, los clústeres se fusionan – Bottom Up • Divisivo – Inicialmente, todos los elementos de un grupo – Los grandes grupos se dividen sucesivamente – Top Down
  128. 128. Ph.D. Franklin Parrales 128 08/02/2022 Inteligencia de Negocios Carrera de Software Dendrograma • Dendrograma: una estructura de datos de árbol que ilustra técnicas de agrupamiento jerárquico. • Cada nivel muestra grupos para ese nivel. – Hojas – clusters individuales – Raiz – un cluster • Un clúster en el nivel i es la unión de sus clústeres hijos en el nivel i + 1. 128
  129. 129. Ph.D. Franklin Parrales 129 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo Aglomerativo A B C D E A 0 1 2 2 3 B 1 0 2 4 3 C 2 2 0 1 5 D 2 4 1 0 3 E 3 3 5 3 0 B A E C D 4 Umbral de 2 3 5 1 A B C D E
  130. 130. Ph.D. Franklin Parrales 130 08/02/2022 Inteligencia de Negocios Carrera de Software Distancia entre Clústeres • Single Link: menor distancia entre puntos • Complete Link: mayor distancia entre puntos • Average Link: distancia media entre puntos • Centroid: distancia entre centroides
  131. 131. Ph.D. Franklin Parrales 131 08/02/2022 Inteligencia de Negocios Carrera de Software Agrupación en clústeres de enlace único (Single Link Clustering)
  132. 132. Ph.D. Franklin Parrales 132 08/02/2022 Inteligencia de Negocios Carrera de Software Resúmen sobre Algoritmos de Clustering • Aprendizaje no supervisado • Muchas metodologías – K-means – simple, algunas veces es muy útil • K-medoids es menos sensitive a valores extremos – Clustering jerárquico – funciona para atributos simbólicos • La evaluación de clústeres es un problema
  133. 133. Ph.D. Franklin Parrales 133 08/02/2022 Inteligencia de Negocios Carrera de Software Minería de datos Unidad 3 Final de la unidad

×