Este documento presenta una breve introducción al aprendizaje automático. Explica conceptos clave como aprendizaje supervisado, no supervisado y por refuerzo. Usa el conjunto de datos de iris como un ejemplo para ilustrar técnicas como visualización de datos y algoritmos de clustering como k-medias. También discute esquemas de la teoría de decisión y validación cruzada.
Conceptos básicos de lo que se conoce popularmente como Datamining y Machine Learning como introducción a un taller practico en análisis de genómica funcional.
Explicación del algoritmo del Clustering K-Means.
Incluye un ejemplo numérico con la explicación matemática
Puedes ver el video de la explicación en https://www.youtube.com/watch?v=n98fnSEoRiM&t=265s
o visitar mi página en www.rociochavezml.com
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOsystemprisoners
Este documento presenta una lista de integrantes y describe las diferencias entre el aprendizaje supervisado y no supervisado. El aprendizaje supervisado utiliza datos de entrenamiento etiquetados para crear modelos de clasificación y regresión, mientras que el aprendizaje no supervisado encuentra patrones ocultos en datos no etiquetados. Se mencionan algunos algoritmos comunes como SVM, árboles de decisión y k-vecinos más cercanos para aprendizaje supervisado, y clustering, mapas autoorganizados y modelos ocultos de Markov
Entender esquemáticamente y también en detalle cómo funcionan algunos
de los algoritmos más habituales en BA ayudará al estudiante a utilizar herramientas BA, sabiendo qué pueden dar de sí y a la vez, sabiendo cuáles son los
fundamentos científicos que hay detrás de ellas.
En los últimos años, muchas de las soluciones de seguridad están utilizando el aprendizaje automático para detectar y prevenir las principales amenazas como malware o detección de anomalías en las redes. El objetivo de los algoritmos de machine learning es construir modelos que permitan predecir con la mayor precisión posible si ante nuevas entradas de datos, nuestro algoritmo va a ser capaz de predecir si se trata
de malware o se ha detectado un comportamiento anómalo. Para ello disponemos varios tipos de modelos como regresión, clasificación, agrupación en clústeres, árboles de decisión, entre otros.
En esta charla explicaré los conceptos principales sobre el aprendizaje automático aplicado a la ciberseguridad a través de diferentes casos de uso y ejemplos. Comenzaremos explicando los algoritmos principales que podemos usar para hacer nuestras predicciones, aplicando estos conceptos en el campo de la seguridad. Se comentarán ejemplos que permitirán evaluar las mejores técnicas de aprendizaje automático en función del problema de seguridad que se plantea.
Este documento discute el problema de la maldición de la dimensionalidad en machine learning. Explica que a medida que aumenta el número de variables, se hace más difícil encontrar el modelo óptimo que minimice el error. Luego resume métodos para reducir la dimensionalidad como selección de características, extracción de características y casos de éxito al aplicar estas técnicas. Finalmente, ofrece recomendaciones sobre cuándo usar reducción de dimensionalidad y qué algoritmos seleccionar dependiendo del conocimiento del problema y su dimensionalidad.
Este documento presenta un resumen de los conceptos fundamentales de clustering. Explica que el objetivo del clustering es agrupar objetos similares entre sí que sean diferentes a los objetos de otros grupos. Describe algunos algoritmos comunes como k-means, jerárquicos y basados en densidad. Resalta que la similitud entre objetos depende de la medida utilizada y es subjetiva.
Este documento describe el aprendizaje no supervisado y sus principales aplicaciones como el análisis de conglomerados. Explica que en el aprendizaje no supervisado no se conocen las clases de salida y el objetivo es descubrir estructuras en los datos agrupando observaciones similares. Detalla diferentes métodos de agrupamiento como k-means y jerárquicos que generan clusters de datos.
Conceptos básicos de lo que se conoce popularmente como Datamining y Machine Learning como introducción a un taller practico en análisis de genómica funcional.
Explicación del algoritmo del Clustering K-Means.
Incluye un ejemplo numérico con la explicación matemática
Puedes ver el video de la explicación en https://www.youtube.com/watch?v=n98fnSEoRiM&t=265s
o visitar mi página en www.rociochavezml.com
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOsystemprisoners
Este documento presenta una lista de integrantes y describe las diferencias entre el aprendizaje supervisado y no supervisado. El aprendizaje supervisado utiliza datos de entrenamiento etiquetados para crear modelos de clasificación y regresión, mientras que el aprendizaje no supervisado encuentra patrones ocultos en datos no etiquetados. Se mencionan algunos algoritmos comunes como SVM, árboles de decisión y k-vecinos más cercanos para aprendizaje supervisado, y clustering, mapas autoorganizados y modelos ocultos de Markov
Entender esquemáticamente y también en detalle cómo funcionan algunos
de los algoritmos más habituales en BA ayudará al estudiante a utilizar herramientas BA, sabiendo qué pueden dar de sí y a la vez, sabiendo cuáles son los
fundamentos científicos que hay detrás de ellas.
En los últimos años, muchas de las soluciones de seguridad están utilizando el aprendizaje automático para detectar y prevenir las principales amenazas como malware o detección de anomalías en las redes. El objetivo de los algoritmos de machine learning es construir modelos que permitan predecir con la mayor precisión posible si ante nuevas entradas de datos, nuestro algoritmo va a ser capaz de predecir si se trata
de malware o se ha detectado un comportamiento anómalo. Para ello disponemos varios tipos de modelos como regresión, clasificación, agrupación en clústeres, árboles de decisión, entre otros.
En esta charla explicaré los conceptos principales sobre el aprendizaje automático aplicado a la ciberseguridad a través de diferentes casos de uso y ejemplos. Comenzaremos explicando los algoritmos principales que podemos usar para hacer nuestras predicciones, aplicando estos conceptos en el campo de la seguridad. Se comentarán ejemplos que permitirán evaluar las mejores técnicas de aprendizaje automático en función del problema de seguridad que se plantea.
Este documento discute el problema de la maldición de la dimensionalidad en machine learning. Explica que a medida que aumenta el número de variables, se hace más difícil encontrar el modelo óptimo que minimice el error. Luego resume métodos para reducir la dimensionalidad como selección de características, extracción de características y casos de éxito al aplicar estas técnicas. Finalmente, ofrece recomendaciones sobre cuándo usar reducción de dimensionalidad y qué algoritmos seleccionar dependiendo del conocimiento del problema y su dimensionalidad.
Este documento presenta un resumen de los conceptos fundamentales de clustering. Explica que el objetivo del clustering es agrupar objetos similares entre sí que sean diferentes a los objetos de otros grupos. Describe algunos algoritmos comunes como k-means, jerárquicos y basados en densidad. Resalta que la similitud entre objetos depende de la medida utilizada y es subjetiva.
Este documento describe el aprendizaje no supervisado y sus principales aplicaciones como el análisis de conglomerados. Explica que en el aprendizaje no supervisado no se conocen las clases de salida y el objetivo es descubrir estructuras en los datos agrupando observaciones similares. Detalla diferentes métodos de agrupamiento como k-means y jerárquicos que generan clusters de datos.
Este documento describe tres tipos de clasificadores bayesianos: (1) el clasificador bayesiano semi-simple, que mejora al clasificador bayesiano simple al permitir dependencias condicionales limitadas entre atributos; (2) el clasificador bayesiano en cadena para problemas de clasificación multidimensional; y (3) el clasificador jerárquico multidimensional para dominios donde las clases forman una jerarquía. El documento también muestra aplicaciones prácticas de estos clasificadores en problemas como detección de personas, selección de fármacos y clasific
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoDMC Perú
En esta conferencia haremos una presentación de los principales métodos predictivos usados hoy día, como son: K vecinos más cercanos, Métodos Bayesianos, Árboles de Decisión, Redes Neuronales, Máquinas de Soporte Vectorial, Métodos de Potenciación, Bosques Aleatorios y el Método LASSO. Al final se presentará un estudio comparativo al aplicar estos métodos para detectar fraudes en tarjetas de crédito.
Este documento describe los métodos de clusterización no jerárquica para segmentar a los clientes de una empresa en grupos con percepciones similares. Explica los pasos del análisis de clusterización realizado con datos de encuestas de 100 clientes sobre 7 atributos importantes. El análisis utiliza un método jerárquico para obtener centroides iniciales y luego un método no jerárquico para refinar la solución y segmentar a los clientes en grupos.
Este documento describe los métodos de clusterización no jerárquica para segmentar a los clientes de una empresa en grupos con percepciones similares. Explica los pasos del análisis de clusterización realizado con datos de encuestas de 100 clientes sobre 7 atributos importantes. El análisis utiliza un método jerárquico para obtener centroides iniciales y luego un método no jerárquico para refinar la solución y segmentar a los clientes en grupos.
Los algoritmos genéticos son algoritmos de optimización basados en la selección natural y la genética que encuentran soluciones excelentes a problemas complejos. Funcionan generando una población aleatoria inicial que luego es sometida a operaciones como la selección, el cruce y la mutación para generar nuevas soluciones. Se han aplicado con éxito a problemas de optimización, aprendizaje automático y modelización en diversas áreas como la economía y la ecología.
Este documento presenta información sobre árboles de clasificación, que son métodos de aprendizaje automático supervisado utilizados para clasificar datos. Explica conceptos clave como patrones, clasificación, clasificador, clase, conjunto de entrenamiento, sobreajuste y entropía. También describe algoritmos comunes como ID3, C4.5, CART y J4.8 y sus procesos de construcción de árboles de clasificación. Finalmente, presenta ejemplos de aplicaciones como diagnóstico médico y estimación de costos de pro
El documento presenta una agenda sobre el tema de data mining. Explica brevemente qué es data mining y cómo se integra en el proceso de descubrimiento de conocimiento. Luego detalla diferentes técnicas de data mining, incluyendo métodos supervisados como redes neuronales, árboles de decisión y regresión, así como métodos no supervisados como clustering y reglas de asociación.
El documento describe el análisis de conglomerados (cluster analysis), incluyendo las etapas del proceso, diferentes algoritmos como el agrupamiento jerárquico y k-medias, y ejemplos de su aplicación en investigación de mercados. El análisis de conglomerados agrupa casos basados en variables para identificar grupos homogéneos. Se utiliza comúnmente para segmentar mercados de consumidores con comportamientos similares.
Aprendizaje automático I - Sesión 2 Caso Práctico.pdfGerard Alba
Este documento presenta un caso práctico de aprendizaje automático utilizando el conjunto de datos Iris. Se divide la base de datos en conjuntos de entrenamiento y prueba. Se entrena un modelo kNN y se evalúa su precisión en predecir las especies de nuevas flores basadas en sus características. El modelo logra una precisión del 97% en la clasificación, lo que demuestra su efectividad en este problema.
Este documento describe modelos de selección de atributos para Support Vector Machines (SVMs). SVMs es un método popular de aprendizaje supervisado, pero no está diseñado para identificar los atributos más importantes. El objetivo es desarrollar técnicas que incorporen la selección de atributos en SVMs para mejorar el rendimiento y la interpretación. Existen tres enfoques principales para la selección de atributos: filtros, wrappers y embebidos.
El documento describe el aprendizaje por refuerzo, que consiste en que un agente aprende mediante prueba y error cuáles acciones tomar en diferentes estados para lograr una meta. Explica los elementos básicos de este modelo de aprendizaje y métodos como el perceptrón para implementarlo. Finalmente, concluye que las redes neuronales son fundamentales para la inteligencia artificial y pueden aplicarse a muchos problemas.
El documento trata sobre la minería de datos. Explica que la minería de datos consiste en extraer información oculta de grandes conjuntos de datos mediante el análisis matemático para deducir patrones y tendencias. Describe las cinco etapas del proceso KDD de extracción de conocimiento: selección de datos, preprocesamiento, transformación, minería de datos e interpretación. Finalmente, resume algunas de las técnicas comunes de minería de datos como redes neuronales, árboles de decisión, modelos estadístic
El documento introduce la Investigación de Operaciones como la aplicación del método científico a problemas relacionados con el control de organizaciones para producir soluciones óptimas. Surge con la Revolución Industrial para ayudar a tomar decisiones en organizaciones más grandes y complejas. Utiliza modelos matemáticos como la programación lineal para representar sistemas reales de manera abstracta y encontrar soluciones.
Este documento presenta una introducción a la programación lineal como herramienta de la investigación de operaciones. Explica que la programación lineal permite optimizar objetivos como la maximización de beneficios o minimización de costos sujeto a restricciones de recursos. Luego, presenta la formulación general de un modelo de programación lineal, con ejemplos de problemas de producción y mezcla. Finalmente, plantea un problema de producción en una fábrica de automóviles.
El documento describe el uso de diferentes técnicas de toma de decisiones como árboles de decisión, PCA y SVM para analizar datos. Se aplican estas técnicas a diferentes conjuntos de datos como datos de cáncer de mama para reducir dimensiones, clasificar y visualizar los datos. El documento concluye que estas técnicas facilitan la interpretación y comprensión de la toma de decisiones y recomienda analizar correctamente los enlaces en los árboles de decisión para obtener información precisa.
Este documento presenta un resumen de los temas de modelado y simulación. Cubre definiciones clave, etapas para la construcción de simulaciones, ventajas y desventajas, y métodos para generar números pseudoaleatorios como el congruencial mixto y el congruencial multiplicativo. También incluye ejemplos de aplicaciones de simulación y un glosario de términos importantes.
El documento describe el aprendizaje automático y su aplicación a las predicciones en baloncesto. Explica los tipos de aprendizaje automático, incluyendo el aprendizaje supervisado y no supervisado. Luego, detalla varios métodos de aprendizaje supervisado como árboles de decisión, boosting y XGBoost, los cuales son utilizados para realizar predicciones en el baloncesto.
Este documento presenta información sobre aprendizaje de máquina y sus aplicaciones. Explica conceptos clave como aprendizaje supervisado, no supervisado, clustering con K-means, Self-Organizing Maps y máquinas de soporte vectorial. Incluye ejemplos utilizando conjuntos de datos comunes como Iris.
Este documento describe varios métodos de búsqueda para optimizar sistemas de ingeniería, incluyendo el método de la sección dorada y el método Fibonacci. Explica que el objetivo de los métodos de búsqueda es encontrar el elemento óptimo dentro de un espacio de búsqueda mediante la evaluación y eliminación sucesiva de regiones. También describe cómo el método de la sección dorada mantiene una proporción dorada entre los puntos evaluados para garantizar una convergencia eficiente hacia el óptimo.
Este documento analiza los modelos de regresión lineal y regresión logística mediante un enfoque matemático riguroso. Primero, examina las hipótesis estadísticas subyacentes y los problemas de optimización derivados. Luego, cubre técnicas de regularización y el uso del descenso del gradiente para obtener los parámetros óptimos. Finalmente, explica métricas de evaluación de modelos y una metodología para encontrar modelos que generalicen bien con nuevos datos. El autor desarrolló un repositorio
Este documento describe tres tipos de clasificadores bayesianos: (1) el clasificador bayesiano semi-simple, que mejora al clasificador bayesiano simple al permitir dependencias condicionales limitadas entre atributos; (2) el clasificador bayesiano en cadena para problemas de clasificación multidimensional; y (3) el clasificador jerárquico multidimensional para dominios donde las clases forman una jerarquía. El documento también muestra aplicaciones prácticas de estos clasificadores en problemas como detección de personas, selección de fármacos y clasific
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoDMC Perú
En esta conferencia haremos una presentación de los principales métodos predictivos usados hoy día, como son: K vecinos más cercanos, Métodos Bayesianos, Árboles de Decisión, Redes Neuronales, Máquinas de Soporte Vectorial, Métodos de Potenciación, Bosques Aleatorios y el Método LASSO. Al final se presentará un estudio comparativo al aplicar estos métodos para detectar fraudes en tarjetas de crédito.
Este documento describe los métodos de clusterización no jerárquica para segmentar a los clientes de una empresa en grupos con percepciones similares. Explica los pasos del análisis de clusterización realizado con datos de encuestas de 100 clientes sobre 7 atributos importantes. El análisis utiliza un método jerárquico para obtener centroides iniciales y luego un método no jerárquico para refinar la solución y segmentar a los clientes en grupos.
Este documento describe los métodos de clusterización no jerárquica para segmentar a los clientes de una empresa en grupos con percepciones similares. Explica los pasos del análisis de clusterización realizado con datos de encuestas de 100 clientes sobre 7 atributos importantes. El análisis utiliza un método jerárquico para obtener centroides iniciales y luego un método no jerárquico para refinar la solución y segmentar a los clientes en grupos.
Los algoritmos genéticos son algoritmos de optimización basados en la selección natural y la genética que encuentran soluciones excelentes a problemas complejos. Funcionan generando una población aleatoria inicial que luego es sometida a operaciones como la selección, el cruce y la mutación para generar nuevas soluciones. Se han aplicado con éxito a problemas de optimización, aprendizaje automático y modelización en diversas áreas como la economía y la ecología.
Este documento presenta información sobre árboles de clasificación, que son métodos de aprendizaje automático supervisado utilizados para clasificar datos. Explica conceptos clave como patrones, clasificación, clasificador, clase, conjunto de entrenamiento, sobreajuste y entropía. También describe algoritmos comunes como ID3, C4.5, CART y J4.8 y sus procesos de construcción de árboles de clasificación. Finalmente, presenta ejemplos de aplicaciones como diagnóstico médico y estimación de costos de pro
El documento presenta una agenda sobre el tema de data mining. Explica brevemente qué es data mining y cómo se integra en el proceso de descubrimiento de conocimiento. Luego detalla diferentes técnicas de data mining, incluyendo métodos supervisados como redes neuronales, árboles de decisión y regresión, así como métodos no supervisados como clustering y reglas de asociación.
El documento describe el análisis de conglomerados (cluster analysis), incluyendo las etapas del proceso, diferentes algoritmos como el agrupamiento jerárquico y k-medias, y ejemplos de su aplicación en investigación de mercados. El análisis de conglomerados agrupa casos basados en variables para identificar grupos homogéneos. Se utiliza comúnmente para segmentar mercados de consumidores con comportamientos similares.
Aprendizaje automático I - Sesión 2 Caso Práctico.pdfGerard Alba
Este documento presenta un caso práctico de aprendizaje automático utilizando el conjunto de datos Iris. Se divide la base de datos en conjuntos de entrenamiento y prueba. Se entrena un modelo kNN y se evalúa su precisión en predecir las especies de nuevas flores basadas en sus características. El modelo logra una precisión del 97% en la clasificación, lo que demuestra su efectividad en este problema.
Este documento describe modelos de selección de atributos para Support Vector Machines (SVMs). SVMs es un método popular de aprendizaje supervisado, pero no está diseñado para identificar los atributos más importantes. El objetivo es desarrollar técnicas que incorporen la selección de atributos en SVMs para mejorar el rendimiento y la interpretación. Existen tres enfoques principales para la selección de atributos: filtros, wrappers y embebidos.
El documento describe el aprendizaje por refuerzo, que consiste en que un agente aprende mediante prueba y error cuáles acciones tomar en diferentes estados para lograr una meta. Explica los elementos básicos de este modelo de aprendizaje y métodos como el perceptrón para implementarlo. Finalmente, concluye que las redes neuronales son fundamentales para la inteligencia artificial y pueden aplicarse a muchos problemas.
El documento trata sobre la minería de datos. Explica que la minería de datos consiste en extraer información oculta de grandes conjuntos de datos mediante el análisis matemático para deducir patrones y tendencias. Describe las cinco etapas del proceso KDD de extracción de conocimiento: selección de datos, preprocesamiento, transformación, minería de datos e interpretación. Finalmente, resume algunas de las técnicas comunes de minería de datos como redes neuronales, árboles de decisión, modelos estadístic
El documento introduce la Investigación de Operaciones como la aplicación del método científico a problemas relacionados con el control de organizaciones para producir soluciones óptimas. Surge con la Revolución Industrial para ayudar a tomar decisiones en organizaciones más grandes y complejas. Utiliza modelos matemáticos como la programación lineal para representar sistemas reales de manera abstracta y encontrar soluciones.
Este documento presenta una introducción a la programación lineal como herramienta de la investigación de operaciones. Explica que la programación lineal permite optimizar objetivos como la maximización de beneficios o minimización de costos sujeto a restricciones de recursos. Luego, presenta la formulación general de un modelo de programación lineal, con ejemplos de problemas de producción y mezcla. Finalmente, plantea un problema de producción en una fábrica de automóviles.
El documento describe el uso de diferentes técnicas de toma de decisiones como árboles de decisión, PCA y SVM para analizar datos. Se aplican estas técnicas a diferentes conjuntos de datos como datos de cáncer de mama para reducir dimensiones, clasificar y visualizar los datos. El documento concluye que estas técnicas facilitan la interpretación y comprensión de la toma de decisiones y recomienda analizar correctamente los enlaces en los árboles de decisión para obtener información precisa.
Este documento presenta un resumen de los temas de modelado y simulación. Cubre definiciones clave, etapas para la construcción de simulaciones, ventajas y desventajas, y métodos para generar números pseudoaleatorios como el congruencial mixto y el congruencial multiplicativo. También incluye ejemplos de aplicaciones de simulación y un glosario de términos importantes.
El documento describe el aprendizaje automático y su aplicación a las predicciones en baloncesto. Explica los tipos de aprendizaje automático, incluyendo el aprendizaje supervisado y no supervisado. Luego, detalla varios métodos de aprendizaje supervisado como árboles de decisión, boosting y XGBoost, los cuales son utilizados para realizar predicciones en el baloncesto.
Este documento presenta información sobre aprendizaje de máquina y sus aplicaciones. Explica conceptos clave como aprendizaje supervisado, no supervisado, clustering con K-means, Self-Organizing Maps y máquinas de soporte vectorial. Incluye ejemplos utilizando conjuntos de datos comunes como Iris.
Este documento describe varios métodos de búsqueda para optimizar sistemas de ingeniería, incluyendo el método de la sección dorada y el método Fibonacci. Explica que el objetivo de los métodos de búsqueda es encontrar el elemento óptimo dentro de un espacio de búsqueda mediante la evaluación y eliminación sucesiva de regiones. También describe cómo el método de la sección dorada mantiene una proporción dorada entre los puntos evaluados para garantizar una convergencia eficiente hacia el óptimo.
Este documento analiza los modelos de regresión lineal y regresión logística mediante un enfoque matemático riguroso. Primero, examina las hipótesis estadísticas subyacentes y los problemas de optimización derivados. Luego, cubre técnicas de regularización y el uso del descenso del gradiente para obtener los parámetros óptimos. Finalmente, explica métricas de evaluación de modelos y una metodología para encontrar modelos que generalicen bien con nuevos datos. El autor desarrolló un repositorio
8. Deniciones
Bajo el concepto de aprendizaje máquina se engloban un conjunto
de técnicas y algoritmos para extraer información de unos datos, o
bien para estimar una dependencia o estructura desconocida de un
sistema, utilizando un número limitado de observaciones de
entrada-salida (Del la Cruz García y Pajares Martinsanz).
Es una rama de la Inteligencia Articial que involucra algoritmos de
autoaprendizaje, que derivan el conocimiento a partir de los datos
para crear predicciones.
9. Deniciones
En lugar de necesitar al hombre para derivar de forma manual las
reglas y crear modelos a partir del análisis de grandes cantidades de
datos el aprendizaje automático ( o Machine Learning - ML) ofrece
una alternativa más eciente para capturar el conocimiento de los
datos, mejorar gradualmente el rendimiento de los modelos
predictivos y tomar deciciones basados en esos datos.
11. Aprendizaje supervisado
El objetivo principal del aprendzaje supervisado es aprender un
modelo, a partir de datos de entrenamiento etiquetados, que nos
permitan hacer predicciones sobre datos futuros o no vistos.
12. Aprendizaje no supervisado
En este tipo de aprendizaje se tratan datos sin etiquetar o con una
estructura desconocida. Las técnicas de aprendizaje no supervisado
permiten explorar los datos para encontrar una estructura
subyacente y extraer información signicativa.
13. Aprendizaje por refuerzo
Aquí el objetivo es desarrollar un sistema (agente) que mejore su
rendimiento basado en interacciones con el entorno. Para ello, el
agente recibe un feedback mediante un recompensa/penalización.
El agente trata de maximizar su recompensa através de
ensayo-error o una planicación deliberativa.
15. Un Hola Mundo en Aprendizaje Automático
Conjunto de datos iris de Fisher
▶ Conjunto de datos multivariante introducido por Ronald Fisher
en su artículo: The use of multiple measurements in taxonomic
problems.
▶ Contiene 50 muestras de cada una de tres especies de Iris (Iris
setosa, Iris virginica e Iris versicolor).
▶ Se caracterizan cuatro rasgos de cada muestra: el largo y
ancho del sépalo y pétalo, en centímetros.
19. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del sépalo.
20. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del sépalo.
21. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del sépalo.
22. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del pétalo.
23. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del pétalo.
24. Ejemplos
▶ Iris Plants Database.
▶ Clases: Iris setosa, iris versicolor, iris virginica.
▶ Numero de ejemplos: 50 por cada clase.
▶ logitud vs ancho del pétalo.
27. Tipos de aprendizaje
Clasicación supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n C1
x2
1 x2
2 ... X2
n C2
. . ... . .
. . ... . .
xm
1 xm
2 ... Xm
n Cm
Clasicación no supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n ?
x2
1 x2
2 ... X2
n ?
. . ... . ?
. . ... . ?
xm
1 xm
2 ... Xm
n ?
28. Esquema Geométrico de la decisión
Ejemplo: Clasicación no supervizada (Clustering)
▶ Se trata de encontrar
grupos de individuos con
características similares,
que formen una clase.
▶ El concepto de similitud
o distancia es crucial
(individuos similares
deben estar en el mismo
grupo).
Clasicación no supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n ?
x2
1 x2
2 ... X2
n ?
. . ... . ?
. . ... . ?
xm
1 xm
2 ... Xm
n ?
29. Esquema geométrico de la decisión
Algoritmo de las k-medias
▶ Se calcula para cada ejemplo xk el prototipo mas próximo Pg y se
incluyen en la lista de ejemplos de dicho prototipo.
▶ Después de haber introducido todos los ejemplos, cada prototipo Pk
tendrá un conjunto de ejemplos que lo representa.
▶ Se desplaza el prototipo hacia el centro de masas de su conjunto de
ejemplo.
▶ En muchas ocasiones el planteamiento geométrico resulta más
intuitivo y sucientemente preciso.
▶ Se repite el proceso hasta que ya no se repitan los prototipos.
39. Esquema geométrico de la decisión
Ejemplo 2: Clasicación supervisada
▶ Se cuenta con un
conjunto de pares de
objetos, y una función
desconocida que realiza
una categoriación de los
objetos. El primer
componente del par
corresponde a la entrada
de la función y el segundo
componente a la salida.
▶ El objetivo es apender la
regla o deducir la función
que clasica los objetos.
Clasicación supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n C1
x2
1 x2
2 ... X2
n C2
. . ... . ?
. . ... . ?
xm
1 xm
2 ... Xm
n Cn
40. Esquema geométrico de la decisión
El clasicador K-NN
Se tiene un conjunto de datos entrada-salida, en los que cada
entrada esta categorizada en un conjunto de n clases. Dado un
nuevo caso, este se va a clasicar en la clase más frecuente a la que
pertenecen sus k-vecinos más cercanos.
Pseudocódigo
41. Esquema geométrico de la decisión
Breast cancer databases was obtained from the University of Wisconsin Hospitals
Descripción
▶ Número de instancias: 699 (desde el 15 de julio de 1992)
▶ Los atributos 2 a 10 se han usado para representar instancias.
Cada instancia tiene una de las 2 clases posibles: benigna o
maligna.
▶ Cantidad de atributos faltantes: 16.
▶ Distribución de clases: Benigno 458 (65.5 %), Maligno 241
(34.5 %)
43. Validación cruzada (cross-validation)
Técnica utilizada para evaluar los resultados de un análisis
estadístico y garantizar que son independientes de la partición entre
datos de entrenamiento y prueba.