Aprendizaje automático I - Sesión 2 Caso Práctico.pdf

Aprendizaje automático I
ODS 12, 13

Tema 2: Un primer caso práctico
2

Aprendizaje automático
3
• En este apartado, vamos a ver un primer ejemplo sencillo de aprendizaje automático o machine learning.
Introduciremos los conceptos básicos y crearemos un primer modelo
• Un botánico quiere identificar la especie de flor de iris entre una muestra de flores que ha recogido. Dispone
de medidas que ha tomado de cada flor a analizar: la longitud y ancho de los pétalos y los sépalos
• Además, tenemos también una base de datos de varias flores de iris, con sus medidas, y la especie concreta a
la que pertenecen: setosa, versicolor y virginica
• El objetivo es construir un primer modelo de machine learning que pueda aprender de la muestra de flores ya
identificadas de la base de datos, y que luego nos permita predecir la especie correspondiente de una nueva
flor de iris encontrada
Pétalo
Sépalo

Base de Datos Iris
4
• Tenemos una base de datos de varias flores de iris, con sus medidas, y la especie concreta a la que pertenecen: setosa,
versicolor y virginica. En los siguientes enlaces podéis encontrar información añadida sobre este dataset
https://en.wikipedia.org/wiki/Iris_flower_data_set
https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html#

Bases de Datos
5
• Existen bases de datos abiertas para realizar prácticas de algoritmos de aprendizaje automático en muchos ámbitos de aplicación
http://archive.ics.uci.edu/ml/datasets.php

Base de Datos Iris: muestra con características
6
• La función load_iris()
devuelve un objeto bunch
con los datos: claves y
atributos
• Un objeto o estructura de
datos bunch es similar a un
diccionario (claves y
atributos para los
elementos). Añade la
posibilidad de acceder a los
valores con las claves
• Utilizaremos la base de datos Iris dataset, que se encuentra en la librería scikit-learn, en el módulo de bases de datos
• Podemos ver las claves de la base de datos, los nombres de las especies a clasificar, las características de cada muestra de flor, y
ejemplos númericos de valores de estas características para cinco flores de la base de datos
• La base de datos, en el array data contiene las medidas de 150 flores iris. Cada observación o flor individual se llama una muestra
en machine learning, y las propiedades son las características

Base de Datos Iris: etiquetas
7
• Las etiquetas (o target) con el nombre de la especie de cada flor son un array de la base de datos
• Las especies de flores están codificadas con los números 0 (setosa), 1 (versicolor) y 2 (virginica)

Base de Datos Iris: datos de training y testing
8
• Nuestro objetivo es ahora construir un modelo de aprendizaje automático o machine learning que nos permita predecir o
clasificar una flor nueva recogida, a partir de las medidas observadas (sus características)
• En todos los problemas de aprendizaje automático,
dividiremos primero la base de datos conocidos en dos: los
datos de entrenamiento o training, y los datos de verificación
o testing
• Construiremos (entrenaremos) el modelo a partir de la parte
de datos de training
• Utilizaremos el restos de datos, los datos de testing, para
comprobar que nuestro modelo realmente funciona, tiene
capacidad de predecir en nuevos casos
• Queremos que los modelos no consistan sólo en memorizar
los casos conocidos y repetirlos, sinó que sean capaces de
generalizar con nuevos datos
• Por esta razón, dividimos los datos en estos dos grupos en el
proceso de construir el modelo
Pétalo
Sépalo
Muestras
(observaciones,
instancias)
Características (atributos, medidas,
dimensiones)
Etiquetas

Base de Datos Iris: datos de training y testing
9
• Podemos separar los datos en dos partes de training y testing de manera aleatoria utilizando la función de scikit-learn
• Es habitual, por ejemplo, dedicar un 75% de los datos al entrenamiento o aprendizaje del modelo, y el 25% restante al
testing o verificación
• Los datos con las medidas los denotaremos con la letra X (en mayúsculas), mientras que las etiquetas las denotamos
con y (minúscula). Es la formulación matemática habitual de y=f(x)
• Utilizamos X en mayúscula por ser una matriz (array de varias dimensiones), como también es habitual en matemáticas
• Observar que la variable random_state=0 asigna el una semilla constante 0 a la partición aleatoria. Es decir, garantiza
en este caso la misma partición si ejecutamos el programa varias veces

Base de Datos Iris: visualización
10
• En los proyectos de aprendizaje automático, es buena práctica analizar los datos antes de utilizar los modelos,
con el objetivo de tener mejor comprensión de éstos
• Vamos a visualizar los datos con funciones gráficas
• Utilizaremos gráficos de dispersión, con dos características representadas en cada punto. Y una matriz con cada
gráfico resultante de combinar las distintas características a pares. Y un color distinto para cada una de las tres
especies
• Rellenamos la diagonal con información añadida correspondiente al histograma de frecuencias en la muestra
de datos de cada característica

Base de Datos Iris: visualización
11
• Observando los datos, parece que las características
(las medidas almacenadas) pueden servir para
determinar o clasificar las flores en cada especie

Modelo de aprendizaje automático: algoritmo kNN
12
• A continuación, vamos a construir un modelo de machine learning para este problema. Existen muchos
algoritmos de clasificación en la librería scikit-learn y que veremos a lo largo del curso
• Para este caso práctico, podemos escoger el algoritmo kNN o k-Nearest Neighbor
• La idea del modelo kNN es muy sencilla: para clasificar una nueva muestra u observación (una flor), el
algoritmo encuentra el elemento más cercano en la base de datos. Y asigna la etiqueta (la clasificación) de
éste al nuevo elemento
• Más adelante en el curso, revisitaremos este modelo con más detalle. kNN utiliza k puntos vecinos en el
entrenamiento (por ejemplo, tres o cinco puntos vecinos). A partir de estos, hacemos la predicción para el
nuevo punto considerando la clase o etiqueta mayoritaria entre este grupo de puntos vecinos
Ejemplos en Finanzas: el algoritmo kNN también se ha utilizado en una variedad de casos de uso económico
y financiero. A continuación podéis encontrar dos casos prácticos relacionados con el riesgo crediticio o de
solvencia de empresas, para profundizar:
https://iopscience.iop.org/article/10.1088/1742-6596/1025/1/012114/pdf
https://www.ijera.com/papers/Vol3_issue5/DI35605610.pdf

Modelo de aprendizaje automático: entrenamiento algoritmo
13
• Utilizamos pues el algoritmo kNN en scikit-learn
• Está implementado como una clase de objeto KNeighborsClassifier
• Cuando utilizamos estos objetos, el algoritmos encapsula en sus atributos y métodos (funciones) toda la
información que necesitamos. Por ejemplo, el método fit del objeto kNN nos permite construir el modelo
a partir de los datos de entrenamiento (X_train, y_train)
• Ahora ya tenemos el modelo de aprendizaje automático entrenado. Está listo para ser utilizado para
realizar predicciones como siguiente paso

Modelo de aprendizaje automático: predicción kNN
14
• Vamos ahora a realizar predicciones para nuevos datos observados (nuevas flores) de los cuales no
tenemos la etiqueta (la especie de la flor)
• Supongamos que hemos encontrado una nueva flor de iris, con un sépalo con medidas: longitud 5cm, y
ancho 2,9cm, y pétalo: longitud 1cm y ancho 0,2cm
• ¿A qué especie pertenece la flor?
• El modelo predice que la nueva flor es de la clase 0, que corresponde a la especie setosa

Modelo de aprendizaje automático: evaluación
15
• El último paso en nuestro modelo de aprendizaje automático es verificar o evaluar el buen funcionamiento
del modelo construido. Nos preguntamos: ¿Ha clasificado correctamente la nueva flor?
• En general, para evaluar un modelo entrenado, utilizaremos los datos de test, comparando la predicción
con estos del modelo con su etiqueta (conocida en estos datos de test)
• Podemos calcular el porcentaje de acierto o precisión
• Observamos que en este ejemplo la precisión del modelo de aprendizaje es del 97%!!

Resumen de las fases del proyecto de ML
16
• Recapitulando, podemos resumir gráficamente un proyecto de aprendizaje automático en estas fases:

Tema 2: Ejercicios
• Ejercicio: consideramos el código siguiente. Comentar los pasos del modelo de aprendizaje automático
utilizando los conceptos estudiados en el Tema 2
• Podéis también repasar el funcionamiento del modelo kNN en el siguiente enlace:
https://youtu.be/FpAu0q2eSHo

Sede Universitat Carlemany
Av. Verge de Canòlich, 47
AD600 Sant Julià de Lòria
Principat d’Andorra
Linkedin Facebook
+376 878 300

Aprendizaje automático I - Sesión 2 Caso Práctico.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Aprendizaje automático I - Sesión 2 Caso Práctico.pdf

Similar a Aprendizaje automático I - Sesión 2 Caso Práctico.pdf (20)

Más de Gerard Alba

Más de Gerard Alba (20)

Último

Último (20)

Aprendizaje automático I - Sesión 2 Caso Práctico.pdf