Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf

Aprendizaje automático I
ODS 12, 13

Tema 5: Aprendizaje Automático
No-Supervisado
2

Tema 5: Aprendizaje automático No-Supervisado
Algoritmos de
machine
learning
No-Supervisado
Introducción
Ejemplos
Ejemplos en
Python
Clustering,
Asociación y
Reducción de
dimensionalidad
Conceptos principales

Aprendizaje Automático No-Supervisado
4
• La segunda gran familia de algoritmos de aprendizaje automático son los algoritmos No-Supervisados
(Unsupervised Machine Learning)
• En los modelos no-supervisados, no conocemos el resultado objetivo, no tenemos muestras con
etiquetas con las que entrenar el algoritmo. Sólo disponemos de los datos independientes (xi). El
algoritmo no-supervisado extrae información nueva o conocimiento. Descubren agrupaciones o
patrones ocultos sin necesidad de intervención humana
• Para evaluar la precisión o calidad de un modelo no-supervisado, existen técnicas específicas (si no
tenemos datos de test): índice Rand, índice Calinski-Harabasz, etc (disponibles en scikit-learn)
• Su capacidad de descubrir similitudes y diferencias en los datos lo convierten en la solución ideal para
análisis exploratorios, la venta cruzada, la segmentación de clientes y el reconocimiento de imágenes
ü Visión computacional: tareas de percepción visual, como el reconocimiento de objetos
ü Imágenes médicas: funciones básicas a los dispositivos de creación de imágenes médicas, como
la detección, la clasificación y la segmentación de imágenes, que se utilizan en radiología y
anatomía patológica para diagnosticar a pacientes de forma rápida y precisa
ü Detección de anomalías: analizar grandes cantidades de datos y descubrir puntos atípicos dentro
de un conjunto de datos. Estas anomalías pueden concienciar sobre equipos defectuosos, errores
humanos o en la seguridad
ü Motores de recomendación: utilizando datos de comportamiento de compras anteriores, el
aprendizaje no supervisado descubre tendencias de datos que pueden utilizarse para desarrollar
estrategias de venta cruzada más eficaces

5
• Un buen ejemplo de aplicación en el mundo empresarial es el recommender de Netflix
• 80% de las visualizaciones proviene de recomendaciones hechas por el algoritmo
• En negocios digitales, la abundancia de datos (Big Data) convierte estos algoritmos en el core del negocio. Esto
permite a Netflix una propuesta de valor mejorada respecto productores tradicionales de contenidos
https://youtu.be/VvTYuQPINec
https://youtu.be/f8OK1HBEgn0

6
• O la conducción autónoma dirigida por aprendizaje automático
https://youtu.be/6v036bBD31o

Algoritmos de ML No-Supervisado
7
• A continuación algunos de los principales algoritmos utilizados en aprendizaje automático no-supervisado
ü Agrupación en clústeres
• K-Means
• Jerárquico
• Modelos Gaussianos
ü Asociación
• Algoritmo Apriori
ü Reducción de dimensionalidad
• Análisis de Componentes Principales (PCA)
• Veremos el detalle de funcionamiento e implementación durante el curso. En el Tema 6 veremos el algoritmo
K-Means no supervisado aplicado a nuestro problema de las flores de Iris (Visto en Tema 1 y siguientes)

Algoritmos de Agrupación en clústers
8
• En términos básicos, el objetivo de la agrupación es
encontrar diferentes grupos dentro de los elementos de los
datos. Para ello, los algoritmos de agrupamiento
encuentran la estructura en los datos de manera que los
elementos del mismo clúster (o grupo) sean más similares
entre sí que con los de clústeres diferentes
• Algunos de los algoritmos de agrupación más comunes son:
ü K-Means
ü Clusterización Jerárquica
ü Density Based Scan Clustering (DBSCAN)
ü Modelo de Agrupamiento Gausiano
• A continuación veremos los tres primeros algoritmos, más
habituales. Para ver un ejemplo de clustering Gausiano,
podéis consultar el siguiente vídeo para agrupar imágenes
por colores:
https://youtu.be/DODphRRL79c?si=mohjlr9FORdmzqev

Algoritmo K-Means
9
• El algoritmo K-Means, o de K-medias, tiene como objetivo encontrar y agrupar en clases los puntos de datos que
tienen una alta similitud entre ellos. En los términos del algoritmo, esta similitud se entiende como lo opuesto de la
distancia entre puntos de datos. Cuanto más cerca estén los puntos de datos, más similares y con más
probabilidades de pertenecer al mismo clúster serán
• El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide (o baricentro) de su
grupo o cluster
• En el tema 6 profundizaremos en la implementación y formulación matemática del algoritmo
https://youtu.be/EZOab1vkFmI

Algoritmos Clusterización Jerárquica
10
• La Agrupación jerárquica es una alternativa a otros algoritmos de
agrupación. La principal ventaja de la agrupación jerárquica es que no
necesitamos especificar el número de agrupaciones, la encontrará por
sí misma.
• Además, permite el trazado de dendogramas. Los dendogramas son
visualizaciones de una agrupación jerárquica binaria. Las observaciones
que se fusionan en la parte inferior son similares, mientras que las que
están en la parte superior son muy diferentes. Con los dendogramas,
las conclusiones se hacen basándose en la ubicación del eje vertical y
no en el horizontal.
• Existen dos enfoques para este tipo de agrupación: aglomerativo y
divisivo
• Divisivo: comienza por englobar todos los puntos de datos en un
solo grupo. Luego, dividirá el grupo iterativamente en otros más
pequeños hasta que cada uno de ellos contenga sólo una muestra
• Aglomerativo: comienza con cada muestra siendo un grupo
diferente y luego fusionándolas por las que están más cerca unas
de otras hasta que sólo haya un grupo
https://youtu.be/T76paW6fJBI
Representación en Dendograma

Algoritmos Asociación
11
• Un algoritmo de asociación es un método basado en reglas para detectar relaciones entre variables en un
conjunto de datos determinado
• Estos métodos se utilizan con frecuencia para análisis de cesta de la compra, que permiten a las empresas
comprender mejor las relaciones entre los diferentes productos. Entender los hábitos de consumo de los
clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de
recomendaciones
• Ejemplos como: "Los clientes que compraron este artículo también compraron" de Amazon o la lista
"Descubrimiento semanal" de Spotify
• Incluyen diferentes algoritmos para generar reglas de asociación, como Apriori, Eclat y FP-Growth
• El algoritmo Apriori es el más utilizado. Se han popularizado en los análisis de cesta de la compra, que
generan diferentes motores de recomendaciones para plataformas de música y comercios en línea. Se
utilizan dentro de conjuntos de datos transaccionales para identificar conjuntos de elementos frecuentes, o
colecciones de elementos, para identificar la probabilidad de consumir un producto dado el consumo de
otro producto. A continuación podéis encontrar un ejemplo del funcionamiento

Algoritmo Apriori
12
• Ejemplo aplicación del algoritmo Apriori en la propensión de compra. Podéis ver también materiales extra
específicos del algoritmo en la plataforma del Aula
• Vamos a analizar la asociación del ejemplo: los que compran harina y huevo, también compran leche
• Conceptos clave del algoritmo: soporte, confianza, elevación y convicción
https://view.genial.ly/5eb9403d7792c20d16619258/dossier-apriori-funcionnamiento

Algoritmos de Reducción de dimensionalidad
13
• La reducción de la dimensionalidad es una técnica utilizada cuando el número de características, o
dimensiones, de un determinado conjunto de datos es demasiado elevado. Reduce el número de
entradas de datos a un tamaño gestionable, además de preservar la integridad del conjunto de
datos lo máximo posible
• Se usa comúnmente en la fase de preprocesamiento de datos, y existen varios métodos de
reducción de dimensionalidad:
ü Análisis de componentes principales (o PCA): Este método utiliza una transformación
lineal para crear una nueva representación de datos, dando como resultado un conjunto
de componentes principales
ü Descomposición en valores singulares: La descomposición en valores singulares (SVD,
por sus siglas en inglés) es otro enfoque a la reducción de dimensionalidad que factoriza
una matriz, A, en tres matrices de rango inferior. SVD se denota mediante la fórmula A =
USVT, donde U y V son matrices ortogonales. S es una matriz diagonal y los valores de S
se consideran valores singulares de la matriz A. Similar a PCA, se suele utilizar para
reducir el ruido y comprimir datos, como archivos de imágenes
ü Codificadores automáticos (redes neuronales): para comprimir los datos y luego volver a
crear una nueva representación de la entrada de datos original

Algoritmo PCA
14
• La intuición detrás del Algoritmo PCA es la siguiente. Imaginemos por ejemplo que queremos predecir
los precios de alquiler de vivienda del mercado. Tendremos en cuenta muchas variables diversas como:
tipo de vivienda, tamaño de la vivienda, antigüedad, servicios, habitaciones, con/sin jardín, con/sin
piscina, con/sin muebles; pero también podemos tener en cuenta la distancia al centro, si hay
colegio en las cercanías, o supermercados, si es un entorno ruidoso, si tiene autopistas en las
cercanías, la “seguridad del barrio”, si se aceptan mascotas, tiene wifi, tiene garaje, trastero… y seguir
sumando variables
• Es posible que cuanta más (y mejor) información, obtengamos una predicción más acertada. Pero
también empezaremos a notar que la ejecución de los algoritmos (regresión lineal, redes neuronales,
etc) es menos eficiente
• Es posible que algunas de las variables sean menos importantes y no aporten demasiado valor a la
predicción. También podríamos generar overfitting
• Veremos también en este Tema 5 un ejemplo aplicado al reconocimiento de imágenes faciales. PCA
como paso previo de un algoritmo supervisado de clasificación SVM. Es habitual este uso combinado de
algoritmos de machine learning

Algoritmo PCA
15
• El algoritmo de Análisis de Componentes Principales (PCA o Principal Component Analysis) es una
técnica de Extracción de Características donde combinamos las entradas de una manera específica y
podemos eliminar algunas de las variables menos importantes manteniendo la parte más importante .
Además, luego de aplicar PCA conseguiremos que todas las nuevas variables sean independientes una
de otra (ortogonales)
• El método numérico consiste en:
• Estandarizar los datos de entrada (normalización de las variables)
• Obtener los vectores y valores propios principales de la matriz de covarianza
• Ordenar los valores propios de mayor a menor y elegir los k vectores que se correspondan con los
valores propios k más grandes (donde k es el número de dimensiones del nuevo subespacio de
características)
• Construir la matriz de proyección (o cambio de base) W con los k vectores propios seleccionados
• Transformamos el dataset original X estandarizado vía W para obtener las nuevas características k-
dimensionales
• Podemos utilizar las librerías scikit-learn para la implementación práctica en Python, como veremos a
continuación

Implementación Algoritmo PCA
16
• Vamos a ver el uso de PCA en el preproceso de los
datos en un problema de reconocimiento facial
• En el caso práctico, utilizamos la base de datos
Labeled Faces in the Wild
• Importamos los datos en arrays de numpy
http://vis-www.cs.umass.edu/lfw/

17

18
• Dividimos de la forma habitual (ver Tema 2) en los proyectos de aprendizaje automático la base de datos en train y test (25%)
• Aplicamos PCA con la base de datos de imágenes faciales, sin utilizar las etiquetas (aprendizaje no-supervisado). El objetivo es
reducir la dimensión

Implementación Algoritmo PCA + Clasificación SVM
19
• Si queremos terminar el proceso de aprendizaje automático para clasificar imágenes nuevas a partir del dataset
preprocesado, el siguiente paso es entrenar un modelo de clasificación. Vamos a utilizar para este ejemplo un modelo
supervisado del Tema 2: Suport Vector Machine o SVM (de la librería scikit-learn)
• Comentar que los problemas de reconocimiento de imágenes suelen resolverse también mediante algoritmos de
aprendizaje automático basados en redes neuronales convolucionales. Las podéis encontrar en librerías como pytorch o
tensorflow mencionadas en el Tema 1
• Un ejemplo de la librería tensorflow: https://www.tensorflow.org/tutorials/keras/classification?hl=es-419

Implementación Algoritmo PCA + Clasificación SVM
20
• Evaluación del performance del modelo sobre los datos test:

Sede Universitat Carlemany
Av. Verge de Canòlich, 47
AD600 Sant Julià de Lòria
Principat d’Andorra
Linkedin Facebook
+376 878 300

Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf

Similar a Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf (20)

Más de Gerard Alba

Más de Gerard Alba (20)

Último

Último (20)

Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf