8. Deniciones
Bajo el concepto de aprendizaje máquina se engloban un conjunto
de técnicas y algoritmos para extraer información de unos datos, o
bien para estimar una dependencia o estructura desconocida de un
sistema, utilizando un número limitado de observaciones de
entrada-salida (Del la Cruz García y Pajares Martinsanz).
Es una rama de la Inteligencia Articial que involucra algoritmos de
autoaprendizaje, que derivan el conocimiento a partir de los datos
para crear predicciones.
9. Deniciones
En lugar de necesitar al hombre para derivar de forma manual las
reglas y crear modelos a partir del análisis de grandes cantidades de
datos el aprendizaje automático ( o Machine Learning - ML) ofrece
una alternativa más eciente para capturar el conocimiento de los
datos, mejorar gradualmente el rendimiento de los modelos
predictivos y tomar deciciones basados en esos datos.
11. Aprendizaje supervisado
El objetivo principal del aprendzaje supervisado es aprender un
modelo, a partir de datos de entrenamiento etiquetados, que nos
permitan hacer predicciones sobre datos futuros o no vistos.
12. Aprendizaje no supervisado
En este tipo de aprendizaje se tratan datos sin etiquetar o con una
estructura desconocida. Las técnicas de aprendizaje no supervisado
permiten explorar los datos para encontrar una estructura
subyacente y extraer información signicativa.
13. Aprendizaje por refuerzo
Aquí el objetivo es desarrollar un sistema (agente) que mejore su
rendimiento basado en interacciones con el entorno. Para ello, el
agente recibe un feedback mediante un recompensa/penalización.
El agente trata de maximizar su recompensa através de
ensayo-error o una planicación deliberativa.
15. Un Hola Mundo en Aprendizaje Automático
Conjunto de datos iris de Fisher
▶ Conjunto de datos multivariante introducido por Ronald Fisher
en su artículo: The use of multiple measurements in taxonomic
problems.
▶ Contiene 50 muestras de cada una de tres especies de Iris (Iris
setosa, Iris virginica e Iris versicolor).
▶ Se caracterizan cuatro rasgos de cada muestra: el largo y
ancho del sépalo y pétalo, en centímetros.
19. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del sépalo.
20. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del sépalo.
21. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del sépalo.
22. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del pétalo.
23. Importancia de la visualización de datos
Diagrama de dispersión en problemas de clasicación
▶ Iris Plants Database.
▶ logitud vs ancho del pétalo.
24. Ejemplos
▶ Iris Plants Database.
▶ Clases: Iris setosa, iris versicolor, iris virginica.
▶ Numero de ejemplos: 50 por cada clase.
▶ logitud vs ancho del pétalo.
27. Tipos de aprendizaje
Clasicación supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n C1
x2
1 x2
2 ... X2
n C2
. . ... . .
. . ... . .
xm
1 xm
2 ... Xm
n Cm
Clasicación no supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n ?
x2
1 x2
2 ... X2
n ?
. . ... . ?
. . ... . ?
xm
1 xm
2 ... Xm
n ?
28. Esquema Geométrico de la decisión
Ejemplo: Clasicación no supervizada (Clustering)
▶ Se trata de encontrar
grupos de individuos con
características similares,
que formen una clase.
▶ El concepto de similitud
o distancia es crucial
(individuos similares
deben estar en el mismo
grupo).
Clasicación no supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n ?
x2
1 x2
2 ... X2
n ?
. . ... . ?
. . ... . ?
xm
1 xm
2 ... Xm
n ?
29. Esquema geométrico de la decisión
Algoritmo de las k-medias
▶ Se calcula para cada ejemplo xk el prototipo mas próximo Pg y se
incluyen en la lista de ejemplos de dicho prototipo.
▶ Después de haber introducido todos los ejemplos, cada prototipo Pk
tendrá un conjunto de ejemplos que lo representa.
▶ Se desplaza el prototipo hacia el centro de masas de su conjunto de
ejemplo.
▶ En muchas ocasiones el planteamiento geométrico resulta más
intuitivo y sucientemente preciso.
▶ Se repite el proceso hasta que ya no se repitan los prototipos.
39. Esquema geométrico de la decisión
Ejemplo 2: Clasicación supervisada
▶ Se cuenta con un
conjunto de pares de
objetos, y una función
desconocida que realiza
una categoriación de los
objetos. El primer
componente del par
corresponde a la entrada
de la función y el segundo
componente a la salida.
▶ El objetivo es apender la
regla o deducir la función
que clasica los objetos.
Clasicación supervisada
X1 X2 ... Xn C
x1
1 x1
2 ... X1
n C1
x2
1 x2
2 ... X2
n C2
. . ... . ?
. . ... . ?
xm
1 xm
2 ... Xm
n Cn
40. Esquema geométrico de la decisión
El clasicador K-NN
Se tiene un conjunto de datos entrada-salida, en los que cada
entrada esta categorizada en un conjunto de n clases. Dado un
nuevo caso, este se va a clasicar en la clase más frecuente a la que
pertenecen sus k-vecinos más cercanos.
Pseudocódigo
41. Esquema geométrico de la decisión
Breast cancer databases was obtained from the University of Wisconsin Hospitals
Descripción
▶ Número de instancias: 699 (desde el 15 de julio de 1992)
▶ Los atributos 2 a 10 se han usado para representar instancias.
Cada instancia tiene una de las 2 clases posibles: benigna o
maligna.
▶ Cantidad de atributos faltantes: 16.
▶ Distribución de clases: Benigno 458 (65.5 %), Maligno 241
(34.5 %)
43. Validación cruzada (cross-validation)
Técnica utilizada para evaluar los resultados de un análisis
estadístico y garantizar que son independientes de la partición entre
datos de entrenamiento y prueba.