Aprendizaje profundo y Aprendizaje por refuerzo.pdf

Aprendizaje profundo y
Aprendizaje por refuerzo
UNIVERSIDAD AUTÓNOMA DE TLAXCALA
Facultad de Ciencias Básicas, Ingeniería y Tecnología
LICENCIATURA EN INGENIERÍA EN COMPUTACIÓN
[Plan 2018]
Grupo: 8vo B
Equipo:
Denisse Amalinali Flores Jiménez
Luis Fernando Piedras Ortiz
Abril 2024
APLICACIONES

Índice
01 ¿Qué es el Aprendizaje profundo?
02 Desarrollo de un asistente de conducción longitudinal
mediante un Algoritmo de Aprendizaje Profundo
03 ¿Qué es el Aprendizaje por Refuerzo?
04 Aprendizaje por refuerzo profundo en un robot móvil para
evasión de obstaculos y alcance de objetivos
05 Conclusiones
06 Referencias

¿Qué es aprendizaje
profundo?
El aprendizaje profundo es un método de la inteligencia artificial (IA) que
enseña a las computadoras a procesar datos de una manera que se inspira en
el cerebro humano. Los modelos de aprendizaje profundo son capaces de
reconocer patrones complejos en imágenes, textos, sonidos y otros datos, a
fin de generar información y predicciones precisas. Es posible utilizar
métodos de aprendizaje profundo para automatizar tareas que habitualmente
requieren inteligencia humana, como la descripción de imágenes o la
transcripción a texto de un archivo de sonido.

Usos
Medios sociales
Finanzas
Predecir enfermedades
Seguridad cibernética
Asistentes digitales
Ventajas
Procesamiento eficiente
de datos no estructurados
Relaciones ocultas y
detección de patrones
Procesamiento de datos
volátiles
Ingeniería de funciones
Eficacia
Formación
Desventajas
Grandes cantidades de
datos
Falta de flexibilidad
Falta de transparencia
Aprendizaje profundo

Desarrollo de un asistente de conducción longitudinal
mediante un Algoritmo de Aprendizaje Profundo
Desarrolla una simulación de un automóvil con asistente de conducción para
una trayectoria longitudinal donde el automóvil frena o acelera al detectar
objetos de interés, esto con el uso de técnicas de redes neuronales
convolucionales y visión de máquina. El automóvil es capaz de identificar
seis objetos (bicicletas, motos, señal de pare, automóviles, semáforos y
peatones), logrando realizar estimaciones de la ubicación de los objetos y
la categoría a la que pertenecen, utilizando como técnica de aprendizaje
profundo la arquitectura YOLO y como red neuronal convolucional, con varias
capas residuales para una mejor precisión, la RESNET50.

Creación de bases de datos
se generan tres bases de datos para diferentes aplicaciones, la primera para la
utilización de algoritmos que clasifican las imágenes, la segunda base de datos,
para la implementación a eventualidades con varios objetos de interés que se
presentan utilizando ROI, siendo esta aplicable para algoritmos de aplicación y
detección de OI basada en regiones y la tercera para el entrenamiento de semáforos
Desarrollo del ambiente virtual de simulación
Para la creación del ambiente virtual se utilizó V-Rep, el cual es un software
libre y de fácil acople a Matlab. Se crea un ambiente de simulación que presenta
imágenes reales de las calles de Bogotá, mostrando el comportamiento longitudinal
para un móvil de características de micro car, y en paredes(walls) se pondrá como
textura, imágenes seleccionadas para evaluar diferentes casos de comportamiento
longitudinal del coche ante la detección de algún objeto cuando se realice el
entrenamiento. Este trabajo no pretende demostrar características físicas, sin
embargo los cálculos de cinemática se aproximan para darle realismo a la
simulación.
Método

EVALUACIÓN, SELECCIÓN E IMPLEMENTACIÓN DEL ALGORITMO DE
CLASIFICACIÓN Y DETECCIÓN.
Método
Extracción de características
utilizando procesamiento de
imágenes
Es el entorno donde el agente se
mueve e interactúa. Contiene todos
los elementos que constituye el
estado. Establece las reglas y las
limitaciones del sitio.
Reconocimiento y
clasificación de imágenes,
utilizando técnicas clásicas
de ML
Es la situación actual del
ambiente, teniendo en cuenta todos
sus elementos y variables. En pocas
palabras, es un indicador actual
del ambiente.
Reconocimiento y
clasificación de imágenes,
utilizando Deep learning
con una CNN.
Es la máquina o el modelo al cual
se le aplica inteligencia por
refuerzo. Es el autor del escenario
y el que toma las decisiones por
autonomía propia.
Evaluación y selección de
algoritmo de clasificación
según las matrices de
confusión con la base de
datos
del ambiente.

Implementación de la red Neuronal Convolucional YOLOv2 con la base de datos
...
Método

Pruebas
El algoritmo de detección YOLO detecta 6
agentes, uno de ellos es semáforo, pero no se
discrimina si es verde o rojo, por tal motivo
se debe entrenar una CNN externa que trabaja
pen paralelo, para corregir la clasificación de
los semáforos. Para reducir la probabilidad de
errores durante el entrenamiento, se anexan
alrededor de 8000 imágenes entre semáforos
verdes y rojos, utilizando la CNN de Alex Net
redimensionando las imágenes a 227 x 227, estas
dimensiones son debido a que es la única forma
que la red Alex Net funcione, se establecen 5
épocas de entrenamiento, un LR de -0.00001,
obteniendo un Accuracy del 99,34% al final del
entrenamiento.

Resultados
El algoritmo, logra que el conductor se
detenga totalmente ante un semáforo en rojo,
un pare, y mantenga distancia frente a los
objetos de interés (sean carros, bicicletas,
motos o personas), evitando el cometer
imprudencias.

¿Que es aprendizaje
por refuerzo?
El aprendizaje por refuerzo es una rama del machine
learning en la cual la máquina guía su propio aprendizaje a
través de recompensas y castigos. Es decir, consiste en un
sistema de instrucción autónomo cuyo camino es indicado
según sus aciertos y errores.

Ambiente
Es el entorno donde el agente se
mueve e interactúa. Contiene todos
los elementos que constituye el
estado. Establece las reglas y las
limitaciones del sitio.
Estado
del ambiente.
Agente
Es la máquina o el modelo al cual
se le aplica inteligencia por
refuerzo. Es el autor del escenario
y el que toma las decisiones por
autonomía propia.
¿Como funciona?

¿Como funciona?
Acciones
Son las posibles decisiones que
puede tomar el agente en diversas
circunstancias.
Recompensas
Son los premios que se le otorgan
al agente por acertar o tomar el
camino correcto.
Penalizaciones
Son los castigos que se le otorgan
al agente por fallar o tomar el
camino incorrecto.

Aprendizaje por refuerzo profundo en un robot
móvil para evasión de obstaculos y alcance de
objetivos
Se desarrollo un sistema de navegación autónoma para un robot móvil
utilizando aprendizaje por refuerzo. Se explica el empleo del algoritmo
DQN para el proceso de entrenamiento, complementado con una arquitectura
de red neuronal diseñada para interpretar eficazmente los datos
recopilados por un LiDAR 2D y los sensores de orientación. Además, se
presenta una metodología específica para el entrenamiento por refuerzo
en tareas de navegación, la cual se enfoca en la descomposición de las
tareas fundamentales: orientación y evasión de obstáculos. El documento
concluye con una exposición de los resultados obtenidos mediante esta
metodología, identificando áreas de mejora y proponiendo estrategias
para abordar dichos retos en investigaciones futuras.

Concepto Simbolo
Estados s
Próximos estados s’
Acciones a
Recompensa R(s,a) R(s,a,s’)
Politica π(s)
Probabilidad P(s|s,a)
Proceso de Decisión de Markov MDP

Proceso de Decisión de Markov MDP
Adaptado de “Estados y acciones de
un gato que quiere llegar a casa”,
por J. Lopez, pag. 25

Método
Instalar Tensorflow, GYM y las librerias auxiliares
Para el ambiente se implemento con un algoritmo de Q-Learning sin el uso
de redes neuronales (Tensorflow)
Adaptado de “Red neuronal
artificial con multiples capas”,
por J. Lopez, pag. 53

Método
Usar redes con capas ocultas (caja negra)
MDP
OpenAI GYM para entrenar a la red
Adaptado de “Entradas y salidas de
nuetra red neuronal”, por J. Lopez,
pag. 54

Pruebas
Errores con las librerías
puesto la version de
Tensorflow
10 pruebas por el
ambiente de CartPole y
MountainCar, se ejecuto
10 veces el codigo para
cer los resultados y asi
tomar una estadistica de
las recompensas obtenidas
Adaptado de “Grafica recompensa del
agente vs el numero de episodios
ejecutado”, por J. Lopez, pag. 65

Concepto Recompensa
Recompensa mas alta 200
Recompensa mas baja 10
Promedio de recompensa 102
Promedio de aprendizaje 120
Resultados de CartPole

Pruebas
Tuvo mejor aprendizaje
que CartPole de las 10
ejecuciones la red de
aprendizaje obtuvo su
primera victoria en el
episodio 55
Adaptado de “Grafica recompensa del
agente vs el numero de episodios
ejecutado: MountainCar”, por J.
Lopez, pag. 68

Concepto Recompensa
Recompensa mas alta 800
Recompensa mas baja -200
Promedio de recompensa 275
Promedio de aprendizaje 50
Resultados de MountainCar

Conclusión
En conclusión, tanto el aprendizaje profundo como el aprendizaje por
refuerzo son áreas de la inteligencia artificial que han revolucionado
diversos campos. Mientras que el aprendizaje profundo se centra en el
procesamiento de grandes cantidades de datos para extraer patrones y
características útiles, el aprendizaje por refuerzo se enfoca en aprender a
tomar decisiones óptimas a través de la interacción con un entorno,
maximizando una señal de recompensa.

Amazon Web Services, Inc. (s. f.). ¿Qué es el aprendizaje profundo? Recuperado 25 de abril de 2024, de
https://aws.amazon.com/es/what-is/deep-learning/
Ceupe, B. (2022, 4 abril). Ceupe. Ceupe. Recuperado 25 de abril de 2024, de
https://www.ceupe.com/blog/aprendizaje-por-refuerzo.html
Jesús, A. L. R., Manuel, R. A. J., Antonio, M., Fernández, A., Hurtado, E. G., Arriaga, S. T., ... & Ortega,
P. Aprendizaje por refuerzo profundo en un robot móvil para la evasión de obstáculos y alcance de objetivos.
Oracle Cloud. (s. f.). ¿Sabe qué es el aprendizaje profundo? OCI. Recuperado 25 de abril de 2024, de
https://www.oracle.com/mx/artificial-intelligence/machine-learning/what-is-deep-learning/
Vogulys, J. J. (2020). Desarrollo de un asistente de conducción longitudinal mediante un Algoritmo de
Aprendizaje Profundo. Recuperado de: http://hdl.handle.net/10654/35691.
Referencias

Aprendizaje profundo y Aprendizaje por refuerzo.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Aprendizaje profundo y Aprendizaje por refuerzo.pdf

Similar a Aprendizaje profundo y Aprendizaje por refuerzo.pdf (20)

Último

Último (9)

Aprendizaje profundo y Aprendizaje por refuerzo.pdf