Implementación de un módulo para el entrenamiento y evaluación de redes neuronales mediante GPUs

Implementación de un módulo para el entrenamiento y
evaluación de redes neuronales mediante GPUs
Adrián Palacios
Universidad Politécnica de Valencia
27 de Septiembre del 2012
1 de 27

Introducción
• Las redes neuronales artificiales son un modelo matemático
utilizado en diversas áreas por su capacidad de aprendizaje a partir
de muestras.
• El algoritmo de aprendizaje más popular es el Backpropagation
(BP), un algoritmo iterativo de descenso por gradiente.
• Uno de los problemas de este modelo es que se necesita realizar
una gran cantidad de cálculos para resolver algunos problemas,
llegando a necesitar incluso semanas de CPU para su compleción.
• El objetivo de este proyecto es mejorar una implementación ya
existente del algoritmo BP, incluyendo una nueva versión en
lenguaje CUDA que posibilite la ejecución de este algoritmo en
GPUs.
2 de 27

Forma matricial del algoritmo BP
En un dise˜no est´andar, la red tendr´ıa el siguiente aspecto para redes
con conexiones todos a todos y usando la forma matricial de BP:
i o
i+1
o
o+1
s
s
3 de 27

Aportaciones
1. Rediseño del algoritmo BP para ejecutarse en CPU: Se ha
mejorado e implementado el diseño de redes neuronales en April
(realizado en C++) para mejorar la ejecución del algoritmo BP en
CPU.
2. El modo “bunch”: Nueva formulación del BP en modo “bunch”
con momentum y weight decay, algo que no está en la literatura.
3. Diseño del algoritmo BP para ejecutarse en GPU: Sobre el
diseño anterior, se han añadido los elementos necesarios para que
la ejecución ´ıntegra del BP pueda ser efectuada en GPU.
4. Experimentación exhaustiva: La implementación ha sido validada
mediante la resolución de un conjunto de tareas complejas y se ha
elaborado un estudio sobre la influencia de los parámetros en ellas.
4 de 27

Aportación 1: Diseño del BP
• El BP de April ha sufrido cambios desde 2005 para cumplir nuevos
requisitos: Rediseño aprovechando los conocimientos previos.
• Otras implementaciones ofrecen flexibilidad a costa de eficiencia
(neuronas independientes) o eficiencia utilizando topolog´ıas
especializadas. Este diseño combina lo mejor de ambas
aproximaciones.
• El modo “on-line” ha sido mejorado.
5 de 27

Aportación 2: El modo bunch
Diseño de la red sin bunch:
i
o
i+1
o
o+1
s
s
Diseño de la red con bunch (b muestras):
b
i
o
i+1
b
o
b
o+1
s
s
6 de 27

Bibliotecas de ´algebra lineal
La API de BLAS declara un conjunto de funciones aplicables sobre
vectores y matrices.
´Esta se divide en 3 niveles:
• Nivel 1: Operaciones aplicables sobre un conjunto de vectores, de
la forma y ← αx + y.
• Nivel 2: Operaciones aplicables sobre matrices y vectores, de la
forma: y ← αAx + βy.
• Nivel 3: Operaciones aplicables sobre un conjunto de matrices, de
la forma: C ← αAB + βC.
7 de 27

Implementaciones de la API de BLAS
Las bibliotecas que implementan esta API aceleran la ejecución de
este tipo de operaciones mediante el uso de:
• Instrucciones vectoriales especializadas.
• Memoria alineada.
• Múltiples núcleos de la CPU.
• La GPU.
En este proyecto se usan tres implementaciones de la API de BLAS:
• ATLAS: Una biblioteca de código abierto que podemos usar para
cualquier tipo de procesador.
• Intel MKL: La biblioteca de Intel. Permite el uso de múltiples
núcleos del procesador.
• CUBLAS: La biblioteca de CUDA. Permite el uso de la GPU.
8 de 27

Aportación 3: Implementación con CUDA
Las GPUs son procesadores SIMD con unos
300 núcleos (comparado con los 8 de una
CPU), pensados inicialmente para cálculo de
gráficos 3D, pero utilizados en el campo de
la computación de altas prestaciones.
Las GPU de Nvidia disponen de la
arquitectura CUDA que facilita la realización
de operaciones de forma paralela, mediante el
uso del lenguaje CUDA.
9 de 27

Bloques de memoria y wrappers
Hemos diseñado una clase para
representar memoria compartida entre
CPU y GPU: El bloque de memoria. Estos
bloques de memoria se encargan de
suministrar el tipo de memoria pedido de
forma actualizada.
También se han diseñado los wrappers
para el álgebra lineal, que nos permiten
realizar la llamada de funciones de
álgebra lineal de forma independendiente
a la biblioteca usada para compilar.
10 de 27

Aportación 4: Experimentación
Corrección: La corrección de todas las versiones ha sido validada
mediante la resolución de las tareas d´ıgitos y xor.
Rendimiento: El rendimiento ha sido valorado en base a la resolución
de una tarea no trivial, en donde se realiza:
1. Un barrido de parámetros del entrenamiento.
2. Un barrido de topolog´ıas.
3. Un estudio del paralelismo.
11 de 27

Experimentación: Rendimiento (Tarea)
La tarea MNIST es una tarea de clasificación de d´ıgitos manuscritos
formada a partir de las bases de datos publicadas por el NIST. El
corpus de entrenamiento está formado por 60000 imágenes de
28 × 28 p´ıxeles cada una.
Las redes con las cuales realizaremos el entrenamiento comparten
estas caracter´ısticas:
• La capa de entrada estará formada por 784 neuronas.
• La capa de salida estará formada por 10 neuronas.
• La función de activación en las capas ocultas será la tangente
hiperbólica y en la capa de salida será la softmax.
• La función de error de la red será la entrop´ıa cruzada.
12 de 27

Experimentación: Rendimiento (Parte 1)
Objetivo: Buscar un conjunto de parámetros cuyo resultado
represente un buen compromiso entre el error de validación y el
tiempo de ejecución.
Se realizarán un total de 132 experimentos por build, resultantes de
las siguientes combinaciones de valores:
• Bunch: 1, 4, 8, 16, 32, 64, 96, 128, 256, 512 y 1024.
• Factor de aprendizaje: 0,01, 0,02 y 0,04.
• Momentum: 0,0 y 0,02.
• Weight decay: 0,0 y 10−6.
13 de 27

Errores de validaci´on respecto al valor bunch para todas las builds:
1
1.5
2
2.5
3
3.5
4
1 4 8 16 32 64 96 128 256 512 1024
Errorenvalidacion(%)
Valor bunch
ATLAS
MKL
CUDA
minimo
14 de 27

Tiempos por ´epoca respecto al valor bunch para todas las builds:
0
0.5
1
1.5
2
2.5
3
3.5
4
1 4 8 16 32 64 96 128 256 512 1024
Tiempo(segundos)
Valor bunch
ATLAS
MKL
CUDA
minimo
15 de 27

Objetivo: Encontrar un número de neuronas en las capas ocultas que
disminuya el error en los conjuntos de test y validación.
Se realizarán 30 experimentos para cada build, resultantes de las
siguientes combinaciones de valores:
• Primera capa oculta: 32, 64, 128, 256, 512 y 1024 neuronas.
• Segunda capa oculta: 0, 32, 64, 128 y 256 neuronas.
16 de 27

Errores de clasificación del conjunto de validación y test respecto al
número de neuronas en la primera capa para la build con MKL:
1
1.5
2
2.5
3
3.5
4
32 64 128 256 512 1024
Neuronas en la primera capa
0 neuronas
32 neuronas
64 neuronas
128 neuronas
256 neuronas
1
1.5
2
2.5
3
3.5
4
32 64 128 256 512 1024
Errorentest(%)
0 neuronas
32 neuronas
64 neuronas
128 neuronas
256 neuronas
17 de 27

Errores de clasificación del conjunto de validación y test respecto al
número de neuronas en la primera capa para la build con CUDA:
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
32 64 128 256 512 1024
0 neuronas
32 neuronas
64 neuronas
128 neuronas
256 neuronas
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
32 64 128 256 512 1024
Errorentest(%)
0 neuronas
32 neuronas
64 neuronas
128 neuronas
256 neuronas
18 de 27

Objetivo: Examinar qué ocurre al lanzar varios experimentos en
paralelo, para encontrar el modo de ejecución con mayor
productividad.
Se realizarán experimentos para las siguientes combinaciones de
valores:
• Número de experimentos: 1, 2 y 4.
• Núcleos a usar por cada proceso: 1, 2 y 4.
19 de 27

Tiempos wall por época respecto al número de núcleos empleados en
la ejecución del experimento para la build con MKL:
0
1
2
3
4
5
6
7
8
9
10
1 2 4
Tiempowall(segundos)
Valor OMP_NUM_THREADS
1 hilo
2 hilos paralelos
4 hilos paralelos
20 de 27

Tiempos wall por época respecto al número de núcleos empleados en
la ejecución del experimento para la build con CUDA:
0
1
2
3
4
5
6
7
8
9
10
11
12
13
1 2 4
Tiempowall(segundos)
Valor OMP_NUM_THREADS
1 hilo
2 hilos paralelos
4 hilos paralelos
21 de 27

Análisis de la productividad al lanzar varios procesos de forma
concurrente usando la build con MKL:
Valor de Hilos Tiempo Productividad
OMP NUM THREADS concurrentes por época por época
1 1 4,017 4,017
2 1 2,671 2,671
4 1 2,062 2,062
1 2 4,266 2,133
2 2 2,893 1,4465
4 2 3,496 1,748
1 4 4,733 1,18325
2 4 5,158 1,2895
4 4 8,074 2,0185
22 de 27

Uso de la aplicación
April está siendo utilizado en numerosos trabajos de investigación
desde el año 2005 aproximadamente.
La nueva implementación del BP de April ya está siendo utilizada
para tareas de limpieza de imágenes, traducción automática [Zam12]
y predicción de temperaturas [ZRP+].
Estamos preparando un art´ıculo en donde se describen las
aportaciones de la herramienta April para enviarlo a alguna revista o
congreso relacionado con el reconocimiento de formas.
23 de 27

Conclusiones
Los objetivos que nos hab´ıamos propuesto al principio del proyecto
han sido alcanzados con éxito:
1. Se ha hecho un rediseño completo de las redes neuronales de April
para ejecutar el algoritmo BP en CPU de un modo eficiente.
2. Este diseño incluye la formulación del BP en modo “bunch” con
momentum y weight decay.
3. Sobre el nuevo diseño, se ha incorporado la opción de utilizar la
GPU para efectuar los cálculos de forma paralela y eficiente.
4. Exhaustiva experimentación para comprobar la corrección y el
rendimiento de la aplicación. Estudio del efecto de determinados
parámetros de entrenamiento y configuración sobre tareas no
triviales (MNIST).
24 de 27

Cuantificando la mejora
April: Unas 600 veces más rápido que SNNS (utilizado en prácticas de
Redes Neuronales).
Un experimento de la primera parte con MNIST:
• Con SNNS: 1 d´ıa y 6 horas.
• Con April: 3 minutos.
TODOS los experimentos de la primera parte con MNIST:
• Con SNNS: 5 meses y 1 semana.
• Con April: 6 horas y 20 minutos.
25 de 27

Ampliaciones futuras
Algunas de las propuestas para ampliar la herramienta son:
• Interfaz gráfica.
• Adaptación al uso de otras librer´ıas.
• Uso de múltiples GPUs, computación en grid.
• Implementación de otros algoritmos con GPU.
26 de 27

¿Preguntas?
Para conocer más sobre el proyecto, la memoria estará disponible para
su consulta en el Repositorio Institucional de la UPV (RiuNet).
Muchas gracias por asistir a esta exposición.
27 de 27

Implementación de un módulo para el entrenamiento y evaluación de redes neuronales mediante GPUs

Recomendados

Recomendados

Más contenido relacionado

Similar a Implementación de un módulo para el entrenamiento y evaluación de redes neuronales mediante GPUs

Similar a Implementación de un módulo para el entrenamiento y evaluación de redes neuronales mediante GPUs (20)

Último

Último (20)

Implementación de un módulo para el entrenamiento y evaluación de redes neuronales mediante GPUs