XebiCon'16 : Utiliser le Deep Learning pour interpréter des photographies par Yoann Benoit, Data Scientist chez Xebia

@xebiconfr #xebiconfr
Utiliser le Deep
Learning
pour interpréter des
photographies
Yoann
Benoit

Le Deep Learning
1
2

Reconnaissance d’images
3
1a

Reconnaissance vocale
4
1b

Analyse de sentiments sur
des photographies
2
6

Mais pour quoi faire ?
7
2a
Nouveau plugin Google Photos ?
Satisfaction clients via vidéo ?

Sur quoi nous entraîner ?
8
2b
Colère Tristesse

Quelques exemples
9
2c
Surprise Joie

Quelques chiffres
10
2d
Images 48x48 pixels
Plus de 30 000 images
labellisées
7 sentiments
colère, dégoût, peur, joie, tristesse,
surprise, neutre
Performance Humaine :
Entre 60 et 65%

En quoi ce problème est-il difficile ?
● Système visuel humain extrêmement
complet
● L’être humain est très bon pour donner
du sens à ce qu’il voit
○ Mais ce travail est fait de manière
inconsciente
11
2e

En quoi ce problème est-il difficile ?
● Très difficile d’exprimer de manière
algorithmique ce qui permet de
reconnaître une image
● Machine Learning
○ Large échantillon d’images pour
lesquelles on connaît le label
=> Apprentissage automatique de
règles
12
2f

Les Réseaux de Neurones
3
13

De quoi est composé un Réseau de Neurones ?
14
3a
De neurones ...

De quoi est composé un Réseau de Neurones ?
15
3a
De neurones ...
Associés en réseau …

Comment fonctionne un Réseau de Neurones ?
16
3b
Softmax
Chaque neurone
intermédiaire représente
une somme pondérée des
valeurs des neurones de la
couche précédente,
associés à une fonction
d’activation
La dernière couche
(softmax) est une
normalisation de la
couche de sortie afin que
les résultats correspondent
à des probabilités
(sommant à 1)

Tout est une histoire de matrices
17
3c
Y = xW + b
classes = softmax(Y)
[4, 2][1, 4][1, 2]
[2]

18
3d
Y = XW + b
[4, 2][K, 4][K, 2]
Avec des batches d’images
...
[2]

19
3e
Y = f(XW1 + b1) W2 + b2
[3, 2]
[3][K, 2]
[2][K, 4]
[4, 3]
fonction d’activation

Comment trouver les poids ?
20
3f
Back-propagation: Mise à jour des poids en fonction du gradient des erreurs, de la dernière
couche à la première

21
3f

22
3f

TensorFlow
● Framework de programmation open-sourcé par
Google en 2016
● Aujourd’hui en version 0.11
● APIs en Python, C++
● Principalement utilisé pour l’entraînement et
l’utilisation de Réseaux de Neurones, et plus
particulièrement pour le Deep Learning
23
3g
Aujourd’hui l’un des frameworks les plus utilisés pour le Deep Learning, avec une
documentation très riche.

Commençons simplement :
SR
(Softmax Regression)
4
24

Softmax Regression
25
4a

Softmax Regression
26
4a
Inputs
(= pixels)

Softmax Regression
27
4a
Inputs
(= pixels)
Classes
(= sentiment)

Softmax Regression
28
4a
Inputs
(= pixels)
Classes
(= sentiment)
Poids

Softmax Regression - Résultats
29
4b
44.5%
Nombre d'itérations
Probabilité

Approfondissons un peu :
TNN
(“Tiny Neural Network”)
5
31

Tiny Neural Network
32
5a

Tiny Neural Network
33
5a
Inputs
(= pixels)
Classes
(= sentiment)
Poids

Tiny Neural Network
34
5a
Inputs
(= pixels)
Classes
(= sentiment)
Poids
Couche cachée /
intermédiaire

Softmax Regression - Résultats
35
5b
44.5%

Tiny Neural Network - Résultats
36
5c
56%

Continuons sur notre lancée :
MSNN
(“Medium Size Neural Network”)
6
38

Medium Size Neural Network
39
6a

Medium Size Neural Network
40
6a
Inputs
(= pixels)
Classes
(= sentiment)
Poids
Couches
cachées

Tiny Neural Network - Résultats
41
6b
56%

Medium Size Neural Network - Résultats
42
6c
57.2%

Allons-y gaiement :
BFNN
(“Big Fat Neural Network”)
7
44

Big Fat Neural Network
45
7a

Big Fat Neural Network
46
7a
Inputs
(= pixels)
Classes
(= sentiment)
Poids
Couches
cachées

Medium Size Neural Network - Résultats
47
7b
57.2%

Big Fat Neural Network - Résultats
48
7c
58.1%

Pourquoi les résultats ne s’améliorent pas ?
50
7e
● Normalement, un réseau plus profond
permet d’apprendre des fonctions plus
complexes
Mais ...
● Différentes vitesses d’apprentissage des
poids selon les couches
● La mise à jours des poids d’une couche
dépend de celle des poids de la couche
suivante (back-propagation)

Quelles solutions ?
51
7f
Changement d’architecture de réseau ?
Algorithme d’apprentissage plus avancé ?
Changement de fonction d’activation ?

Nombre de paramètres à estimer
52
7g
2304 pixels * 7 poids +
7 biais
=
16 135
paramètres

53
7g
2304*384 + 384
+
384*7 + 7
=
887 815
paramètres
7 biais
=
16 135
paramètres

54
7g
2304*384 + 384
+
384*7 + 7
=
887 815
paramètres
2304*500 + 500 +
500*300 + 300 +
300*150 + 150 +
150*7 + 7
=
1 349 007
paramètres
7 biais
=
16 135
paramètres

55
7g
2304*384 + 384
+
384*7 + 7
=
887 815
paramètres
2304*500 + 500 +
500*300 + 300 +
300*150 + 150 +
150*7 + 7
=
1 349 007
paramètres
2304*1000 + 1000 +
1000*750 + 750 +
750*500 + 500 +
500*300 + 300 +
300*150 + 150 +
150*7 + 7
=
3 627 757
paramètres
7 biais
=
16 135
paramètres

Soyons plus intelligents :
CNN
(Convolutional Neural Network)
8
56

Réfléchissons un peu
57
8a
● Est-ce une bonne idée d’utiliser des réseaux de neurones où tous
les neurones entre deux couches sont connectés entre eux ?
● Ce type de réseau ne prend pas en compte la structure spatiale de
l’image

l’image
58
8a

59
8a
l’image

60
8a
l’image

61
8a
l’image

Peut-on trouver une architecture qui tire avantage de cette structure ?
62
8b

63
8b

64
8b

65
8b

66
8b

67
8b

68
8b

69
8b

70
8b

71
8b

72
8b

Hypothèses principales
● Associations locales
○ Tous les pixels ne sont pas connectés à tous les neurones
cachés
○ Les connexions sont faites dans des petites zones localisées
de l’image
● Mêmes poids et biais pour tous les neurones d’une même couche
○ Tous les neurones d’une même couche cachée détectent le
même pattern (ex : un coin)
● Pooling
○ Souvent utilisés juste après une couche de convolution
○ Condenser l’information autour d’une région (max/mean)
73
8c

Première architecture utilisée
74
8d

75
8d

76
8d
Convolutions
Couche dense

Big Fat Neural Network - Résultats
77
8e
58.1%

Convolutional Neural Network 1 - Résultats
78
8f
62.8%

Deuxième architecture utilisée
80
8h

81
8h

82
8h

83
8h
Convolutions Couche denseConvolutions

84
8i
62.8%

85
8j
64.7%

Take Aways
9
87

BE SMART!
● Exploiter au mieux la structure de
vos données.
● Certaines architectures sont plus
adaptées pour les images,
d’autres pour le texte, etc.

TEST AND
LEARN!
● Pas de règles absolues sur les
structures de réseaux de
neurones qui fonctionnent le
mieux.
● Tester intelligemment différentes
structures et essayer de
comprendre pourquoi l’une
fonctionne mieux que l’autre.

DO NOT
REINVENT
THE WHEEL!
● L’écosystème autour du Deep
Learning est en croissance
continue.
● De plus en plus de frameworks sont
disponibles et bien documentés
(TensorFlow, Keras, etc.).
● Commencer avec des exemples
connus puis se perfectionner par
rapport aux données à disposition.

HAVE FUN!
● Introduction à TensorFlow - Martin
Görner (Google)
https://docs.google.com/presentation/d/1TVixw6ItiZ8igjp6U17tcgoFrLSaHWQm
MOwjlgQY9co/pub?start=false&loop=false&delayms=3000
● Neural Networks and Deep Learning -
Online Book
http://neuralnetworksanddeeplearning.com/
● TensorFlow documentation
https://www.tensorflow.org/

MERCI =)

XebiCon'16 : Utiliser le Deep Learning pour interpréter des photographies par Yoann Benoit, Data Scientist chez Xebia

Recomendados

Recomendados

Más contenido relacionado

Similar a XebiCon'16 : Utiliser le Deep Learning pour interpréter des photographies par Yoann Benoit, Data Scientist chez Xebia

Similar a XebiCon'16 : Utiliser le Deep Learning pour interpréter des photographies par Yoann Benoit, Data Scientist chez Xebia (14)

Más de Publicis Sapient Engineering

Más de Publicis Sapient Engineering (20)

XebiCon'16 : Utiliser le Deep Learning pour interpréter des photographies par Yoann Benoit, Data Scientist chez Xebia