Apprentissage du quantron : un problème d\’optimisation non différentiable

Apprentissage du quantron
Un problème d’optimisation non différentiable
Simon de Montigny
sous la direction de Richard Labib, Ph.D.

´ ´ ´
Departement de mathematiques et genie industriel
´ ´
Ecole Polytechnique de Montreal

Apprentissage du quantron. April 3, 2008 – p. 1/?

Introduction

Un réseau de neurones artiﬁciels est un
modèle simpliﬁé du fonctionnement du
cerveau.


Introduction

cerveau.
Neurones et synapses

Entrées Sorties


Introduction

cerveau.
Un seul neurone

Transformation
des signaux

Paramètres


Introduction

Les réseaux de neurones sont surtout utilisés
comme outil statistique pour effectuer de la
régression, de la classiﬁcation et de
l’estimation.


Introduction

l’estimation.
Un réseau doit être entraîné pour pouvoir
effectuer une certaine tâche.


Introduction

l’estimation.
Un réseau doit être entraîné pour pouvoir
effectuer une certaine tâche.
Le premier algorithme d’apprentissage
développé pour les réseaux de neurones
s’appelle "rétro-propagation de l’erreur"
(Rumelhart et al., 1986).


Introduction

Rétro-propagation de l'erreur

Calcul de
l'erreur du
réseau

Modiﬁcation
des
paramètres

Rétro-propagation de la partie de
l'erreur due à chaque neurone de
Modiﬁcation la couche précédente
des
paramètres


Introduction

Les algorithmes d’apprentissages sont
fondés sur des méthodes d’optimisation.


Introduction

On minimise une fonction d’erreur qui
caractérise la différence entre l’état actuel du
réseau et l’état désiré.


Introduction

On minimise une fonction d’erreur qui
caractérise la différence entre l’état actuel du
réseau et l’état désiré.
Les variables d’optimisation sont les
paramètres du réseau.


Exemple : le perceptron

Modèle de neurone :
f (x1 , x2 ) = w1 x1 + w2 x2 + w3



Modèle de neurone :
f (x1 , x2 ) = w1 x1 + w2 x2 + w3

x1
v = w1x1
y(v) = v
+w2x2
+w3
x2

w1 , w2 , w3



Tâche : reproduire la fonction
(k) (k)
x1 , x2 , d(k)
k=1,...,n



(k) (k)
x1 , x2 , d(k)
k=1,...,n

Erreur des moindres carrés :
n 2
(k) (k)
E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 )
k=1



(k) (k)
x1 , x2 , d(k)
k=1,...,n

Erreur des moindres carrés :
n 2
(k) (k)
E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 )
k=1

Descente du gradient :
∂E
wj (t + 1) = wj (t) − η ∂wj |w1 (t),w2 (t),w3 (t)



Puisque f est linéaire, la fonction d’erreur est
convexe et l’apprentissage converge vers un
minimum global (Haykin, 1999).



Un seul perceptron effectue une régression
linéaire.



linéaire.
Mettre plusieurs perceptrons en réseau
permet de faire de la régression non linéaire.



linéaire.
Mettre plusieurs perceptrons en réseau
permet de faire de la régression non linéaire.
L’apprentissage n’est plus garanti de
converger vers un minimum global.


Que faire?

Limitations des réseaux de perceptrons :


Que faire?

Il n’y a pas de règle magique pour choisir
la taille du réseau. Un réseau trop grand
apprend lentement et généralise mal.


Que faire?

Le perceptron est un modèle grossier des
neurones biologiques.


Que faire?

Question : Comment peut-on obtenir un
réseau plus puissant et de petite taille?


Que faire?

Question : Comment peut-on obtenir un
réseau plus puissant et de petite taille?
Solution : Améliorer le modèle de neurone
utilisé.


Le quantron

Le quantron est un modèle analytique,
biologiquement réaliste qui intègre la diffusion
des neurotransmetteurs (Labib, 1999).


Le quantron

Le quantron est un modèle analytique,
biologiquement réaliste qui intègre la diffusion
des neurotransmetteurs (Labib, 1999).
5

4

3

z

2

1

0
0 5 10 15 20
t


Le quantron

Une entrée du quantron représente le délai
entre les arrivées des vagues de neuro-
transmetteurs émises par un autre neurone.


Le quantron

L’opération effectuée par le quantron est une
sommation des potentiels reçus :

S(t) = ϕi,j (t)
i,j


Le quantron


S(t) = ϕi,j (t)
i,j

i : indice des entrées
j : indice des potentiels de chaque entrée


Le quantron


S(t) = ϕi,j (t)
i,j

S(t) est une fonction continue.


Le quantron


S(t) = ϕi,j (t)
i,j

S(t) est une fonction continue.
S(t) = 0 en dehors de [0, T ], où T est la ﬁn du
dernier potentiel reçu.


Le quantron

Les paramètres du quantron inﬂuencent le
temps de début et de ﬁn des potentiels, ainsi
que leur amplitude.


Le quantron

que leur amplitude.
Si S(t) dépasse le seuil Γ, le quantron émet
une vague de neurotransmetteurs. Sinon, il
n’émet rien.


Le quantron

que leur amplitude.
Si S(t) dépasse le seuil Γ, le quantron émet
une vague de neurotransmetteurs. Sinon, il
n’émet rien.
Nous allons aborder le problème
d’apprentissage avec le modèle f = max S(t).


Objectifs généraux de la recherche

Développer un algorithme d’apprentissage
efﬁcace pour le quantron.



Trouver une formule analytique adaptée à
l’algorithme de rétro-propagation pour
entraîner des réseaux de quantrons.



Trouver une formule analytique adaptée à
l’algorithme de rétro-propagation pour
entraîner des réseaux de quantrons.
Évaluer les capacités et les limites du
quantron comme outil de reconnaissance de
formes et d’approximation de fonctions.


Problème préliminaire

Le modèle du quantron est une fonction non
différentiable de ses paramètres.
n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1



n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1

Deux principales approches à l’optimisation
non différentiable (Elhedhli et al., 2001) :



n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1

Méthode des sous-gradient (Shor) et
gradient généralisé (Clarke)



n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1

Méthode des sous-gradient (Shor) et
gradient généralisé (Clarke)
Approximation différentiable (Bertsekas)



Nous allons développer :



une approximation différentiable du
maximum global de S(t)



une approximation différentiable du
maximum global de S(t)
une approximation différentiable de ϕ(t)


Approximation de max S(t)

Approximation différentiable de max S(t) :
T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ



T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ

Il s’agit d’une adaptation de la fonction
softmax utilisée dans divers modèles de
réseaux de neurones. (Peterson et
Söderberg, 1989, Jacobs et al., 1991).



T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)



T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)
Convergence : lim softmax S(t) = max S(t)
c→∞

Preuve de convergence

Propriétés des fonctions de densité



T ecS(t)
0 T cS(τ ) dt = 1
0
e dτ



T ecS(t)
0 T cS(τ ) dt = 1
0
e dτ

ecS(t)
T cS(τ ) ≥0
0
e dτ



T ecS(t)
0 T cS(τ ) dt = 1
0
e dτ

ecS(t)
T cS(τ ) ≥0
0
e dτ

softmax S(t) = E[S(Xc )] où Xc est un temps
aléatoire choisi dans l’intervalle [0, T ] selon la
ecS(t)
fonction de densité fXc (t) = T cS(τ ) .
0
e dτ



Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.



Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Si t∗ est ﬁni, on a

0 si t ∈ t∗ ,
/
lim fXc (t) = fX (t) =
c→∞ ∞ si t ∈ t∗ .



Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Si t∗ est ﬁni, on a

0 si t ∈ t∗ ,
/
lim fXc (t) = fX (t) =
c→∞ ∞ si t ∈ t∗ .

Si t∗ est inﬁni non dénombrable, on a

0 si t ∈ t∗ ,
/
lim fXc (t) = fX (t) = 1
c→∞
µ(t∗ ) si t ∈ t∗ .



Xc converge en distribution vers X.



S(·) continue et bornée ⇒
E[S(Xc )] converge vers E[S(X)]
(représentation de Skorokhod, convergence
´
dominée, e.g. Capinski et Kopp, 2005).



´
limc→∞ softmax S(t) = E[S(X)] = max S(t)



´
limc→∞ softmax S(t) = E[S(X)] = max S(t)
d
Remarque : dc E[S(Xc )] = V [S(Xc )] ≥ 0
(passage de la dérivée sous l’intégrale)



S(t)
5

4

3

z

2

1

0
0 5 10 15 20
t



S(t)



fX1 (t)
0,25

0,20

0,15

0,10

0,05

0 5 10 15 20

t



fX2 (t)

0,4

0,3

0,2

0,1

0 5 10 15 20

t



fX3 (t)

0,6

0,5

0,4

0,3

0,2

0,1

0

0 5 10 15 20

t



fX25 (t)
2,0

1,5

1,0

0,5

0

0 5 10 15 20

t



fX100 (t)

3

2

1

0
0 5 10 15 20
t


Limites de ce résultat

L’application de softmax à une fonction
continue est limitée par la capacité de
résoudre l’intégrale analytiquement.



L’intégrale se résout bien avec une
approximation linéaire par morceaux de S(t).



L’intégrale se résout bien avec une
approximation linéaire par morceaux de S(t).
L’implémentation informatique de cette
formule demande une attention particulière.


Approximation de ϕ(t)

Potentiels du quantron :

wQ ln ω√ si 0 ≤t<s

 t
ϕ(t) = w Q ln ω − Q
√ ln
√ ω si s ≤ t < 2s
 s t−s

0

sinon





 t
√ ln
√ ω si s ≤ t < 2s
 s t−s

0

sinon

Q(·) : fonction de survie d’une loi N (0, 1)
ω : largeur de la fente synaptique





 t
√ ln
√ ω si s ≤ t < 2s
 s t−s

0

sinon

Q(·) : fonction de survie d’une loi N (0, 1)
ω : largeur de la fente synaptique
Paramètres :
w (amplitude), s (temps d’arrêt)



∂ϕ(t;s)
Exemple de ∂s (avec t ﬁxé à 1) :
0,7

0,6

0,5

0,4

0,3

0,2

0,1

0,0

0,4 0,6 0,8 1,0 1,2 1,4

s



Représentation avec fonctions Heaviside :
√
ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)]
√ √
+ w Q ln ω/ s − Q ln ω/ t − s
× [u(t − s) − u(t − 2s)]



Représentation avec fonctions Heaviside :
√
ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)]
√ √
× [u(t − s) − u(t − 2s)]

La solution la plus simple serait de remplacer
les fonctions Heaviside par des sigmoïdes :
1
σ(x) =
1 + e−ax



Problème:
√
ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
√ √
× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.



Problème:
√
ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
√ √
× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.
Solution : Approximer le potentiel par une
fonction en escalier, puis approximer les pas
de la fonction en escalier par des sigmoïdes.



Approximation avec 5 évaluations

0,4

0,3

0,2

0,1

0 1 2 3 4

t




0,4

0,3

0,2

0,1

0 1 2 3 4

t



d : nombre de pas de l’approximation par
fonction en escalier



Nous avons choisi a = 5d comme paramètre
2s
de forme de la sigmoïde.



2s
Ce choix donne une approximation "lisse".



2s
Validation expérimentale par identiﬁcation du
minimum de l’erreur quadratique entre ϕ(t) et
son approximation par sigmoïdes.



2s
Validation expérimentale par identiﬁcation du
minimum de l’erreur quadratique entre ϕ(t) et
son approximation par sigmoïdes.
Un mauvais choix de a est néfaste.



2d
Approximation avec 9 évaluations, a = 2s

0,4

0,3

0,2

0,1

0 1 2 3 4

t



20d
Approximation avec 9 évaluations, a = 2s

0,4

0,3

0,2

0,1

0 1 2 3 4

t



L’approximation semble bonne, mais
qu’arrive-t-il à la dérivée?



5d
a= 2s
0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0,0

0,4 0,6 0,8 1,0 1,2 1,4

s



2d
a= 2s
0,7

0,6

0,5

0,4

0,3

0,2

0,1

0,0

0,4 0,6 0,8 1,0 1,2 1,4

s



20d
a= 2s

3

2

1

0

0,4 0,6 0,8 1,0 1,2 1,4

s



Le calcul de la dérivée est utilisable, mais la
présence de pics dans la dérivée de
l’approximation pourrait être problématique
pour effectuer la descente du gradient.


En conclusion

Les deux approximations différentiables
présentées permettent d’aborder
l’apprentissage du quantron.


En conclusion

Les questions d’implémentation de ces
méthodes sont primordiales.


En conclusion

Suite des travaux :


En conclusion

Suite des travaux :
Développement d’une forme alternative de
calcul de la réponse du quantron.


En conclusion

Suite des travaux :
Développement d’une forme alternative de
calcul de la réponse du quantron.
Application des résultats obtenus à
l’apprentissage en classiﬁcation et en
régression.

Références

´
M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :
Springer-Verlag, 2005.
S. Elhedhli, J.-L. Gofﬁn et J.-P. Vial, "Nondifferentiable Optimization: Introduction,
Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.
Pardalos, editors, Kluwer Academic Publishers, 2001.
S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper Saddle
River, NJ : Prentice Hall, 1999.
R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of Local
Experts", Neural Computation, 3, 79-87, 1991.
R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",
Proceedings of the International Joint Conference on Neural Networks, 1,
617-620, 1999.
C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problems
onto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.
D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations by
back-propagation of errors", Nature, 323, 533-536, 1986.


Apprentissage du quantron : un problème d\’optimisation non différentiable

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Apprentissage du quantron : un problème d\’optimisation non différentiable

Similar a Apprentissage du quantron : un problème d\’optimisation non différentiable (8)

Apprentissage du quantron : un problème d\’optimisation non différentiable