Présentation au séminaire de mathématiques appliquées du département de Mathématiques et de Génie Industriel (3 avril 2008, École Polytechnique de Montréal)
Apprentissage du quantron : un problème d\’optimisation non différentiable
1. Apprentissage du quantron
Un problème d’optimisation non différentiable
Simon de Montigny
sous la direction de Richard Labib, Ph.D.
´ ´ ´
Departement de mathematiques et genie industriel
´ ´
Ecole Polytechnique de Montreal
Apprentissage du quantron. April 3, 2008 – p. 1/?
2. Introduction
Un réseau de neurones artificiels est un
modèle simplifié du fonctionnement du
cerveau.
Apprentissage du quantron. April 3, 2008 – p. 2/?
3. Introduction
Un réseau de neurones artificiels est un
modèle simplifié du fonctionnement du
cerveau.
Neurones et synapses
Entrées Sorties
Apprentissage du quantron. April 3, 2008 – p. 2/?
4. Introduction
Un réseau de neurones artificiels est un
modèle simplifié du fonctionnement du
cerveau.
Un seul neurone
Transformation
des signaux
Paramètres
Apprentissage du quantron. April 3, 2008 – p. 2/?
5. Introduction
Les réseaux de neurones sont surtout utilisés
comme outil statistique pour effectuer de la
régression, de la classification et de
l’estimation.
Apprentissage du quantron. April 3, 2008 – p. 3/?
6. Introduction
Les réseaux de neurones sont surtout utilisés
comme outil statistique pour effectuer de la
régression, de la classification et de
l’estimation.
Un réseau doit être entraîné pour pouvoir
effectuer une certaine tâche.
Apprentissage du quantron. April 3, 2008 – p. 3/?
7. Introduction
Les réseaux de neurones sont surtout utilisés
comme outil statistique pour effectuer de la
régression, de la classification et de
l’estimation.
Un réseau doit être entraîné pour pouvoir
effectuer une certaine tâche.
Le premier algorithme d’apprentissage
développé pour les réseaux de neurones
s’appelle "rétro-propagation de l’erreur"
(Rumelhart et al., 1986).
Apprentissage du quantron. April 3, 2008 – p. 3/?
8. Introduction
Rétro-propagation de l'erreur
Calcul de
l'erreur du
réseau
Modification
des
paramètres
Rétro-propagation de la partie de
l'erreur due à chaque neurone de
Modification la couche précédente
des
paramètres
Apprentissage du quantron. April 3, 2008 – p. 4/?
9. Introduction
Les algorithmes d’apprentissages sont
fondés sur des méthodes d’optimisation.
Apprentissage du quantron. April 3, 2008 – p. 5/?
10. Introduction
Les algorithmes d’apprentissages sont
fondés sur des méthodes d’optimisation.
On minimise une fonction d’erreur qui
caractérise la différence entre l’état actuel du
réseau et l’état désiré.
Apprentissage du quantron. April 3, 2008 – p. 5/?
11. Introduction
Les algorithmes d’apprentissages sont
fondés sur des méthodes d’optimisation.
On minimise une fonction d’erreur qui
caractérise la différence entre l’état actuel du
réseau et l’état désiré.
Les variables d’optimisation sont les
paramètres du réseau.
Apprentissage du quantron. April 3, 2008 – p. 5/?
12. Exemple : le perceptron
Modèle de neurone :
f (x1 , x2 ) = w1 x1 + w2 x2 + w3
Apprentissage du quantron. April 3, 2008 – p. 6/?
13. Exemple : le perceptron
Modèle de neurone :
f (x1 , x2 ) = w1 x1 + w2 x2 + w3
x1
v = w1x1
y(v) = v
+w2x2
+w3
x2
w1 , w2 , w3
Apprentissage du quantron. April 3, 2008 – p. 6/?
14. Exemple : le perceptron
Tâche : reproduire la fonction
(k) (k)
x1 , x2 , d(k)
k=1,...,n
Apprentissage du quantron. April 3, 2008 – p. 7/?
15. Exemple : le perceptron
Tâche : reproduire la fonction
(k) (k)
x1 , x2 , d(k)
k=1,...,n
Erreur des moindres carrés :
n 2
(k) (k)
E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 )
k=1
Apprentissage du quantron. April 3, 2008 – p. 7/?
16. Exemple : le perceptron
Tâche : reproduire la fonction
(k) (k)
x1 , x2 , d(k)
k=1,...,n
Erreur des moindres carrés :
n 2
(k) (k)
E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 )
k=1
Descente du gradient :
∂E
wj (t + 1) = wj (t) − η ∂wj |w1 (t),w2 (t),w3 (t)
Apprentissage du quantron. April 3, 2008 – p. 7/?
17. Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur est
convexe et l’apprentissage converge vers un
minimum global (Haykin, 1999).
Apprentissage du quantron. April 3, 2008 – p. 8/?
18. Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur est
convexe et l’apprentissage converge vers un
minimum global (Haykin, 1999).
Un seul perceptron effectue une régression
linéaire.
Apprentissage du quantron. April 3, 2008 – p. 8/?
19. Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur est
convexe et l’apprentissage converge vers un
minimum global (Haykin, 1999).
Un seul perceptron effectue une régression
linéaire.
Mettre plusieurs perceptrons en réseau
permet de faire de la régression non linéaire.
Apprentissage du quantron. April 3, 2008 – p. 8/?
20. Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur est
convexe et l’apprentissage converge vers un
minimum global (Haykin, 1999).
Un seul perceptron effectue une régression
linéaire.
Mettre plusieurs perceptrons en réseau
permet de faire de la régression non linéaire.
L’apprentissage n’est plus garanti de
converger vers un minimum global.
Apprentissage du quantron. April 3, 2008 – p. 8/?
21. Que faire?
Limitations des réseaux de perceptrons :
Apprentissage du quantron. April 3, 2008 – p. 9/?
22. Que faire?
Limitations des réseaux de perceptrons :
Il n’y a pas de règle magique pour choisir
la taille du réseau. Un réseau trop grand
apprend lentement et généralise mal.
Apprentissage du quantron. April 3, 2008 – p. 9/?
23. Que faire?
Limitations des réseaux de perceptrons :
Il n’y a pas de règle magique pour choisir
la taille du réseau. Un réseau trop grand
apprend lentement et généralise mal.
Le perceptron est un modèle grossier des
neurones biologiques.
Apprentissage du quantron. April 3, 2008 – p. 9/?
24. Que faire?
Limitations des réseaux de perceptrons :
Il n’y a pas de règle magique pour choisir
la taille du réseau. Un réseau trop grand
apprend lentement et généralise mal.
Le perceptron est un modèle grossier des
neurones biologiques.
Question : Comment peut-on obtenir un
réseau plus puissant et de petite taille?
Apprentissage du quantron. April 3, 2008 – p. 9/?
25. Que faire?
Limitations des réseaux de perceptrons :
Il n’y a pas de règle magique pour choisir
la taille du réseau. Un réseau trop grand
apprend lentement et généralise mal.
Le perceptron est un modèle grossier des
neurones biologiques.
Question : Comment peut-on obtenir un
réseau plus puissant et de petite taille?
Solution : Améliorer le modèle de neurone
utilisé.
Apprentissage du quantron. April 3, 2008 – p. 9/?
26. Le quantron
Le quantron est un modèle analytique,
biologiquement réaliste qui intègre la diffusion
des neurotransmetteurs (Labib, 1999).
Apprentissage du quantron. April 3, 2008 – p. 10/?
27. Le quantron
Le quantron est un modèle analytique,
biologiquement réaliste qui intègre la diffusion
des neurotransmetteurs (Labib, 1999).
5
4
3
z
2
1
0
0 5 10 15 20
t
Apprentissage du quantron. April 3, 2008 – p. 10/?
28. Le quantron
Le quantron est un modèle analytique,
biologiquement réaliste qui intègre la diffusion
des neurotransmetteurs (Labib, 1999).
Apprentissage du quantron. April 3, 2008 – p. 10/?
29. Le quantron
Une entrée du quantron représente le délai
entre les arrivées des vagues de neuro-
transmetteurs émises par un autre neurone.
Apprentissage du quantron. April 3, 2008 – p. 11/?
30. Le quantron
Une entrée du quantron représente le délai
entre les arrivées des vagues de neuro-
transmetteurs émises par un autre neurone.
Apprentissage du quantron. April 3, 2008 – p. 11/?
31. Le quantron
L’opération effectuée par le quantron est une
sommation des potentiels reçus :
S(t) = ϕi,j (t)
i,j
Apprentissage du quantron. April 3, 2008 – p. 12/?
32. Le quantron
L’opération effectuée par le quantron est une
sommation des potentiels reçus :
S(t) = ϕi,j (t)
i,j
i : indice des entrées
j : indice des potentiels de chaque entrée
Apprentissage du quantron. April 3, 2008 – p. 12/?
33. Le quantron
L’opération effectuée par le quantron est une
sommation des potentiels reçus :
S(t) = ϕi,j (t)
i,j
i : indice des entrées
j : indice des potentiels de chaque entrée
S(t) est une fonction continue.
Apprentissage du quantron. April 3, 2008 – p. 12/?
34. Le quantron
L’opération effectuée par le quantron est une
sommation des potentiels reçus :
S(t) = ϕi,j (t)
i,j
i : indice des entrées
j : indice des potentiels de chaque entrée
S(t) est une fonction continue.
S(t) = 0 en dehors de [0, T ], où T est la fin du
dernier potentiel reçu.
Apprentissage du quantron. April 3, 2008 – p. 12/?
35. Le quantron
Les paramètres du quantron influencent le
temps de début et de fin des potentiels, ainsi
que leur amplitude.
Apprentissage du quantron. April 3, 2008 – p. 13/?
36. Le quantron
Les paramètres du quantron influencent le
temps de début et de fin des potentiels, ainsi
que leur amplitude.
Si S(t) dépasse le seuil Γ, le quantron émet
une vague de neurotransmetteurs. Sinon, il
n’émet rien.
Apprentissage du quantron. April 3, 2008 – p. 13/?
37. Le quantron
Les paramètres du quantron influencent le
temps de début et de fin des potentiels, ainsi
que leur amplitude.
Si S(t) dépasse le seuil Γ, le quantron émet
une vague de neurotransmetteurs. Sinon, il
n’émet rien.
Nous allons aborder le problème
d’apprentissage avec le modèle f = max S(t).
Apprentissage du quantron. April 3, 2008 – p. 13/?
38. Objectifs généraux de la recherche
Développer un algorithme d’apprentissage
efficace pour le quantron.
Apprentissage du quantron. April 3, 2008 – p. 14/?
39. Objectifs généraux de la recherche
Développer un algorithme d’apprentissage
efficace pour le quantron.
Trouver une formule analytique adaptée à
l’algorithme de rétro-propagation pour
entraîner des réseaux de quantrons.
Apprentissage du quantron. April 3, 2008 – p. 14/?
40. Objectifs généraux de la recherche
Développer un algorithme d’apprentissage
efficace pour le quantron.
Trouver une formule analytique adaptée à
l’algorithme de rétro-propagation pour
entraîner des réseaux de quantrons.
Évaluer les capacités et les limites du
quantron comme outil de reconnaissance de
formes et d’approximation de fonctions.
Apprentissage du quantron. April 3, 2008 – p. 14/?
41. Problème préliminaire
Le modèle du quantron est une fonction non
différentiable de ses paramètres.
n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1
Apprentissage du quantron. April 3, 2008 – p. 15/?
42. Problème préliminaire
Le modèle du quantron est une fonction non
différentiable de ses paramètres.
n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1
Deux principales approches à l’optimisation
non différentiable (Elhedhli et al., 2001) :
Apprentissage du quantron. April 3, 2008 – p. 15/?
43. Problème préliminaire
Le modèle du quantron est une fonction non
différentiable de ses paramètres.
n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1
Deux principales approches à l’optimisation
non différentiable (Elhedhli et al., 2001) :
Méthode des sous-gradient (Shor) et
gradient généralisé (Clarke)
Apprentissage du quantron. April 3, 2008 – p. 15/?
44. Problème préliminaire
Le modèle du quantron est une fonction non
différentiable de ses paramètres.
n
f (τ1 , . . . , τn ) = max gk (t)u(t − τk )
k=1
Deux principales approches à l’optimisation
non différentiable (Elhedhli et al., 2001) :
Méthode des sous-gradient (Shor) et
gradient généralisé (Clarke)
Approximation différentiable (Bertsekas)
Apprentissage du quantron. April 3, 2008 – p. 15/?
45. Problème préliminaire
Nous allons développer :
Apprentissage du quantron. April 3, 2008 – p. 16/?
46. Problème préliminaire
Nous allons développer :
une approximation différentiable du
maximum global de S(t)
Apprentissage du quantron. April 3, 2008 – p. 16/?
47. Problème préliminaire
Nous allons développer :
une approximation différentiable du
maximum global de S(t)
une approximation différentiable de ϕ(t)
Apprentissage du quantron. April 3, 2008 – p. 16/?
48. Approximation de max S(t)
Approximation différentiable de max S(t) :
T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ
Apprentissage du quantron. April 3, 2008 – p. 17/?
49. Approximation de max S(t)
Approximation différentiable de max S(t) :
T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ
Il s’agit d’une adaptation de la fonction
softmax utilisée dans divers modèles de
réseaux de neurones. (Peterson et
Söderberg, 1989, Jacobs et al., 1991).
Apprentissage du quantron. April 3, 2008 – p. 17/?
50. Approximation de max S(t)
Approximation différentiable de max S(t) :
T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ
Il s’agit d’une adaptation de la fonction
softmax utilisée dans divers modèles de
réseaux de neurones. (Peterson et
Söderberg, 1989, Jacobs et al., 1991).
Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)
Apprentissage du quantron. April 3, 2008 – p. 17/?
51. Approximation de max S(t)
Approximation différentiable de max S(t) :
T
S(t)ecS(t)
softmax S(t) = T
dt
0 0 ecS(τ ) dτ
Il s’agit d’une adaptation de la fonction
softmax utilisée dans divers modèles de
réseaux de neurones. (Peterson et
Söderberg, 1989, Jacobs et al., 1991).
Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)
Convergence : lim softmax S(t) = max S(t)
c→∞
Apprentissage du quantron. April 3, 2008 – p. 17/?
52. Preuve de convergence
Propriétés des fonctions de densité
Apprentissage du quantron. April 3, 2008 – p. 18/?
53. Preuve de convergence
Propriétés des fonctions de densité
T ecS(t)
0 T cS(τ ) dt = 1
0
e dτ
Apprentissage du quantron. April 3, 2008 – p. 18/?
54. Preuve de convergence
Propriétés des fonctions de densité
T ecS(t)
0 T cS(τ ) dt = 1
0
e dτ
ecS(t)
T cS(τ ) ≥0
0
e dτ
Apprentissage du quantron. April 3, 2008 – p. 18/?
55. Preuve de convergence
Propriétés des fonctions de densité
T ecS(t)
0 T cS(τ ) dt = 1
0
e dτ
ecS(t)
T cS(τ ) ≥0
0
e dτ
softmax S(t) = E[S(Xc )] où Xc est un temps
aléatoire choisi dans l’intervalle [0, T ] selon la
ecS(t)
fonction de densité fXc (t) = T cS(τ ) .
0
e dτ
Apprentissage du quantron. April 3, 2008 – p. 18/?
56. Preuve de convergence
Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Apprentissage du quantron. April 3, 2008 – p. 19/?
57. Preuve de convergence
Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Si t∗ est fini, on a
0 si t ∈ t∗ ,
/
lim fXc (t) = fX (t) =
c→∞ ∞ si t ∈ t∗ .
Apprentissage du quantron. April 3, 2008 – p. 19/?
58. Preuve de convergence
Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Si t∗ est fini, on a
0 si t ∈ t∗ ,
/
lim fXc (t) = fX (t) =
c→∞ ∞ si t ∈ t∗ .
Si t∗ est infini non dénombrable, on a
0 si t ∈ t∗ ,
/
lim fXc (t) = fX (t) = 1
c→∞
µ(t∗ ) si t ∈ t∗ .
Apprentissage du quantron. April 3, 2008 – p. 19/?
59. Preuve de convergence
Xc converge en distribution vers X.
Apprentissage du quantron. April 3, 2008 – p. 20/?
60. Preuve de convergence
Xc converge en distribution vers X.
S(·) continue et bornée ⇒
E[S(Xc )] converge vers E[S(X)]
(représentation de Skorokhod, convergence
´
dominée, e.g. Capinski et Kopp, 2005).
Apprentissage du quantron. April 3, 2008 – p. 20/?
61. Preuve de convergence
Xc converge en distribution vers X.
S(·) continue et bornée ⇒
E[S(Xc )] converge vers E[S(X)]
(représentation de Skorokhod, convergence
´
dominée, e.g. Capinski et Kopp, 2005).
limc→∞ softmax S(t) = E[S(X)] = max S(t)
Apprentissage du quantron. April 3, 2008 – p. 20/?
62. Preuve de convergence
Xc converge en distribution vers X.
S(·) continue et bornée ⇒
E[S(Xc )] converge vers E[S(X)]
(représentation de Skorokhod, convergence
´
dominée, e.g. Capinski et Kopp, 2005).
limc→∞ softmax S(t) = E[S(X)] = max S(t)
d
Remarque : dc E[S(Xc )] = V [S(Xc )] ≥ 0
(passage de la dérivée sous l’intégrale)
Apprentissage du quantron. April 3, 2008 – p. 20/?
63. Approximation de max S(t)
S(t)
5
4
3
z
2
1
0
0 5 10 15 20
t
Apprentissage du quantron. April 3, 2008 – p. 21/?
64. Approximation de max S(t)
S(t)
Apprentissage du quantron. April 3, 2008 – p. 21/?
65. Approximation de max S(t)
fX1 (t)
0,25
0,20
0,15
0,10
0,05
0 5 10 15 20
t
Apprentissage du quantron. April 3, 2008 – p. 21/?
66. Approximation de max S(t)
fX2 (t)
0,4
0,3
0,2
0,1
0 5 10 15 20
t
Apprentissage du quantron. April 3, 2008 – p. 21/?
67. Approximation de max S(t)
fX3 (t)
0,6
0,5
0,4
0,3
0,2
0,1
0
0 5 10 15 20
t
Apprentissage du quantron. April 3, 2008 – p. 21/?
68. Approximation de max S(t)
fX25 (t)
2,0
1,5
1,0
0,5
0
0 5 10 15 20
t
Apprentissage du quantron. April 3, 2008 – p. 21/?
69. Approximation de max S(t)
fX100 (t)
3
2
1
0
0 5 10 15 20
t
Apprentissage du quantron. April 3, 2008 – p. 21/?
70. Limites de ce résultat
L’application de softmax à une fonction
continue est limitée par la capacité de
résoudre l’intégrale analytiquement.
Apprentissage du quantron. April 3, 2008 – p. 22/?
71. Limites de ce résultat
L’application de softmax à une fonction
continue est limitée par la capacité de
résoudre l’intégrale analytiquement.
L’intégrale se résout bien avec une
approximation linéaire par morceaux de S(t).
Apprentissage du quantron. April 3, 2008 – p. 22/?
72. Limites de ce résultat
L’application de softmax à une fonction
continue est limitée par la capacité de
résoudre l’intégrale analytiquement.
L’intégrale se résout bien avec une
approximation linéaire par morceaux de S(t).
L’implémentation informatique de cette
formule demande une attention particulière.
Apprentissage du quantron. April 3, 2008 – p. 22/?
73. Approximation de ϕ(t)
Potentiels du quantron :
wQ ln ω√ si 0 ≤t<s
t
ϕ(t) = w Q ln ω − Q
√ ln
√ ω si s ≤ t < 2s
s t−s
0
sinon
Apprentissage du quantron. April 3, 2008 – p. 23/?
74. Approximation de ϕ(t)
Potentiels du quantron :
wQ ln ω√ si 0 ≤t<s
t
ϕ(t) = w Q ln ω − Q
√ ln
√ ω si s ≤ t < 2s
s t−s
0
sinon
Q(·) : fonction de survie d’une loi N (0, 1)
ω : largeur de la fente synaptique
Apprentissage du quantron. April 3, 2008 – p. 23/?
75. Approximation de ϕ(t)
Potentiels du quantron :
wQ ln ω√ si 0 ≤t<s
t
ϕ(t) = w Q ln ω − Q
√ ln
√ ω si s ≤ t < 2s
s t−s
0
sinon
Q(·) : fonction de survie d’une loi N (0, 1)
ω : largeur de la fente synaptique
Paramètres :
w (amplitude), s (temps d’arrêt)
Apprentissage du quantron. April 3, 2008 – p. 23/?
76. Approximation de ϕ(t)
∂ϕ(t;s)
Exemple de ∂s (avec t fixé à 1) :
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,4 0,6 0,8 1,0 1,2 1,4
s
Apprentissage du quantron. April 3, 2008 – p. 24/?
77. Approximation de ϕ(t)
Représentation avec fonctions Heaviside :
√
ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)]
√ √
+ w Q ln ω/ s − Q ln ω/ t − s
× [u(t − s) − u(t − 2s)]
Apprentissage du quantron. April 3, 2008 – p. 25/?
78. Approximation de ϕ(t)
Représentation avec fonctions Heaviside :
√
ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)]
√ √
+ w Q ln ω/ s − Q ln ω/ t − s
× [u(t − s) − u(t − 2s)]
La solution la plus simple serait de remplacer
les fonctions Heaviside par des sigmoïdes :
1
σ(x) =
1 + e−ax
Apprentissage du quantron. April 3, 2008 – p. 25/?
79. Approximation de ϕ(t)
Problème:
√
ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
√ √
+ w Q ln ω/ s − Q ln ω/ t − s
× [σ(t − s) − σ(t − 2s)]
est complexe pour t < s.
Apprentissage du quantron. April 3, 2008 – p. 26/?
80. Approximation de ϕ(t)
Problème:
√
ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
√ √
+ w Q ln ω/ s − Q ln ω/ t − s
× [σ(t − s) − σ(t − 2s)]
est complexe pour t < s.
Solution : Approximer le potentiel par une
fonction en escalier, puis approximer les pas
de la fonction en escalier par des sigmoïdes.
Apprentissage du quantron. April 3, 2008 – p. 26/?
81. Approximation de ϕ(t)
Approximation avec 5 évaluations
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 27/?
82. Approximation de ϕ(t)
Approximation avec 9 évaluations
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 27/?
83. Approximation de ϕ(t)
Approximation avec 13 évaluations
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 27/?
84. Approximation de ϕ(t)
Approximation avec 17 évaluations
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 27/?
85. Approximation de ϕ(t)
Approximation avec 21 évaluations
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 27/?
86. Approximation de ϕ(t)
Approximation avec 25 évaluations
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 27/?
87. Approximation de ϕ(t)
d : nombre de pas de l’approximation par
fonction en escalier
Apprentissage du quantron. April 3, 2008 – p. 28/?
88. Approximation de ϕ(t)
d : nombre de pas de l’approximation par
fonction en escalier
Nous avons choisi a = 5d comme paramètre
2s
de forme de la sigmoïde.
Apprentissage du quantron. April 3, 2008 – p. 28/?
89. Approximation de ϕ(t)
d : nombre de pas de l’approximation par
fonction en escalier
Nous avons choisi a = 5d comme paramètre
2s
de forme de la sigmoïde.
Ce choix donne une approximation "lisse".
Apprentissage du quantron. April 3, 2008 – p. 28/?
90. Approximation de ϕ(t)
d : nombre de pas de l’approximation par
fonction en escalier
Nous avons choisi a = 5d comme paramètre
2s
de forme de la sigmoïde.
Ce choix donne une approximation "lisse".
Validation expérimentale par identification du
minimum de l’erreur quadratique entre ϕ(t) et
son approximation par sigmoïdes.
Apprentissage du quantron. April 3, 2008 – p. 28/?
91. Approximation de ϕ(t)
d : nombre de pas de l’approximation par
fonction en escalier
Nous avons choisi a = 5d comme paramètre
2s
de forme de la sigmoïde.
Ce choix donne une approximation "lisse".
Validation expérimentale par identification du
minimum de l’erreur quadratique entre ϕ(t) et
son approximation par sigmoïdes.
Un mauvais choix de a est néfaste.
Apprentissage du quantron. April 3, 2008 – p. 28/?
92. Approximation de ϕ(t)
2d
Approximation avec 9 évaluations, a = 2s
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 29/?
93. Approximation de ϕ(t)
20d
Approximation avec 9 évaluations, a = 2s
0,4
0,3
0,2
0,1
0 1 2 3 4
t
Apprentissage du quantron. April 3, 2008 – p. 29/?
94. Approximation de ϕ(t)
L’approximation semble bonne, mais
qu’arrive-t-il à la dérivée?
Apprentissage du quantron. April 3, 2008 – p. 30/?
95. Approximation de ϕ(t)
L’approximation semble bonne, mais
qu’arrive-t-il à la dérivée?
5d
a= 2s
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,4 0,6 0,8 1,0 1,2 1,4
s
Apprentissage du quantron. April 3, 2008 – p. 30/?
96. Approximation de ϕ(t)
L’approximation semble bonne, mais
qu’arrive-t-il à la dérivée?
2d
a= 2s
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,4 0,6 0,8 1,0 1,2 1,4
s
Apprentissage du quantron. April 3, 2008 – p. 30/?
97. Approximation de ϕ(t)
L’approximation semble bonne, mais
qu’arrive-t-il à la dérivée?
20d
a= 2s
3
2
1
0
0,4 0,6 0,8 1,0 1,2 1,4
s
Apprentissage du quantron. April 3, 2008 – p. 30/?
98. Approximation de ϕ(t)
L’approximation semble bonne, mais
qu’arrive-t-il à la dérivée?
Le calcul de la dérivée est utilisable, mais la
présence de pics dans la dérivée de
l’approximation pourrait être problématique
pour effectuer la descente du gradient.
Apprentissage du quantron. April 3, 2008 – p. 30/?
99. En conclusion
Les deux approximations différentiables
présentées permettent d’aborder
l’apprentissage du quantron.
Apprentissage du quantron. April 3, 2008 – p. 31/?
100. En conclusion
Les deux approximations différentiables
présentées permettent d’aborder
l’apprentissage du quantron.
Les questions d’implémentation de ces
méthodes sont primordiales.
Apprentissage du quantron. April 3, 2008 – p. 31/?
101. En conclusion
Les deux approximations différentiables
présentées permettent d’aborder
l’apprentissage du quantron.
Les questions d’implémentation de ces
méthodes sont primordiales.
Suite des travaux :
Apprentissage du quantron. April 3, 2008 – p. 31/?
102. En conclusion
Les deux approximations différentiables
présentées permettent d’aborder
l’apprentissage du quantron.
Les questions d’implémentation de ces
méthodes sont primordiales.
Suite des travaux :
Développement d’une forme alternative de
calcul de la réponse du quantron.
Apprentissage du quantron. April 3, 2008 – p. 31/?
103. En conclusion
Les deux approximations différentiables
présentées permettent d’aborder
l’apprentissage du quantron.
Les questions d’implémentation de ces
méthodes sont primordiales.
Suite des travaux :
Développement d’une forme alternative de
calcul de la réponse du quantron.
Application des résultats obtenus à
l’apprentissage en classification et en
régression.
Apprentissage du quantron. April 3, 2008 – p. 31/?
104. Références
´
M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :
Springer-Verlag, 2005.
S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction,
Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.
Pardalos, editors, Kluwer Academic Publishers, 2001.
S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper Saddle
River, NJ : Prentice Hall, 1999.
R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of Local
Experts", Neural Computation, 3, 79-87, 1991.
R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",
Proceedings of the International Joint Conference on Neural Networks, 1,
617-620, 1999.
C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problems
onto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.
D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations by
back-propagation of errors", Nature, 323, 533-536, 1986.
Apprentissage du quantron. April 3, 2008 – p. 32/?