Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse
1. Séminaire SAMOS
4 février 2005
RRééseaux de neurones et SVMseaux de neurones et SVM
àà entrentréées fonctionnelles : unees fonctionnelles : une
approche par rapproche par réégressiongression
inverseinverse
Nathalie Villa (GRIMM - SMASH)
Université Toulouse Le Mirail
2. Séminaire SAMOS
4 février 2005
OBJECTIFSOBJECTIFS
ObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
5. Séminaire SAMOS
4 février 2005
Contexte théorique
• X ∈ (H,<.,.>) (espace de Hilbert ; typiquement
H=L2)
• On dispose de N observations : (X1 ,Y1),…(XN ,YN)
et on cherche à estimer E(Y / X) par perceptron
multi-couches, par SVM…
Perceptron
multi-couches,
SVM
1
C1
1
CK
Y =
Y réel
6. Séminaire SAMOS
4 février 2005
Problèmes habituels liés
à ce cadre
• Problèmes d’inversion d’opérateurs
Exemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la
relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas
d’inverse continu même lorsqu’il est bijectif.
•Problèmes liés à l’existence de trop de solutions à
une équation donnée (problèmes mal posés)
Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ;
étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver
une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1
Voir : Leurgans, Moyeed and Silverman (1993)
7. Séminaire SAMOS
4 février 2005
Contexte pratique
• Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au
travers d’une discrétisation aux points t1,…,tD
⇒ connaissance imparfaite des observations : il faut approcher les
opérations usuelles (produit scalaire…)
Voir : Rossi et Conan-Guez (2004)
⇒ nécessité de trouver un mode de représentation approprié des
paramètres fonctionnels du modèle étudié
Exemple : pour les perceptrons multi-couches, on cherchera à trouver
une représentation adéquate des poids fonctionnels du réseau
⇒ travailler dans RD est habituellement une mauvaise idée… !
(variables de grandes dimensions et fortement corrélées,
matrices mal conditionnées…)
8. Séminaire SAMOS
4 février 2005
Quelques outils
habituels de résolution
• Projection des données sur un espace de
dimension finie (d) puis travail habituel dans Rd
– sur une base ACP
Voir : Bosq (1991) (Processus AR),
Cardot, Ferraty et Sarda (1999) (Modèle Linéaire)
Thodberg (1996) (Perceptron multi-couches)
– sur une base orthonormée de L2 (base trigonométrique,
par exemple)
Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)
9. Séminaire SAMOS
4 février 2005
– sur une base B-Spline
Voir : Rossi et Conan-Guez (2004)
• Régularisation : on impose aux estimateurs
certaines conditions de régularité
Voir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)
10. Séminaire SAMOS
4 février 2005
TROUVER UNE BASE DETROUVER UNE BASE DE
PROJECTION OPTIMALEPROJECTION OPTIMALE
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
11. Séminaire SAMOS
4 février 2005
Principaux avantages de
l’approche proposée
• On détermine une base de projection qui dépend :
– des données (procédure automatique de détermination),
– de la cible Y (la base est exactement adaptée au but poursuivi).
• On projette les données sur cette base avant de les traiter
par réseaux de neurones
– le vecteur d’entrée est de faible dimension (traitement rapide).
• On dispose d’un résultat qui assure la convergence des
paramètres empiriques vers les poids optimaux théoriques
du perceptron.
12. Séminaire SAMOS
4 février 2005
Fonctional Inverse
Regression : le modèle
Pour X ∈ L2, on suppose que
Y = f (<X,a1>,…,<X,aq>,ε) (Condition de Li)
Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR
(Vect{aj}) s’obtient par décomposition spectrale de l’opérateur
ΓX
-1 ΓE(Y/X).
Problème : ΓX n’est pas inversible donc les vecteurs
propres de (ΓX
N)-1 ΓN
E(Y/X) ne convergent pas vers les
vecteurs propres de ΓX
-1 ΓE(Y/X).
⇒ On estime ΓX par ΓX
N + α [.,.] où [.,.] est
un terme de pénalisation destiné à régulariser
les estimateurs â1,…,âq.
13. Séminaire SAMOS
4 février 2005
Consistance
Théorème : Sous les hypothèses
– E(||X||4) < +∞
– ∀ α > 0, inf{<ΓX
Na,a> + α [a,a] : ||a||=1} = ρα > 0
– limN→+∞ α = 0 et limN→+∞ Nα² = +∞
– Les valeurs propres de ΓX sont distinctes
La probabilité que ΓE(X/Y)
N admette un maximum sur
inf{ΓX
N + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1
N
converge en probabilité vers a1
Voir : Ferré et Villa (2005a)
14. Séminaire SAMOS
4 février 2005
Remarques
• Condition de Li peu restrictive pour les vecteurs de
grande dimension
• FIR peut être utilisée pour des problèmes de
régression et des problèmes de discrimination
• De manière pratique, on a choisi [f,g] = <D²f,D²g>
15. Séminaire SAMOS
4 février 2005
Exemple : phonèmes
• Méthodes comparées :
– SIR régularisée + Noyau
– SIR projetée + Noyau
– SIR pseudo-inverse + Noyau
– Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995)
– NPCD – PCA Voir : Ferraty, Vieu (2003)
• Protocole expérimental : Sur 50 échantillons
aléatoires, on effectue la discrimination sur un échantillon
d’apprentissage et on calcule le taux d’erreur sur un
échantillon de test.
17. Séminaire SAMOS
4 février 2005
Projection sur les deux
premiers vecteurs
propres SIR
régularisée
Projection sur les deux
premiers vecteurs
propres SIR projetée
18. Séminaire SAMOS
4 février 2005
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
Espace EDR pour SIR
régularisée
Espace EDR pour SIR
projetée
19. Séminaire SAMOS
4 février 2005
RESEAUX DE NEURONESRESEAUX DE NEURONES
FONCTIONNELSFONCTIONNELS
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
20. Séminaire SAMOS
4 février 2005
Principe de FIR-NN
X Y = f (<X,a1>,…,<X,aq>,ε)
FIR
{<X,âj >}j=1…q
Perceptron
multi-couches Y
Estimation de f
(Projection des données
sur une estimation de
l’espace EDR)
21. Séminaire SAMOS
4 février 2005
Consistance
Sous les hypothèses du théorème précédent et
d’un certain nombre d’hypothèses techniques, les
poids permettant d’obtenir l’erreur empirique
minimum convergent en probabilité vers les poids
théoriques lorsque le nombre d’observations tend
vers +∞.
22. Séminaire SAMOS
4 février 2005
Exemple : Tecator data
• Méthodes comparées :
– SIR régularisée + NN
– SIR pseudo-inverse + NN
– ACP + NN
– NNf (par projection sur Spline)
– SIR + Linéaire
• Protocole expérimental :
Sur 50 échantillons aléatoires, on effectue la discrimination
sur un échantillon d’apprentissage et on calcule le taux
d’erreur sur un échantillon de test.
24. Séminaire SAMOS
4 février 2005
SVM FONCTIONNELSSVM FONCTIONNELS
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnels
25. Séminaire SAMOS
4 février 2005
Principe SVM
Φ (non linéaire)
x1,…, xN ∈ H Espace image
(grande dimension)
z1,…,zN
26. Séminaire SAMOS
4 février 2005
Formulation
mathématique
• On cherche à minimiser ½ ||w||² sous la contrainte
yi (<zi , w> + b) ≥ 1, ∀i = 1,…,N
• Ceci se met sous la forme duale : maximiser
αi – αi αj yiyj <zi , zj>
sous la contrainte αi ≥ 0, ∀i = 1,…,N
• zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de
Moore-Aronszajn)
∑=
N
i 1
∑=
N
i 1
27. Séminaire SAMOS
4 février 2005
Solution
• La classification se fait selon l’hyperplan
d’équation
sign(<z,w*>+b),
où w* = αi
* yi zi et où seuls un « petit » nombre
de αi
* sont non nuls : ils déterminent les vecteurs
supports.
Espace image
zi,…,zN
Vecteurs
supports
(participent à la
construction de la
frontière de décision)
∑=
N
i 1
28. Séminaire SAMOS
4 février 2005
Problèmes spécifiques
du cas fonctionnel
• Dans un espace de dimension infinie, il y a
toujours une séparation linéaire
• Mais, même dans ce cadre, on peut rencontrer les
problèmes habituels dûs à la grande dimension ou
de connaissance incomplète des données
(discrétisation)
• L’utilisation de noyaux fonctionnels peut apporter
un plus (utilisation de la nature spécifique des
données)
29. Séminaire SAMOS
4 février 2005
FIR + SVM pour
classification
X ∈H
FIR
<X,â1>,…, <X,âq>
Y = f (<X,a1>,…,<X,aq>,ε)
Φ(non linéaire)
Noyau classique
Espace image
Z
Estimation de f
31. Séminaire SAMOS
4 février 2005
Méthodologie
• Méthodes comparées :
– SIR + SVM RBF
– SVM RBF sur la discrétisation
– Ridge PDA
– SIR + Noyau
• Protocole expérimental :
Sur 10 échantillons aléatoires, on détermine les
paramètres optimaux par validation croisée puis on évalue
l’erreur commise sur un échantillon indépendant
(apprentissage : 3 × 100, validation : 500, test : 500).
32. Séminaire SAMOS
4 février 2005
Résultats
12,3712,4710,1711,73
Moyenne
(app)
1212,612,2010,20
Minimum
(test)
2,012,053,042,25
Ecart type
(test)
14,1615,6215,4613,70
Moyenne
(test)
SIR + NoyR-PDASVMSIR + SVM
33. Séminaire SAMOS
4 février 2005
Conclusion et
perspectives
• FIR permet une approche semi-paramétrique pour
l’implémentation de données fonctionnelles dans
réseaux neuronaux et SVM
• Implémentation facile et bon comportement
expérimental
• Perspectives :
– SVM fonctionnels pour régression ;
– Autres approches fonctionnelles pour SVM ;
– Consistance de méthodes pour SVM fonctionnels…
34. Séminaire SAMOS
4 février 2005
Bibliographie (1)
• Leurgans, Moyeed and Silverman (1993) Canonical
Correlation Analysis when the Data are Curves, J. R. Statist.
Soc. B, 55, 3, 725-740.
• Rossi and Conan-Guez (2004) Functional multi-Layer
perceptron: a non-linear tool for functional data analysis,
Neural Networks, à paraître.
• Bosq (1991) Modelization, non-parametric estimation and
prediction for continuous time processes, In Roussas, G.,
editor, Nonparametric Functional Estimation and Related Topics,
NATO, ASI Series, 509-529.
35. Séminaire SAMOS
4 février 2005
Bibliographie (2)
• Cardot, Ferraty and Sarda (1999) Functional Linear Model,
Statistics and Probability Letters, 45, 1, 11-22.
• Thodberg (1996) A Review of Bayesian Neural Networks
with an Application to Near Infrared Spectroscopy, IEEE
Transactions on Neural Networks, 7, 1, 56-72.
• Biau, Bunea and Wegkamp (2004) Functional classification
in Hilbert Spaces, soumis.
(www.math.univ-montp2.fr/~biau/publications.html)
• Ferré and Villa (2005) Multi-Layer Neural Network with
functional inputs: an inverse regression approach, soumis.
36. Séminaire SAMOS
4 février 2005
Bibliographie (3)
• Hastie, Buja and Tibshirani (1995) Penalized discriminant
analysis, Ann. Statist., 23, 1, 73-102.
• Ferraty and Vieu (2003) Curves discrimination: a
nonparametric functional approach, Computational Statistics
and Data Analysis, 44, 161-173.
38. Séminaire SAMOS
4 février 2005
Annexe 1 : Opérateurs
hilbertiens
• Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u>
(théorème de Riesz)
• Opérateur de variance de X : ΓX = E(X ⊗ X) avec
X ⊗ X : u → <X,u> X (opérateur continu de H où
l’ensemble des opérateurs continus de H est un
espace de Hilbert)
• Estimateur de l’opérateur de variance :
ΓX
N = Xn ⊗ Xn∑=
N
n
N 1
1