SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
Séminaire SAMOS
4 février 2005
RRééseaux de neurones et SVMseaux de neurones et SVM
àà entrentréées fonctionnelles : unees fonctionnelles : une
approche par rapproche par réégressiongression
inverseinverse
Nathalie Villa (GRIMM - SMASH)
Université Toulouse Le Mirail
Séminaire SAMOS
4 février 2005
OBJECTIFSOBJECTIFS
ObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
Séminaire SAMOS
4 février 2005
L’analyse de données
fonctionnelles
1) Données de phonèmes
(discrimination)
50 100 150 200 250
-5
0
5
10
15
20
25
30
[aa]
50 100 150 200 250
-5
0
5
10
15
20
25
30
[ao]
Enregistrements de voix
50 100 150 200 250
-5
0
5
10
15
20
[dcl]
50 100 150 200 250
-5
0
5
10
15
20
25
[iy]
50 100 150 200 250
0
5
10
15
20
25
[sh]
Phonème
Séminaire SAMOS
4 février 2005
2) Données de spectrométrie
(régression)
10 20 30 40 50 60 70 80 90 100
2
2.5
3
3.5
4
4.5
5
5.5
Spectres d’absorbance
Masse de
matière
grasse
Séminaire SAMOS
4 février 2005
Contexte théorique
• X ∈ (H,<.,.>) (espace de Hilbert ; typiquement
H=L2)
• On dispose de N observations : (X1 ,Y1),…(XN ,YN)
et on cherche à estimer E(Y / X) par perceptron
multi-couches, par SVM…
Perceptron
multi-couches,
SVM
1
C1
1
CK
Y =
Y réel
Séminaire SAMOS
4 février 2005
Problèmes habituels liés
à ce cadre
• Problèmes d’inversion d’opérateurs
Exemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la
relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas
d’inverse continu même lorsqu’il est bijectif.
•Problèmes liés à l’existence de trop de solutions à
une équation donnée (problèmes mal posés)
Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ;
étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver
une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1
Voir : Leurgans, Moyeed and Silverman (1993)
Séminaire SAMOS
4 février 2005
Contexte pratique
• Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au
travers d’une discrétisation aux points t1,…,tD
⇒ connaissance imparfaite des observations : il faut approcher les
opérations usuelles (produit scalaire…)
Voir : Rossi et Conan-Guez (2004)
⇒ nécessité de trouver un mode de représentation approprié des
paramètres fonctionnels du modèle étudié
Exemple : pour les perceptrons multi-couches, on cherchera à trouver
une représentation adéquate des poids fonctionnels du réseau
⇒ travailler dans RD est habituellement une mauvaise idée… !
(variables de grandes dimensions et fortement corrélées,
matrices mal conditionnées…)
Séminaire SAMOS
4 février 2005
Quelques outils
habituels de résolution
• Projection des données sur un espace de
dimension finie (d) puis travail habituel dans Rd
– sur une base ACP
Voir : Bosq (1991) (Processus AR),
Cardot, Ferraty et Sarda (1999) (Modèle Linéaire)
Thodberg (1996) (Perceptron multi-couches)
– sur une base orthonormée de L2 (base trigonométrique,
par exemple)
Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)
Séminaire SAMOS
4 février 2005
– sur une base B-Spline
Voir : Rossi et Conan-Guez (2004)
• Régularisation : on impose aux estimateurs
certaines conditions de régularité
Voir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)
Séminaire SAMOS
4 février 2005
TROUVER UNE BASE DETROUVER UNE BASE DE
PROJECTION OPTIMALEPROJECTION OPTIMALE
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
Séminaire SAMOS
4 février 2005
Principaux avantages de
l’approche proposée
• On détermine une base de projection qui dépend :
– des données (procédure automatique de détermination),
– de la cible Y (la base est exactement adaptée au but poursuivi).
• On projette les données sur cette base avant de les traiter
par réseaux de neurones
– le vecteur d’entrée est de faible dimension (traitement rapide).
• On dispose d’un résultat qui assure la convergence des
paramètres empiriques vers les poids optimaux théoriques
du perceptron.
Séminaire SAMOS
4 février 2005
Fonctional Inverse
Regression : le modèle
Pour X ∈ L2, on suppose que
Y = f (<X,a1>,…,<X,aq>,ε) (Condition de Li)
Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR
(Vect{aj}) s’obtient par décomposition spectrale de l’opérateur
ΓX
-1 ΓE(Y/X).
Problème : ΓX n’est pas inversible donc les vecteurs
propres de (ΓX
N)-1 ΓN
E(Y/X) ne convergent pas vers les
vecteurs propres de ΓX
-1 ΓE(Y/X).
⇒ On estime ΓX par ΓX
N + α [.,.] où [.,.] est
un terme de pénalisation destiné à régulariser
les estimateurs â1,…,âq.
Séminaire SAMOS
4 février 2005
Consistance
Théorème : Sous les hypothèses
– E(||X||4) < +∞
– ∀ α > 0, inf{<ΓX
Na,a> + α [a,a] : ||a||=1} = ρα > 0
– limN→+∞ α = 0 et limN→+∞ Nα² = +∞
– Les valeurs propres de ΓX sont distinctes
La probabilité que ΓE(X/Y)
N admette un maximum sur
inf{ΓX
N + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1
N
converge en probabilité vers a1
Voir : Ferré et Villa (2005a)
Séminaire SAMOS
4 février 2005
Remarques
• Condition de Li peu restrictive pour les vecteurs de
grande dimension
• FIR peut être utilisée pour des problèmes de
régression et des problèmes de discrimination
• De manière pratique, on a choisi [f,g] = <D²f,D²g>
Séminaire SAMOS
4 février 2005
Exemple : phonèmes
• Méthodes comparées :
– SIR régularisée + Noyau
– SIR projetée + Noyau
– SIR pseudo-inverse + Noyau
– Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995)
– NPCD – PCA Voir : Ferraty, Vieu (2003)
• Protocole expérimental : Sur 50 échantillons
aléatoires, on effectue la discrimination sur un échantillon
d’apprentissage et on calcule le taux d’erreur sur un
échantillon de test.
Séminaire SAMOS
4 février 2005
11 %
10 %
9 %
8 %
SIR2-N RPDA NPCD-PCASIR-Nr SIR-Np
Séminaire SAMOS
4 février 2005
Projection sur les deux
premiers vecteurs
propres SIR
régularisée
Projection sur les deux
premiers vecteurs
propres SIR projetée
Séminaire SAMOS
4 février 2005
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
Espace EDR pour SIR
régularisée
Espace EDR pour SIR
projetée
Séminaire SAMOS
4 février 2005
RESEAUX DE NEURONESRESEAUX DE NEURONES
FONCTIONNELSFONCTIONNELS
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
Séminaire SAMOS
4 février 2005
Principe de FIR-NN
X Y = f (<X,a1>,…,<X,aq>,ε)
FIR
{<X,âj >}j=1…q
Perceptron
multi-couches Y
Estimation de f
(Projection des données
sur une estimation de
l’espace EDR)
Séminaire SAMOS
4 février 2005
Consistance
Sous les hypothèses du théorème précédent et
d’un certain nombre d’hypothèses techniques, les
poids permettant d’obtenir l’erreur empirique
minimum convergent en probabilité vers les poids
théoriques lorsque le nombre d’observations tend
vers +∞.
Séminaire SAMOS
4 février 2005
Exemple : Tecator data
• Méthodes comparées :
– SIR régularisée + NN
– SIR pseudo-inverse + NN
– ACP + NN
– NNf (par projection sur Spline)
– SIR + Linéaire
• Protocole expérimental :
Sur 50 échantillons aléatoires, on effectue la discrimination
sur un échantillon d’apprentissage et on calcule le taux
d’erreur sur un échantillon de test.
Séminaire SAMOS
4 février 2005
ACP-NN NNf
SIR-NNr
SIR-NNn SIR-l
Séminaire SAMOS
4 février 2005
SVM FONCTIONNELSSVM FONCTIONNELS
ObjectifsObjectifsObjectifs
Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels
SVM fonctionnelsSVM fonctionnels
Séminaire SAMOS
4 février 2005
Principe SVM
Φ (non linéaire)
x1,…, xN ∈ H Espace image
(grande dimension)
z1,…,zN
Séminaire SAMOS
4 février 2005
Formulation
mathématique
• On cherche à minimiser ½ ||w||² sous la contrainte
yi (<zi , w> + b) ≥ 1, ∀i = 1,…,N
• Ceci se met sous la forme duale : maximiser
αi – αi αj yiyj <zi , zj>
sous la contrainte αi ≥ 0, ∀i = 1,…,N
• zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de
Moore-Aronszajn)
∑=
N
i 1
∑=
N
i 1
Séminaire SAMOS
4 février 2005
Solution
• La classification se fait selon l’hyperplan
d’équation
sign(<z,w*>+b),
où w* = αi
* yi zi et où seuls un « petit » nombre
de αi
* sont non nuls : ils déterminent les vecteurs
supports.
Espace image
zi,…,zN
Vecteurs
supports
(participent à la
construction de la
frontière de décision)
∑=
N
i 1
Séminaire SAMOS
4 février 2005
Problèmes spécifiques
du cas fonctionnel
• Dans un espace de dimension infinie, il y a
toujours une séparation linéaire
• Mais, même dans ce cadre, on peut rencontrer les
problèmes habituels dûs à la grande dimension ou
de connaissance incomplète des données
(discrétisation)
• L’utilisation de noyaux fonctionnels peut apporter
un plus (utilisation de la nature spécifique des
données)
Séminaire SAMOS
4 février 2005
FIR + SVM pour
classification
X ∈H
FIR
<X,â1>,…, <X,âq>
Y = f (<X,a1>,…,<X,aq>,ε)
Φ(non linéaire)
Noyau classique
Espace image
Z
Estimation de f
Séminaire SAMOS
4 février 2005
Exemple sur données
simulées : waveform
2 4 6 8 10 12 14 16 18 20
-4
-2
0
2
4
6
8
Classe 1
2 4 6 8 10 12 14 16 18 20
-4
-2
0
2
4
6
8
10
Classe 2
2 4 6 8 10 12 14 16 18 20
-4
-2
0
2
4
6
8
Classe 3
uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t)
•h1(t) = max(6-|t-11|,0)
•h2(t) = h1(t-4)
•h3(t) = h1(t+4)
Séminaire SAMOS
4 février 2005
Méthodologie
• Méthodes comparées :
– SIR + SVM RBF
– SVM RBF sur la discrétisation
– Ridge PDA
– SIR + Noyau
• Protocole expérimental :
Sur 10 échantillons aléatoires, on détermine les
paramètres optimaux par validation croisée puis on évalue
l’erreur commise sur un échantillon indépendant
(apprentissage : 3 × 100, validation : 500, test : 500).
Séminaire SAMOS
4 février 2005
Résultats
12,3712,4710,1711,73
Moyenne
(app)
1212,612,2010,20
Minimum
(test)
2,012,053,042,25
Ecart type
(test)
14,1615,6215,4613,70
Moyenne
(test)
SIR + NoyR-PDASVMSIR + SVM
Séminaire SAMOS
4 février 2005
Conclusion et
perspectives
• FIR permet une approche semi-paramétrique pour
l’implémentation de données fonctionnelles dans
réseaux neuronaux et SVM
• Implémentation facile et bon comportement
expérimental
• Perspectives :
– SVM fonctionnels pour régression ;
– Autres approches fonctionnelles pour SVM ;
– Consistance de méthodes pour SVM fonctionnels…
Séminaire SAMOS
4 février 2005
Bibliographie (1)
• Leurgans, Moyeed and Silverman (1993) Canonical
Correlation Analysis when the Data are Curves, J. R. Statist.
Soc. B, 55, 3, 725-740.
• Rossi and Conan-Guez (2004) Functional multi-Layer
perceptron: a non-linear tool for functional data analysis,
Neural Networks, à paraître.
• Bosq (1991) Modelization, non-parametric estimation and
prediction for continuous time processes, In Roussas, G.,
editor, Nonparametric Functional Estimation and Related Topics,
NATO, ASI Series, 509-529.
Séminaire SAMOS
4 février 2005
Bibliographie (2)
• Cardot, Ferraty and Sarda (1999) Functional Linear Model,
Statistics and Probability Letters, 45, 1, 11-22.
• Thodberg (1996) A Review of Bayesian Neural Networks
with an Application to Near Infrared Spectroscopy, IEEE
Transactions on Neural Networks, 7, 1, 56-72.
• Biau, Bunea and Wegkamp (2004) Functional classification
in Hilbert Spaces, soumis.
(www.math.univ-montp2.fr/~biau/publications.html)
• Ferré and Villa (2005) Multi-Layer Neural Network with
functional inputs: an inverse regression approach, soumis.
Séminaire SAMOS
4 février 2005
Bibliographie (3)
• Hastie, Buja and Tibshirani (1995) Penalized discriminant
analysis, Ann. Statist., 23, 1, 73-102.
• Ferraty and Vieu (2003) Curves discrimination: a
nonparametric functional approach, Computational Statistics
and Data Analysis, 44, 161-173.
Séminaire SAMOS
4 février 2005
Merci de votre attentionMerci de votre attention
Séminaire SAMOS
4 février 2005
Annexe 1 : Opérateurs
hilbertiens
• Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u>
(théorème de Riesz)
• Opérateur de variance de X : ΓX = E(X ⊗ X) avec
X ⊗ X : u → <X,u> X (opérateur continu de H où
l’ensemble des opérateurs continus de H est un
espace de Hilbert)
• Estimateur de l’opérateur de variance :
ΓX
N = Xn ⊗ Xn∑=
N
n
N 1
1

Más contenido relacionado

La actualidad más candente

Planification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillancePlanification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillanceJulien Bect
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4mathemathieu
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationFrank Nielsen
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesAhmed Ammar Rebai PhD
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Arthur Charpentier
 
Planification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésiennePlanification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésienneJulien Bect
 
Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Arthur Charpentier
 
Chap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesChap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesMohammed TAMALI
 
Une formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesUne formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesClément Boulonne
 

La actualidad más candente (20)

Planification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillancePlanification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillance
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'information
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennes
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2
 
09 mouvement-2
09 mouvement-209 mouvement-2
09 mouvement-2
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Planification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésiennePlanification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésienne
 
Slide 2040-1
Slide 2040-1Slide 2040-1
Slide 2040-1
 
Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4
 
Slides 2040-2-0
Slides 2040-2-0Slides 2040-2-0
Slides 2040-2-0
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Chap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesChap9 : Systèmes non linéaires
Chap9 : Systèmes non linéaires
 
Comment faire disparaître les rides
Comment faire disparaître les ridesComment faire disparaître les rides
Comment faire disparaître les rides
 
Actuariat et Données
Actuariat et DonnéesActuariat et Données
Actuariat et Données
 
Une formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesUne formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentielles
 
Slides 2040-6-a2013
Slides 2040-6-a2013Slides 2040-6-a2013
Slides 2040-6-a2013
 
Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
Slides 2040-3
Slides 2040-3Slides 2040-3
Slides 2040-3
 

Similar a Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...tuxette
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAyoub Abraich
 
Introduction Clojure - Geneva JUG - Octobre 2012
Introduction Clojure - Geneva JUG - Octobre 2012Introduction Clojure - Geneva JUG - Octobre 2012
Introduction Clojure - Geneva JUG - Octobre 2012Pablo Tamarit
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...
CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...
CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...Mokhtar SELLAMI
 

Similar a Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse (7)

RTEngine
RTEngineRTEngine
RTEngine
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUE
 
Oc1 2013
Oc1 2013Oc1 2013
Oc1 2013
 
Introduction Clojure - Geneva JUG - Octobre 2012
Introduction Clojure - Geneva JUG - Octobre 2012Introduction Clojure - Geneva JUG - Octobre 2012
Introduction Clojure - Geneva JUG - Octobre 2012
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...
CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...
CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARG...
 

Más de tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Más de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

  • 1. Séminaire SAMOS 4 février 2005 RRééseaux de neurones et SVMseaux de neurones et SVM àà entrentréées fonctionnelles : unees fonctionnelles : une approche par rapproche par réégressiongression inverseinverse Nathalie Villa (GRIMM - SMASH) Université Toulouse Le Mirail
  • 2. Séminaire SAMOS 4 février 2005 OBJECTIFSOBJECTIFS ObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
  • 3. Séminaire SAMOS 4 février 2005 L’analyse de données fonctionnelles 1) Données de phonèmes (discrimination) 50 100 150 200 250 -5 0 5 10 15 20 25 30 [aa] 50 100 150 200 250 -5 0 5 10 15 20 25 30 [ao] Enregistrements de voix 50 100 150 200 250 -5 0 5 10 15 20 [dcl] 50 100 150 200 250 -5 0 5 10 15 20 25 [iy] 50 100 150 200 250 0 5 10 15 20 25 [sh] Phonème
  • 4. Séminaire SAMOS 4 février 2005 2) Données de spectrométrie (régression) 10 20 30 40 50 60 70 80 90 100 2 2.5 3 3.5 4 4.5 5 5.5 Spectres d’absorbance Masse de matière grasse
  • 5. Séminaire SAMOS 4 février 2005 Contexte théorique • X ∈ (H,<.,.>) (espace de Hilbert ; typiquement H=L2) • On dispose de N observations : (X1 ,Y1),…(XN ,YN) et on cherche à estimer E(Y / X) par perceptron multi-couches, par SVM… Perceptron multi-couches, SVM 1 C1 1 CK Y = Y réel
  • 6. Séminaire SAMOS 4 février 2005 Problèmes habituels liés à ce cadre • Problèmes d’inversion d’opérateurs Exemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas d’inverse continu même lorsqu’il est bijectif. •Problèmes liés à l’existence de trop de solutions à une équation donnée (problèmes mal posés) Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ; étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1 Voir : Leurgans, Moyeed and Silverman (1993)
  • 7. Séminaire SAMOS 4 février 2005 Contexte pratique • Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au travers d’une discrétisation aux points t1,…,tD ⇒ connaissance imparfaite des observations : il faut approcher les opérations usuelles (produit scalaire…) Voir : Rossi et Conan-Guez (2004) ⇒ nécessité de trouver un mode de représentation approprié des paramètres fonctionnels du modèle étudié Exemple : pour les perceptrons multi-couches, on cherchera à trouver une représentation adéquate des poids fonctionnels du réseau ⇒ travailler dans RD est habituellement une mauvaise idée… ! (variables de grandes dimensions et fortement corrélées, matrices mal conditionnées…)
  • 8. Séminaire SAMOS 4 février 2005 Quelques outils habituels de résolution • Projection des données sur un espace de dimension finie (d) puis travail habituel dans Rd – sur une base ACP Voir : Bosq (1991) (Processus AR), Cardot, Ferraty et Sarda (1999) (Modèle Linéaire) Thodberg (1996) (Perceptron multi-couches) – sur une base orthonormée de L2 (base trigonométrique, par exemple) Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)
  • 9. Séminaire SAMOS 4 février 2005 – sur une base B-Spline Voir : Rossi et Conan-Guez (2004) • Régularisation : on impose aux estimateurs certaines conditions de régularité Voir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)
  • 10. Séminaire SAMOS 4 février 2005 TROUVER UNE BASE DETROUVER UNE BASE DE PROJECTION OPTIMALEPROJECTION OPTIMALE ObjectifsObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
  • 11. Séminaire SAMOS 4 février 2005 Principaux avantages de l’approche proposée • On détermine une base de projection qui dépend : – des données (procédure automatique de détermination), – de la cible Y (la base est exactement adaptée au but poursuivi). • On projette les données sur cette base avant de les traiter par réseaux de neurones – le vecteur d’entrée est de faible dimension (traitement rapide). • On dispose d’un résultat qui assure la convergence des paramètres empiriques vers les poids optimaux théoriques du perceptron.
  • 12. Séminaire SAMOS 4 février 2005 Fonctional Inverse Regression : le modèle Pour X ∈ L2, on suppose que Y = f (<X,a1>,…,<X,aq>,ε) (Condition de Li) Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR (Vect{aj}) s’obtient par décomposition spectrale de l’opérateur ΓX -1 ΓE(Y/X). Problème : ΓX n’est pas inversible donc les vecteurs propres de (ΓX N)-1 ΓN E(Y/X) ne convergent pas vers les vecteurs propres de ΓX -1 ΓE(Y/X). ⇒ On estime ΓX par ΓX N + α [.,.] où [.,.] est un terme de pénalisation destiné à régulariser les estimateurs â1,…,âq.
  • 13. Séminaire SAMOS 4 février 2005 Consistance Théorème : Sous les hypothèses – E(||X||4) < +∞ – ∀ α > 0, inf{<ΓX Na,a> + α [a,a] : ||a||=1} = ρα > 0 – limN→+∞ α = 0 et limN→+∞ Nα² = +∞ – Les valeurs propres de ΓX sont distinctes La probabilité que ΓE(X/Y) N admette un maximum sur inf{ΓX N + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1 N converge en probabilité vers a1 Voir : Ferré et Villa (2005a)
  • 14. Séminaire SAMOS 4 février 2005 Remarques • Condition de Li peu restrictive pour les vecteurs de grande dimension • FIR peut être utilisée pour des problèmes de régression et des problèmes de discrimination • De manière pratique, on a choisi [f,g] = <D²f,D²g>
  • 15. Séminaire SAMOS 4 février 2005 Exemple : phonèmes • Méthodes comparées : – SIR régularisée + Noyau – SIR projetée + Noyau – SIR pseudo-inverse + Noyau – Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995) – NPCD – PCA Voir : Ferraty, Vieu (2003) • Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.
  • 16. Séminaire SAMOS 4 février 2005 11 % 10 % 9 % 8 % SIR2-N RPDA NPCD-PCASIR-Nr SIR-Np
  • 17. Séminaire SAMOS 4 février 2005 Projection sur les deux premiers vecteurs propres SIR régularisée Projection sur les deux premiers vecteurs propres SIR projetée
  • 18. Séminaire SAMOS 4 février 2005 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 Espace EDR pour SIR régularisée Espace EDR pour SIR projetée
  • 19. Séminaire SAMOS 4 février 2005 RESEAUX DE NEURONESRESEAUX DE NEURONES FONCTIONNELSFONCTIONNELS ObjectifsObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnelsSVM fonctionnels
  • 20. Séminaire SAMOS 4 février 2005 Principe de FIR-NN X Y = f (<X,a1>,…,<X,aq>,ε) FIR {<X,âj >}j=1…q Perceptron multi-couches Y Estimation de f (Projection des données sur une estimation de l’espace EDR)
  • 21. Séminaire SAMOS 4 février 2005 Consistance Sous les hypothèses du théorème précédent et d’un certain nombre d’hypothèses techniques, les poids permettant d’obtenir l’erreur empirique minimum convergent en probabilité vers les poids théoriques lorsque le nombre d’observations tend vers +∞.
  • 22. Séminaire SAMOS 4 février 2005 Exemple : Tecator data • Méthodes comparées : – SIR régularisée + NN – SIR pseudo-inverse + NN – ACP + NN – NNf (par projection sur Spline) – SIR + Linéaire • Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.
  • 23. Séminaire SAMOS 4 février 2005 ACP-NN NNf SIR-NNr SIR-NNn SIR-l
  • 24. Séminaire SAMOS 4 février 2005 SVM FONCTIONNELSSVM FONCTIONNELS ObjectifsObjectifsObjectifs Trouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnels SVM fonctionnelsSVM fonctionnels
  • 25. Séminaire SAMOS 4 février 2005 Principe SVM Φ (non linéaire) x1,…, xN ∈ H Espace image (grande dimension) z1,…,zN
  • 26. Séminaire SAMOS 4 février 2005 Formulation mathématique • On cherche à minimiser ½ ||w||² sous la contrainte yi (<zi , w> + b) ≥ 1, ∀i = 1,…,N • Ceci se met sous la forme duale : maximiser αi – αi αj yiyj <zi , zj> sous la contrainte αi ≥ 0, ∀i = 1,…,N • zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de Moore-Aronszajn) ∑= N i 1 ∑= N i 1
  • 27. Séminaire SAMOS 4 février 2005 Solution • La classification se fait selon l’hyperplan d’équation sign(<z,w*>+b), où w* = αi * yi zi et où seuls un « petit » nombre de αi * sont non nuls : ils déterminent les vecteurs supports. Espace image zi,…,zN Vecteurs supports (participent à la construction de la frontière de décision) ∑= N i 1
  • 28. Séminaire SAMOS 4 février 2005 Problèmes spécifiques du cas fonctionnel • Dans un espace de dimension infinie, il y a toujours une séparation linéaire • Mais, même dans ce cadre, on peut rencontrer les problèmes habituels dûs à la grande dimension ou de connaissance incomplète des données (discrétisation) • L’utilisation de noyaux fonctionnels peut apporter un plus (utilisation de la nature spécifique des données)
  • 29. Séminaire SAMOS 4 février 2005 FIR + SVM pour classification X ∈H FIR <X,â1>,…, <X,âq> Y = f (<X,a1>,…,<X,aq>,ε) Φ(non linéaire) Noyau classique Espace image Z Estimation de f
  • 30. Séminaire SAMOS 4 février 2005 Exemple sur données simulées : waveform 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 1 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 10 Classe 2 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 3 uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t) •h1(t) = max(6-|t-11|,0) •h2(t) = h1(t-4) •h3(t) = h1(t+4)
  • 31. Séminaire SAMOS 4 février 2005 Méthodologie • Méthodes comparées : – SIR + SVM RBF – SVM RBF sur la discrétisation – Ridge PDA – SIR + Noyau • Protocole expérimental : Sur 10 échantillons aléatoires, on détermine les paramètres optimaux par validation croisée puis on évalue l’erreur commise sur un échantillon indépendant (apprentissage : 3 × 100, validation : 500, test : 500).
  • 32. Séminaire SAMOS 4 février 2005 Résultats 12,3712,4710,1711,73 Moyenne (app) 1212,612,2010,20 Minimum (test) 2,012,053,042,25 Ecart type (test) 14,1615,6215,4613,70 Moyenne (test) SIR + NoyR-PDASVMSIR + SVM
  • 33. Séminaire SAMOS 4 février 2005 Conclusion et perspectives • FIR permet une approche semi-paramétrique pour l’implémentation de données fonctionnelles dans réseaux neuronaux et SVM • Implémentation facile et bon comportement expérimental • Perspectives : – SVM fonctionnels pour régression ; – Autres approches fonctionnelles pour SVM ; – Consistance de méthodes pour SVM fonctionnels…
  • 34. Séminaire SAMOS 4 février 2005 Bibliographie (1) • Leurgans, Moyeed and Silverman (1993) Canonical Correlation Analysis when the Data are Curves, J. R. Statist. Soc. B, 55, 3, 725-740. • Rossi and Conan-Guez (2004) Functional multi-Layer perceptron: a non-linear tool for functional data analysis, Neural Networks, à paraître. • Bosq (1991) Modelization, non-parametric estimation and prediction for continuous time processes, In Roussas, G., editor, Nonparametric Functional Estimation and Related Topics, NATO, ASI Series, 509-529.
  • 35. Séminaire SAMOS 4 février 2005 Bibliographie (2) • Cardot, Ferraty and Sarda (1999) Functional Linear Model, Statistics and Probability Letters, 45, 1, 11-22. • Thodberg (1996) A Review of Bayesian Neural Networks with an Application to Near Infrared Spectroscopy, IEEE Transactions on Neural Networks, 7, 1, 56-72. • Biau, Bunea and Wegkamp (2004) Functional classification in Hilbert Spaces, soumis. (www.math.univ-montp2.fr/~biau/publications.html) • Ferré and Villa (2005) Multi-Layer Neural Network with functional inputs: an inverse regression approach, soumis.
  • 36. Séminaire SAMOS 4 février 2005 Bibliographie (3) • Hastie, Buja and Tibshirani (1995) Penalized discriminant analysis, Ann. Statist., 23, 1, 73-102. • Ferraty and Vieu (2003) Curves discrimination: a nonparametric functional approach, Computational Statistics and Data Analysis, 44, 161-173.
  • 37. Séminaire SAMOS 4 février 2005 Merci de votre attentionMerci de votre attention
  • 38. Séminaire SAMOS 4 février 2005 Annexe 1 : Opérateurs hilbertiens • Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u> (théorème de Riesz) • Opérateur de variance de X : ΓX = E(X ⊗ X) avec X ⊗ X : u → <X,u> X (opérateur continu de H où l’ensemble des opérateurs continus de H est un espace de Hilbert) • Estimateur de l’opérateur de variance : ΓX N = Xn ⊗ Xn∑= N n N 1 1