SlideShare una empresa de Scribd logo
1 de 66
Descargar para leer sin conexión
Discrimination et régression pour des
dérivées : un résultat de consistance pour
des données fonctionnelles discrétisées
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Séminaire de Statistique, Laboratoire Jean Kuntzmann
Grenoble, 29 mars 2010
1 / 25
Nathalie Villa-Vialaneix
Présentation générale
1 Introduction et motivations
2 Un résultat général de consistance
3 Exemples
2 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
3 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
3 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n
i=1
de n réalisations i.i.d. de (X, Y).
3 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n
i=1
de n réalisations i.i.d. de (X, Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:
Discrimination : limn→+∞ P (φn(X) Y) = L∗
où
L∗
= infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes.
3 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n
i=1
de n réalisations i.i.d. de (X, Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:
Discrimination : limn→+∞ P (φn(X) Y) = L∗
où
L∗
= infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes.
Régression : limn→+∞ E [φn(X) − Y]2
= L∗
où
L∗
= infφ:X→R E [φ(X) − Y]2
sera aussi appelée erreur de Bayes.
3 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Un exemple
Prédire le taux de mitadinage dans le blé dur à partir de
spectres infra-rouges (NIR).
4 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Utiliser les dérivées
De manière pratique, X(m) est souvent plus pertinent que X pour
faire de la prédiction.
5 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Utiliser les dérivées
De manière pratique, X(m) est souvent plus pertinent que X pour
faire de la prédiction.
Mais X → X(m) entraîne une perte d’information et
inf
φ:DmX→{−1,1}
P φ(X(m)
) Y ≥ inf
φ:X→{−1,1}
P (φ(X) Y) = L∗
et
inf
φ:DmX→R
E φ(X(m)
) − Y
2
≥ inf
φ:X→R
P [φ(X) − Y]2
= L∗
.
5 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une discrétisation de celle-ci : Xτd
i
= (Xi(t))t∈τd
where
τd = {tτd
1
, . . . , tτd
|τd |
}.
6 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une discrétisation de celle-ci : Xτd
i
= (Xi(t))t∈τd
where
τd = {tτd
1
, . . . , tτd
|τd |
}.
6 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une discrétisation de celle-ci : Xτd
i
= (Xi(t))t∈τd
where
τd = {tτd
1
, . . . , tτd
|τd |
}.
Ainsi, X
(m)
i
est estimée à partir de Xτd
i
et, si on note X
(m)
τd
l’estimation, celle-ci induit aussi une perte d’information:
inf
φ:DmX→{−1,1}
P φ(X
(m)
τd
) Y ≥ inf
φ:DmX→{−1,1}
P φ(X(m)
) Y ≥ L∗
et
inf
φ:DmX→R
E φ(X
(m)
τd
) − Y
2
≥ inf
φ:DmX→R
E φ(X(m)
) − Y
2
≥ L∗
.
6 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
construite à partir de X
(m)
τd
telle que le risque de φn,τd
atteigne
asymptotiquement le risque optimal (de Bayes) L∗:
lim
|τd |→+∞
lim
n→+∞
P φn,τd
(X
(m)
τd
) Y = L∗
ou
lim
|τd |→+∞
lim
n→+∞
E φn,τd
(X
(m)
τd
) − Y
2
= L∗
7 / 25
Nathalie Villa-Vialaneix
Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
construite à partir de X
(m)
τd
telle que le risque de φn,τd
atteigne
asymptotiquement le risque optimal (de Bayes) L∗:
lim
|τd |→+∞
lim
n→+∞
P φn,τd
(X
(m)
τd
) Y = L∗
ou
lim
|τd |→+∞
lim
n→+∞
E φn,τd
(X
(m)
τd
) − Y
2
= L∗
Idée principale : Utiliser une estimation pertinente de X(m) à
partir de Xτd (par des splines de lissage) et combiner la
consistance des splines avec la consistance d’une méthode de
discrimination ou de régression pour des données dans R|τd |.
7 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm
= h ∈ L2
[0,1]|∀ j = 1, . . . , m, Dj
h existe au sens faible et Dm
h ∈ L2
8 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm
= h ∈ L2
[0,1]|∀ j = 1, . . . , m, Dj
h existe au sens faible et Dm
h ∈ L2
muni du produit scalaire
u, v Hm = Dm
u, Dm
v L2 +
m
j=1
Bj
uBj
v
où B sont m conditions aux bornes telles que KerB ∩ Pm−1
= {0}.
8 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm
= h ∈ L2
[0,1]|∀ j = 1, . . . , m, Dj
h existe au sens faible et Dm
h ∈ L2
muni du produit scalaire
u, v Hm = Dm
u, Dm
v L2 +
m
j=1
Bj
uBj
v
où B sont m conditions aux bornes telles que KerB ∩ Pm−1
= {0}.
(Hm
, ., . Hm ) est un RKHS : il existe k0 : Pm−1
× Pm−1
→ R and
k1 : KerB × KerB → R tels que
∀ u ∈ Pm−1
, t ∈ [0, 1], u, k0(t, .) Hm = u(t)
et
∀ u ∈ KerB, t ∈ [0, 1], u, k1(t, .) Hm = u(t)
8 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τd| ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
Bj
sont linéairement indépendants de h → h(t) pour tout t ∈ τd
9 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τd| ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
Bj
sont linéairement indépendants de h → h(t) pour tout t ∈ τd
[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd
∈ Hm
tq
ˆxλ,τd
= arg min
h∈Hm
1
|τd|
|τd |
l=1
(h(tl) − xτd
)2
+ λ
[0,1]
(h(m)
(t))2
dt.
et ˆxλ,τd
= Sλ,τd
xτd où Sλ,τd
: R|τd | → Hm
est de plein rang.
9 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τd| ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
Bj
sont linéairement indépendants de h → h(t) pour tout t ∈ τd
[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd
∈ Hm
tq
ˆxλ,τd
= arg min
h∈Hm
1
|τd|
|τd |
l=1
(h(tl) − xτd
)2
+ λ
[0,1]
(h(m)
(t))2
dt.
et ˆxλ,τd
= Sλ,τd
xτd où Sλ,τd
: R|τd | → Hm
est de plein rang.
Ces hypothèses sont réalisées pour les conditions aux bornes
Dj
u(0) = 0, ∀ j = 0, . . . , m − 1 et 0 τd.
9 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage II
Sλ,τd
est :
Sλ,τd
= ωT
(U(K1 + λI|τd |)UT
)−1
U(K1 + λI|τd |)−1
+ηT
(K1 + λI|τd |)−1
(I|τd | − UT
(U(K1 + λI|τd |)−1
U(K1 + λI|τd |)−1
)
= ωT
M0 + ηT
M1
où
{ω1, . . . , ωm} est une base Pm−1
, ω = (ω1, . . . , ωm)T
et
U = (ωi(t))i=1,...,m t∈τd
;
η = (k1(t, .))T
t∈τd
and K1 = (k1(t, t ))t,t ∈τd
.
10 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage II
Sλ,τd
est :
Sλ,τd
= ωT
(U(K1 + λI|τd |)UT
)−1
U(K1 + λI|τd |)−1
+ηT
(K1 + λI|τd |)−1
(I|τd | − UT
(U(K1 + λI|τd |)−1
U(K1 + λI|τd |)−1
)
= ωT
M0 + ηT
M1
où
{ω1, . . . , ωm} est une base Pm−1
, ω = (ω1, . . . , ωm)T
et
U = (ωi(t))i=1,...,m t∈τd
;
η = (k1(t, .))T
t∈τd
and K1 = (k1(t, t ))t,t ∈τd
.
Les observations de la variable fonctionnelle X sont estimées à
partir de leurs discrétisations Xτd par Xλ,τd
.
10 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
11 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
Sλ,τd
uτd
, Sλ,τd
vτd
Hm = uλ,τd
, vλ,τd Hm
11 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(uτd
)T
MT
0 WM0vτd
+ (uτd
)T
MT
1 K1M1vτd
= uλ,τd
, vλ,τd Hm
où W = ( ωi, ωj Hm )i,j=1,...,m.
11 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(uτd
)T
Mλ,τd
vτd
= uλ,τd
, vλ,τd Hm
où Mλ,τd
est symétrique et définie positive.
11 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(Qλ,τd
uτd
)T
(Qλ,τd
vτd
) = uλ,τd
, vλ,τd Hm
où Qλ,τd
est la décomposition de Choleski de Mλ,τd
:
QT
λ,τd
Qλ,τd
= Mλ,τd
.
Remarque : Qλ,τd
est calculée seulement à partir du RKHS, de λ et
de τd : ne dépend des données.
11 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(Qλ,τd
uτd
)T
(Qλ,τd
vτd
) = uλ,τd
, vλ,τd Hm
u
(m)
λ,τd
, v
(m)
λ,τd
L2
où Qλ,τd
est la décomposition de Choleski de Mλ,τd
:
QT
λ,τd
Qλ,τd
= Mλ,τd
.
Remarque : Qλ,τd
est calculée seulement à partir du RKHS, de λ et
de τd : ne dépend des données.
11 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
Exemple : Régression à noyau
Ψ : u ∈ R|τd |
→
n
i=1 TiK
u−Ui R|τd |
hn
n
i=1 K
u−Ui R|τd |
hn
où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans
R|τd | × R.
12 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
La méthode de discrimination ou de régression basée sur les
dérivées correspondante est obtenue par composition des
données fonctionnelles discrétisées avec Qλ,τd
:
Exemple : Régression à noyau
Ψ : u ∈ R|τd |
→
n
i=1 TiK
u−Ui R|τd |
hn
n
i=1 K
u−Ui R|τd |
hn
où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans
R|τd | × R.
12 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
La méthode de discrimination ou de régression basée sur les
dérivées correspondante est obtenue par composition des
données fonctionnelles discrétisées avec Qλ,τd
:
Exemple : Régression à noyau
φn,d = Ψ ◦ Qλ,τd
: x ∈ Hm
→
n
i=1 YiK
Qλ,τd
xτd −Qλ,τd
X
τd
i R|τd |
hn
n
i=1 K
Qλ,τd
xτd −Qλ,τd
X
τd
i R|τd |
hn
12 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
La méthode de discrimination ou de régression basée sur les
dérivées correspondante est obtenue par composition des
données fonctionnelles discrétisées avec Qλ,τd
:
Exemple : Régression à noyau
φn,d = Ψ ◦ Qλ,τd
: x ∈ Hm
−→
n
i=1 YiK
x(m)−X
(m)
i L2
hn
n
i=1 K
x(m)−X
(m)
i L2
hn
12 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmes
dans le cas de la régression):
P φn,τd
(Xλ,τd
) Y − L∗
= P φn,τd
(Xλ,τd
) Y − L∗
d + L∗
d − L∗
où L∗
d
= infφ:R|τd |→{−1,1} P (φ(Xτd ) Y).
13 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmes
dans le cas de la régression):
P φn,τd
(Xλ,τd
) Y − L∗
= P φn,τd
(Xλ,τd
) Y − L∗
d + L∗
d − L∗
où L∗
d
= infφ:R|τd |→{−1,1} P (φ(Xτd ) Y).
1 Pour tout d,
lim
n→+∞
P φn,τd
(Xλ,τd
) Y = L∗
d
grâce à la consistance dans R|τd |
car il existe une application
bijective entre Xτd
et Xλ,τd
.
13 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmes
dans le cas de la régression):
P φn,τd
(Xλ,τd
) Y − L∗
= P φn,τd
(Xλ,τd
) Y − L∗
d + L∗
d − L∗
où L∗
d
= infφ:R|τd |→{−1,1} P (φ(Xτd ) Y).
1 Pour tout d,
lim
n→+∞
P φn,τd
(Xλ,τd
) Y = L∗
d
grâce à la consistance dans R|τd |
car il existe une application
bijective entre Xτd
et Xλ,τd
.
2
L∗
d − L∗
≤ E E(Y|Xλ,τd
) − E(Y|X)
La convergence en norme 1 de E(Y|Xλ,τd
) vers E(Y|X) suffit donc à
montrer la consistance globale de la méthode.
13 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de
régularisation des splines de lissage. Notons aussi
∆τd
:= max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd
:= min
1≤i<|τd |
{ti+1 − ti}
Hypothèse (A2)
Il existe R tel que ∆τd
/∆τd
≤ R pour tout d;
limd→+∞ |τd| = +∞;
limd→+∞ λd = 0.
14 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de
régularisation des splines de lissage. Notons aussi
∆τd
:= max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd
:= min
1≤i<|τd |
{ti+1 − ti}
Hypothèse (A2)
Il existe R tel que ∆τd
/∆τd
≤ R pour tout d;
limd→+∞ |τd| = +∞;
limd→+∞ λd = 0.
[Ragozin, 1983]: Sous (A1) et (A2), ∃AR,m and BR,m tel que pour
tout x ∈ Hm
et tout λd > 0,
ˆxλd ,τd
− x
2
L2 ≤ AR,mλd + BR,m
1
|τd|2m
Dm
x 2
L2
d→+∞
−−−−−−→ 0
14 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
15 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
ou
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
15 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
ou
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
Sous (A1)-(A3), limd→+∞ L∗
d
= L∗.
15 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
16 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :
Pour un couple de variables aléatoires (X, Y) à valeurs dans
X × {−1, 1} où X est un espace métrique quelconque et pour
une suite de fonctions Td : X → X telles que
E(δ(Td(X), X))
d→+∞
−−−−−−→ 0
alors limd→+∞ infφ:X→{−1,1} P(φ(Td(X)) Y) = L∗.
16 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :
En remplaçant Td par l’estimation splines, la précédente inégalité
et le résultat de [Ragozin, 1983], on obtient la convergence de
E(Y|Xλ,τd
) vers E(Y|X).
16 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
17 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
Sous (A3b), (E(Y|Xλd ,τd
))d est une martingale uniformément
bornée et converge donc en norme L1
. En utilisant la consistance
de (Xλd ,τd
)d vers X, on obtient la conclusion.
17 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Résulat final
Théorème
Sous les hypothèses (A1)-(A3),
lim
d→+∞
lim
n→+∞
P φn,τd
(Xλd ,τd
) Y = L∗
et
lim
|τd |→+∞
lim
n→+∞
E φn,τd
(Xλd ,τd
) − Y
2
= L∗
Preuve : Soit > 0 et fixons d0 tel que, pour tout d ≥ d0,
L∗
d
− L∗ ≤ /2.
Alors, par la convergence de la méthode de classification ou de
régression choisie dans R|τd |, on peut conclure.
18 / 25
Nathalie Villa-Vialaneix
Un résultat général de consistance
Remarque sur le lien entre n et |τd|
Sous des hypothèses de régularité sur E(Y|X = .) et une relation
de la forme n ∼ |τd| log |τd|, on peut obtenir une vitesse de
convergence de l’ordre de d− 2m
2m+1 .
19 / 25
Nathalie Villa-Vialaneix
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
20 / 25
Nathalie Villa-Vialaneix
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
20 / 25
Nathalie Villa-Vialaneix
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
Question : Comment prédire les valeurs de qualité correspondant
au mitadinage à partir de la collecte des spectres infra-rouge ?
20 / 25
Nathalie Villa-Vialaneix
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
Question : Comment prédire les valeurs de qualité correspondant
au mitadinage à partir de la collecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnent
ici des résultats décevants.
20 / 25
Nathalie Villa-Vialaneix
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
Question : Comment prédire les valeurs de qualité correspondant
au mitadinage à partir de la collecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnent
ici des résultats décevants. ⇒ Présentation des résultats de la
mise en œuvre de la méthode sur le mitadinage.
20 / 25
Nathalie Villa-Vialaneix
Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :
cette séparation est répétée 50 fois ;
21 / 25
Nathalie Villa-Vialaneix
Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :
cette séparation est répétée 50 fois ;
Sur les 50 ensembles d’apprentissage, les fonctions de régression
sont estimées avec évaluation des divers paramètres du modèle par
validation croisée ;
21 / 25
Nathalie Villa-Vialaneix
Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :
cette séparation est répétée 50 fois ;
Sur les 50 ensembles d’apprentissage, les fonctions de régression
sont estimées avec évaluation des divers paramètres du modèle par
validation croisée ;
Sur les 50 ensembles de test correspondants, l’erreur quadratique
moyenne est calculée.
21 / 25
Nathalie Villa-Vialaneix
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées d’ordre 1 à 2 déterminées
par splines.
22 / 25
Nathalie Villa-Vialaneix
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées d’ordre 1 à 2 déterminées
par splines.
Noyau (SVM) EQM pour test (et sd)
Linéaire (L) 0.122 % (8.77)
Linéaire sur dérivées (L(1)) 0.138 % (9.53)
Linéaire sur dérivées secondes (L(2)) 0.122 % (1.71)
Gaussien (G) 0.110 % (20.2)
Gaussien sur dérivées (G(1)) 0.098 % (7.92)
Gaussien sur dérivées secondes (G(2)) 0.094 % (8.35)
où les différences sont significatives (Test de Wilcoxon apparié au
niveau 1%) entre G(2) et G(1) et entre G(1) et G.
22 / 25
Nathalie Villa-Vialaneix
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées d’ordre 1 à 2 déterminées
par splines.
22 / 25
Nathalie Villa-Vialaneix
Exemples
Pour comparaison avec PLS...
MSE moyenne (test) Écart type MSE
PLS sur données initiales 0.154 0.012
Kernel PLS 0.154 0.013
SVM splines (reg. D2
) 0.094 0.008
Gain de près de 40 % sur la prédiction moyenne.
SVM−D2 KPLS PLS
0.080.100.120.140.160.18
23 / 25
Nathalie Villa-Vialaneix
Exemples
Bruit simulé sur des spectres NIR
Données initiales :
850 900 950 1000 1050
2.53.03.54.04.5
wavelength
absorbance
Variable à prédire : Taux de graisse (benchmark célèbre)
24 / 25
Nathalie Villa-Vialaneix
Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xb
i
(t) = Xi(t) + it , sd( it ) = 0,01
850 900 950 1000 1050
2.53.03.54.04.5
wavelength
absorbance
24 / 25
Nathalie Villa-Vialaneix
Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xb
i
(t) = Xi(t) + it , sd( it ) = 0,2
850 900 950 1000 1050
2.02.53.03.54.04.5
wavelength
absorbance
24 / 25
Nathalie Villa-Vialaneix
Exemples
Résultats
q
qqq
q
q
q
q
q
q
q
q
qqq
qq
qq
q
q
q
q
qqq
q
qqq
q
O S1 DF1 IS1 S2 FD2
0.000.100.200.30
Noise with sd = 0.01
Meansquarederror
25 / 25
Nathalie Villa-Vialaneix
Exemples
Résultats
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
O S1 FD1 S2
0.20.40.60.81.01.2
Noise with sd = 0.2
Meansquarederror
25 / 25
Nathalie Villa-Vialaneix
Quelques références
Berlinet, A. and Thomas-Agnan, C. (2004).
Reproducing Kernel Hilbert Spaces in Probability and Statistics.
Kluwer Academic Publisher.
Faragó, T. and Györfi, L. (1975).
On the continuity of the error distortion function for multiple-hypothesis decisions.
IEEE Transactions on Information Theory, 21(4):458–460.
Kimeldorf, G. and Wahba, G. (1971).
Some results on Tchebycheffian spline functions.
Journal of Mathematical Analysis and Applications, 33(1):82–95.
Ragozin, D. (1983).
Error bounds for derivative estimation based on spline smoothing of exact or noisy data.
Journal of Approximation Theory, 37:335–355.
Merci pour votre attention.
25 / 25
Nathalie Villa-Vialaneix

Más contenido relacionado

La actualidad más candente (20)

Slides 2040-6
Slides 2040-6Slides 2040-6
Slides 2040-6
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Maths Annexes
Maths AnnexesMaths Annexes
Maths Annexes
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Test d'évaluation math/physique
Test d'évaluation math/physiqueTest d'évaluation math/physique
Test d'évaluation math/physique
 
B slides 11
B slides 11B slides 11
B slides 11
 
S2- Math
S2- Math S2- Math
S2- Math
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Fourier
FourierFourier
Fourier
 
Algebre 1 (annales)
Algebre 1 (annales)Algebre 1 (annales)
Algebre 1 (annales)
 
165380609 livre-professeur-maths-1ere-s
165380609 livre-professeur-maths-1ere-s165380609 livre-professeur-maths-1ere-s
165380609 livre-professeur-maths-1ere-s
 
Exercices act2121-session8
Exercices act2121-session8Exercices act2121-session8
Exercices act2121-session8
 
Slide 2040-1
Slide 2040-1Slide 2040-1
Slide 2040-1
 
GEII - Ma3 - Suites et séries
GEII - Ma3 - Suites et sériesGEII - Ma3 - Suites et séries
GEII - Ma3 - Suites et séries
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Chap 1 espace vectoriel
Chap 1 espace vectorielChap 1 espace vectoriel
Chap 1 espace vectoriel
 
GEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolutionGEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolution
 
GEII - OL3 : Signaux et systèmes numériques
GEII - OL3 : Signaux et systèmes numériquesGEII - OL3 : Signaux et systèmes numériques
GEII - OL3 : Signaux et systèmes numériques
 
Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)
 

Destacado

Défenseur des droits - Candidat à l'emploi : faites respecter vos droits
Défenseur des droits - Candidat à l'emploi : faites respecter vos droitsDéfenseur des droits - Candidat à l'emploi : faites respecter vos droits
Défenseur des droits - Candidat à l'emploi : faites respecter vos droitsLe Mouvement Associatif Occitanie
 
Discrimination des-sons
Discrimination des-sonsDiscrimination des-sons
Discrimination des-sonstannohra
 
LA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRE
LA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRELA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRE
LA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRELe Mouvement Associatif Occitanie
 
La Discrimination Des Femmes En France
La Discrimination Des Femmes En FranceLa Discrimination Des Femmes En France
La Discrimination Des Femmes En FranceGéraldine Duboz
 
Egalité et discrimination
Egalité et discriminationEgalité et discrimination
Egalité et discriminationFanny Blet
 
Discrimination au travail
Discrimination au travailDiscrimination au travail
Discrimination au travailevy_vc
 
Stéréotypes, préjugés et discrimination
Stéréotypes, préjugés et discriminationStéréotypes, préjugés et discrimination
Stéréotypes, préjugés et discriminationCamila Daniel
 
Des affiches contre les discriminations
Des affiches contre les discriminationsDes affiches contre les discriminations
Des affiches contre les discriminationsChristine FIASSON
 
Les différents types de discrimination
Les différents types de discriminationLes différents types de discrimination
Les différents types de discrimination320320320
 
La bibliothèque, un espace de participation
La bibliothèque, un espace de participationLa bibliothèque, un espace de participation
La bibliothèque, un espace de participationDujol Lionel
 

Destacado (14)

Défenseur des droits - Candidat à l'emploi : faites respecter vos droits
Défenseur des droits - Candidat à l'emploi : faites respecter vos droitsDéfenseur des droits - Candidat à l'emploi : faites respecter vos droits
Défenseur des droits - Candidat à l'emploi : faites respecter vos droits
 
Discrimination des-sons
Discrimination des-sonsDiscrimination des-sons
Discrimination des-sons
 
LA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRE
LA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRELA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRE
LA DISCRIMINATION DANS EN FRANCE ER DANS L'UE - EUROBAROMETRE
 
La Discrimination Des Femmes En France
La Discrimination Des Femmes En FranceLa Discrimination Des Femmes En France
La Discrimination Des Femmes En France
 
Egalité et discrimination
Egalité et discriminationEgalité et discrimination
Egalité et discrimination
 
RapportComplet
RapportCompletRapportComplet
RapportComplet
 
« La discrimination à l’école, de quoi parle-t-on ? »
« La discrimination à l’école, de quoi parle-t-on ? »« La discrimination à l’école, de quoi parle-t-on ? »
« La discrimination à l’école, de quoi parle-t-on ? »
 
Discrimination au travail
Discrimination au travailDiscrimination au travail
Discrimination au travail
 
Stéréotypes, préjugés et discrimination
Stéréotypes, préjugés et discriminationStéréotypes, préjugés et discrimination
Stéréotypes, préjugés et discrimination
 
Des affiches contre les discriminations
Des affiches contre les discriminationsDes affiches contre les discriminations
Des affiches contre les discriminations
 
La Discrimination Raciale
La Discrimination RacialeLa Discrimination Raciale
La Discrimination Raciale
 
RapportComplet
RapportCompletRapportComplet
RapportComplet
 
Les différents types de discrimination
Les différents types de discriminationLes différents types de discrimination
Les différents types de discrimination
 
La bibliothèque, un espace de participation
La bibliothèque, un espace de participationLa bibliothèque, un espace de participation
La bibliothèque, un espace de participation
 

Similar a Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées

Ts exam-h2014-correction
Ts exam-h2014-correctionTs exam-h2014-correction
Ts exam-h2014-correctionDaha Ahmed
 
Mathématiques Générales.pdf
Mathématiques Générales.pdfMathématiques Générales.pdf
Mathématiques Générales.pdfKarimBara2
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 
CAPES maths 2019 composition 2
CAPES maths 2019 composition 2CAPES maths 2019 composition 2
CAPES maths 2019 composition 2Dany-Jack Mercier
 
traitement de signal cours
traitement de signal cours traitement de signal cours
traitement de signal cours sarah Benmerzouk
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.cometude cours
 
L'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesL'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesCharvetXavier
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearChristian Robert
 
Rappels math - www.coursdefsjes.com
Rappels math - www.coursdefsjes.comRappels math - www.coursdefsjes.com
Rappels math - www.coursdefsjes.comcours fsjes
 
Cours fourier
Cours fourier Cours fourier
Cours fourier Raed Ammar
 
Omp math nombres-complexes
Omp math nombres-complexesOmp math nombres-complexes
Omp math nombres-complexesAhmed Ali
 
la logique floue et sa contribution dans un probleme de decision.pptx
la logique floue et sa contribution dans un probleme de decision.pptxla logique floue et sa contribution dans un probleme de decision.pptx
la logique floue et sa contribution dans un probleme de decision.pptxBenkanounYazid
 

Similar a Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées (20)

1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
Ts exam-h2014-correction
Ts exam-h2014-correctionTs exam-h2014-correction
Ts exam-h2014-correction
 
01 lois-à-densité
01 lois-à-densité01 lois-à-densité
01 lois-à-densité
 
Mathématiques Générales.pdf
Mathématiques Générales.pdfMathématiques Générales.pdf
Mathématiques Générales.pdf
 
cours2.pdf
cours2.pdfcours2.pdf
cours2.pdf
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
CAPES maths 2019 composition 2
CAPES maths 2019 composition 2CAPES maths 2019 composition 2
CAPES maths 2019 composition 2
 
traitement de signal cours
traitement de signal cours traitement de signal cours
traitement de signal cours
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.com
 
Series temporelles
Series temporellesSeries temporelles
Series temporelles
 
Slides cirm-copulasv3
Slides cirm-copulasv3Slides cirm-copulasv3
Slides cirm-copulasv3
 
L'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesL'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiques
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
 
Rappels math - www.coursdefsjes.com
Rappels math - www.coursdefsjes.comRappels math - www.coursdefsjes.com
Rappels math - www.coursdefsjes.com
 
Cours fourier
Cours fourier Cours fourier
Cours fourier
 
Lmfi1
Lmfi1Lmfi1
Lmfi1
 
Omp math nombres-complexes
Omp math nombres-complexesOmp math nombres-complexes
Omp math nombres-complexes
 
Td 1 edo
Td 1 edoTd 1 edo
Td 1 edo
 
la logique floue et sa contribution dans un probleme de decision.pptx
la logique floue et sa contribution dans un probleme de decision.pptxla logique floue et sa contribution dans un probleme de decision.pptx
la logique floue et sa contribution dans un probleme de decision.pptx
 

Más de tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Más de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées

  • 1. Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées Nathalie Villa-Vialaneix http://www.nathalievilla.org IUT de Carcassonne (UPVD) & Institut de Mathématiques de Toulouse Séminaire de Statistique, Laboratoire Jean Kuntzmann Grenoble, 29 mars 2010 1 / 25 Nathalie Villa-Vialaneix
  • 2. Présentation générale 1 Introduction et motivations 2 Un résultat général de consistance 3 Exemples 2 / 25 Nathalie Villa-Vialaneix
  • 3. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) 3 / 25 Nathalie Villa-Vialaneix
  • 4. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie 3 / 25 Nathalie Villa-Vialaneix
  • 5. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n i=1 de n réalisations i.i.d. de (X, Y). 3 / 25 Nathalie Villa-Vialaneix
  • 6. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n i=1 de n réalisations i.i.d. de (X, Y). But : Trouver φn : X → {−1, 1} ou R, universellement consistant: Discrimination : limn→+∞ P (φn(X) Y) = L∗ où L∗ = infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes. 3 / 25 Nathalie Villa-Vialaneix
  • 7. Introduction et motivations Un problème de discrimination ou de ré- gression fonctionnelles Contexte (X, Y) est un couple de variables aléatoires telles que Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression) X ∈ (X, ., . X), espace de Hilbert de dimension infinie On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n i=1 de n réalisations i.i.d. de (X, Y). But : Trouver φn : X → {−1, 1} ou R, universellement consistant: Discrimination : limn→+∞ P (φn(X) Y) = L∗ où L∗ = infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes. Régression : limn→+∞ E [φn(X) − Y]2 = L∗ où L∗ = infφ:X→R E [φ(X) − Y]2 sera aussi appelée erreur de Bayes. 3 / 25 Nathalie Villa-Vialaneix
  • 8. Introduction et motivations Un exemple Prédire le taux de mitadinage dans le blé dur à partir de spectres infra-rouges (NIR). 4 / 25 Nathalie Villa-Vialaneix
  • 9. Introduction et motivations Utiliser les dérivées De manière pratique, X(m) est souvent plus pertinent que X pour faire de la prédiction. 5 / 25 Nathalie Villa-Vialaneix
  • 10. Introduction et motivations Utiliser les dérivées De manière pratique, X(m) est souvent plus pertinent que X pour faire de la prédiction. Mais X → X(m) entraîne une perte d’information et inf φ:DmX→{−1,1} P φ(X(m) ) Y ≥ inf φ:X→{−1,1} P (φ(X) Y) = L∗ et inf φ:DmX→R E φ(X(m) ) − Y 2 ≥ inf φ:X→R P [φ(X) − Y]2 = L∗ . 5 / 25 Nathalie Villa-Vialaneix
  • 11. Introduction et motivations Fonctions discrétisées En pratique, (Xi)i n’est pas parfaitement connue mais on connaît une discrétisation de celle-ci : Xτd i = (Xi(t))t∈τd where τd = {tτd 1 , . . . , tτd |τd | }. 6 / 25 Nathalie Villa-Vialaneix
  • 12. Introduction et motivations Fonctions discrétisées En pratique, (Xi)i n’est pas parfaitement connue mais on connaît une discrétisation de celle-ci : Xτd i = (Xi(t))t∈τd where τd = {tτd 1 , . . . , tτd |τd | }. 6 / 25 Nathalie Villa-Vialaneix
  • 13. Introduction et motivations Fonctions discrétisées En pratique, (Xi)i n’est pas parfaitement connue mais on connaît une discrétisation de celle-ci : Xτd i = (Xi(t))t∈τd where τd = {tτd 1 , . . . , tτd |τd | }. Ainsi, X (m) i est estimée à partir de Xτd i et, si on note X (m) τd l’estimation, celle-ci induit aussi une perte d’information: inf φ:DmX→{−1,1} P φ(X (m) τd ) Y ≥ inf φ:DmX→{−1,1} P φ(X(m) ) Y ≥ L∗ et inf φ:DmX→R E φ(X (m) τd ) − Y 2 ≥ inf φ:DmX→R E φ(X(m) ) − Y 2 ≥ L∗ . 6 / 25 Nathalie Villa-Vialaneix
  • 14. Introduction et motivations Dans cette présentation. . . Trouver une fonction de discrimination ou de régression φn,τd construite à partir de X (m) τd telle que le risque de φn,τd atteigne asymptotiquement le risque optimal (de Bayes) L∗: lim |τd |→+∞ lim n→+∞ P φn,τd (X (m) τd ) Y = L∗ ou lim |τd |→+∞ lim n→+∞ E φn,τd (X (m) τd ) − Y 2 = L∗ 7 / 25 Nathalie Villa-Vialaneix
  • 15. Introduction et motivations Dans cette présentation. . . Trouver une fonction de discrimination ou de régression φn,τd construite à partir de X (m) τd telle que le risque de φn,τd atteigne asymptotiquement le risque optimal (de Bayes) L∗: lim |τd |→+∞ lim n→+∞ P φn,τd (X (m) τd ) Y = L∗ ou lim |τd |→+∞ lim n→+∞ E φn,τd (X (m) τd ) − Y 2 = L∗ Idée principale : Utiliser une estimation pertinente de X(m) à partir de Xτd (par des splines de lissage) et combiner la consistance des splines avec la consistance d’une méthode de discrimination ou de régression pour des données dans R|τd |. 7 / 25 Nathalie Villa-Vialaneix
  • 16. Un résultat général de consistance Quelques rappels élémentaires sur les Splines [Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev Hm = h ∈ L2 [0,1]|∀ j = 1, . . . , m, Dj h existe au sens faible et Dm h ∈ L2 8 / 25 Nathalie Villa-Vialaneix
  • 17. Un résultat général de consistance Quelques rappels élémentaires sur les Splines [Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev Hm = h ∈ L2 [0,1]|∀ j = 1, . . . , m, Dj h existe au sens faible et Dm h ∈ L2 muni du produit scalaire u, v Hm = Dm u, Dm v L2 + m j=1 Bj uBj v où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}. 8 / 25 Nathalie Villa-Vialaneix
  • 18. Un résultat général de consistance Quelques rappels élémentaires sur les Splines [Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev Hm = h ∈ L2 [0,1]|∀ j = 1, . . . , m, Dj h existe au sens faible et Dm h ∈ L2 muni du produit scalaire u, v Hm = Dm u, Dm v L2 + m j=1 Bj uBj v où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}. (Hm , ., . Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R and k1 : KerB × KerB → R tels que ∀ u ∈ Pm−1 , t ∈ [0, 1], u, k0(t, .) Hm = u(t) et ∀ u ∈ KerB, t ∈ [0, 1], u, k1(t, .) Hm = u(t) 8 / 25 Nathalie Villa-Vialaneix
  • 19. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage I Hypothèse (A1) |τd| ≥ m − 1 les points de discrétisation sont distincts dans [0, 1] Bj sont linéairement indépendants de h → h(t) pour tout t ∈ τd 9 / 25 Nathalie Villa-Vialaneix
  • 20. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage I Hypothèse (A1) |τd| ≥ m − 1 les points de discrétisation sont distincts dans [0, 1] Bj sont linéairement indépendants de h → h(t) pour tout t ∈ τd [Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd ∈ Hm tq ˆxλ,τd = arg min h∈Hm 1 |τd| |τd | l=1 (h(tl) − xτd )2 + λ [0,1] (h(m) (t))2 dt. et ˆxλ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang. 9 / 25 Nathalie Villa-Vialaneix
  • 21. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage I Hypothèse (A1) |τd| ≥ m − 1 les points de discrétisation sont distincts dans [0, 1] Bj sont linéairement indépendants de h → h(t) pour tout t ∈ τd [Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd ∈ Hm tq ˆxλ,τd = arg min h∈Hm 1 |τd| |τd | l=1 (h(tl) − xτd )2 + λ [0,1] (h(m) (t))2 dt. et ˆxλ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang. Ces hypothèses sont réalisées pour les conditions aux bornes Dj u(0) = 0, ∀ j = 0, . . . , m − 1 et 0 τd. 9 / 25 Nathalie Villa-Vialaneix
  • 22. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage II Sλ,τd est : Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1 U(K1 + λI|τd |)−1 +ηT (K1 + λI|τd |)−1 (I|τd | − UT (U(K1 + λI|τd |)−1 U(K1 + λI|τd |)−1 ) = ωT M0 + ηT M1 où {ω1, . . . , ωm} est une base Pm−1 , ω = (ω1, . . . , ωm)T et U = (ωi(t))i=1,...,m t∈τd ; η = (k1(t, .))T t∈τd and K1 = (k1(t, t ))t,t ∈τd . 10 / 25 Nathalie Villa-Vialaneix
  • 23. Un résultat général de consistance Estimer les fonctions explicatives à par- tir de splines de lissage II Sλ,τd est : Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1 U(K1 + λI|τd |)−1 +ηT (K1 + λI|τd |)−1 (I|τd | − UT (U(K1 + λI|τd |)−1 U(K1 + λI|τd |)−1 ) = ωT M0 + ηT M1 où {ω1, . . . , ωm} est une base Pm−1 , ω = (ω1, . . . , ωm)T et U = (ωi(t))i=1,...,m t∈τd ; η = (k1(t, .))T t∈τd and K1 = (k1(t, t ))t,t ∈τd . Les observations de la variable fonctionnelle X sont estimées à partir de leurs discrétisations Xτd par Xλ,τd . 10 / 25 Nathalie Villa-Vialaneix
  • 24. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 11 / 25 Nathalie Villa-Vialaneix
  • 25. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: Sλ,τd uτd , Sλ,τd vτd Hm = uλ,τd , vλ,τd Hm 11 / 25 Nathalie Villa-Vialaneix
  • 26. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (uτd )T MT 0 WM0vτd + (uτd )T MT 1 K1M1vτd = uλ,τd , vλ,τd Hm où W = ( ωi, ωj Hm )i,j=1,...,m. 11 / 25 Nathalie Villa-Vialaneix
  • 27. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (uτd )T Mλ,τd vτd = uλ,τd , vλ,τd Hm où Mλ,τd est symétrique et définie positive. 11 / 25 Nathalie Villa-Vialaneix
  • 28. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (Qλ,τd uτd )T (Qλ,τd vτd ) = uλ,τd , vλ,τd Hm où Qλ,τd est la décomposition de Choleski de Mλ,τd : QT λ,τd Qλ,τd = Mλ,τd . Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ et de τd : ne dépend des données. 11 / 25 Nathalie Villa-Vialaneix
  • 29. Un résultat général de consistance Deux conséquences importantes 1 Pas de perte d’information inf φ:Hm→{−1,1} P φ(Xλ,τd ) Y = inf φ:R|τd |→{−1,1} P (φ(Xτd ) Y) et inf φ:Hm→{−1,1} E φ(Xλ,τd ) − Y 2 = inf φ:R|τd |→{−1,1} P [φ(Xτd ) − Y]2 2 Utiliser les dérivées de manière directe: (Qλ,τd uτd )T (Qλ,τd vτd ) = uλ,τd , vλ,τd Hm u (m) λ,τd , v (m) λ,τd L2 où Qλ,τd est la décomposition de Choleski de Mλ,τd : QT λ,τd Qλ,τd = Mλ,τd . Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ et de τd : ne dépend des données. 11 / 25 Nathalie Villa-Vialaneix
  • 30. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. Exemple : Régression à noyau Ψ : u ∈ R|τd | → n i=1 TiK u−Ui R|τd | hn n i=1 K u−Ui R|τd | hn où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans R|τd | × R. 12 / 25 Nathalie Villa-Vialaneix
  • 31. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. La méthode de discrimination ou de régression basée sur les dérivées correspondante est obtenue par composition des données fonctionnelles discrétisées avec Qλ,τd : Exemple : Régression à noyau Ψ : u ∈ R|τd | → n i=1 TiK u−Ui R|τd | hn n i=1 K u−Ui R|τd | hn où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans R|τd | × R. 12 / 25 Nathalie Villa-Vialaneix
  • 32. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. La méthode de discrimination ou de régression basée sur les dérivées correspondante est obtenue par composition des données fonctionnelles discrétisées avec Qλ,τd : Exemple : Régression à noyau φn,d = Ψ ◦ Qλ,τd : x ∈ Hm → n i=1 YiK Qλ,τd xτd −Qλ,τd X τd i R|τd | hn n i=1 K Qλ,τd xτd −Qλ,τd X τd i R|τd | hn 12 / 25 Nathalie Villa-Vialaneix
  • 33. Un résultat général de consistance Discrimination et régression basées sur des dérivées Supposons que l’on connaisse un une méthode de discrimination ou de régression consistante dans R|τd | basée uniquement sur la norme ou le produit scalaire de R|τd |. La méthode de discrimination ou de régression basée sur les dérivées correspondante est obtenue par composition des données fonctionnelles discrétisées avec Qλ,τd : Exemple : Régression à noyau φn,d = Ψ ◦ Qλ,τd : x ∈ Hm −→ n i=1 YiK x(m)−X (m) i L2 hn n i=1 K x(m)−X (m) i L2 hn 12 / 25 Nathalie Villa-Vialaneix
  • 34. Un résultat général de consistance Remarques sur la consistance Discrimination (les choses sont approximativement les mêmes dans le cas de la régression): P φn,τd (Xλ,τd ) Y − L∗ = P φn,τd (Xλ,τd ) Y − L∗ d + L∗ d − L∗ où L∗ d = infφ:R|τd |→{−1,1} P (φ(Xτd ) Y). 13 / 25 Nathalie Villa-Vialaneix
  • 35. Un résultat général de consistance Remarques sur la consistance Discrimination (les choses sont approximativement les mêmes dans le cas de la régression): P φn,τd (Xλ,τd ) Y − L∗ = P φn,τd (Xλ,τd ) Y − L∗ d + L∗ d − L∗ où L∗ d = infφ:R|τd |→{−1,1} P (φ(Xτd ) Y). 1 Pour tout d, lim n→+∞ P φn,τd (Xλ,τd ) Y = L∗ d grâce à la consistance dans R|τd | car il existe une application bijective entre Xτd et Xλ,τd . 13 / 25 Nathalie Villa-Vialaneix
  • 36. Un résultat général de consistance Remarques sur la consistance Discrimination (les choses sont approximativement les mêmes dans le cas de la régression): P φn,τd (Xλ,τd ) Y − L∗ = P φn,τd (Xλ,τd ) Y − L∗ d + L∗ d − L∗ où L∗ d = infφ:R|τd |→{−1,1} P (φ(Xτd ) Y). 1 Pour tout d, lim n→+∞ P φn,τd (Xλ,τd ) Y = L∗ d grâce à la consistance dans R|τd | car il existe une application bijective entre Xτd et Xλ,τd . 2 L∗ d − L∗ ≤ E E(Y|Xλ,τd ) − E(Y|X) La convergence en norme 1 de E(Y|Xλ,τd ) vers E(Y|X) suffit donc à montrer la consistance globale de la méthode. 13 / 25 Nathalie Villa-Vialaneix
  • 37. Un résultat général de consistance Consistance des splines Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de régularisation des splines de lissage. Notons aussi ∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd := min 1≤i<|τd | {ti+1 − ti} Hypothèse (A2) Il existe R tel que ∆τd /∆τd ≤ R pour tout d; limd→+∞ |τd| = +∞; limd→+∞ λd = 0. 14 / 25 Nathalie Villa-Vialaneix
  • 38. Un résultat général de consistance Consistance des splines Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de régularisation des splines de lissage. Notons aussi ∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd := min 1≤i<|τd | {ti+1 − ti} Hypothèse (A2) Il existe R tel que ∆τd /∆τd ≤ R pour tout d; limd→+∞ |τd| = +∞; limd→+∞ λd = 0. [Ragozin, 1983]: Sous (A1) et (A2), ∃AR,m and BR,m tel que pour tout x ∈ Hm et tout λd > 0, ˆxλd ,τd − x 2 L2 ≤ AR,mλd + BR,m 1 |τd|2m Dm x 2 L2 d→+∞ −−−−−−→ 0 14 / 25 Nathalie Villa-Vialaneix
  • 39. Un résultat général de consistance Consistance vers le risque optimal Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. 15 / 25 Nathalie Villa-Vialaneix
  • 40. Un résultat général de consistance Consistance vers le risque optimal Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. ou Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. 15 / 25 Nathalie Villa-Vialaneix
  • 41. Un résultat général de consistance Consistance vers le risque optimal Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. ou Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. Sous (A1)-(A3), limd→+∞ L∗ d = L∗. 15 / 25 Nathalie Villa-Vialaneix
  • 42. Un résultat général de consistance Preuve sous l’hypothèse (A3a) Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. 16 / 25 Nathalie Villa-Vialaneix
  • 43. Un résultat général de consistance Preuve sous l’hypothèse (A3a) Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. La preuve est basée sur le résultat de [Faragó and Györfi, 1975] : Pour un couple de variables aléatoires (X, Y) à valeurs dans X × {−1, 1} où X est un espace métrique quelconque et pour une suite de fonctions Td : X → X telles que E(δ(Td(X), X)) d→+∞ −−−−−−→ 0 alors limd→+∞ infφ:X→{−1,1} P(φ(Td(X)) Y) = L∗. 16 / 25 Nathalie Villa-Vialaneix
  • 44. Un résultat général de consistance Preuve sous l’hypothèse (A3a) Hypothèse (A3a) E Dm X 2 L2 est finie et Y ∈ {−1, 1}. La preuve est basée sur le résultat de [Faragó and Györfi, 1975] : En remplaçant Td par l’estimation splines, la précédente inégalité et le résultat de [Ragozin, 1983], on obtient la convergence de E(Y|Xλ,τd ) vers E(Y|X). 16 / 25 Nathalie Villa-Vialaneix
  • 45. Un résultat général de consistance Preuve sous l’hypothèse (A3b) Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. 17 / 25 Nathalie Villa-Vialaneix
  • 46. Un résultat général de consistance Preuve sous l’hypothèse (A3b) Hypothèse (A3b) τd ⊂ τd+1 pour tout d et E(Y2 ) est finie. Sous (A3b), (E(Y|Xλd ,τd ))d est une martingale uniformément bornée et converge donc en norme L1 . En utilisant la consistance de (Xλd ,τd )d vers X, on obtient la conclusion. 17 / 25 Nathalie Villa-Vialaneix
  • 47. Un résultat général de consistance Résulat final Théorème Sous les hypothèses (A1)-(A3), lim d→+∞ lim n→+∞ P φn,τd (Xλd ,τd ) Y = L∗ et lim |τd |→+∞ lim n→+∞ E φn,τd (Xλd ,τd ) − Y 2 = L∗ Preuve : Soit > 0 et fixons d0 tel que, pour tout d ≥ d0, L∗ d − L∗ ≤ /2. Alors, par la convergence de la méthode de classification ou de régression choisie dans R|τd |, on peut conclure. 18 / 25 Nathalie Villa-Vialaneix
  • 48. Un résultat général de consistance Remarque sur le lien entre n et |τd| Sous des hypothèses de régularité sur E(Y|X = .) et une relation de la forme n ∼ |τd| log |τd|, on peut obtenir une vitesse de convergence de l’ordre de d− 2m 2m+1 . 19 / 25 Nathalie Villa-Vialaneix
  • 49. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; 20 / 25 Nathalie Villa-Vialaneix
  • 50. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. 20 / 25 Nathalie Villa-Vialaneix
  • 51. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant au mitadinage à partir de la collecte des spectres infra-rouge ? 20 / 25 Nathalie Villa-Vialaneix
  • 52. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant au mitadinage à partir de la collecte des spectres infra-rouge ? Les méthodes habituelles (PLS, réseau de neurones ...) donnent ici des résultats décevants. 20 / 25 Nathalie Villa-Vialaneix
  • 53. Exemples Présentation des données 953 échantillons de blé dur ont été analysés : spectrométrie infra-rouge : 1049 longueurs d’onde uniformément réparties entre 400 et 2498 nm ; mitadinage : déterminé en % du nombre de grains affectés par comptage. Question : Comment prédire les valeurs de qualité correspondant au mitadinage à partir de la collecte des spectres infra-rouge ? Les méthodes habituelles (PLS, réseau de neurones ...) donnent ici des résultats décevants. ⇒ Présentation des résultats de la mise en œuvre de la méthode sur le mitadinage. 20 / 25 Nathalie Villa-Vialaneix
  • 54. Exemples Méthodologie pour évaluation de la va- lidité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage et test : cette séparation est répétée 50 fois ; 21 / 25 Nathalie Villa-Vialaneix
  • 55. Exemples Méthodologie pour évaluation de la va- lidité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage et test : cette séparation est répétée 50 fois ; Sur les 50 ensembles d’apprentissage, les fonctions de régression sont estimées avec évaluation des divers paramètres du modèle par validation croisée ; 21 / 25 Nathalie Villa-Vialaneix
  • 56. Exemples Méthodologie pour évaluation de la va- lidité de l’approche par splines Séparation aléatoire du jeu de données en apprentissage et test : cette séparation est répétée 50 fois ; Sur les 50 ensembles d’apprentissage, les fonctions de régression sont estimées avec évaluation des divers paramètres du modèle par validation croisée ; Sur les 50 ensembles de test correspondants, l’erreur quadratique moyenne est calculée. 21 / 25 Nathalie Villa-Vialaneix
  • 57. Exemples Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. 22 / 25 Nathalie Villa-Vialaneix
  • 58. Exemples Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. Noyau (SVM) EQM pour test (et sd) Linéaire (L) 0.122 % (8.77) Linéaire sur dérivées (L(1)) 0.138 % (9.53) Linéaire sur dérivées secondes (L(2)) 0.122 % (1.71) Gaussien (G) 0.110 % (20.2) Gaussien sur dérivées (G(1)) 0.098 % (7.92) Gaussien sur dérivées secondes (G(2)) 0.094 % (8.35) où les différences sont significatives (Test de Wilcoxon apparié au niveau 1%) entre G(2) et G(1) et entre G(1) et G. 22 / 25 Nathalie Villa-Vialaneix
  • 59. Exemples Résultats Méthodes comparées : SVM linéaire et non linéaire (Gaussien) sur les données initiales et les dérivées d’ordre 1 à 2 déterminées par splines. 22 / 25 Nathalie Villa-Vialaneix
  • 60. Exemples Pour comparaison avec PLS... MSE moyenne (test) Écart type MSE PLS sur données initiales 0.154 0.012 Kernel PLS 0.154 0.013 SVM splines (reg. D2 ) 0.094 0.008 Gain de près de 40 % sur la prédiction moyenne. SVM−D2 KPLS PLS 0.080.100.120.140.160.18 23 / 25 Nathalie Villa-Vialaneix
  • 61. Exemples Bruit simulé sur des spectres NIR Données initiales : 850 900 950 1000 1050 2.53.03.54.04.5 wavelength absorbance Variable à prédire : Taux de graisse (benchmark célèbre) 24 / 25 Nathalie Villa-Vialaneix
  • 62. Exemples Bruit simulé sur des spectres NIR Données bruitées : Xb i (t) = Xi(t) + it , sd( it ) = 0,01 850 900 950 1000 1050 2.53.03.54.04.5 wavelength absorbance 24 / 25 Nathalie Villa-Vialaneix
  • 63. Exemples Bruit simulé sur des spectres NIR Données bruitées : Xb i (t) = Xi(t) + it , sd( it ) = 0,2 850 900 950 1000 1050 2.02.53.03.54.04.5 wavelength absorbance 24 / 25 Nathalie Villa-Vialaneix
  • 64. Exemples Résultats q qqq q q q q q q q q qqq qq qq q q q q qqq q qqq q O S1 DF1 IS1 S2 FD2 0.000.100.200.30 Noise with sd = 0.01 Meansquarederror 25 / 25 Nathalie Villa-Vialaneix
  • 65. Exemples Résultats qq q q q q q q q q q q q q q q O S1 FD1 S2 0.20.40.60.81.01.2 Noise with sd = 0.2 Meansquarederror 25 / 25 Nathalie Villa-Vialaneix
  • 66. Quelques références Berlinet, A. and Thomas-Agnan, C. (2004). Reproducing Kernel Hilbert Spaces in Probability and Statistics. Kluwer Academic Publisher. Faragó, T. and Györfi, L. (1975). On the continuity of the error distortion function for multiple-hypothesis decisions. IEEE Transactions on Information Theory, 21(4):458–460. Kimeldorf, G. and Wahba, G. (1971). Some results on Tchebycheffian spline functions. Journal of Mathematical Analysis and Applications, 33(1):82–95. Ragozin, D. (1983). Error bounds for derivative estimation based on spline smoothing of exact or noisy data. Journal of Approximation Theory, 37:335–355. Merci pour votre attention. 25 / 25 Nathalie Villa-Vialaneix