Discrimination et régression pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées
1. Discrimination et régression pour des
dérivées : un résultat de consistance pour
des données fonctionnelles discrétisées
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Séminaire de Statistique, Laboratoire Jean Kuntzmann
Grenoble, 29 mars 2010
1 / 25
Nathalie Villa-Vialaneix
3. Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
3 / 25
Nathalie Villa-Vialaneix
4. Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
3 / 25
Nathalie Villa-Vialaneix
5. Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n
i=1
de n réalisations i.i.d. de (X, Y).
3 / 25
Nathalie Villa-Vialaneix
6. Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n
i=1
de n réalisations i.i.d. de (X, Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:
Discrimination : limn→+∞ P (φn(X) Y) = L∗
où
L∗
= infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes.
3 / 25
Nathalie Villa-Vialaneix
7. Introduction et motivations
Un problème de discrimination ou de ré-
gression fonctionnelles
Contexte
(X, Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, ., . X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi, Yi)}n
i=1
de n réalisations i.i.d. de (X, Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:
Discrimination : limn→+∞ P (φn(X) Y) = L∗
où
L∗
= infφ:X→{−1,1} P (φ(X) Y) est l’erreur de Bayes.
Régression : limn→+∞ E [φn(X) − Y]2
= L∗
où
L∗
= infφ:X→R E [φ(X) − Y]2
sera aussi appelée erreur de Bayes.
3 / 25
Nathalie Villa-Vialaneix
8. Introduction et motivations
Un exemple
Prédire le taux de mitadinage dans le blé dur à partir de
spectres infra-rouges (NIR).
4 / 25
Nathalie Villa-Vialaneix
9. Introduction et motivations
Utiliser les dérivées
De manière pratique, X(m) est souvent plus pertinent que X pour
faire de la prédiction.
5 / 25
Nathalie Villa-Vialaneix
10. Introduction et motivations
Utiliser les dérivées
De manière pratique, X(m) est souvent plus pertinent que X pour
faire de la prédiction.
Mais X → X(m) entraîne une perte d’information et
inf
φ:DmX→{−1,1}
P φ(X(m)
) Y ≥ inf
φ:X→{−1,1}
P (φ(X) Y) = L∗
et
inf
φ:DmX→R
E φ(X(m)
) − Y
2
≥ inf
φ:X→R
P [φ(X) − Y]2
= L∗
.
5 / 25
Nathalie Villa-Vialaneix
11. Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une discrétisation de celle-ci : Xτd
i
= (Xi(t))t∈τd
where
τd = {tτd
1
, . . . , tτd
|τd |
}.
6 / 25
Nathalie Villa-Vialaneix
12. Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une discrétisation de celle-ci : Xτd
i
= (Xi(t))t∈τd
where
τd = {tτd
1
, . . . , tτd
|τd |
}.
6 / 25
Nathalie Villa-Vialaneix
13. Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaît
une discrétisation de celle-ci : Xτd
i
= (Xi(t))t∈τd
where
τd = {tτd
1
, . . . , tτd
|τd |
}.
Ainsi, X
(m)
i
est estimée à partir de Xτd
i
et, si on note X
(m)
τd
l’estimation, celle-ci induit aussi une perte d’information:
inf
φ:DmX→{−1,1}
P φ(X
(m)
τd
) Y ≥ inf
φ:DmX→{−1,1}
P φ(X(m)
) Y ≥ L∗
et
inf
φ:DmX→R
E φ(X
(m)
τd
) − Y
2
≥ inf
φ:DmX→R
E φ(X(m)
) − Y
2
≥ L∗
.
6 / 25
Nathalie Villa-Vialaneix
14. Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
construite à partir de X
(m)
τd
telle que le risque de φn,τd
atteigne
asymptotiquement le risque optimal (de Bayes) L∗:
lim
|τd |→+∞
lim
n→+∞
P φn,τd
(X
(m)
τd
) Y = L∗
ou
lim
|τd |→+∞
lim
n→+∞
E φn,τd
(X
(m)
τd
) − Y
2
= L∗
7 / 25
Nathalie Villa-Vialaneix
15. Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
construite à partir de X
(m)
τd
telle que le risque de φn,τd
atteigne
asymptotiquement le risque optimal (de Bayes) L∗:
lim
|τd |→+∞
lim
n→+∞
P φn,τd
(X
(m)
τd
) Y = L∗
ou
lim
|τd |→+∞
lim
n→+∞
E φn,τd
(X
(m)
τd
) − Y
2
= L∗
Idée principale : Utiliser une estimation pertinente de X(m) à
partir de Xτd (par des splines de lissage) et combiner la
consistance des splines avec la consistance d’une méthode de
discrimination ou de régression pour des données dans R|τd |.
7 / 25
Nathalie Villa-Vialaneix
16. Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm
= h ∈ L2
[0,1]|∀ j = 1, . . . , m, Dj
h existe au sens faible et Dm
h ∈ L2
8 / 25
Nathalie Villa-Vialaneix
17. Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm
= h ∈ L2
[0,1]|∀ j = 1, . . . , m, Dj
h existe au sens faible et Dm
h ∈ L2
muni du produit scalaire
u, v Hm = Dm
u, Dm
v L2 +
m
j=1
Bj
uBj
v
où B sont m conditions aux bornes telles que KerB ∩ Pm−1
= {0}.
8 / 25
Nathalie Villa-Vialaneix
18. Un résultat général de consistance
Quelques rappels élémentaires sur les
Splines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm
= h ∈ L2
[0,1]|∀ j = 1, . . . , m, Dj
h existe au sens faible et Dm
h ∈ L2
muni du produit scalaire
u, v Hm = Dm
u, Dm
v L2 +
m
j=1
Bj
uBj
v
où B sont m conditions aux bornes telles que KerB ∩ Pm−1
= {0}.
(Hm
, ., . Hm ) est un RKHS : il existe k0 : Pm−1
× Pm−1
→ R and
k1 : KerB × KerB → R tels que
∀ u ∈ Pm−1
, t ∈ [0, 1], u, k0(t, .) Hm = u(t)
et
∀ u ∈ KerB, t ∈ [0, 1], u, k1(t, .) Hm = u(t)
8 / 25
Nathalie Villa-Vialaneix
19. Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τd| ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
Bj
sont linéairement indépendants de h → h(t) pour tout t ∈ τd
9 / 25
Nathalie Villa-Vialaneix
20. Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τd| ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
Bj
sont linéairement indépendants de h → h(t) pour tout t ∈ τd
[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd
∈ Hm
tq
ˆxλ,τd
= arg min
h∈Hm
1
|τd|
|τd |
l=1
(h(tl) − xτd
)2
+ λ
[0,1]
(h(m)
(t))2
dt.
et ˆxλ,τd
= Sλ,τd
xτd où Sλ,τd
: R|τd | → Hm
est de plein rang.
9 / 25
Nathalie Villa-Vialaneix
21. Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage I
Hypothèse (A1)
|τd| ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
Bj
sont linéairement indépendants de h → h(t) pour tout t ∈ τd
[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !ˆxλ,τd
∈ Hm
tq
ˆxλ,τd
= arg min
h∈Hm
1
|τd|
|τd |
l=1
(h(tl) − xτd
)2
+ λ
[0,1]
(h(m)
(t))2
dt.
et ˆxλ,τd
= Sλ,τd
xτd où Sλ,τd
: R|τd | → Hm
est de plein rang.
Ces hypothèses sont réalisées pour les conditions aux bornes
Dj
u(0) = 0, ∀ j = 0, . . . , m − 1 et 0 τd.
9 / 25
Nathalie Villa-Vialaneix
22. Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage II
Sλ,τd
est :
Sλ,τd
= ωT
(U(K1 + λI|τd |)UT
)−1
U(K1 + λI|τd |)−1
+ηT
(K1 + λI|τd |)−1
(I|τd | − UT
(U(K1 + λI|τd |)−1
U(K1 + λI|τd |)−1
)
= ωT
M0 + ηT
M1
où
{ω1, . . . , ωm} est une base Pm−1
, ω = (ω1, . . . , ωm)T
et
U = (ωi(t))i=1,...,m t∈τd
;
η = (k1(t, .))T
t∈τd
and K1 = (k1(t, t ))t,t ∈τd
.
10 / 25
Nathalie Villa-Vialaneix
23. Un résultat général de consistance
Estimer les fonctions explicatives à par-
tir de splines de lissage II
Sλ,τd
est :
Sλ,τd
= ωT
(U(K1 + λI|τd |)UT
)−1
U(K1 + λI|τd |)−1
+ηT
(K1 + λI|τd |)−1
(I|τd | − UT
(U(K1 + λI|τd |)−1
U(K1 + λI|τd |)−1
)
= ωT
M0 + ηT
M1
où
{ω1, . . . , ωm} est une base Pm−1
, ω = (ω1, . . . , ωm)T
et
U = (ωi(t))i=1,...,m t∈τd
;
η = (k1(t, .))T
t∈τd
and K1 = (k1(t, t ))t,t ∈τd
.
Les observations de la variable fonctionnelle X sont estimées à
partir de leurs discrétisations Xτd par Xλ,τd
.
10 / 25
Nathalie Villa-Vialaneix
24. Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
11 / 25
Nathalie Villa-Vialaneix
25. Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
Sλ,τd
uτd
, Sλ,τd
vτd
Hm = uλ,τd
, vλ,τd Hm
11 / 25
Nathalie Villa-Vialaneix
26. Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(uτd
)T
MT
0 WM0vτd
+ (uτd
)T
MT
1 K1M1vτd
= uλ,τd
, vλ,τd Hm
où W = ( ωi, ωj Hm )i,j=1,...,m.
11 / 25
Nathalie Villa-Vialaneix
27. Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(uτd
)T
Mλ,τd
vτd
= uλ,τd
, vλ,τd Hm
où Mλ,τd
est symétrique et définie positive.
11 / 25
Nathalie Villa-Vialaneix
28. Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(Qλ,τd
uτd
)T
(Qλ,τd
vτd
) = uλ,τd
, vλ,τd Hm
où Qλ,τd
est la décomposition de Choleski de Mλ,τd
:
QT
λ,τd
Qλ,τd
= Mλ,τd
.
Remarque : Qλ,τd
est calculée seulement à partir du RKHS, de λ et
de τd : ne dépend des données.
11 / 25
Nathalie Villa-Vialaneix
29. Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
inf
φ:Hm→{−1,1}
P φ(Xλ,τd
) Y = inf
φ:R|τd |→{−1,1}
P (φ(Xτd
) Y)
et
inf
φ:Hm→{−1,1}
E φ(Xλ,τd
) − Y
2
= inf
φ:R|τd |→{−1,1}
P [φ(Xτd
) − Y]2
2 Utiliser les dérivées de manière directe:
(Qλ,τd
uτd
)T
(Qλ,τd
vτd
) = uλ,τd
, vλ,τd Hm
u
(m)
λ,τd
, v
(m)
λ,τd
L2
où Qλ,τd
est la décomposition de Choleski de Mλ,τd
:
QT
λ,τd
Qλ,τd
= Mλ,τd
.
Remarque : Qλ,τd
est calculée seulement à partir du RKHS, de λ et
de τd : ne dépend des données.
11 / 25
Nathalie Villa-Vialaneix
30. Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
Exemple : Régression à noyau
Ψ : u ∈ R|τd |
→
n
i=1 TiK
u−Ui R|τd |
hn
n
i=1 K
u−Ui R|τd |
hn
où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans
R|τd | × R.
12 / 25
Nathalie Villa-Vialaneix
31. Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
La méthode de discrimination ou de régression basée sur les
dérivées correspondante est obtenue par composition des
données fonctionnelles discrétisées avec Qλ,τd
:
Exemple : Régression à noyau
Ψ : u ∈ R|τd |
→
n
i=1 TiK
u−Ui R|τd |
hn
n
i=1 K
u−Ui R|τd |
hn
où (Ui, Ti)i=1,...,n sont les données (apprentissage) à valeur dans
R|τd | × R.
12 / 25
Nathalie Villa-Vialaneix
32. Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
La méthode de discrimination ou de régression basée sur les
dérivées correspondante est obtenue par composition des
données fonctionnelles discrétisées avec Qλ,τd
:
Exemple : Régression à noyau
φn,d = Ψ ◦ Qλ,τd
: x ∈ Hm
→
n
i=1 YiK
Qλ,τd
xτd −Qλ,τd
X
τd
i R|τd |
hn
n
i=1 K
Qλ,τd
xτd −Qλ,τd
X
τd
i R|τd |
hn
12 / 25
Nathalie Villa-Vialaneix
33. Un résultat général de consistance
Discrimination et régression basées sur
des dérivées
Supposons que l’on connaisse un une méthode de
discrimination ou de régression consistante dans R|τd | basée
uniquement sur la norme ou le produit scalaire de R|τd |.
La méthode de discrimination ou de régression basée sur les
dérivées correspondante est obtenue par composition des
données fonctionnelles discrétisées avec Qλ,τd
:
Exemple : Régression à noyau
φn,d = Ψ ◦ Qλ,τd
: x ∈ Hm
−→
n
i=1 YiK
x(m)−X
(m)
i L2
hn
n
i=1 K
x(m)−X
(m)
i L2
hn
12 / 25
Nathalie Villa-Vialaneix
34. Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmes
dans le cas de la régression):
P φn,τd
(Xλ,τd
) Y − L∗
= P φn,τd
(Xλ,τd
) Y − L∗
d + L∗
d − L∗
où L∗
d
= infφ:R|τd |→{−1,1} P (φ(Xτd ) Y).
13 / 25
Nathalie Villa-Vialaneix
35. Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmes
dans le cas de la régression):
P φn,τd
(Xλ,τd
) Y − L∗
= P φn,τd
(Xλ,τd
) Y − L∗
d + L∗
d − L∗
où L∗
d
= infφ:R|τd |→{−1,1} P (φ(Xτd ) Y).
1 Pour tout d,
lim
n→+∞
P φn,τd
(Xλ,τd
) Y = L∗
d
grâce à la consistance dans R|τd |
car il existe une application
bijective entre Xτd
et Xλ,τd
.
13 / 25
Nathalie Villa-Vialaneix
36. Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmes
dans le cas de la régression):
P φn,τd
(Xλ,τd
) Y − L∗
= P φn,τd
(Xλ,τd
) Y − L∗
d + L∗
d − L∗
où L∗
d
= infφ:R|τd |→{−1,1} P (φ(Xτd ) Y).
1 Pour tout d,
lim
n→+∞
P φn,τd
(Xλ,τd
) Y = L∗
d
grâce à la consistance dans R|τd |
car il existe une application
bijective entre Xτd
et Xλ,τd
.
2
L∗
d − L∗
≤ E E(Y|Xλ,τd
) − E(Y|X)
La convergence en norme 1 de E(Y|Xλ,τd
) vers E(Y|X) suffit donc à
montrer la consistance globale de la méthode.
13 / 25
Nathalie Villa-Vialaneix
37. Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de
régularisation des splines de lissage. Notons aussi
∆τd
:= max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd
:= min
1≤i<|τd |
{ti+1 − ti}
Hypothèse (A2)
Il existe R tel que ∆τd
/∆τd
≤ R pour tout d;
limd→+∞ |τd| = +∞;
limd→+∞ λd = 0.
14 / 25
Nathalie Villa-Vialaneix
38. Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres de
régularisation des splines de lissage. Notons aussi
∆τd
:= max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd
:= min
1≤i<|τd |
{ti+1 − ti}
Hypothèse (A2)
Il existe R tel que ∆τd
/∆τd
≤ R pour tout d;
limd→+∞ |τd| = +∞;
limd→+∞ λd = 0.
[Ragozin, 1983]: Sous (A1) et (A2), ∃AR,m and BR,m tel que pour
tout x ∈ Hm
et tout λd > 0,
ˆxλd ,τd
− x
2
L2 ≤ AR,mλd + BR,m
1
|τd|2m
Dm
x 2
L2
d→+∞
−−−−−−→ 0
14 / 25
Nathalie Villa-Vialaneix
39. Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
15 / 25
Nathalie Villa-Vialaneix
40. Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
ou
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
15 / 25
Nathalie Villa-Vialaneix
41. Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
ou
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
Sous (A1)-(A3), limd→+∞ L∗
d
= L∗.
15 / 25
Nathalie Villa-Vialaneix
42. Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
16 / 25
Nathalie Villa-Vialaneix
43. Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :
Pour un couple de variables aléatoires (X, Y) à valeurs dans
X × {−1, 1} où X est un espace métrique quelconque et pour
une suite de fonctions Td : X → X telles que
E(δ(Td(X), X))
d→+∞
−−−−−−→ 0
alors limd→+∞ infφ:X→{−1,1} P(φ(Td(X)) Y) = L∗.
16 / 25
Nathalie Villa-Vialaneix
44. Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E Dm
X 2
L2 est finie et Y ∈ {−1, 1}.
La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :
En remplaçant Td par l’estimation splines, la précédente inégalité
et le résultat de [Ragozin, 1983], on obtient la convergence de
E(Y|Xλ,τd
) vers E(Y|X).
16 / 25
Nathalie Villa-Vialaneix
45. Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
17 / 25
Nathalie Villa-Vialaneix
46. Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2
) est finie.
Sous (A3b), (E(Y|Xλd ,τd
))d est une martingale uniformément
bornée et converge donc en norme L1
. En utilisant la consistance
de (Xλd ,τd
)d vers X, on obtient la conclusion.
17 / 25
Nathalie Villa-Vialaneix
47. Un résultat général de consistance
Résulat final
Théorème
Sous les hypothèses (A1)-(A3),
lim
d→+∞
lim
n→+∞
P φn,τd
(Xλd ,τd
) Y = L∗
et
lim
|τd |→+∞
lim
n→+∞
E φn,τd
(Xλd ,τd
) − Y
2
= L∗
Preuve : Soit > 0 et fixons d0 tel que, pour tout d ≥ d0,
L∗
d
− L∗ ≤ /2.
Alors, par la convergence de la méthode de classification ou de
régression choisie dans R|τd |, on peut conclure.
18 / 25
Nathalie Villa-Vialaneix
48. Un résultat général de consistance
Remarque sur le lien entre n et |τd|
Sous des hypothèses de régularité sur E(Y|X = .) et une relation
de la forme n ∼ |τd| log |τd|, on peut obtenir une vitesse de
convergence de l’ordre de d− 2m
2m+1 .
19 / 25
Nathalie Villa-Vialaneix
49. Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
20 / 25
Nathalie Villa-Vialaneix
50. Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
20 / 25
Nathalie Villa-Vialaneix
51. Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
Question : Comment prédire les valeurs de qualité correspondant
au mitadinage à partir de la collecte des spectres infra-rouge ?
20 / 25
Nathalie Villa-Vialaneix
52. Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
Question : Comment prédire les valeurs de qualité correspondant
au mitadinage à partir de la collecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnent
ici des résultats décevants.
20 / 25
Nathalie Villa-Vialaneix
53. Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformément
réparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés par
comptage.
Question : Comment prédire les valeurs de qualité correspondant
au mitadinage à partir de la collecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnent
ici des résultats décevants. ⇒ Présentation des résultats de la
mise en œuvre de la méthode sur le mitadinage.
20 / 25
Nathalie Villa-Vialaneix
54. Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :
cette séparation est répétée 50 fois ;
21 / 25
Nathalie Villa-Vialaneix
55. Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :
cette séparation est répétée 50 fois ;
Sur les 50 ensembles d’apprentissage, les fonctions de régression
sont estimées avec évaluation des divers paramètres du modèle par
validation croisée ;
21 / 25
Nathalie Villa-Vialaneix
56. Exemples
Méthodologie pour évaluation de la va-
lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :
cette séparation est répétée 50 fois ;
Sur les 50 ensembles d’apprentissage, les fonctions de régression
sont estimées avec évaluation des divers paramètres du modèle par
validation croisée ;
Sur les 50 ensembles de test correspondants, l’erreur quadratique
moyenne est calculée.
21 / 25
Nathalie Villa-Vialaneix
57. Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées d’ordre 1 à 2 déterminées
par splines.
22 / 25
Nathalie Villa-Vialaneix
58. Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées d’ordre 1 à 2 déterminées
par splines.
Noyau (SVM) EQM pour test (et sd)
Linéaire (L) 0.122 % (8.77)
Linéaire sur dérivées (L(1)) 0.138 % (9.53)
Linéaire sur dérivées secondes (L(2)) 0.122 % (1.71)
Gaussien (G) 0.110 % (20.2)
Gaussien sur dérivées (G(1)) 0.098 % (7.92)
Gaussien sur dérivées secondes (G(2)) 0.094 % (8.35)
où les différences sont significatives (Test de Wilcoxon apparié au
niveau 1%) entre G(2) et G(1) et entre G(1) et G.
22 / 25
Nathalie Villa-Vialaneix
59. Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)
sur les données initiales et les dérivées d’ordre 1 à 2 déterminées
par splines.
22 / 25
Nathalie Villa-Vialaneix
60. Exemples
Pour comparaison avec PLS...
MSE moyenne (test) Écart type MSE
PLS sur données initiales 0.154 0.012
Kernel PLS 0.154 0.013
SVM splines (reg. D2
) 0.094 0.008
Gain de près de 40 % sur la prédiction moyenne.
SVM−D2 KPLS PLS
0.080.100.120.140.160.18
23 / 25
Nathalie Villa-Vialaneix
61. Exemples
Bruit simulé sur des spectres NIR
Données initiales :
850 900 950 1000 1050
2.53.03.54.04.5
wavelength
absorbance
Variable à prédire : Taux de graisse (benchmark célèbre)
24 / 25
Nathalie Villa-Vialaneix
62. Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xb
i
(t) = Xi(t) + it , sd( it ) = 0,01
850 900 950 1000 1050
2.53.03.54.04.5
wavelength
absorbance
24 / 25
Nathalie Villa-Vialaneix
63. Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xb
i
(t) = Xi(t) + it , sd( it ) = 0,2
850 900 950 1000 1050
2.02.53.03.54.04.5
wavelength
absorbance
24 / 25
Nathalie Villa-Vialaneix
66. Quelques références
Berlinet, A. and Thomas-Agnan, C. (2004).
Reproducing Kernel Hilbert Spaces in Probability and Statistics.
Kluwer Academic Publisher.
Faragó, T. and Györfi, L. (1975).
On the continuity of the error distortion function for multiple-hypothesis decisions.
IEEE Transactions on Information Theory, 21(4):458–460.
Kimeldorf, G. and Wahba, G. (1971).
Some results on Tchebycheffian spline functions.
Journal of Mathematical Analysis and Applications, 33(1):82–95.
Ragozin, D. (1983).
Error bounds for derivative estimation based on spline smoothing of exact or noisy data.
Journal of Approximation Theory, 37:335–355.
Merci pour votre attention.
25 / 25
Nathalie Villa-Vialaneix