SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
Techniques d’arbre de classification et de
régression
GT Big Data, sous GT 2
Maison des actuaires, le 5 mai 2014
Xavier Milhaud1,2
1
ENSAE ParisTech, département d’actuariat
2
CREST, Laboratoire de Finance et d’Assurance
1 / 37
Plan de l’exposé
1 Introduction à la problématique
2 Exemples d’utilisation
3 Construction de l’arbre
4 Procédure d’élagage de l’arbre
5 Robustesse de la méthode CART
6 Application sur un cas concret d’assurance
2 / 37
Contexte classique d’étude des risques en assurance
Pour prévoir le futur, un assureur essaie généralement d’avoir la
meilleure connaissance possible du coût de ses sinistres.
Les bases de données des assureurs comportent un ensemble
d’informations sur
les caractéristiques de l’assuré,
les options du contrat,
les conditions de marché.
Ces informations jouent un rôle crucial dans les prévisions de
sinistralité ⇒ il faut conserver les caractéristiques individuelles.
3 / 37
Objectif : prévision individualisée d’une quantité
d’intérêt
Pour cela, on va regrouper des individus homogènes...
∃ de nombreuses techniques de classification (création de
groupes d’assurés homogènes), parmi lesquelles :
pour la classification non-supervisée :
→ les algorithmes dits des k-plus proches voisins ;
→ les techniques ascendantes d’arbre de classification (CAH) ;
→ la classification par model-based clustering : [Bau09].
pour la classification supervisée :
→ les modèles de choix (LOGIT) ;
→ les réseaux de neurones ;
→ les méthodes descendantes d’arbre (CART, CHAID, ...) ;
4 / 37
Quelques références sur l’utilisation des arbres en
actuariat (pas du tout exhaustif)
Prévision de taux de mortalité par tranche d’âge : [Olb12]
Prévision des comportements de rachat : [MMDL11]
Applications en assurance non vie de techniques d’arbre : R.A.
DERRIG et L. FRANCIS, Casualty Actuarial Society (CAS),
Variance, vol. 2 issue 2.
Lien entre scoring d’assurés par arbre et pertes : GUSZCZA, WU
et CHENG-SHENG, Casualty Actuarial Society Forum, 2003
5 / 37
Arbre et clustering : quelques premiers éléments
Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre...
Mais qu’est-ce qu’un arbre ?
1 Une racine : contient l’ensemble de la population à segmenter
(le portefeuille global) ⇒ c’est le point de départ ;
2 Un tronc et des branches : contiennent les règles de division
qui permettent de segmenter la population ;
3 Des feuilles : contiennent les sous-populations homogènes
créées, fournissent l’estimation de la quantité d’intérêt.
6 / 37
2 Exemples d’utilisation
Une méthode populaire : un premier exemple
Application à la classification du statut propriétaire
7 / 37
Aparté sur la lecture d’un arbre
Un arbre de classification / régression se lit de la racine vers les
feuilles.
A chaque ramification, une règle de division apparait : dans CART,
cette règle ( question) admet une réponse binaire,
elle n’est basée que sur un facteur de risque.
Un noeud est l’intersection d’un ensemble de règles. L’estimation
de la quantité d’intérêt se lit dans les noeuds terminaux (feuilles).
N’importe quel individu de la population initiale appartient à une
unique feuille : les sous-populations créées sont disjointes.
8 / 37
Exemple 1 : prévisions des résultats des primaires aux US
Il s’agit de déterminer les facteurs clefs qui ont joué sur les
résultats des primaires de 2008 aux USA :
Qui de H. Clinton ou B. Obama remportera tel ou tel état ?
Entre Clinton et Obama, deux critères de population de votants
apparaissent comme essentiels :
1 la couleur de peau des votants,
2 leur niveau d’éducation.
On peut visualiser ces résultats sur la publication suivante du NY
Times...
9 / 37
Exemple 2 : prévisions propriétaire | salaire et surface
! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.'
1*'$9:#*'3#'7&,88#.'&#8'+,$/&&#8'3,*8'1*#'
4/&&#'01/'89*2';'$<$#'3=,76#2#.'1*'456/71&#'
#2'7#&&#8'01/'*#'89*2'%,8'%.<2#*2';'#*',76#2#.>'
)*'576,*2/&&9*'3#'(?'%.9%./52,/.#8'#2'(?'*9*@
%.9%./52,/.#8'#82'769/8/>'A#8'3#1"'4,./,-&#8'
/*35%#*3,*2#8'89*2'B'"('C!"#$%&'91'.#4#*18D'
#2'"?'C'$()*!+&'91'81.+,7#'#*'%/#38'%,.'$?D
10 / 37
Partitionnement et arbre correspondant
Partitionnement qui maximise l’homogénéité dans chq rectangle.
11 / 37
Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs.
nombres à l'intérieur des cercles sont les valeurs de division et le nom de la variable cho
12 / 37
3 Construction de l’arbre
Croissance de l’arbre pour estimer une moyenne
Lien avec le problème de régression classique
Arrêt de la ramification
Généralisation et extensions
13 / 37
Notations utilisées dans l’exposé
→ i ∈ 1, n : identifiant de l’individu / l’assuré ;
→ j ∈ 1, k : identifiant du facteur de risque (continu ou discret) ;
→ Yi : variable réponse du ième
individu (continue ou discrète) ;
→ Xi = (Xi1, ..., Xik ) : vecteur des facteurs de risque de l’indiv. i ;
→ X : espace des covariables (facteurs de risque) ;
→ l ∈ 1, L : identifiant des feuilles de l’arbre ;
→ Xl : ensemble de la partition correspondant à la feuille l ;
→ π0(x) : quantité d’intérêt à estimer.
14 / 37
Arbre de régression : cas classique avec Y continue
Dans le cas d’une régression classique, la quantité d’intérêt est
π0(x) = E0[Y | X = x] (1)
En supposant une relation linéaire (dc se restreignant à une classe
d’estimateurs), on estime les paramètres de régression par MCO.
En toute généralité, on ne peut pas considérer ts les estimateurs
potentiels de π0(x) ⇒ arbres sont 1 autre classe d’estimateurs :
ce sont des fonct. constantes par morceaux pour le problème (1).
Construire un arbre génére une suite d’estimateurs selon une
procédure spécifique : divisions successives de l’espace X.
15 / 37
Construction de l’arbre : critère de division
La ramification de l’arbre est basée sur la définition d’un critère de
division cohérent avec l’estimation de la quantité d’intérêt.
Dans l’estimation de (1), les MCO sont utilisés car la solution est
donnée par
π0(x) = arg min
π(x)
E0[Φ(Y, π(x)) | X = x], (2)
où Φ(Y, π(x)) = (Y − π(x))2
.
La fonction de perte Φ correspond donc à l’erreur quadratique, et
le critère est la minimisation de l’EQM.
16 / 37
Lien entre régression et arbre : la notion de “règles”
Tout arbre de régression est un ensemble de règles. Pour chaque
noeud m, une règle Rm est associée à un ss-ensemble Xm ⊆ X.
Notation : dans la suite, En[Y] désigne la moyenne empirique de
Y, et Xpa(m) est le sous-ensemble associé au noeud parent de m.
L’arbre est associé à la fonction de régression
ˆπ(x) =
M
m=1
ˆβtree
m Rm(x) (3)
où ˆβtree
m = En[Y | x ∈ Xm] − En[Y | x ∈ Xpa(m)] si m racine,
ˆβtree
m = En[Y] sinon.
17 / 37
Cela équivaut en régression classique à chercher
ˆβtree
= arg min
βtree
En Y − βtree
m Rm(x)
2
.
A partir de (3) et en sommant sur ts les noeuds :
ˆπ(x) := ˆπL
(x) =
L
l=1
ˆγl Rl(x) (4)
avec
L est le nombre de feuilles de l’arbre, l leur indice,
Rl(x) = 11(x ∈ Xl) : une “règle” de division,
ˆγl = En[Y | x ∈ Xl] : moyenne empirique de Y dans la feuille l,
les sous-ensembles Xl ⊆ X de la partition sont
disjoints (Xl ∩ Xl = ∅, l l ),
exhaustifs (X = ∪l Xl).
18 / 37
(4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peut
être vu comme un estimateur par morceaux.
Interprétation :
chaque morceau est une feuille, dont la valeur est la moyenne
empirique des valeurs de Y de cette feuille,
chaque division vise à minimiser la somme des variances
intra-noeuds résultantes. Idée : maximiser l’homogénéité...
La construction étant récursive, on génère une suite d’estimateurs
depuis le nd racine : soit une suite {ΠK
} de ss-espaces t.q. ΠK
⊆ Π,
ΠK
= πL
(.) =
L
l=1
γl Rl(.) : L ∈ N∗
, L ≤ K . (5)
19 / 37
A K fixé, on cherche πK
0
tq πK
0
(x) = arg min
π(x)∈ΠK
E0[Φ(Y, π(x)) | X = x].
En pratique on cherche la version empirique, ˆπK
, telle que
ˆπK
(x) = arg min
π(x)∈ΠK
En[ Φ(Y, π(x)) ].
ou encore
ˆπK
(x) = arg min
γ=(γ1,...,γL )
En[ Φ(Y, πL
(x)) ]. (6)
Les estimateurs par arbre ne cherchent pas tous les estimateurs
possibles avec L ≤ K : ils approchent ce minimum récursivement.
20 / 37
Arrêt de la procédure de division
Le principe de l’algorithme CART est de ne pas fixer de règle
d’arrêt arbitraire pour la procédure.
L’algorithme arrête ainsi de diviser les feuilles quand :
il n’y a qu’une observation dans la feuille, ou
les individus de la feuille ont les mêmes valeurs de facteurs
de risque.
On construit ainsi l’arbre “maximal”, qui sera ensuite élagué.
Cet arbre maximal est donc l’estimateur par morceaux final le plus
complexe de la suite d’estimateurs construits : sa convergence est
garantie (voir [BFOS84]).
21 / 37
Généralisation et extensions avec Φ fonction de perte
π0(x) = arg min
π(x)
E0[Φ(Y, π(x)) | X = x]
Estimation de moyenne : π0(x) = E0[Y | X = x]
→ critère de division (MCO) : Φ(Y, π(x)) = (Y − π(x))2
.
Estim. quantile : π0(x) = QY (α|X = x) = inf{y : F(y|X = x) ≥ α}
→ critère de division :
Φα(y, π(x)) = α|y−π(x)|11(y > π(x)) + (1−α)|y−π(x)|11(y ≤ π(x))
Estimation de densité de la loi de Y → Φ(Y, π(x)) = − log π(Y, x),
avec π la densité jointe de (Y, X).
22 / 37
4 Procédure d’élagage de l’arbre
Critère d’élagage de l’arbre
Algorithme d’élagage de l’arbre
23 / 37
Elagage : critère coût-complexité
Une fois l’arbre maximal construit (de taille K(n)), on obtient une
suite d’estimateurs (ˆπK
(x))K=1,...,K(n).
Eviter estimateur trop complexe ⇒ trouver le meilleur sous-arbre
de l’arbre maximal selon un critère “adéquation - complexité” :
Rα(ˆπK
(x)) = En[ Φ(Y, ˆπK
(x)) ] + α (K/n).
Pour α fixé, l’estimateur retenu satisfait
ˆπK
α (x) = arg min
(ˆπK )K=1,...,K(n)
Rα(ˆπK
(x)). (7)
24 / 37
Elagage : procédure de sélection de modèle et estimateur final
On fait croître itérativement α : 0 = α1 < ... < αz < ... < αZ−1 < αZ ,
et on choisit pour chaque αz le meilleur estimateur donné par (7).
Par construction, on a une suite décroissante de sous-arbres
optimaux de l’arbre maximal vers la racine. Dans cette liste
d’estimateurs, on choisit finalement ˆα tel que
ˆπK
ˆα (x) = arg min
(ˆπK
αz )α=α1,...,αZ
Rαz (ˆπK
αz
(x)). (8)
Consistance : voir [MDvdL04] and [GN05].
25 / 37
5 Robustesse de la méthode CART
26 / 37
Un mot sur la robustesse de la méthode CART
Certaines techniques ont été développées afin de stabiliser la
prévision donnée par un estimateur arbre.
En effet, la construction d’un arbre optimal peut varier fortement
quand bien même le jeu de données initial varie peu.
D’où l’idée de proposer des procédures avec
1 choix aléatoire des facteurs de risque considérés lors d’une
division : il s’agit de la méthode dite de “bagging”.
2 tirage aléatoire de sous-jeux de données ( valid. croisées).
27 / 37
Exemple le plus connu : les forêts aléatoires
L’objectif des forêts aléatoires est de proposer un estimateur de
type “bootstrap” afin d’améliorer la robustesse de l’estimation de la
quantité d’intérêt.
Il s’agit de moyenner les prévisions obtenues.
Cette approche est intéressante pour deux raisons principales :
on peut dégager un classement du pouvoir explicatif de
chacun des facteurs de risque,
sa consistance a été démontrée récemment dans plusieurs
articles récents : [IK10], [Mei09], [Mei06]...
28 / 37
6 Application sur un cas concret d’assurance
29 / 37
Exemple illustratif : prévisions de taux de mortalité
Résultats suivants extraits de l’article [Olb12].
C’est un portefeuille de SwissRe avec les carsctéristiques
suivantes :
comprenant 1 463 964 enregistrements,
couvrant une période de 4 ans,
les variables explicatives en jeu sont le sexe et l’âge.
Les résultats obtenus par CART sont comparés à la table de
mortalité actuelle “German standard life table DAV 2008 T”.
30 / 37
Arbre obtenu par algorithme CART
Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the
mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6)
0.012
male
142 W. Olbricht
31 / 37
Courbe de mortalité
Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the
mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6)
0 10 20 30 40 50 60 70
0.0000.0020.0040.0060.0080.0100.012
Age
Mortalityrate
male
female
both
Fig. 9 Visualization of the final tree for the standard life table example
32 / 37
Performance de la prévision par arbre CART
in any case. Thus, the phenomenon underscores the importance to use a selection of
years as an independent test set (and not just a sample of all data records) in order to
get some idea of the real extent of this type of variability.
Table 6 Performance of the tree from Fig. 8
Node Learning set Independent test set
No. of
elements
in node
No. of
deaths in
node
Estimated
mortality rate
(per mille)
No. of
elements
in node
No. of
deaths in
node
Tree
prediction
(Fig. 8)
Classical
prediction
(DAV 2008 T)
1 286,298 137 0.479 254,995 143 122 127
2 77,812 96 1.234 75,882 60 94 79
3 78,792 118 1.498 79,202 146 119 116
4 163,197 406 2.488 155,912 361 388 389
5 32,293 92 2.849 33,163 119 94 96
6 7,315 37 5.058 7,440 26 38 36
7 36,921 176 4.767 41,759 163 199 188
8 24,515 148 6.037 20,708 118 125 118
9 9,835 68 6.914 8,354 59 58 55
10 36,046 305 8.461 33,525 219 284 299
Total 753,024 1,583 710,940 1,414 1,521 1,503
33 / 37
Conclusion
Pourquoi cette technique est-elle intéressante pour le big data ?
→ Algorithme naturellement adapté à la gestion de grandes bases
de données :
→ Technique non-paramétrique : pas d’hypothèses sur le lien
entre quantité d’intérêt et facteurs de risque. Capte bien les
structures de dépendance non linéaires ;
→ Simplicité de l’estimateur final : faible dimension, interprétation
de l’arbre et visionnage des résultats ;
→ Consistance de la procédure théoriquement prouvée ;
34 / 37
→ Classement naturel du pouvoir discriminant des facteurs de
risque ;
→ Multiples extensions possibles en travaillant sur les propriétés
de la fonction de perte.
Quels en sont les points faibles ?
→ Hypothèses sous-jacentes pouvant parfois être remises en
cause ;
→ Manque de résultats théoriques dans des cas moins
classiques ;
→ Instabilité : nécessité de la compléter avec des techniques de
type forêts aléatoires.
35 / 37
Bibliographie
J.P. Baudry.
Sélection de modèle pour la classification non supervisée. Choix du nombre de
classes.
PhD thesis, Univ. Paris Sud XI, 2009.
L. Breiman, J. Friedman, R. A. Olshen, and C. J. Stone.
Classification and Regression Trees.
Chapman and Hall, 1984.
Servane Gey and Elodie Nedelec.
Model selection for cart regression trees.
IEEE Transactions on Information Theory, 51(2) :658–670, 2005.
Hemant Ishwaran and Udaya B. Kogalur.
Consistency of random survival forests.
Statistics and Probability Letters, 80(13-14) :1056–1064, 2010.
Annette M. Molinaro, Sandrine Dudoit, and Mark J. van der Laan.
Tree-based multivariate regression and density estimation with right-censored data.
JMVA, 90(1) :154–177, 2004.
36 / 37
Nicolai Meinshausen.
Quantile regression forests.
Journal of Machine Learning Research, 7 :983–999, 2006.
Nicolai Meinshausen.
Forest garrote.
Electronic Journal of Statistics, 3 :1288–1304, 2009.
X. Milhaud, V. Maume-Deschamps, and S. Loisel.
Surrender triggers in life insurance : what main features affect the surrender behavior
in a classical economic context ?
Bulletin Français d’Actuariat, 22 :5–48, 2011.
Walter Olbricht.
Tree-based methods : a useful tool for life insurance.
European Actuarial Journal, 2(1) :129–147, 2012.
37 / 37

Más contenido relacionado

La actualidad más candente

La actualidad más candente (6)

Convex Multi-Task Feature Learning
Convex Multi-Task Feature LearningConvex Multi-Task Feature Learning
Convex Multi-Task Feature Learning
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Cours9 programmation linéaire
Cours9 programmation linéaireCours9 programmation linéaire
Cours9 programmation linéaire
 
Proglin
ProglinProglin
Proglin
 
0 c2 2013
0 c2 20130 c2 2013
0 c2 2013
 
Corrige examen cc1
Corrige examen cc1Corrige examen cc1
Corrige examen cc1
 

Destacado

Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septKezhan SHI
 
F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...
F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...
F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...Kezhan SHI
 
After risk (François Ewald) sep13
After risk (François Ewald)  sep13After risk (François Ewald)  sep13
After risk (François Ewald) sep13Kezhan SHI
 
Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...
Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...
Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...Kezhan SHI
 
Réseaux de neurones : alternative neuronale en tarification santé
Réseaux de neurones : alternative neuronale en tarification santéRéseaux de neurones : alternative neuronale en tarification santé
Réseaux de neurones : alternative neuronale en tarification santéKezhan SHI
 
Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Kezhan SHI
 
S 1 introduction au cours et à la logistique internationale
S 1   introduction au cours et à la logistique internationaleS 1   introduction au cours et à la logistique internationale
S 1 introduction au cours et à la logistique internationaleBobDurelle
 
Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Arthur Charpentier
 
ALCOHOLISMO
ALCOHOLISMOALCOHOLISMO
ALCOHOLISMOIYRR
 
Plan nacional de la educación
Plan nacional de la educaciónPlan nacional de la educación
Plan nacional de la educaciónAdita Perez Perez
 
Ruben cisneros actividad-3
Ruben cisneros actividad-3Ruben cisneros actividad-3
Ruben cisneros actividad-3rubencevallos
 
Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14SOASTA
 
Presentacion olga1
Presentacion olga1Presentacion olga1
Presentacion olga1Olguita02
 

Destacado (20)

Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-sept
 
F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...
F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...
F Ewald -- Assurance, prévention, prédiction ... dans l'univers du Big Data -...
 
After risk (François Ewald) sep13
After risk (François Ewald)  sep13After risk (François Ewald)  sep13
After risk (François Ewald) sep13
 
Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...
Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...
Vers un nouveau paradigme de l’assurance (François Ewald) -- Conférence GT Bi...
 
Réseaux de neurones : alternative neuronale en tarification santé
Réseaux de neurones : alternative neuronale en tarification santéRéseaux de neurones : alternative neuronale en tarification santé
Réseaux de neurones : alternative neuronale en tarification santé
 
Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14
 
Sildes big-data-ia-may
Sildes big-data-ia-maySildes big-data-ia-may
Sildes big-data-ia-may
 
Slides barcelona risk data
Slides barcelona risk dataSlides barcelona risk data
Slides barcelona risk data
 
S 1 introduction au cours et à la logistique internationale
S 1   introduction au cours et à la logistique internationaleS 1   introduction au cours et à la logistique internationale
S 1 introduction au cours et à la logistique internationale
 
Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2
 
Econometrics 2017-graduate-3
Econometrics 2017-graduate-3Econometrics 2017-graduate-3
Econometrics 2017-graduate-3
 
ALCOHOLISMO
ALCOHOLISMOALCOHOLISMO
ALCOHOLISMO
 
Bcdi.les sériespdf
Bcdi.les sériespdfBcdi.les sériespdf
Bcdi.les sériespdf
 
Plan nacional de la educación
Plan nacional de la educaciónPlan nacional de la educación
Plan nacional de la educación
 
Ruben cisneros actividad-3
Ruben cisneros actividad-3Ruben cisneros actividad-3
Ruben cisneros actividad-3
 
Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14
 
Presentacion olga1
Presentacion olga1Presentacion olga1
Presentacion olga1
 
Panorama cress 2012
Panorama cress 2012Panorama cress 2012
Panorama cress 2012
 
Ent eva
Ent evaEnt eva
Ent eva
 
Proyecto Literario
Proyecto LiterarioProyecto Literario
Proyecto Literario
 

Similar a Xavier Milaud - Techniques d'arbres de classification et de régression

Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Arthur Charpentier
 
Planification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésiennePlanification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésienneJulien Bect
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesEL-Hachemi Guerrout
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
analyse numérique Approximation et interpolation polynomiale .pptx
analyse numérique Approximation et interpolation polynomiale .pptxanalyse numérique Approximation et interpolation polynomiale .pptx
analyse numérique Approximation et interpolation polynomiale .pptxAdrienDiokelTINE
 
Géométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa BousderGéométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa BousderMostafa Bousder
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimalesAntoine Rebecq
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienneomri med
 

Similar a Xavier Milaud - Techniques d'arbres de classification et de régression (20)

arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1
 
Planification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésiennePlanification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésienne
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicales
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
analyse numérique Approximation et interpolation polynomiale .pptx
analyse numérique Approximation et interpolation polynomiale .pptxanalyse numérique Approximation et interpolation polynomiale .pptx
analyse numérique Approximation et interpolation polynomiale .pptx
 
Géométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa BousderGéométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa Bousder
 
04 cours matrices_suites
04 cours matrices_suites04 cours matrices_suites
04 cours matrices_suites
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimales
 
Slides ensae-2016-3
Slides ensae-2016-3Slides ensae-2016-3
Slides ensae-2016-3
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
Phd dutangc-defense
Phd dutangc-defensePhd dutangc-defense
Phd dutangc-defense
 
Slides ensae 3
Slides ensae 3Slides ensae 3
Slides ensae 3
 

Más de Kezhan SHI

Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[Kezhan SHI
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septKezhan SHI
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_Kezhan SHI
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standardKezhan SHI
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014Kezhan SHI
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilanKezhan SHI
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Kezhan SHI
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2Kezhan SHI
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2Kezhan SHI
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Kezhan SHI
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaumKezhan SHI
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Kezhan SHI
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geisslerKezhan SHI
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellierKezhan SHI
 
Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohenKezhan SHI
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...Kezhan SHI
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Confidentialité des données michel béra
Confidentialité des données   michel béraConfidentialité des données   michel béra
Confidentialité des données michel béraKezhan SHI
 

Más de Kezhan SHI (20)

Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaum
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geissler
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellier
 
Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohen
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Confidentialité des données michel béra
Confidentialité des données   michel béraConfidentialité des données   michel béra
Confidentialité des données michel béra
 

Xavier Milaud - Techniques d'arbres de classification et de régression

  • 1. Techniques d’arbre de classification et de régression GT Big Data, sous GT 2 Maison des actuaires, le 5 mai 2014 Xavier Milhaud1,2 1 ENSAE ParisTech, département d’actuariat 2 CREST, Laboratoire de Finance et d’Assurance 1 / 37
  • 2. Plan de l’exposé 1 Introduction à la problématique 2 Exemples d’utilisation 3 Construction de l’arbre 4 Procédure d’élagage de l’arbre 5 Robustesse de la méthode CART 6 Application sur un cas concret d’assurance 2 / 37
  • 3. Contexte classique d’étude des risques en assurance Pour prévoir le futur, un assureur essaie généralement d’avoir la meilleure connaissance possible du coût de ses sinistres. Les bases de données des assureurs comportent un ensemble d’informations sur les caractéristiques de l’assuré, les options du contrat, les conditions de marché. Ces informations jouent un rôle crucial dans les prévisions de sinistralité ⇒ il faut conserver les caractéristiques individuelles. 3 / 37
  • 4. Objectif : prévision individualisée d’une quantité d’intérêt Pour cela, on va regrouper des individus homogènes... ∃ de nombreuses techniques de classification (création de groupes d’assurés homogènes), parmi lesquelles : pour la classification non-supervisée : → les algorithmes dits des k-plus proches voisins ; → les techniques ascendantes d’arbre de classification (CAH) ; → la classification par model-based clustering : [Bau09]. pour la classification supervisée : → les modèles de choix (LOGIT) ; → les réseaux de neurones ; → les méthodes descendantes d’arbre (CART, CHAID, ...) ; 4 / 37
  • 5. Quelques références sur l’utilisation des arbres en actuariat (pas du tout exhaustif) Prévision de taux de mortalité par tranche d’âge : [Olb12] Prévision des comportements de rachat : [MMDL11] Applications en assurance non vie de techniques d’arbre : R.A. DERRIG et L. FRANCIS, Casualty Actuarial Society (CAS), Variance, vol. 2 issue 2. Lien entre scoring d’assurés par arbre et pertes : GUSZCZA, WU et CHENG-SHENG, Casualty Actuarial Society Forum, 2003 5 / 37
  • 6. Arbre et clustering : quelques premiers éléments Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre... Mais qu’est-ce qu’un arbre ? 1 Une racine : contient l’ensemble de la population à segmenter (le portefeuille global) ⇒ c’est le point de départ ; 2 Un tronc et des branches : contiennent les règles de division qui permettent de segmenter la population ; 3 Des feuilles : contiennent les sous-populations homogènes créées, fournissent l’estimation de la quantité d’intérêt. 6 / 37
  • 7. 2 Exemples d’utilisation Une méthode populaire : un premier exemple Application à la classification du statut propriétaire 7 / 37
  • 8. Aparté sur la lecture d’un arbre Un arbre de classification / régression se lit de la racine vers les feuilles. A chaque ramification, une règle de division apparait : dans CART, cette règle ( question) admet une réponse binaire, elle n’est basée que sur un facteur de risque. Un noeud est l’intersection d’un ensemble de règles. L’estimation de la quantité d’intérêt se lit dans les noeuds terminaux (feuilles). N’importe quel individu de la population initiale appartient à une unique feuille : les sous-populations créées sont disjointes. 8 / 37
  • 9. Exemple 1 : prévisions des résultats des primaires aux US Il s’agit de déterminer les facteurs clefs qui ont joué sur les résultats des primaires de 2008 aux USA : Qui de H. Clinton ou B. Obama remportera tel ou tel état ? Entre Clinton et Obama, deux critères de population de votants apparaissent comme essentiels : 1 la couleur de peau des votants, 2 leur niveau d’éducation. On peut visualiser ces résultats sur la publication suivante du NY Times... 9 / 37
  • 10.
  • 11. Exemple 2 : prévisions propriétaire | salaire et surface ! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.' 1*'$9:#*'3#'7&,88#.'&#8'+,$/&&#8'3,*8'1*#' 4/&&#'01/'89*2';'$<$#'3=,76#2#.'1*'456/71&#' #2'7#&&#8'01/'*#'89*2'%,8'%.<2#*2';'#*',76#2#.>' )*'576,*2/&&9*'3#'(?'%.9%./52,/.#8'#2'(?'*9*@ %.9%./52,/.#8'#82'769/8/>'A#8'3#1"'4,./,-&#8' /*35%#*3,*2#8'89*2'B'"('C!"#$%&'91'.#4#*18D' #2'"?'C'$()*!+&'91'81.+,7#'#*'%/#38'%,.'$?D 10 / 37
  • 12. Partitionnement et arbre correspondant Partitionnement qui maximise l’homogénéité dans chq rectangle. 11 / 37
  • 13. Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs. nombres à l'intérieur des cercles sont les valeurs de division et le nom de la variable cho 12 / 37
  • 14. 3 Construction de l’arbre Croissance de l’arbre pour estimer une moyenne Lien avec le problème de régression classique Arrêt de la ramification Généralisation et extensions 13 / 37
  • 15. Notations utilisées dans l’exposé → i ∈ 1, n : identifiant de l’individu / l’assuré ; → j ∈ 1, k : identifiant du facteur de risque (continu ou discret) ; → Yi : variable réponse du ième individu (continue ou discrète) ; → Xi = (Xi1, ..., Xik ) : vecteur des facteurs de risque de l’indiv. i ; → X : espace des covariables (facteurs de risque) ; → l ∈ 1, L : identifiant des feuilles de l’arbre ; → Xl : ensemble de la partition correspondant à la feuille l ; → π0(x) : quantité d’intérêt à estimer. 14 / 37
  • 16. Arbre de régression : cas classique avec Y continue Dans le cas d’une régression classique, la quantité d’intérêt est π0(x) = E0[Y | X = x] (1) En supposant une relation linéaire (dc se restreignant à une classe d’estimateurs), on estime les paramètres de régression par MCO. En toute généralité, on ne peut pas considérer ts les estimateurs potentiels de π0(x) ⇒ arbres sont 1 autre classe d’estimateurs : ce sont des fonct. constantes par morceaux pour le problème (1). Construire un arbre génére une suite d’estimateurs selon une procédure spécifique : divisions successives de l’espace X. 15 / 37
  • 17. Construction de l’arbre : critère de division La ramification de l’arbre est basée sur la définition d’un critère de division cohérent avec l’estimation de la quantité d’intérêt. Dans l’estimation de (1), les MCO sont utilisés car la solution est donnée par π0(x) = arg min π(x) E0[Φ(Y, π(x)) | X = x], (2) où Φ(Y, π(x)) = (Y − π(x))2 . La fonction de perte Φ correspond donc à l’erreur quadratique, et le critère est la minimisation de l’EQM. 16 / 37
  • 18. Lien entre régression et arbre : la notion de “règles” Tout arbre de régression est un ensemble de règles. Pour chaque noeud m, une règle Rm est associée à un ss-ensemble Xm ⊆ X. Notation : dans la suite, En[Y] désigne la moyenne empirique de Y, et Xpa(m) est le sous-ensemble associé au noeud parent de m. L’arbre est associé à la fonction de régression ˆπ(x) = M m=1 ˆβtree m Rm(x) (3) où ˆβtree m = En[Y | x ∈ Xm] − En[Y | x ∈ Xpa(m)] si m racine, ˆβtree m = En[Y] sinon. 17 / 37
  • 19. Cela équivaut en régression classique à chercher ˆβtree = arg min βtree En Y − βtree m Rm(x) 2 . A partir de (3) et en sommant sur ts les noeuds : ˆπ(x) := ˆπL (x) = L l=1 ˆγl Rl(x) (4) avec L est le nombre de feuilles de l’arbre, l leur indice, Rl(x) = 11(x ∈ Xl) : une “règle” de division, ˆγl = En[Y | x ∈ Xl] : moyenne empirique de Y dans la feuille l, les sous-ensembles Xl ⊆ X de la partition sont disjoints (Xl ∩ Xl = ∅, l l ), exhaustifs (X = ∪l Xl). 18 / 37
  • 20. (4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peut être vu comme un estimateur par morceaux. Interprétation : chaque morceau est une feuille, dont la valeur est la moyenne empirique des valeurs de Y de cette feuille, chaque division vise à minimiser la somme des variances intra-noeuds résultantes. Idée : maximiser l’homogénéité... La construction étant récursive, on génère une suite d’estimateurs depuis le nd racine : soit une suite {ΠK } de ss-espaces t.q. ΠK ⊆ Π, ΠK = πL (.) = L l=1 γl Rl(.) : L ∈ N∗ , L ≤ K . (5) 19 / 37
  • 21. A K fixé, on cherche πK 0 tq πK 0 (x) = arg min π(x)∈ΠK E0[Φ(Y, π(x)) | X = x]. En pratique on cherche la version empirique, ˆπK , telle que ˆπK (x) = arg min π(x)∈ΠK En[ Φ(Y, π(x)) ]. ou encore ˆπK (x) = arg min γ=(γ1,...,γL ) En[ Φ(Y, πL (x)) ]. (6) Les estimateurs par arbre ne cherchent pas tous les estimateurs possibles avec L ≤ K : ils approchent ce minimum récursivement. 20 / 37
  • 22. Arrêt de la procédure de division Le principe de l’algorithme CART est de ne pas fixer de règle d’arrêt arbitraire pour la procédure. L’algorithme arrête ainsi de diviser les feuilles quand : il n’y a qu’une observation dans la feuille, ou les individus de la feuille ont les mêmes valeurs de facteurs de risque. On construit ainsi l’arbre “maximal”, qui sera ensuite élagué. Cet arbre maximal est donc l’estimateur par morceaux final le plus complexe de la suite d’estimateurs construits : sa convergence est garantie (voir [BFOS84]). 21 / 37
  • 23. Généralisation et extensions avec Φ fonction de perte π0(x) = arg min π(x) E0[Φ(Y, π(x)) | X = x] Estimation de moyenne : π0(x) = E0[Y | X = x] → critère de division (MCO) : Φ(Y, π(x)) = (Y − π(x))2 . Estim. quantile : π0(x) = QY (α|X = x) = inf{y : F(y|X = x) ≥ α} → critère de division : Φα(y, π(x)) = α|y−π(x)|11(y > π(x)) + (1−α)|y−π(x)|11(y ≤ π(x)) Estimation de densité de la loi de Y → Φ(Y, π(x)) = − log π(Y, x), avec π la densité jointe de (Y, X). 22 / 37
  • 24. 4 Procédure d’élagage de l’arbre Critère d’élagage de l’arbre Algorithme d’élagage de l’arbre 23 / 37
  • 25. Elagage : critère coût-complexité Une fois l’arbre maximal construit (de taille K(n)), on obtient une suite d’estimateurs (ˆπK (x))K=1,...,K(n). Eviter estimateur trop complexe ⇒ trouver le meilleur sous-arbre de l’arbre maximal selon un critère “adéquation - complexité” : Rα(ˆπK (x)) = En[ Φ(Y, ˆπK (x)) ] + α (K/n). Pour α fixé, l’estimateur retenu satisfait ˆπK α (x) = arg min (ˆπK )K=1,...,K(n) Rα(ˆπK (x)). (7) 24 / 37
  • 26. Elagage : procédure de sélection de modèle et estimateur final On fait croître itérativement α : 0 = α1 < ... < αz < ... < αZ−1 < αZ , et on choisit pour chaque αz le meilleur estimateur donné par (7). Par construction, on a une suite décroissante de sous-arbres optimaux de l’arbre maximal vers la racine. Dans cette liste d’estimateurs, on choisit finalement ˆα tel que ˆπK ˆα (x) = arg min (ˆπK αz )α=α1,...,αZ Rαz (ˆπK αz (x)). (8) Consistance : voir [MDvdL04] and [GN05]. 25 / 37
  • 27. 5 Robustesse de la méthode CART 26 / 37
  • 28. Un mot sur la robustesse de la méthode CART Certaines techniques ont été développées afin de stabiliser la prévision donnée par un estimateur arbre. En effet, la construction d’un arbre optimal peut varier fortement quand bien même le jeu de données initial varie peu. D’où l’idée de proposer des procédures avec 1 choix aléatoire des facteurs de risque considérés lors d’une division : il s’agit de la méthode dite de “bagging”. 2 tirage aléatoire de sous-jeux de données ( valid. croisées). 27 / 37
  • 29. Exemple le plus connu : les forêts aléatoires L’objectif des forêts aléatoires est de proposer un estimateur de type “bootstrap” afin d’améliorer la robustesse de l’estimation de la quantité d’intérêt. Il s’agit de moyenner les prévisions obtenues. Cette approche est intéressante pour deux raisons principales : on peut dégager un classement du pouvoir explicatif de chacun des facteurs de risque, sa consistance a été démontrée récemment dans plusieurs articles récents : [IK10], [Mei09], [Mei06]... 28 / 37
  • 30. 6 Application sur un cas concret d’assurance 29 / 37
  • 31. Exemple illustratif : prévisions de taux de mortalité Résultats suivants extraits de l’article [Olb12]. C’est un portefeuille de SwissRe avec les carsctéristiques suivantes : comprenant 1 463 964 enregistrements, couvrant une période de 4 ans, les variables explicatives en jeu sont le sexe et l’âge. Les résultats obtenus par CART sont comparés à la table de mortalité actuelle “German standard life table DAV 2008 T”. 30 / 37
  • 32. Arbre obtenu par algorithme CART Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6) 0.012 male 142 W. Olbricht 31 / 37
  • 33. Courbe de mortalité Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6) 0 10 20 30 40 50 60 70 0.0000.0020.0040.0060.0080.0100.012 Age Mortalityrate male female both Fig. 9 Visualization of the final tree for the standard life table example 32 / 37
  • 34. Performance de la prévision par arbre CART in any case. Thus, the phenomenon underscores the importance to use a selection of years as an independent test set (and not just a sample of all data records) in order to get some idea of the real extent of this type of variability. Table 6 Performance of the tree from Fig. 8 Node Learning set Independent test set No. of elements in node No. of deaths in node Estimated mortality rate (per mille) No. of elements in node No. of deaths in node Tree prediction (Fig. 8) Classical prediction (DAV 2008 T) 1 286,298 137 0.479 254,995 143 122 127 2 77,812 96 1.234 75,882 60 94 79 3 78,792 118 1.498 79,202 146 119 116 4 163,197 406 2.488 155,912 361 388 389 5 32,293 92 2.849 33,163 119 94 96 6 7,315 37 5.058 7,440 26 38 36 7 36,921 176 4.767 41,759 163 199 188 8 24,515 148 6.037 20,708 118 125 118 9 9,835 68 6.914 8,354 59 58 55 10 36,046 305 8.461 33,525 219 284 299 Total 753,024 1,583 710,940 1,414 1,521 1,503 33 / 37
  • 35. Conclusion Pourquoi cette technique est-elle intéressante pour le big data ? → Algorithme naturellement adapté à la gestion de grandes bases de données : → Technique non-paramétrique : pas d’hypothèses sur le lien entre quantité d’intérêt et facteurs de risque. Capte bien les structures de dépendance non linéaires ; → Simplicité de l’estimateur final : faible dimension, interprétation de l’arbre et visionnage des résultats ; → Consistance de la procédure théoriquement prouvée ; 34 / 37
  • 36. → Classement naturel du pouvoir discriminant des facteurs de risque ; → Multiples extensions possibles en travaillant sur les propriétés de la fonction de perte. Quels en sont les points faibles ? → Hypothèses sous-jacentes pouvant parfois être remises en cause ; → Manque de résultats théoriques dans des cas moins classiques ; → Instabilité : nécessité de la compléter avec des techniques de type forêts aléatoires. 35 / 37
  • 37. Bibliographie J.P. Baudry. Sélection de modèle pour la classification non supervisée. Choix du nombre de classes. PhD thesis, Univ. Paris Sud XI, 2009. L. Breiman, J. Friedman, R. A. Olshen, and C. J. Stone. Classification and Regression Trees. Chapman and Hall, 1984. Servane Gey and Elodie Nedelec. Model selection for cart regression trees. IEEE Transactions on Information Theory, 51(2) :658–670, 2005. Hemant Ishwaran and Udaya B. Kogalur. Consistency of random survival forests. Statistics and Probability Letters, 80(13-14) :1056–1064, 2010. Annette M. Molinaro, Sandrine Dudoit, and Mark J. van der Laan. Tree-based multivariate regression and density estimation with right-censored data. JMVA, 90(1) :154–177, 2004. 36 / 37
  • 38. Nicolai Meinshausen. Quantile regression forests. Journal of Machine Learning Research, 7 :983–999, 2006. Nicolai Meinshausen. Forest garrote. Electronic Journal of Statistics, 3 :1288–1304, 2009. X. Milhaud, V. Maume-Deschamps, and S. Loisel. Surrender triggers in life insurance : what main features affect the surrender behavior in a classical economic context ? Bulletin Français d’Actuariat, 22 :5–48, 2011. Walter Olbricht. Tree-based methods : a useful tool for life insurance. European Actuarial Journal, 2(1) :129–147, 2012. 37 / 37