Xavier Milaud - Techniques d'arbres de classification et de régression
1. Techniques d’arbre de classification et de
régression
GT Big Data, sous GT 2
Maison des actuaires, le 5 mai 2014
Xavier Milhaud1,2
1
ENSAE ParisTech, département d’actuariat
2
CREST, Laboratoire de Finance et d’Assurance
1 / 37
2. Plan de l’exposé
1 Introduction à la problématique
2 Exemples d’utilisation
3 Construction de l’arbre
4 Procédure d’élagage de l’arbre
5 Robustesse de la méthode CART
6 Application sur un cas concret d’assurance
2 / 37
3. Contexte classique d’étude des risques en assurance
Pour prévoir le futur, un assureur essaie généralement d’avoir la
meilleure connaissance possible du coût de ses sinistres.
Les bases de données des assureurs comportent un ensemble
d’informations sur
les caractéristiques de l’assuré,
les options du contrat,
les conditions de marché.
Ces informations jouent un rôle crucial dans les prévisions de
sinistralité ⇒ il faut conserver les caractéristiques individuelles.
3 / 37
4. Objectif : prévision individualisée d’une quantité
d’intérêt
Pour cela, on va regrouper des individus homogènes...
∃ de nombreuses techniques de classification (création de
groupes d’assurés homogènes), parmi lesquelles :
pour la classification non-supervisée :
→ les algorithmes dits des k-plus proches voisins ;
→ les techniques ascendantes d’arbre de classification (CAH) ;
→ la classification par model-based clustering : [Bau09].
pour la classification supervisée :
→ les modèles de choix (LOGIT) ;
→ les réseaux de neurones ;
→ les méthodes descendantes d’arbre (CART, CHAID, ...) ;
4 / 37
5. Quelques références sur l’utilisation des arbres en
actuariat (pas du tout exhaustif)
Prévision de taux de mortalité par tranche d’âge : [Olb12]
Prévision des comportements de rachat : [MMDL11]
Applications en assurance non vie de techniques d’arbre : R.A.
DERRIG et L. FRANCIS, Casualty Actuarial Society (CAS),
Variance, vol. 2 issue 2.
Lien entre scoring d’assurés par arbre et pertes : GUSZCZA, WU
et CHENG-SHENG, Casualty Actuarial Society Forum, 2003
5 / 37
6. Arbre et clustering : quelques premiers éléments
Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre...
Mais qu’est-ce qu’un arbre ?
1 Une racine : contient l’ensemble de la population à segmenter
(le portefeuille global) ⇒ c’est le point de départ ;
2 Un tronc et des branches : contiennent les règles de division
qui permettent de segmenter la population ;
3 Des feuilles : contiennent les sous-populations homogènes
créées, fournissent l’estimation de la quantité d’intérêt.
6 / 37
7. 2 Exemples d’utilisation
Une méthode populaire : un premier exemple
Application à la classification du statut propriétaire
7 / 37
8. Aparté sur la lecture d’un arbre
Un arbre de classification / régression se lit de la racine vers les
feuilles.
A chaque ramification, une règle de division apparait : dans CART,
cette règle ( question) admet une réponse binaire,
elle n’est basée que sur un facteur de risque.
Un noeud est l’intersection d’un ensemble de règles. L’estimation
de la quantité d’intérêt se lit dans les noeuds terminaux (feuilles).
N’importe quel individu de la population initiale appartient à une
unique feuille : les sous-populations créées sont disjointes.
8 / 37
9. Exemple 1 : prévisions des résultats des primaires aux US
Il s’agit de déterminer les facteurs clefs qui ont joué sur les
résultats des primaires de 2008 aux USA :
Qui de H. Clinton ou B. Obama remportera tel ou tel état ?
Entre Clinton et Obama, deux critères de population de votants
apparaissent comme essentiels :
1 la couleur de peau des votants,
2 leur niveau d’éducation.
On peut visualiser ces résultats sur la publication suivante du NY
Times...
9 / 37
12. Partitionnement et arbre correspondant
Partitionnement qui maximise l’homogénéité dans chq rectangle.
11 / 37
13. Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs.
nombres à l'intérieur des cercles sont les valeurs de division et le nom de la variable cho
12 / 37
14. 3 Construction de l’arbre
Croissance de l’arbre pour estimer une moyenne
Lien avec le problème de régression classique
Arrêt de la ramification
Généralisation et extensions
13 / 37
15. Notations utilisées dans l’exposé
→ i ∈ 1, n : identifiant de l’individu / l’assuré ;
→ j ∈ 1, k : identifiant du facteur de risque (continu ou discret) ;
→ Yi : variable réponse du ième
individu (continue ou discrète) ;
→ Xi = (Xi1, ..., Xik ) : vecteur des facteurs de risque de l’indiv. i ;
→ X : espace des covariables (facteurs de risque) ;
→ l ∈ 1, L : identifiant des feuilles de l’arbre ;
→ Xl : ensemble de la partition correspondant à la feuille l ;
→ π0(x) : quantité d’intérêt à estimer.
14 / 37
16. Arbre de régression : cas classique avec Y continue
Dans le cas d’une régression classique, la quantité d’intérêt est
π0(x) = E0[Y | X = x] (1)
En supposant une relation linéaire (dc se restreignant à une classe
d’estimateurs), on estime les paramètres de régression par MCO.
En toute généralité, on ne peut pas considérer ts les estimateurs
potentiels de π0(x) ⇒ arbres sont 1 autre classe d’estimateurs :
ce sont des fonct. constantes par morceaux pour le problème (1).
Construire un arbre génére une suite d’estimateurs selon une
procédure spécifique : divisions successives de l’espace X.
15 / 37
17. Construction de l’arbre : critère de division
La ramification de l’arbre est basée sur la définition d’un critère de
division cohérent avec l’estimation de la quantité d’intérêt.
Dans l’estimation de (1), les MCO sont utilisés car la solution est
donnée par
π0(x) = arg min
π(x)
E0[Φ(Y, π(x)) | X = x], (2)
où Φ(Y, π(x)) = (Y − π(x))2
.
La fonction de perte Φ correspond donc à l’erreur quadratique, et
le critère est la minimisation de l’EQM.
16 / 37
18. Lien entre régression et arbre : la notion de “règles”
Tout arbre de régression est un ensemble de règles. Pour chaque
noeud m, une règle Rm est associée à un ss-ensemble Xm ⊆ X.
Notation : dans la suite, En[Y] désigne la moyenne empirique de
Y, et Xpa(m) est le sous-ensemble associé au noeud parent de m.
L’arbre est associé à la fonction de régression
ˆπ(x) =
M
m=1
ˆβtree
m Rm(x) (3)
où ˆβtree
m = En[Y | x ∈ Xm] − En[Y | x ∈ Xpa(m)] si m racine,
ˆβtree
m = En[Y] sinon.
17 / 37
19. Cela équivaut en régression classique à chercher
ˆβtree
= arg min
βtree
En Y − βtree
m Rm(x)
2
.
A partir de (3) et en sommant sur ts les noeuds :
ˆπ(x) := ˆπL
(x) =
L
l=1
ˆγl Rl(x) (4)
avec
L est le nombre de feuilles de l’arbre, l leur indice,
Rl(x) = 11(x ∈ Xl) : une “règle” de division,
ˆγl = En[Y | x ∈ Xl] : moyenne empirique de Y dans la feuille l,
les sous-ensembles Xl ⊆ X de la partition sont
disjoints (Xl ∩ Xl = ∅, l l ),
exhaustifs (X = ∪l Xl).
18 / 37
20. (4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peut
être vu comme un estimateur par morceaux.
Interprétation :
chaque morceau est une feuille, dont la valeur est la moyenne
empirique des valeurs de Y de cette feuille,
chaque division vise à minimiser la somme des variances
intra-noeuds résultantes. Idée : maximiser l’homogénéité...
La construction étant récursive, on génère une suite d’estimateurs
depuis le nd racine : soit une suite {ΠK
} de ss-espaces t.q. ΠK
⊆ Π,
ΠK
= πL
(.) =
L
l=1
γl Rl(.) : L ∈ N∗
, L ≤ K . (5)
19 / 37
21. A K fixé, on cherche πK
0
tq πK
0
(x) = arg min
π(x)∈ΠK
E0[Φ(Y, π(x)) | X = x].
En pratique on cherche la version empirique, ˆπK
, telle que
ˆπK
(x) = arg min
π(x)∈ΠK
En[ Φ(Y, π(x)) ].
ou encore
ˆπK
(x) = arg min
γ=(γ1,...,γL )
En[ Φ(Y, πL
(x)) ]. (6)
Les estimateurs par arbre ne cherchent pas tous les estimateurs
possibles avec L ≤ K : ils approchent ce minimum récursivement.
20 / 37
22. Arrêt de la procédure de division
Le principe de l’algorithme CART est de ne pas fixer de règle
d’arrêt arbitraire pour la procédure.
L’algorithme arrête ainsi de diviser les feuilles quand :
il n’y a qu’une observation dans la feuille, ou
les individus de la feuille ont les mêmes valeurs de facteurs
de risque.
On construit ainsi l’arbre “maximal”, qui sera ensuite élagué.
Cet arbre maximal est donc l’estimateur par morceaux final le plus
complexe de la suite d’estimateurs construits : sa convergence est
garantie (voir [BFOS84]).
21 / 37
23. Généralisation et extensions avec Φ fonction de perte
π0(x) = arg min
π(x)
E0[Φ(Y, π(x)) | X = x]
Estimation de moyenne : π0(x) = E0[Y | X = x]
→ critère de division (MCO) : Φ(Y, π(x)) = (Y − π(x))2
.
Estim. quantile : π0(x) = QY (α|X = x) = inf{y : F(y|X = x) ≥ α}
→ critère de division :
Φα(y, π(x)) = α|y−π(x)|11(y > π(x)) + (1−α)|y−π(x)|11(y ≤ π(x))
Estimation de densité de la loi de Y → Φ(Y, π(x)) = − log π(Y, x),
avec π la densité jointe de (Y, X).
22 / 37
24. 4 Procédure d’élagage de l’arbre
Critère d’élagage de l’arbre
Algorithme d’élagage de l’arbre
23 / 37
25. Elagage : critère coût-complexité
Une fois l’arbre maximal construit (de taille K(n)), on obtient une
suite d’estimateurs (ˆπK
(x))K=1,...,K(n).
Eviter estimateur trop complexe ⇒ trouver le meilleur sous-arbre
de l’arbre maximal selon un critère “adéquation - complexité” :
Rα(ˆπK
(x)) = En[ Φ(Y, ˆπK
(x)) ] + α (K/n).
Pour α fixé, l’estimateur retenu satisfait
ˆπK
α (x) = arg min
(ˆπK )K=1,...,K(n)
Rα(ˆπK
(x)). (7)
24 / 37
26. Elagage : procédure de sélection de modèle et estimateur final
On fait croître itérativement α : 0 = α1 < ... < αz < ... < αZ−1 < αZ ,
et on choisit pour chaque αz le meilleur estimateur donné par (7).
Par construction, on a une suite décroissante de sous-arbres
optimaux de l’arbre maximal vers la racine. Dans cette liste
d’estimateurs, on choisit finalement ˆα tel que
ˆπK
ˆα (x) = arg min
(ˆπK
αz )α=α1,...,αZ
Rαz (ˆπK
αz
(x)). (8)
Consistance : voir [MDvdL04] and [GN05].
25 / 37
28. Un mot sur la robustesse de la méthode CART
Certaines techniques ont été développées afin de stabiliser la
prévision donnée par un estimateur arbre.
En effet, la construction d’un arbre optimal peut varier fortement
quand bien même le jeu de données initial varie peu.
D’où l’idée de proposer des procédures avec
1 choix aléatoire des facteurs de risque considérés lors d’une
division : il s’agit de la méthode dite de “bagging”.
2 tirage aléatoire de sous-jeux de données ( valid. croisées).
27 / 37
29. Exemple le plus connu : les forêts aléatoires
L’objectif des forêts aléatoires est de proposer un estimateur de
type “bootstrap” afin d’améliorer la robustesse de l’estimation de la
quantité d’intérêt.
Il s’agit de moyenner les prévisions obtenues.
Cette approche est intéressante pour deux raisons principales :
on peut dégager un classement du pouvoir explicatif de
chacun des facteurs de risque,
sa consistance a été démontrée récemment dans plusieurs
articles récents : [IK10], [Mei09], [Mei06]...
28 / 37
31. Exemple illustratif : prévisions de taux de mortalité
Résultats suivants extraits de l’article [Olb12].
C’est un portefeuille de SwissRe avec les carsctéristiques
suivantes :
comprenant 1 463 964 enregistrements,
couvrant une période de 4 ans,
les variables explicatives en jeu sont le sexe et l’âge.
Les résultats obtenus par CART sont comparés à la table de
mortalité actuelle “German standard life table DAV 2008 T”.
30 / 37
32. Arbre obtenu par algorithme CART
Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the
mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6)
0.012
male
142 W. Olbricht
31 / 37
33. Courbe de mortalité
Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the
mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6)
0 10 20 30 40 50 60 70
0.0000.0020.0040.0060.0080.0100.012
Age
Mortalityrate
male
female
both
Fig. 9 Visualization of the final tree for the standard life table example
32 / 37
34. Performance de la prévision par arbre CART
in any case. Thus, the phenomenon underscores the importance to use a selection of
years as an independent test set (and not just a sample of all data records) in order to
get some idea of the real extent of this type of variability.
Table 6 Performance of the tree from Fig. 8
Node Learning set Independent test set
No. of
elements
in node
No. of
deaths in
node
Estimated
mortality rate
(per mille)
No. of
elements
in node
No. of
deaths in
node
Tree
prediction
(Fig. 8)
Classical
prediction
(DAV 2008 T)
1 286,298 137 0.479 254,995 143 122 127
2 77,812 96 1.234 75,882 60 94 79
3 78,792 118 1.498 79,202 146 119 116
4 163,197 406 2.488 155,912 361 388 389
5 32,293 92 2.849 33,163 119 94 96
6 7,315 37 5.058 7,440 26 38 36
7 36,921 176 4.767 41,759 163 199 188
8 24,515 148 6.037 20,708 118 125 118
9 9,835 68 6.914 8,354 59 58 55
10 36,046 305 8.461 33,525 219 284 299
Total 753,024 1,583 710,940 1,414 1,521 1,503
33 / 37
35. Conclusion
Pourquoi cette technique est-elle intéressante pour le big data ?
→ Algorithme naturellement adapté à la gestion de grandes bases
de données :
→ Technique non-paramétrique : pas d’hypothèses sur le lien
entre quantité d’intérêt et facteurs de risque. Capte bien les
structures de dépendance non linéaires ;
→ Simplicité de l’estimateur final : faible dimension, interprétation
de l’arbre et visionnage des résultats ;
→ Consistance de la procédure théoriquement prouvée ;
34 / 37
36. → Classement naturel du pouvoir discriminant des facteurs de
risque ;
→ Multiples extensions possibles en travaillant sur les propriétés
de la fonction de perte.
Quels en sont les points faibles ?
→ Hypothèses sous-jacentes pouvant parfois être remises en
cause ;
→ Manque de résultats théoriques dans des cas moins
classiques ;
→ Instabilité : nécessité de la compléter avec des techniques de
type forêts aléatoires.
35 / 37
37. Bibliographie
J.P. Baudry.
Sélection de modèle pour la classification non supervisée. Choix du nombre de
classes.
PhD thesis, Univ. Paris Sud XI, 2009.
L. Breiman, J. Friedman, R. A. Olshen, and C. J. Stone.
Classification and Regression Trees.
Chapman and Hall, 1984.
Servane Gey and Elodie Nedelec.
Model selection for cart regression trees.
IEEE Transactions on Information Theory, 51(2) :658–670, 2005.
Hemant Ishwaran and Udaya B. Kogalur.
Consistency of random survival forests.
Statistics and Probability Letters, 80(13-14) :1056–1064, 2010.
Annette M. Molinaro, Sandrine Dudoit, and Mark J. van der Laan.
Tree-based multivariate regression and density estimation with right-censored data.
JMVA, 90(1) :154–177, 2004.
36 / 37
38. Nicolai Meinshausen.
Quantile regression forests.
Journal of Machine Learning Research, 7 :983–999, 2006.
Nicolai Meinshausen.
Forest garrote.
Electronic Journal of Statistics, 3 :1288–1304, 2009.
X. Milhaud, V. Maume-Deschamps, and S. Loisel.
Surrender triggers in life insurance : what main features affect the surrender behavior
in a classical economic context ?
Bulletin Français d’Actuariat, 22 :5–48, 2011.
Walter Olbricht.
Tree-based methods : a useful tool for life insurance.
European Actuarial Journal, 2(1) :129–147, 2012.
37 / 37