SlideShare una empresa de Scribd logo
1 de 20
Analyse en Composantes Principales
Introduction
L’analyse en composantes principales (ACP) appartient à la famille des méthodes d’analyse de
données.
Elle a été proposée en 1901 par Karl Pearson. L’ACP s’appuie essentiellement sur de la géométrie,
de l’algèbre linéaire et les statistiques.
Face au fléau de la dimensionnalité que connaissent les algorithmes de machine learning à
réseaux de neurones profonds, l’intérêt pour cette méthode a été renouvelé. En effet sa capacité
à réduire la dimension des données à traiter permet d’améliorer la performance des algorithmes
et, au-delà, de réduire le risque de surapprentissage.
L’ACP est considérée comme étant une méthode d’apprentissage automatique non supervisé.
201J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Objectifs
• Réduire le nombre de variables en les résumant à un nombre plus petit de composantes
synthétiques
• Construire des groupes d’individus qui présentent des similitudes
• Extraire les principales caractéristiques des individus pour éventuellement les utiliser dans
des algorithmes d’apprentissage automatique
• Permettre une représentation graphique optimale des informations recueillies
• Disposer d’outils permettant l’interprétation des résultats obtenus.
Lors de l’analyse en composante principale on s’intéresse aux similitudes entre les individus et
aux corrélations entre les variables.
202J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Données à manipuler
On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour
l’individu Xi. Ces données sont représentées sous forme matricielle par :
X =
Ou tout simplement
X =
Les lignes représentent les individus et les colonnes les variables.
V1 V2 … VJ
X1 x11 x12 x1J
X2 x21 x22 x2J
⁞
XI xI1 xI2 xIJ
x11 x12 … x1J
x21 x22 x2J
⁞ ⁞ ⁞
xI1 xI2 xIJ
203J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Exemple :
Dans le tableau ci-dessous on considère les notes de 10 étudiants dans 5 modules :
Dans les cas concrets, il s’agit souvent de tableaux avec beaucoup plus de données. Il arrive que
l’on traite des millions d’individus et des centaines de milliers de variables. Il est commode que le
nombre d’individus soit largement supérieur aux nombre de variables.
204J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Espaces des données
Les lignes qui représentent les I individus, notées Xi sont considérées comme appartenant à RJ.
Les colonnes qui représentent les J variables Vj , appartiennent à RI.
Pour chaque j, on calcule la moyenne des valeurs prises par la variable Vj :
Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée correspondante.
On obtient alors :
XCentrée =
Pour simplifier on va par la suite maintenir la notation de la matrice X pour désigner XCentrée.


I
1i
ijj x
I
1
x
x11 x12 x1J
x21 x22 x2J
xI1 xI2 xIJ
1x 2x Jx
1x 2x Jx
1x 2x Jx
205J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Exemple :
Pour le tableau des notes des étudiants on obtient :
Lorsque les variables sont centrées, la moyenne de chaque variable devient nulle. Par contre
l’écart type reste le même. La translation n’affecte pas la dispersion des valeurs d’une variable.
X =
206J. DABOUNOU - FST DE SETTAT
Analyse en Composantes Principales
Analyse des individus dans l’espace des variables
On projette les I vecteurs lignes représentant les individus dans l’espace RJ. On obtient un
graphique similaire à celui-ci-dessous :
Soit D1 une droite qui passe par l’origine et u1 un vecteur unitaire de de cette droite. On note O1i
la projection de Xi sur D1.
O
RJ
u1
Xi
O1i
D1
207J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
On considère O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. On a :
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1
208J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
Les points O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1.
L’analyse de cette série, notamment en terme de variance, peut nous renseigner sur la variance
globale des points Xi dans l’espace RJ.
On cherche alors, pour commencer, à trouver la direction D1 qui réalise un maximum de variance
des points projetés O1i i=1,I. Cela revient à dire que D1 maximise la dispersion des points projetés
parmi toutes les directions passant par l’origine O.
Analyse en Composantes Principales
u1 D1
O O1i
209J. DABOUNOU - FST DE SETTAT
Matrice des variances covariance
Soit
 s’appelle matrice de variance covariance.
Si on pose  = ( skl), k,l=1,J alors skl est la covariance des variables Vk et Vl.
En particulier si k=l, skk est la variance de la variable Vk.
skl = var(Vk , Vl) et skk = var(Vk)
On voit facilement que XtX et  ont les mêmes vecteurs propres et (à un facteur I près) les
mêmes valeurs propres et d’un autre côté, ces matrices sont symétriques et semi-définies
positives, donc possèdent r valeurs propres positives, r étant le rang de XtX (ou de ).
On a toujours r  min(I,J).
On pose 1  2  … r  0 les valeurs propres et u1, u2, …, ur les vecteurs propres associés.
Analyse en Composantes Principales
XXΣ t
I
1

210J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
Il s’agit d’un problème d’optimisation:
Trouver u1 qui maximise :
I1 étant l’inertie expliquée par la droite D1.
On remarque déjà que maximiser :
Revient à minimiser
Ainsi la droite D1 recherchée est celle qui soit la plus proche du nuage de points Xi.
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1


I
1i
2
i1 1
I
1
I OO


I
1i
2
i1 1
I
1
I OO

I
1i
2
ii 1OX
211J. DABOUNOU - FST DE SETTAT
Analyse des individus dans l’espace des variables
On a pour tout i=1,I: OO1i = Xiu1. Xi étant considéré comme un vecteur ligne.
Donc choisir u1 unitaire qui maximise
Revient à trouver u1 unitaire qui maximise (Xu1)t.(Xu1) = u1
t XtXu1.
On utilise la méthode de Lagrange. Soit  le multiplicateur de
Lagrange. On va alors maximiser le Lagrangien:
L(u1) = u1
t XtXu1 - (u1
t u1 - 1)
Le maximum est atteint lorsque la dérivée suivante s’annule :
On a ainsi deux conditions à satisfaire :
• u1 doit être vecteur propre de XtX associé à une valeur propre 1
• Cette valeur propre 1 doit être la plus grande des valeurs propres de XtX.
Analyse en Composantes Principales
O
RJ
u1
Xi
O1i
D1

I
1i
2
i1 1
I
1
I OO
022
L
11
t
1



uXuX
u
212J. DABOUNOU - FST DE SETTAT
Axes de l’ACP
L’ACP permet de représenter les individus (nuage de points) dans l’espace des variables dans la
base (u1, u2, …, ur). Les vecteurs propres ui sont unitaires et deux à deux orthogonaux.
Par ailleurs, on considère que l’information contenue dans les données correspond à la variance
globale des variables (dispersion des points).
Donc à l’inertie globale, égale à trace(XtX).
Or on sait que
Analyse en Composantes Principales
213J. DABOUNOU - FST DE SETTAT
)...(
I
1
)(trace
I
1
)var()(traceglobale_Inertie
r21
t
J
1j
j

 
XX
VΣ
O
RJ
u1
Xi
O1i
D1
u2
D2
I
1
Composantes principales
Les points O11, O12, …, O1I sont les projections des points
X1, X2, …, XI sur D1 et on a :
Soit le vecteur F1= (O11, O12, …, O1I)tRJ.
De même, O21, O22, … O2I sont les projections des points
X1, X2, …, XI sur D2 et on a :
Soit le vecteur F2= (O21, O22, … O2I)tRJ.
…
Et enfin Or1, Or2, …, OrI sont les projections des points X1,
X2, …, XI sur Dr et on a :
Soit le vecteur Fr= (Or1, Or2, … OrI)tRJ, espace des
variables.
Analyse en Composantes Principales
214J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞


I
1i
2
i1 1OO


I
1i
2
i2 2OO


I
1i
2
ir rOO
Composantes principales
Les vecteurs F1, F2,…, Fr sont appelés composantes
principales. On a
F1 = X u1, F2 = X u2, …, Fr = X ur.
La matrice X peut être remplacée, dans la base orthonormée
(u1, u2, …, ur) par la matrice de composantes principales
C = [ F1 F2 … Fr ]
Ce qui permet de réduire la dimension des données puisque
rJ sans perte d’information (Inertie globale).
En effet:
trace(XtX) = 1 + 2 +…+ r = u1
tXtXu1 + u2
tXtXu2 + …+ ur
tXtXur
= F1t F1 + F2t F2 + …+ Frt Fr = trace(Ct C)
Analyse en Composantes Principales
215J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
O
RJ
u1
Xi
O1i
D1
u2
O2i
D2
D2
u2
O
Dr
ur
O
⁞
Analyse en Composantes Principales
216J. DABOUNOU - FST DE SETTAT
D1
O O1i
u1
O2i
Ori
D2
u2
O
Dr
ur
O
⁞
Réduction de la dimensionnalité
Il arrive souvent que pour s très inférieur au rang r on ait :
Cela exprime le fait qu’à partir de s << r la variance des composantes principales (ou, autrement dit
les valeurs propres) devient négligeable (voir figure ci-dessous).
Dans ce cas La matrice X peut être remplacée, sans risque de perte d’information significative, par la
matrice C = [ F1 F2 … Fs ] dans le sous-espace engendré par la famille orthonormée (u1, u2, …, us).
Ce qui permet de réduire la dimension des données puisque s << r J.
1
...
...
r21
s21



Dans le contexte du machine learning, la contribution
des composantes principales de faible variance est
souvent considérée comme un bruit. Le fait de les
négliger améliore l’apprentissage en réduisant le risque
d’overfitting (surappretissage).
Le plan factoriel
Le plan défini par le couple de vecteurs propres (u1, u2) est appelé plan factoriel.
Il s’agit du plan :
- qui est globalement le plus proche des points représentant les individus
- sur lequel ces points se déforment le moins possible par projection
- qui explique le mieux possible l’inertie projetée
- tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la
disposition des individus dans l’espace RJ.
D’ailleurs ces quatre conditions sont équivalentes.
Cette visualisation est d’autant plus fidèle au nuage de points que le taux est
proche de 1.
Analyse en Composantes Principales
217J. DABOUNOU - FST DE SETTAT
r21
21
... 

Exemple de matrice des variances covariance
On considère notre exemple des notes des étudiants. On a alors
Analyse en Composantes Principales
XtX =
 =
Valeurs propres de XtX :
1 = 358,171559  2 = 120,66  1 = 18,189547  2 = 15,923189  r = 4,657534  0
218J. DABOUNOU - FST DE SETTAT
Exemple de matrice des variances covariance
On obtient pour la matrice de passage P et la matrice diagonale des valeurs propres D :
Analyse en Composantes Principales
Avec XtX = Pt D P
219J. DABOUNOU - FST DE SETTAT
P =
D =

Más contenido relacionado

La actualidad más candente

Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 

La actualidad más candente (20)

Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
La programmation modulaire en Python
La programmation modulaire en PythonLa programmation modulaire en Python
La programmation modulaire en Python
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
Corrigés exercices langage C
Corrigés exercices langage CCorrigés exercices langage C
Corrigés exercices langage C
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR
 
Cours echantillonnage et estimations
Cours echantillonnage et estimationsCours echantillonnage et estimations
Cours echantillonnage et estimations
 
Algorithmes de jeux
Algorithmes de jeuxAlgorithmes de jeux
Algorithmes de jeux
 
Les systèmes de recommandations
Les systèmes de recommandationsLes systèmes de recommandations
Les systèmes de recommandations
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
TD sur les fonctions en Python
TD sur  les fonctions en PythonTD sur  les fonctions en Python
TD sur les fonctions en Python
 
Stata pour les nuls
Stata pour les nulsStata pour les nuls
Stata pour les nuls
 
COURS_PYTHON_22.ppt
COURS_PYTHON_22.pptCOURS_PYTHON_22.ppt
COURS_PYTHON_22.ppt
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Les structures de données.pptx
Les structures de données.pptxLes structures de données.pptx
Les structures de données.pptx
 
Examen principal - Algorithme & Structures de données
Examen principal - Algorithme & Structures de donnéesExamen principal - Algorithme & Structures de données
Examen principal - Algorithme & Structures de données
 
Introduction à Python
Introduction à PythonIntroduction à Python
Introduction à Python
 

Similar a Analyse en Composantes Principales

Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
TarekDHAHRI1
 

Similar a Analyse en Composantes Principales (20)

Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUE
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
Chap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesChap9 : Systèmes non linéaires
Chap9 : Systèmes non linéaires
 
Slides cirm-copulasv3
Slides cirm-copulasv3Slides cirm-copulasv3
Slides cirm-copulasv3
 
Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)
 
Quad-expo-stats
Quad-expo-statsQuad-expo-stats
Quad-expo-stats
 
Actuariat et Données
Actuariat et DonnéesActuariat et Données
Actuariat et Données
 
Clustering
ClusteringClustering
Clustering
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Espacesvec
EspacesvecEspacesvec
Espacesvec
 
Chapitre1.pdf
Chapitre1.pdfChapitre1.pdf
Chapitre1.pdf
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistique
 
Ch1 anal fonc17-18
Ch1 anal fonc17-18Ch1 anal fonc17-18
Ch1 anal fonc17-18
 
Théorie des distributions
Théorie des distributionsThéorie des distributions
Théorie des distributions
 

Más de Jaouad Dabounou

Más de Jaouad Dabounou (17)

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdf
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine Learning
 
RNN avec mécanisme d'attention
RNN avec mécanisme d'attentionRNN avec mécanisme d'attention
RNN avec mécanisme d'attention
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermés
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensemble
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensemble
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de Carathéodory
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexes
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexes
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correction
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
 
W2 vec001
W2 vec001W2 vec001
W2 vec001
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolation
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse Numérique
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériques
 

Analyse en Composantes Principales

  • 1.
  • 2. Analyse en Composantes Principales Introduction L’analyse en composantes principales (ACP) appartient à la famille des méthodes d’analyse de données. Elle a été proposée en 1901 par Karl Pearson. L’ACP s’appuie essentiellement sur de la géométrie, de l’algèbre linéaire et les statistiques. Face au fléau de la dimensionnalité que connaissent les algorithmes de machine learning à réseaux de neurones profonds, l’intérêt pour cette méthode a été renouvelé. En effet sa capacité à réduire la dimension des données à traiter permet d’améliorer la performance des algorithmes et, au-delà, de réduire le risque de surapprentissage. L’ACP est considérée comme étant une méthode d’apprentissage automatique non supervisé. 201J. DABOUNOU - FST DE SETTAT
  • 3. Analyse en Composantes Principales Objectifs • Réduire le nombre de variables en les résumant à un nombre plus petit de composantes synthétiques • Construire des groupes d’individus qui présentent des similitudes • Extraire les principales caractéristiques des individus pour éventuellement les utiliser dans des algorithmes d’apprentissage automatique • Permettre une représentation graphique optimale des informations recueillies • Disposer d’outils permettant l’interprétation des résultats obtenus. Lors de l’analyse en composante principale on s’intéresse aux similitudes entre les individus et aux corrélations entre les variables. 202J. DABOUNOU - FST DE SETTAT
  • 4. Analyse en Composantes Principales Données à manipuler On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour l’individu Xi. Ces données sont représentées sous forme matricielle par : X = Ou tout simplement X = Les lignes représentent les individus et les colonnes les variables. V1 V2 … VJ X1 x11 x12 x1J X2 x21 x22 x2J ⁞ XI xI1 xI2 xIJ x11 x12 … x1J x21 x22 x2J ⁞ ⁞ ⁞ xI1 xI2 xIJ 203J. DABOUNOU - FST DE SETTAT
  • 5. Analyse en Composantes Principales Exemple : Dans le tableau ci-dessous on considère les notes de 10 étudiants dans 5 modules : Dans les cas concrets, il s’agit souvent de tableaux avec beaucoup plus de données. Il arrive que l’on traite des millions d’individus et des centaines de milliers de variables. Il est commode que le nombre d’individus soit largement supérieur aux nombre de variables. 204J. DABOUNOU - FST DE SETTAT
  • 6. Analyse en Composantes Principales Espaces des données Les lignes qui représentent les I individus, notées Xi sont considérées comme appartenant à RJ. Les colonnes qui représentent les J variables Vj , appartiennent à RI. Pour chaque j, on calcule la moyenne des valeurs prises par la variable Vj : Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée correspondante. On obtient alors : XCentrée = Pour simplifier on va par la suite maintenir la notation de la matrice X pour désigner XCentrée.   I 1i ijj x I 1 x x11 x12 x1J x21 x22 x2J xI1 xI2 xIJ 1x 2x Jx 1x 2x Jx 1x 2x Jx 205J. DABOUNOU - FST DE SETTAT
  • 7. Analyse en Composantes Principales Exemple : Pour le tableau des notes des étudiants on obtient : Lorsque les variables sont centrées, la moyenne de chaque variable devient nulle. Par contre l’écart type reste le même. La translation n’affecte pas la dispersion des valeurs d’une variable. X = 206J. DABOUNOU - FST DE SETTAT
  • 8. Analyse en Composantes Principales Analyse des individus dans l’espace des variables On projette les I vecteurs lignes représentant les individus dans l’espace RJ. On obtient un graphique similaire à celui-ci-dessous : Soit D1 une droite qui passe par l’origine et u1 un vecteur unitaire de de cette droite. On note O1i la projection de Xi sur D1. O RJ u1 Xi O1i D1 207J. DABOUNOU - FST DE SETTAT
  • 9. Analyse des individus dans l’espace des variables On considère O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. On a : Analyse en Composantes Principales O RJ u1 Xi O1i D1 208J. DABOUNOU - FST DE SETTAT
  • 10. Analyse des individus dans l’espace des variables Les points O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. L’analyse de cette série, notamment en terme de variance, peut nous renseigner sur la variance globale des points Xi dans l’espace RJ. On cherche alors, pour commencer, à trouver la direction D1 qui réalise un maximum de variance des points projetés O1i i=1,I. Cela revient à dire que D1 maximise la dispersion des points projetés parmi toutes les directions passant par l’origine O. Analyse en Composantes Principales u1 D1 O O1i 209J. DABOUNOU - FST DE SETTAT
  • 11. Matrice des variances covariance Soit  s’appelle matrice de variance covariance. Si on pose  = ( skl), k,l=1,J alors skl est la covariance des variables Vk et Vl. En particulier si k=l, skk est la variance de la variable Vk. skl = var(Vk , Vl) et skk = var(Vk) On voit facilement que XtX et  ont les mêmes vecteurs propres et (à un facteur I près) les mêmes valeurs propres et d’un autre côté, ces matrices sont symétriques et semi-définies positives, donc possèdent r valeurs propres positives, r étant le rang de XtX (ou de ). On a toujours r  min(I,J). On pose 1  2  … r  0 les valeurs propres et u1, u2, …, ur les vecteurs propres associés. Analyse en Composantes Principales XXΣ t I 1  210J. DABOUNOU - FST DE SETTAT
  • 12. Analyse des individus dans l’espace des variables Il s’agit d’un problème d’optimisation: Trouver u1 qui maximise : I1 étant l’inertie expliquée par la droite D1. On remarque déjà que maximiser : Revient à minimiser Ainsi la droite D1 recherchée est celle qui soit la plus proche du nuage de points Xi. Analyse en Composantes Principales O RJ u1 Xi O1i D1   I 1i 2 i1 1 I 1 I OO   I 1i 2 i1 1 I 1 I OO  I 1i 2 ii 1OX 211J. DABOUNOU - FST DE SETTAT
  • 13. Analyse des individus dans l’espace des variables On a pour tout i=1,I: OO1i = Xiu1. Xi étant considéré comme un vecteur ligne. Donc choisir u1 unitaire qui maximise Revient à trouver u1 unitaire qui maximise (Xu1)t.(Xu1) = u1 t XtXu1. On utilise la méthode de Lagrange. Soit  le multiplicateur de Lagrange. On va alors maximiser le Lagrangien: L(u1) = u1 t XtXu1 - (u1 t u1 - 1) Le maximum est atteint lorsque la dérivée suivante s’annule : On a ainsi deux conditions à satisfaire : • u1 doit être vecteur propre de XtX associé à une valeur propre 1 • Cette valeur propre 1 doit être la plus grande des valeurs propres de XtX. Analyse en Composantes Principales O RJ u1 Xi O1i D1  I 1i 2 i1 1 I 1 I OO 022 L 11 t 1    uXuX u 212J. DABOUNOU - FST DE SETTAT
  • 14. Axes de l’ACP L’ACP permet de représenter les individus (nuage de points) dans l’espace des variables dans la base (u1, u2, …, ur). Les vecteurs propres ui sont unitaires et deux à deux orthogonaux. Par ailleurs, on considère que l’information contenue dans les données correspond à la variance globale des variables (dispersion des points). Donc à l’inertie globale, égale à trace(XtX). Or on sait que Analyse en Composantes Principales 213J. DABOUNOU - FST DE SETTAT )...( I 1 )(trace I 1 )var()(traceglobale_Inertie r21 t J 1j j    XX VΣ O RJ u1 Xi O1i D1 u2 D2 I 1
  • 15. Composantes principales Les points O11, O12, …, O1I sont les projections des points X1, X2, …, XI sur D1 et on a : Soit le vecteur F1= (O11, O12, …, O1I)tRJ. De même, O21, O22, … O2I sont les projections des points X1, X2, …, XI sur D2 et on a : Soit le vecteur F2= (O21, O22, … O2I)tRJ. … Et enfin Or1, Or2, …, OrI sont les projections des points X1, X2, …, XI sur Dr et on a : Soit le vecteur Fr= (Or1, Or2, … OrI)tRJ, espace des variables. Analyse en Composantes Principales 214J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori O RJ u1 Xi O1i D1 u2 O2i D2 D2 u2 O Dr ur O ⁞   I 1i 2 i1 1OO   I 1i 2 i2 2OO   I 1i 2 ir rOO
  • 16. Composantes principales Les vecteurs F1, F2,…, Fr sont appelés composantes principales. On a F1 = X u1, F2 = X u2, …, Fr = X ur. La matrice X peut être remplacée, dans la base orthonormée (u1, u2, …, ur) par la matrice de composantes principales C = [ F1 F2 … Fr ] Ce qui permet de réduire la dimension des données puisque rJ sans perte d’information (Inertie globale). En effet: trace(XtX) = 1 + 2 +…+ r = u1 tXtXu1 + u2 tXtXu2 + …+ ur tXtXur = F1t F1 + F2t F2 + …+ Frt Fr = trace(Ct C) Analyse en Composantes Principales 215J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori O RJ u1 Xi O1i D1 u2 O2i D2 D2 u2 O Dr ur O ⁞
  • 17. Analyse en Composantes Principales 216J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori D2 u2 O Dr ur O ⁞ Réduction de la dimensionnalité Il arrive souvent que pour s très inférieur au rang r on ait : Cela exprime le fait qu’à partir de s << r la variance des composantes principales (ou, autrement dit les valeurs propres) devient négligeable (voir figure ci-dessous). Dans ce cas La matrice X peut être remplacée, sans risque de perte d’information significative, par la matrice C = [ F1 F2 … Fs ] dans le sous-espace engendré par la famille orthonormée (u1, u2, …, us). Ce qui permet de réduire la dimension des données puisque s << r J. 1 ... ... r21 s21    Dans le contexte du machine learning, la contribution des composantes principales de faible variance est souvent considérée comme un bruit. Le fait de les négliger améliore l’apprentissage en réduisant le risque d’overfitting (surappretissage).
  • 18. Le plan factoriel Le plan défini par le couple de vecteurs propres (u1, u2) est appelé plan factoriel. Il s’agit du plan : - qui est globalement le plus proche des points représentant les individus - sur lequel ces points se déforment le moins possible par projection - qui explique le mieux possible l’inertie projetée - tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la disposition des individus dans l’espace RJ. D’ailleurs ces quatre conditions sont équivalentes. Cette visualisation est d’autant plus fidèle au nuage de points que le taux est proche de 1. Analyse en Composantes Principales 217J. DABOUNOU - FST DE SETTAT r21 21 ...  
  • 19. Exemple de matrice des variances covariance On considère notre exemple des notes des étudiants. On a alors Analyse en Composantes Principales XtX =  = Valeurs propres de XtX : 1 = 358,171559  2 = 120,66  1 = 18,189547  2 = 15,923189  r = 4,657534  0 218J. DABOUNOU - FST DE SETTAT
  • 20. Exemple de matrice des variances covariance On obtient pour la matrice de passage P et la matrice diagonale des valeurs propres D : Analyse en Composantes Principales Avec XtX = Pt D P 219J. DABOUNOU - FST DE SETTAT P = D =