SlideShare una empresa de Scribd logo
1 de 63
Descargar para leer sin conexión
Analyse Factorielle des
Correspondances (AFC)
Inertie du nuage de points
J. DABOUNOU - FST DE SETTAT
UNIVERSITE HASSAN Ier
Mai 2020
YOUTUBE
https://youtube.com/playlist?list=PLzjg2z2kYUrg6XvYVYMxdZQnouBEwavfQ
Introduction
L’analyse factorielle des correspondance se propose de déterminer des liaisons
possible entre des variables qualitatives.
Partants des modalités obtenues pour deux variables qualitatives par rapport à n
individus, l’AFC, utilisera des principes communs à toutes les méthode d’analyse
factorielle pour rendre compte des liaisons entre variables, et permettre une
réduction de la dimensionnalité des données de façon à les ramener dans un espace
qui préserve (ou explique) le maximum d’inertie.
Nous allons présenter des démarches pour réaliser une AFC à travers un exemple
simple.
AFC001 - 1J. DABOUNOU - FST DE SETTAT
Données à manipuler
On considère n individus et deux variables qualitatives V1 et V2. On désigne par xpq
pour p=1,n et q=1,2 la modalité de la variable Vq pour l’individu p. Ces données sont
représentées sous forme matricielle par :
On cherche à savoir s’il y a des liaisons entre les deux variables V1 et V2.
L’analyse Factorielle des Correspondances (AFC) va nous apporter une réponse
« géométrique » à cette question. Elle va nous permettre en même temps de réduire
la dimensionnalité des données.
V1 V2
1 x11 x12
2 x21 x22
3 x31 x32
⁞
p xp1 xp2
⁞
n xn1 xn2
J. DABOUNOU - FST DE SETTAT AFC001 - 2
nindividus
Deux variables
Les modalités d'une variable qualitative sont
les différentes valeurs que cette variable peut
prendre.
Nous allons noter les I modalités de la
première variable : m11,…, m1i , … , m1I , et les
J modalités de la deuxième variable : m21,…,
m2j , … , m2J.
Tableau de contingence
On construit alors un tableau de contingence (ou tableau croisé) :
nij désigne le nombre d’individus possédant à la fois la modalité m1i de V1 et la
modalité m2j de V2. On voit facilement que l’on a :
n =
i=1,I et j=1,J
nij
m21 m22 m2j m2J
m11 n11 n12  n1j  n1J
m12
n21 n22  n2j n2J
⁞ ⁞ ⁞
m1i ni1 ni2  nij niJ
⁞ ⁞ ⁞
m1I nI1 nI2  nIj  nIJ
J. DABOUNOU - FST DE SETTAT AFC001 - 3
Modalités de V2
ModalitésdeV1
Exemple simple
Pour cet exemple, nous avons 30 individus (mobilier de
bureau) et deux variables, la variable Type (type de
mobilier) et la variable Couleur (couleur du mobilier).
On construit alors un tableau de contingence :
gris marron noir
armoire 1 3 5
bureau 2 6 3
chaise 5 4 1
J. DABOUNOU - FST DE SETTAT AFC001 - 4
Modalités de Couleur
ModalitésdeType
Type Couleur
1 bureau noir
2 chaise marron
3 bureau noir
4 bureau gris
5 armoire marron
6 bureau noir
7 chaise gris
8 bureau marron
9 bureau marron
10 chaise gris
11 armoire noir
12 armoire marron
13 chaise gris
14 chaise noir
15 bureau marron
16 bureau gris
17 chaise gris
18 bureau marron
19 chaise marron
20 bureau marron
21 chaise gris
22 armoire gris
23 armoire noir
24 bureau marron
25 armoire noir
26 chaise marron
27 armoire marron
28 armoire noir
29 chaise marron
30 armoire noir
nindividus
Deux variables
C’est sur la base de ce tableau que nous allons procéder
dans toute la suite.
Nous allons continuer à parler de population et
d’individus même s’il s’agit de mobilier de bureau.
Données à manipuler (Exemple)
On ajoute au tableau de contingence :
• une marge colonne : colonne à droite contenant la somme des meubles quelque soit
leur couleur pour chaque type de meuble.
• une marge ligne : ligne en bas contenant la somme des meubles quelque soit leur
type pour chaque couleur.
J. DABOUNOU - FST DE SETTAT AFC001 - 5
On ajoute ensuite :
• une colonne dont les termes sont la proportion de population pour chacune des
modalités de la variable « Type »
• une ligne dont les termes sont la proportion de population pour chacune des
modalités de la variable « Couleur »
gris marron noir TOTAL
armoire 1 3 5 9
bureau 2 6 3 11
chaise 5 4 1 10
TOTAL 8 13 9 30
gris marron noir TOTAL %
armoire 1 3 5 9 0.300
bureau 2 6 3 11 0.367
chaise 5 4 1 10 0.333
TOTAL 8 13 9 30 1
% 0,267 0,433 0,300 1
Notation en termes de probabilités
J. DABOUNOU - FST DE SETTAT AFC001 - 6
On note : fij =
nij
n qui spécifie la probabilité conjointe de posséder à la fois la modalité
m1i de la variable V1 et la modalité m2j de la variable V2. On voit alors que la marge
colonne (respectivement la marge ligne) est égale au profil colonne (resp. profil ligne) :
m21 m22 m2j m2J Cm
m11 f11 f12  f1j  f1J f1.
m12 f21 f22  f2j f2J f2.
⁞ ⁞ ⁞ ⁞
m1i fi1 fi2  fij fiJ fi.
⁞ ⁞ ⁞ ⁞
m1I fI1 fI2  fIj  fIJ fI.
Lm f.1 f.2  f.j f.J 1
Modalités de V2
ModalitésdeV1
probabilités
contingence
gris marron noir TOTAL Cm
armoire 1 3 5 9 0.300
bureau 2 6 3 11 0.367
chaise 5 4 1 10 0.333
TOTAL 8 13 9 30 1
Lm
0,267 0,433 0,300 1
Matrice des probabilités (Exemple)
J. DABOUNOU - FST DE SETTAT AFC001 - 7
probabilités
contingence
gris marron noir Cm
armoire 0,033 0,100 0,167 0.300
bureau 0,067 0,200 0,100 0.367
chaise 0,167 0,133 0,033 0.333
Lm
0,267 0,433 0,300 1
Le tableau de probabilités construit, à partir de notre tableau de contingence permet
de donner plus de signification aux données.
Pour l’exemple en cours, on obtient :
On peut exprimer le fait que les variables soient indépendantes par : Pour tout i=1,I et
tout j=1,J on doit avoir P(m1i, m2j) = P(m1i) P(m2j), autrement dit fij = fi..f.j.
Ce qui revient à dire que la probabilité conjointe est égale au produit des probabilités
marginales.
Situation d’indépendance
J. DABOUNOU - FST DE SETTAT AFC001 - 8
m21 m22 m2j m2J Cm
m11 f11 f12  f1j  f1J f1.
m12 f21 f22  f2j f2J f2.
⁞ ⁞ ⁞ ⁞
m1i fi1 fi2  fij fiJ fi.
⁞ ⁞ ⁞ ⁞
m1I fI1 fI2  fIj  fIJ fI.
Lm f.1 f.2  f.j f.J 1
Modalités de V2
ModalitésdeV1
Ou alors, si on se donne j{1,…,J}, avoir
fij
fi.
= f.j.
Il s’agit ici d’une égalité entre la probabilité
conditionnelle (posséder la modalité m2j
sachant qu’on a déjà la modalité m1i) est égale
à la probabilité marginale (posséder la
modalité m2j sans aucune condition sur la
variable V1).
On a :
P m2j m1i =
P(m1i, m2j)
P(m1i).
=
fij
fi.
et
P(m2j) = f.j
Les variables V1 et V2 sont indépendantes, si pour tout i=1,I et tout j=1,J on a fij = fi..f.j.
Ce qui revient à dire que le tableau des probabilités conjointes est égal au tableau des
produits des probabilités marginales.
Ainsi, on aura :
Tableaux en situation d’indépendance
J. DABOUNOU - FST DE SETTAT AFC001 - 9
m21 m22 m2j m2J Cm
m11 f11 f12  f1j  f1J f1.
m12 f21 f22  f2j f2J f2.
⁞ ⁞ ⁞ ⁞
m1i fi1 fi2  fij fiJ fi.
⁞ ⁞ ⁞ ⁞
m1I fI1 fI2  fIj  fIJ fI.
Lm f.1 f.2  f.j f.J 1
m21 m22 m2j m2J Cm
m11 f1..f.1 f1..f.2  f1..f.j  f1..f.J f1.
m12 f2..f.1 f2..f.2  f2..f.j  f2..f.J f2.
⁞ ⁞ ⁞ ⁞
m1i fi..f.1 fi..f.2  fi..f.j  fi..f.J fi.
⁞ ⁞ ⁞ ⁞
m1I fI..f.1 fI..f.2  fI..f.j  fI..f.J fI.
Lm f.1 f.2  f.j f.J 1
=
Tableau des probabilités conjointes Tableau des produits des probabilités
marginales
On en déduit que les variables V1 et V2 sont indépendantes, si pour tout i=1,I et tout
j=1,J on a nij = n.fi.. f.j. Autrement dit, le tableau de contingence est égal au tableau des
effectifs théoriques (ou en situation d’indépendance) :
Tableaux en situation d’indépendance
J. DABOUNOU - FST DE SETTAT AFC001 - 10
m21 m22 m2j m2J Cm
m11 n11 n12  n1j  n1J n1.
m12 n21 n22  n2j n2J n2.
⁞ ⁞ ⁞ ⁞
m1i ni1 ni2  nij niJ ni.
⁞ ⁞ ⁞ ⁞
m1I nI1 nI2  nIj  nIJ nI.
Lm n.1 n.2  n.j n.J 1
=
Tableau des effectifs théoriquesTableau de contingence
A noter que : n.fij = nij et n.fi.. f.j = ni..n.j
n
m21 m22 m2j m2J Total
m11 n.f1..f.1 n.f1..f.2  n.f1..f.j  n.f1..f.J n1.
m12 n.f2..f.1 n.f2..f.2  n.f2..f.j  n.f2..f.J n2.
⁞ ⁞ ⁞ ⁞
m1i n.fi..f.1 n.fi..f.2  n.fi..f.j  n.fi..f.J ni.
⁞ ⁞ ⁞ ⁞
m1I n.fI..f.1 n.fI..f.2  n.fI..f.j  n.fI..f.J nI.
Total n.1 n.2  n.j n.J n
Test d’indépendance du Khi2
Le test d’indépendance du Khi2 étudie la liaison entre deux variables qualitatives V1 et
V2. Soient :
- Hypothèse H0: les variables V1 et V2 sont indépendantes. H0 est dite hypothèse nulle.
- Hypothèse alternative H1: les variables V1 et V2 sont liées.
Le test d’indépendance du Khi2 permet de valider H0 ou de la réfuter au profit de H1.
Ce test analyse l’écart à l’indépendance en comparant le tableau des probabilités
conjointes et le tableau des produits des probabilités marginales, ou le tableau de
contingence et le tableau des effectifs théoriques.
Sous l’hypothèse H0, les variables V1 et V2 sont indépendantes, et pour tout i=1,I et
tout j=1,J on doit avoir fij = fi..f.j.
En toute rigueur, l’égalité parfaite fij = fi..f.j n’est pas exigée. On se donne un seuil de
signification α au-delà duquel l’hypothèse H0 serait rejetée.
• On choisit souvent α=0.05 (ou 5%). Mais selon le problème posé, d’autres valeurs
de α peuvent être utilisées.
J. DABOUNOU - FST DE SETTAT AFC001 - 11
Distance du Khi2
La distance du Khi2 calcule l’écart entre effectifs observés et effectifs théoriques.
2 =
i=1,I j=1,J
nij − nfi.f.j
nfi.f.j
2
On note parfois  𝑜𝑏𝑠
2
au lieu de 2
pour préciser qu’il s’agit d’un calcul sur des
données observées.
On peut aussi écrire :
2
= n
i=1,I j=1,J
1
fi.f.j
fij − fi.f.j
2
Soit I tel que ∶ 2
= n I, donc : I =
i=1,I j=1,J
1
fi.f.j
fij − fi.f.j
2
.
2 représente la significativité de la liaison entre les variables. Il mesure l’écart entre
les effectifs observés et les effectifs théoriques .
I représente l’intensité de la liaison entre les variables. Il mesure l’écart entre les
probabilités observées et les probabilités théoriques. Elle permettra par la suite de
caractériser l’inertie des données.
J. DABOUNOU - FST DE SETTAT AFC001 - 12
gris marron noir TOTAL Cm
armoire 1 3 5 9 0.300
bureau 2 6 3 11 0.367
chaise 5 4 1 10 0.333
TOTAL 8 13 9 30 1
Lm
0,267 0,433 0,300 1
Distance du Khi2 (Exemple)
J. DABOUNOU - FST DE SETTAT AFC001 - 13
probabilités
contingence
gris marron noir Cm
armoire 0,033 0,100 0,167 0.300
bureau 0,067 0,200 0,100 0.367
chaise 0,167 0,133 0,033 0.333
Lm
0,267 0,433 0,300 1
gris marron noir TOTAL Cm
armoire 2,40 3,90 2,70 9 0.300
bureau 2,93 4,77 3,30 11 0.367
chaise 2,67 4,33 3,00 10 0.333
TOTAL 8 13 9 30 1
Lm
0,267 0,433 0,300 1
probabilités
contingence
gris marron noir Cm
armoire 0,08 0,13 0,09 0.300
bureau 0,10 0,16 0,11 0.367
chaise 0,09 0,14 0,10 0.333
Lm
0,267 0,433 0,300 1
Données observées :
Données théoriques :
Les calculs donnent alors :
2
= n
i=1,I j=1,J
1
fi.f.j
fij − fi.f.j
2
= 75,35
Soit I =
i=1,I j=1,J
1
fi.f.j
fij − fi.f.j
2 = 2,51
Distance du Khi2
Sous l’hypothèse H0 (les deux variables sont indépendantes), pour un effectif aléatoire
de n individus, la somme
2
=
i=1,I j=1,J
nij − nfi.f.j
ni.n.j
2
Suit une loi du Khi2 à  = (I-1)(J-1) degrés de liberté. Il s’agit d’une somme des carrés
des écarts relativisés qui constitue une approximation asymptotique d’une somme des
carrés de  distributions normales centrées réduites indépendantes.
On remarque que  = (I-1)(J-1) = IJ-I-J+1.
Dans la somme 2 ci-dessus nous avons IJ termes. Pour ne garder qu’une somme de
terme indépendants :
1. On retranche I (une colonne) car la somme des effectifs dans chaque ligne est fixe,
2. On retranche J-1 (une ligne) parce que la somme des effectifs dans chaque
colonne est fixe. Noter qu’il reste J-1 colonnes après l’opération précédente.
Ce qui permet d’obtenir  termes indépendants.
J. DABOUNOU - FST DE SETTAT AFC001 - 14
Conditions d’application du test du Khi2
Conditions d’application du test statistique du Khi2 :
1. Les observations qui permettent de construire le tableau de contingence doivent
être aléatoires
2. Echantillon aléatoire doit avoir une taille n30.
3. Tous les effectifs théoriques tij doivent vérifier tij5.
Si un effectif théorique est inférieur à 5, on peut être amené à regrouper des lignes
(ou des colonnes) et à réinterpréter les modalités correspondantes en conséquence.
J. DABOUNOU - FST DE SETTAT AFC001 - 15
Densité de probabilité du Khi
La densité de probabilité du KHI2 pour
un degré de liberté donné  est
représentée par une courbe qui a la
forme ci-dessous :
J. DABOUNOU - FST DE SETTAT AFC001 - 16
La densité de probabilité varie selon le
degré de liberté  comme le montre la
figure suivante :
Densité de probabilité pour différents ddls
La courbe change de forme en fonction
de . La valeur pour laquelle le maximum
est atteint croit avec le degré de liberté,
donc s’éloigne de l’origine.
Densité de probabilité du Khi2
L’expression de cette densité de probabilité
utilise la fonction gamma:
𝑓(x) =
1
2

2 (

2
)
x(

2
− 1)
e
−
x
2
Test statistique du Khi2
2
mesure l’écart entre les effectifs observés et les effectifs théoriques, donc si les deux
variables sont indépendantes, alors :
J. DABOUNOU - FST DE SETTAT AFC001 - 17
il est plus probable que le 2
ait une petite
valeur, ce que illustre la figure suivante.
il est peu probable que le 2
ait une très grande valeur.
La courbe passe par l’origine parce que la probabilité que les effectifs observés
coïncident avec les effectifs théoriques pour une observation aléatoire est nulle.
Valeur critique pour le test du Khi2
On détermine une valeur critique  𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒
2
à
l’aide de la table du Khi2 en utilisant le seuil
de signification α et le degré de liberté .
J. DABOUNOU - FST DE SETTAT AFC001 - 18
Table du Khi2
Règles de décision pour le test du Khi2
On détermine ainsi une valeur critique  𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒
2
qui dépend de la loi de probabilité
utilisée, donc du seuil de signification α et du degré de liberté , pour laquelle :
• Si l’écart observé 2
<  𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒
2
alors on rejette l’hypothèse H0
• Si l’écart observé 2   𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒
2
alors on rejette l’hypothèse H0
J. DABOUNOU - FST DE SETTAT AFC001 - 19
Rejeter H0
Accepter H0
Construction de profils colonne
J. DABOUNOU - FST DE SETTAT AFC001 - 20
Si les deux variables étaient parfaitement indépendantes alors, si l’on considère les individus qui
possèdent la modalité « gris » de la variable « couleur », alors la répartition des termes par type
doit être égale à celle de la population totale.
Ce qui exprime que le fait d’être gris n’as aucune relation avec la couleur des individus. Vérifions
si cela est vrai. Pour cela, on calcule la proportion pour chacune des modalités de la variable
« Type » par rapport à la population de modalité « gris » pour la variable « Couleur » :
gris % TOTAL %
armoire 1 0.125 9 0.300
bureau 2 0.250 11 0.367
chaise 5 0.625 10 0.333
TOTAL 8 1 30 1
% 0,267
Relation entre profils colonne
J. DABOUNOU - FST DE SETTAT AFC001 - 21
Cela doit être répété pour toutes les modalités de la variable « type d'activité ».
Les colonnes obtenues pour chaque modalité de la variable « Couleur » sont appelées profils
colonne et seront notées respectivement C1, C2 et C3. La colonne qui correspond à la population
totale s’appelle profil colonne moyen et sera notée Cm.
Pour chaque ligne i, on note ni. = ni1+ni2+ni3, et pour chaque colonne j, on note n.j = n1j+n2j+n3j.
Le ième terme de Cm, noté fi. est donc donné par :
fi. =
ni.
n
=
ni1+ni2+ni3
n
=
ni1
n
+
ni2
n
+
ni3
n
Donc, fi. =
ni1
n.1
n.1
n
+
ni2
n.2
n.2
n
+
ni3
n.3
n.3
n
et ainsi, on peut écrire Cm =
n.1
n
C1 +
n.2
n
C2 +
n.3
n
C3
Cette dernière relation permet de considérer Cm comme une moyenne de C1, C2 et C3, pondérée
par
n.1
n
,
n.2
n
et
n.3
n
, que nous allons noter respectivement par la suite f.1, f.2 et f.3.
gris C1 marron C2 noir C3 TOTAL Cm
armoire 1 0,125 3 0,231 5 0,556 9 0,300
bureau 2 0,250 6 0,462 3 0,333 11 0,367
chaise 5 0,625 4 0,308 1 0,111 10 0,333
TOTAL 8 1 13 1 9 1 30 1
Lm
0,267 0,433 0,300 1
Relation entre profils ligne
J. DABOUNOU - FST DE SETTAT AFC001 - 22
Cela doit être répété pour toutes les modalités de la variable « type ».
On construit aussi des profils ligne notés respectivement L1, L2 et L3 et un profil ligne moyen noté
Lm. On adoptant les notations introduites dans les diapositives précédentes, on montre que :
Lm =
n1.
n
L1 +
n2.
n
L2 +
n3.
n
L3
On peut écrire alors Cm et Lm sous la forme :
Cm = f.1 C1 +f.2 C2 +f.3 C3
et
Lm = f1. L1 + f2. L2 + f3. L3
gris marron noir TOTAL Cm
armoire 1 3 5 9 0.300
L1 0,111 0,333 0,556 1
bureau 2 6 3 11 0.367
L2 0,182 0,545 0,273 1
chaise 5 4 1 10 0.333
L3 0,500 0,400 0,100 1
TOTAL 5 10 9 30 1
Lm 0,167 0,333 0,300 1
Données à manipuler (Exemple)
Les trois séries L1, L2 et L3 n’ont pas la même « forme »:
J. DABOUNOU - FST DE SETTAT AFC001 - 23
0,267
0,500
0,182
0,111
0,433
0,400
0,545
0,333
0,300
0,100
0,273
0,556
gris marron noir
L1
L2
L3
Lm
L’attraction entre deux réalités sociales est
révélée par la différence au pourcentage
moyen. Ici il y a attraction entre le fait d’aller à
la chasse et d’être de sexe masculin.
Données à manipuler (Exemple)
J. DABOUNOU - FST DE SETTAT AFC001 - 24
0,00
0,10
0,20
0,30
0,40
0,50
0,60
gris marron noir
Titre du graphique
L1 L2 L3 Lm
Les trois séries L1, L2 et L3 n’ont pas la même « forme »:
Notation en termes de probabilités
J. DABOUNOU - FST DE SETTAT AFC001 - 25
Pour donner plus de signification aux notations précédentes, on construit, à partir de notre
tableau de contingence, le tableau de probabilités correspondant. On note : fij =
nij
n
qui spécifie la
probabilité conjointe de posséder à la fois la modalité m1i de la variable V1 et la modalité m2j de
la variable V2. On voit alors que la marge colonne (respectivement la marge ligne) est égale au
profil colonne (resp. profil ligne). On obtient ainsi :
m21 m22 m2j m2J Cm
m11 f11 f12  f1j  f1J f1.
m12 f21 f22  f2j f2J f2.
⁞ ⁞ ⁞ ⁞
m1i fi1 fi2  fij fiJ fi.
⁞ ⁞ ⁞ ⁞
m1I fI1 fI2  fIj  fIJ fI.
Lm f.1 f.2  f.j f.J 1
Modalités de V2
ModalitésdeV1
probabilités
contingence
On peut maintenant exprimer le fait que les
variables soient indépendantes.
Pour tout i=1,I et tout j=1,J on doit avoir fij = fi..f.j.
Ce qui revient à dire que la probabilité conjointe
est égale au produit des probabilités marginales.
Ou alors, si on se donne j{1,…,J}, avoir
fij
fi.
= f.j. Il s’agit ici d’une égalité entre la probabilité
conditionnelle (posséder la modalité m2j sachant qu’on a déjà la modalité m1i) est égale à la
probabilité marginale (posséder la modalité m2j sans aucune condition sur la variable V1)
gris marron noir TOTAL Cm
armoire 1 3 5 9 0.300
bureau 2 6 3 11 0.367
chaise 5 4 1 10 0.333
TOTAL 8 13 9 30 1
Lm
0,267 0,433 0,300 1
Données réelles et données théoriques
J. DABOUNOU - FST DE SETTAT AFC001 - 26
probabilités
contingence
gris marron noir Cm
armoire 0,033 0,100 0,167 0.300
bureau 0,067 0,200 0,100 0.367
chaise 0,167 0,133 0,033 0.333
Lm
0,267 0,433 0,300 1
gris marron noir TOTAL Cm
armoire 2,40 3,90 2,70 9 0.300
bureau 2,93 4,77 3,30 11 0.367
chaise 2,67 4,33 3,00 10 0.333
TOTAL 8 13 9 30 1
Lm
0,267 0,433 0,300 1
probabilités
contingence
gris marron noir Cm
armoire 0,08 0,13 0,09 0.300
bureau 0,10 0,16 0,11 0.367
chaise 0,09 0,14 0,10 0.333
Lm
0,267 0,433 0,300 1
gris marron noir TOTAL Cm
armoire 1 3 5 9 0.300
bureau 2 6 3 11 0.367
chaise 5 4 1 10 0.333
TOTAL 8 13 9 30 1
Lm
0,267 0,433 0,300 1
Profils ligne observés
J. DABOUNOU - FST DE SETTAT AFC001 - 27
probabilités
contingence
gris marron noir Cm
armoire 0,033 0,100 0,167 0.300
bureau 0,067 0,200 0,100 0.367
chaise 0,167 0,133 0,033 0.333
Lm
0,267 0,433 0,300 1
gris marron noir TOTAL Cm
armoire 1 3 5 9 0,300
L1 0,111 0,333 0,556 1
bureau 2 6 3 11 0,367
L2 0,182 0,545 0,273 1
chaise 5 4 1 10 0,333
L3 0,500 0,400 0,100 1
TOTAL 8 13 9 30 1,000
Lm 0,267 0,433 0,300 1
Armoire (9) Bureau (11) Chaise (10)
Tous type de meuble (30)
gris marron noir TOTAL Cm
armoire 2,40 3,90 2,70 9 0.300
bureau 2,93 4,77 3,30 11 0.367
chaise 2,67 4,33 3,00 10 0.333
TOTAL 8 13 9 30 1
Lm
0,267 0,433 0,300 1
probabilités
contingence
gris marron noir Cm
armoire 0,08 0,13 0,09 0.300
bureau 0,10 0,16 0,11 0.367
chaise 0,09 0,14 0,10 0.333
Lm 0,267 0,433 0,300 1
Profils ligne en cas d’indépendance
J. DABOUNOU - FST DE SETTAT AFC001 - 28
gris marron noir TOTAL Cm
armoire 2 4 3 9 0,300
L1 0,267 0,433 0,300 1
bureau 3 5 3 11 0,367
L2 0,267 0,433 0,300 1
chaise 3 4 3 10 0,333
L3 0,267 0,433 0,300 1
TOTAL 8 13 9 30 1,000
Lm 0,267 0,433 0,300 1
Représentation synthétique des notations
J. DABOUNOU - FST DE SETTAT AFC001 - 29
Le tableau suivant, se basant sur la structure de l’exemple traité, synthétise les notations
utilisées pour analyser les liaisons entre les variables qualitatives.
Pour l’AFC, on représente les points que constituent les lignes du tableau dans l’espace RJ
, où J
désigne le nombre de modalités pour la variable V2. On cherche ensuite à projeter ces points dans
un espace de dimension inférieure, comme cela se fait dans l’ACP.
On passe ensuite aux colonnes, et on refait le même processus.
m21 C1 % m22 C2 % m23 C3 % TOTAL Cm %
m11 f11 f11/f.1 f12 f12/f.2 f13 f13/f.3 n1. f1.
L1 % f11/f1. f1..f.1 f12/f1. f1..f.2 f13/f1. f1..f.3 1
m12 f21 f21/f.1 f22 f22/f.2 f23 f23/f.3 n2. f2.
L2 % f21/f2. f2..f.1 f22/f2. f2..f.2 f23/f2. f2..f.3 1
m13 f31 f31/f.1 f32 f32/f.2 f33 f33/f.3 n3. f3.
L3 % f31/f3. f3..f.1 f32/f3. f3..f.2 f33/f3. f3..f.3 1
TOTAL n.1 1 n.2 1 n.3 1 n 1
Lm % f.1 f.2 f.3 1
Inertie du nuage de points
J. DABOUNOU - FST DE SETTAT AFC001 - 30
Nous allons donc commencer par représenter les profils lignes, L1, L2 et L3 dans le contexte de
notre exemple, dans l’espace RJ
, où J désigne le nombre de modalités pour la variable V2, J=3
dans notre exemple. On appelle alors cet espace: espace des profils.
A chaque point Li est associé un poids égal à fi.. Ce poids correspond à la proportion de population
représentée par la ligne Li, or cette proportion est justement fi..
Comme nous l’avons déjà montré, Lm constitue le centre de gravité des points Li auxquels on a
affecté les poids associés.
Lm = f1. L1 + f2. L2 + f3. L3
La somme des termes de chaque profil ligne Li est égale à 1. Ceci est vrai aussi pour le profil ligne
moyen. On en déduit que les profils ligne et le profil ligne moyen appartiennent à l’hyperplan
HPL = { x = (x1, x2,x3)  R3
| x1 + x2 + x3 = 1}.
Donc tous les profils ligne se trouvent dans un hyperplan de dimension J-1. Plus précisément
encore, tous les profiles appartiennent au simplexe de sommets e1=(1,0,…,0), e2=(0,1,…0),…,
eJ=(0,…,1). Ici nous avons J=3 ce qui simplifie beaucoup les choses.
Inertie du nuage de points
J. DABOUNOU - FST DE SETTAT AFC001 - 31
Comme cela a déjà été expliqué dans le cours sur l’ACP, la quantité d’information contenue dans
le nuage de point peut être caractérisée par le degré de dispersion du nuage des points Li dans
l’espace RJ
, sans oublier que les points ne se valent pas, chacun a un poids comme on l’a
mentionné plus haut.
Cette dispersion est évaluée en calculant l’inertie par rapport à Lm du nuage de points Li, dont la
formule est :
I =
i
fi. d Li , Lm
2
On doit donc définir une distance sur l’ensemble des points de l’espace RJ
, en tenant compte de
la nature des points Li.
Expression de l’inertie
J. DABOUNOU - FST DE SETTAT AFC001 - 32
En nous réfrénant à la figure ci-dessous, l’expression suivante donne la distance entre L3 et L5 :
L3 − L1
2
= f.1
f31
f3.f.1
−
f11
f1.f.1
2
+ f.2
f32
f3.f.2
−
f12
f1.f.2
2
+ f.1
f31
f3.f.1
−
f31
f3.f.1
2
Dans chaque terme, on normalise les éléments des deux lignes en divisant par f.j, qui est le poids
correspondant à la dimension j (ou colonne j). Ensuite, on élève au carré (norme euclidienne) et
on multiplie le résultat par f.j, puisque dans une norme, la contribution de chaque élément doit
être pondérée par le poids de la dimension considérée.
Géométriquement, la projection d’un point, ou ligne, Li = (ai1 , ai2 , ai3) sur l’axe j possède la
coordonnée
aij
f.j
.
m21 m22 m23 Cm
L1 f11/f1. f12/f1. f13/f1. f1.
L2 f21/f2. f22/f2. f23/f2. f2.
L3 f31/f3. f32/f3. f33/f3. f3.
Lm f.1 f.2 f.3 1
Expression de l’inertie
J. DABOUNOU - FST DE SETTAT AFC001 - 33
Pour deux lignes r et s, on aura: n nous réfrénant à la figure ci-dessous, l’expression suivante
donne la distance entre :
Lr − Ls
2
= f.1
fr1
fr.f.1
−
fs1
fs.f.1
2
+ f.2
fr2
fr.f.2
−
fs2
fs.f.2
2
+ f.3
fr3
fr.f.3
−
fs3
fs.f.3
2
=
j=1,J
f.j
frj
fr.f.j
−
fsj
fs.f.j
2
=
j=1,J
1
f.j
frj
fr.
−
fsj
fs.
2
Cette dernière écriture est très convenable, puisqu’elle rappelle la distance euclidienne entre Lr et
Ls avec une pondération par
1
f.j
.
On définit ainsi une distance appelée de distance de2.
On a :
d2 Lr , Ls
2
=
j=1,J
1
f.j
frj
fr.
−
fsj
fs.
2
Expression de l’inertie
J. DABOUNOU - FST DE SETTAT AFC001 - 34
En particulier la distance entre un profil ligne Li et le profil ligne moyen Lm devient :
d2 Li , Lm
2
=
j=1,J
f.j
fij
fi.f.j
−
f.j
f.j
2
=
j=1,J
f.j
fij
fi.f.j
− 1
2
=
j=1,J
1
fi.
2
f.j
fij − fi.f.j
2
On voit en particulier que, si les deux variables sont indépendantes, donc fij − fi.f.j, pour tout i=1,I
et j=1,J, et ainsi :
d2 Li , Lm
2
= 0
Ce qui veut dire que tous les points du nuage seront confondus avec le profil ligne moyen Lm.
La distance des profils ligne par rapport au profil ligne moyen exprime ainsi la dispersion du
nuage de points, et la formule qui donne l’inertie de ce nuage devient :
I =
i
fi. d Li , Lm
2
=
i=1,I j=1,J
1
fi.f.j
fij − fi.f.j
2
Il est à noter que l’inertie ne tient pas
compte du nombre d’individus n.
Expression de l’inertie
J. DABOUNOU - FST DE SETTAT AFC001 - 35
On utilise l’expression de l’inertie à notre exemple, et on obtient :
I =
i=1,I j=1,J
1
fi.f.j
fij − fi.f.j
2
= 𝟎. 𝟏𝟑𝟒
Actifs C1 % Chômeurs C2 % Inactifs C3 % TOTAL Cm %
15 - 24 ans 0,051 0,123 0,015 0,367 0,172 0,319 6 077 913 0,239
L1 % 0,215 0,100 0,064 0,010 0,721 0,129 1
25 - 34 ans 0,123 0,294 0,018 0,439 0,092 0,170 5 936 505 0,233
L2 % 0,527 0,098 0,078 0,010 0,395 0,126 1
35 - 44 ans 0,106 0,254 0,005 0,119 0,074 0,136 4 703 813 0,185
L3 % 0,575 0,077 0,027 0,008 0,398 0,100 1
45 - 59 ans 0,108 0,257 0,003 0,063 0,088 0,163 5 043 847 0,198
L4 % 0,543 0,083 0,013 0,008 0,444 0,107 1
60 ans et plus 0,031 0,073 0,000 0,011 0,114 0,212 3 702 709 0,145
L5 % 0,210 0,061 0,003 0,006 0,787 0,079 1
TOTAL 10 663 271 1 1 051 830 1 13 749 686 1 25 464 787 1,000
Lm % 0,419 0,041 0,540 1
On remarque que dans l’expression de l’inertie du nuage de points représentant les profils ligne, i
et j jouent un rôle symétrique. On en déduit, ce qui peut d’ailleurs être démontré directement,
que l’inertie est la même que l’on considère le nuage de points représentant les profils ligne dans
l’espace RJ
ou le nuage de points représentant les profils colonne dans l’espace RI
.
Construire le tableau des profils colonne
La figure suivante illustre comment sont représentés les profils ligne dans l’espace des profils. Tous
les profils ligne ainsi que le profil ligne moyen se trouvent dans le triangle d’extrémités (1,0,0),
(0,1,0) et (0,0,1).
J. DABOUNOU - FST DE SETTAT AFC001 - 36
0.25
0.50
0.75
1
60ans et plus
25-34ans
35-44ans
45-59ans
15-24ans
Inactifs
Profil ligne
moyen
Notation matricielle
J. DABOUNOU - FST DE SETTAT AFC001 - 37
On va utiliser des notations matricielles dans les calculs qui seront développés par la suite. Soient
P = (fij) : la matrice des probabilités,
𝕝I : le vecteur unitaire de RI : 𝕝I =
1
1
⋮
1
, et 𝕝J: le vecteur unitaire de RJ : 𝕝J =
1
1
⋮
1
On a, le profil ligne moyen Lm = 𝐏t
𝕝I et le profil colonne moyen Cm = 𝐏 𝕝J. On rappelle que
Lm =
f.1
f.2
⋮
f.J
et Cm =
f1.
f2.
⋮
fI.
DI = diag(fi.) et DJ = diag(f.j) : les matrices diagonales dont les éléments diagonaux sont constitués
respectivement des composantes (fi.) de Cm et (f.j) de Lm.
Notation matricielle
J. DABOUNOU - FST DE SETTAT AFC001 - 38
Soit L = (
fij
fi.
) la matrice des profils ligne. Pour notre exemple, nous avons :
L =
De même, C = (
fij
f.j
)t
, la matrice des profils colonne pour notre exemple:
C =
On vérifie facilement que l’on a :
L = DI
-1
P et C = DJ
-1
Pt
m21 m22 m23
L1 % f11/f1. f12/f1. f13/f1.
L2 % f21/f2. f22/f2. f23/f2.
L3 % f31/f3. f32/f3. f33/f3.
L3 % f41/f4. f42/f4. f43/f4.
L5 % f51/f5. f52/f5. f53/f5.
Lm % f.1 f.2 f.3
f11/f1. f12/f1. f13/f1.
f21/f2. f22/f2. f23/f2.
f31/f3. f32/f3. f33/f3.
f41/f4. f42/f4. f43/f4.
f51/f5. f52/f5. f53/f5.
f11/f.1 f21/f.1 f31/f.1 f41/f.1 f51/f.1
f12/f.2 f22/f.2 f32/f.2 f42/f.2 f52/f.2
f13/f.3 f23/f.3 f33/f.3 f43/f.3 f53/f.3
C1 C2 C3
m11 % f11/f.1 f21/f.1 f31/f.1 f41/f.1 f51/f.1
m12 % f12/f.2 f22/f.2 f32/f.2 f42/f.2 f52/f.2
m13 % f13/f.3 f23/f.3 f33/f.3 f43/f.3 f53/f.3
Cm % f1. f2. f3. f4. f5.
Expression de l’inertie
J. DABOUNOU - FST DE SETTAT AFC001 - 39
Nous avions introduit l’expression de l’inertie du nuage des points formés par les profils ligne :
I =
i=1,I
fi. d Li , Lm
2
=
i
fi.
j=1,J
f.j
fij
fi.f.j
−
f.j
f.j
2
=
i
fi.
j=1,J
f.j
fij
fi.f.j
− 1
2
Ce qui peut s’écrire aussi :
I =
i=1,I
fi.
j=1,J
fij
fi.
− f.j
f.j
2
La dernière expression correspond à l’inertie du nuage de points formé par les profils ligne,
centré par rapport au profil ligne moyen et « réduit » ou normalisé en divisant par la racine
carrée du poids associé à chaque colonne, la somme des termes de l’inertie étant pondérée par
le poids de la ligne considérée. Ce qui rappelle l’expression de l’inertie dans le contexte de l’ACP.
Cependant l’expression :
I =
i=1,I
fi.
j=1,J
1
f.j
fij − fi.f.j
2
amène à considérer sur l’espace des profils ligne une métrique Euclidienne pondérée par l’inverse
des poids (f.j). Ainsi, le produit scalaire de deux vecteurs u,v de RJ s’écrit :
<u , v>2 =
j=1,J
uj
1
f.j
vj
Expression de l’inertie
J. DABOUNOU - FST DE SETTAT AFC001 - 40
On a vu que :
I =
i
fi. d Li , Lm
2
=
i
fi.
j=1,J
f.j
fij
fi.f.j
−
f.j
f.j
2
Ce qui peut s’écrire aussi :
I =
i=1,I j=1,J
1
fi.f.j
fij − fi.f.j
2
En utilisant les notations matricielles on obtient :
I = tr(DI
−1
(P − Cm Lm
t
) DJ
−1
(P − Cm Lm
t
)t
)
I représente l’inertie totale du nuage de points formé par les profils ligne.
Projeter les profils ligne sur un axe
J. DABOUNOU - FST DE SETTAT AFC001 - 41
Comme pour l’ACP, on cherche un vecteur unitaire u1 pour projeter le nuage de points sur l’axe
qui récupère un maximum d’inertie.
On prend G=Lm comme centre du repère. Nous avions déjà vu que
Lm est le barycentre du nuage des profil ligne Li pondérés par les
poids (fi.). Nous avions aussi déjà montré que la liaison entre les
deux variables est caractérisée par la dispersion du nuage de points
par rapport à Lm.
On cherche un vecteur unitaire u1 pour projeter le nuage de points
sur l’axe qui récupère un maximum d’inertie :
I1 =
i=1,I
fi. GO1i
2
Or on a :
GO1i = <GLi, u1>2 =
j=1,J
(
fij
fi.
− f.j)
1
f.j
u1,j
Soit F1 le vecteur dont les composantes sont les projections des Li sur la droite D1. c’est-à-dire les
GO1i, on a :
F1 = (DI
−1
P − 𝕝I Lm
t
) DJ
−1
u1
G
RJ
u1
Li
O1i
D1
Projeter les profils ligne sur un axe
J. DABOUNOU - FST DE SETTAT AFC001 - 42
Le vecteur unitaire u1 qui explique le maximum de l’inertie du nuage de points vérifie :
u1 = arg max
u
Ft
(u) DI F(u)
où
F(u) = (DI
−1
P − 𝕝I Lm
t
) DJ
−1
𝐮
Sous la contrainte:
u 2 =
j=1,J
1
f.j
uj
2
= ut
DJ
−1
u = 1
On peut finalement écrire :
u1 = arg max
u
ut
DJ
−1
(DI
−1
P − 𝕝I Lm
t
)t
DI(DI
−1
P − 𝕝I Lm
t
) DJ
−1
𝐮
ut
DJ
−1
u = 1
Or on a : DI 𝕝I = Cm
u1 = arg max
u
ut
DJ
−1
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
𝐮
G
RJ
u1
Li
O1i
D1
Caractérisation de l’axe principal
J. DABOUNOU - FST DE SETTAT AFC001 - 43
Comme pour l’ACP, on utilise la méthode de Lagrange. Soit  le multiplicateur de
Lagrange. On va alors maximiser le Lagrangien:
L (u) = ut
DJ
−1
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
𝐮 − (ut
DJ
−1
u − 1)
Le maximum est atteint lorsque la dérivée suivante s’annule :
𝜕L
𝜕𝐮
= 2 DJ
−1
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
𝐮 − 2  DJ
−1
𝐮 = 0
Ou
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
𝐮 =  𝐮
Ainsi :
• u1 est vecteur propre de 𝐒 = (P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
associé à une valeur propre 1
• 1 doit être la plus grande des valeurs propres de S
• u1
t
DJ
−1
u1= 1
Caractérisation de l’axe principal
J. DABOUNOU - FST DE SETTAT AFC001 - 44
Nous avons :
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
u1 = 1u1
On multipliant chaque terme de cette égalité par DJ
−1
2
à gauche, on obtient :
DJ
−1
2
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
)DJ
−1
2
DJ
−1
2
u1 = 1DJ
−1
2
u1
On pose :
u1 = DJ
−1
2
u1
On peut écrire :
DJ
−1
2
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
)DJ
−1
2
u1 = 1u1
u1 est vecteur propre de 𝐒 = DJ
−1
2
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
)DJ
−1
2
associé à la valeur propre 1.
On vérifie facilement que 𝐒 est symétrique définie-positive de rang r égal à celui de P − CmLm
t
,
donc diagonalisable avec les valeurs propres positives ou nulles, on note 1 2  …  r > 0 et u1,
u2, … ur les vecteurs propres unitaires (pour la métrique euclidienne) associés.
On en déduit que S admet les mêmes valeurs propres et les vecteurs propres us = DJ
1
2
us.
On a par ailleurs pour s=1,r: us
t
DJ
−1
us = us
t
us = 1.
Ce qu’on recherchait dans le problème d’optimisation.
Inertie totale et inertie expliquée
J. DABOUNOU - FST DE SETTAT AFC001 - 45
Nous avions montré que l’inertie totale du nuage de points formé par les profils ligne est donnée
par l’expression :
I = tr(DI
−1
(P − Cm Lm
t
)DJ
−1
(P − Cm Lm
t
)t
)
= tr((P − Cm Lm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
)
Pour une matrice diagonalisable, la trace est égale à la somme des valeurs propres. Donc
I = 1+ 2 + … + r
Les composantes principales portées par le s-ième axe principal (vecteur us) sont données par :
Fs = DI
−1
(P − Cm Lm
t
) DJ
−1
us
Nous rappelons que les composantes principales sont constituées à partir des projections du
nuage de points sur l’axe principal. L’inertie expliquée par l’axe s est alors :
s = Fs
t
DI Fs
Inertie du nuage des profils colonne
J. DABOUNOU - FST DE SETTAT AFC001 - 46
On considère maintenant le nuage des profils colonne dans l’espace RI. On note Ic l’inertie de ce
nuage de points en prenant comme centre le profil colonne moyen Cm. On a alors :
I 𝐜 =
j=1,J
f.j d Cj , Cm
2
=
j=1,J
f.j
i=1,I
fi.
fij
fi.f.j
−
fi.
fi.
2
=
j=1,J
f.j
i=1,I
1
fi.
fij
f.j
− fi.
2
Ce qui peut s’écrire:
I 𝐜= tr(DJ
−1
(Pt
− Lm Cm
t
)DI
−1
(Pt
− Lm Cm
t
)t
)
= tr(DJ
−1
(P − Cm Lm
t
)t
DI
−1
(P − Cm Lm
t
)t
)
On peut montrer facilement que :
I 𝐜= tr(DJ
−1
(P − Cm Lm
t
)t
DI
−1
(P − Cm Lm
t
)t
)=tr(DI
−1
(P − Cm Lm
t
) DJ
−1
(P − Cm Lm
t
)t
)=I
On voit que les inerties des deux nuages de points (profils ligne et profils colonne) sont égales.
Comme pour l’analyse directe (des profils ligne), on est amené à considérer sur l’espace des
profils colonne une métrique Euclidienne pondérée par l’inverse des poids (fi.). Ainsi, le produit
scalaire de deux vecteurs v,w de RI s’écrit :
<v , w>2 =
i=1,I
vi
1
fi.
wi
Projeter les profils colonne sur un axe
J. DABOUNOU - FST DE SETTAT AFC001 - 47
Cm est le barycentre du nuage des profil colonne Cj pondérés par les
poids (fi.). D’un autre côté, la liaison entre les deux variables est
caractérisée par la dispersion du nuage de points par rapport à Cm.
On cherche un vecteur unitaire v1 pour projeter le nuage de points
sur l’axe qui récupère un maximum d’inertie :
I1 =
j=1,J
f.j CmN1j
2
Or on a :
CmO1j = <CmCj, v1>2 =
i=1,I
(
fij
f.j
− fi.)
1
fi.
v1,i
Soit G1 le vecteur dont les composantes sont les projections des Cj sur la droite D1. c’est-à-dire les
CmN1i, on a :
G1 = (DJ
−1
Pt
−𝕝J Cm
t
)DI
−1
v1
Or
DJ 𝕝J = Lm
Donc :
G1 = DJ
−1
(Pt
− Lm Cm
t
)DI
−1
v1
Cm
RI
v1
Cj
N1j
D1
Projeter les profils colonne sur un axe
J. DABOUNOU - FST DE SETTAT AFC001 - 48
Le vecteur unitaire v1 qui explique le maximum de l’inertie du nuage de points vérifie :
v1 = arg max
v
Gt
(v) DJ G(v)
où
G(v) = DJ
−1
(Pt
− Lm Cm
t
)DI
−1
v
Sous la contrainte:
v 2 =
i=1,I
1
fi.
vi
2
= vt
DI
−1
v = 1
On peut donc écrire :
v1 = arg max
v
vt
DI
−1
(Pt
− Lm Cm
t
)t
DJ
−1
(Pt
− Lm Cm
t
) DI
−1
𝐯
Ou encore
v1 = arg max
v
vt
DI
−1
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
𝐯
vt
DI
−1
v = 1
G
RJ
u1
Li
N1i
D1
Caractérisation de l’axe principal
J. DABOUNOU - FST DE SETTAT AFC001 - 49
On va alors maximiser le Lagrangien:
L (u) = vt
DI
−1
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
𝐯 − (vt
DI
−1
v − 1)
 étant le multiplicateur de Lagrange. Le maximum est atteint lorsque la dérivée suivante
s’annule :
𝜕L
𝜕𝐮
= 2DI
−1
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
𝐯 − 2 DI
−1
𝐮 = 0
ou
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
𝐯 =  𝐯
Ainsi :
• v1 est vecteur propre de T = (P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
associé à une valeur propre 1
• 1 doit être la plus grande des valeurs propres.
• v1
t
DI
−1
v1= 1
On rappelle que
𝐒 = (P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
) DJ
−1
Donc S et T (produits de mêmes termes) possèdent les mêmes valeurs propres non nulles. Donc
s = s pour s=1,r.
Caractérisation de l’axe principal
J. DABOUNOU - FST DE SETTAT AFC001 - 50
Nous avons :
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
𝐯1 = 1v1
On multipliant chaque terme de cette égalité par DI
−1
2
à droite, on obtient :
DI
−1
2
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
2
DI
−1
2
u1 = 1DI
−1
2
u1
On pose :
v1 = DI
−1
2
v1
On peut écrire :
DI
−1
2
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
2
v1 = 1v1
v1 est vecteur propre de 𝐓 = DI
−1
2
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
2
associé à la valeur propre 1.
𝐓 est symétrique définie-positive de rang r égal à celui de P − CmLm
t
, donc diagonalisable avec les
valeurs propres positives ou nulles 1 2  …  r > 0 et v1, v2, … vr les vecteurs propres unitaires
(pour la métrique euclidienne) associés.
On en déduit que T admet les mêmes valeurs propres et les vecteurs propres vs = DI
−1
2
vs.
On a par ailleurs pour s=1,r: vs
t
DI
−1
vs = vs
t
vs = 1.
Ce qu’on recherchait dans le problème d’optimisation.
Inertie totale et inertie expliquée
J. DABOUNOU - FST DE SETTAT AFC001 - 51
L’inertie totale du nuage de points formé par les profils colonne est donnée par l’expression :
I = tr((P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
)
= 1+ 2 + … + r
Les composantes principales portées par le s-ième axe principal (vecteur vs) sont données par :
Gs = DJ
−1
(Pt
− Lm Cm
t
)DI
−1
vs
Gs = DJ
−1
(P − CmLm
t
)t
DI
−1
vs
L’inertie expliquée par l’axe s est alors :
s = Gs
t
DJ Gs
Synthèse des relations matricielles
J. DABOUNOU - FST DE SETTAT AFC001 - 52
On a : us = DJ
1
2
us et 𝐒 us = sus
où 𝐒 = DJ
−1
2
(P − CmLm
t
)t
DI
−1
(P − Cm Lm
t
)DJ
−1
2
On pose : X =DI
−1
2
(P − Cm Lm
t
)DJ
−1
2
. On a:
𝐒 = X
t
X = U DU
t
Avec U = u1 | u2 | … | ur et D = diag(s)
Fs = DI
−1
(P − Cm Lm
t
) DJ
−1
us et on pose : Fs = DI
1
2
Fs
On voit facilement que: X us = Fs et s = Fs
t
DI Fs = Fs
t
F
F = X U avec F = F1 | F2 | … | Fr
Les composantes principales s’obtiennent alors par :
F = DI
−1
2
F
On a : vs = DI
1
2
vs et T vs = svs
où T = DI
−1
2
(P − CmLm
t
) DJ
−1
(P − CmLm
t
)t
DI
−1
2
On pose : X =DI
−1
2
(P − Cm Lm
t
)DJ
−1
2
. On a:
T = X X
t
= V DV
t
Avec V = v1 | v2 | … | vr et D = diag(s)
Gs = DJ
−1
(P − CmLm
t
)t
DI
−1
vs et on pose : Gs = DJ
1
2
Gs
On voit facilement que: X
t
vs = Gs et s = Gs
t
DJ Gs = Gs
t
G
G = X
t
V avec G = G1 | G2 | … | Gr
Les composantes principales s’obtiennent alors par :
G = DJ
−1
2
G
Synthèse des relations matricielles
J. DABOUNOU - FST DE SETTAT AFC001 - 53
Les relations matricielles de la diapositive précédente, en s’inspirant du cours sur l’ACP, permettent
d’écrire: X = V Σ U
t
où Σ = D
1
2
est la matrice diagonale dont les termes diagonaux, appelés valeurs
singulières de X, sont 1, 2, … , r.
Cette décomposition aurait d’ailleurs pu être obtenue directement par la décomposition en valeurs
singulières de X (ou SVD: Singular Value Decomposition). Mais nous avons préféré une construction
directe des matrices pour en saisir la signification.
Nous avons à la fois X us = Fs et X
t
vs = Gs, qui sont liées aux coordonnées des projections des
profils sur les axes principaux.
On a : = us
t
X
t
X us = vs
t
X X
t
vs = s. On en déduit : Fs = Gs = s
On a aussi : Fs = X us et vs sont des vecteurs propres de X X
t
associés à s donc on peut écrire
pour s=1,r :
Fs =X us = s vs et Gs =X
t
vs= s us.
Par ailleurs, à partir deX us = s vs, s=1,r on obtient la relation :
X .
s=1
r
usus
t
=
s=1
r
s vs us
t
Comme les vecteurs propres us, s=1,r sont orthogonaux et de norme 1, on peut écrire :
X =
s=1
r
s vs us
t
Factorisation et reconstruction des données
J. DABOUNOU - FST DE SETTAT AFC001 - 54
Factorisation et reconstruction des données
J. DABOUNOU - FST DE SETTAT AFC001 - 55
u1,1 u1,2  u1,J u2,1 u2,2  u2,J
1 + 2X =
ur,1 ur,2  ur,J
+ r
Comme pour l’ACP, les développements de l’AFC nous permettent de factoriser la matrice X. Cela
permet de réduire la dimensionnalité des données de IxJ à r(I+J) où r est le rang de la matrice X
t
X.
v1,1
v1,2
⸽
v1,I
v2,1
v2,2
⸽
v2,I
u1,1 u1,2 … u1,J
u2,1 u2,2 … u2,J
X =
…
…
⸽
…
⋮ … ⋮
vr,1
vr,2
⸽
vr,I
ur,1 ur,2 … ur,J
1
0 … 0
0 2
… 0
⋮ ⋱ ⋮
0 0 … r
v1,1
v1,2
⸽
v1,I
v2,1
v2,2
⸽
v2,I
vr,1
vr,2
⸽
vr,I
On voit facilement que cette factorisation de X permet de s’écrire sous une forme plus compacte :
+ …
X = V ΣUt
X
I x J
Factorisation et reconstruction des données
AFC001 - 56
On peut négliger des valeurs propres et se limiter à (s) pour s=1,k avec k << r, si l’inertie cumulée
est importante. Cela permet de réduire considérablement la dimensionnalité des données.
V
I x k
=
ΣI x k Ut
k x J
J. DABOUNOU - FST DE SETTAT
X
I x J
V
I x k
=
ΣI x k
Ut
k x J
On peut aussi se limiter aux deux premiers axes principaux pour visualiser les liaisons entre les
variables sur un plan.
Matrice des probabilités: Exemple
AFC001 - 57
On utilise le code python pour
obtenir la matrice des probabilités P :
J. DABOUNOU - FST DE SETTAT
On calcule ensuite le profil ligne moyen Lm et le profil
colonne moyen Cm. Ces deux vecteurs sont utilisés pour
calculer CmLm
t
.
Caractériser l’écart à l’indépendance
AFC001 - 58
On calcule les matrices diagonales DI et DJ
et on les utilise pour calculer X.
J. DABOUNOU - FST DE SETTAT
On aurait pu calculer X de façon moins
élégante :
La matrice X nous permet de caractériser l’écart à l’indépendance.
Déterminer les axes principaux
AFC001 - 59
On calcule 𝐒 = X
t
X et T = X X
t
. Ensuite on
calcule les valeurs et vecteurs propres de 𝐒.
J. DABOUNOU - FST DE SETTAT
Trier les couples (valeur et vecteur propres) de 𝐒 dans
l’ordre décroissant des valeurs propres et calculer D.
On procède de même pour T = X X
t
.
Calculer les composantes principales
AFC001 - 60
On calcule U = u1 | u2 | … | ur et
V = v1 | v2 | … | vr .
On obtient aussi F = X U et G = X
t
V.
J. DABOUNOU - FST DE SETTAT
On peut ainsi vérifier que 𝐒 = X
t
X = U DU
t
et
T = X X
t
= V DV
t
.
On calcule alors les composantes principales :
F = DI
−1
2
F et G = DJ
−1
2
G.
Projection sur le plan factoriel
AFC001 - 61J. DABOUNOU - FST DE SETTAT
On écrit le code python qui permet de projeter les deux nuages de points sur le plan factoriel.
Projection sur le plan factoriel
AFC001 - 62J. DABOUNOU - FST DE SETTAT
Comme pour l’ACP, le plan factoriel va permettre d’analyser les liaisons entre les variables selon les
deux premières composantes principales.

Más contenido relacionado

La actualidad más candente

présentation soutenance PFE.ppt
présentation soutenance PFE.pptprésentation soutenance PFE.ppt
présentation soutenance PFE.pptMohamed Ben Bouzid
 
Intelligence artificielle et travail
Intelligence artificielle et travailIntelligence artificielle et travail
Intelligence artificielle et travailFrance Stratégie
 
Exercices corrigés
Exercices corrigésExercices corrigés
Exercices corrigéshadhoum
 
Schema etude-de-projet
Schema etude-de-projetSchema etude-de-projet
Schema etude-de-projetFatima Abboud
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulProfesseur Falloul
 
Macroéconomie - chapitre 1 - Offre Globale, Demande Globale
Macroéconomie - chapitre 1 - Offre Globale, Demande GlobaleMacroéconomie - chapitre 1 - Offre Globale, Demande Globale
Macroéconomie - chapitre 1 - Offre Globale, Demande GlobaleEsteban Giner
 
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comExercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comcours fsjes
 
Gestion de production exercices
Gestion de production exercicesGestion de production exercices
Gestion de production exercicesChristian Kajeje
 
Cours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiquesCours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiquesbouchra elabbadi
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Khalid Benammi
 
Cours sur l'organisation des entreprises
Cours sur l'organisation des entreprisesCours sur l'organisation des entreprises
Cours sur l'organisation des entreprisesAbdellah Ben Messaoud
 
Les fonctions dans l'entreprise
Les fonctions dans l'entrepriseLes fonctions dans l'entreprise
Les fonctions dans l'entreprisenaririne
 
Introduction à la gestion budgétaire.pptx
Introduction à la gestion budgétaire.pptxIntroduction à la gestion budgétaire.pptx
Introduction à la gestion budgétaire.pptxNajwaHlm
 
Soutenance mémoire de fin d'études
Soutenance mémoire de fin d'étudesSoutenance mémoire de fin d'études
Soutenance mémoire de fin d'étudesFabrice HAUHOUOT
 
Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]
Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]
Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]Brahim Mouacha
 

La actualidad más candente (20)

Informatique de gestion
Informatique de gestionInformatique de gestion
Informatique de gestion
 
Statistique Descriptive s1
Statistique Descriptive s1Statistique Descriptive s1
Statistique Descriptive s1
 
Echantillonnage
EchantillonnageEchantillonnage
Echantillonnage
 
Calcul des prévisions
Calcul des prévisionsCalcul des prévisions
Calcul des prévisions
 
présentation soutenance PFE.ppt
présentation soutenance PFE.pptprésentation soutenance PFE.ppt
présentation soutenance PFE.ppt
 
Intelligence artificielle et travail
Intelligence artificielle et travailIntelligence artificielle et travail
Intelligence artificielle et travail
 
Exercices corrigés
Exercices corrigésExercices corrigés
Exercices corrigés
 
Schema etude-de-projet
Schema etude-de-projetSchema etude-de-projet
Schema etude-de-projet
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
Page de garde
Page de gardePage de garde
Page de garde
 
Macroéconomie - chapitre 1 - Offre Globale, Demande Globale
Macroéconomie - chapitre 1 - Offre Globale, Demande GlobaleMacroéconomie - chapitre 1 - Offre Globale, Demande Globale
Macroéconomie - chapitre 1 - Offre Globale, Demande Globale
 
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comExercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
 
Gestion de production exercices
Gestion de production exercicesGestion de production exercices
Gestion de production exercices
 
Cours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiquesCours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiques
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]
 
Cours sur l'organisation des entreprises
Cours sur l'organisation des entreprisesCours sur l'organisation des entreprises
Cours sur l'organisation des entreprises
 
Les fonctions dans l'entreprise
Les fonctions dans l'entrepriseLes fonctions dans l'entreprise
Les fonctions dans l'entreprise
 
Introduction à la gestion budgétaire.pptx
Introduction à la gestion budgétaire.pptxIntroduction à la gestion budgétaire.pptx
Introduction à la gestion budgétaire.pptx
 
Soutenance mémoire de fin d'études
Soutenance mémoire de fin d'étudesSoutenance mémoire de fin d'études
Soutenance mémoire de fin d'études
 
Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]
Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]
Memoire conception-mise-en-place-tableaux-de-bord-gestion-societe-confection[1]
 

Similar a Analyse Factorielle des Correspondances

Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 
Controle1 sur table 2bac sm biof semestre 2
Controle1 sur table  2bac sm biof semestre 2Controle1 sur table  2bac sm biof semestre 2
Controle1 sur table 2bac sm biof semestre 2AHMED ENNAJI
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotes202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotesEttaoufik Elayedi
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2Ettaoufik Elayedi
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomialeCONFITURE
 
Chap04 1213
Chap04 1213Chap04 1213
Chap04 1213bades12
 
Projet Méthodes Numériques
Projet  Méthodes Numériques Projet  Méthodes Numériques
Projet Méthodes Numériques Ramin Samadi
 
Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017
Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017
Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017Ahmed Ammar Rebai PhD
 
GEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolutionGEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolutionFrédéric Morain-Nicolier
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierismailkziadi
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierMehdi Maroun
 
201972297 es-maths-cned-sequence-01
201972297 es-maths-cned-sequence-01201972297 es-maths-cned-sequence-01
201972297 es-maths-cned-sequence-01Ettaoufik Elayedi
 
CA_RESMA_2021_2022_02.pdf
CA_RESMA_2021_2022_02.pdfCA_RESMA_2021_2022_02.pdf
CA_RESMA_2021_2022_02.pdfYassineAmal2
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 

Similar a Analyse Factorielle des Correspondances (20)

Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
Controle1 sur table 2bac sm biof semestre 2
Controle1 sur table  2bac sm biof semestre 2Controle1 sur table  2bac sm biof semestre 2
Controle1 sur table 2bac sm biof semestre 2
 
Corriges td algebre
Corriges td algebreCorriges td algebre
Corriges td algebre
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotes202017370 es-maths-cned-sequence-03-limites-et-asymptotes
202017370 es-maths-cned-sequence-03-limites-et-asymptotes
 
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
202017370 es-maths-cned-sequence-03-limites-et-asymptotes 2
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
246242769 sequence-1-pdf
246242769 sequence-1-pdf246242769 sequence-1-pdf
246242769 sequence-1-pdf
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomiale
 
Logit probit
Logit probitLogit probit
Logit probit
 
Chap04 1213
Chap04 1213Chap04 1213
Chap04 1213
 
Startimes2
Startimes2Startimes2
Startimes2
 
Projet Méthodes Numériques
Projet  Méthodes Numériques Projet  Méthodes Numériques
Projet Méthodes Numériques
 
Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017
Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017
Epreuve de mathématiques informatique (modélisation) Agro/Véto BCPST 2017
 
GEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolutionGEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolution
 
Bac blanc 6
Bac blanc 6Bac blanc 6
Bac blanc 6
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
201972297 es-maths-cned-sequence-01
201972297 es-maths-cned-sequence-01201972297 es-maths-cned-sequence-01
201972297 es-maths-cned-sequence-01
 
CA_RESMA_2021_2022_02.pdf
CA_RESMA_2021_2022_02.pdfCA_RESMA_2021_2022_02.pdf
CA_RESMA_2021_2022_02.pdf
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 

Más de Jaouad Dabounou

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfJaouad Dabounou
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningJaouad Dabounou
 
RNN avec mécanisme d'attention
RNN avec mécanisme d'attentionRNN avec mécanisme d'attention
RNN avec mécanisme d'attentionJaouad Dabounou
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésJaouad Dabounou
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensembleJaouad Dabounou
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensembleJaouad Dabounou
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de CarathéodoryJaouad Dabounou
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesJaouad Dabounou
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexesJaouad Dabounou
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMJaouad Dabounou
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionJaouad Dabounou
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : NgrammesJaouad Dabounou
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolationJaouad Dabounou
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse NumériqueJaouad Dabounou
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correctionJaouad Dabounou
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériquesJaouad Dabounou
 

Más de Jaouad Dabounou (17)

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdf
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine Learning
 
RNN avec mécanisme d'attention
RNN avec mécanisme d'attentionRNN avec mécanisme d'attention
RNN avec mécanisme d'attention
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermés
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensemble
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensemble
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de Carathéodory
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexes
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexes
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correction
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
 
W2 vec001
W2 vec001W2 vec001
W2 vec001
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolation
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse Numérique
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériques
 

Analyse Factorielle des Correspondances

  • 1. Analyse Factorielle des Correspondances (AFC) Inertie du nuage de points J. DABOUNOU - FST DE SETTAT UNIVERSITE HASSAN Ier Mai 2020 YOUTUBE https://youtube.com/playlist?list=PLzjg2z2kYUrg6XvYVYMxdZQnouBEwavfQ
  • 2. Introduction L’analyse factorielle des correspondance se propose de déterminer des liaisons possible entre des variables qualitatives. Partants des modalités obtenues pour deux variables qualitatives par rapport à n individus, l’AFC, utilisera des principes communs à toutes les méthode d’analyse factorielle pour rendre compte des liaisons entre variables, et permettre une réduction de la dimensionnalité des données de façon à les ramener dans un espace qui préserve (ou explique) le maximum d’inertie. Nous allons présenter des démarches pour réaliser une AFC à travers un exemple simple. AFC001 - 1J. DABOUNOU - FST DE SETTAT
  • 3. Données à manipuler On considère n individus et deux variables qualitatives V1 et V2. On désigne par xpq pour p=1,n et q=1,2 la modalité de la variable Vq pour l’individu p. Ces données sont représentées sous forme matricielle par : On cherche à savoir s’il y a des liaisons entre les deux variables V1 et V2. L’analyse Factorielle des Correspondances (AFC) va nous apporter une réponse « géométrique » à cette question. Elle va nous permettre en même temps de réduire la dimensionnalité des données. V1 V2 1 x11 x12 2 x21 x22 3 x31 x32 ⁞ p xp1 xp2 ⁞ n xn1 xn2 J. DABOUNOU - FST DE SETTAT AFC001 - 2 nindividus Deux variables Les modalités d'une variable qualitative sont les différentes valeurs que cette variable peut prendre. Nous allons noter les I modalités de la première variable : m11,…, m1i , … , m1I , et les J modalités de la deuxième variable : m21,…, m2j , … , m2J.
  • 4. Tableau de contingence On construit alors un tableau de contingence (ou tableau croisé) : nij désigne le nombre d’individus possédant à la fois la modalité m1i de V1 et la modalité m2j de V2. On voit facilement que l’on a : n = i=1,I et j=1,J nij m21 m22 m2j m2J m11 n11 n12  n1j  n1J m12 n21 n22  n2j n2J ⁞ ⁞ ⁞ m1i ni1 ni2  nij niJ ⁞ ⁞ ⁞ m1I nI1 nI2  nIj  nIJ J. DABOUNOU - FST DE SETTAT AFC001 - 3 Modalités de V2 ModalitésdeV1
  • 5. Exemple simple Pour cet exemple, nous avons 30 individus (mobilier de bureau) et deux variables, la variable Type (type de mobilier) et la variable Couleur (couleur du mobilier). On construit alors un tableau de contingence : gris marron noir armoire 1 3 5 bureau 2 6 3 chaise 5 4 1 J. DABOUNOU - FST DE SETTAT AFC001 - 4 Modalités de Couleur ModalitésdeType Type Couleur 1 bureau noir 2 chaise marron 3 bureau noir 4 bureau gris 5 armoire marron 6 bureau noir 7 chaise gris 8 bureau marron 9 bureau marron 10 chaise gris 11 armoire noir 12 armoire marron 13 chaise gris 14 chaise noir 15 bureau marron 16 bureau gris 17 chaise gris 18 bureau marron 19 chaise marron 20 bureau marron 21 chaise gris 22 armoire gris 23 armoire noir 24 bureau marron 25 armoire noir 26 chaise marron 27 armoire marron 28 armoire noir 29 chaise marron 30 armoire noir nindividus Deux variables C’est sur la base de ce tableau que nous allons procéder dans toute la suite. Nous allons continuer à parler de population et d’individus même s’il s’agit de mobilier de bureau.
  • 6. Données à manipuler (Exemple) On ajoute au tableau de contingence : • une marge colonne : colonne à droite contenant la somme des meubles quelque soit leur couleur pour chaque type de meuble. • une marge ligne : ligne en bas contenant la somme des meubles quelque soit leur type pour chaque couleur. J. DABOUNOU - FST DE SETTAT AFC001 - 5 On ajoute ensuite : • une colonne dont les termes sont la proportion de population pour chacune des modalités de la variable « Type » • une ligne dont les termes sont la proportion de population pour chacune des modalités de la variable « Couleur » gris marron noir TOTAL armoire 1 3 5 9 bureau 2 6 3 11 chaise 5 4 1 10 TOTAL 8 13 9 30 gris marron noir TOTAL % armoire 1 3 5 9 0.300 bureau 2 6 3 11 0.367 chaise 5 4 1 10 0.333 TOTAL 8 13 9 30 1 % 0,267 0,433 0,300 1
  • 7. Notation en termes de probabilités J. DABOUNOU - FST DE SETTAT AFC001 - 6 On note : fij = nij n qui spécifie la probabilité conjointe de posséder à la fois la modalité m1i de la variable V1 et la modalité m2j de la variable V2. On voit alors que la marge colonne (respectivement la marge ligne) est égale au profil colonne (resp. profil ligne) : m21 m22 m2j m2J Cm m11 f11 f12  f1j  f1J f1. m12 f21 f22  f2j f2J f2. ⁞ ⁞ ⁞ ⁞ m1i fi1 fi2  fij fiJ fi. ⁞ ⁞ ⁞ ⁞ m1I fI1 fI2  fIj  fIJ fI. Lm f.1 f.2  f.j f.J 1 Modalités de V2 ModalitésdeV1 probabilités contingence
  • 8. gris marron noir TOTAL Cm armoire 1 3 5 9 0.300 bureau 2 6 3 11 0.367 chaise 5 4 1 10 0.333 TOTAL 8 13 9 30 1 Lm 0,267 0,433 0,300 1 Matrice des probabilités (Exemple) J. DABOUNOU - FST DE SETTAT AFC001 - 7 probabilités contingence gris marron noir Cm armoire 0,033 0,100 0,167 0.300 bureau 0,067 0,200 0,100 0.367 chaise 0,167 0,133 0,033 0.333 Lm 0,267 0,433 0,300 1 Le tableau de probabilités construit, à partir de notre tableau de contingence permet de donner plus de signification aux données. Pour l’exemple en cours, on obtient :
  • 9. On peut exprimer le fait que les variables soient indépendantes par : Pour tout i=1,I et tout j=1,J on doit avoir P(m1i, m2j) = P(m1i) P(m2j), autrement dit fij = fi..f.j. Ce qui revient à dire que la probabilité conjointe est égale au produit des probabilités marginales. Situation d’indépendance J. DABOUNOU - FST DE SETTAT AFC001 - 8 m21 m22 m2j m2J Cm m11 f11 f12  f1j  f1J f1. m12 f21 f22  f2j f2J f2. ⁞ ⁞ ⁞ ⁞ m1i fi1 fi2  fij fiJ fi. ⁞ ⁞ ⁞ ⁞ m1I fI1 fI2  fIj  fIJ fI. Lm f.1 f.2  f.j f.J 1 Modalités de V2 ModalitésdeV1 Ou alors, si on se donne j{1,…,J}, avoir fij fi. = f.j. Il s’agit ici d’une égalité entre la probabilité conditionnelle (posséder la modalité m2j sachant qu’on a déjà la modalité m1i) est égale à la probabilité marginale (posséder la modalité m2j sans aucune condition sur la variable V1). On a : P m2j m1i = P(m1i, m2j) P(m1i). = fij fi. et P(m2j) = f.j
  • 10. Les variables V1 et V2 sont indépendantes, si pour tout i=1,I et tout j=1,J on a fij = fi..f.j. Ce qui revient à dire que le tableau des probabilités conjointes est égal au tableau des produits des probabilités marginales. Ainsi, on aura : Tableaux en situation d’indépendance J. DABOUNOU - FST DE SETTAT AFC001 - 9 m21 m22 m2j m2J Cm m11 f11 f12  f1j  f1J f1. m12 f21 f22  f2j f2J f2. ⁞ ⁞ ⁞ ⁞ m1i fi1 fi2  fij fiJ fi. ⁞ ⁞ ⁞ ⁞ m1I fI1 fI2  fIj  fIJ fI. Lm f.1 f.2  f.j f.J 1 m21 m22 m2j m2J Cm m11 f1..f.1 f1..f.2  f1..f.j  f1..f.J f1. m12 f2..f.1 f2..f.2  f2..f.j  f2..f.J f2. ⁞ ⁞ ⁞ ⁞ m1i fi..f.1 fi..f.2  fi..f.j  fi..f.J fi. ⁞ ⁞ ⁞ ⁞ m1I fI..f.1 fI..f.2  fI..f.j  fI..f.J fI. Lm f.1 f.2  f.j f.J 1 = Tableau des probabilités conjointes Tableau des produits des probabilités marginales
  • 11. On en déduit que les variables V1 et V2 sont indépendantes, si pour tout i=1,I et tout j=1,J on a nij = n.fi.. f.j. Autrement dit, le tableau de contingence est égal au tableau des effectifs théoriques (ou en situation d’indépendance) : Tableaux en situation d’indépendance J. DABOUNOU - FST DE SETTAT AFC001 - 10 m21 m22 m2j m2J Cm m11 n11 n12  n1j  n1J n1. m12 n21 n22  n2j n2J n2. ⁞ ⁞ ⁞ ⁞ m1i ni1 ni2  nij niJ ni. ⁞ ⁞ ⁞ ⁞ m1I nI1 nI2  nIj  nIJ nI. Lm n.1 n.2  n.j n.J 1 = Tableau des effectifs théoriquesTableau de contingence A noter que : n.fij = nij et n.fi.. f.j = ni..n.j n m21 m22 m2j m2J Total m11 n.f1..f.1 n.f1..f.2  n.f1..f.j  n.f1..f.J n1. m12 n.f2..f.1 n.f2..f.2  n.f2..f.j  n.f2..f.J n2. ⁞ ⁞ ⁞ ⁞ m1i n.fi..f.1 n.fi..f.2  n.fi..f.j  n.fi..f.J ni. ⁞ ⁞ ⁞ ⁞ m1I n.fI..f.1 n.fI..f.2  n.fI..f.j  n.fI..f.J nI. Total n.1 n.2  n.j n.J n
  • 12. Test d’indépendance du Khi2 Le test d’indépendance du Khi2 étudie la liaison entre deux variables qualitatives V1 et V2. Soient : - Hypothèse H0: les variables V1 et V2 sont indépendantes. H0 est dite hypothèse nulle. - Hypothèse alternative H1: les variables V1 et V2 sont liées. Le test d’indépendance du Khi2 permet de valider H0 ou de la réfuter au profit de H1. Ce test analyse l’écart à l’indépendance en comparant le tableau des probabilités conjointes et le tableau des produits des probabilités marginales, ou le tableau de contingence et le tableau des effectifs théoriques. Sous l’hypothèse H0, les variables V1 et V2 sont indépendantes, et pour tout i=1,I et tout j=1,J on doit avoir fij = fi..f.j. En toute rigueur, l’égalité parfaite fij = fi..f.j n’est pas exigée. On se donne un seuil de signification α au-delà duquel l’hypothèse H0 serait rejetée. • On choisit souvent α=0.05 (ou 5%). Mais selon le problème posé, d’autres valeurs de α peuvent être utilisées. J. DABOUNOU - FST DE SETTAT AFC001 - 11
  • 13. Distance du Khi2 La distance du Khi2 calcule l’écart entre effectifs observés et effectifs théoriques. 2 = i=1,I j=1,J nij − nfi.f.j nfi.f.j 2 On note parfois  𝑜𝑏𝑠 2 au lieu de 2 pour préciser qu’il s’agit d’un calcul sur des données observées. On peut aussi écrire : 2 = n i=1,I j=1,J 1 fi.f.j fij − fi.f.j 2 Soit I tel que ∶ 2 = n I, donc : I = i=1,I j=1,J 1 fi.f.j fij − fi.f.j 2 . 2 représente la significativité de la liaison entre les variables. Il mesure l’écart entre les effectifs observés et les effectifs théoriques . I représente l’intensité de la liaison entre les variables. Il mesure l’écart entre les probabilités observées et les probabilités théoriques. Elle permettra par la suite de caractériser l’inertie des données. J. DABOUNOU - FST DE SETTAT AFC001 - 12
  • 14. gris marron noir TOTAL Cm armoire 1 3 5 9 0.300 bureau 2 6 3 11 0.367 chaise 5 4 1 10 0.333 TOTAL 8 13 9 30 1 Lm 0,267 0,433 0,300 1 Distance du Khi2 (Exemple) J. DABOUNOU - FST DE SETTAT AFC001 - 13 probabilités contingence gris marron noir Cm armoire 0,033 0,100 0,167 0.300 bureau 0,067 0,200 0,100 0.367 chaise 0,167 0,133 0,033 0.333 Lm 0,267 0,433 0,300 1 gris marron noir TOTAL Cm armoire 2,40 3,90 2,70 9 0.300 bureau 2,93 4,77 3,30 11 0.367 chaise 2,67 4,33 3,00 10 0.333 TOTAL 8 13 9 30 1 Lm 0,267 0,433 0,300 1 probabilités contingence gris marron noir Cm armoire 0,08 0,13 0,09 0.300 bureau 0,10 0,16 0,11 0.367 chaise 0,09 0,14 0,10 0.333 Lm 0,267 0,433 0,300 1 Données observées : Données théoriques : Les calculs donnent alors : 2 = n i=1,I j=1,J 1 fi.f.j fij − fi.f.j 2 = 75,35 Soit I = i=1,I j=1,J 1 fi.f.j fij − fi.f.j 2 = 2,51
  • 15. Distance du Khi2 Sous l’hypothèse H0 (les deux variables sont indépendantes), pour un effectif aléatoire de n individus, la somme 2 = i=1,I j=1,J nij − nfi.f.j ni.n.j 2 Suit une loi du Khi2 à  = (I-1)(J-1) degrés de liberté. Il s’agit d’une somme des carrés des écarts relativisés qui constitue une approximation asymptotique d’une somme des carrés de  distributions normales centrées réduites indépendantes. On remarque que  = (I-1)(J-1) = IJ-I-J+1. Dans la somme 2 ci-dessus nous avons IJ termes. Pour ne garder qu’une somme de terme indépendants : 1. On retranche I (une colonne) car la somme des effectifs dans chaque ligne est fixe, 2. On retranche J-1 (une ligne) parce que la somme des effectifs dans chaque colonne est fixe. Noter qu’il reste J-1 colonnes après l’opération précédente. Ce qui permet d’obtenir  termes indépendants. J. DABOUNOU - FST DE SETTAT AFC001 - 14
  • 16. Conditions d’application du test du Khi2 Conditions d’application du test statistique du Khi2 : 1. Les observations qui permettent de construire le tableau de contingence doivent être aléatoires 2. Echantillon aléatoire doit avoir une taille n30. 3. Tous les effectifs théoriques tij doivent vérifier tij5. Si un effectif théorique est inférieur à 5, on peut être amené à regrouper des lignes (ou des colonnes) et à réinterpréter les modalités correspondantes en conséquence. J. DABOUNOU - FST DE SETTAT AFC001 - 15
  • 17. Densité de probabilité du Khi La densité de probabilité du KHI2 pour un degré de liberté donné  est représentée par une courbe qui a la forme ci-dessous : J. DABOUNOU - FST DE SETTAT AFC001 - 16 La densité de probabilité varie selon le degré de liberté  comme le montre la figure suivante : Densité de probabilité pour différents ddls La courbe change de forme en fonction de . La valeur pour laquelle le maximum est atteint croit avec le degré de liberté, donc s’éloigne de l’origine. Densité de probabilité du Khi2 L’expression de cette densité de probabilité utilise la fonction gamma: 𝑓(x) = 1 2  2 (  2 ) x(  2 − 1) e − x 2
  • 18. Test statistique du Khi2 2 mesure l’écart entre les effectifs observés et les effectifs théoriques, donc si les deux variables sont indépendantes, alors : J. DABOUNOU - FST DE SETTAT AFC001 - 17 il est plus probable que le 2 ait une petite valeur, ce que illustre la figure suivante. il est peu probable que le 2 ait une très grande valeur. La courbe passe par l’origine parce que la probabilité que les effectifs observés coïncident avec les effectifs théoriques pour une observation aléatoire est nulle.
  • 19. Valeur critique pour le test du Khi2 On détermine une valeur critique  𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 2 à l’aide de la table du Khi2 en utilisant le seuil de signification α et le degré de liberté . J. DABOUNOU - FST DE SETTAT AFC001 - 18 Table du Khi2
  • 20. Règles de décision pour le test du Khi2 On détermine ainsi une valeur critique  𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 2 qui dépend de la loi de probabilité utilisée, donc du seuil de signification α et du degré de liberté , pour laquelle : • Si l’écart observé 2 <  𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 2 alors on rejette l’hypothèse H0 • Si l’écart observé 2   𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 2 alors on rejette l’hypothèse H0 J. DABOUNOU - FST DE SETTAT AFC001 - 19 Rejeter H0 Accepter H0
  • 21. Construction de profils colonne J. DABOUNOU - FST DE SETTAT AFC001 - 20 Si les deux variables étaient parfaitement indépendantes alors, si l’on considère les individus qui possèdent la modalité « gris » de la variable « couleur », alors la répartition des termes par type doit être égale à celle de la population totale. Ce qui exprime que le fait d’être gris n’as aucune relation avec la couleur des individus. Vérifions si cela est vrai. Pour cela, on calcule la proportion pour chacune des modalités de la variable « Type » par rapport à la population de modalité « gris » pour la variable « Couleur » : gris % TOTAL % armoire 1 0.125 9 0.300 bureau 2 0.250 11 0.367 chaise 5 0.625 10 0.333 TOTAL 8 1 30 1 % 0,267
  • 22. Relation entre profils colonne J. DABOUNOU - FST DE SETTAT AFC001 - 21 Cela doit être répété pour toutes les modalités de la variable « type d'activité ». Les colonnes obtenues pour chaque modalité de la variable « Couleur » sont appelées profils colonne et seront notées respectivement C1, C2 et C3. La colonne qui correspond à la population totale s’appelle profil colonne moyen et sera notée Cm. Pour chaque ligne i, on note ni. = ni1+ni2+ni3, et pour chaque colonne j, on note n.j = n1j+n2j+n3j. Le ième terme de Cm, noté fi. est donc donné par : fi. = ni. n = ni1+ni2+ni3 n = ni1 n + ni2 n + ni3 n Donc, fi. = ni1 n.1 n.1 n + ni2 n.2 n.2 n + ni3 n.3 n.3 n et ainsi, on peut écrire Cm = n.1 n C1 + n.2 n C2 + n.3 n C3 Cette dernière relation permet de considérer Cm comme une moyenne de C1, C2 et C3, pondérée par n.1 n , n.2 n et n.3 n , que nous allons noter respectivement par la suite f.1, f.2 et f.3. gris C1 marron C2 noir C3 TOTAL Cm armoire 1 0,125 3 0,231 5 0,556 9 0,300 bureau 2 0,250 6 0,462 3 0,333 11 0,367 chaise 5 0,625 4 0,308 1 0,111 10 0,333 TOTAL 8 1 13 1 9 1 30 1 Lm 0,267 0,433 0,300 1
  • 23. Relation entre profils ligne J. DABOUNOU - FST DE SETTAT AFC001 - 22 Cela doit être répété pour toutes les modalités de la variable « type ». On construit aussi des profils ligne notés respectivement L1, L2 et L3 et un profil ligne moyen noté Lm. On adoptant les notations introduites dans les diapositives précédentes, on montre que : Lm = n1. n L1 + n2. n L2 + n3. n L3 On peut écrire alors Cm et Lm sous la forme : Cm = f.1 C1 +f.2 C2 +f.3 C3 et Lm = f1. L1 + f2. L2 + f3. L3 gris marron noir TOTAL Cm armoire 1 3 5 9 0.300 L1 0,111 0,333 0,556 1 bureau 2 6 3 11 0.367 L2 0,182 0,545 0,273 1 chaise 5 4 1 10 0.333 L3 0,500 0,400 0,100 1 TOTAL 5 10 9 30 1 Lm 0,167 0,333 0,300 1
  • 24. Données à manipuler (Exemple) Les trois séries L1, L2 et L3 n’ont pas la même « forme »: J. DABOUNOU - FST DE SETTAT AFC001 - 23 0,267 0,500 0,182 0,111 0,433 0,400 0,545 0,333 0,300 0,100 0,273 0,556 gris marron noir L1 L2 L3 Lm L’attraction entre deux réalités sociales est révélée par la différence au pourcentage moyen. Ici il y a attraction entre le fait d’aller à la chasse et d’être de sexe masculin.
  • 25. Données à manipuler (Exemple) J. DABOUNOU - FST DE SETTAT AFC001 - 24 0,00 0,10 0,20 0,30 0,40 0,50 0,60 gris marron noir Titre du graphique L1 L2 L3 Lm Les trois séries L1, L2 et L3 n’ont pas la même « forme »:
  • 26. Notation en termes de probabilités J. DABOUNOU - FST DE SETTAT AFC001 - 25 Pour donner plus de signification aux notations précédentes, on construit, à partir de notre tableau de contingence, le tableau de probabilités correspondant. On note : fij = nij n qui spécifie la probabilité conjointe de posséder à la fois la modalité m1i de la variable V1 et la modalité m2j de la variable V2. On voit alors que la marge colonne (respectivement la marge ligne) est égale au profil colonne (resp. profil ligne). On obtient ainsi : m21 m22 m2j m2J Cm m11 f11 f12  f1j  f1J f1. m12 f21 f22  f2j f2J f2. ⁞ ⁞ ⁞ ⁞ m1i fi1 fi2  fij fiJ fi. ⁞ ⁞ ⁞ ⁞ m1I fI1 fI2  fIj  fIJ fI. Lm f.1 f.2  f.j f.J 1 Modalités de V2 ModalitésdeV1 probabilités contingence On peut maintenant exprimer le fait que les variables soient indépendantes. Pour tout i=1,I et tout j=1,J on doit avoir fij = fi..f.j. Ce qui revient à dire que la probabilité conjointe est égale au produit des probabilités marginales. Ou alors, si on se donne j{1,…,J}, avoir fij fi. = f.j. Il s’agit ici d’une égalité entre la probabilité conditionnelle (posséder la modalité m2j sachant qu’on a déjà la modalité m1i) est égale à la probabilité marginale (posséder la modalité m2j sans aucune condition sur la variable V1)
  • 27. gris marron noir TOTAL Cm armoire 1 3 5 9 0.300 bureau 2 6 3 11 0.367 chaise 5 4 1 10 0.333 TOTAL 8 13 9 30 1 Lm 0,267 0,433 0,300 1 Données réelles et données théoriques J. DABOUNOU - FST DE SETTAT AFC001 - 26 probabilités contingence gris marron noir Cm armoire 0,033 0,100 0,167 0.300 bureau 0,067 0,200 0,100 0.367 chaise 0,167 0,133 0,033 0.333 Lm 0,267 0,433 0,300 1 gris marron noir TOTAL Cm armoire 2,40 3,90 2,70 9 0.300 bureau 2,93 4,77 3,30 11 0.367 chaise 2,67 4,33 3,00 10 0.333 TOTAL 8 13 9 30 1 Lm 0,267 0,433 0,300 1 probabilités contingence gris marron noir Cm armoire 0,08 0,13 0,09 0.300 bureau 0,10 0,16 0,11 0.367 chaise 0,09 0,14 0,10 0.333 Lm 0,267 0,433 0,300 1
  • 28. gris marron noir TOTAL Cm armoire 1 3 5 9 0.300 bureau 2 6 3 11 0.367 chaise 5 4 1 10 0.333 TOTAL 8 13 9 30 1 Lm 0,267 0,433 0,300 1 Profils ligne observés J. DABOUNOU - FST DE SETTAT AFC001 - 27 probabilités contingence gris marron noir Cm armoire 0,033 0,100 0,167 0.300 bureau 0,067 0,200 0,100 0.367 chaise 0,167 0,133 0,033 0.333 Lm 0,267 0,433 0,300 1 gris marron noir TOTAL Cm armoire 1 3 5 9 0,300 L1 0,111 0,333 0,556 1 bureau 2 6 3 11 0,367 L2 0,182 0,545 0,273 1 chaise 5 4 1 10 0,333 L3 0,500 0,400 0,100 1 TOTAL 8 13 9 30 1,000 Lm 0,267 0,433 0,300 1 Armoire (9) Bureau (11) Chaise (10) Tous type de meuble (30)
  • 29. gris marron noir TOTAL Cm armoire 2,40 3,90 2,70 9 0.300 bureau 2,93 4,77 3,30 11 0.367 chaise 2,67 4,33 3,00 10 0.333 TOTAL 8 13 9 30 1 Lm 0,267 0,433 0,300 1 probabilités contingence gris marron noir Cm armoire 0,08 0,13 0,09 0.300 bureau 0,10 0,16 0,11 0.367 chaise 0,09 0,14 0,10 0.333 Lm 0,267 0,433 0,300 1 Profils ligne en cas d’indépendance J. DABOUNOU - FST DE SETTAT AFC001 - 28 gris marron noir TOTAL Cm armoire 2 4 3 9 0,300 L1 0,267 0,433 0,300 1 bureau 3 5 3 11 0,367 L2 0,267 0,433 0,300 1 chaise 3 4 3 10 0,333 L3 0,267 0,433 0,300 1 TOTAL 8 13 9 30 1,000 Lm 0,267 0,433 0,300 1
  • 30. Représentation synthétique des notations J. DABOUNOU - FST DE SETTAT AFC001 - 29 Le tableau suivant, se basant sur la structure de l’exemple traité, synthétise les notations utilisées pour analyser les liaisons entre les variables qualitatives. Pour l’AFC, on représente les points que constituent les lignes du tableau dans l’espace RJ , où J désigne le nombre de modalités pour la variable V2. On cherche ensuite à projeter ces points dans un espace de dimension inférieure, comme cela se fait dans l’ACP. On passe ensuite aux colonnes, et on refait le même processus. m21 C1 % m22 C2 % m23 C3 % TOTAL Cm % m11 f11 f11/f.1 f12 f12/f.2 f13 f13/f.3 n1. f1. L1 % f11/f1. f1..f.1 f12/f1. f1..f.2 f13/f1. f1..f.3 1 m12 f21 f21/f.1 f22 f22/f.2 f23 f23/f.3 n2. f2. L2 % f21/f2. f2..f.1 f22/f2. f2..f.2 f23/f2. f2..f.3 1 m13 f31 f31/f.1 f32 f32/f.2 f33 f33/f.3 n3. f3. L3 % f31/f3. f3..f.1 f32/f3. f3..f.2 f33/f3. f3..f.3 1 TOTAL n.1 1 n.2 1 n.3 1 n 1 Lm % f.1 f.2 f.3 1
  • 31. Inertie du nuage de points J. DABOUNOU - FST DE SETTAT AFC001 - 30 Nous allons donc commencer par représenter les profils lignes, L1, L2 et L3 dans le contexte de notre exemple, dans l’espace RJ , où J désigne le nombre de modalités pour la variable V2, J=3 dans notre exemple. On appelle alors cet espace: espace des profils. A chaque point Li est associé un poids égal à fi.. Ce poids correspond à la proportion de population représentée par la ligne Li, or cette proportion est justement fi.. Comme nous l’avons déjà montré, Lm constitue le centre de gravité des points Li auxquels on a affecté les poids associés. Lm = f1. L1 + f2. L2 + f3. L3 La somme des termes de chaque profil ligne Li est égale à 1. Ceci est vrai aussi pour le profil ligne moyen. On en déduit que les profils ligne et le profil ligne moyen appartiennent à l’hyperplan HPL = { x = (x1, x2,x3)  R3 | x1 + x2 + x3 = 1}. Donc tous les profils ligne se trouvent dans un hyperplan de dimension J-1. Plus précisément encore, tous les profiles appartiennent au simplexe de sommets e1=(1,0,…,0), e2=(0,1,…0),…, eJ=(0,…,1). Ici nous avons J=3 ce qui simplifie beaucoup les choses.
  • 32. Inertie du nuage de points J. DABOUNOU - FST DE SETTAT AFC001 - 31 Comme cela a déjà été expliqué dans le cours sur l’ACP, la quantité d’information contenue dans le nuage de point peut être caractérisée par le degré de dispersion du nuage des points Li dans l’espace RJ , sans oublier que les points ne se valent pas, chacun a un poids comme on l’a mentionné plus haut. Cette dispersion est évaluée en calculant l’inertie par rapport à Lm du nuage de points Li, dont la formule est : I = i fi. d Li , Lm 2 On doit donc définir une distance sur l’ensemble des points de l’espace RJ , en tenant compte de la nature des points Li.
  • 33. Expression de l’inertie J. DABOUNOU - FST DE SETTAT AFC001 - 32 En nous réfrénant à la figure ci-dessous, l’expression suivante donne la distance entre L3 et L5 : L3 − L1 2 = f.1 f31 f3.f.1 − f11 f1.f.1 2 + f.2 f32 f3.f.2 − f12 f1.f.2 2 + f.1 f31 f3.f.1 − f31 f3.f.1 2 Dans chaque terme, on normalise les éléments des deux lignes en divisant par f.j, qui est le poids correspondant à la dimension j (ou colonne j). Ensuite, on élève au carré (norme euclidienne) et on multiplie le résultat par f.j, puisque dans une norme, la contribution de chaque élément doit être pondérée par le poids de la dimension considérée. Géométriquement, la projection d’un point, ou ligne, Li = (ai1 , ai2 , ai3) sur l’axe j possède la coordonnée aij f.j . m21 m22 m23 Cm L1 f11/f1. f12/f1. f13/f1. f1. L2 f21/f2. f22/f2. f23/f2. f2. L3 f31/f3. f32/f3. f33/f3. f3. Lm f.1 f.2 f.3 1
  • 34. Expression de l’inertie J. DABOUNOU - FST DE SETTAT AFC001 - 33 Pour deux lignes r et s, on aura: n nous réfrénant à la figure ci-dessous, l’expression suivante donne la distance entre : Lr − Ls 2 = f.1 fr1 fr.f.1 − fs1 fs.f.1 2 + f.2 fr2 fr.f.2 − fs2 fs.f.2 2 + f.3 fr3 fr.f.3 − fs3 fs.f.3 2 = j=1,J f.j frj fr.f.j − fsj fs.f.j 2 = j=1,J 1 f.j frj fr. − fsj fs. 2 Cette dernière écriture est très convenable, puisqu’elle rappelle la distance euclidienne entre Lr et Ls avec une pondération par 1 f.j . On définit ainsi une distance appelée de distance de2. On a : d2 Lr , Ls 2 = j=1,J 1 f.j frj fr. − fsj fs. 2
  • 35. Expression de l’inertie J. DABOUNOU - FST DE SETTAT AFC001 - 34 En particulier la distance entre un profil ligne Li et le profil ligne moyen Lm devient : d2 Li , Lm 2 = j=1,J f.j fij fi.f.j − f.j f.j 2 = j=1,J f.j fij fi.f.j − 1 2 = j=1,J 1 fi. 2 f.j fij − fi.f.j 2 On voit en particulier que, si les deux variables sont indépendantes, donc fij − fi.f.j, pour tout i=1,I et j=1,J, et ainsi : d2 Li , Lm 2 = 0 Ce qui veut dire que tous les points du nuage seront confondus avec le profil ligne moyen Lm. La distance des profils ligne par rapport au profil ligne moyen exprime ainsi la dispersion du nuage de points, et la formule qui donne l’inertie de ce nuage devient : I = i fi. d Li , Lm 2 = i=1,I j=1,J 1 fi.f.j fij − fi.f.j 2 Il est à noter que l’inertie ne tient pas compte du nombre d’individus n.
  • 36. Expression de l’inertie J. DABOUNOU - FST DE SETTAT AFC001 - 35 On utilise l’expression de l’inertie à notre exemple, et on obtient : I = i=1,I j=1,J 1 fi.f.j fij − fi.f.j 2 = 𝟎. 𝟏𝟑𝟒 Actifs C1 % Chômeurs C2 % Inactifs C3 % TOTAL Cm % 15 - 24 ans 0,051 0,123 0,015 0,367 0,172 0,319 6 077 913 0,239 L1 % 0,215 0,100 0,064 0,010 0,721 0,129 1 25 - 34 ans 0,123 0,294 0,018 0,439 0,092 0,170 5 936 505 0,233 L2 % 0,527 0,098 0,078 0,010 0,395 0,126 1 35 - 44 ans 0,106 0,254 0,005 0,119 0,074 0,136 4 703 813 0,185 L3 % 0,575 0,077 0,027 0,008 0,398 0,100 1 45 - 59 ans 0,108 0,257 0,003 0,063 0,088 0,163 5 043 847 0,198 L4 % 0,543 0,083 0,013 0,008 0,444 0,107 1 60 ans et plus 0,031 0,073 0,000 0,011 0,114 0,212 3 702 709 0,145 L5 % 0,210 0,061 0,003 0,006 0,787 0,079 1 TOTAL 10 663 271 1 1 051 830 1 13 749 686 1 25 464 787 1,000 Lm % 0,419 0,041 0,540 1 On remarque que dans l’expression de l’inertie du nuage de points représentant les profils ligne, i et j jouent un rôle symétrique. On en déduit, ce qui peut d’ailleurs être démontré directement, que l’inertie est la même que l’on considère le nuage de points représentant les profils ligne dans l’espace RJ ou le nuage de points représentant les profils colonne dans l’espace RI .
  • 37. Construire le tableau des profils colonne La figure suivante illustre comment sont représentés les profils ligne dans l’espace des profils. Tous les profils ligne ainsi que le profil ligne moyen se trouvent dans le triangle d’extrémités (1,0,0), (0,1,0) et (0,0,1). J. DABOUNOU - FST DE SETTAT AFC001 - 36 0.25 0.50 0.75 1 60ans et plus 25-34ans 35-44ans 45-59ans 15-24ans Inactifs Profil ligne moyen
  • 38. Notation matricielle J. DABOUNOU - FST DE SETTAT AFC001 - 37 On va utiliser des notations matricielles dans les calculs qui seront développés par la suite. Soient P = (fij) : la matrice des probabilités, 𝕝I : le vecteur unitaire de RI : 𝕝I = 1 1 ⋮ 1 , et 𝕝J: le vecteur unitaire de RJ : 𝕝J = 1 1 ⋮ 1 On a, le profil ligne moyen Lm = 𝐏t 𝕝I et le profil colonne moyen Cm = 𝐏 𝕝J. On rappelle que Lm = f.1 f.2 ⋮ f.J et Cm = f1. f2. ⋮ fI. DI = diag(fi.) et DJ = diag(f.j) : les matrices diagonales dont les éléments diagonaux sont constitués respectivement des composantes (fi.) de Cm et (f.j) de Lm.
  • 39. Notation matricielle J. DABOUNOU - FST DE SETTAT AFC001 - 38 Soit L = ( fij fi. ) la matrice des profils ligne. Pour notre exemple, nous avons : L = De même, C = ( fij f.j )t , la matrice des profils colonne pour notre exemple: C = On vérifie facilement que l’on a : L = DI -1 P et C = DJ -1 Pt m21 m22 m23 L1 % f11/f1. f12/f1. f13/f1. L2 % f21/f2. f22/f2. f23/f2. L3 % f31/f3. f32/f3. f33/f3. L3 % f41/f4. f42/f4. f43/f4. L5 % f51/f5. f52/f5. f53/f5. Lm % f.1 f.2 f.3 f11/f1. f12/f1. f13/f1. f21/f2. f22/f2. f23/f2. f31/f3. f32/f3. f33/f3. f41/f4. f42/f4. f43/f4. f51/f5. f52/f5. f53/f5. f11/f.1 f21/f.1 f31/f.1 f41/f.1 f51/f.1 f12/f.2 f22/f.2 f32/f.2 f42/f.2 f52/f.2 f13/f.3 f23/f.3 f33/f.3 f43/f.3 f53/f.3 C1 C2 C3 m11 % f11/f.1 f21/f.1 f31/f.1 f41/f.1 f51/f.1 m12 % f12/f.2 f22/f.2 f32/f.2 f42/f.2 f52/f.2 m13 % f13/f.3 f23/f.3 f33/f.3 f43/f.3 f53/f.3 Cm % f1. f2. f3. f4. f5.
  • 40. Expression de l’inertie J. DABOUNOU - FST DE SETTAT AFC001 - 39 Nous avions introduit l’expression de l’inertie du nuage des points formés par les profils ligne : I = i=1,I fi. d Li , Lm 2 = i fi. j=1,J f.j fij fi.f.j − f.j f.j 2 = i fi. j=1,J f.j fij fi.f.j − 1 2 Ce qui peut s’écrire aussi : I = i=1,I fi. j=1,J fij fi. − f.j f.j 2 La dernière expression correspond à l’inertie du nuage de points formé par les profils ligne, centré par rapport au profil ligne moyen et « réduit » ou normalisé en divisant par la racine carrée du poids associé à chaque colonne, la somme des termes de l’inertie étant pondérée par le poids de la ligne considérée. Ce qui rappelle l’expression de l’inertie dans le contexte de l’ACP. Cependant l’expression : I = i=1,I fi. j=1,J 1 f.j fij − fi.f.j 2 amène à considérer sur l’espace des profils ligne une métrique Euclidienne pondérée par l’inverse des poids (f.j). Ainsi, le produit scalaire de deux vecteurs u,v de RJ s’écrit : <u , v>2 = j=1,J uj 1 f.j vj
  • 41. Expression de l’inertie J. DABOUNOU - FST DE SETTAT AFC001 - 40 On a vu que : I = i fi. d Li , Lm 2 = i fi. j=1,J f.j fij fi.f.j − f.j f.j 2 Ce qui peut s’écrire aussi : I = i=1,I j=1,J 1 fi.f.j fij − fi.f.j 2 En utilisant les notations matricielles on obtient : I = tr(DI −1 (P − Cm Lm t ) DJ −1 (P − Cm Lm t )t ) I représente l’inertie totale du nuage de points formé par les profils ligne.
  • 42. Projeter les profils ligne sur un axe J. DABOUNOU - FST DE SETTAT AFC001 - 41 Comme pour l’ACP, on cherche un vecteur unitaire u1 pour projeter le nuage de points sur l’axe qui récupère un maximum d’inertie. On prend G=Lm comme centre du repère. Nous avions déjà vu que Lm est le barycentre du nuage des profil ligne Li pondérés par les poids (fi.). Nous avions aussi déjà montré que la liaison entre les deux variables est caractérisée par la dispersion du nuage de points par rapport à Lm. On cherche un vecteur unitaire u1 pour projeter le nuage de points sur l’axe qui récupère un maximum d’inertie : I1 = i=1,I fi. GO1i 2 Or on a : GO1i = <GLi, u1>2 = j=1,J ( fij fi. − f.j) 1 f.j u1,j Soit F1 le vecteur dont les composantes sont les projections des Li sur la droite D1. c’est-à-dire les GO1i, on a : F1 = (DI −1 P − 𝕝I Lm t ) DJ −1 u1 G RJ u1 Li O1i D1
  • 43. Projeter les profils ligne sur un axe J. DABOUNOU - FST DE SETTAT AFC001 - 42 Le vecteur unitaire u1 qui explique le maximum de l’inertie du nuage de points vérifie : u1 = arg max u Ft (u) DI F(u) où F(u) = (DI −1 P − 𝕝I Lm t ) DJ −1 𝐮 Sous la contrainte: u 2 = j=1,J 1 f.j uj 2 = ut DJ −1 u = 1 On peut finalement écrire : u1 = arg max u ut DJ −1 (DI −1 P − 𝕝I Lm t )t DI(DI −1 P − 𝕝I Lm t ) DJ −1 𝐮 ut DJ −1 u = 1 Or on a : DI 𝕝I = Cm u1 = arg max u ut DJ −1 (P − CmLm t )t DI −1 (P − Cm Lm t ) DJ −1 𝐮 G RJ u1 Li O1i D1
  • 44. Caractérisation de l’axe principal J. DABOUNOU - FST DE SETTAT AFC001 - 43 Comme pour l’ACP, on utilise la méthode de Lagrange. Soit  le multiplicateur de Lagrange. On va alors maximiser le Lagrangien: L (u) = ut DJ −1 (P − CmLm t )t DI −1 (P − Cm Lm t ) DJ −1 𝐮 − (ut DJ −1 u − 1) Le maximum est atteint lorsque la dérivée suivante s’annule : 𝜕L 𝜕𝐮 = 2 DJ −1 (P − CmLm t )t DI −1 (P − Cm Lm t ) DJ −1 𝐮 − 2  DJ −1 𝐮 = 0 Ou (P − CmLm t )t DI −1 (P − Cm Lm t ) DJ −1 𝐮 =  𝐮 Ainsi : • u1 est vecteur propre de 𝐒 = (P − CmLm t )t DI −1 (P − Cm Lm t ) DJ −1 associé à une valeur propre 1 • 1 doit être la plus grande des valeurs propres de S • u1 t DJ −1 u1= 1
  • 45. Caractérisation de l’axe principal J. DABOUNOU - FST DE SETTAT AFC001 - 44 Nous avons : (P − CmLm t )t DI −1 (P − Cm Lm t ) DJ −1 u1 = 1u1 On multipliant chaque terme de cette égalité par DJ −1 2 à gauche, on obtient : DJ −1 2 (P − CmLm t )t DI −1 (P − Cm Lm t )DJ −1 2 DJ −1 2 u1 = 1DJ −1 2 u1 On pose : u1 = DJ −1 2 u1 On peut écrire : DJ −1 2 (P − CmLm t )t DI −1 (P − Cm Lm t )DJ −1 2 u1 = 1u1 u1 est vecteur propre de 𝐒 = DJ −1 2 (P − CmLm t )t DI −1 (P − Cm Lm t )DJ −1 2 associé à la valeur propre 1. On vérifie facilement que 𝐒 est symétrique définie-positive de rang r égal à celui de P − CmLm t , donc diagonalisable avec les valeurs propres positives ou nulles, on note 1 2  …  r > 0 et u1, u2, … ur les vecteurs propres unitaires (pour la métrique euclidienne) associés. On en déduit que S admet les mêmes valeurs propres et les vecteurs propres us = DJ 1 2 us. On a par ailleurs pour s=1,r: us t DJ −1 us = us t us = 1. Ce qu’on recherchait dans le problème d’optimisation.
  • 46. Inertie totale et inertie expliquée J. DABOUNOU - FST DE SETTAT AFC001 - 45 Nous avions montré que l’inertie totale du nuage de points formé par les profils ligne est donnée par l’expression : I = tr(DI −1 (P − Cm Lm t )DJ −1 (P − Cm Lm t )t ) = tr((P − Cm Lm t )t DI −1 (P − Cm Lm t ) DJ −1 ) Pour une matrice diagonalisable, la trace est égale à la somme des valeurs propres. Donc I = 1+ 2 + … + r Les composantes principales portées par le s-ième axe principal (vecteur us) sont données par : Fs = DI −1 (P − Cm Lm t ) DJ −1 us Nous rappelons que les composantes principales sont constituées à partir des projections du nuage de points sur l’axe principal. L’inertie expliquée par l’axe s est alors : s = Fs t DI Fs
  • 47. Inertie du nuage des profils colonne J. DABOUNOU - FST DE SETTAT AFC001 - 46 On considère maintenant le nuage des profils colonne dans l’espace RI. On note Ic l’inertie de ce nuage de points en prenant comme centre le profil colonne moyen Cm. On a alors : I 𝐜 = j=1,J f.j d Cj , Cm 2 = j=1,J f.j i=1,I fi. fij fi.f.j − fi. fi. 2 = j=1,J f.j i=1,I 1 fi. fij f.j − fi. 2 Ce qui peut s’écrire: I 𝐜= tr(DJ −1 (Pt − Lm Cm t )DI −1 (Pt − Lm Cm t )t ) = tr(DJ −1 (P − Cm Lm t )t DI −1 (P − Cm Lm t )t ) On peut montrer facilement que : I 𝐜= tr(DJ −1 (P − Cm Lm t )t DI −1 (P − Cm Lm t )t )=tr(DI −1 (P − Cm Lm t ) DJ −1 (P − Cm Lm t )t )=I On voit que les inerties des deux nuages de points (profils ligne et profils colonne) sont égales. Comme pour l’analyse directe (des profils ligne), on est amené à considérer sur l’espace des profils colonne une métrique Euclidienne pondérée par l’inverse des poids (fi.). Ainsi, le produit scalaire de deux vecteurs v,w de RI s’écrit : <v , w>2 = i=1,I vi 1 fi. wi
  • 48. Projeter les profils colonne sur un axe J. DABOUNOU - FST DE SETTAT AFC001 - 47 Cm est le barycentre du nuage des profil colonne Cj pondérés par les poids (fi.). D’un autre côté, la liaison entre les deux variables est caractérisée par la dispersion du nuage de points par rapport à Cm. On cherche un vecteur unitaire v1 pour projeter le nuage de points sur l’axe qui récupère un maximum d’inertie : I1 = j=1,J f.j CmN1j 2 Or on a : CmO1j = <CmCj, v1>2 = i=1,I ( fij f.j − fi.) 1 fi. v1,i Soit G1 le vecteur dont les composantes sont les projections des Cj sur la droite D1. c’est-à-dire les CmN1i, on a : G1 = (DJ −1 Pt −𝕝J Cm t )DI −1 v1 Or DJ 𝕝J = Lm Donc : G1 = DJ −1 (Pt − Lm Cm t )DI −1 v1 Cm RI v1 Cj N1j D1
  • 49. Projeter les profils colonne sur un axe J. DABOUNOU - FST DE SETTAT AFC001 - 48 Le vecteur unitaire v1 qui explique le maximum de l’inertie du nuage de points vérifie : v1 = arg max v Gt (v) DJ G(v) où G(v) = DJ −1 (Pt − Lm Cm t )DI −1 v Sous la contrainte: v 2 = i=1,I 1 fi. vi 2 = vt DI −1 v = 1 On peut donc écrire : v1 = arg max v vt DI −1 (Pt − Lm Cm t )t DJ −1 (Pt − Lm Cm t ) DI −1 𝐯 Ou encore v1 = arg max v vt DI −1 (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 𝐯 vt DI −1 v = 1 G RJ u1 Li N1i D1
  • 50. Caractérisation de l’axe principal J. DABOUNOU - FST DE SETTAT AFC001 - 49 On va alors maximiser le Lagrangien: L (u) = vt DI −1 (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 𝐯 − (vt DI −1 v − 1)  étant le multiplicateur de Lagrange. Le maximum est atteint lorsque la dérivée suivante s’annule : 𝜕L 𝜕𝐮 = 2DI −1 (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 𝐯 − 2 DI −1 𝐮 = 0 ou (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 𝐯 =  𝐯 Ainsi : • v1 est vecteur propre de T = (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 associé à une valeur propre 1 • 1 doit être la plus grande des valeurs propres. • v1 t DI −1 v1= 1 On rappelle que 𝐒 = (P − CmLm t )t DI −1 (P − Cm Lm t ) DJ −1 Donc S et T (produits de mêmes termes) possèdent les mêmes valeurs propres non nulles. Donc s = s pour s=1,r.
  • 51. Caractérisation de l’axe principal J. DABOUNOU - FST DE SETTAT AFC001 - 50 Nous avons : (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 𝐯1 = 1v1 On multipliant chaque terme de cette égalité par DI −1 2 à droite, on obtient : DI −1 2 (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 2 DI −1 2 u1 = 1DI −1 2 u1 On pose : v1 = DI −1 2 v1 On peut écrire : DI −1 2 (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 2 v1 = 1v1 v1 est vecteur propre de 𝐓 = DI −1 2 (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 2 associé à la valeur propre 1. 𝐓 est symétrique définie-positive de rang r égal à celui de P − CmLm t , donc diagonalisable avec les valeurs propres positives ou nulles 1 2  …  r > 0 et v1, v2, … vr les vecteurs propres unitaires (pour la métrique euclidienne) associés. On en déduit que T admet les mêmes valeurs propres et les vecteurs propres vs = DI −1 2 vs. On a par ailleurs pour s=1,r: vs t DI −1 vs = vs t vs = 1. Ce qu’on recherchait dans le problème d’optimisation.
  • 52. Inertie totale et inertie expliquée J. DABOUNOU - FST DE SETTAT AFC001 - 51 L’inertie totale du nuage de points formé par les profils colonne est donnée par l’expression : I = tr((P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 ) = 1+ 2 + … + r Les composantes principales portées par le s-ième axe principal (vecteur vs) sont données par : Gs = DJ −1 (Pt − Lm Cm t )DI −1 vs Gs = DJ −1 (P − CmLm t )t DI −1 vs L’inertie expliquée par l’axe s est alors : s = Gs t DJ Gs
  • 53. Synthèse des relations matricielles J. DABOUNOU - FST DE SETTAT AFC001 - 52 On a : us = DJ 1 2 us et 𝐒 us = sus où 𝐒 = DJ −1 2 (P − CmLm t )t DI −1 (P − Cm Lm t )DJ −1 2 On pose : X =DI −1 2 (P − Cm Lm t )DJ −1 2 . On a: 𝐒 = X t X = U DU t Avec U = u1 | u2 | … | ur et D = diag(s) Fs = DI −1 (P − Cm Lm t ) DJ −1 us et on pose : Fs = DI 1 2 Fs On voit facilement que: X us = Fs et s = Fs t DI Fs = Fs t F F = X U avec F = F1 | F2 | … | Fr Les composantes principales s’obtiennent alors par : F = DI −1 2 F On a : vs = DI 1 2 vs et T vs = svs où T = DI −1 2 (P − CmLm t ) DJ −1 (P − CmLm t )t DI −1 2 On pose : X =DI −1 2 (P − Cm Lm t )DJ −1 2 . On a: T = X X t = V DV t Avec V = v1 | v2 | … | vr et D = diag(s) Gs = DJ −1 (P − CmLm t )t DI −1 vs et on pose : Gs = DJ 1 2 Gs On voit facilement que: X t vs = Gs et s = Gs t DJ Gs = Gs t G G = X t V avec G = G1 | G2 | … | Gr Les composantes principales s’obtiennent alors par : G = DJ −1 2 G
  • 54. Synthèse des relations matricielles J. DABOUNOU - FST DE SETTAT AFC001 - 53 Les relations matricielles de la diapositive précédente, en s’inspirant du cours sur l’ACP, permettent d’écrire: X = V Σ U t où Σ = D 1 2 est la matrice diagonale dont les termes diagonaux, appelés valeurs singulières de X, sont 1, 2, … , r. Cette décomposition aurait d’ailleurs pu être obtenue directement par la décomposition en valeurs singulières de X (ou SVD: Singular Value Decomposition). Mais nous avons préféré une construction directe des matrices pour en saisir la signification.
  • 55. Nous avons à la fois X us = Fs et X t vs = Gs, qui sont liées aux coordonnées des projections des profils sur les axes principaux. On a : = us t X t X us = vs t X X t vs = s. On en déduit : Fs = Gs = s On a aussi : Fs = X us et vs sont des vecteurs propres de X X t associés à s donc on peut écrire pour s=1,r : Fs =X us = s vs et Gs =X t vs= s us. Par ailleurs, à partir deX us = s vs, s=1,r on obtient la relation : X . s=1 r usus t = s=1 r s vs us t Comme les vecteurs propres us, s=1,r sont orthogonaux et de norme 1, on peut écrire : X = s=1 r s vs us t Factorisation et reconstruction des données J. DABOUNOU - FST DE SETTAT AFC001 - 54
  • 56. Factorisation et reconstruction des données J. DABOUNOU - FST DE SETTAT AFC001 - 55 u1,1 u1,2  u1,J u2,1 u2,2  u2,J 1 + 2X = ur,1 ur,2  ur,J + r Comme pour l’ACP, les développements de l’AFC nous permettent de factoriser la matrice X. Cela permet de réduire la dimensionnalité des données de IxJ à r(I+J) où r est le rang de la matrice X t X. v1,1 v1,2 ⸽ v1,I v2,1 v2,2 ⸽ v2,I u1,1 u1,2 … u1,J u2,1 u2,2 … u2,J X = … … ⸽ … ⋮ … ⋮ vr,1 vr,2 ⸽ vr,I ur,1 ur,2 … ur,J 1 0 … 0 0 2 … 0 ⋮ ⋱ ⋮ 0 0 … r v1,1 v1,2 ⸽ v1,I v2,1 v2,2 ⸽ v2,I vr,1 vr,2 ⸽ vr,I On voit facilement que cette factorisation de X permet de s’écrire sous une forme plus compacte : + … X = V ΣUt
  • 57. X I x J Factorisation et reconstruction des données AFC001 - 56 On peut négliger des valeurs propres et se limiter à (s) pour s=1,k avec k << r, si l’inertie cumulée est importante. Cela permet de réduire considérablement la dimensionnalité des données. V I x k = ΣI x k Ut k x J J. DABOUNOU - FST DE SETTAT X I x J V I x k = ΣI x k Ut k x J On peut aussi se limiter aux deux premiers axes principaux pour visualiser les liaisons entre les variables sur un plan.
  • 58. Matrice des probabilités: Exemple AFC001 - 57 On utilise le code python pour obtenir la matrice des probabilités P : J. DABOUNOU - FST DE SETTAT On calcule ensuite le profil ligne moyen Lm et le profil colonne moyen Cm. Ces deux vecteurs sont utilisés pour calculer CmLm t .
  • 59. Caractériser l’écart à l’indépendance AFC001 - 58 On calcule les matrices diagonales DI et DJ et on les utilise pour calculer X. J. DABOUNOU - FST DE SETTAT On aurait pu calculer X de façon moins élégante : La matrice X nous permet de caractériser l’écart à l’indépendance.
  • 60. Déterminer les axes principaux AFC001 - 59 On calcule 𝐒 = X t X et T = X X t . Ensuite on calcule les valeurs et vecteurs propres de 𝐒. J. DABOUNOU - FST DE SETTAT Trier les couples (valeur et vecteur propres) de 𝐒 dans l’ordre décroissant des valeurs propres et calculer D. On procède de même pour T = X X t .
  • 61. Calculer les composantes principales AFC001 - 60 On calcule U = u1 | u2 | … | ur et V = v1 | v2 | … | vr . On obtient aussi F = X U et G = X t V. J. DABOUNOU - FST DE SETTAT On peut ainsi vérifier que 𝐒 = X t X = U DU t et T = X X t = V DV t . On calcule alors les composantes principales : F = DI −1 2 F et G = DJ −1 2 G.
  • 62. Projection sur le plan factoriel AFC001 - 61J. DABOUNOU - FST DE SETTAT On écrit le code python qui permet de projeter les deux nuages de points sur le plan factoriel.
  • 63. Projection sur le plan factoriel AFC001 - 62J. DABOUNOU - FST DE SETTAT Comme pour l’ACP, le plan factoriel va permettre d’analyser les liaisons entre les variables selon les deux premières composantes principales.