En raison de l’importance de la formation qui devient un outil nécessaire pour garantir l’adéquation de futurs employés à leur travail,
Les projets de fin de module sont intégrés dans le programme d’études universitaires, ils représentent des excellents compléments de formation.
Ils permettent à l’étudiant de de confronter les connaissances
théoriques à l’exercice pratique.
Aujourd’hui, plus que jamais, les statistiques et l’analyse de donnée
représente la pierre angulaire autour de laquelle gravitent toutes sortes
de l’organisation.
Cette importance se traduit par la mise en place d’un mini-projet pour
savoir l’impact de la dernier diplomation sur les notes de chaque étudiant
en bénéficions de notre savoir acquise durant le 1ére Semestre en analyse
de donnée.
Le présent document se propose de décrire la démarche adoptée
pour effectuer ce travail et s’articule en quatre parties :
Une première partie s’attache à présenter le projet ainsi que
les données utilisé.
Une deuxième partie se compose d’une spécification détaillée
de méthodes utilisées.
La troisième partie concerne la réalisation de l’application
moyennant une méthodologie de conception adoptée aux besoins
d’applications hypermédia, elle présente aussi les choix technologiques et
le travail réalisé ainsi elle jette, en plus, Les bases des améliorations
possibles de l’application
7. 61 Introduction
En raison de l’importance de la formation qui devient un outil
nécessaire pour garantir l’adéquation de futurs employés à leur travail,
Les projets de fin de module sont intégrés dans le programme d’études
universitaires, ils représentent des excellents compléments de formation.
Ils permettent à l’étudiant de de confronter les connaissances
théoriques à l’exercice pratique.
Aujourd’hui, plus que jamais, les statistiques et l’analyse de donnée
représente la pierre angulaire autour de laquelle gravitent toutes sortes
de l’organisation.
Cette importance se traduit par la mise en place d’un mini-projet pour
savoir l’impact de la dernier diplomation sur les notes de chaque étudiant
en bénéficions de notre savoir acquise durant le 1ére Semestre en analyse
de donnée.
Le présent document se propose de décrire la démarche adoptée
pour effectuer ce travail et s’articule en quatre parties :
Une première partie s’attache à présenter le projet ainsi que
les données utilisé.
Une deuxième partie se compose d’une spécification détaillée
de méthodes utilisées.
La troisième partie concerne la réalisation de l’application
moyennant une méthodologie de conception adoptée aux besoins
d’applications hypermédia, elle présente aussi les choix technologiques et
le travail réalisé ainsi elle jette, en plus, Les bases des améliorations
possibles de l’application.
8. 72 Fichier de Données
Ce Tableau ci-dessus représente les notes des étudiants de la filière Geo-
Info Durant le 1ére semester quand va essayer d’analyser pour améliorer
la qualité de la formation.
D’après on peut voir que il y en a 7 variables quantitative
qui sont :
o AN : Analyse numérique
o AD : Analyse de Donnée
o TEC : Technique de communication
o AP : Algorithmique-Programmation
o SI : Système D’information
o TS : Traitement de signal
o P : Physique
Et on a 2 variables supplémentaires qualitatives :
o S : Sexe
o DD : Dernier diplomation
Nom AN AD TEC AP SI TS P
Abdelmajid 15 16 14,5 16 13 15 16
Abdessadek 16 15 13 15 14,5 15,1 15
Ahmed 13 12 15,5 12 15 15,2 12
Asmae 14 16,5 14,5 16,5 15,5 16,5 16,5
Ayoub 14 14 13 14 16 14 14
Aziza 15 15 15,5 15 15 15 15
Brahim 16 14,5 16 16 16 16 16
FoFana 16 13 16 16 16 16 16
Hicham 15 15,5 14,5 14,5 14,5 14,5 14,5
Issam 13 14 14 14 14 14 14
Imane 14 15 15 15 15 15 15
Ikram 14 14,5 14,5 14,5 14,5 14,5 14,5
Insaff 14 13 13 13 13 13 13
Jihane 15,5 15,5 15,5 15,5 15,5 15,5 15,5
Mohamed.M 13 13 13 13 13 13 13
Mohamed.J 14,5 14,5 14,5 14,5 14,5 14,5 14,5
Nadia 15 15 15 15 15 15 15
Nahla 15,5 15,5 15,5 15,5 15,5 15,5 15,5
Nissrine 16 16 16 16 16 16 16
Nabil 13,5 13,5 13,5 13,5 13,5 13,5 13,5
Omaima 16 16 16 16 16 16 16
Touria 14 14 14 14 14 14 14
Zakaria 13 13 13 13 13 13 13
9. 8Analyse de données
L’analyse des données est une famille de méthodes statistiques dont les
principales caractéristiques sont d'être multidimensionnelles et
descriptives. Certaines méthodes, pour la plupart géométriques, aident à
faire ressortir les relations pouvant exister entre les différentes données et
à en tirer une information statistique qui permette de décrire de façon plus
succincte les principales informations contenues dans ces données.
Il existe trois méthodes des d'analyse des données :
ACP : L’Analyse en Composantes Principales : destinées aux Variables
quantitatives.
AFC : L’Analyse Factorielle des Correspondances s'applique à deux
variables qualitatives (nominales).
ACM : L'Analyse des Correspondances Multiples généralise l'AFC à
un nombre quelconque de variables.
NB : Dans notre cas en va utiliser l’ACP mais puisque L’ACP ne supporte
que les variables quantitatives alors en va mettre les autres variables
qualitatives comme des variables supplémentaires .
L'Analyse en composantes principales (ACP) est une méthode de la
famille de l'analyse des données et plus généralement de la statistique
multi-variée, qui consiste à transformer des variables liées entre elles (dites
"corrélées" en statistique) en nouvelles variables dé-corrélées les unes des
autres. Ces nouvelles variables sont nommées "composantes principales",
ou axes principaux. Elle permet au praticien de réduire le nombre de
variables et de rendre l'information moins redondante.
10. 9Logiciel utilisé
Pour appliquer l’ACP on a utilisé XLSTAT Parce que c'est un logiciel
sûr, rapide, facile à installer et à utiliser . Ainsi Il offre de très nombreuses
fonctionnalités qui font d'Excel un outil performant et facile d'accès pour
répondre à la majorité de vos besoins en analyse de données et
modélisation.
Figure 1 : XLSTAT Environnements
Figure 2 : XLSTAT Fonctionnalités
Comme Vous Voyez quand installe XLSTAT il nous donne la possibilité de faire beaucoup
des opérations .
Et parmi ces opérations on trouve les différentes méthodes d’analyse de donnée (voir
figure 3) .
11. 10Logiciel utilisé
Figure 3 : Les Méthodes disponibles sur XLSTAT
Donc il suffit de choisir l’une des méthodes et sélectionner les individus et les variables
pour avoir une analyse bien détaillée selon le besoin.
Figure 4 : Choix des Individus et des variables
Après le choix des variables Principales . ensuite, il faut ajouter les 2 autres variable
qualitative comme des variables supplémentaires .
12. 11Logiciel utilisé
Figure 5 : Ajouter les variables qualitatives
Après on choisir les facteurs les plus importants depuis la fenêtre suivante :
Figure 6 : Choix des facteurs
13. 125 Résultats et Interprétations
Tableau 1 : Variables Principales
Variable Minimum Maximum Moyenne Ecart-type
AN 13,000 16,000 14,565 1,080
AD 12,000 16,500 14,522 1,201
TEC 13,000 16,000 14,565 1,090
AP 8,000 18,000 14,109 2,500
SI 8,000 18,000 14,196 2,530
TS 13,000 17,000 14,857 1,135
P 8,000 17,000 13,913 2,462
Tableau 2 : Variables Supplémentaires
Variable Modalités Effectifs %
S M 12 52,174
F 11 47,826
DD DUT 11 47,826
CPGE 12 52,174
D’après les deux tableaux ci-dessous on constat que le moyenne de la classe et de 14 ,
une note de maximale de 18 et une note minimale de 8.
Ensuite, d’après le deuxième tableau on a le nombre des hommes (52.174) et pour les
femmes de (47,826 ) donc on peut dire qu’il y en a une équipartition de sexe Aussi on
constat la même chose pour la dernier diplomation .
Cela que la filière Géo-Information est occupé principalement par les étudiants qui en
un DUT ou bien qui vient des classe préparatoires
14. 135 Résultats et Interprétations
Tableau 3 : Tableau de variance/CoVariance ( Matrice de Correlation )
Variables AN AD TEC AP SI TS P S-M S-F DD-DUT DD-CPGE
AN 1 0,586 0,604 -0,255 -0,138 0,748 0,237 -0,229 0,229 -0,389 0,389
AD 0,586 1 0,381 -0,073 0,032 0,586 0,193 -0,464 0,464 -0,129 0,129
TEC 0,604 0,381 1 0,018 0,073 0,640 0,205 -0,350 0,350 -0,181 0,181
AP -0,255 -0,073 0,018 1 0,965 -0,054 -0,514 0,096 -0,096 0,616 -0,616
SI -0,138 0,032 0,073 0,965 1 0,062 -0,492 0,058 -0,058 0,610 -0,610
TS 0,748 0,586 0,640 -0,054 0,062 1 0,265 -0,202 0,202 -0,253 0,253
P 0,237 0,193 0,205 -0,514 -0,492 0,265 1 0,038 -0,038 -0,743 0,743
S-M -0,229 -0,464 -0,350 0,096 0,058 -0,202 0,038 1 -1,000 -0,129 0,129
S-F 0,229 0,464 0,350 -0,096 -0,058 0,202 -0,038 -1,000 1 0,129 -0,129
DD-DUT -0,389 -0,129 -0,181 0,616 0,610 -0,253 -0,743 -0,129 0,129 1 -1,000
DD-CPGE 0,389 0,129 0,181 -0,616 -0,610 0,253 0,743 0,129 -0,129 -1,000 1
Tableau 4 : Valeurs Propres
F1 F2 F3 F4 F5 F6 F7
Valeur propre 3,005 2,211 0,645 0,584 0,323 0,206 0,026
Variabilité (%) 42,931 31,584 9,207 8,341 4,620 2,946 0,370
% cumulé 42,931 74,516 83,723 92,064 96,684 99,630 100,000
On a λ1 = 3,005 , λ2 = 2,211 , λ3 = 0,645 sont les plus grandes valeurs et qui occupent 83.7 % > 80 % donc on va
travailler sur 3 axes seulement .
16. 155 Résultats et Interprétations
Tableau 6 : Coordonnées des variables
F1 F2 F3
AN 0,862 0,209 0,152
AD 0,686 0,309 0,477
TEC 0,690 0,392 -0,412
AP -0,463 0,849 -0,147
SI -0,356 0,901 -0,097
TS 0,817 0,389 -0,042
P 0,553 -0,484 -0,438
S-M -0,322 -0,132 -0,217
S-F 0,322 0,132 0,217
DD-DUT -0,555 0,516 0,217
DD-CPGE 0,555 -0,516 -0,217
Ce tableau propose les coordonnées des projections pour chaque nouvel axe.
Tableau 7 : Corrélations entre les variables et les facteurs
F1 F2 F3
AN 0,862 0,209 0,152
AD 0,686 0,309 0,477
TEC 0,690 0,392 -0,412
AP -0,463 0,849 -0,147
SI -0,356 0,901 -0,097
TS 0,817 0,389 -0,042
P 0,553 -0,484 -0,438
S-M -0,322 -0,132 -0,217
S-F 0,322 0,132 0,217
DD-DUT -0,555 0,516 0,217
DD-CPGE 0,555 -0,516 -0,217
D’après les résultats de corrélation des variables avec les axes on remarque que
les variables (AN,TS) sont bien corrélés avec le premier axe cela signifie que cet
axe a pour signification des individus qui ont tendance à apprécier la note de les
Matières AN et TS .
17. 165 Résultats et Interprétations
Figure 8: Cercle de Corrélation
D’après le cercle de corrélation on trouve que l’inertie des AP ,SI,TS et AN est
complétement proche par les deux axes factoriel mais constat que les autres sont
absorbé .
Tableau 8 : Contributions des variables (%)
F1 F2 F3
AN 24,742 1,980 3,563
AD 15,664 4,315 35,295
TEC 15,857 6,966 26,311
AP 7,136 32,598 3,367
SI 4,215 36,713 1,468
TS 22,217 6,847 0,277
P 10,169 10,581 29,720
On Constat que variable les plus contributive sont : AN, TS,AD et TEC
Par contre on a SI et AP sont négligeables.
AN
AD
TEC
AP
SI
TS
P
S-M
S-F
DD-DUT
DD-CPGE
-1
-0,75
-0,5
-0,25
0
0,25
0,5
0,75
1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1
F2(31,58%)
F1 (42,93 %)
Variables (axes F1 et F2 : 74,52 %)
variables actives Variables supplémentaires
21. 205 Résultats et Interprétations
Abdelmajid
Abdessadek
Ahmed
Asmae
Ayoub
Aziza
BrahimFoFanaHicham
Issam
Imane
Ikram
Insaff
Jihane
Mohamed.M
Mohamed.J Nadia
Nahla
NissrineNabil
Omaima
Touria
Zakaria
AN
AD
TEC
AP
SI
TS
P
S-M
S-F
DD-DUT
DD-CPGE
-4
-3
-2
-1
0
1
2
3
-5 -4 -3 -2 -1 0 1 2 3 4 5 6
F2(31,58%)
F1 (42,93 %)
Biplot (axes F1 et F2 : 74,52 %)
S-M S-F variables actives Variables supplémentaires
22. 21Conclusion
L’analyse en composantes principales est une excellente approche pour
explorer la structure des données en tenant compte de leur caractère
multidimensionnel. Cette méthode est l’origine de la plupart des méthodes
descriptives multidimensionnelles.
Elle sert à mieux connaitre les données sur lesquelles on travaille en
construisant de nouvelles variables artificielles et fournit des
représentations graphiques qui permettent de visualiser des liaisons entre
les variables.