SlideShare una empresa de Scribd logo
1 de 50
Descargar para leer sin conexión
Machine Learning
3ème GLSI
Chapitre 3- Apprentissage non-supervisé
Asma NAJJAR
ISTIC 2021-2022
1
Processus d’apprentissage
Définir un
problème de
ML et proposer
une solution
Visualiser le
Résultat de la
prédiction
"PREDIR"
Construite
l’ensemble de
données
Transformer les
données
Préparation des données
Algorithme de Machine
Learning (ML)
2
Supervisé Non-Supervisé Par renforcement
Différents contextes d’apprentissage
• Les algorithmes de Machine Learning (ML)
– L’apprentissage non-supervisé
• Aucun expert n’est disponible. L’algorithme doit
découvrir par lui-même la structure des données.
– L’apprentissage supervisé
• un expert est employé pour étiqueter correctement des
exemples (instances).
– L’apprentissage par renforcement
• l’algorithme apprend un comportement.
On s’intéresse, dans ce chapitre, au
algorithmes d’apprentissage non supervisé. 3
Apprentissage non supervisé
• Différentes tâches sont associées à l'apprentissage non
supervisé
– catégorisation/regroupement/segmentation
• Clustering
• Construire des classes automatiquement en fonction des
exemples disponibles
– Réduction de dimensions
• Réduire le nombre de variables.
• Permet d’améliorer la lisibilité des données.
– Règles d'association
• Analyser les relations entre les variables ou détecter des
associations
4
Apprentissage non supervisé
"catégorisation"
Objectif = structuration des données
• On cherche à regrouper les points proches/similaires en
"paquets" (groupes/classes)
• Pb : les groupes peuvent être assez bien définis et séparés,
ou au contraire imbriqués/sans frontières claires, et de
formes quelconques.
•
5
La catégorisation
• Classes (Clusters): groupes d’instances ayant les
mêmes caractéristiques
– Trouver un partitionnement en classes(groupes) ayant
un sens (Similaires).
– Les classes et leurs significations sont inconnues à
l’avance.
• Soient m instances {o1,…,oj,…, om} de données
dont chacune et décrite par à d attributs
{x1,…,xi,…xd} ,
– Attributs
• Numériques (distance bien définie)
• Enumératifs ou mixtes (distance difficile à définir)
6
La catégorisation
• Pb : les groupes peuvent être assez bien définis et
séparés, ou au contraire imbriqués/sans frontières
claires, et de formes quelconques.
7
La catégorisation
• Une bonne méthode de catégorisation produira des
clusters d’excellente qualité tels que:
– Similarité intra-classe importante
– Similarité inter-classe faible
• La qualité d’un algorithme de catégorisation dépend
de :
– La mesure de similarité utilisée.
8
Calcul de distances
• Pas de définition unique de la similarité entre les individus
– Différents mesures de distances d(x,y) entre individus
• La similarité est inversement proportionnel à la distance
– Deux individus sont d’autant plus similaires que la distance entre
eux est petite.
• Propriétés d’une distance:
• La définition de la similarité entre objets dépend de:
– Le type des données considérées
9
)
,
(
)
,
(
)
,
(
)
,
(
)
,
(
)
,
(
)
,
(
z
y
d
y
x
d
z
x
d
x
y
d
y
x
d
y
x
ssi
y
x
d
y
x
d










4
3
0
2
0
1
Calcul de distances
• Distance de Mikowski
– Pour q=1  distance de Manhattan
– Pou q=2  distance Euclidienne
10
q
d
k
q
jk
ik
j
i X
X
o
o
d 



1
)
,
(




d
k
jk
ik
j
i x
x
o
o
d
1
)
,
(




d
k
jk
ik
j
i x
x
o
o
d
1
2
)
,
(
Calcul de distances
• Attributs discrets
– Données binaires
• d(0,0)=d(1,1)=0,
• d(0,1)=d(1,0)=1
– Donnée énumératives
• Distance nulle si les valeurs sont égales et 1 sinon.
– Donnée énumératives ordonnées
• idem.
• Remarque: on peut définir une distance utilisant la
relation d’ordre. 11
Apprentissage non supervisé
• Exemples de méthodes utilisées
– Catégorisation par partitionnement
• K-means et ses variantes
• Partitionnement Hiérarchique Descendant
• Partitionnement spectral
– Catégorisation par agglomération
• Regroupement Hiérarchique Ascendant
– Catégorisation par modélisation
• Mélange de gaussiennes (GMM)
• Cartes de Kohonen (Self-Organizing Maps, SOM)
– Catégorisation basé sur la densité
• DBSCAN
12
Algorithme 1
Les K-moyennes (k-means)
et ses variantes
13
K-moyennes
• Approche par partitionnement
• Entrées:
– Un échantillon de N individus D={o1, …, oN }.
– Nombre de classes k.
– Une distance d
– Un nombre maximale d’itération nb_it
• Sorties :
– Un ensemble C de k classes disjoints C={C1,…, Ck}
– l’ensemble c de leurs centres c={c1, …, ck}
• Objectif :
– Répartir chacun des N individus dans une certaine classe i en minimisant la
variance intra-classe donnée par une fonction objectif J
14
 
 

k
j C
O
j
i
j
i
c
o
d
C
J
1
2
)
,
(
)
(
K-moyennes
15
K-moyennes
• Algorithme
1.Choisir k centres initiaux {c1, …, ck}
2.Répartir chacun des n individus dans une classe i dont le centre
ci est le plus proche.
4.Calculer les nouveaux centres des classes : pour tout i, le
nouveau ci est la moyenne des éléments de la classe i.
3.Si (aucun élément ne change de classe) ou (le nombre maximal
nb_it des itérations est atteint) alors arrêter l’algorithme.
5.Si non, Aller en 2.
16
K-moyennes: Exemple
17
Similarité: Distance Euclidienne
Initialisation des centres de classes
Corrigé de l’exemple
Itération 1
• s
G1 G2
I1 0,0 7,2
I2 1,1 6,1
I3 3,6 3,6
I4 7,2 0,0
I5 4,7 2,5
I6 5,3 2,1
I7 4,3 2,9
G1={I1,I2}
G2={I3,I4,I5,I6,I7}
Nouveaux centres des classes
C1=(1.25, 1.50)
C2= (3.90, 5.10)
Itération 2
C1 C2
I1 0,6 5,0
I2 0,6 3,9
I3 3,1 1,4
I4 6,7 2,2
I5 4,2 0,4
I6 4,8 0,6
I7 3,8 0,7
G1={I1,I2}
G2={I3,I4,I5,I6,I7}
La composition des classes ne change pas 
Arrêter l’algorithme
18
K-moyennes
• Avantages
– Facile à comprendre et à implémenter
– Paramètre unique : valeur souhaitée pour le nombre
de classes k
– Faible complexité moyenne : O(t.k.N.d) avec :
• t : Nombre d’itérations
• K : Nombre de classes
• N : Nombre d’observations
• d: Dimension des observations (nombre de variables)
19
K-moyennes
• Limites
– Sensibilité au choix aléatoire des centres initiaux
– Données vectorielles uniquement
– Sensibilité aux données aberrantes (bruits)
– Choix a priori difficile du nombre de classes
– Ne fonctionne pas dans le cas où les classes n’ont pas une
forme sphérique
20
K-moyennes
• Résultats avec 3 initialisations différentes
• Une bonne initialisation de l’algorithme K-means permet d’obtenir une
solution de meilleure qualité avec une convergence plus rapide (avec
moins d’itérations) vers cette solution.
21
K-moyennes
• Que faire pour alléger l’effet de l’initialisation aléatoire
des centres des classes initiaux?
– Solution simple
• Faire tourner K-means plusieurs fois, en utilisant à chaque
fois une initialisation aléatoire différente.
• Choisir la solution qui aboutit au meilleur partitionnement
– Celle qui minimise la variabilité intra-classe et maximise la
variabilité interclasse.
Cette solution ne garantie pas d’arriver à un bon partitionnement.
22
Exercice
X Y
A 2 10
B 2 5
C 8 4
D 5 8
E 7 5
F 6 4
G 1 2
H 4 9
oK-means avec k=3
o Les 3 centres de classes initiaux sont
A, B et G, respectivement.
o La distance utilisée est la L2 
distance euclidienne.
23
Corrigé de Exercice
• Itération 1
– Classe 1 ={A,C,D}
– Classe 2={B,E,F}
– Classe 3={G}
24
C1 2 10
C2 2 5
C3 1 2
C1 C2 C3
C 6,00 6,08 7,28 C1
D 3,61 4,24 7,21 C1
E 7,07 5,00 6,71 C2
F 7,21 4,12 5,39 C2
Corrigé de Exercice
• Itération 2
– Classe 1 ={A,D,H}
– Classe 2={B,C,E,F}
– Classe 3={G}
25
C1 4,75 7,75
C2 5,00 4,67
C3 1,00 2,00
C1 C2 C3
A 3,55 6,12 8,06 C1
B 3,89 3,02 3,16 C2
C 4,96 3,07 7,28 C2
D 0,35 3,33 7,21 C1
E 3,55 2,03 6,71 C2
F 3,95 1,20 5,39 C2
G 6,86 4,81 0,00 C3
H 1,46 4,45 7,62 C1
Corrigé de Exercice
• Itération 3
– Classe 1 ={A,D,H}
– Classe 2={C,E,F}
– Classe 3={B,G}
26
C1 3,66 9
C2 5,75 4,5
C3 1 2
C1 C2 C3
A 1,94 6,66 8,06 C1
B 4,33 3,78 3,16 C3
C 6,62 2,30 7,28 C2
D 1,67 3,58 7,21 C1
E 5,21 1,35 6,71 C2
F 5,52 0,56 5,39 C2
G 7,49 5,37 0,00 C3
H 0,33 4,83 7,62 C1
Corrigé de Exercice
• Itération 4
– Classe 1 ={A,D,H}
– Classe 2={C,E,F}
– Classe 3={B,G}
27
C1 3,67 9,00
C2 7,00 4,33
C3 1,50 3,50
C1 C2 C3
A 1,94 7,56 6,52 C1
B 4,33 5,04 1,58 C3
C 6,62 1,05 6,52 C2
D 1,67 4,18 5,70 C1
E 5,21 0,67 5,70 C2
F 5,52 1,05 4,53 C2
G 7,49 6,44 1,58 C3
H 0,33 5,55 6,04 C1
Les classes sont stables : la composition des classes ne
change pas (de l’itération 3 à l’itération 4)
 On arrête l’algorithme.
Algorithme 2
La méthode hiérarchique ascendante
28
1ère MC. SeRCE
Les méthodes hiérarchiques
• Une méthode hiérarchique permet de construire
une hiérarchie de classes, non seulement une
partition unique des objets.
• Le nombre de classes k n’est pas exigé comme
donnée mais peut être utilisée comme une
condition d’arrêt.
• Se base sur une matrice de distances
• Il existe 2 types de catégorisations hiérarchiques
– Méthode ascendante.
– Méthode descendante. 29
1ère MC. SeRCE
La méthode hiérarchique ascendante
Approche par agglomération
• Entrée:
– Un échantillon de N individus D={o1, …, oN }
– Nombre de classe k
• Algorithme:
1. On commence avec N classes (1 classe = 1 observation)
2. Répéter
a. Calcul d’indices d’agrégation entre tous les groupes issus de
l’itération précédente
b. Grouper les deux classes ayant le plus petit indice
d’agrégation
3. Jusqu’à (Nombre de groupe == 1) 30
1ère MC. SeRCE
Distance entre groupes
• Critères d’agrégation
– Distance entre les groupes (ou entre un groupe est
une observation)
– Différents indices d’agrégation peuvent être utilisés
pour mesurer la dissimilarité entre les groupes
• Le lien minimum (single linkage)
• Le lien maximum (complete linkage)
• Le lien moyen (average linkage)
• L’indice de Ward 31
1ère MC. SeRCE
Distance entre groupes
• Critères d’agrégation
– Le lien minimum (single linkage)
• L’indice d’agrégation δ entre deux groupes Gi et Gj est
la valeur la plus faible des distances entre une
observation x du premier groupe Gi et une observation
y du second groupe Gj
32
 
)
,
(
min
)
,
( y
x
d
G
G
j
i
G
y
G
x
j
i




1ère MC. SeRCE
La méthode hiérarchique ascendante
33
Exemple : Agrégation des classes selon « le lien minimum »
Dendrogramme
1ère MC. SeRCE
Distance entre groupes
• Critères d’agrégation
– Le lien maximum (complete linkage)
• Appelée parfois "diamètre" de l’agrégat.
• L’indice d’agrégation δ entre deux groupes Gi et Gj est
la valeur la plus élevée des distances entre une
observation du premier groupe Gi et une observation y
du second groupe Gj
34
 
)
,
(
max
)
,
( y
x
d
G
G
j
i
G
y
G
x
j
i




1ère MC. SeRCE
La méthode hiérarchique ascendante
• Exemple : Agrégation des classes selon la
distance minimal
35
Dendrogramme
Exemple : Agrégation des classes selon « le lien maximum »
1ère MC. SeRCE
Distance entre groupes
• Critères d’agrégation
– Le lien moyen (average linkage)
• L’indice d’agrégation δ entre deux groupes Gi et Gj est la
valeur moyenne des distances entre toutes
observations du premier groupe Gi et toutes
observations du second groupe Gj
36






j
i
G
y
G
x
j
i
j
i y
x
d
G
G
G
G )
,
(
)
,
(
1

1ère MC. SeRCE
Distance entre groupes
• Critères d’agrégation
– L’indice de Ward
• on agrège a chaque itération les classes dont
l'agrégation fait perdre le moins d'inertie interclasse
La distance entre deux clusters est calculée de façon à
minimiser la variance inter-cluster
37
)
,
(
)
,
( j
i
j
i
j
i
j
i c
c
d
G
G
G
G
G
G 2





1ère MC. SeRCE
La méthode hiérarchique ascendante
Méthodes Avantages Limites
Lien minimum
- Fonctionne dans le cas où
les classes ont une forme
non sphérique
- Forme des groupes
déséquilibré : un grand
groupe et plusieurs petits
groupes satellites.
- Sensible au bruit et aux
points aberrants
Lien moyen
- Il tend, à former des
groupes de taille égale
- Très sensible aux points
aberrants et est peu utilisée
en pratique.
Lien maximum - Moins sensible au bruits et
aux points aberrants
- Tend à diviser les grands
groupes
Indice de ward - Tend à regrouper les
ensemble représentant les
petites classes
- Coûteux en temps de
calcul
38
1ère MC. SeRCE
La méthode hiérarchique ascendante
39
Sensibilité aux bruits (Min)
Diviser les grands groupes (Max)
1ère MC. SeRCE
La méthode hiérarchique ascendante
• Avantages
– Il n’est pas nécessaire de définir le nombre de classes
à l’avance
• Limites
– La CAH est peu robuste: il suffit de modifier une
distance pour que le saut change (sensibilité aux
points aberrants)
– Grande complexité algorithmique (temps de calcul et
espace mémoire)
• Plus adapté aux échantillons contenant un faible nombre
d'individus
40
1ère MC. SeRCE
La méthode hiérarchique ascendante
• Limites (suite)
– La complexité en fonction du nombre N de points.
– O(N3) dans la plupart des cas
• N étapes dont chacune une matrice de N2 doit être Mise à
jour
– Certain algorithme peuvent réduire la complexité à
O(N2log(N))
– Une pratique assez fréquente
• D’abord, appliquer l’algorithme K-means avec une valeur
élevée de k (mais néanmoins k≪N),
• Utiliser la classification ascendante hiérarchique pour
regrouper les classes
41
1ère MC. SeRCE
Exercice
42
• On dispose d'un tableau de données avec 8 individus et 2 variables.
• On donne aussi le tableau de distances entre ces individus en se basant sur distance
euclidienne
•On utilise le "lien moyen" comme critère d’agrégation entre 2 classes.
1ère MC. SeRCE
Solution
 G1={I1,I2}
G1 I3 I4 I5 I6 I7 I8
G1 0 1.7 3.81 4.95 6.05 4.55 6.68
I3 4.0 4.47 5 3.16 5.39
I4 0 2 4.12 4.24 5.39
I5 0 2.24 3.16 3.61
I6 0 2.24 1.41
I7 0 2.24
I8 0
D(G1,I 3)=(2+1.41)/2=1.7
D(G1,I4)=(4.47+3.16)/2=3.81
D(G1,I5)=(5.66+4.24)/ 2= 4.95
D(G1,I6)=(6.71+5.39)/2=6.05
D(G1,I7)=(5.10+4)/2=4.55
D(G1,I8)=(7.28+6.08)=6.68
43
1ère MC. SeRCE
Solution
G1 G2 I3 I4 I5 I7
G1 0 6.36 1.7 3.81 4.95 4.55
G2 0 5.19 4.75 4.42 224
I3 0 4.0 4.47 3.16
I4 0 2 4.24
I5 0 3.16
I7 0
D(G1,G2)=(6.71+7.28+5.39+6.08)/4=6.36
D(G2,I3)=(5+5.39)/2=5.19
D(G2,I4)=(4.12+5.39)/2=4.75
D(G2,I5)=(5.24+3.61)/ 2= 4.42
D(G2,I7)=(2.24+2.24)/2=2.24 44
 G1={I1,I2}
 G2={I6,I8}
1ère MC. SeRCE
Solution
 G3={G1,I3}={I1,I2,I3}
 G2={I6,I8}
G3 G2 I4 I5 I7
G3 0 5.16 3,87 4,79 4.08
G2 0 4,75 2.92 2.24
I4 0 2 4.24
I5 0 3.16
I7 0
D(G2,I4)=(4.12+5.39)/2 =4,75
D(G2,I5)=(2.24+3.61)/2=2,92
D(G2,I7)=(2.24+2.24)/2=2.24
D(G3,I4)=(4.47+3.16+4)/3=3,87
D(G3,I5)=(5.66+4.24+4.47)/ 3= 4,79
D(G3,I7)=(5.10+4+3.16)/3=4.08
D(G3,G2)=(5.1+4+3.16+7.28+6.08+5.39)/6=5.16
45
1ère MC. SeRCE
Solution
G3={I1,I2,I3}
G2={I6,I8}
G4={I4,I5}
G3 G 2 G4 I7
G3 0 5.16 4.33 4.08
G2 0 3.84 2.24
G4 0 3.7
I7 0
D(G3,G4)=(4.47+3.16+4+5.66+4.24+4.47)/6=4.33
D(G2,G4)= (4.12+5.39+2.24+3.61)/4=3.84
D(I7,G4)=(4.24+3.16)/2=3.7
 G5={G2,I7}={{I6,I8},I7} 46
1ère MC. SeRCE
Solution
• D(G3,G5)= (6.71+7.28+5.1+5.39+4+6.08+5+3.16+5.39)/9= 5.3456
• D(G4,G5)= (4.12+5.39+4.24+2.24+3.61+3.16)/6= 3.7933
G6={G4,G5}={{I4,I5},{I6,I7,I8}}
G7={G3,G5}={{I1,I2,I3},{{I4,I5},{I6,I7,I8}}}
G3 G4 G5
G3 0 4.33 5.34
G4 0 3.79
G5 0
G1 G5
G1 0 -
G5 0
47
G3={I1,I2,I3}
G4={I4,I5}
G5={I6,I8,I7}
1ère MC. SeRCE
Solution
• Le dendrogramme
I1 I2 I 3 I4 I5 I6 I7 I8
G1
G2
G3
G4
G5
G6
48
G7
8 Classes
7 Classes
6 Classes
5 Classes
4 Classes
3 Classes
2 Classes
1 Classe
1ère MC. SeRCE
Problématique
• Avec les algorithmes précédent (K-means, k-
Médoïdes, CHA, CHD)
– Chaque instance est attribuée à une seule classe.
– Ceci suppose que les classes sont parfaitement
discernable
 Ce n’est pas toujours le cas. Comme l’exemple :
suivant :
49
1ère MC. SeRCE
Problématique
• Solution
– Chaque instance est attribuée à une classe avec
un certain degré d’appartenance
• Déterminer la probabilité d’appartenance d’une
instance à une classes donnée
• Exemples d’algorithmes
– Fuzzy C-means
– GMM
50
1ère MC. SeRCE

Más contenido relacionado

La actualidad más candente

Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
imane26
 

La actualidad más candente (20)

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchique
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
 
Clustering
ClusteringClustering
Clustering
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 

Similar a Chapitre 4-Apprentissage non supervisé (1) (1).pdf

Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
Franck Dernoncourt
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
nesrinetaamallah
 
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdfChapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdf
MbarkiIsraa
 

Similar a Chapitre 4-Apprentissage non supervisé (1) (1).pdf (20)

comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Cours ML et Deep Learning M2 2022-2023.pdf
Cours ML et Deep Learning M2 2022-2023.pdfCours ML et Deep Learning M2 2022-2023.pdf
Cours ML et Deep Learning M2 2022-2023.pdf
 
STATISTIQUE-Cours
STATISTIQUE-CoursSTATISTIQUE-Cours
STATISTIQUE-Cours
 
Controle de gestion
Controle de gestionControle de gestion
Controle de gestion
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
PJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfPJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdf
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdf
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicales
 
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdfChapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdf
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Mathématiques et Python
Mathématiques et PythonMathématiques et Python
Mathématiques et Python
 
chapitre 5.pptx
chapitre 5.pptxchapitre 5.pptx
chapitre 5.pptx
 

Último (6)

JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdfpdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
 
Algo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigésAlgo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigés
 
le probleme de la planification JSP exposee (2) (2).pptx
le probleme de la planification JSP exposee (2) (2).pptxle probleme de la planification JSP exposee (2) (2).pptx
le probleme de la planification JSP exposee (2) (2).pptx
 
mémoire genie civil presenté lors de la soutenance de mémoire
mémoire genie civil presenté lors de la soutenance de mémoiremémoire genie civil presenté lors de la soutenance de mémoire
mémoire genie civil presenté lors de la soutenance de mémoire
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 

Chapitre 4-Apprentissage non supervisé (1) (1).pdf

  • 1. Machine Learning 3ème GLSI Chapitre 3- Apprentissage non-supervisé Asma NAJJAR ISTIC 2021-2022 1
  • 2. Processus d’apprentissage Définir un problème de ML et proposer une solution Visualiser le Résultat de la prédiction "PREDIR" Construite l’ensemble de données Transformer les données Préparation des données Algorithme de Machine Learning (ML) 2 Supervisé Non-Supervisé Par renforcement
  • 3. Différents contextes d’apprentissage • Les algorithmes de Machine Learning (ML) – L’apprentissage non-supervisé • Aucun expert n’est disponible. L’algorithme doit découvrir par lui-même la structure des données. – L’apprentissage supervisé • un expert est employé pour étiqueter correctement des exemples (instances). – L’apprentissage par renforcement • l’algorithme apprend un comportement. On s’intéresse, dans ce chapitre, au algorithmes d’apprentissage non supervisé. 3
  • 4. Apprentissage non supervisé • Différentes tâches sont associées à l'apprentissage non supervisé – catégorisation/regroupement/segmentation • Clustering • Construire des classes automatiquement en fonction des exemples disponibles – Réduction de dimensions • Réduire le nombre de variables. • Permet d’améliorer la lisibilité des données. – Règles d'association • Analyser les relations entre les variables ou détecter des associations 4
  • 5. Apprentissage non supervisé "catégorisation" Objectif = structuration des données • On cherche à regrouper les points proches/similaires en "paquets" (groupes/classes) • Pb : les groupes peuvent être assez bien définis et séparés, ou au contraire imbriqués/sans frontières claires, et de formes quelconques. • 5
  • 6. La catégorisation • Classes (Clusters): groupes d’instances ayant les mêmes caractéristiques – Trouver un partitionnement en classes(groupes) ayant un sens (Similaires). – Les classes et leurs significations sont inconnues à l’avance. • Soient m instances {o1,…,oj,…, om} de données dont chacune et décrite par à d attributs {x1,…,xi,…xd} , – Attributs • Numériques (distance bien définie) • Enumératifs ou mixtes (distance difficile à définir) 6
  • 7. La catégorisation • Pb : les groupes peuvent être assez bien définis et séparés, ou au contraire imbriqués/sans frontières claires, et de formes quelconques. 7
  • 8. La catégorisation • Une bonne méthode de catégorisation produira des clusters d’excellente qualité tels que: – Similarité intra-classe importante – Similarité inter-classe faible • La qualité d’un algorithme de catégorisation dépend de : – La mesure de similarité utilisée. 8
  • 9. Calcul de distances • Pas de définition unique de la similarité entre les individus – Différents mesures de distances d(x,y) entre individus • La similarité est inversement proportionnel à la distance – Deux individus sont d’autant plus similaires que la distance entre eux est petite. • Propriétés d’une distance: • La définition de la similarité entre objets dépend de: – Le type des données considérées 9 ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( z y d y x d z x d x y d y x d y x ssi y x d y x d           4 3 0 2 0 1
  • 10. Calcul de distances • Distance de Mikowski – Pour q=1  distance de Manhattan – Pou q=2  distance Euclidienne 10 q d k q jk ik j i X X o o d     1 ) , (     d k jk ik j i x x o o d 1 ) , (     d k jk ik j i x x o o d 1 2 ) , (
  • 11. Calcul de distances • Attributs discrets – Données binaires • d(0,0)=d(1,1)=0, • d(0,1)=d(1,0)=1 – Donnée énumératives • Distance nulle si les valeurs sont égales et 1 sinon. – Donnée énumératives ordonnées • idem. • Remarque: on peut définir une distance utilisant la relation d’ordre. 11
  • 12. Apprentissage non supervisé • Exemples de méthodes utilisées – Catégorisation par partitionnement • K-means et ses variantes • Partitionnement Hiérarchique Descendant • Partitionnement spectral – Catégorisation par agglomération • Regroupement Hiérarchique Ascendant – Catégorisation par modélisation • Mélange de gaussiennes (GMM) • Cartes de Kohonen (Self-Organizing Maps, SOM) – Catégorisation basé sur la densité • DBSCAN 12
  • 13. Algorithme 1 Les K-moyennes (k-means) et ses variantes 13
  • 14. K-moyennes • Approche par partitionnement • Entrées: – Un échantillon de N individus D={o1, …, oN }. – Nombre de classes k. – Une distance d – Un nombre maximale d’itération nb_it • Sorties : – Un ensemble C de k classes disjoints C={C1,…, Ck} – l’ensemble c de leurs centres c={c1, …, ck} • Objectif : – Répartir chacun des N individus dans une certaine classe i en minimisant la variance intra-classe donnée par une fonction objectif J 14      k j C O j i j i c o d C J 1 2 ) , ( ) (
  • 16. K-moyennes • Algorithme 1.Choisir k centres initiaux {c1, …, ck} 2.Répartir chacun des n individus dans une classe i dont le centre ci est le plus proche. 4.Calculer les nouveaux centres des classes : pour tout i, le nouveau ci est la moyenne des éléments de la classe i. 3.Si (aucun élément ne change de classe) ou (le nombre maximal nb_it des itérations est atteint) alors arrêter l’algorithme. 5.Si non, Aller en 2. 16
  • 17. K-moyennes: Exemple 17 Similarité: Distance Euclidienne Initialisation des centres de classes
  • 18. Corrigé de l’exemple Itération 1 • s G1 G2 I1 0,0 7,2 I2 1,1 6,1 I3 3,6 3,6 I4 7,2 0,0 I5 4,7 2,5 I6 5,3 2,1 I7 4,3 2,9 G1={I1,I2} G2={I3,I4,I5,I6,I7} Nouveaux centres des classes C1=(1.25, 1.50) C2= (3.90, 5.10) Itération 2 C1 C2 I1 0,6 5,0 I2 0,6 3,9 I3 3,1 1,4 I4 6,7 2,2 I5 4,2 0,4 I6 4,8 0,6 I7 3,8 0,7 G1={I1,I2} G2={I3,I4,I5,I6,I7} La composition des classes ne change pas  Arrêter l’algorithme 18
  • 19. K-moyennes • Avantages – Facile à comprendre et à implémenter – Paramètre unique : valeur souhaitée pour le nombre de classes k – Faible complexité moyenne : O(t.k.N.d) avec : • t : Nombre d’itérations • K : Nombre de classes • N : Nombre d’observations • d: Dimension des observations (nombre de variables) 19
  • 20. K-moyennes • Limites – Sensibilité au choix aléatoire des centres initiaux – Données vectorielles uniquement – Sensibilité aux données aberrantes (bruits) – Choix a priori difficile du nombre de classes – Ne fonctionne pas dans le cas où les classes n’ont pas une forme sphérique 20
  • 21. K-moyennes • Résultats avec 3 initialisations différentes • Une bonne initialisation de l’algorithme K-means permet d’obtenir une solution de meilleure qualité avec une convergence plus rapide (avec moins d’itérations) vers cette solution. 21
  • 22. K-moyennes • Que faire pour alléger l’effet de l’initialisation aléatoire des centres des classes initiaux? – Solution simple • Faire tourner K-means plusieurs fois, en utilisant à chaque fois une initialisation aléatoire différente. • Choisir la solution qui aboutit au meilleur partitionnement – Celle qui minimise la variabilité intra-classe et maximise la variabilité interclasse. Cette solution ne garantie pas d’arriver à un bon partitionnement. 22
  • 23. Exercice X Y A 2 10 B 2 5 C 8 4 D 5 8 E 7 5 F 6 4 G 1 2 H 4 9 oK-means avec k=3 o Les 3 centres de classes initiaux sont A, B et G, respectivement. o La distance utilisée est la L2  distance euclidienne. 23
  • 24. Corrigé de Exercice • Itération 1 – Classe 1 ={A,C,D} – Classe 2={B,E,F} – Classe 3={G} 24 C1 2 10 C2 2 5 C3 1 2 C1 C2 C3 C 6,00 6,08 7,28 C1 D 3,61 4,24 7,21 C1 E 7,07 5,00 6,71 C2 F 7,21 4,12 5,39 C2
  • 25. Corrigé de Exercice • Itération 2 – Classe 1 ={A,D,H} – Classe 2={B,C,E,F} – Classe 3={G} 25 C1 4,75 7,75 C2 5,00 4,67 C3 1,00 2,00 C1 C2 C3 A 3,55 6,12 8,06 C1 B 3,89 3,02 3,16 C2 C 4,96 3,07 7,28 C2 D 0,35 3,33 7,21 C1 E 3,55 2,03 6,71 C2 F 3,95 1,20 5,39 C2 G 6,86 4,81 0,00 C3 H 1,46 4,45 7,62 C1
  • 26. Corrigé de Exercice • Itération 3 – Classe 1 ={A,D,H} – Classe 2={C,E,F} – Classe 3={B,G} 26 C1 3,66 9 C2 5,75 4,5 C3 1 2 C1 C2 C3 A 1,94 6,66 8,06 C1 B 4,33 3,78 3,16 C3 C 6,62 2,30 7,28 C2 D 1,67 3,58 7,21 C1 E 5,21 1,35 6,71 C2 F 5,52 0,56 5,39 C2 G 7,49 5,37 0,00 C3 H 0,33 4,83 7,62 C1
  • 27. Corrigé de Exercice • Itération 4 – Classe 1 ={A,D,H} – Classe 2={C,E,F} – Classe 3={B,G} 27 C1 3,67 9,00 C2 7,00 4,33 C3 1,50 3,50 C1 C2 C3 A 1,94 7,56 6,52 C1 B 4,33 5,04 1,58 C3 C 6,62 1,05 6,52 C2 D 1,67 4,18 5,70 C1 E 5,21 0,67 5,70 C2 F 5,52 1,05 4,53 C2 G 7,49 6,44 1,58 C3 H 0,33 5,55 6,04 C1 Les classes sont stables : la composition des classes ne change pas (de l’itération 3 à l’itération 4)  On arrête l’algorithme.
  • 28. Algorithme 2 La méthode hiérarchique ascendante 28 1ère MC. SeRCE
  • 29. Les méthodes hiérarchiques • Une méthode hiérarchique permet de construire une hiérarchie de classes, non seulement une partition unique des objets. • Le nombre de classes k n’est pas exigé comme donnée mais peut être utilisée comme une condition d’arrêt. • Se base sur une matrice de distances • Il existe 2 types de catégorisations hiérarchiques – Méthode ascendante. – Méthode descendante. 29 1ère MC. SeRCE
  • 30. La méthode hiérarchique ascendante Approche par agglomération • Entrée: – Un échantillon de N individus D={o1, …, oN } – Nombre de classe k • Algorithme: 1. On commence avec N classes (1 classe = 1 observation) 2. Répéter a. Calcul d’indices d’agrégation entre tous les groupes issus de l’itération précédente b. Grouper les deux classes ayant le plus petit indice d’agrégation 3. Jusqu’à (Nombre de groupe == 1) 30 1ère MC. SeRCE
  • 31. Distance entre groupes • Critères d’agrégation – Distance entre les groupes (ou entre un groupe est une observation) – Différents indices d’agrégation peuvent être utilisés pour mesurer la dissimilarité entre les groupes • Le lien minimum (single linkage) • Le lien maximum (complete linkage) • Le lien moyen (average linkage) • L’indice de Ward 31 1ère MC. SeRCE
  • 32. Distance entre groupes • Critères d’agrégation – Le lien minimum (single linkage) • L’indice d’agrégation δ entre deux groupes Gi et Gj est la valeur la plus faible des distances entre une observation x du premier groupe Gi et une observation y du second groupe Gj 32   ) , ( min ) , ( y x d G G j i G y G x j i     1ère MC. SeRCE
  • 33. La méthode hiérarchique ascendante 33 Exemple : Agrégation des classes selon « le lien minimum » Dendrogramme 1ère MC. SeRCE
  • 34. Distance entre groupes • Critères d’agrégation – Le lien maximum (complete linkage) • Appelée parfois "diamètre" de l’agrégat. • L’indice d’agrégation δ entre deux groupes Gi et Gj est la valeur la plus élevée des distances entre une observation du premier groupe Gi et une observation y du second groupe Gj 34   ) , ( max ) , ( y x d G G j i G y G x j i     1ère MC. SeRCE
  • 35. La méthode hiérarchique ascendante • Exemple : Agrégation des classes selon la distance minimal 35 Dendrogramme Exemple : Agrégation des classes selon « le lien maximum » 1ère MC. SeRCE
  • 36. Distance entre groupes • Critères d’agrégation – Le lien moyen (average linkage) • L’indice d’agrégation δ entre deux groupes Gi et Gj est la valeur moyenne des distances entre toutes observations du premier groupe Gi et toutes observations du second groupe Gj 36       j i G y G x j i j i y x d G G G G ) , ( ) , ( 1  1ère MC. SeRCE
  • 37. Distance entre groupes • Critères d’agrégation – L’indice de Ward • on agrège a chaque itération les classes dont l'agrégation fait perdre le moins d'inertie interclasse La distance entre deux clusters est calculée de façon à minimiser la variance inter-cluster 37 ) , ( ) , ( j i j i j i j i c c d G G G G G G 2      1ère MC. SeRCE
  • 38. La méthode hiérarchique ascendante Méthodes Avantages Limites Lien minimum - Fonctionne dans le cas où les classes ont une forme non sphérique - Forme des groupes déséquilibré : un grand groupe et plusieurs petits groupes satellites. - Sensible au bruit et aux points aberrants Lien moyen - Il tend, à former des groupes de taille égale - Très sensible aux points aberrants et est peu utilisée en pratique. Lien maximum - Moins sensible au bruits et aux points aberrants - Tend à diviser les grands groupes Indice de ward - Tend à regrouper les ensemble représentant les petites classes - Coûteux en temps de calcul 38 1ère MC. SeRCE
  • 39. La méthode hiérarchique ascendante 39 Sensibilité aux bruits (Min) Diviser les grands groupes (Max) 1ère MC. SeRCE
  • 40. La méthode hiérarchique ascendante • Avantages – Il n’est pas nécessaire de définir le nombre de classes à l’avance • Limites – La CAH est peu robuste: il suffit de modifier une distance pour que le saut change (sensibilité aux points aberrants) – Grande complexité algorithmique (temps de calcul et espace mémoire) • Plus adapté aux échantillons contenant un faible nombre d'individus 40 1ère MC. SeRCE
  • 41. La méthode hiérarchique ascendante • Limites (suite) – La complexité en fonction du nombre N de points. – O(N3) dans la plupart des cas • N étapes dont chacune une matrice de N2 doit être Mise à jour – Certain algorithme peuvent réduire la complexité à O(N2log(N)) – Une pratique assez fréquente • D’abord, appliquer l’algorithme K-means avec une valeur élevée de k (mais néanmoins k≪N), • Utiliser la classification ascendante hiérarchique pour regrouper les classes 41 1ère MC. SeRCE
  • 42. Exercice 42 • On dispose d'un tableau de données avec 8 individus et 2 variables. • On donne aussi le tableau de distances entre ces individus en se basant sur distance euclidienne •On utilise le "lien moyen" comme critère d’agrégation entre 2 classes. 1ère MC. SeRCE
  • 43. Solution  G1={I1,I2} G1 I3 I4 I5 I6 I7 I8 G1 0 1.7 3.81 4.95 6.05 4.55 6.68 I3 4.0 4.47 5 3.16 5.39 I4 0 2 4.12 4.24 5.39 I5 0 2.24 3.16 3.61 I6 0 2.24 1.41 I7 0 2.24 I8 0 D(G1,I 3)=(2+1.41)/2=1.7 D(G1,I4)=(4.47+3.16)/2=3.81 D(G1,I5)=(5.66+4.24)/ 2= 4.95 D(G1,I6)=(6.71+5.39)/2=6.05 D(G1,I7)=(5.10+4)/2=4.55 D(G1,I8)=(7.28+6.08)=6.68 43 1ère MC. SeRCE
  • 44. Solution G1 G2 I3 I4 I5 I7 G1 0 6.36 1.7 3.81 4.95 4.55 G2 0 5.19 4.75 4.42 224 I3 0 4.0 4.47 3.16 I4 0 2 4.24 I5 0 3.16 I7 0 D(G1,G2)=(6.71+7.28+5.39+6.08)/4=6.36 D(G2,I3)=(5+5.39)/2=5.19 D(G2,I4)=(4.12+5.39)/2=4.75 D(G2,I5)=(5.24+3.61)/ 2= 4.42 D(G2,I7)=(2.24+2.24)/2=2.24 44  G1={I1,I2}  G2={I6,I8} 1ère MC. SeRCE
  • 45. Solution  G3={G1,I3}={I1,I2,I3}  G2={I6,I8} G3 G2 I4 I5 I7 G3 0 5.16 3,87 4,79 4.08 G2 0 4,75 2.92 2.24 I4 0 2 4.24 I5 0 3.16 I7 0 D(G2,I4)=(4.12+5.39)/2 =4,75 D(G2,I5)=(2.24+3.61)/2=2,92 D(G2,I7)=(2.24+2.24)/2=2.24 D(G3,I4)=(4.47+3.16+4)/3=3,87 D(G3,I5)=(5.66+4.24+4.47)/ 3= 4,79 D(G3,I7)=(5.10+4+3.16)/3=4.08 D(G3,G2)=(5.1+4+3.16+7.28+6.08+5.39)/6=5.16 45 1ère MC. SeRCE
  • 46. Solution G3={I1,I2,I3} G2={I6,I8} G4={I4,I5} G3 G 2 G4 I7 G3 0 5.16 4.33 4.08 G2 0 3.84 2.24 G4 0 3.7 I7 0 D(G3,G4)=(4.47+3.16+4+5.66+4.24+4.47)/6=4.33 D(G2,G4)= (4.12+5.39+2.24+3.61)/4=3.84 D(I7,G4)=(4.24+3.16)/2=3.7  G5={G2,I7}={{I6,I8},I7} 46 1ère MC. SeRCE
  • 47. Solution • D(G3,G5)= (6.71+7.28+5.1+5.39+4+6.08+5+3.16+5.39)/9= 5.3456 • D(G4,G5)= (4.12+5.39+4.24+2.24+3.61+3.16)/6= 3.7933 G6={G4,G5}={{I4,I5},{I6,I7,I8}} G7={G3,G5}={{I1,I2,I3},{{I4,I5},{I6,I7,I8}}} G3 G4 G5 G3 0 4.33 5.34 G4 0 3.79 G5 0 G1 G5 G1 0 - G5 0 47 G3={I1,I2,I3} G4={I4,I5} G5={I6,I8,I7} 1ère MC. SeRCE
  • 48. Solution • Le dendrogramme I1 I2 I 3 I4 I5 I6 I7 I8 G1 G2 G3 G4 G5 G6 48 G7 8 Classes 7 Classes 6 Classes 5 Classes 4 Classes 3 Classes 2 Classes 1 Classe 1ère MC. SeRCE
  • 49. Problématique • Avec les algorithmes précédent (K-means, k- Médoïdes, CHA, CHD) – Chaque instance est attribuée à une seule classe. – Ceci suppose que les classes sont parfaitement discernable  Ce n’est pas toujours le cas. Comme l’exemple : suivant : 49 1ère MC. SeRCE
  • 50. Problématique • Solution – Chaque instance est attribuée à une classe avec un certain degré d’appartenance • Déterminer la probabilité d’appartenance d’une instance à une classes donnée • Exemples d’algorithmes – Fuzzy C-means – GMM 50 1ère MC. SeRCE