SlideShare una empresa de Scribd logo
1 de 56
Descargar para leer sin conexión
Fouille de données sur des graphes : Introduction
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
Toulouse School of Economics
Groupe de travail BioPuces, INRA de Castanet
24 avril 2009
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 1 / 27
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classification des sommets ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 2 / 27
Introduction et vocabulaire
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classification des sommets ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 3 / 27
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets (ou noeuds) / en anglais : vertices, nodes
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets
Arêtes / en anglais : edges
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille n)
• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille n)
• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
• dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille n)
• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
• dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
Introduction et vocabulaire
Quelques notions élémentaires : le degré
Définition
On appelle degré du sommet xi le nombre di = j i wij.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
Introduction et vocabulaire
Quelques notions élémentaires : le degré
Définition
On appelle degré du sommet xi le nombre di = j i wij.
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
Introduction et vocabulaire
Quelques notions élémentaires : le degré
Définition
On appelle degré du sommet xi le nombre di = j i wij.
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.
Dans les réseaux sociaux, la distribution des degrés suit généralement
une loi de puissance (graphes sans échelle typique).
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
Introduction et vocabulaire
Quelques notions élémentaires : la densité
Définition
On appelle densité d’un graphe non pondéré
n
i,j=1 I{(xi,xj)∈E}
n(n − 1)
.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
Introduction et vocabulaire
Quelques notions élémentaires : la densité
Définition
On appelle densité d’un graphe non pondéré
n
i,j=1 I{(xi,xj)∈E}
n(n − 1)
.
Dans le cas d’un graphe pondéré, on peut généraliser cette notion par
n
i,j=1 wij
n(n−1)
mais elle n’est plus nécessairement comprise entre 0 et 1 !!
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
Introduction et vocabulaire
Quelques notions élémentaires : la densité
Définition
On appelle densité d’un graphe non pondéré
n
i,j=1 I{(xi,xj)∈E}
n(n − 1)
.
Dans le cas d’un graphe pondéré, on peut généraliser cette notion par
n
i,j=1 wij
n(n−1)
mais elle n’est plus nécessairement comprise entre 0 et 1 !!
Dans les réseaux sociaux, on observe souvent un effet “petit monde” :
• faible densité globale (de l’ordre de 5% - 10%) ;
• forte densité locale : la densité moyenne du sous-graphe des voisins
de chaque sommet peut être supérieure à 70 %.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
Dessiner un grand graphe
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classification des sommets ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 8 / 27
Dessiner un grand graphe
Algorithmes de forces
Au delà de quelques dizaines de sommets, nécessité de penser à la
position des sommets doit être pensée pour rendre le graphe lisible et
interprétable pour l’œil.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27
Dessiner un grand graphe
Algorithmes de forces
Au delà de quelques dizaines de sommets, nécessité de penser à la
position des sommets doit être pensée pour rendre le graphe lisible et
interprétable pour l’œil.
Utilisation courante d’algorithmes de forces (Fruchterman & Reingold,
par exemple) qui simulent des systèmes de ressorts sur les arêtes.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27
Dessiner un grand graphe
Représentation simple
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Pondération des arêtes
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Étiquetage des sommets
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Coloration des sommets
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Coloration des sommets et des arêtes
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Comment réaliser ces représentations ?
• Package igraph de R : pas mal de fonctionnalités mais pondération
des arêtes pas correctement prise en compte et pas d’interactivité sur
les graphes.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27
Dessiner un grand graphe
Comment réaliser ces représentations ?
• Package igraph de R : pas mal de fonctionnalités mais pondération
des arêtes pas correctement prise en compte et pas d’interactivité sur
les graphes.
• Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalités
mais permet uniquement la représentation et nécessite l’importation
des graphe dans un format spécial.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27
Dessiner un grand graphe
Qu’est-ce qu’une bonne représentation ?
En général, un critère admis pour mesurer la qualité de la représentation
est le nombre d’arêtes coupées dans la figure :
C =
1
2
e1=(xi1
,xj1
),e2=(xi2
,xj2
)∈V
wi1,j1
wi2,j2
I{e1 coupe e2}
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27
Dessiner un grand graphe
Qu’est-ce qu’une bonne représentation ?
En général, un critère admis pour mesurer la qualité de la représentation
est le nombre d’arêtes coupées dans la figure :
C =
1
2
e1=(xi1
,xj1
),e2=(xi2
,xj2
)∈V
wi1,j1
wi2,j2
I{e1 coupe e2}
Problème de ce critère : coûteux à calculer . . .
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27
Exemples
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classification des sommets ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 13 / 27
Exemples
Réseau social I : “Les misérables” (V. Hugo)
77 sommets, 254 arêtes, 1
2 ij wij = 820 (variant de 1 à 31, entre Cosette
et Valjean), densités : 8,7 % (non pondéré) et 0,560 (pondéré), coefficient
de classification (densité locale moyenne) : 49,9 %.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 14 / 27
Exemples
Réseau social II : Réseau de citations scientifiques
[Newman et al., 2006]
379 sommets, 914 arêtes, 1
2 ij wij = 489, 5 (variant de 0,125 à 4,75),
densité : 1,3 % (non pondéré), coefficient de classification : 22,1 %.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 15 / 27
Exemples
Réseau social III : Réseau issu d’un grand corpus
médiéval [Boulet et al., 2008]
615 sommets, 4 193 arêtes, 1
2 ij wij = 40 329 (50 % des arêtes ont un
poids de 1 et moins de 2 % un poids supérieur à 100), densité : 2,2 %
(non pondéré), coefficient de classification : 77 %.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 16 / 27
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• Expressions de gènes différentiellement exprimés pour des follicules
PFN, PFA, GFN.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• Expressions de gènes différentiellement exprimés pour des follicules
PFN, PFA, GFN.
Comment définir un réseau d’interaction pour chacun de ces cas ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• Expressions de gènes différentiellement exprimés pour des follicules
PFN, PFA, GFN.
Comment définir un réseau d’interaction pour chacun de ces cas ?
Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• Expressions de gènes différentiellement exprimés pour des follicules
PFN, PFA, GFN.
Comment définir un réseau d’interaction pour chacun de ces cas ?
Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.
Ne marche pas !! Car les corrélations sont regardées dans leur ensemble
: si les variables x et z et les variables y et z sont fortement corrélées
alors la corrélation entre x et y sera forte sans réalité biologique.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• Expressions de gènes différentiellement exprimés pour des follicules
PFN, PFA, GFN.
Comment définir un réseau d’interaction pour chacun de ces cas ?
Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.
Ne marche pas !! Car les corrélations sont regardées dans leur ensemble
: si les variables x et z et les variables y et z sont fortement corrélées
alors la corrélation entre x et y sera forte sans réalité biologique.
Solution : Utiliser un modèle graphique gaussien qui détermine les
corrélations partielles, i.e., les corrélations entre deux variables
indépendamment des autres variables du jeu de données.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
Exemples
Exemple de la différence entre les deux approches
Seuil = 0,2 Seuil = 0,65
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 18 / 27
Exemples
Réseau de gènes Bovin différentiellement avec le Porc
(seuil 0,015)
460 sommets, 3 903 arêtes, 1
2 ij wij = 70, 38, densité : 3,7 % (non
pondéré), coefficient de classification : 20,6 %, degré moyen : 0,31.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 19 / 27
Exemples
Réseau de gènes Porc différentiellement avec le Bovin
(seuil 0,02)
390 sommets, 3 320 arêtes, 1
2 ij wij = 81, 6, densité : 4,2 % (non
pondéré), coefficient de classification : 18,7 %, degré moyen : 0,42.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 20 / 27
Exemples
Réseau de gènes de petits follicules atritiques (seuil
0,013)
459 sommets, 6 478 arêtes, 1
2 ij wij = 105, 4, densité : 6,2 % (non
pondéré), coefficient de classification : 25,0 %, degré moyen : 0,46.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 21 / 27
Exemples
Réseau de gènes de petits follicules sains (seuil 0,013)
360 sommets, 4 401arêtes, 1
2 ij wij = 72, 1, densité : 6,8 % (non
pondéré), coefficient de classification : 29,2 %, degré moyen : 0,40.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 22 / 27
Exemples
Réseau de gènes de gros follicules sains (seuil 0,015)
325 sommets, 3 526 arêtes, 1
2 ij wij = 66, 1, densité : 6,7 % (non
pondéré), coefficient de classification : 26,9 %, degré moyen : 0,41.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 23 / 27
Exemples
Problématique et questions
Premières conclusions :
• Les réseaux d’interaction n’ont pas de structure “petit monde”.
• Les structures macroscopiques des deux réseaux (porc et bovin) sont
très similaires.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
Exemples
Problématique et questions
Premières conclusions :
• Les réseaux d’interaction n’ont pas de structure “petit monde”.
• Les structures macroscopiques des deux réseaux (porc et bovin) sont
très similaires.
Problèmes :
• Quel seuillage des corrélations partielles est adéquat ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
Exemples
Problématique et questions
Premières conclusions :
• Les réseaux d’interaction n’ont pas de structure “petit monde”.
• Les structures macroscopiques des deux réseaux (porc et bovin) sont
très similaires.
Problèmes :
• Quel seuillage des corrélations partielles est adéquat ?
• Les algorithmes de force permettent de visualiser un graphe mais
au-delà de quelques dizaines de sommets, la compréhension de la
structure du graphe à partir de cette seule représentation est
difficile.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
Pourquoi la classification des sommets ?
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classification des sommets ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 25 / 27
Pourquoi la classification des sommets ?
Fournir une représentation schématique du graphe
Le but de la classification de sommets est de mettre en valeur des
groupes de sommets denses et faiblement connectés entre eux.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
Pourquoi la classification des sommets ?
Fournir une représentation schématique du graphe
Le but de la classification de sommets est de mettre en valeur des
groupes de sommets denses et faiblement connectés entre eux.
Ce type de traitement statistique permet de faire ressortir les grandes
structures et les grands ensembles du graphe et aide à l’interprétation.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
Pourquoi la classification des sommets ?
Fournir une représentation schématique du graphe
Le but de la classification de sommets est de mettre en valeur des
groupes de sommets denses et faiblement connectés entre eux.
Ce type de traitement statistique permet de faire ressortir les grandes
structures et les grands ensembles du graphe et aide à l’interprétation.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois grands critères de qualité :
• un critère de qualité d’une classification de sommets d’un graphe :
la modularité ;
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois grands critères de qualité :
• un critère de qualité d’une classification de sommets d’un graphe :
la modularité ;
• un critère de densité des groupes : la moyenne de la densité
pondérée intra-classes
K
c=1
|Cc|
i,j:xi, xj∈Cc
wij
|Cc| × (|Cc| − 1)
;
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois grands critères de qualité :
• un critère de qualité d’une classification de sommets d’un graphe :
la modularité ;
• un critère de densité des groupes : la moyenne de la densité
pondérée intra-classes
K
c=1
|Cc|
i,j:xi, xj∈Cc
wij
|Cc| × (|Cc| − 1)
;
• un critère de visualisation : le nombre d’arêtes coupées.
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois grands critères de qualité :
• un critère de qualité d’une classification de sommets d’un graphe :
la modularité ;
• un critère de densité des groupes : la moyenne de la densité
pondérée intra-classes
K
c=1
|Cc|
i,j:xi, xj∈Cc
wij
|Cc| × (|Cc| − 1)
;
• un critère de visualisation : le nombre d’arêtes coupées.
Questions : Comment combiner ces trois critères ? Comment la taille de
la classification K influencent-elles ceux-ci ?
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
Pourquoi la classification des sommets ?
Auber, D. (2003).
Tulip : A huge graph visualisation framework.
In Mutzel, P. and Jünger, M., editors, Graph Drawing Softwares, Mathematics and Visualization, pages 105–126.
Springer-Verlag.
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).
Batch kernel SOM and related laplacian methods for social network analysis.
Neurocomputing, 71(7-9):1257–1273.
Newman, M., Barab, A., and Watts, D. (2006).
The Structure and Dynamics of Networks.
Princeton University Press.
TO BE CONTINUED...
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27

Más contenido relacionado

Destacado

Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data ScienceSoft Computing
 
Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008Mohamed Kortbi
 
Searching and Recommending TV series with SQL
Searching and Recommending TV series with SQLSearching and Recommending TV series with SQL
Searching and Recommending TV series with SQLGuillaume Cabanac
 
A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...Guillaume Cabanac
 
Big data & cross canal
Big data & cross canalBig data & cross canal
Big data & cross canalNexize
 
Interroger le texte scientifique
Interroger le texte scientifiqueInterroger le texte scientifique
Interroger le texte scientifiqueGuillaume Cabanac
 
Metrologie dans l'entreprise
Metrologie  dans l'entrepriseMetrologie  dans l'entreprise
Metrologie dans l'entrepriseAyoub El'
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial dihiaselma
 
Métrologie - les instruments de mesure
Métrologie - les instruments de mesureMétrologie - les instruments de mesure
Métrologie - les instruments de mesureBRAHAM Alaeddine
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...
Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...
Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...Soft Computing
 
Association Rule Mining with R
Association Rule Mining with RAssociation Rule Mining with R
Association Rule Mining with RYanchang Zhao
 

Destacado (20)

Data Mining
Data MiningData Mining
Data Mining
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data Science
 
Projet informatique master ISI
Projet informatique master ISIProjet informatique master ISI
Projet informatique master ISI
 
Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008
 
Searching and Recommending TV series with SQL
Searching and Recommending TV series with SQLSearching and Recommending TV series with SQL
Searching and Recommending TV series with SQL
 
A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...
 
Big data & cross canal
Big data & cross canalBig data & cross canal
Big data & cross canal
 
Interroger le texte scientifique
Interroger le texte scientifiqueInterroger le texte scientifique
Interroger le texte scientifique
 
Metrologie dans l'entreprise
Metrologie  dans l'entrepriseMetrologie  dans l'entreprise
Metrologie dans l'entreprise
 
Image Mining
Image MiningImage Mining
Image Mining
 
Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial
 
Metrologie
MetrologieMetrologie
Metrologie
 
Bddwdm
BddwdmBddwdm
Bddwdm
 
Métrologie - les instruments de mesure
Métrologie - les instruments de mesureMétrologie - les instruments de mesure
Métrologie - les instruments de mesure
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...
Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...
Salon e-Commerce 2014 : « Gestion de campagnes + web analytics + données soci...
 
Data Science
Data ScienceData Science
Data Science
 
Association Rule Mining with R
Association Rule Mining with RAssociation Rule Mining with R
Association Rule Mining with R
 

Similar a Fouille de données sur des graphes : Introduction

Combiner classification et visualisation pour l’exploration de grands réseaux
Combiner classification et visualisation pour l’exploration de grands réseauxCombiner classification et visualisation pour l’exploration de grands réseaux
Combiner classification et visualisation pour l’exploration de grands réseauxtuxette
 
Compte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiquesCompte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiquestuxette
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...tuxette
 
Graphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’informationGraphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’informationtuxette
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMSamirAwad14
 
Fouille de données pour des grands graphes
Fouille de données pour des grands graphesFouille de données pour des grands graphes
Fouille de données pour des grands graphestuxette
 
Initiation à l'analyse de réseaux - formation fmr - séance 1
Initiation à l'analyse de réseaux - formation fmr - séance 1Initiation à l'analyse de réseaux - formation fmr - séance 1
Initiation à l'analyse de réseaux - formation fmr - séance 1Marion Maisonobe
 
Cours stat descr
Cours stat descrCours stat descr
Cours stat descrhassan1488
 
ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...
ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...
ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...David Combe
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
Université d’été ferney voltaire 2014 – les réseaux atelier-pajek
Université d’été ferney voltaire 2014 – les réseaux atelier-pajekUniversité d’été ferney voltaire 2014 – les réseaux atelier-pajek
Université d’été ferney voltaire 2014 – les réseaux atelier-pajekMarion Maisonobe
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data businessVincent de Stoecklin
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdfOuailChoukhairi
 
Discrimination et régression non paramétriques pour des dérivées : un résulta...
Discrimination et régression non paramétriques pour des dérivées : un résulta...Discrimination et régression non paramétriques pour des dérivées : un résulta...
Discrimination et régression non paramétriques pour des dérivées : un résulta...tuxette
 
Compte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiquesCompte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiquestuxette
 

Similar a Fouille de données sur des graphes : Introduction (20)

Combiner classification et visualisation pour l’exploration de grands réseaux
Combiner classification et visualisation pour l’exploration de grands réseauxCombiner classification et visualisation pour l’exploration de grands réseaux
Combiner classification et visualisation pour l’exploration de grands réseaux
 
Compte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiquesCompte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiques
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...
 
Graphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’informationGraphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’information
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVM
 
Fouille de données pour des grands graphes
Fouille de données pour des grands graphesFouille de données pour des grands graphes
Fouille de données pour des grands graphes
 
Initiation à l'analyse de réseaux - formation fmr - séance 1
Initiation à l'analyse de réseaux - formation fmr - séance 1Initiation à l'analyse de réseaux - formation fmr - séance 1
Initiation à l'analyse de réseaux - formation fmr - séance 1
 
030225+seminar+gelo+diro.ppt
030225+seminar+gelo+diro.ppt030225+seminar+gelo+diro.ppt
030225+seminar+gelo+diro.ppt
 
040423+seminar+info+uqam.ppt
040423+seminar+info+uqam.ppt040423+seminar+info+uqam.ppt
040423+seminar+info+uqam.ppt
 
Cours stat descr
Cours stat descrCours stat descr
Cours stat descr
 
ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...
ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...
ToTeM : une méthode de détection de communautés adaptée à la fouille de résea...
 
cours_4.pdf
cours_4.pdfcours_4.pdf
cours_4.pdf
 
Formation traitement d_images
Formation traitement d_imagesFormation traitement d_images
Formation traitement d_images
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Université d’été ferney voltaire 2014 – les réseaux atelier-pajek
Université d’été ferney voltaire 2014 – les réseaux atelier-pajekUniversité d’été ferney voltaire 2014 – les réseaux atelier-pajek
Université d’été ferney voltaire 2014 – les réseaux atelier-pajek
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data business
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
 
Discrimination et régression non paramétriques pour des dérivées : un résulta...
Discrimination et régression non paramétriques pour des dérivées : un résulta...Discrimination et régression non paramétriques pour des dérivées : un résulta...
Discrimination et régression non paramétriques pour des dérivées : un résulta...
 
Compte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiquesCompte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiques
 

Más de tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Más de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Fouille de données sur des graphes : Introduction

  • 1. Fouille de données sur des graphes : Introduction Nathalie Villa-Vialaneix http://www.nathalievilla.org Toulouse School of Economics Groupe de travail BioPuces, INRA de Castanet 24 avril 2009 BioPuces (24/04/09) Nathalie Villa Data mining & graphes 1 / 27
  • 2. Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 2 / 27
  • 3. Introduction et vocabulaire Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 3 / 27
  • 4. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  • 5. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets (ou noeuds) / en anglais : vertices, nodes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  • 6. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets Arêtes / en anglais : edges BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  • 7. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... 3 5 7 6,15 4,35 2 4 3.4 Sommets Arêtes éventuellement pondérées BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  • 8. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  • 9. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) • dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  • 10. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) • dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V • dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  • 11. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) • dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V • dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E Dans un graphe non pondéré, on convient que wij ∈ {0; 1}. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  • 12. Introduction et vocabulaire Quelques notions élémentaires : le degré Définition On appelle degré du sommet xi le nombre di = j i wij. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
  • 13. Introduction et vocabulaire Quelques notions élémentaires : le degré Définition On appelle degré du sommet xi le nombre di = j i wij. Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
  • 14. Introduction et vocabulaire Quelques notions élémentaires : le degré Définition On appelle degré du sommet xi le nombre di = j i wij. Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi. Dans les réseaux sociaux, la distribution des degrés suit généralement une loi de puissance (graphes sans échelle typique). BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
  • 15. Introduction et vocabulaire Quelques notions élémentaires : la densité Définition On appelle densité d’un graphe non pondéré n i,j=1 I{(xi,xj)∈E} n(n − 1) . BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
  • 16. Introduction et vocabulaire Quelques notions élémentaires : la densité Définition On appelle densité d’un graphe non pondéré n i,j=1 I{(xi,xj)∈E} n(n − 1) . Dans le cas d’un graphe pondéré, on peut généraliser cette notion par n i,j=1 wij n(n−1) mais elle n’est plus nécessairement comprise entre 0 et 1 !! BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
  • 17. Introduction et vocabulaire Quelques notions élémentaires : la densité Définition On appelle densité d’un graphe non pondéré n i,j=1 I{(xi,xj)∈E} n(n − 1) . Dans le cas d’un graphe pondéré, on peut généraliser cette notion par n i,j=1 wij n(n−1) mais elle n’est plus nécessairement comprise entre 0 et 1 !! Dans les réseaux sociaux, on observe souvent un effet “petit monde” : • faible densité globale (de l’ordre de 5% - 10%) ; • forte densité locale : la densité moyenne du sous-graphe des voisins de chaque sommet peut être supérieure à 70 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
  • 18. Dessiner un grand graphe Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 8 / 27
  • 19. Dessiner un grand graphe Algorithmes de forces Au delà de quelques dizaines de sommets, nécessité de penser à la position des sommets doit être pensée pour rendre le graphe lisible et interprétable pour l’œil. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27
  • 20. Dessiner un grand graphe Algorithmes de forces Au delà de quelques dizaines de sommets, nécessité de penser à la position des sommets doit être pensée pour rendre le graphe lisible et interprétable pour l’œil. Utilisation courante d’algorithmes de forces (Fruchterman & Reingold, par exemple) qui simulent des systèmes de ressorts sur les arêtes. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27
  • 21. Dessiner un grand graphe Représentation simple BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  • 22. Dessiner un grand graphe Pondération des arêtes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  • 23. Dessiner un grand graphe Étiquetage des sommets BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  • 24. Dessiner un grand graphe Coloration des sommets BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  • 25. Dessiner un grand graphe Coloration des sommets et des arêtes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  • 26. Dessiner un grand graphe Comment réaliser ces représentations ? • Package igraph de R : pas mal de fonctionnalités mais pondération des arêtes pas correctement prise en compte et pas d’interactivité sur les graphes. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27
  • 27. Dessiner un grand graphe Comment réaliser ces représentations ? • Package igraph de R : pas mal de fonctionnalités mais pondération des arêtes pas correctement prise en compte et pas d’interactivité sur les graphes. • Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalités mais permet uniquement la représentation et nécessite l’importation des graphe dans un format spécial. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27
  • 28. Dessiner un grand graphe Qu’est-ce qu’une bonne représentation ? En général, un critère admis pour mesurer la qualité de la représentation est le nombre d’arêtes coupées dans la figure : C = 1 2 e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )∈V wi1,j1 wi2,j2 I{e1 coupe e2} BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27
  • 29. Dessiner un grand graphe Qu’est-ce qu’une bonne représentation ? En général, un critère admis pour mesurer la qualité de la représentation est le nombre d’arêtes coupées dans la figure : C = 1 2 e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )∈V wi1,j1 wi2,j2 I{e1 coupe e2} Problème de ce critère : coûteux à calculer . . . BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27
  • 30. Exemples Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 13 / 27
  • 31. Exemples Réseau social I : “Les misérables” (V. Hugo) 77 sommets, 254 arêtes, 1 2 ij wij = 820 (variant de 1 à 31, entre Cosette et Valjean), densités : 8,7 % (non pondéré) et 0,560 (pondéré), coefficient de classification (densité locale moyenne) : 49,9 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 14 / 27
  • 32. Exemples Réseau social II : Réseau de citations scientifiques [Newman et al., 2006] 379 sommets, 914 arêtes, 1 2 ij wij = 489, 5 (variant de 0,125 à 4,75), densité : 1,3 % (non pondéré), coefficient de classification : 22,1 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 15 / 27
  • 33. Exemples Réseau social III : Réseau issu d’un grand corpus médiéval [Boulet et al., 2008] 615 sommets, 4 193 arêtes, 1 2 ij wij = 40 329 (50 % des arêtes ont un poids de 1 et moins de 2 % un poids supérieur à 100), densité : 2,2 % (non pondéré), coefficient de classification : 77 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 16 / 27
  • 34. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  • 35. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  • 36. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  • 37. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice. Ne marche pas !! Car les corrélations sont regardées dans leur ensemble : si les variables x et z et les variables y et z sont fortement corrélées alors la corrélation entre x et y sera forte sans réalité biologique. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  • 38. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice. Ne marche pas !! Car les corrélations sont regardées dans leur ensemble : si les variables x et z et les variables y et z sont fortement corrélées alors la corrélation entre x et y sera forte sans réalité biologique. Solution : Utiliser un modèle graphique gaussien qui détermine les corrélations partielles, i.e., les corrélations entre deux variables indépendamment des autres variables du jeu de données. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  • 39. Exemples Exemple de la différence entre les deux approches Seuil = 0,2 Seuil = 0,65 BioPuces (24/04/09) Nathalie Villa Data mining & graphes 18 / 27
  • 40. Exemples Réseau de gènes Bovin différentiellement avec le Porc (seuil 0,015) 460 sommets, 3 903 arêtes, 1 2 ij wij = 70, 38, densité : 3,7 % (non pondéré), coefficient de classification : 20,6 %, degré moyen : 0,31. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 19 / 27
  • 41. Exemples Réseau de gènes Porc différentiellement avec le Bovin (seuil 0,02) 390 sommets, 3 320 arêtes, 1 2 ij wij = 81, 6, densité : 4,2 % (non pondéré), coefficient de classification : 18,7 %, degré moyen : 0,42. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 20 / 27
  • 42. Exemples Réseau de gènes de petits follicules atritiques (seuil 0,013) 459 sommets, 6 478 arêtes, 1 2 ij wij = 105, 4, densité : 6,2 % (non pondéré), coefficient de classification : 25,0 %, degré moyen : 0,46. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 21 / 27
  • 43. Exemples Réseau de gènes de petits follicules sains (seuil 0,013) 360 sommets, 4 401arêtes, 1 2 ij wij = 72, 1, densité : 6,8 % (non pondéré), coefficient de classification : 29,2 %, degré moyen : 0,40. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 22 / 27
  • 44. Exemples Réseau de gènes de gros follicules sains (seuil 0,015) 325 sommets, 3 526 arêtes, 1 2 ij wij = 66, 1, densité : 6,7 % (non pondéré), coefficient de classification : 26,9 %, degré moyen : 0,41. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 23 / 27
  • 45. Exemples Problématique et questions Premières conclusions : • Les réseaux d’interaction n’ont pas de structure “petit monde”. • Les structures macroscopiques des deux réseaux (porc et bovin) sont très similaires. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
  • 46. Exemples Problématique et questions Premières conclusions : • Les réseaux d’interaction n’ont pas de structure “petit monde”. • Les structures macroscopiques des deux réseaux (porc et bovin) sont très similaires. Problèmes : • Quel seuillage des corrélations partielles est adéquat ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
  • 47. Exemples Problématique et questions Premières conclusions : • Les réseaux d’interaction n’ont pas de structure “petit monde”. • Les structures macroscopiques des deux réseaux (porc et bovin) sont très similaires. Problèmes : • Quel seuillage des corrélations partielles est adéquat ? • Les algorithmes de force permettent de visualiser un graphe mais au-delà de quelques dizaines de sommets, la compréhension de la structure du graphe à partir de cette seule représentation est difficile. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
  • 48. Pourquoi la classification des sommets ? Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 25 / 27
  • 49. Pourquoi la classification des sommets ? Fournir une représentation schématique du graphe Le but de la classification de sommets est de mettre en valeur des groupes de sommets denses et faiblement connectés entre eux. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
  • 50. Pourquoi la classification des sommets ? Fournir une représentation schématique du graphe Le but de la classification de sommets est de mettre en valeur des groupes de sommets denses et faiblement connectés entre eux. Ce type de traitement statistique permet de faire ressortir les grandes structures et les grands ensembles du graphe et aide à l’interprétation. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
  • 51. Pourquoi la classification des sommets ? Fournir une représentation schématique du graphe Le but de la classification de sommets est de mettre en valeur des groupes de sommets denses et faiblement connectés entre eux. Ce type de traitement statistique permet de faire ressortir les grandes structures et les grands ensembles du graphe et aide à l’interprétation. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
  • 52. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  • 53. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; • un critère de densité des groupes : la moyenne de la densité pondérée intra-classes K c=1 |Cc| i,j:xi, xj∈Cc wij |Cc| × (|Cc| − 1) ; BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  • 54. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; • un critère de densité des groupes : la moyenne de la densité pondérée intra-classes K c=1 |Cc| i,j:xi, xj∈Cc wij |Cc| × (|Cc| − 1) ; • un critère de visualisation : le nombre d’arêtes coupées. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  • 55. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; • un critère de densité des groupes : la moyenne de la densité pondérée intra-classes K c=1 |Cc| i,j:xi, xj∈Cc wij |Cc| × (|Cc| − 1) ; • un critère de visualisation : le nombre d’arêtes coupées. Questions : Comment combiner ces trois critères ? Comment la taille de la classification K influencent-elles ceux-ci ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  • 56. Pourquoi la classification des sommets ? Auber, D. (2003). Tulip : A huge graph visualisation framework. In Mutzel, P. and Jünger, M., editors, Graph Drawing Softwares, Mathematics and Visualization, pages 105–126. Springer-Verlag. Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008). Batch kernel SOM and related laplacian methods for social network analysis. Neurocomputing, 71(7-9):1257–1273. Newman, M., Barab, A., and Watts, D. (2006). The Structure and Dynamics of Networks. Princeton University Press. TO BE CONTINUED... BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27