This document summarizes a study on classifying brain connectivity graphs (BCGs) using graph theory measures. It introduces graph theory concepts and previous work using global and local measures. The study finds that using histograms of local clustering coefficients and chi-squared distance achieves 83% accuracy classifying BCGs, outperforming global measures. It also examines the stability, scalability and effects of randomization on the classification approach.
3. INTRODUCTION
METHODS
3
gipsa-lab
CONTEXT
• How to compare graphs to
each other?
• Is it possible to model brain
connectivity graphs (BCG)?
• To which extent can we
characterize BCGs?
4. INTRODUCTION
METHODS
4
gipsa-lab
GENERATIVE MODELSS
Illustration « Small World », Collective dynamics of
‘small-world’ networks, D. J. Watts & S. H. Strogatz
Illustration « Preferential Attachment », Choice-driven phase
transition in complex networks, P. L. Krapivsky and S. Redner
• Erdos-Renyi
• Forest Fire
• Kronecker
• Preferential Attachment
• Random k-regular
• Random Power Law
• Random Typing
• Small-World
5. INTRODUCTION
METHODS
5
gipsa-lab
GRAPH COMPARISON
• Transformation from a graph to another
ex : Edition distance
STRUCTURAL
MEASURES
• Nodes tendency to form clusters, degree
distribution, path between nodes
ex : Clustering, Characteristic Path Length
LOCAL
MEASURES
(for each node)
• Averagefor all local measures, coreand community
formation
ex : Assortativity, Centrality, Modularity,Diameter
OVERALL
MEASURES
6. STATE OF THE ART : JANSSEN et al. 2012
Graphlets coutnting
Amount of
Graphlets
classifier learning classifier input
METHODS
LOCAL MEASURES
6
gipsa-lab
Learning Set Graph Instance
Amount of
Graphlets
Classifier
Graph model
7. STATE OF THE ART : MOTALLEBI et al. 2013
Complex Networks
Classification
METHODS
LOCAL MEASURES
7
gipsa-lab
8. Confidence interval
~25%
METHODS
LOCAL MEASURES
8
gipsa-lab
BCGs MODELISATION
BCGs classification in 4 generative models
(Erdos-Renyi, Preferential Attachment, Random k-regular, Small-World)
Classe Prédiction E-R P A R k-R S-W
Control Small-World 0.2502 0.2501 0.2492 0.2505
Patient Small-World 0.2502 0.2501 0.2492 0.2505
Characterization with global measures and SVM classifier
9. Classification accuracy 50.16%, random at 50%
METHODS
LOCAL MEASURES
9
gipsa-lab
BCGs IDENTIFICATION
true Control true Patient class precision
pred. Control 13 11 54.17%
pred. Patient 7 6 46.15%
class recall 65.00% 35.29% 50.16%
Identification results with global measures and SVM classifier
10. METHODS
LOCAL MEASURES
gipsa-lab
RESEARCH QUESTION
« Global measures are not representative of
local properties of graphs »
Local clustering
coefficient histograms
for 3 generative models
10
11. HISTOGRAMME NORMALISE
• Clustering Coefficient
• Characteristic Path Length
• Degrees Distribution
• Efficiency
LOCAL MEASURES
RESULTS
gipsa-lab
Local measures
histograms
Learning Set Graph Instance
AverageNormalized
Histograms
Histograms
Distances
Graph model
Normalized
Histograms
distance minimum or classifier
11
12. • Bin to bin (dis)similarity measures :
Battacharyya:
Chi²
Hellinger :
• Shape preservation dissimilarity measures:
EarthMoverDistance : Optimisation of minimal work someone has to
LOCAL MEASURES
RESULTS
gipsa-lab
HISTOGRAMS DISTANCE
12
provide to move earth from a pile to an other one.
Match : Cumulated histograms bin to bin measures
13. Performances
RESULTS
gipsa-lab
GENERATED DATA
13
graphlets : 78%
global measures : 88% to 97.3% 6 measures and more
local measures : 86% or 100% only 1 measure
Accuracy
SW 100%
RPL 100%
RkR 100%
PA 100%
KG 100%
FF 100%
ER 100%
100%
Accuracy
SW 100%
RTG 96%
RPL 98%
PA 99%
KG 96%
FF 98%
ER 93%
97.2%
Classification
results
local measures global measures
14. MAX global measures 63%V.S. 83%MAX histograms
RESULTS
gipsa-lab
CONNECTIVITY GRAPHS
14
GLOBAL
A.N.N.
C P
C 11 9 55%
P 5 12 71%
69% 57% 63%
HISTOGRAM
CLUSTERING
AND CHI²
C P
C 18 2 90%
P 4 13 76%
82% 87% 83%
Confusion matrix of Control / Patient identification
15. RESULTS
gipsa-lab
BCGs MODELISATION
15
7 Clustering Degree
ER 0,418 0,133
FF 0,207 0,074
KG 0,112 0,211
RPL 0,156 0,088
PA 0,437 0,242
RkR 0,459 0,183
SW 0,103 0,238
EMD distance between BCGs and models for two histograms
19. Erdos-
Renyi
FF
RPL
RESULTS
gipsa-lab
REMOVING CLASSES
19
Forest
Fire
RPL
SW
Kronecker
Graph
FF
77%SW
23%RPL
Preferential
Attachment
FF
RPL
Random
k-Regular
FF
RPL
Random
Power Law
FF
92% SW
8% PA
Small-
World
FF
RPL
Graphes de
Connectivités
FF
RPL
PA
SW
…
20. PC 1 0.415 0.750 0.750
PC 2 0.170 0.126 0.876
PC 3 0.132 0.076 0.952
PC 4 0.101 0.044 0.996
PC 5 0.028 0.004 0.999
PC 6 0.011 0.000 1.000
PC 7 0.003 0.000 1.000
RESULTS
gipsa-lab
PCA : RESULTS
20
NUMBER OF PRINCIPAL COMPONENT
CUMULATIVE VARIANCE
22. RESULTS
gipsa-lab
PCA : INTERPRETATION
22
COMPONENT 2
FORMER ATTRIBUTES
COMPONENT 1
Biplot: visual
representation
K REGULAR
ERDOS RENYI
RANDOM POWER
LAW
FOREST FIRE
SMALL WORLD
COMPONENT 1
PREF ATTACHMENT
VECTORS
23. gipsa-lab
CONCLUSION
Excellent performances on generated data
Histograms of local measures are useful
Local clustering is particularly important
Still dependent on existing and number of models
Results on connectivity data are still lacking
Combined model are to be considered
Basis of histograms to be constructed
Editor's Notes
Bonjour à tous
Je vais vous présenter mes travaux sur les graphes, et plus particulièrement sur la classif…erveau issue de mon stage ici au GIPSA lab
Après une rapide présentation du contexte je vais vous présenter deux méthodes usuelles issues de la littérature avant d’introduire les concepts de mesures locales et d‘histogrammes et enfin une comparaison des résultats et des performances.
Dans cette étude nous cherchons à comparer des graphes entre eux.
Vous avez ici l’exemples de Graphes de Connectivité du Cerveau avec les nœuds en noirs, et les arêtes en bleu, on les obtient par imagerie IRM sur des personnes saines agissant comme control et sur des patients atteints de troubles psychologiques ou neurologiques comme un comma. On sépare alors le cerveau en différentes régions représentées chacune par un nœud. Une arête montrant un lien fonctionnel entre deux régions.
Ces GCC constituent nos données réelles, nous allons pouvoir les comparer par la suite à des graphes de synthèses pour en définir un modèle.
VISUEL GRAPH CONNECTIVITE -> COMMENT CARACTERISER LES GRAPHES LES UNS AU AUTRES / MODELISER ELS DONNEES REELES PAR UNE (DES) METHODES GENERATIVES / CATEGORISER LES DONNEES REELLES ENTRES ELLES.
Les modèles génératifs présentent différentes manières de générer des graphes. Tous ces modèles sont simulés d’après plusieurs paramètres comme leur nombre de noeuds et d’arêtes.
Vous avez ici une autre représentation visuelle des graphes où les noeuds sont répartis sur un cercle.
Trois modèles peuvent êtres définis comme présentés ici, le modèle régulier ou tous les nœuds sont liés à leurs k plus proches voisins.
On va pouvoir ensuite reconnecter aléatoirement les arêtes avec une probabilité p jusqu’à atteindre le modèle dit Small-World
Si on continue encore on va obtenir un modèle complètement aléatoire ou modèle Erdos Renyi.
Un autre modèle initié par Barabasi est le Préférential Attachment, l’idée représentée ici est qu’il est plus probable de trouver de nouveaux amis chez les amis de mes amis que chez des personnes avec lesquelles je n’ai aucune relation. Le Préférential attachement modèlise parfaitement les réseaux sociaux ou encore le système de citation dans les articles.
Maintenant que nous avons plusieurs types de graphes nous allons chercher à les comparer.
Pour cela il existe plusieurs types de mesures
heavy tailed degree distribution, high clustering, small path length
Nous allons maintenant entrer dans le vif du sujet avec une première méthode de classification de graphes basé sur le comptage de motifs appelés GRAPHLETS
On peut voir ici les différents motifs pour 3 et 4 nœuds.
On commence par compter le nombre de graphlets d’un ensemble d’apprentissage composés d’un certain nombre de graphes pour chaque modèle étudié ont on va se servir pour créer un classifieur.
Pour chaque nouvelle instance de graphe à tester on va
Classifieur adapté au graph en entrée et on cherche une indépendance vis-à-vis du nombre de noeud
On a donc commencé par essayer de repartir les graphes de connectivites selon differents modeles generatifs pour voir s’il y en a un qui colle.
Pour cela on a utilisé les mesures globales d’une centaine de graphes pour 4 modeles generatifs comme ensemble d’apprentissage et on a ensuite passé les 37 GCC dans un classifieur SVM.
Prédiction basée sur le max pas de sens, même données autres classifieurs autres modèles.
25% partout, ces 4 modèles de synthèses avec les paramètres, ne permettent pas de caractériser les données réelles, pas adéquat, pas discriminant, le graph n’est pas reconnu Patient comme Control
Inspiration pour classifier les PATIENT/CONTROL en cross valiation/leave one out avec un classifieur SVM, on voit bien qu’on est incapable de les séparer avec mesures globales.
RESULTATS mitigés, en simulation avec graphes de synthèses seuls, comme ce qu’on voit dans la littérature, ça marche bien mais... Faiblesse des méthodes précédentes.
PBMTK -> Intérêt des mesures locales, un histogramme pour illustrer,
FORTEMENT INSPIRE DE LA DEUXIEME METHODE APPRENTISSAGE 7 modèles génératifs
Un histogramme moyen pour chaque modèle
Plus petit / apprentissage
NORMALISE / MOYENS Mesures locales, les histogrammes moyens
2 histogrammes de graphes <>
5 distances, sens physique (pas de divergence car elles nécessitent un support commun)
1 seule mesure (Clustering)
Expliquer le process + METHODE DE S. MOTALLEBI
Pourquoi pas fitter des lois ? On ne peut pas toujours au vu de la forme des histogrammes.
Pourquoi pas directement un histogramme dans le classifieur ? Pas vraiment de sens, 30 mesures, un énorme nombre d’échantillons
Regarder histo Kro/SW