Définition et analyse de graphes d’interactions de gènes pour la qualité de la viande de porc ; relations avec le PH
1. Définition et analyse de graphes
d’interactions de gènes pour la qualité de
la viande de porc ; relations avec le PH
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Groupe de travail BioPuces, INRA de Castanet
14 Janvier 2011
1 / 27
Nathalie Villa-Vialaneix
2. Présentation générale
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse de la corrélation avec le PH à l’aide d’outils de
statistique spatiale
2 / 27
Nathalie Villa-Vialaneix
3. Les données
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse de la corrélation avec le PH à l’aide d’outils de
statistique spatiale
3 / 27
Nathalie Villa-Vialaneix
4. Les données
Production d’animaux F2 avec des fac-
teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus
(dont longissimus dorsi)
Mesures phénotypiques (30)
(force de cisaillement, PH ...)
4 / 27
Nathalie Villa-Vialaneix
5. Les données
Production d’animaux F2 avec des fac-
teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus
(dont longissimus dorsi)
Mesures phénotypiques (30)
(force de cisaillement, PH ...)
Données retenues : Une famille de 57 individus F2 (plus forte
variabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.
4 / 27
Nathalie Villa-Vialaneix
6. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
5 / 27
Nathalie Villa-Vialaneix
7. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
5 / 27
Nathalie Villa-Vialaneix
8. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sont
réputés régulés par un eQTL ;
5 / 27
Nathalie Villa-Vialaneix
9. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sont
réputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits
: 23 gènes sont réuputés différentiellement exprimés pour le PH.
5 / 27
Nathalie Villa-Vialaneix
10. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sont
réputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits
: 23 gènes sont réuputés différentiellement exprimés pour le PH.
Remarque : 2 gènes différentiellement exprimés pour le PH sont
régulés par un eQTL ; il s’agit de D04-D07 (BX671434) et de
N01-C04 (ZRANB1).
5 / 27
Nathalie Villa-Vialaneix
11. Principe général de construction d’un graphe d’interactions
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse de la corrélation avec le PH à l’aide d’outils de
statistique spatiale
6 / 27
Nathalie Villa-Vialaneix
12. Principe général de construction d’un graphe d’interactions
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dans
une ou plusieurs fonctions biologiques.
7 / 27
Nathalie Villa-Vialaneix
13. Principe général de construction d’un graphe d’interactions
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dans
une ou plusieurs fonctions biologiques.
Que modélise un réseau de gènes ?
Sommets : Gènes
Arêtes : Corrélation forte dans
l’expression des deux gènes
7 / 27
Nathalie Villa-Vialaneix
14. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
8 / 27
Nathalie Villa-Vialaneix
15. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
8 / 27
Nathalie Villa-Vialaneix
16. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
Sous H, πij =
−wij
√
wii wjj
avec Σ−1
= (wij)i,j.
8 / 27
Nathalie Villa-Vialaneix
17. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
Sous H, πij =
−wij
√
wii wjj
avec Σ−1
= (wij)i,j.
Problème important : Estimation et inversion de Σ !
8 / 27
Nathalie Villa-Vialaneix
18. Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
9 / 27
Nathalie Villa-Vialaneix
19. Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
Estimer Π par la moyenne des ˆΠb∗
.
9 / 27
Nathalie Villa-Vialaneix
20. Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
Estimer Π par la moyenne des ˆΠb∗
.
Combien d’observations pour estimer correctement Π ?
9 / 27
Nathalie Villa-Vialaneix
21. Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :
graphe d’interactions des gènes régulés par un eQTL (272
sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour le
PH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL ou
différentiellement exprimés pour le PH (293 sommets).
10 / 27
Nathalie Villa-Vialaneix
22. Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :
graphe d’interactions des gènes régulés par un eQTL (272
sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour le
PH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL ou
différentiellement exprimés pour le PH (293 sommets).
Une procédure de bootstrap (4 000 répétitions d’échantillons
bootstrap de 20 cochons) a été programmée pour estimer les
corrélations partielles (fonction ggm.estimate du package
GeneNet).
10 / 27
Nathalie Villa-Vialaneix
23. Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :
graphe d’interactions des gènes régulés par un eQTL (272
sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour le
PH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL ou
différentiellement exprimés pour le PH (293 sommets).
Une procédure de bootstrap (4 000 répétitions d’échantillons
bootstrap de 20 cochons) a été programmée pour estimer les
corrélations partielles (fonction ggm.estimate du package
GeneNet).
Un graphe d’interactions est construit dans lequel les arêtes sont
les corrélations partielles significatives (test de significativité de
la fonction ggm.test.edges, basé sur une approche bayésienne).
10 / 27
Nathalie Villa-Vialaneix
24. Analyse du graphe d’interactions des gènes régulés par un eQTL
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse de la corrélation avec le PH à l’aide d’outils de
statistique spatiale
11 / 27
Nathalie Villa-Vialaneix
26. Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des degrés des sommets
Degré d’un sommet : Nombre d’arêtes afférentes au sommet.
Histogramme des degrés
Degrés
Frequency
5 10 15 20 25 30
010203040
13 / 27
Nathalie Villa-Vialaneix
28. Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des indices de centralité
Centralité d’un sommet : Nombre de plus courts chemins entre
deux sommets du graphe passant par le sommet d’intérêt ⇒
Mesure de l’importance du sommet dans la connectivité du
graphe.
Indices de centralité des degrés
q
q
qq
qqqqq
qqqqqqqqqqqqq
qqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
0 50 100 150 200 250
0100200300400500
Rang
Indicedecentralité
14 / 27
Nathalie Villa-Vialaneix
30. Analyse du graphe d’interactions des gènes régulés par un eQTL
Comparaison entre les deux listes
8 gènes sont en commun dans les deux listes :
BX921641 ; FTH1 ; TRIAP1 ; SLC9A14 ; GPI ; SUZ12 ; MGP ;
PRDX4
Reconnaissez-vous des amis ?
15 / 27
Nathalie Villa-Vialaneix
31. Analyse du graphe d’interactions des gènes régulés par un eQTL
Principe de la classification de sommets
But : Faire des groupes de sommets fortement connectés entre
eux et faiblement connectés aux autres.
16 / 27
Nathalie Villa-Vialaneix
32. Analyse du graphe d’interactions des gènes régulés par un eQTL
Principe de la classification de sommets
But : Faire des groupes de sommets fortement connectés entre
eux et faiblement connectés aux autres.
Méthode utilisée : Suite au travail d’Adrien, optimisation de la
modularité par un algorithme de recuit simulé (comme dans
[Villa et al., 2009]) car :
la modularité est une mesure de la densité des classes qui tient
compte du degré des sommets : il est moins exceptionnel d’être
lié à un hub qu’à un sommet de faible degré donc le coût de
“couper” une arête connecté à un hub doit être plus faible.
l’algorithme de recuit simulé est très facile à mettre en œuvre
même si il peut être long. Il est bien adapté à des graphes de cette
taille.
16 / 27
Nathalie Villa-Vialaneix
33. Analyse du graphe d’interactions des gènes régulés par un eQTL
Méthodologie et résultats
Plusieurs nombres de classes (de 4 à 12) ont été testées et la
solution avec plus forte modularité a été conservée.
Répartition du nombre de sommets dans les classes
Numéro de classe 1 2 3 4 5 6 7
Nombre de sommets 33 44 58 28 41 28 40
modularité = 0,395
17 / 27
Nathalie Villa-Vialaneix
37. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse de la corrélation avec le PH à l’aide d’outils de
statistique spatiale
18 / 27
Nathalie Villa-Vialaneix
38. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Données, but
But : Comprendre si et comment un phénotype d’intérêt (le PH de
la viande) influence la manière dont des gènes, sélectionnés sur
des caractéristiques génétiques, sont organisés entre eux.
19 / 27
Nathalie Villa-Vialaneix
40. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Relation entre PH et classification
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
1 2 3 4 5 6 7
−0.02−0.010.000.010.020.03
Cluster
PartialcorrelationwithPH
20 / 27
Nathalie Villa-Vialaneix
41. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Relation entre PH et classification
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
1 2 3 4 5 6 7
−0.02−0.010.000.010.020.03
Cluster
PartialcorrelationwithPH
ANOVA non significative mais test de Student pour le modèle
linéaire donne un niveau de signification élevé pour le coefficient
correspondant à la classe 4.
20 / 27
Nathalie Villa-Vialaneix
42. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Relation entre PH et classes
Deux exemples :
q
q
q
qq q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
BX925971
RRAS
BX922566
SEC24ABX671434 PATL1
BX671687BX672338
ACOX1
APITD1
BX923543
XRCC6
NUDT21
Neb
CLTA
BX667801
BX671017
BX674989
BX675907
BX665214
BX675319
CSDE1
BX671545
TACC1 BX915330
ALDH2 HIAT1
scaj0012.o.01
PPIA
BX923052
SLA−1
FADD
TMEM201
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
BX919092
PSMC3IP
THRB
XIAP
ARHGAP8
X91721
BX917912
EAPP
LSM2
BX922053
BX922491
H2AFY
ENH_RAT
LMF1
FTCD
BX925690
B2M
GPI
BX667979
BX920538
BX671131
RNF2
BX673501
KPNA1
BX674063
BX918923
RPS11
UBE2H
Classe 1 Classe 4
Remarque : Beaucoup des gènes avec une forte corrélation
positive avec le PH se trouvent dans la classe 4. 21 / 27
Nathalie Villa-Vialaneix
43. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Auto-corrélation spatiale dans le réseau
pour la relation avec le PH : I de Moran
[Moran, 1950] a introduit une mesure de corrélation spatiale
nommée le I (de Moran):
I =
1
2m i j wij¯ci¯cj
1
n i ¯c2
i
où m = 1
2 i j wij (total des poids dans le réseau), ci est la
corrélation partielle du gène i avec le PH et ¯ci = ci − ¯c avec
¯c = 1
n i ci.
22 / 27
Nathalie Villa-Vialaneix
44. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Auto-corrélation spatiale dans le réseau
pour la relation avec le PH : I de Moran
[Moran, 1950] a introduit une mesure de corrélation spatiale
nommée le I (de Moran):
I =
1
2m i j wij¯ci¯cj
1
n i ¯c2
i
où m = 1
2 i j wij (total des poids dans le réseau), ci est la
corrélation partielle du gène i avec le PH et ¯ci = ci − ¯c avec
¯c = 1
n i ci.
Interprétation : Quand I est “grand”, les sommets ont tendance à
être reliés à des sommets dont la valeur de ci est similaire; quand I
est “petit”, les sommets ont tendance à être reliés à des sommets
dont la valeur de ci est très différente. Un I “moyen” signifie qu’il n’y
a pas de relation entre les valeurs (ci)i et la structure du réseau.
22 / 27
Nathalie Villa-Vialaneix
45. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Auto-corrélation spatiale dans le réseau
pour la relation avec le PH : I de Moran
[Moran, 1950] a introduit une mesure de corrélation spatiale
nommée le I (de Moran):
I =
1
2m i j wij¯ci¯cj
1
n i ¯c2
i
où m = 1
2 i j wij (total des poids dans le réseau), ci est la
corrélation partielle du gène i avec le PH et ¯ci = ci − ¯c avec
¯c = 1
n i ci.
Interprétation : Quand I est “grand”, les sommets ont tendance à
être reliés à des sommets dont la valeur de ci est similaire; quand I
est “petit”, les sommets ont tendance à être reliés à des sommets
dont la valeur de ci est très différente. Un I “moyen” signifie qu’il n’y
a pas de relation entre les valeurs (ci)i et la structure du réseau.
22 / 27
Nathalie Villa-Vialaneix
46. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Significativité de I
Il existe un résultat de normalité asymptotique pour I (mais sous
des conditions particulières et pour des réseaux assez grands).
On utilise une simulation de Monte Carlo pour estimer la p-value
de I.
23 / 27
Nathalie Villa-Vialaneix
47. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Significativité de I
Il existe un résultat de normalité asymptotique pour I (mais sous
des conditions particulières et pour des réseaux assez grands).
On utilise une simulation de Monte Carlo pour estimer la p-value
de I.
Méthode :
permutation aléatoire des valeurs de ci entre les sommets du
graphe, P fois (P grand) ;
⇒ calcul de P valeurs du I de Moran et détermination de la
distribution empirique ;
comparaison avec la valeur observée.
23 / 27
Nathalie Villa-Vialaneix
48. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Résultat sur les données étudiées
Moran's I
Frequency
−0.05 0.00 0.05 0.10 0.15 0.20
050100150
Le I de Moran est significativement élevé : les gènes ont
tendance à être liés à des gènes pour lesquels la corrélation avec
le PH est très similaire.
24 / 27
Nathalie Villa-Vialaneix
49. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Résultat sur les données étudiées
Moran's I
Frequency
−0.05 0.00 0.05 0.10 0.15 0.20
050100150
Interprétation possible : Les quelques gènes fortement corrélés
positivement avec le PH sont tous dans la même classe (i.e., ils
sont fortement liés).
24 / 27
Nathalie Villa-Vialaneix
50. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Résultat sur les données étudiées
Moran's I
Frequency
−0.05 0.00 0.05 0.10 0.15 0.20
050100150
Remarque, question : Peut-être qu’il serait plus pertinent de faire
ce test avec (|ci|)i plutôt qu’avec (ci)i ???
24 / 27
Nathalie Villa-Vialaneix
51. Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale
Avec la valeur absolue...
Moran's I
Frequency
−0.05 0.00 0.05 0.10 0.15
050100150
Le I de Moran est également significativement élevé : les gènes
ont tendance à être liés à des gènes pour lesquels la corrélation
(en valeur absolue) avec le PH est très similaire (les gènes très
corrélés sont liés à des gènes très corrélés et inversement).
25 / 27
Nathalie Villa-Vialaneix
62. Moran, P. (1950).
Notes on continuous stochastic phenomena.
Biometrika, 37:17–23.
Schäfer, J. and Strimmer, K. (2005).
An empirical bayes approach to inferring large-scale gene association networks.
Bioinformatics, 21(6):754–764.
Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2009).
Recherche et représentation de communautés dans des grands graphes.
In Actes du colloque Veille Stratégique, Scientifique et Technologique (VSST 2009), Nancy, France.
27 / 27
Nathalie Villa-Vialaneix