Compte-rendu bibliographique sur les réseaux biologiques
1. Compte-rendu bibliographique sur les réseaux
biologiques
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
6 novembre 2009
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 1 / 25
2. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 2 / 25
3. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classification de sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 2 / 25
4. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
5. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets (ou nœuds) / en anglais : vertices, nodes
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
6. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets
Arêtes / en anglais : edges
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
7. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 3 / 25
8. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
9. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
10. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
11. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 4 / 25
12. Sommaire
1 Inférence de graphes
2 Analyse de graphes
Structure et recherche de motifs
Recherche de modules : classification des sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 5 / 25
13. Sommaire
1 Inférence de graphes
2 Analyse de graphes
Structure et recherche de motifs
Recherche de modules : classification des sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 6 / 25
14. Références
1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6),
pp 754-764.
2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 7 / 25
15. Sommaire
1 Inférence de graphes
2 Analyse de graphes
Structure et recherche de motifs
Recherche de modules : classification des sommets
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 8 / 25
16. Un élément important de la structure d’un graphe : la
distribution des degrés
Définition
On appelle degré du sommet xi le nombre di = j i wij.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 9 / 25
17. Un élément important de la structure d’un graphe : la
distribution des degrés
Définition
On appelle degré du sommet xi le nombre di = j i wij.
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 9 / 25
18. Un élément important de la structure d’un graphe : la
distribution des degrés
Définition
On appelle degré du sommet xi le nombre di = j i wij.
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.
Dans de nombreux réseaux réels (sociaux, biologiques ...), la distribution
des degrés suit une loi de puissance (graphes sans échelle typique) :
voir [Dorogovtsev and Mendes, 2003].
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 9 / 25
19. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
20. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines). En
biologie, on les appelle hubs.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
21. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines). En
biologie, on les appelle hubs.
Sur les réseaux de taille moyenne (quelques centaines de sommets),
on observe plus fréquemment une loi de puissance tronquée (TPL) :
c’est un simple effet de taille mais l’interprétation est conservée.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
22. Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines). En
biologie, on les appelle hubs.
Sur les réseaux de taille moyenne (quelques centaines de sommets),
on observe plus fréquemment une loi de puissance tronquée (TPL) :
c’est un simple effet de taille mais l’interprétation est conservée.
Ces phénomènes sont très loin de graphes dans lesquels les arêtes
seraient réparties aléatoirement avec la même probabilité : ceci
donne lieu à des lois binomiales pour la distribution des degrés : il
n’existe pas de “hubs” dans ces graphes.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 10 / 25
23. Conséquence de la loi de puissance sur la résistance
aux dommages
[Dorogovtsev and Mendes, 2003]
Les réseaux dont la distribution des degrés est en loi de
puissance sont résistants aux dommages qui affectent
aléatoirement leurs sommets (la structure macroscopique du
réseau est conservée malgré un fort taux de destruction de
sommets).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 11 / 25
24. Conséquence de la loi de puissance sur la résistance
aux dommages
[Dorogovtsev and Mendes, 2003]
Les réseaux dont la distribution des degrés est en loi de
puissance sont résistants aux dommages qui affectent
aléatoirement leurs sommets (la structure macroscopique du
réseau est conservée malgré un fort taux de destruction de
sommets).
À l’inverse, les destructions qui affectent préférentiellement les
hubs endommagent rapidement la structure du réseau.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 11 / 25
25. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
26. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
Quelques exemples courants de graphes aléatoires :
1 [Erdõs and Rényi, 1959] : n sommets (fixés) ; la probabilité d’une
arête entre deux sommets est p pour toutes les paires.
Loi binomiale pour les degrés ;
Modèle simple mais pas réaliste.
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
27. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
Quelques exemples courants de graphes aléatoires :
1 [Erdõs and Rényi, 1959] : n sommets (fixés) ; la probabilité d’une
arête entre deux sommets est p pour toutes les paires.
2 [Albert and Barabási, 2002] : Modèle d’attachement préférentiel.
Les sommets sont ajoutés un à un et reliés aléatoirement aux
sommets préexistants avec une probabilité plus forte pour les
sommets à forts degrés.
Loi de puissance : P(D ≥ k) ∼ k−3
.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
28. Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.
Quelques exemples courants de graphes aléatoires :
1 [Erdõs and Rényi, 1959] : n sommets (fixés) ; la probabilité d’une
arête entre deux sommets est p pour toutes les paires.
2 [Albert and Barabási, 2002] : Modèle d’attachement préférentiel.
Les sommets sont ajoutés un à un et reliés aléatoirement aux
sommets préexistants avec une probabilité plus forte pour les
sommets à forts degrés.
3 [Molloy and Reed, 1995] : Modèle dans lequel la loi des degrés est
choisie à l’avance : on génère les degrés de chaque sommet selon
cette loi puis on apparie les sommets deux à deux aléatoirement en
respectant les degrés générés.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 12 / 25
29. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
30. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
Description des données : Réseau de régulation transcriptionnelle
modélisé par un graphe orienté dont
les sommets sont des opérons (groupes de gènes contigus qui sont
transcrit en ARNm simple) ;
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
31. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
Description des données : Réseau de régulation transcriptionnelle
modélisé par un graphe orienté dont
les sommets sont des opérons (groupes de gènes contigus qui sont
transcrit en ARNm simple) ;
les arêtes sont des interactions directes dans la transcription :
l’opérons i régule l’opérons j est modélisé par une arête du sommet i
vers le sommet j.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
32. Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.
Description des données : Réseau de régulation transcriptionnelle
modélisé par un graphe orienté dont
les sommets sont des opérons (groupes de gènes contigus qui sont
transcrit en ARNm simple) ;
les arêtes sont des interactions directes dans la transcription :
l’opérons i régule l’opérons j est modélisé par une arête du sommet i
vers le sommet j.
Le réseau initial est composé de 377 interactions pour 424 opérons avec
116 facteurs de transcription. Une recherche bibliographique intensive a
permis d’ajouter 35 facteurs d’interactions.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 13 / 25
33. But et méthodologie
But : Mettre en valeur des motifs exceptionnellement présents dans le
réseau.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 14 / 25
34. But et méthodologie
But : Mettre en valeur des motifs exceptionnellement présents dans le
réseau.
Méthodologie : On simule 1000 réseaux aléatoires ayant :
même nombre d’opérons (sommets) ;
même nombre d’interactions (arêtes) ;
mêmes degrés (entrant et sortant) des sommets ;
puis on compare la fréquence d’apparition d’un motif donné dans la réalité
et sur les 1000 graphes aléatoires.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 14 / 25
35. But et méthodologie
But : Mettre en valeur des motifs exceptionnellement présents dans le
réseau.
Méthodologie : On simule 1000 réseaux aléatoires ayant :
même nombre d’opérons (sommets) ;
même nombre d’interactions (arêtes) ;
mêmes degrés (entrant et sortant) des sommets ;
puis on compare la fréquence d’apparition d’un motif donné dans la réalité
et sur les 1000 graphes aléatoires.
Si un motif apparaît bien plus souvent dans le graphe réel qu’en moyenne
sur les 1000 graphes aléatoires, c’est qu’il a une signification biologique
(car il n’est pas le simple fait du hasard...).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 14 / 25
36. Motifs étudiés
1 Feedforward loop (boucle)
A B C
A régule B qui régule C et A régule directement C.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
37. Motifs étudiés
1 Feedforward loop (boucle)
A B C
A régule B qui régule C et A régule directement C. La boucle est dite
cohérente si l’effet direct de A sur C est dans le même sens que
l’effet indirect de A sur C. Sinon, la boucle est dite incohérente.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
38. Motifs étudiés
1 Feedforward loop (boucle)
2 SIM (groupe à entrée unique)
X
Z1 Z2 Z3 Zn
...
X régule un groupe de n (grand) opérons qui ne sont régulés que par
X ; X est souvent auto-régulé.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
39. Motifs étudiés
1 Feedforward loop (boucle)
2 SIM (groupe à entrée unique)
3 Paires d’opérons régulés par la même paire d’opérons
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
40. Motifs étudiés
1 Feedforward loop (boucle)
2 SIM (groupe à entrée unique)
3 Paires d’opérons régulés par la même paire d’opérons
4 DOR (régulations denses se chevauchant)
X1 X2 Xm
Z1 Z2 Z3 Zn
......
Groupes d’opérons régulés par un même groupe d’opérons dans
lequel le nombre d’arêtes est bien plus grand que dans un graphe
aléatoire de mêmes caractéristiques.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 15 / 25
41. Significativité de l’apparition des motifs
Motif Nombre d’apparitions p-value
Boucles cohérentes 34 < 0.001
Boucles incohérentes 6 ∼ 0.03
SIM (> 13 opérons) 68 < 0.01
Paires régulées par des paires 203 < 0.001
DOR NC < 0.001
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 16 / 25
43. Synthèse de quelques propriétés de structure des
réseaux biologiques
Référence : Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005)
Network thinking in ecology and evolution. Trends in Ecology and
Evolution, 20(6), 345-353.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 18 / 25
44. Quelques faits connus sur les réseaux d’interactions
de protéines
Beaucoup des motifs locaux existent depuis très longtemps
(persistance).
Les hubs sont plus fréquemment des protéines essentielles pour la
survie.
Les hubs sont plus fréquemment des protéines pléiotropes (plusieurs
fonctions ?).
Les hubs ont moins disparu au cours de l’évolution.
Les hubs sont faiblement connectés entre eux.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 19 / 25
45. Quelques faits connus sur les voies métaboliques
Elles sont très résistantes aux dommages.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 20 / 25
46. Quelques faits connus sur les réseaux de régulation
de gènes
Ils contiennent beaucoup de petits motifs locaux.
Ils sont robustes aux dommages (mutations, par exemples).
Les gènes régulés par beaucoup de gènes sont plus variables dans
leurs niveaux d’expression selon les conditions environnementales.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 21 / 25
47. Remise en cause des conclusions portées sur les
réseaux biologiques
Référence : Siegal M., Promislow D.E.L. and Bergman A. (2007)
Functional and evolutionary inference in gene networks : does topology
matter ? Genetica, 129, 83-103.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 22 / 25
48. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
49. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
50. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
51. Motifs, distribution des degrés
Les motifs n’ont pas la même signification selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
La distribution des degrés est rarement en loi de puissance mais en
loi de puissance tronquée (ndlr : effet de taille car on ne peut
observer une “vraie” loi de puissance sur un petit graphe).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 23 / 25
52. Hubs
Ce que l’on pense : Les hubs sont mortels si supprimés (la
proportion de protéines essentielles est 3 fois plus forte dans les hubs
et, inversement, les protéines essentielles ont un degré moyen plus
grand que les protéines non essentielles).
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 24 / 25
53. Hubs
Ce que l’on pense : Les hubs sont mortels si supprimés (la
proportion de protéines essentielles est 3 fois plus forte dans les hubs
et, inversement, les protéines essentielles ont un degré moyen plus
grand que les protéines non essentielles).
Mais : Si on regarde la variabilité de l’expression des gènes lorsqu’un
gène est supprimé, la corrélation est très faible entre le degré du
gène supprimé et la variabilité.
Et : Le degré explique seulement 1% de la variance dans le taux
d’évolution d’une protéine.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 24 / 25
54. Hubs
Ce que l’on pense : Les hubs sont mortels si supprimés (la
proportion de protéines essentielles est 3 fois plus forte dans les hubs
et, inversement, les protéines essentielles ont un degré moyen plus
grand que les protéines non essentielles).
Mais : Si on regarde la variabilité de l’expression des gènes lorsqu’un
gène est supprimé, la corrélation est très faible entre le degré du
gène supprimé et la variabilité.
Et : Le degré explique seulement 1% de la variance dans le taux
d’évolution d’une protéine.
L’article contient aussi des expériences faites sur des modèles de réseaux
d’interactions : non rapporté ici car loin de la réalité.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 24 / 25
55. Recherche de modules, classification de sommets
À SUIVRE...
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 25 / 25
56. Albert, R. and Barabási, A. (2002).
Statistical mechanics of complex networks.
Reviews of Modern Physics, 74 :47–97.
Dorogovtsev, S. and Mendes, J. (2003).
Evolution of Networks. From biological Nets to the Internet and WWW.
Oxford University Press.
Erdõs, P. and Rényi, A. (1959).
On random graphs. i.
Publicationes Mathematicae, 6 :290–297.
Molloy, M. and Reed, B. (1995).
A critical point for random graphs with a given degree sequence.
Random Structures and Algorithms, 6 :161–180.
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 25 / 25