1. Un outil pour l’int´egration, l’exploration, et
l’´evaluation des donn´ees r´esultats issus de
diff´erents protocoles d’analyse ´epistatique
Debit Ahmed
Universit´e de Li`ege
Bioinformatique et Mod´elisation
27 Oct 2015
2. Outline
Les ´etudes d’associations `a l’´echelle g´enomique GWAS
Workflow d’un protocol GWAS
Le catalogue GWAS
Des ´etudes GWAs aux ´etudes GWAIs
Les ´etudes d’interactions `a l’´echelle g´enomique GWAIs
Le myst`ere de l’h´eritabilit´e manquante ’Missing heritability”
L’Epistasie
D´etection de l’´epistasie
Projet de recherche
Probl´ematique trait´ee
Objectifs de la recherche
Projet de recherche
Perspectives `a long terme
5. Le catalogue GWAS
En 2008, le premier catalogue exhaustif compil´e, pr`es de 200 SNPs
sont associ´es aux traits. Aujourd’hui, le catalogue a collect´e plus
de 1900 papiers, reportant plus de 14000 SNPs significativement
associ´es `a plus de 1500 traits [Welter et al. 2014].
6. Des ´etudes GWAS aux ´etudes GWAI [K. Van Steen, Feb
2013]
La complexit´e de la g´en´etique des maladies complexes peut
largement ˆetre attribu´ee au ph´enom`ene de l’´epistasie ou
l’interaction g`ene-g`ene.
Les interactions g`ene-g`ene est l’une des particularit´es des
maladies g´en´etiques complexes.
L’effet d’un locus donn´e est alt´er´e ou masqu´e par l’effet d’un
autre locus, alors la capacit´e de d´etection du premier loci sera
r´eduite
L’´elucidation de la combination des effets ind´ependants de ces
deux loci sera entrav´ee par leur interaction.
8. Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
La grande partie de l’h´eritabilit´e d’un trait ne peut ˆetre
expliqu´ee par les loci/variants (pris individuellement) associ´es
au trait d’int´erˆet. O`u peut-on trouver cette h´eritabilit´e
manquante ?
Le probl`eme de l’h´eritabilit´e manquante: les g`enes pris
individuellement ne peuvent pas expliquer l’h´eritabilit´e d’un
trait.
9. Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
10. Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
La proportion de l’h´eritabilt´e expliqu´ee par un ensemble de
variants est donn´ee par le ratio suivant:
πexplained =
h2
known
h2
all
hknown: num´erateur (h´eritabilit´e due `a ces variants) estim´ee
directement `a partir de leurs effets observ´es (effets additifs des
variants connus)
hall : d´enominateur (h´eritabilit´e inf´er´ee indirectement `a partir
des donn´ees sur la population ´etudi´ee, proportion de la
variance ph´enotypique attribuable aux effets additifs de tous
les variants, incluant ceux qui ne sont pas encore d´ecouverts)
11. Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
La surestimation de l’h´eritabilit´e totale (d´enominateur), et du
coup sous-estimer l’h´eritabilit´e expliqu´ee peut ˆetre d´erri`ere
cette ”h´eritabilit´e phantome”
Par exemple, 80% de l’h´eritabilit´e manquante actuelle de la
maladie de Crohn peut ˆetre due aux interactions g´en´etiques.
Comment expliquer ce probl`eme ?
Variants rares, CNVs rares, Facteurs ´epig´en´etiques, ou.. effets
´epistatiques?
12. Epistasie: D´efinition
L’´epistasie est g´en´eralement d´efinie comme l’interaction impliquant
2 loci (g`enes) ou plus par rapport `a un ph´enotype d’int´erˆet. En
d’autres termes, si l’effet d’un g`ene particulier est modul´e par un
autre g`ene, dans ce c`as on peut dire qu’une interaction ´epistatique
a eu lieu entre ces deux g`enes [Hyunghoon Cho, 2012].
Epistasie biologique: fait r´ef´erence `a l’action des g`enes les uns
des autres.
Epistasie statistique: fait r´eference aux composantes de la
variance g´en´etique dans le cas incluant les interactions
´epistatiques:
VarG´en´etique = VarAdditif + VarDominant + VarInteractions
14. Objectifs de la d´etection de l’´epistasie
Trouver des interactions “pairwise”significatives dans le cadre
d’une maladie donn´ee.
D´eterminer l’action d’un g`ene ´epistatique dans le contexte
d’une maladie humaine am´eliorera notre compr´ehension sur les
syst`emes biologiques qui sous-tendent la variation du risque de
maladie ainsi que d’augmenter la pr´ecision de la pr´ediction du
risque [Makay and Moore, 2014].
Les connaissances concernant l’action des g`enes ´epistatiques
sont tr`es importantes dans la dissection de la carte
g´enotype-ph´enotype pour les traits et les maladies complexes
dans le cadre de la g´en´etique humaine (human genetic).
15. Les protocoles de d´etection de l’´epistasie [Jestinah M.
2012]
Toutes les m´ethodes de d´etection de l’´epistasie peuvent ˆetre
class´ees en trois cat´egories. Cette classification est bas´ee sur la
strat´egie de recherche adopt´ee, i.e recherche exhaustive,
recherche stochastique, et recherche heuristique.
18. Probl´ematique
Plusieurs strat´egies pour la d´etection des interactions ´epistatiques
⇒ H´et´erog´eneit´e dans les r´esultats.
⇒ Ciblent diff´erentes architectures g´en´etiques.
Comment examiner les diff´erents r´esultats issus des diff´erentes
techniques de l’analyse de l’´epistasie (interpr´etation), et combiner
le meilleur de chaque technique lors du balayage du g´enome ?
19. Objectifs de la recherche
- L’objectif principal de ce projet est le d´eveloppement d’un outil
hybride capable de combiner et d’explorer les diff´erentes donn´ees
r´esultats issues de diff´erents techniques d’analyse ´epistatique.
- On opte pour l’utilisation de la mod´elisation par les r´eseaux
d’interaction (th´eorie des graphes, matrice de similarit´e, fusion de
r´eseaux de similarit´e SNF, autres m´ethodes) des diff´erents r´esultats
obtenus pour chaque strat´egie choisie.
20. Objectifs de la recherche
L’outil `a d´evelopper nous permet entre autre de:
Mod´eliser chaque r´esultat issu d’un protocol d’analyse inclus
dans l’´etude sous format matriciel (SNPxSNP) ⇒ Mieux
visualiser les patterns des interactions ´epistatiques de chaque
technique.
Conversion de la matrice en un r´eseau d’interactions (SNPs =
noeuds, interaction = arˆete, puissance d’interaction = largeur
de l’arˆete) ⇒ ´elucider les interactions, formation de clusters,
...
Combiner tous les r´eseaux obtenus afin de construire un seul
r´eseau consensus d’interactions (un r´eseau de convergence) ⇒
contribution de chaque protocol d’analyse.
21. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
Plusieurs m´ethodes de d´etection/analyse de l’´epistasie.
Peu d’´etudes consacr´ees `a leur comparaison !
Peu d’´etudes consacr´ees `a leur classification !
Pas d’´etudes consacr´ees `a leurs combination et leurs
integration en un seul framework !!!
22. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
Comparaison et ´evaluation de 5 m´ethodes: TEAM, BOOST,
SNPRuler, AntEpiSeeker et epiMODE sur la base de: puissance de
d´etection, sensibilit´e (sensitivity), complexit´e de calcul
23. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
Comparaison empirique de 5 m´ethodes: TEAM, BOOST,
SNPHarvester, SNPRuler, et Screen and Clean (SC) bas´ee sur:
capacit´e de d´etection, type I error-rate, scalability, Completeness
24. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
L’´evaluation est bas´ee
sur: Le nombre
de paires de SNPs
chevauchant, distance
entre protocoles, influ-
ence de la MAF sur
le r´esultat de l’analyse
⇒ d´emonstration
empirique: Simple
changement dans le
protocol d’analyse ⇒
h´et´erog´eneit´e dans les
r´esultats des ´etudes
GWAI
25. Projet de recherche
Combiner et explorer diff´erentes donn´ees r´esultant de
plusieurs analyses:
A notre connaissance, aucun travail sur l’exploration et la
combinaison des diff´erents r´esultats issus des differentes m´ethodes
n’a ´et´e fait. Le projet propos´e s’inscrit dans ce contexte, et
constitue une tentative d’aborder ce probl`eme.
27. Projet de recherche -D´emarches-
D´emarches: Les grandes lignes du projet propos´e incluent entre
autres:
R´ecup´eration des donn´ees de simulation Case/Control `a partir
de la source WTCCC (wtccc.org.uk)
Choix des protocols `a inclure dans l’´etude (puissance de
d´etection, temps d’ex´ecution, disponibilit´e de software,
r´eecriture du code, ...)
R´ealiser l’analyse de l’´epistasie pour chaque protocol en
incluant les pr´e-traitement des donn´ees (Quality control)
Mod´elisation de chaque r´esultat issu de chaque protocol
(matrice, r´eseau)
Combiner les r´eseaux entre eux ⇒ R´esultat consensus
Impl´ementation de l’outil pour l’´evaluation des r´esultats
obtenus (overlaps, diff´erences).
28. Projet de recherche -Environnement de travail-
Ce projet sera r´ealis´e en collaboration entre:
Unit´e de G´en´etique Statistique et Bioinformatique (Institut
Montefiore) de l’universit´e de Li`ege (Prof. Van Steen)
Centre de Biologie Computationnelle (CBIO -
http://cbio.ensmp.fr), un laboratoire commun entre l’Ecole
d’ing´enieur Mines ParisTech et l’institut Curie (Paris) (Dr.
Chlo´e Azencott).
29. Projet de recherche -Environnement de travail-
- Domaines de recherche dans l’unit´e G´en´etique Statistique
(ULg):
Caract´erisation patient / population (stratification) →
[Kridsadakorn Chaichoompu, Ramouna Fouladi]
Interactions: GWAIs, Techniques de d´etection de l’´epistasie
→ [Dr. Elena Gusareva]
D´eveloppement d’algorithmes de d´etection de l’´epistasie →
[Fran¸cois Van Lishout]
Integromics: combiner de multiples donn´ees omics → [K.
Bessonov].
30. Projet de recherche -Environnement de travail-
Le CBIO b´en´eficie d’un exceptionnel environnement scientifique
avec un acc`es imm´ediat aux experts et collaborateurs dans la
biologie et la m´edecine, permettant un travail et un ´echange
multidisciplinaire.
- Domaines de recherche dans l’unit´e au sein du CBIO:
Analyse des donn´ees biologiques et application en m´edecine
personnalis´ee.
Analyse et reconstruction des r´eseaux de g`enes.
Int´egration des donn´ees g´enomiques avec les r´eseaux de g`enes.
Algorithmes en apprentissage statistique.
31. Projet de recherche -Facilit´es techniques-
NIC3 Cluster (ULg) est un serveur de calcul parall`ele destin´e
aux calculs num´eriques intensifs. Ce cluster est constitu´e de
208 noeuds(serveurs). Chaque serveur a deux processeurs
quadcore de 2.5 GHZ. 2/3 des serveurs ont 16GB de m´emoire
RAM, et 1/3 ont 32GB. Cel`a donne 416 processeurs/CPUs et
1664 coeurs.
GIGA-R qui est un institut de recherche biom´edical
interdisciplinaire dispose ´egalement d’infrastructure IT pour le
stockage massif de donn´ees, puissance de calcul,
d´eveloppemnt software, et recherches bioinformatiques.
32. Impact sur la m´edecine de pr´ecision (precision medicine)
La d´etection, la caract´erisation, et l’interpr´etation des interactions
g`ene-g`ene sont pr´emordiales `a l’am´elioration du diagnostique, la
pr´evention et le traitement des maladies humaines complexes. On
attend `a ce que notre outil peut atteindre cet objectif quant `a son
utilisation appropri´ee.