Joaquín Dopazo
Computational Genomics Department,
Centro de Investigación Príncipe Felipe (CIPF),
Functional Genomics Node, (INB),
Bioinformatics in Rare Diseases (BiER-CIBERER),
Valencia, Spain.
Big data genómico
Presente y futuro en el manejo de datos genómicos en la práctica clínica
http://bioinfo.cipf.es
http://www.babelomics.org
@xdopazo
XXIII Jornadas Nacionales de Informática Sanitaria,
Málaga, 16 junio, 2016
La medicina de precisión (P4*) de basa en un mayor conocimiento
de las relaciones entre el genotipo y el fenotipo
Precisa de una forma mejor de definir las enfermedades
introduciendo tecnologías genómicas en los procedimientos
diagnósticos
*P4: Predictiva, Preventiva, Personalizada, Participativa
La transición a la medicina de precisión
Intuitiva y
basada en
ensayo y error
Reconocimiento
de patrones
probabilísticos
Decisiones y
acciones
basadas en el
conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
A pesar de la simplicidad de la Medicina Empírica, realmente
funciona: Los tratamientos personalizados aumentan la
supervivencia del paciente
Con exomas a 600-800€ y paneles a menos de 300€ los costes empiezan a ser
similares a los de otras pruebas clínicas
Mientras los costes se reducen, la cantidad de datos a manejar y su complejidad
crecen exponencialmente. La medicina se hace más computacional
Todo cambia con la aparición de las
nuevas tecnologías de secuenciación.http://www.genome.gov/sequencingcosts/
Los “1000 genomas” españoles
Iniciativa para secuenciar pacientes de
enfermedades raras
Enfermedades con:
• Genes desconocidos
• Genes conocidos/mutaciones descartadas
Búsqueda de:
• Nuevos genes
• Genes conocidos con genes modificadores desconocidos
• Genes de susceptibilidad
http://www.gbpa.es/
Producción de datos Plataformas de secuenciación Análisis de datos
Manejo, almacenamiento y análisis
de datos genómicos
http://www.gbpa.es/
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
Raw files
(FastQ)
DB
Analysis
Pipeline
Storage
K-DB
Gene 1 ksdhkahcka
Gene 2 jckacsksda
Gene 3 lkkxkccj<jdc
Gene 4 ksfdjvjvlsdkvjd
Gene 5 kckcksñdksd
Gene 6 ldkdkcksdcldl
Gene x kcdlkclkldsklk
Gene Y jcdksdkcdks
Informe de
priorización
Diálogo con expertos en la
enfermedad + validaciones
Samples
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
VCF BAM
Processed files
Descubrimiento de mutaciones y
genes por secuenciación exómica
En la iniciativa CIBERER se han encontrado nuevas 36 mutaciones en
genes asociados y 27 mutaciones en genes nuevos (13 genes).
WES
IRDs
arRP
(EYS)
BBS
arRParRP
(USH2)
3-MGA-
uria
(SERAC1)
NBD
(BCKDK )
Knowledge DB
Freq.popul.
MiSeq
IonTorrent
IonProton
Illumina
NO
Diagnostic
Therapeutic
decision
Newvariants
Disease
All
Candidate
Prioritization
Datapreprocessing
Sequence DB
Sequences
Freqs.
Future
Technologies
(e.g. nanopore)
New knowledge
for future
diagnostic
Desarrollo de un sistema completo para
diagnóstico y descubrimiento de genes
Se ha realizado un proyecto
piloto instalando el sistema
en el IT4I supercomputing
center, donde se centralizará
el análisis de datos
genómicos del país
Manejo de datos genómicos
escalable al tamaño de un país de 10M de habitantes
Implementación del sistema de gestión de
datos genómicos en el centro de
supercomputación IT4I (República Checa)
Medicina genómica: transición de la
medicina empírica a la de precisión
Test marcador
momogénico
Therapy 1
Medicina
empírica
basada en
biomarcadores
Therapia 1
Therapia 2
Therapia 3
Medicina genómica
+
El análisis genómico permite asociar
biomarcadores de pacientes al resultado
de las terapias y aplicar ese conocimiento
desde el principio ahorrando tiempo,
costes e incrementando el éxito de los
tratamientosfeedback
Therapy 2
Therapy 3
Test marcador
multigénico
Ensayo clínico Resultado
Medicina genómica.
Fase I: generación de la base de datos de conocimiento
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
Secuenciación
Paciente
Lista de
variantes
Database. Query
Terapia resultado
Retroalimentación
del sistema
Variantes genómicas (biomarcadores)
se asocian a diagnósticos precisos y al
resultado de terapias
Inicialmente el sistema va a
necesitar mucha
retroalimentación: Fase de
generación de conocimiento.
Crecimiento de la base de
datos de conocimiento
Medicina genómica
Knowledge
database
2011
Medicina genómica.
Fase II: aplicación de la base de datos de conocimiento
Paciente
1) Secuenciación
2) Base de datos de conocimiento
3) Sugerencia de terapia
Genomic core facility Fase II
El clínico recibe
recomendaciones
de tratamiento
basadas en
biomarcadores
+Otros factores
(riesgo, coste,
etc.)
Tratamiento
Análisis pre-sintomático:
• Diagnóstico temprano de enfermedades
genéticas
•Predisposición genética a enfermedades
adquiridas
Análisis sintomático
• Diagnóstico de enfermedades adquiridas
• Detección temprana de cáncer
• Recomendación de tratamientos
2011
Componente computacional de la medicina
genómica: Preparando el escenario para la introducción del
genoma en la práctica clínica
Paciente
Tratamiento
eHR
Técnicas de soporte de la
decisión: algoritmos que
relacionan biomarcadores
a tratamientos,
pronósticos, etc.
Integración
de datos en
el eHR
Presentación de los
datos al clínico:
listos para su
interpretación
Aceleración de
algoritmos de
procesamiento y
almacenamiento de
datos
feedback
Sistemas
corporativos
Orion clinic
Abucasis, Gaia,
etc.
?
SIP
Diagnostico + descubrimiento de
biomarcadores: una aproximación integral
Proyecto CIBERER con la colaboration de: La Paz, FJD, Ramón y Cajal, CBM
(Madrid), Virgen del Rocio (Sevilla), Hospital del Mar (Barcelona), HU La Fe
(Valencia)
http://team.babelomics.org
http://BiERapp.babelomics.org
Diagnóstico con NGS y
paneles virtuales
Variante diagnóstica
Hallazgos secundarios
Informe médicoGeneración de paneles virtuales http://team.babelomics.org
3-Methylglutaconic aciduria (3-
MGA-uria) is a heterogeneous
group of syndromes
characterized by an increased
excretion of 3-methylglutaconic
and 3-methylglutaric acids.
WES with a consecutive filter
approach is enough to detect
the new mutation in this case.
Heuristic Filtering approach
An example with 3-Methylglutaconic aciduria syndrome
Priorización de variantes
candidatas a causar enfermedad
Filtros para descartar
variantes candidatas por
- Impacto mutacional
- Segregación familiar
- Frecuencia poblacional
- Tipo de mutación
- Etc.
El efecto de la variación local
E1 E2 E3 E1 E3 E1 E2 E3 E1 E2
Control
Recurrencia
Hospital 1 Hospital 2 Hospital 3 Hospital 4
Y su uso sin
comprometer la
confidencialidad
de los datos
genómicos
Propuesta para integrar datos genómicos
dentro de un sistema sanitario
La integración de datos
genómicos en el sistema
sanitario es factible.
• Secuenciación para
diagnóstico (en el futuro
rutinaria)
• Trazabilidad de las
operaciones
• Almacenamiento basado
en OpenCGA (100KUK
project)
• Búsqueda de recurrencias
y uso de (pseudo)controles
• Medicina preventiva sobre
la base de datos de
pacientes
La transición a la medicina de precisión
Intuitiva y
basada en
ensayo y error
Reconocimiento
de patrones
probabilísticos
Decisiones y
acciones
basadas en el
conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
Grado de personalización
Aunque implementando prácticas de medicina genómica, aún estamos en la
era de la medicina empírica. Sin conocer la relación funcional entre el genotipo y
la enfermedad solo tenemos patrones probabilísticos más precisos
Future prospects:
Actionable models
The real advantage of models is that, the same way they can be used
to convert omics data into measurements of cell functionality that
provide information on disease mechanisms and drug MoA, they can
be used to test hypothesis such as “what if I suppress (or over-
express) this gen?” This lead to the concept of actionable models.
By simulating changes of gene expression/activity it is easy to:
• Direct study of the consequences of induced gene over-expressions
or KOs
• Reverse study of genes that need to be perturbed to change cell
functionalities, such as:
• Reverting the “normal” functional status of a cell
• Selectively kill diseased cells without affecting normal cells
• Enhancing or reducing cell functionalities (e.g., apoptosis or
proliferation, respectively, to fight cancer)
• Etc.
Actionable pathway models
KO in RAF1 geneDrugs that
target RAF1
Selected
drugs
extra
targets
Other
pathways
affected
by the KO
Specific
circuits
affected
Action
button
http://pathact.babelomics.org/
Precision personalized and individualized
treatments will soon be a reality
From: Dopazo, 2014, Genomics and transcriptomics in drug discovery. Drug Discovery Today
La transición a la medicina de precisión
Intuitiva y
basada en
ensayo y error
Reconocimiento
de patrones
probabilísticos
Decisiones y
acciones
basadas en el
conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
Grado de personalización
El uso de nuevos algoritmos que permitan hacer modelos que relacionen
funcionalmente el genotipo con la enfermedad o con los mecanismos de
acción de los fármacos permitirá una verdadera transición a la medicina de
precisión y a una mayor personalización de los tratamientos.
Software development at Computational
Genomics Department (CIPF)
See interactive map of for the last 24h use http://bioinfo.cipf.es/toolsusage
Babelomics is the third most cited tool
for functional analysis. Includes more
than 30 tools for advanced, systems-
biology based data analysis
More than 150.000 experiments were analyzed in our tools during the last year
HPC on CPU, SSE4,
GPUs on NGS data
processing
Speedups up to 40X
Genome maps is now part
of the ICGC data portal
Ultrafast
genome
viewer with
google
technology
Mapping
Visualization
Functional analysis
Variant annotation
CellBase Knowledge
database
Variant
prioritization
NGS
panels
Signaling network
Regulatory
network
Interaction
network
Diagnostic
Used in the
annotation of
GEL (UK100K)
Pilot
project in
seven
hospitals
The Computational Genomics Department at the Centro de
Investigación Príncipe Felipe (CIPF), Valencia, Spain, and…
...the INB, National Institute of Bioinformatics (Functional Genomics Node)
and the BiER (CIBERER Network of Centers for Research in Rare Diseases)
@xdopazo @bioinfocipfFollow us on twitter

Big data genomico

  • 1.
    Joaquín Dopazo Computational GenomicsDepartment, Centro de Investigación Príncipe Felipe (CIPF), Functional Genomics Node, (INB), Bioinformatics in Rare Diseases (BiER-CIBERER), Valencia, Spain. Big data genómico Presente y futuro en el manejo de datos genómicos en la práctica clínica http://bioinfo.cipf.es http://www.babelomics.org @xdopazo XXIII Jornadas Nacionales de Informática Sanitaria, Málaga, 16 junio, 2016
  • 2.
    La medicina deprecisión (P4*) de basa en un mayor conocimiento de las relaciones entre el genotipo y el fenotipo Precisa de una forma mejor de definir las enfermedades introduciendo tecnologías genómicas en los procedimientos diagnósticos *P4: Predictiva, Preventiva, Personalizada, Participativa La transición a la medicina de precisión Intuitiva y basada en ensayo y error Reconocimiento de patrones probabilísticos Decisiones y acciones basadas en el conocimiento Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4) Hoy Mañana Medicina genómica Biomarcadores moleculares
  • 3.
    A pesar dela simplicidad de la Medicina Empírica, realmente funciona: Los tratamientos personalizados aumentan la supervivencia del paciente
  • 4.
    Con exomas a600-800€ y paneles a menos de 300€ los costes empiezan a ser similares a los de otras pruebas clínicas Mientras los costes se reducen, la cantidad de datos a manejar y su complejidad crecen exponencialmente. La medicina se hace más computacional Todo cambia con la aparición de las nuevas tecnologías de secuenciación.http://www.genome.gov/sequencingcosts/
  • 5.
    Los “1000 genomas”españoles Iniciativa para secuenciar pacientes de enfermedades raras Enfermedades con: • Genes desconocidos • Genes conocidos/mutaciones descartadas Búsqueda de: • Nuevos genes • Genes conocidos con genes modificadores desconocidos • Genes de susceptibilidad http://www.gbpa.es/ Producción de datos Plataformas de secuenciación Análisis de datos
  • 6.
    Manejo, almacenamiento yanálisis de datos genómicos http://www.gbpa.es/ GCGTATAGCA CGGGTATCTGT ATTATGGTGG ATATCAGCGG ATTGCGATTG GCAGAGCGGC AAAGT GCGTATAGCA CGGGTATCTGT ATTATGGTGG ATATCAGCGG ATTGCGATTG GCAGAGCGGC AAAGT GCGTATAGCA CGGGTATCTGT ATTATGGTGG ATATCAGCGG ATTGCGATTG GCAGAGCGGC AAAGT GCGTATAGCA CGGGTATCTGT ATTATGGTGG ATATCAGCGG ATTGCGATTG GCAGAGCGGC AAAGT Raw files (FastQ) DB Analysis Pipeline Storage K-DB Gene 1 ksdhkahcka Gene 2 jckacsksda Gene 3 lkkxkccj<jdc Gene 4 ksfdjvjvlsdkvjd Gene 5 kckcksñdksd Gene 6 ldkdkcksdcldl Gene x kcdlkclkldsklk Gene Y jcdksdkcdks Informe de priorización Diálogo con expertos en la enfermedad + validaciones Samples GCGTATAGCA CGGGTATCTGT ATTATGGTGG ATATCAGCGG GCGTATAGCA CGGGTATCTGT ATTATGGTGG ATATCAGCGG VCF BAM Processed files
  • 7.
    Descubrimiento de mutacionesy genes por secuenciación exómica En la iniciativa CIBERER se han encontrado nuevas 36 mutaciones en genes asociados y 27 mutaciones en genes nuevos (13 genes). WES IRDs arRP (EYS) BBS arRParRP (USH2) 3-MGA- uria (SERAC1) NBD (BCKDK )
  • 8.
  • 9.
    Se ha realizadoun proyecto piloto instalando el sistema en el IT4I supercomputing center, donde se centralizará el análisis de datos genómicos del país Manejo de datos genómicos escalable al tamaño de un país de 10M de habitantes Implementación del sistema de gestión de datos genómicos en el centro de supercomputación IT4I (República Checa)
  • 10.
    Medicina genómica: transiciónde la medicina empírica a la de precisión Test marcador momogénico Therapy 1 Medicina empírica basada en biomarcadores Therapia 1 Therapia 2 Therapia 3 Medicina genómica + El análisis genómico permite asociar biomarcadores de pacientes al resultado de las terapias y aplicar ese conocimiento desde el principio ahorrando tiempo, costes e incrementando el éxito de los tratamientosfeedback Therapy 2 Therapy 3 Test marcador multigénico Ensayo clínico Resultado
  • 11.
    Medicina genómica. Fase I:generación de la base de datos de conocimiento ----- ----- ----- ----- ----- ----- ----- ----- ----- ----- ----- ----- ----- ----- Secuenciación Paciente Lista de variantes Database. Query Terapia resultado Retroalimentación del sistema Variantes genómicas (biomarcadores) se asocian a diagnósticos precisos y al resultado de terapias Inicialmente el sistema va a necesitar mucha retroalimentación: Fase de generación de conocimiento. Crecimiento de la base de datos de conocimiento Medicina genómica Knowledge database 2011
  • 12.
    Medicina genómica. Fase II:aplicación de la base de datos de conocimiento Paciente 1) Secuenciación 2) Base de datos de conocimiento 3) Sugerencia de terapia Genomic core facility Fase II El clínico recibe recomendaciones de tratamiento basadas en biomarcadores +Otros factores (riesgo, coste, etc.) Tratamiento Análisis pre-sintomático: • Diagnóstico temprano de enfermedades genéticas •Predisposición genética a enfermedades adquiridas Análisis sintomático • Diagnóstico de enfermedades adquiridas • Detección temprana de cáncer • Recomendación de tratamientos 2011
  • 13.
    Componente computacional dela medicina genómica: Preparando el escenario para la introducción del genoma en la práctica clínica Paciente Tratamiento eHR Técnicas de soporte de la decisión: algoritmos que relacionan biomarcadores a tratamientos, pronósticos, etc. Integración de datos en el eHR Presentación de los datos al clínico: listos para su interpretación Aceleración de algoritmos de procesamiento y almacenamiento de datos feedback Sistemas corporativos Orion clinic Abucasis, Gaia, etc.
  • 14.
    ? SIP Diagnostico + descubrimientode biomarcadores: una aproximación integral Proyecto CIBERER con la colaboration de: La Paz, FJD, Ramón y Cajal, CBM (Madrid), Virgen del Rocio (Sevilla), Hospital del Mar (Barcelona), HU La Fe (Valencia) http://team.babelomics.org http://BiERapp.babelomics.org
  • 15.
    Diagnóstico con NGSy paneles virtuales Variante diagnóstica Hallazgos secundarios Informe médicoGeneración de paneles virtuales http://team.babelomics.org
  • 16.
    3-Methylglutaconic aciduria (3- MGA-uria)is a heterogeneous group of syndromes characterized by an increased excretion of 3-methylglutaconic and 3-methylglutaric acids. WES with a consecutive filter approach is enough to detect the new mutation in this case. Heuristic Filtering approach An example with 3-Methylglutaconic aciduria syndrome
  • 17.
    Priorización de variantes candidatasa causar enfermedad Filtros para descartar variantes candidatas por - Impacto mutacional - Segregación familiar - Frecuencia poblacional - Tipo de mutación - Etc.
  • 18.
    El efecto dela variación local E1 E2 E3 E1 E3 E1 E2 E3 E1 E2 Control Recurrencia Hospital 1 Hospital 2 Hospital 3 Hospital 4 Y su uso sin comprometer la confidencialidad de los datos genómicos
  • 19.
    Propuesta para integrardatos genómicos dentro de un sistema sanitario La integración de datos genómicos en el sistema sanitario es factible. • Secuenciación para diagnóstico (en el futuro rutinaria) • Trazabilidad de las operaciones • Almacenamiento basado en OpenCGA (100KUK project) • Búsqueda de recurrencias y uso de (pseudo)controles • Medicina preventiva sobre la base de datos de pacientes
  • 20.
    La transición ala medicina de precisión Intuitiva y basada en ensayo y error Reconocimiento de patrones probabilísticos Decisiones y acciones basadas en el conocimiento Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4) Hoy Mañana Medicina genómica Biomarcadores moleculares Grado de personalización Aunque implementando prácticas de medicina genómica, aún estamos en la era de la medicina empírica. Sin conocer la relación funcional entre el genotipo y la enfermedad solo tenemos patrones probabilísticos más precisos
  • 21.
    Future prospects: Actionable models Thereal advantage of models is that, the same way they can be used to convert omics data into measurements of cell functionality that provide information on disease mechanisms and drug MoA, they can be used to test hypothesis such as “what if I suppress (or over- express) this gen?” This lead to the concept of actionable models. By simulating changes of gene expression/activity it is easy to: • Direct study of the consequences of induced gene over-expressions or KOs • Reverse study of genes that need to be perturbed to change cell functionalities, such as: • Reverting the “normal” functional status of a cell • Selectively kill diseased cells without affecting normal cells • Enhancing or reducing cell functionalities (e.g., apoptosis or proliferation, respectively, to fight cancer) • Etc.
  • 22.
    Actionable pathway models KOin RAF1 geneDrugs that target RAF1 Selected drugs extra targets Other pathways affected by the KO Specific circuits affected Action button http://pathact.babelomics.org/
  • 23.
    Precision personalized andindividualized treatments will soon be a reality From: Dopazo, 2014, Genomics and transcriptomics in drug discovery. Drug Discovery Today
  • 24.
    La transición ala medicina de precisión Intuitiva y basada en ensayo y error Reconocimiento de patrones probabilísticos Decisiones y acciones basadas en el conocimiento Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4) Hoy Mañana Medicina genómica Biomarcadores moleculares Grado de personalización El uso de nuevos algoritmos que permitan hacer modelos que relacionen funcionalmente el genotipo con la enfermedad o con los mecanismos de acción de los fármacos permitirá una verdadera transición a la medicina de precisión y a una mayor personalización de los tratamientos.
  • 25.
    Software development atComputational Genomics Department (CIPF) See interactive map of for the last 24h use http://bioinfo.cipf.es/toolsusage Babelomics is the third most cited tool for functional analysis. Includes more than 30 tools for advanced, systems- biology based data analysis More than 150.000 experiments were analyzed in our tools during the last year HPC on CPU, SSE4, GPUs on NGS data processing Speedups up to 40X Genome maps is now part of the ICGC data portal Ultrafast genome viewer with google technology Mapping Visualization Functional analysis Variant annotation CellBase Knowledge database Variant prioritization NGS panels Signaling network Regulatory network Interaction network Diagnostic Used in the annotation of GEL (UK100K) Pilot project in seven hospitals
  • 26.
    The Computational GenomicsDepartment at the Centro de Investigación Príncipe Felipe (CIPF), Valencia, Spain, and… ...the INB, National Institute of Bioinformatics (Functional Genomics Node) and the BiER (CIBERER Network of Centers for Research in Rare Diseases) @xdopazo @bioinfocipfFollow us on twitter