2. APLICACIONES DE LAS TECNOLOGÍAS DE NGS
UAT
1. ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO
AMPLICONES
2. ESTUDIOS DE METAGENÓMICA
3. SECUENCIACIÓN DE GENOMAS COMPLETOS
4. RNAseq
5. ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
3. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
UTILIZANDO AMPLICONES. UAT
HCV, HBV, HIV virus populations has special characteristics:
In an infected patient the population of viruses presents high
rates of mutation and replication. It is a complex mixing of
different mutants.
Goal of the study:
Detection and quantification of mutations or combination of
mutations that could confer resistance to viral inhibitors in
samples from infected patients.
Special interest in mutations at a low rate (minor variants).
4. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
UTILIZANDO AMPLICONES. UAT
WHY IS NGS APPROPIATED FOR THIS KIND OF STUDY?
Minor variants often play an important role in the development of resistance
to antiviral treatments in patients, even if they are present in a very low
percentage in the population.
Minor variants may not be detected by classical sequencing methods
You obtain hundreds of sequences with much effort and high cost
NextGen sequencing allow to detect efficiently variants at a very low rate
You obtain thousands of sequences with relatively low cost
5. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
UTILIZANDO AMPLICONES. UAT
VENTAJAS DE LA NGS
Para poder detectar variantes poco frecuentes es necesario hacer una cantidad ingente de
secuenciación Sanger → las técnicas de NGS generan un número muy alto de secuencias en
paralelo con menos esfuerzo y menos coste por secuencia.
La secuenciación de amplicones permite la “multiplexación”: secuenciación simultánea de muchas
muestras añadiendo a cada amplicón una etiqueta (MID) para poder identificarlo.
Rendimiento medio de la carrera: 700.000 secuencias, 450.000 bases
Longitud del amplicón a secuenciar: 450 pb
50 pacientes (cada uno con un MID)
Total a secuenciar = 450 pb/amplicón * 50 amplicones = 22.500 pb
Cobertura media por paciente = 450.000 / 22.500 = 20x (20 lecturas del mismo amplicón)
Nº secuencias por paciente = 14.000
¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?
454 (Roche GS FLX/GS Junior)
Las lecturas largas (hasta 600 pb) permiten identificar de forma inequívoca varias mutaciones
presentes en un mismo amplicón. De hecho, este tipo de estudios no puede hacerse con otras
plataformas que generen secuencias más cortas que necesiten ser ensambladas.
6. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
UTILIZANDO AMPLICONES. UAT
1. Diseño experimental apropiado: variables (n, controles, tratamientos, tiempos....)
2. Obtención de muestras de suero de pacientes infectados y tratados en las diferentes
condiciones a incluir en el estudio.
3. Generación de la librería de amplicones. El amplicón debe contener las regiones susceptibles
de contener las mutaciones de interés, más la secuencia del MID (si se hace “multiplex”) y las
secuencias “clave” y “adaptadora”. La secuenciación es bidireccional.
HBV polymerase (P) and surface (S) ORFs
anillamiento de beads de captura, cebadores de emPCR y de secuenciación
“clave” para la pirosecuenciación (TCAG para amplicones)
7. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
UTILIZANDO AMPLICONES. UAT
Ultra-Deep Pyrosequencing Detects Conserved Genomic Sites and Quantifies Linkage of
Drug-Resistant Amino Acid Changes in the Hepatitis B Virus Genome
PLoS One, Rodríguez-Frías et al., 2012
• UDPS detected minor variants comprising less than 0.1% of the HBV viral quasispecies
• Identification of mutations in extremely low percentages with an acceptable degree of confidence is
limited by:
-the number of independent template molecules obtained from the sample analyzed
-the coverage or number of reads obtained per base
-the number of artifactual errors generated during PCR amplification and pyrosequencing
• For these reasons, all the samples selected for the current study carried a high HBV viral load
(>105 IU/mL) and the high-fidelity DNA polymerase Pfu turbo was used to bypass the artifactual errors.
With this approach, variants comprising as little as 0.03% of the HBV quasispecies could be detected.
8. 2 ESTUDIOS DE METAGENÓMICA.
UAT
Metagenomics is the study of a collection of genetic material (genomes) from a mixed community of
organisms. Metagenomics usually refers to the study of microbial communities.
•The biosphere contains between 1030 and 1031 microbial genomes, at least 2–3 orders of magnitude
more than the number of plant and animal cells combined.
•Microbes associated with the human body outnumber human cells by at least a factor of ten.
•The vast majority cannot be cultured.
What can we study?
9. 2 ESTUDIOS DE METAGENÓMICA.
UAT
Unidirectional sequencing
(16S rRNA)
The 16S rRNA gene is comprised of highly conserved regions interspersed with more variable regions, allowing
PCR primers to be designed that are complementary to universally conserved regions flanking variable regions.
Wu et al. BMC Microbiol. 2010; 10: 206.
10. 2 ESTUDIOS DE METAGENÓMICA.
UAT
Shotgun: ¿qué organismos hay y cómo funciona la comunidad? ¿variaciones en
respuesta a modificaciones ambientales, p.ej, contaminación?
Aplicaciones:
-identificación y clasificación taxonómica de microorganismos presentes
-ensamblaje de genomas
-predicción y anotación de genes, estudio funcional
-comparación de múltiples muestras
Inconvenientes:
-los organismos más abundantes son los más ampliamente representados en la
secuenciación, enmascarando los menos abundantes
-necesidad de cobertura alta para encontrar microorganismos poco abundantes →
caro
Amplicones 16S rRNA: identificación de microorganismos presentes en la
muestra (estudio taxonómico).
Inconvenientes:
-es posible que la región estudiada no permita asignar una secuencia de forma
inequívoca
-generación de quimeras durante la amplificación, que hay que eliminar durante el
análisis bioinformático
11. 2 ESTUDIOS DE METAGENÓMICA.
UAT
VENTAJAS DE LA NGS
-Secuenciación directa de muestras (la mayoría de los microorganismos no pueden
ser cultivados). Muchas comunidades de muestras bacterianas no cultivadas se han
estudiado mediante Sanger para determinar las secuencias 16SrRNA.
-Las técnicas de NGS permiten obtener un número muy alto de secuencias en
paralelo, lo que permite obtener una representación de la diversidad microbiana
presente en la muestra con menor esfuerzo que usando secuenciación Sanger.
¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?
454 (Roche GS FLX/GS Junior)
With the recently capability to sequence >400 nt, it will be possible to span most
hypervariable regions, multiple adjacent hypervariable regions, or possibly
combinations of non-adjacent hypervariable regions through paired-end sequencing
strategies (Huse et al., PLoS Genetics 2008)
12. 2 ESTUDIOS DE METAGENÓMICA.
UAT
Sampling and pyrosequencing methods for characterizing bacterial communities in the
human gut using 16S sequence tags.
Wu et al. BMC Microbiol. 2010; 10: 206.
This is a study of methods for surveying bacterial communities in human feces using 454/Roche pyrosequencing
of 16S rRNA gene tags.
Comparison of different methods of sample storage (no effect), DNA extraction and purification (great effect), set
of primers for amplification of several variable regions (effect) and GS FLX vs. GS FLX Titanium sequencing (no
effect).
We did find that the choice of 16S rRNA gene
region used for analysis had a noticeable effect,
with the V6-V9 region representing an outlier.
The V6-V9 primers consistently showed the lowest
percentage of taxonomic assignments at the genus
level.
We note that our choice of V6-V9 primer and
sequencing direction did not cover the V6 regions
efficiently.
Composition of the gut microbiome in the ten subjects studied.
13. 2 ESTUDIOS DE METAGENÓMICA.
UAT
NIH Human Microbiome Project
14. 2 ESTUDIOS DE METAGENÓMICA.
UAT
•To establish associations
between the genes of the
human intestinal microbiota
and our health and disease.
• Focused on two disorders
of increasing importance in
Europe, Inflammatory Bowel
Disease (IBD) and obesity.
15. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
¿Cómo se secuencia un genoma completo?
Caso A: no existe un genoma de referencia (secuenciación “de novo”)
Caso B: existe un genoma de referencia (resecuenciación)
16. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
Secuenciación “de novo” (por ejemplo, bacterias, plantas....):
1) GS FLX de Roche, usando librerías de PE+librerías de shotgun: “andamio” con baja cobertura
2) Illumina o SOLiD: secuenciación con cobertura alta
3) “Rellenar huecos” mediante secuenciación Sanger
4) Análisis bioninformático (ensamblaje, anotación funcional, búsqueda de variantes, etc.)
5) Validación mediante tecnologías complementarias (ej. arrays de SNPs)
2 2
1
3 3
4
17. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
DNA genómico de alto peso molecular
500 ng mínimo 15 µg
Resecuenciación
Secuenciación de novo
18. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
Performance comparison of benchtop high-troughput sequencing platforms.
Nat. Biotechn. 30 (5): 434-441 (2012)
Secuenciación de la cepa bacteriana E. coli O104:H4 con GS Junior, MiSeq,
PGM.
1. Creación de un ensamblaje de referencia (Roche GS FLX+ shotgun + 8 Kb
PE, coverage 32x). Contiene 1 cromosoma (5.3 kb) y 2 plásmidos. Quedan
153 gaps correspondientes a regiones repetitivas sin resolver.
2. Secuenciación de la misma cepa usando:
• 2 runs del 454 GS Junior
• 2 chips 316 del Ion Torrent PGM
• 1 run del MiSeq (2x150 bases)
19. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
Performance comparison of benchtop high-troughput sequencing platforms.
Nat. Biotechn. 30 (5): 434-441 (2012)
Conclusions: “One important conclusion from this evaluation is that saying that one has
“sequenced a bacterial genome” means different things on different benchtop sequencing
platforms”
MiSeq GS Junior IonTorrent
Throughput/run The highest The lowest The fastest
Errors The lowest Intermediate(indels) Many, specially in
homopolymers
Read length Intermediate The longest (520 bp) The shortest (100bp)
(2x150bp)
Run time The longest (27 Intermediate (9 hr) The shortest (3 hr)
hr)
Price per Mb The cheapest The most expensive Intermediate
Other Unfillable gaps Errors in homopolymers The worstest
considerations performance
20. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
Resecuenciación, por ejemplo de genomas humanos:
1) Secuenciación:
• Illumina o SOLiD: recomendados por su rendimiento elevado (en Gb de secuencia obtenidos),
precio por secuencia bajo. Tiempo de carrera largo.
• Roche: no recomendado por su rendimiento medio-bajo y por su elevado coste (sólo es abordable
para genomas pequeños, p.ej. microbianos). Tiempo de carrera corto.
•Ion Proton: recomendado por su rendimiento medio-alto (previsto hasta 10 Gb), precio por
secuencia bajo, tiempo de carrera corto. Rápidos avances en la tecnología.
2) “Rellenar huecos” mediante secuenciación Sanger.
3) Análisis bioinformático (ensamblaje, anotación funcional, variantes....)
4) Validación mediante tecnologías complementarias
21. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
• La pequeña fracción del genoma con variaciones entre los individuos puede explicar diferencias en la
susceptibilidad a una enfermedad, en la respuesta a fármacos o en la reacción a factores ambientales. El
“Proyecto de los 1000 genomas” tratará de establecer un mapa del genoma humano que incluya la descripción de
la mayor cantidad posible de variaciones en el mismo, mejorando de forma espectacular la información obtenida
con el proyecto HapMap.
• El proyecto se realiza con el soporte principal de tres instituciones: el Wellcome Trust Sanger Institute (Hinxton,
Inglaterra), el Beijing Genomics Institute (Shenzen, China) y el National Human Genome Research Institute, que
forma parte del NIH (National Institutes of Health, USA).
22. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
Methods:
1-Low coverage (5x) sequencing: SOLiD+Illumina
2-Whole exome sequencing (80× average coverage across a consensus target of 24 Mb spanning more than 15,000
genes)): SeqCap EZHuman Exome Library, Nimblegen, and SureSelect All Exon V2 Target Enrichment kit from Agilent.
3-SNP genotyping: Initially all samples were typed using a Sequenom MassArray SNP Genotyping panel of 23 SNPs and
one gender determining assay to establish a genetic fingerprint. After gender concordance was verified the samples were
placed on 96 well plates using the llumina HumanOmni2.5OQuad v1.0 B SNP array.
23. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
El proyecto publicará el genotipo de los
voluntarios, junto con información detallada de su
fenotipo: registros médicos, varios análisis,
imágenes RM, etc. Toda la información estará
disponible para cualquiera en Internet, para que
investigadores puedan probar varias hipótesis
acerca de las relaciones entre el genotipo, el
ambiente y el fenotipo.
25. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
What is ClinVar?
The goal of ClinVar is to provide a freely accessible, public archive of reports of the relationships among human
variations and phenotypes along with supporting evidence. By so doing, ClinVar will facilitate access to and
communication about the relationships asserted between human variation and observed health status.
ClinVar collects reports of variants found in patient samples, assertions made regarding their clinical significance,
information about the submitter, and other supporting data. The alleles described in the submissions are mapped to
reference sequences, and reported according to the HGVS standard.
26. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT
¿Cuánto cuesta secuenciar un genoma humano completo?
(human-sized genome: 3 Gb)
1ª generación 2ª generación 1ª generación 2ª generación
COSTS include:
•Labor, administration, management, utilities, reagents, and consumables
•Sequencing instruments and other large equipment (amortized over three years)
•Informatics activities directly related to sequence production
•Shotgun library construction (required for preparing DNA to be sequenced)
•Submission of data to a public database
•Indirect Costs
‘Sequence coverage' values used in calculating the cost per genome:
• Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage
• 454 sequencing (average read length=300-400 bases): 10-fold coverage
resequencing projects
• Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage
28. 4 RNAseq
UAT
¿Cuál es el material de partida?
Todas las especies de RNA:
-RNA total (mRNA o especies de RNA no codificantes)
-mRNA (análisis del transcriptoma)
-small RNA (p.ej. microRNA)
¿Qué podemos estudiar?
Sitios de inicio de la transcripción
RNA-Seq específico de cadena
Patrones de procesamiento alternativo
Fusiones génicas
Perfil de RNAs de pequeño tamaño
Secuenciación directa de RNA (Helicos Bioscience)
29. 4 RNAseq Construcción de librerías para RNA sequencing
UAT
Total RNA
RNA fragmentation+cDNA synthesis Small RNAs
Direct RNA sequencing
(Helicos)
Reference genome/transcriptome
“De novo” assembly
30. 4 RNAseq
Consideraciones a tener en cuenta
UAT
• El mRNA se transcribe a partir de exones que están separados por intrones de un tamaño mucho mayor: mapear las lecturas
sobre un genoma puede ser complicado, especialmente si se utilizan lecturas cortas.
• El rango dinámico de los niveles de expresión génica es muy amplio, por tanto la abundancia relativa de las especies de RNA es
muy variable, de 105 a 107 órdenes de magnitud.
• Debido a la particularidad anterior, podemos encontrarnos con que al secuenciar una librería de cDNA la mayoría de las lecturas
corresponden a una pequeña fracción de genes altamente expresados, por ejemplo, genes ribosomales. Por ello puede ser
recomendable “normalizar” la librería antes de secuenciarla, es decir, reducir el rango de las especies más abundantes al de las
menos abundantes con el fin de obtener una mejor representación de todos los RNAs presentes.
• Los diferentes tipos de RNA tienen particularidades y tamaños muy diferentes:
– Para aislar los RNAs de pequeño tamaño hay que utilizar protocolos específicos
– La construcción de las librerías de cDNA puede introducir un “bias”
• El RNA se degrada más fácilmente que el DNA. Hay protocolos para extracción de RNA de muestras parafinadas y para
comenzar la ultrasecuenciación con muy poca cantidad de RNA y de baja calidad (teniendo en cuenta que “garbage in=garbage
out”.
31. 4 RNAseq
Normalización de una librería de cDNA UAT
(DSN)
Tránscritos muy expresados: reducción 10x
Tránscritos poco expresados: enriquecimiento 10x
Desventaja: en una librería normalizada no se pueden cuantificar niveles de expresión de los tránscritos.
32. 4 RNAseq
UAT
Comparación RNAseq. vs. microarrays para el análisis del transcriptoma
500 pg RNAt 100 pg RNAt (Illumina), 500 pg (Roche)
Wang et al., Nat. Rev. Genetics 10 (2009)
Lecturas largas (Roche/454) Lecturas cortas (SOLiD, Illumina)
Ensamblaje de transcriptomas “de novo”, Resecuenciación de transcriptomas, secuenciación “de novo” en
identificación de tránscritos de fusión (ej. en cáncer), detección combinación con la tecnología de Roche
de variantes de splicing
Util para transcriptomas pequeños o para generar un “andamio” Por su alto rendimiento, estas plataformas proporcionan una
inicial que se rellene con lecturas cortas profundidad de lectura muy alta
Para transcriptomas grandes (ej. humano), el coste es Mucho más económicas por base que la tecnología 454
prohibitivo
33. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
La secuenciación de un genoma completo es complejo y caro, y puede ser innecesario, p.
ej. en aquellos casos donde se sospecha cuál es la región génica responsable de un
determinado fenotipo. En estos casos se puede “capturar” la región de interés antes de
secuenciarla.
VENTAJAS:
-sistema flexible: existen arrays prediseñados (exoma) o se pueden hacer “a la carta” a
partir de las coordenadas génicas de la región de interés
-más barato y más sencillo que secuenciar el genoma completo (tanto técnicamente como
desde el punto de vista bioinformático). Por el mismo precio se pueden secuenciar más
muestras.
-tamaño del genoma a secuenciar menor: permite aumentar el “coverage”
PLATAFORMAS DE ARRAYS DE CAPTURA DE SECUENCIA:
-Nimblegen
-Sistema SureSelect (Agilent)
-FebIt
34. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
Nimblegen Capture Arrays Format
ARRAY DISEÑO
Exome array v3.0 Exones codificantes y miRNAs(64 Mb total)
Exome array v2.0 Exones codificantes y miRNAs(44,1 Mb total)
Exome +UTR Exones codificantes y miRNAs(64 Mb total), más 32 Mb de 5’ y 3’-
UTRs
Exome plus Exones codificantes y miRNAs(64 Mb total), más 50 Mb a la carta
Choice library Captura a la carta de regiones de entre 100 Kb y 7 Mb
Choice library XL Captura a la carta de regiones de entre 7 y 50 Mb
Developer library Captura a la carta de regiones de interés de hasta 50 Mb en
especies diferentes a la humana
Paneles prediseñados Comprehensive Cancer, Neurology, 50 MB UTR, Soybean
Exome, Mouse Exome, Human MHC, Baylor Vchrome (exome)
37. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
Limitaciones de los arrays de captura:
Respecto al diseño:
• Hay que conocer la secuencia para poder diseñar el array
• Las sondas no cubren el 100% de la región a capturar, p.ej. se evitan siempre las regiones con
secuencias repetitivas para evitar capturas “off-target”
Respecto al resultado del proceso de captura:
•% alto de lecturas “off-target”, sobre todo en regiones pequeñas (50-70%), y mayor en solución que
en sólido
•la cobertura puede no ser uniforme, especialmente en regiones ricas en GC
En el caso de Nimblegen:
•aunque son más baratos que secuenciar un genoma completo, son caros (se abaratan
proporcionalmente para muchas muestras)
•no generan un solo array a la carta, el mínimo es de 4 o 12 arrays (según el tipo)
•el tiempo de diseño & manufactura es relativamente largo (6-8 semanas)
38. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
•Roche/Nimblegen's SeqCap EZ Exome Library v2.0
•Agilent's SureSelect Human All Exon 50Mb
•Illumina's TruSeq Exome Enrichment
39. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
Metrics of the three capture systems
Method
“To assess the enrichment efficiency of each platform, we sequenced libraries generated from
genomic DNA derived from peripheral blood mononuclear cells (PBMCs) of a healthy volunteer of
European descent. Exome DNA was enriched with each platform according to the manufacturers'
recommendation. For each exome library, 112–184 million (M) 101-bp paired-end reads were
generated using one lane of an Illumina HiSeq 2000 and mapped using the Burrows-Wheeler
Alignment tool (BWA)”.
40. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
Target enrichment efficiency:
10x 20x 30x
% Targeted bases
Total bases
98,6 % of bases
96,6 % of bases were covered at least 1x
97,1 % of bases
Higher density design, higher efficiency
Lower density design captures more total bases
41. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
Off-target enrichment and GC biass:
-PCR efficiency (library generation)
-hybridization with the oligonucleotide probes
42. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
Exome-Seq variant statistics:
Variant detection overlap between exome-seq and WGS by platform:
(coverage previously normalized)
Disease associated Low cov. in WGS Enrichment failure
Many false positives Many false positives
43. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT
CONCLUSIONS
•We have observed that the densely packed, overlapping baits of the Nimblegen SeqCap EZ
Exome demonstrate the highest efficiency target enrichment, able to adequately cover the largest
proportion of its targeted bases with the least amount of sequencing. Therefore, the Nimblegen
platform is superior to the other two platforms for research restricted to the regions that it covers.
•Comparison with a large database of disease-related variants classified 456 Agilent, 369
Nimblegen and 467 Illumina exome sequencing–specific SNVs as associated with human
diseases. Three hundred and one of these were common between all three platforms, suggesting
that some regions missed by WGS but captured by exome sequencing have clinical relevance.
•It may be argued that the importance of targeted sequencing is transient and will diminish as WGS
becomes less expensive. However, we found that exome sequencing can identify variants that
are not evident in WGS because of greater base coverage after enrichment. Even at
equivalent coverage levels, specific regions had higher read depth in exome sequencing resulting
in greater sensitivity in those regions. Target capture by exome sequencing unambiguously
identified some of these difficult regions through preferential selection and observation at higher
local read depth.