Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

APLICACIONES DE LAS
TECNOLOGÍAS DE NGS

Rosa M. Prieto
UAT

APLICACIONES DE LAS TECNOLOGÍAS DE NGS
UAT

1. ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO
AMPLICONES

2. ESTUDIOS DE METAGENÓMICA

3. SECUENCIACIÓN DE GENOMAS COMPLETOS

4. RNAseq

5. ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA

1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
UTILIZANDO AMPLICONES. UAT

HCV, HBV, HIV virus populations has special characteristics:


 In an infected patient the population of viruses presents high
rates of mutation and replication. It is a complex mixing of
different mutants.

 Goal of the study:
 Detection and quantification of mutations or combination of
mutations that could confer resistance to viral inhibitors in
samples from infected patients.

 Special interest in mutations at a low rate (minor variants).


WHY IS NGS APPROPIATED FOR THIS KIND OF STUDY?

 Minor variants often play an important role in the development of resistance
to antiviral treatments in patients, even if they are present in a very low
percentage in the population.

 Minor variants may not be detected by classical sequencing methods
 You obtain hundreds of sequences with much effort and high cost

 NextGen sequencing allow to detect efficiently variants at a very low rate
 You obtain thousands of sequences with relatively low cost


VENTAJAS DE LA NGS

Para poder detectar variantes poco frecuentes es necesario hacer una cantidad ingente de
secuenciación Sanger → las técnicas de NGS generan un número muy alto de secuencias en
paralelo con menos esfuerzo y menos coste por secuencia.

La secuenciación de amplicones permite la “multiplexación”: secuenciación simultánea de muchas
muestras añadiendo a cada amplicón una etiqueta (MID) para poder identificarlo.

Rendimiento medio de la carrera: 700.000 secuencias, 450.000 bases
Longitud del amplicón a secuenciar: 450 pb
50 pacientes (cada uno con un MID)
Total a secuenciar = 450 pb/amplicón * 50 amplicones = 22.500 pb
Cobertura media por paciente = 450.000 / 22.500 = 20x (20 lecturas del mismo amplicón)
Nº secuencias por paciente = 14.000

¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?

454 (Roche GS FLX/GS Junior)
Las lecturas largas (hasta 600 pb) permiten identificar de forma inequívoca varias mutaciones
presentes en un mismo amplicón. De hecho, este tipo de estudios no puede hacerse con otras
plataformas que generen secuencias más cortas que necesiten ser ensambladas.


1. Diseño experimental apropiado: variables (n, controles, tratamientos, tiempos....)

2. Obtención de muestras de suero de pacientes infectados y tratados en las diferentes
condiciones a incluir en el estudio.

3. Generación de la librería de amplicones. El amplicón debe contener las regiones susceptibles
de contener las mutaciones de interés, más la secuencia del MID (si se hace “multiplex”) y las
secuencias “clave” y “adaptadora”. La secuenciación es bidireccional.

HBV polymerase (P) and surface (S) ORFs

anillamiento de beads de captura, cebadores de emPCR y de secuenciación
“clave” para la pirosecuenciación (TCAG para amplicones)


Ultra-Deep Pyrosequencing Detects Conserved Genomic Sites and Quantifies Linkage of
Drug-Resistant Amino Acid Changes in the Hepatitis B Virus Genome

PLoS One, Rodríguez-Frías et al., 2012

• UDPS detected minor variants comprising less than 0.1% of the HBV viral quasispecies

• Identification of mutations in extremely low percentages with an acceptable degree of confidence is
limited by:
-the number of independent template molecules obtained from the sample analyzed
-the coverage or number of reads obtained per base
-the number of artifactual errors generated during PCR amplification and pyrosequencing

• For these reasons, all the samples selected for the current study carried a high HBV viral load
(>105 IU/mL) and the high-fidelity DNA polymerase Pfu turbo was used to bypass the artifactual errors.
With this approach, variants comprising as little as 0.03% of the HBV quasispecies could be detected.

2 ESTUDIOS DE METAGENÓMICA.
UAT

Metagenomics is the study of a collection of genetic material (genomes) from a mixed community of
organisms. Metagenomics usually refers to the study of microbial communities.

•The biosphere contains between 1030 and 1031 microbial genomes, at least 2–3 orders of magnitude
more than the number of plant and animal cells combined.
•Microbes associated with the human body outnumber human cells by at least a factor of ten.
•The vast majority cannot be cultured.

What can we study?

UAT

Unidirectional sequencing
(16S rRNA)

The 16S rRNA gene is comprised of highly conserved regions interspersed with more variable regions, allowing
PCR primers to be designed that are complementary to universally conserved regions flanking variable regions.
Wu et al. BMC Microbiol. 2010; 10: 206.

UAT
 Shotgun: ¿qué organismos hay y cómo funciona la comunidad? ¿variaciones en
respuesta a modificaciones ambientales, p.ej, contaminación?

Aplicaciones:
-identificación y clasificación taxonómica de microorganismos presentes
-ensamblaje de genomas
-predicción y anotación de genes, estudio funcional
-comparación de múltiples muestras

Inconvenientes:
-los organismos más abundantes son los más ampliamente representados en la
secuenciación, enmascarando los menos abundantes
-necesidad de cobertura alta para encontrar microorganismos poco abundantes →
caro

 Amplicones 16S rRNA: identificación de microorganismos presentes en la
muestra (estudio taxonómico).

Inconvenientes:
-es posible que la región estudiada no permita asignar una secuencia de forma
inequívoca
-generación de quimeras durante la amplificación, que hay que eliminar durante el
análisis bioinformático

UAT

VENTAJAS DE LA NGS

-Secuenciación directa de muestras (la mayoría de los microorganismos no pueden
ser cultivados). Muchas comunidades de muestras bacterianas no cultivadas se han
estudiado mediante Sanger para determinar las secuencias 16SrRNA.

-Las técnicas de NGS permiten obtener un número muy alto de secuencias en
paralelo, lo que permite obtener una representación de la diversidad microbiana
presente en la muestra con menor esfuerzo que usando secuenciación Sanger.

¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?
454 (Roche GS FLX/GS Junior)

With the recently capability to sequence >400 nt, it will be possible to span most
hypervariable regions, multiple adjacent hypervariable regions, or possibly
combinations of non-adjacent hypervariable regions through paired-end sequencing
strategies (Huse et al., PLoS Genetics 2008)

UAT

Sampling and pyrosequencing methods for characterizing bacterial communities in the
human gut using 16S sequence tags.

Wu et al. BMC Microbiol. 2010; 10: 206.

This is a study of methods for surveying bacterial communities in human feces using 454/Roche pyrosequencing
of 16S rRNA gene tags.

Comparison of different methods of sample storage (no effect), DNA extraction and purification (great effect), set
of primers for amplification of several variable regions (effect) and GS FLX vs. GS FLX Titanium sequencing (no
effect).

We did find that the choice of 16S rRNA gene
region used for analysis had a noticeable effect,
with the V6-V9 region representing an outlier.
The V6-V9 primers consistently showed the lowest
percentage of taxonomic assignments at the genus
level.
We note that our choice of V6-V9 primer and
sequencing direction did not cover the V6 regions
efficiently.

Composition of the gut microbiome in the ten subjects studied.

UAT
NIH Human Microbiome Project

UAT

•To establish associations
between the genes of the
human intestinal microbiota
and our health and disease.

• Focused on two disorders
of increasing importance in
Europe, Inflammatory Bowel
Disease (IBD) and obesity.

3 SECUENCIACIÓN DE GENOMAS COMPLETOS.
UAT

¿Cómo se secuencia un genoma completo?

Caso A: no existe un genoma de referencia (secuenciación “de novo”)

Caso B: existe un genoma de referencia (resecuenciación)

UAT

Secuenciación “de novo” (por ejemplo, bacterias, plantas....):

1) GS FLX de Roche, usando librerías de PE+librerías de shotgun: “andamio” con baja cobertura
2) Illumina o SOLiD: secuenciación con cobertura alta
3) “Rellenar huecos” mediante secuenciación Sanger
4) Análisis bioninformático (ensamblaje, anotación funcional, búsqueda de variantes, etc.)
5) Validación mediante tecnologías complementarias (ej. arrays de SNPs)

2 2
1

3 3

4

UAT
DNA genómico de alto peso molecular

500 ng mínimo 15 µg

Resecuenciación

Secuenciación de novo

UAT

Performance comparison of benchtop high-troughput sequencing platforms.
Nat. Biotechn. 30 (5): 434-441 (2012)

Secuenciación de la cepa bacteriana E. coli O104:H4 con GS Junior, MiSeq,
PGM.

1. Creación de un ensamblaje de referencia (Roche GS FLX+ shotgun + 8 Kb
PE, coverage 32x). Contiene 1 cromosoma (5.3 kb) y 2 plásmidos. Quedan
153 gaps correspondientes a regiones repetitivas sin resolver.

2. Secuenciación de la misma cepa usando:
• 2 runs del 454 GS Junior
• 2 chips 316 del Ion Torrent PGM
• 1 run del MiSeq (2x150 bases)

UAT

Performance comparison of benchtop high-troughput sequencing platforms.
Nat. Biotechn. 30 (5): 434-441 (2012)

Conclusions: “One important conclusion from this evaluation is that saying that one has
“sequenced a bacterial genome” means different things on different benchtop sequencing
platforms”

MiSeq GS Junior IonTorrent

Throughput/run The highest The lowest The fastest

Errors The lowest Intermediate(indels) Many, specially in
homopolymers
Read length Intermediate The longest (520 bp) The shortest (100bp)
(2x150bp)
Run time The longest (27 Intermediate (9 hr) The shortest (3 hr)
hr)
Price per Mb The cheapest The most expensive Intermediate

Other Unfillable gaps Errors in homopolymers The worstest
considerations performance

UAT

Resecuenciación, por ejemplo de genomas humanos:

1) Secuenciación:
• Illumina o SOLiD: recomendados por su rendimiento elevado (en Gb de secuencia obtenidos),
precio por secuencia bajo. Tiempo de carrera largo.
• Roche: no recomendado por su rendimiento medio-bajo y por su elevado coste (sólo es abordable
para genomas pequeños, p.ej. microbianos). Tiempo de carrera corto.
•Ion Proton: recomendado por su rendimiento medio-alto (previsto hasta 10 Gb), precio por
secuencia bajo, tiempo de carrera corto. Rápidos avances en la tecnología.

2) “Rellenar huecos” mediante secuenciación Sanger.

3) Análisis bioinformático (ensamblaje, anotación funcional, variantes....)

4) Validación mediante tecnologías complementarias

UAT

• La pequeña fracción del genoma con variaciones entre los individuos puede explicar diferencias en la
susceptibilidad a una enfermedad, en la respuesta a fármacos o en la reacción a factores ambientales. El
“Proyecto de los 1000 genomas” tratará de establecer un mapa del genoma humano que incluya la descripción de
la mayor cantidad posible de variaciones en el mismo, mejorando de forma espectacular la información obtenida
con el proyecto HapMap.

• El proyecto se realiza con el soporte principal de tres instituciones: el Wellcome Trust Sanger Institute (Hinxton,
Inglaterra), el Beijing Genomics Institute (Shenzen, China) y el National Human Genome Research Institute, que
forma parte del NIH (National Institutes of Health, USA).

UAT

Methods:

1-Low coverage (5x) sequencing: SOLiD+Illumina

2-Whole exome sequencing (80× average coverage across a consensus target of 24 Mb spanning more than 15,000
genes)): SeqCap EZHuman Exome Library, Nimblegen, and SureSelect All Exon V2 Target Enrichment kit from Agilent.

3-SNP genotyping: Initially all samples were typed using a Sequenom MassArray SNP Genotyping panel of 23 SNPs and
one gender determining assay to establish a genetic fingerprint. After gender concordance was verified the samples were
placed on 96 well plates using the llumina HumanOmni2.5OQuad v1.0 B SNP array.

UAT

El proyecto publicará el genotipo de los
voluntarios, junto con información detallada de su
fenotipo: registros médicos, varios análisis,
imágenes RM, etc. Toda la información estará
disponible para cualquiera en Internet, para que
investigadores puedan probar varias hipótesis
acerca de las relaciones entre el genotipo, el
ambiente y el fenotipo.

UAT

UAT

What is ClinVar?
The goal of ClinVar is to provide a freely accessible, public archive of reports of the relationships among human
variations and phenotypes along with supporting evidence. By so doing, ClinVar will facilitate access to and
communication about the relationships asserted between human variation and observed health status.

ClinVar collects reports of variants found in patient samples, assertions made regarding their clinical significance,
information about the submitter, and other supporting data. The alleles described in the submissions are mapped to
reference sequences, and reported according to the HGVS standard.

UAT

¿Cuánto cuesta secuenciar un genoma humano completo?

(human-sized genome: 3 Gb)

1ª generación 2ª generación 1ª generación 2ª generación
COSTS include:

•Labor, administration, management, utilities, reagents, and consumables
•Sequencing instruments and other large equipment (amortized over three years)
•Informatics activities directly related to sequence production
•Shotgun library construction (required for preparing DNA to be sequenced)
•Submission of data to a public database
•Indirect Costs

‘Sequence coverage' values used in calculating the cost per genome:
• Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage
• 454 sequencing (average read length=300-400 bases): 10-fold coverage
resequencing projects
• Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage

4 RNAseq
UAT

¿Cuál es el material de partida?

Todas las especies de RNA:
-RNA total (mRNA o especies de RNA no codificantes)
-mRNA (análisis del transcriptoma)
-small RNA (p.ej. microRNA)

¿Qué podemos estudiar?
 Sitios de inicio de la transcripción
 RNA-Seq específico de cadena
 Patrones de procesamiento alternativo
 Fusiones génicas
 Perfil de RNAs de pequeño tamaño
 Secuenciación directa de RNA (Helicos Bioscience)

4 RNAseq Construcción de librerías para RNA sequencing

UAT
Total RNA

RNA fragmentation+cDNA synthesis Small RNAs

Direct RNA sequencing
(Helicos)

Reference genome/transcriptome

“De novo” assembly

4 RNAseq
Consideraciones a tener en cuenta
UAT

• El mRNA se transcribe a partir de exones que están separados por intrones de un tamaño mucho mayor: mapear las lecturas
sobre un genoma puede ser complicado, especialmente si se utilizan lecturas cortas.

• El rango dinámico de los niveles de expresión génica es muy amplio, por tanto la abundancia relativa de las especies de RNA es
muy variable, de 105 a 107 órdenes de magnitud.

• Debido a la particularidad anterior, podemos encontrarnos con que al secuenciar una librería de cDNA la mayoría de las lecturas
corresponden a una pequeña fracción de genes altamente expresados, por ejemplo, genes ribosomales. Por ello puede ser
recomendable “normalizar” la librería antes de secuenciarla, es decir, reducir el rango de las especies más abundantes al de las
menos abundantes con el fin de obtener una mejor representación de todos los RNAs presentes.

• Los diferentes tipos de RNA tienen particularidades y tamaños muy diferentes:

– Para aislar los RNAs de pequeño tamaño hay que utilizar protocolos específicos

– La construcción de las librerías de cDNA puede introducir un “bias”

• El RNA se degrada más fácilmente que el DNA. Hay protocolos para extracción de RNA de muestras parafinadas y para
comenzar la ultrasecuenciación con muy poca cantidad de RNA y de baja calidad (teniendo en cuenta que “garbage in=garbage
out”.

4 RNAseq
Normalización de una librería de cDNA UAT

(DSN)

Tránscritos muy expresados: reducción 10x
Tránscritos poco expresados: enriquecimiento 10x

Desventaja: en una librería normalizada no se pueden cuantificar niveles de expresión de los tránscritos.

4 RNAseq
UAT

Comparación RNAseq. vs. microarrays para el análisis del transcriptoma

500 pg RNAt 100 pg RNAt (Illumina), 500 pg (Roche)

Wang et al., Nat. Rev. Genetics 10 (2009)

Lecturas largas (Roche/454) Lecturas cortas (SOLiD, Illumina)

Ensamblaje de transcriptomas “de novo”, Resecuenciación de transcriptomas, secuenciación “de novo” en
identificación de tránscritos de fusión (ej. en cáncer), detección combinación con la tecnología de Roche
de variantes de splicing
Util para transcriptomas pequeños o para generar un “andamio” Por su alto rendimiento, estas plataformas proporcionan una
inicial que se rellene con lecturas cortas profundidad de lectura muy alta
Para transcriptomas grandes (ej. humano), el coste es Mucho más económicas por base que la tecnología 454
prohibitivo

5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT

La secuenciación de un genoma completo es complejo y caro, y puede ser innecesario, p.
ej. en aquellos casos donde se sospecha cuál es la región génica responsable de un
determinado fenotipo. En estos casos se puede “capturar” la región de interés antes de
secuenciarla.

VENTAJAS:

-sistema flexible: existen arrays prediseñados (exoma) o se pueden hacer “a la carta” a
partir de las coordenadas génicas de la región de interés
-más barato y más sencillo que secuenciar el genoma completo (tanto técnicamente como
desde el punto de vista bioinformático). Por el mismo precio se pueden secuenciar más
muestras.
-tamaño del genoma a secuenciar menor: permite aumentar el “coverage”

PLATAFORMAS DE ARRAYS DE CAPTURA DE SECUENCIA:

-Nimblegen
-Sistema SureSelect (Agilent)
-FebIt

UAT

Nimblegen Capture Arrays Format

ARRAY DISEÑO

Exome array v3.0 Exones codificantes y miRNAs(64 Mb total)

Exome array v2.0 Exones codificantes y miRNAs(44,1 Mb total)

Exome +UTR Exones codificantes y miRNAs(64 Mb total), más 32 Mb de 5’ y 3’-
UTRs
Exome plus Exones codificantes y miRNAs(64 Mb total), más 50 Mb a la carta

Choice library Captura a la carta de regiones de entre 100 Kb y 7 Mb

Choice library XL Captura a la carta de regiones de entre 7 y 50 Mb

Developer library Captura a la carta de regiones de interés de hasta 50 Mb en
especies diferentes a la humana
Paneles prediseñados Comprehensive Cancer, Neurology, 50 MB UTR, Soybean
Exome, Mouse Exome, Human MHC, Baylor Vchrome (exome)

UAT

5

Gen1
rs1
50 01
23

Gen2
D1
59 4S
D1
10s 4S
r 31
7
99 99
D1
16
D
56 14S
7

Gen3
68 4S
D1
25rs 4S
6 71
95
72
D1

Diseño del array
10 4S
44

rs7
55
D1 102
28 4S
0s
r9
72
rs8 905
82
02
3
ROI

Gen4 rs1
0
rs7 0495
42 8
89
3
rs1
05
rs1 4195
00
78
13
rs2
36
9

X
D1 522
56 4S
5
rs1
02
25
90

rs1
15
97
99

rs9
41
73
1

-automatizable
rs1
00
Gen5

79
04

-manejo mayor nº muestras
-no requiere equipos especiales
ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
UAT

UAT
Limitaciones de los arrays de captura:

Respecto al diseño:
• Hay que conocer la secuencia para poder diseñar el array
• Las sondas no cubren el 100% de la región a capturar, p.ej. se evitan siempre las regiones con
secuencias repetitivas para evitar capturas “off-target”

Respecto al resultado del proceso de captura:
•% alto de lecturas “off-target”, sobre todo en regiones pequeñas (50-70%), y mayor en solución que
en sólido
•la cobertura puede no ser uniforme, especialmente en regiones ricas en GC

En el caso de Nimblegen:
•aunque son más baratos que secuenciar un genoma completo, son caros (se abaratan
proporcionalmente para muchas muestras)
•no generan un solo array a la carta, el mínimo es de 4 o 12 arrays (según el tipo)
•el tiempo de diseño & manufactura es relativamente largo (6-8 semanas)

UAT

•Roche/Nimblegen's SeqCap EZ Exome Library v2.0

•Agilent's SureSelect Human All Exon 50Mb

•Illumina's TruSeq Exome Enrichment

UAT

Metrics of the three capture systems

Method
“To assess the enrichment efficiency of each platform, we sequenced libraries generated from
genomic DNA derived from peripheral blood mononuclear cells (PBMCs) of a healthy volunteer of
European descent. Exome DNA was enriched with each platform according to the manufacturers'
recommendation. For each exome library, 112–184 million (M) 101-bp paired-end reads were
generated using one lane of an Illumina HiSeq 2000 and mapped using the Burrows-Wheeler
Alignment tool (BWA)”.

UAT
Target enrichment efficiency:

10x 20x 30x

% Targeted bases
Total bases
98,6 % of bases
96,6 % of bases were covered at least 1x
97,1 % of bases

Higher density design, higher efficiency
Lower density design captures more total bases

UAT

Off-target enrichment and GC biass:

-PCR efficiency (library generation)
-hybridization with the oligonucleotide probes

UAT
Exome-Seq variant statistics:

Variant detection overlap between exome-seq and WGS by platform:

(coverage previously normalized)

Disease associated Low cov. in WGS Enrichment failure
Many false positives Many false positives

UAT

CONCLUSIONS

•We have observed that the densely packed, overlapping baits of the Nimblegen SeqCap EZ
Exome demonstrate the highest efficiency target enrichment, able to adequately cover the largest
proportion of its targeted bases with the least amount of sequencing. Therefore, the Nimblegen
platform is superior to the other two platforms for research restricted to the regions that it covers.

•Comparison with a large database of disease-related variants classified 456 Agilent, 369
Nimblegen and 467 Illumina exome sequencing–specific SNVs as associated with human
diseases. Three hundred and one of these were common between all three platforms, suggesting
that some regions missed by WGS but captured by exome sequencing have clinical relevance.

•It may be argued that the importance of targeted sequencing is transient and will diminish as WGS
becomes less expensive. However, we found that exome sequencing can identify variants that
are not evident in WGS because of greater base coverage after enrichment. Even at
equivalent coverage levels, specific regions had higher read depth in exome sequencing resulting
in greater sensitivity in those regions. Target capture by exome sequencing unambiguously
identified some of these difficult regions through preferential selection and observation at higher
local read depth.

Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (11)

Similar a Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

Similar a Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento (20)

Más de VHIR Vall d’Hebron Institut de Recerca

Más de VHIR Vall d’Hebron Institut de Recerca (20)

Último

Último (20)

Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento