SlideShare una empresa de Scribd logo
UAT




APLICACIONES DE LAS
TECNOLOGÍAS DE NGS


       Rosa M. Prieto
           UAT
APLICACIONES DE LAS TECNOLOGÍAS DE NGS
                                                             UAT




1. ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO
   AMPLICONES


2. ESTUDIOS DE METAGENÓMICA


3. SECUENCIACIÓN DE GENOMAS COMPLETOS


4. RNAseq


5. ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
1        ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
         UTILIZANDO AMPLICONES.                                         UAT




HCV, HBV, HIV virus populations has special characteristics:





     In an infected patient the population of viruses presents high
    rates of mutation and replication. It is a complex mixing of
    different mutants.

       Goal of the study:
       Detection and quantification of mutations or combination of
        mutations that could confer resistance to viral inhibitors in
        samples from infected patients.




       Special interest in mutations at a low rate (minor variants).
1       ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
        UTILIZANDO AMPLICONES.                                                          UAT




                     WHY IS NGS APPROPIATED FOR THIS KIND OF STUDY?


     Minor variants often play an important role in the development of resistance
    to antiviral treatments in patients, even if they are present in a very low
    percentage in the population.


           Minor variants may not be detected by classical sequencing methods
                     You obtain hundreds of sequences with much effort and high cost



           NextGen sequencing allow to detect efficiently variants at a very low rate
                     You obtain thousands of sequences with relatively low cost
1      ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
       UTILIZANDO AMPLICONES.                                                                    UAT




    VENTAJAS DE LA NGS

    Para poder detectar variantes poco frecuentes es necesario hacer una cantidad ingente de
    secuenciación Sanger → las técnicas de NGS generan un número muy alto de secuencias en
    paralelo con menos esfuerzo y menos coste por secuencia.

    La secuenciación de amplicones permite la “multiplexación”: secuenciación simultánea de muchas
    muestras añadiendo a cada amplicón una etiqueta (MID) para poder identificarlo.

                 Rendimiento medio de la carrera: 700.000 secuencias, 450.000 bases
                              Longitud del amplicón a secuenciar: 450 pb
                                 50 pacientes (cada uno con un MID)
                  Total a secuenciar = 450 pb/amplicón * 50 amplicones = 22.500 pb
        Cobertura media por paciente = 450.000 / 22.500 = 20x (20 lecturas del mismo amplicón)
                                 Nº secuencias por paciente = 14.000

    ¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?

                 454 (Roche GS FLX/GS Junior)
    Las lecturas largas (hasta 600 pb) permiten identificar de forma inequívoca varias mutaciones
    presentes en un mismo amplicón. De hecho, este tipo de estudios no puede hacerse con otras
    plataformas que generen secuencias más cortas que necesiten ser ensambladas.
1     ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
      UTILIZANDO AMPLICONES.                                                                    UAT




    1. Diseño experimental apropiado: variables (n, controles, tratamientos, tiempos....)

    2. Obtención de muestras de suero de pacientes infectados y tratados en las diferentes
    condiciones a incluir en el estudio.


    3. Generación de la librería de amplicones. El amplicón debe contener las regiones susceptibles
    de contener las mutaciones de interés, más la secuencia del MID (si se hace “multiplex”) y las
    secuencias “clave” y “adaptadora”. La secuenciación es bidireccional.


                                      HBV polymerase (P) and surface (S) ORFs




      anillamiento de beads de captura, cebadores de emPCR y de secuenciación
      “clave” para la pirosecuenciación (TCAG para amplicones)
1    ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C)
     UTILIZANDO AMPLICONES.                                                                         UAT




    Ultra-Deep Pyrosequencing Detects Conserved Genomic Sites and Quantifies Linkage of
    Drug-Resistant Amino Acid Changes in the Hepatitis B Virus Genome

    PLoS One, Rodríguez-Frías et al., 2012



    • UDPS detected minor variants comprising less than 0.1% of the HBV viral quasispecies

    • Identification of mutations in extremely low percentages with an acceptable degree of confidence is
    limited by:
    -the number of independent template molecules obtained from the sample analyzed
    -the coverage or number of reads obtained per base
    -the number of artifactual errors generated during PCR amplification and pyrosequencing

    • For these reasons, all the samples selected for the current study carried a high HBV viral load
    (>105 IU/mL) and the high-fidelity DNA polymerase Pfu turbo was used to bypass the artifactual errors.
    With this approach, variants comprising as little as 0.03% of the HBV quasispecies could be detected.
2      ESTUDIOS DE METAGENÓMICA.
                                                                                                  UAT

    Metagenomics is the study of a collection of genetic material (genomes) from a mixed community of
    organisms. Metagenomics usually refers to the study of microbial communities.

    •The biosphere contains between 1030 and 1031 microbial genomes, at least 2–3 orders of magnitude
    more than the number of plant and animal cells combined.
    •Microbes associated with the human body outnumber human cells by at least a factor of ten.
    •The vast majority cannot be cultured.

                                     What can we study?
2     ESTUDIOS DE METAGENÓMICA.
                                                                                                              UAT




                                                             Unidirectional sequencing
                                                                                                 (16S rRNA)




    The 16S rRNA gene is comprised of highly conserved regions interspersed with more variable regions, allowing
    PCR primers to be designed that are complementary to universally conserved regions flanking variable regions.
    Wu et al. BMC Microbiol. 2010; 10: 206.
2   ESTUDIOS DE METAGENÓMICA.
                                                                                  UAT
     Shotgun: ¿qué organismos hay y cómo funciona la comunidad? ¿variaciones en
    respuesta a modificaciones ambientales, p.ej, contaminación?

    Aplicaciones:
    -identificación y clasificación taxonómica de microorganismos presentes
    -ensamblaje de genomas
    -predicción y anotación de genes, estudio funcional
    -comparación de múltiples muestras

    Inconvenientes:
    -los organismos más abundantes son los más ampliamente representados en la
    secuenciación, enmascarando los menos abundantes
    -necesidad de cobertura alta para encontrar microorganismos poco abundantes →
    caro

     Amplicones 16S rRNA: identificación de microorganismos presentes en la
    muestra (estudio taxonómico).

    Inconvenientes:
    -es posible que la región estudiada no permita asignar una secuencia de forma
    inequívoca
    -generación de quimeras durante la amplificación, que hay que eliminar durante el
    análisis bioinformático
2    ESTUDIOS DE METAGENÓMICA.
                                                                                   UAT

    VENTAJAS DE LA NGS

    -Secuenciación directa de muestras (la mayoría de los microorganismos no pueden
    ser cultivados). Muchas comunidades de muestras bacterianas no cultivadas se han
    estudiado mediante Sanger para determinar las secuencias 16SrRNA.

    -Las técnicas de NGS permiten obtener un número muy alto de secuencias en
    paralelo, lo que permite obtener una representación de la diversidad microbiana
    presente en la muestra con menor esfuerzo que usando secuenciación Sanger.




    ¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?
                     454 (Roche GS FLX/GS Junior)

    With the recently capability to sequence >400 nt, it will be possible to span most
    hypervariable regions, multiple adjacent hypervariable regions, or possibly
    combinations of non-adjacent hypervariable regions through paired-end sequencing
    strategies (Huse et al., PLoS Genetics 2008)
2       ESTUDIOS DE METAGENÓMICA.
                                                                                                                         UAT


    Sampling and pyrosequencing methods for characterizing bacterial communities in the
    human gut using 16S sequence tags.

    Wu et al. BMC Microbiol. 2010; 10: 206.

    This is a study of methods for surveying bacterial communities in human feces using 454/Roche pyrosequencing
    of 16S rRNA gene tags.

    Comparison of different methods of sample storage (no effect), DNA extraction and purification (great effect), set
    of primers for amplification of several variable regions (effect) and GS FLX vs. GS FLX Titanium sequencing (no
    effect).




                                                                            We did find that the choice of 16S rRNA gene
                                                                            region used for analysis had a noticeable effect,
                                                                            with the V6-V9 region representing an outlier.
                                                                            The V6-V9 primers consistently showed the lowest
                                                                            percentage of taxonomic assignments at the genus
                                                                            level.
                                                                            We note that our choice of V6-V9 primer and
                                                                            sequencing direction did not cover the V6 regions
                                                                            efficiently.




        Composition of the gut microbiome in the ten subjects studied.
2   ESTUDIOS DE METAGENÓMICA.
                                     UAT
      NIH Human Microbiome Project
2   ESTUDIOS DE METAGENÓMICA.
                                                       UAT




                                •To establish associations
                                between the genes of the
                                human intestinal microbiota
                                and our health and disease.


                                • Focused on two disorders
                                of increasing importance in
                                Europe, Inflammatory Bowel
                                Disease (IBD) and obesity.
3    SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                          UAT

                ¿Cómo se secuencia un genoma completo?

    Caso A: no existe un genoma de referencia (secuenciación “de novo”)




    Caso B: existe un genoma de referencia (resecuenciación)
3       SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                                    UAT


    Secuenciación “de novo” (por ejemplo, bacterias, plantas....):

    1) GS FLX de Roche, usando librerías de PE+librerías de shotgun: “andamio” con baja cobertura
    2) Illumina o SOLiD: secuenciación con cobertura alta
    3) “Rellenar huecos” mediante secuenciación Sanger
    4) Análisis bioninformático (ensamblaje, anotación funcional, búsqueda de variantes, etc.)
    5) Validación mediante tecnologías complementarias (ej. arrays de SNPs)


                                                                2                2
    1


                                                                    3                3

                                                            4
3   SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                       UAT
                                 DNA genómico de alto peso molecular


                  500 ng                   mínimo 15 µg




              Resecuenciación




                                Secuenciación de novo
3     SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                UAT


    Performance comparison of benchtop high-troughput sequencing platforms.
    Nat. Biotechn. 30 (5): 434-441 (2012)

    Secuenciación de la cepa bacteriana E. coli O104:H4 con GS Junior, MiSeq,
       PGM.

    1. Creación de un ensamblaje de referencia (Roche GS FLX+ shotgun + 8 Kb
       PE, coverage 32x). Contiene 1 cromosoma (5.3 kb) y 2 plásmidos. Quedan
       153 gaps correspondientes a regiones repetitivas sin resolver.

    2. Secuenciación de la misma cepa usando:
        • 2 runs del 454 GS Junior
        • 2 chips 316 del Ion Torrent PGM
        • 1 run del MiSeq (2x150 bases)
3   SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                               UAT

    Performance comparison of benchtop high-troughput sequencing platforms.
    Nat. Biotechn. 30 (5): 434-441 (2012)

    Conclusions: “One important conclusion from this evaluation is that saying that one has
    “sequenced a bacterial genome” means different things on different benchtop sequencing
    platforms”

                          MiSeq               GS Junior                 IonTorrent

    Throughput/run        The highest         The lowest                The fastest

    Errors                The lowest          Intermediate(indels)      Many, specially in
                                                                        homopolymers
    Read length           Intermediate        The longest (520 bp)      The shortest (100bp)
                          (2x150bp)
    Run time              The longest (27     Intermediate (9 hr)       The shortest (3 hr)
                          hr)
    Price per Mb          The cheapest        The most expensive        Intermediate

    Other                 Unfillable gaps     Errors in homopolymers    The worstest
    considerations                                                      performance
3    SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                              UAT



Resecuenciación, por ejemplo de genomas humanos:

1) Secuenciación:
     • Illumina o SOLiD: recomendados por su rendimiento elevado (en Gb de secuencia obtenidos),
     precio por secuencia bajo. Tiempo de carrera largo.
     • Roche: no recomendado por su rendimiento medio-bajo y por su elevado coste (sólo es abordable
     para genomas pequeños, p.ej. microbianos). Tiempo de carrera corto.
     •Ion Proton: recomendado por su rendimiento medio-alto (previsto hasta 10 Gb), precio por
     secuencia bajo, tiempo de carrera corto. Rápidos avances en la tecnología.

2) “Rellenar huecos” mediante secuenciación Sanger.

3) Análisis bioinformático (ensamblaje, anotación funcional, variantes....)

4) Validación mediante tecnologías complementarias
3       SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                                                     UAT




    •   La pequeña fracción del genoma con variaciones entre los individuos puede explicar diferencias en la
        susceptibilidad a una enfermedad, en la respuesta a fármacos o en la reacción a factores ambientales. El
        “Proyecto de los 1000 genomas” tratará de establecer un mapa del genoma humano que incluya la descripción de
        la mayor cantidad posible de variaciones en el mismo, mejorando de forma espectacular la información obtenida
        con el proyecto HapMap.

    •   El proyecto se realiza con el soporte principal de tres instituciones: el Wellcome Trust Sanger Institute (Hinxton,
        Inglaterra), el Beijing Genomics Institute (Shenzen, China) y el National Human Genome Research Institute, que
        forma parte del NIH (National Institutes of Health, USA).
3       SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                                                  UAT




    Methods:

    1-Low coverage (5x) sequencing: SOLiD+Illumina

    2-Whole exome sequencing (80× average coverage across a consensus target of 24 Mb spanning more than 15,000
    genes)): SeqCap EZHuman Exome Library, Nimblegen, and SureSelect All Exon V2 Target Enrichment kit from Agilent.

    3-SNP genotyping: Initially all samples were typed using a Sequenom MassArray SNP Genotyping panel of 23 SNPs and
    one gender determining assay to establish a genetic fingerprint. After gender concordance was verified the samples were
    placed on 96 well plates using the llumina HumanOmni2.5OQuad v1.0 B SNP array.
3   SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                    UAT


                                          El proyecto publicará el genotipo de los
                                          voluntarios, junto con información detallada de su
                                          fenotipo: registros médicos, varios análisis,
                                          imágenes RM, etc. Toda la información estará
                                          disponible para cualquiera en Internet, para que
                                          investigadores puedan probar varias hipótesis
                                          acerca de las relaciones entre el genotipo, el
                                          ambiente y el fenotipo.
3   SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                          UAT
3    SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                                                        UAT




What is ClinVar?
The goal of ClinVar is to provide a freely accessible, public archive of reports of the relationships among human
variations and phenotypes along with supporting evidence. By so doing, ClinVar will facilitate access to and
communication about the relationships asserted between human variation and observed health status.

ClinVar collects reports of variants found in patient samples, assertions made regarding their clinical significance,
information about the submitter, and other supporting data. The alleles described in the submissions are mapped to
reference sequences, and reported according to the HGVS standard.
3   SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                                                                                                         UAT

        ¿Cuánto cuesta secuenciar un genoma humano completo?




                                                                                           (human-sized genome: 3 Gb)

                     1ª generación           2ª generación                     1ª generación        2ª generación
    COSTS include:

    •Labor, administration, management, utilities, reagents, and consumables
    •Sequencing instruments and other large equipment (amortized over three years)
    •Informatics activities directly related to sequence production
    •Shotgun library construction (required for preparing DNA to be sequenced)
    •Submission of data to a public database
    •Indirect Costs

    ‘Sequence coverage' values used in calculating the cost per genome:
    • Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage
    • 454 sequencing (average read length=300-400 bases): 10-fold coverage
                                                                                                 resequencing projects
    • Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage
3   SECUENCIACIÓN DE GENOMAS COMPLETOS.
                                          UAT
4    RNAseq
                                                                     UAT

                            ¿Cuál es el material de partida?

    Todas las especies de RNA:
               -RNA total (mRNA o especies de RNA no codificantes)
               -mRNA (análisis del transcriptoma)
               -small RNA (p.ej. microRNA)




                                 ¿Qué podemos estudiar?
        Sitios de inicio de la transcripción
        RNA-Seq específico de cadena
        Patrones de procesamiento alternativo
        Fusiones génicas
        Perfil de RNAs de pequeño tamaño
        Secuenciación directa de RNA (Helicos Bioscience)
4     RNAseq                Construcción de librerías para RNA sequencing

                                                                                                                           UAT
                                                                                  Total RNA




                                                              RNA fragmentation+cDNA synthesis   Small RNAs




    Direct RNA sequencing
            (Helicos)




                             Reference genome/transcriptome

                                                                                                          “De novo” assembly
4    RNAseq
                                Consideraciones a tener en cuenta
                                                                                                                            UAT


•   El mRNA se transcribe a partir de exones que están separados por intrones de un tamaño mucho mayor: mapear las lecturas
    sobre un genoma puede ser complicado, especialmente si se utilizan lecturas cortas.



•   El rango dinámico de los niveles de expresión génica es muy amplio, por tanto la abundancia relativa de las especies de RNA es
    muy variable, de 105 a 107 órdenes de magnitud.



•   Debido a la particularidad anterior, podemos encontrarnos con que al secuenciar una librería de cDNA la mayoría de las lecturas
    corresponden a una pequeña fracción de genes altamente expresados, por ejemplo, genes ribosomales. Por ello puede ser
    recomendable “normalizar” la librería antes de secuenciarla, es decir, reducir el rango de las especies más abundantes al de las
    menos abundantes con el fin de obtener una mejor representación de todos los RNAs presentes.



•   Los diferentes tipos de RNA tienen particularidades y tamaños muy diferentes:

      –     Para aislar los RNAs de pequeño tamaño hay que utilizar protocolos específicos

      –     La construcción de las librerías de cDNA puede introducir un “bias”



•   El RNA se degrada más fácilmente que el DNA. Hay protocolos para extracción de RNA de muestras parafinadas y para
    comenzar la ultrasecuenciación con muy poca cantidad de RNA y de baja calidad (teniendo en cuenta que “garbage in=garbage
    out”.
4    RNAseq
         Normalización de una librería de cDNA                                                            UAT




                                                   (DSN)




                                                           Tránscritos muy expresados: reducción 10x
                                                           Tránscritos poco expresados: enriquecimiento 10x



Desventaja: en una librería normalizada no se pueden cuantificar niveles de expresión de los tránscritos.
4   RNAseq
                                                                                                                                        UAT



      Comparación RNAseq. vs. microarrays para el análisis del transcriptoma




                                                            500 pg RNAt                        100 pg RNAt (Illumina), 500 pg (Roche)



                                                                                        Wang et al., Nat. Rev. Genetics 10 (2009)



    Lecturas largas (Roche/454)                                           Lecturas cortas (SOLiD, Illumina)

    Ensamblaje de transcriptomas “de novo”,                               Resecuenciación de transcriptomas, secuenciación “de novo” en
    identificación de tránscritos de fusión (ej. en cáncer), detección    combinación con la tecnología de Roche
    de variantes de splicing
    Util para transcriptomas pequeños o para generar un “andamio”         Por su alto rendimiento, estas plataformas proporcionan una
    inicial que se rellene con lecturas cortas                            profundidad de lectura muy alta
    Para transcriptomas grandes (ej. humano), el coste es                 Mucho más económicas por base que la tecnología 454
    prohibitivo
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                  UAT




La secuenciación de un genoma completo es complejo y caro, y puede ser innecesario, p.
ej. en aquellos casos donde se sospecha cuál es la región génica responsable de un
determinado fenotipo. En estos casos se puede “capturar” la región de interés antes de
secuenciarla.


VENTAJAS:

-sistema flexible: existen arrays prediseñados (exoma) o se pueden hacer “a la carta” a
partir de las coordenadas génicas de la región de interés
-más barato y más sencillo que secuenciar el genoma completo (tanto técnicamente como
desde el punto de vista bioinformático). Por el mismo precio se pueden secuenciar más
muestras.
-tamaño del genoma a secuenciar menor: permite aumentar el “coverage”



PLATAFORMAS DE ARRAYS DE CAPTURA DE SECUENCIA:

-Nimblegen
-Sistema SureSelect (Agilent)
-FebIt
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                        UAT




Nimblegen Capture Arrays Format


ARRAY                     DISEÑO

Exome array v3.0          Exones codificantes y miRNAs(64 Mb total)

Exome array v2.0          Exones codificantes y miRNAs(44,1 Mb total)

Exome +UTR                Exones codificantes y miRNAs(64 Mb total), más 32 Mb de 5’ y 3’-
                          UTRs
Exome plus                Exones codificantes y miRNAs(64 Mb total), más 50 Mb a la carta

Choice library            Captura a la carta de regiones de entre 100 Kb y 7 Mb

Choice library XL         Captura a la carta de regiones de entre 7 y 50 Mb

Developer library         Captura a la carta de regiones de interés de hasta 50 Mb en
                          especies diferentes a la humana
Paneles prediseñados      Comprehensive Cancer, Neurology, 50 MB UTR, Soybean
                          Exome, Mouse Exome, Human MHC, Baylor Vchrome (exome)
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                             UAT
5




                                                     Gen1
                                                                          rs1
                                                                         50 01
                                                                           23




                                                            Gen2
                                                                           D1
                                                                         59 4S
                                                                           D1
                                                                         10s 4S
                                                                          r 31
                                                                             7
                                                                         99 99
                                                                          D1
                                                                           16
                                                                          D
                                                                         56 14S
                                                                           7




                                                            Gen3
                                                                         68 4S
                                                                          D1
                                                                         25rs 4S
                                                                           6 71
                                                                                 95
                                                                                   72
                                                                          D1




                                  Diseño del array
                                                                         10 4S
                                                                           44




                                                                           rs7
                                                                              55
                                                                          D1 102
                                                                         28 4S
                                                                           0s
                                                                           r9
                                                                               72
                                                                           rs8 905
                                                                              82
                                                                                 02
                                                                                   3
                                                                   ROI




                                                        Gen4               rs1
                                                                              0
                                                                          rs7 0495
                                                                              42 8
                                                                                 89
                                                                                   3
                                                                          rs1
                                                                              05
                                                                           rs1 4195
                                                                              00
                                                                                 78
                                                                                    13
                                                                          rs2
                                                                              36
                                                                                 9




                                  X
                                                                          D1 522
                                                                         56 4S
                                                                            5
                                                                          rs1
                                                                              02
                                                                                 25
                                                                                   90



                                                                          rs1
                                                                             15
                                                                               97
                                                                                 99

                                                                          rs9
                                                                             41
                                                                               73
                                                                                 1




-automatizable
                                                                          rs1
                                                                             00
                                                       Gen5




                                                                               79
                                                                                 04




-manejo mayor nº muestras
-no requiere equipos especiales
                                                                                               ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                         UAT
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                                UAT
Limitaciones de los arrays de captura:

Respecto al diseño:
    • Hay que conocer la secuencia para poder diseñar el array
    • Las sondas no cubren el 100% de la región a capturar, p.ej. se evitan siempre las regiones con
    secuencias repetitivas para evitar capturas “off-target”

Respecto al resultado del proceso de captura:
    •% alto de lecturas “off-target”, sobre todo en regiones pequeñas (50-70%), y mayor en solución que
    en sólido
    •la cobertura puede no ser uniforme, especialmente en regiones ricas en GC




En el caso de Nimblegen:
    •aunque son más baratos que secuenciar un genoma completo, son caros (se abaratan
    proporcionalmente para muchas muestras)
    •no generan un solo array a la carta, el mínimo es de 4 o 12 arrays (según el tipo)
    •el tiempo de diseño & manufactura es relativamente largo (6-8 semanas)
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                              UAT




            •Roche/Nimblegen's SeqCap EZ Exome Library v2.0

            •Agilent's SureSelect Human All Exon 50Mb

            •Illumina's TruSeq Exome Enrichment
5     ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                           UAT



                             Metrics of the three capture systems




                                             Method
    “To assess the enrichment efficiency of each platform, we sequenced libraries generated from
    genomic DNA derived from peripheral blood mononuclear cells (PBMCs) of a healthy volunteer of
    European descent. Exome DNA was enriched with each platform according to the manufacturers'
    recommendation. For each exome library, 112–184 million (M) 101-bp paired-end reads were
    generated using one lane of an Illumina HiSeq 2000 and mapped using the Burrows-Wheeler
    Alignment tool (BWA)”.
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                                              UAT
Target enrichment efficiency:


                                                                         10x             20x            30x




                                                   % Targeted bases
                                                       Total bases
      98,6 % of bases
      96,6 % of bases   were covered at least 1x
      97,1 % of bases




                                                                      Higher density design, higher efficiency
                                                                      Lower density design captures more total bases
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                       UAT




Off-target enrichment and GC biass:




                                      -PCR efficiency (library generation)
                                      -hybridization with the oligonucleotide probes
5   ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                             UAT
    Exome-Seq variant statistics:




    Variant detection overlap between exome-seq and WGS by platform:


                                                                        (coverage previously normalized)




     Disease associated   Low cov. in WGS        Enrichment failure
                          Many false positives   Many false positives
5     ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
                                                                                                      UAT



                                         CONCLUSIONS

    •We have observed that the densely packed, overlapping baits of the Nimblegen SeqCap EZ
    Exome demonstrate the highest efficiency target enrichment, able to adequately cover the largest
    proportion of its targeted bases with the least amount of sequencing. Therefore, the Nimblegen
    platform is superior to the other two platforms for research restricted to the regions that it covers.


    •Comparison with a large database of disease-related variants classified 456 Agilent, 369
    Nimblegen and 467 Illumina exome sequencing–specific SNVs as associated with human
    diseases. Three hundred and one of these were common between all three platforms, suggesting
    that some regions missed by WGS but captured by exome sequencing have clinical relevance.


    •It may be argued that the importance of targeted sequencing is transient and will diminish as WGS
    becomes less expensive. However, we found that exome sequencing can identify variants that
    are not evident in WGS because of greater base coverage after enrichment. Even at
    equivalent coverage levels, specific regions had higher read depth in exome sequencing resulting
    in greater sensitivity in those regions. Target capture by exome sequencing unambiguously
    identified some of these difficult regions through preferential selection and observation at higher
    local read depth.

Más contenido relacionado

La actualidad más candente

Biologia molecular y ingenieria genetica
Biologia molecular y ingenieria geneticaBiologia molecular y ingenieria genetica
Biologia molecular y ingenieria genetica
Dimitri Valenzuela
 
Clase 15. TecnologíA Del Dna Recombinante
Clase 15. TecnologíA Del Dna RecombinanteClase 15. TecnologíA Del Dna Recombinante
Clase 15. TecnologíA Del Dna Recombinante
Daniel
 
Biologia molecular 2_clase
Biologia molecular 2_claseBiologia molecular 2_clase
Biologia molecular 2_clase
marcelajacobi27
 
Micro arreglos o microarrays
Micro arreglos o microarraysMicro arreglos o microarrays
Micro arreglos o microarrays
Victor González
 
Tecnología Adn Recombinante 2003
Tecnología Adn Recombinante 2003Tecnología Adn Recombinante 2003
Tecnología Adn Recombinante 2003
Cristela
 

La actualidad más candente (20)

Ingenieria genetica
Ingenieria geneticaIngenieria genetica
Ingenieria genetica
 
Biologia molecular adn
Biologia molecular adnBiologia molecular adn
Biologia molecular adn
 
Biologia molecular y ingenieria genetica
Biologia molecular y ingenieria geneticaBiologia molecular y ingenieria genetica
Biologia molecular y ingenieria genetica
 
ISSR inter simple sequence repeat
ISSR inter simple sequence repeatISSR inter simple sequence repeat
ISSR inter simple sequence repeat
 
Tecnología del adn recombinante
Tecnología del adn recombinanteTecnología del adn recombinante
Tecnología del adn recombinante
 
articulo
articuloarticulo
articulo
 
Biografía Kary Banks Mullis
Biografía Kary Banks Mullis Biografía Kary Banks Mullis
Biografía Kary Banks Mullis
 
Tecnologías del ADN recombinante
Tecnologías del ADN recombinanteTecnologías del ADN recombinante
Tecnologías del ADN recombinante
 
Informe biotecnologia SnapGene
Informe biotecnologia SnapGeneInforme biotecnologia SnapGene
Informe biotecnologia SnapGene
 
Finger printing
Finger printingFinger printing
Finger printing
 
Microarreglos de dna completa
Microarreglos de dna completaMicroarreglos de dna completa
Microarreglos de dna completa
 
Southern Blot
Southern BlotSouthern Blot
Southern Blot
 
Adn Recombinante
Adn RecombinanteAdn Recombinante
Adn Recombinante
 
Clase 15. TecnologíA Del Dna Recombinante
Clase 15. TecnologíA Del Dna RecombinanteClase 15. TecnologíA Del Dna Recombinante
Clase 15. TecnologíA Del Dna Recombinante
 
Biologia molecular 2_clase
Biologia molecular 2_claseBiologia molecular 2_clase
Biologia molecular 2_clase
 
Micro arreglos o microarrays
Micro arreglos o microarraysMicro arreglos o microarrays
Micro arreglos o microarrays
 
Tema 16 adn y la ingenieria genetica
Tema 16 adn y la ingenieria geneticaTema 16 adn y la ingenieria genetica
Tema 16 adn y la ingenieria genetica
 
Ingeniería genética...
Ingeniería genética...Ingeniería genética...
Ingeniería genética...
 
Tecnología Adn Recombinante 2003
Tecnología Adn Recombinante 2003Tecnología Adn Recombinante 2003
Tecnología Adn Recombinante 2003
 
Medicina Veterinaria y Zootecnia
Medicina Veterinaria y ZootecniaMedicina Veterinaria y Zootecnia
Medicina Veterinaria y Zootecnia
 

Destacado

Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génicaCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
VHIR Vall d’Hebron Institut de Recerca
 
Next generation sequencing
Next generation sequencingNext generation sequencing
Next generation sequencing
Dayananda Salam
 

Destacado (11)

Curso de Genómica - UAT (VHIR) 2012 - Microarrays
Curso de Genómica - UAT (VHIR) 2012 - MicroarraysCurso de Genómica - UAT (VHIR) 2012 - Microarrays
Curso de Genómica - UAT (VHIR) 2012 - Microarrays
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génicaCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCRCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
 
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCRCurso de Genómica - UAT (VHIR) 2012 - RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCR
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGSCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
 
How to cluster and sequence an ngs library (james hadfield160416)
How to cluster and sequence an ngs library (james hadfield160416)How to cluster and sequence an ngs library (james hadfield160416)
How to cluster and sequence an ngs library (james hadfield160416)
 
Next generation sequencing
Next generation sequencingNext generation sequencing
Next generation sequencing
 
NGS technologies - platforms and applications
NGS technologies - platforms and applicationsNGS technologies - platforms and applications
NGS technologies - platforms and applications
 
Ngs ppt
Ngs pptNgs ppt
Ngs ppt
 
Introduction to next generation sequencing
Introduction to next generation sequencingIntroduction to next generation sequencing
Introduction to next generation sequencing
 
NGS - Basic principles and sequencing platforms
NGS - Basic principles and sequencing platformsNGS - Basic principles and sequencing platforms
NGS - Basic principles and sequencing platforms
 

Similar a Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

Secuenciaciondegenomas.pdfSecsuenciacion
Secuenciaciondegenomas.pdfSecsuenciacionSecuenciaciondegenomas.pdfSecsuenciacion
Secuenciaciondegenomas.pdfSecsuenciacion
oxaljayos1
 
Guia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológico
Guia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológicoGuia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológico
Guia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológico
Alonso Custodio
 
Molecular analysis of microbiota associated with peri-implant diseases
Molecular analysis of microbiota associated with peri-implant diseasesMolecular analysis of microbiota associated with peri-implant diseases
Molecular analysis of microbiota associated with peri-implant diseases
Laura M.
 
Genetic characterization of german mycobacterium avium strains
Genetic characterization of german mycobacterium avium strainsGenetic characterization of german mycobacterium avium strains
Genetic characterization of german mycobacterium avium strains
Andrea López
 

Similar a Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento (20)

Práctica de laboratorio pcr
Práctica de laboratorio pcrPráctica de laboratorio pcr
Práctica de laboratorio pcr
 
Secuenciaciondegenomas.pdfSecsuenciacion
Secuenciaciondegenomas.pdfSecsuenciacionSecuenciaciondegenomas.pdfSecsuenciacion
Secuenciaciondegenomas.pdfSecsuenciacion
 
Guia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológico
Guia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológicoGuia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológico
Guia IX-X: Toma de muestra y Diagnóstico Viral - Métodos de estudio virológico
 
Seminario biomol
Seminario biomolSeminario biomol
Seminario biomol
 
Tecnicadepcr
TecnicadepcrTecnicadepcr
Tecnicadepcr
 
Pcr en tiempo real
Pcr en tiempo real Pcr en tiempo real
Pcr en tiempo real
 
Metodos modernos de diagnostico de enfermedades en plantas
Metodos modernos de diagnostico de enfermedades en plantasMetodos modernos de diagnostico de enfermedades en plantas
Metodos modernos de diagnostico de enfermedades en plantas
 
Reacción en cadena de la polimerasa
Reacción en cadena de la polimerasaReacción en cadena de la polimerasa
Reacción en cadena de la polimerasa
 
Legionella
LegionellaLegionella
Legionella
 
Seminario biologia molecular. Luisa Maria Posso Ramirez. UPB
Seminario biologia molecular. Luisa Maria Posso Ramirez. UPBSeminario biologia molecular. Luisa Maria Posso Ramirez. UPB
Seminario biologia molecular. Luisa Maria Posso Ramirez. UPB
 
Pruebas microbiologicas en periodoncia
Pruebas microbiologicas en periodonciaPruebas microbiologicas en periodoncia
Pruebas microbiologicas en periodoncia
 
Nosocomial infections with metallo-beta-lactamaseproducing Pseudomonas aerugi...
Nosocomial infections with metallo-beta-lactamaseproducing Pseudomonas aerugi...Nosocomial infections with metallo-beta-lactamaseproducing Pseudomonas aerugi...
Nosocomial infections with metallo-beta-lactamaseproducing Pseudomonas aerugi...
 
Métodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
Métodos y estrategias de secuenciamiento de alto rendimiento. AplicacionesMétodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
Métodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
 
Identificación bacteriana mediante secuenciación del ARNr 16S_ fundamento, me...
Identificación bacteriana mediante secuenciación del ARNr 16S_ fundamento, me...Identificación bacteriana mediante secuenciación del ARNr 16S_ fundamento, me...
Identificación bacteriana mediante secuenciación del ARNr 16S_ fundamento, me...
 
Molecular analysis of microbiota associated with peri-implant diseases
Molecular analysis of microbiota associated with peri-implant diseasesMolecular analysis of microbiota associated with peri-implant diseases
Molecular analysis of microbiota associated with peri-implant diseases
 
TECNICAS MOLECULARES
TECNICAS MOLECULARESTECNICAS MOLECULARES
TECNICAS MOLECULARES
 
Gonzalez m
Gonzalez mGonzalez m
Gonzalez m
 
Genetic characterization of german mycobacterium avium strains
Genetic characterization of german mycobacterium avium strainsGenetic characterization of german mycobacterium avium strains
Genetic characterization of german mycobacterium avium strains
 
Presentació Beatriz.pptx
Presentació Beatriz.pptxPresentació Beatriz.pptx
Presentació Beatriz.pptx
 
La Biodosimetría y sus aplicaciones en respuesta a emergencias radiológicas y...
La Biodosimetría y sus aplicaciones en respuesta a emergencias radiológicas y...La Biodosimetría y sus aplicaciones en respuesta a emergencias radiológicas y...
La Biodosimetría y sus aplicaciones en respuesta a emergencias radiológicas y...
 

Más de VHIR Vall d’Hebron Institut de Recerca

Más de VHIR Vall d’Hebron Institut de Recerca (20)

Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
 
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
 
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
 
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
 
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
 
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
 
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
 
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
 
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
 
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
 
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
 
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
 
Information management at vhir ueb using tiki-cms
Information management at vhir ueb using tiki-cmsInformation management at vhir ueb using tiki-cms
Information management at vhir ueb using tiki-cms
 
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
 
Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis
Course VHIR-UCTS-UEB - Session 3 -  Statistical AnalysisCourse VHIR-UCTS-UEB - Session 3 -  Statistical Analysis
Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis
 
Course VHIR-UCTS-UEB - Session 2 - RTqPCR
Course VHIR-UCTS-UEB - Session 2 -  RTqPCRCourse VHIR-UCTS-UEB - Session 2 -  RTqPCR
Course VHIR-UCTS-UEB - Session 2 - RTqPCR
 
Course VHIR-UCTS-UEB - Session 1 - Microarrays
Course VHIR-UCTS-UEB - Session 1 - MicroarraysCourse VHIR-UCTS-UEB - Session 1 - Microarrays
Course VHIR-UCTS-UEB - Session 1 - Microarrays
 
2011 use r_tiki_pluginr
2011 use r_tiki_pluginr2011 use r_tiki_pluginr
2011 use r_tiki_pluginr
 
Curs einesbioinformatiques juny2011_bloc1_sessio3
Curs einesbioinformatiques juny2011_bloc1_sessio3Curs einesbioinformatiques juny2011_bloc1_sessio3
Curs einesbioinformatiques juny2011_bloc1_sessio3
 

Último

evalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia leeevalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
MaribelGaitanRamosRa
 

Último (20)

El fundamento del gobierno de Dios. El amor
El fundamento del gobierno de Dios. El amorEl fundamento del gobierno de Dios. El amor
El fundamento del gobierno de Dios. El amor
 
PLAN DE TRABAJO CONCURSO NACIONAL CREA Y EMPRENDE.docx
PLAN DE TRABAJO CONCURSO NACIONAL CREA Y EMPRENDE.docxPLAN DE TRABAJO CONCURSO NACIONAL CREA Y EMPRENDE.docx
PLAN DE TRABAJO CONCURSO NACIONAL CREA Y EMPRENDE.docx
 
Sesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdfSesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdf
 
Proyecto Integrador 2024. Archiduque entrevistas
Proyecto Integrador 2024. Archiduque entrevistasProyecto Integrador 2024. Archiduque entrevistas
Proyecto Integrador 2024. Archiduque entrevistas
 
Proceso de admisiones en escuelas infantiles de Pamplona
Proceso de admisiones en escuelas infantiles de PamplonaProceso de admisiones en escuelas infantiles de Pamplona
Proceso de admisiones en escuelas infantiles de Pamplona
 
32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf
32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf
32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf
 
La Hegemonía Liberal en Paraguay 1904 a 1936.ppt
La Hegemonía Liberal en Paraguay 1904 a 1936.pptLa Hegemonía Liberal en Paraguay 1904 a 1936.ppt
La Hegemonía Liberal en Paraguay 1904 a 1936.ppt
 
Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...
 
5.Deicticos Uno_Enfermería_EspanolAcademico
5.Deicticos Uno_Enfermería_EspanolAcademico5.Deicticos Uno_Enfermería_EspanolAcademico
5.Deicticos Uno_Enfermería_EspanolAcademico
 
Módulo No. 1 Salud mental y escucha activa FINAL 25ABR2024 técnicos.pptx
Módulo No. 1 Salud mental y escucha activa FINAL 25ABR2024 técnicos.pptxMódulo No. 1 Salud mental y escucha activa FINAL 25ABR2024 técnicos.pptx
Módulo No. 1 Salud mental y escucha activa FINAL 25ABR2024 técnicos.pptx
 
2º conclusiones descriptivas educacion fisica (1).docx
2º conclusiones descriptivas educacion fisica (1).docx2º conclusiones descriptivas educacion fisica (1).docx
2º conclusiones descriptivas educacion fisica (1).docx
 
El fundamento del gobierno de Dios. Lec. 09. docx
El fundamento del gobierno de Dios. Lec. 09. docxEl fundamento del gobierno de Dios. Lec. 09. docx
El fundamento del gobierno de Dios. Lec. 09. docx
 
1º GRADO CONCLUSIONES DESCRIPTIVAS PRIMARIA.docx
1º GRADO CONCLUSIONES DESCRIPTIVAS  PRIMARIA.docx1º GRADO CONCLUSIONES DESCRIPTIVAS  PRIMARIA.docx
1º GRADO CONCLUSIONES DESCRIPTIVAS PRIMARIA.docx
 
4.Conectores Dos_Enfermería_Espanolacademico
4.Conectores Dos_Enfermería_Espanolacademico4.Conectores Dos_Enfermería_Espanolacademico
4.Conectores Dos_Enfermería_Espanolacademico
 
263818760-Un-Embrujo-de-Cinco-Siglos.doc
263818760-Un-Embrujo-de-Cinco-Siglos.doc263818760-Un-Embrujo-de-Cinco-Siglos.doc
263818760-Un-Embrujo-de-Cinco-Siglos.doc
 
Escrito-Contestacion-Demanda-Filiacion.pdf
Escrito-Contestacion-Demanda-Filiacion.pdfEscrito-Contestacion-Demanda-Filiacion.pdf
Escrito-Contestacion-Demanda-Filiacion.pdf
 
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia leeevalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
 
corpus-christi-sesion-de-aprendizaje.pdf
corpus-christi-sesion-de-aprendizaje.pdfcorpus-christi-sesion-de-aprendizaje.pdf
corpus-christi-sesion-de-aprendizaje.pdf
 
Portafolio de servicios Centro de Educación Continua EPN
Portafolio de servicios Centro de Educación Continua EPNPortafolio de servicios Centro de Educación Continua EPN
Portafolio de servicios Centro de Educación Continua EPN
 
Presentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos DigitalesPresentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos Digitales
 

Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

  • 1. UAT APLICACIONES DE LAS TECNOLOGÍAS DE NGS Rosa M. Prieto UAT
  • 2. APLICACIONES DE LAS TECNOLOGÍAS DE NGS UAT 1. ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES 2. ESTUDIOS DE METAGENÓMICA 3. SECUENCIACIÓN DE GENOMAS COMPLETOS 4. RNAseq 5. ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
  • 3. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT HCV, HBV, HIV virus populations has special characteristics:   In an infected patient the population of viruses presents high rates of mutation and replication. It is a complex mixing of different mutants.  Goal of the study:  Detection and quantification of mutations or combination of mutations that could confer resistance to viral inhibitors in samples from infected patients.  Special interest in mutations at a low rate (minor variants).
  • 4. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT WHY IS NGS APPROPIATED FOR THIS KIND OF STUDY?  Minor variants often play an important role in the development of resistance to antiviral treatments in patients, even if they are present in a very low percentage in the population.  Minor variants may not be detected by classical sequencing methods  You obtain hundreds of sequences with much effort and high cost  NextGen sequencing allow to detect efficiently variants at a very low rate  You obtain thousands of sequences with relatively low cost
  • 5. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT VENTAJAS DE LA NGS Para poder detectar variantes poco frecuentes es necesario hacer una cantidad ingente de secuenciación Sanger → las técnicas de NGS generan un número muy alto de secuencias en paralelo con menos esfuerzo y menos coste por secuencia. La secuenciación de amplicones permite la “multiplexación”: secuenciación simultánea de muchas muestras añadiendo a cada amplicón una etiqueta (MID) para poder identificarlo. Rendimiento medio de la carrera: 700.000 secuencias, 450.000 bases Longitud del amplicón a secuenciar: 450 pb 50 pacientes (cada uno con un MID) Total a secuenciar = 450 pb/amplicón * 50 amplicones = 22.500 pb Cobertura media por paciente = 450.000 / 22.500 = 20x (20 lecturas del mismo amplicón) Nº secuencias por paciente = 14.000 ¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA? 454 (Roche GS FLX/GS Junior) Las lecturas largas (hasta 600 pb) permiten identificar de forma inequívoca varias mutaciones presentes en un mismo amplicón. De hecho, este tipo de estudios no puede hacerse con otras plataformas que generen secuencias más cortas que necesiten ser ensambladas.
  • 6. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT 1. Diseño experimental apropiado: variables (n, controles, tratamientos, tiempos....) 2. Obtención de muestras de suero de pacientes infectados y tratados en las diferentes condiciones a incluir en el estudio. 3. Generación de la librería de amplicones. El amplicón debe contener las regiones susceptibles de contener las mutaciones de interés, más la secuencia del MID (si se hace “multiplex”) y las secuencias “clave” y “adaptadora”. La secuenciación es bidireccional. HBV polymerase (P) and surface (S) ORFs anillamiento de beads de captura, cebadores de emPCR y de secuenciación “clave” para la pirosecuenciación (TCAG para amplicones)
  • 7. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT Ultra-Deep Pyrosequencing Detects Conserved Genomic Sites and Quantifies Linkage of Drug-Resistant Amino Acid Changes in the Hepatitis B Virus Genome PLoS One, Rodríguez-Frías et al., 2012 • UDPS detected minor variants comprising less than 0.1% of the HBV viral quasispecies • Identification of mutations in extremely low percentages with an acceptable degree of confidence is limited by: -the number of independent template molecules obtained from the sample analyzed -the coverage or number of reads obtained per base -the number of artifactual errors generated during PCR amplification and pyrosequencing • For these reasons, all the samples selected for the current study carried a high HBV viral load (>105 IU/mL) and the high-fidelity DNA polymerase Pfu turbo was used to bypass the artifactual errors. With this approach, variants comprising as little as 0.03% of the HBV quasispecies could be detected.
  • 8. 2 ESTUDIOS DE METAGENÓMICA. UAT Metagenomics is the study of a collection of genetic material (genomes) from a mixed community of organisms. Metagenomics usually refers to the study of microbial communities. •The biosphere contains between 1030 and 1031 microbial genomes, at least 2–3 orders of magnitude more than the number of plant and animal cells combined. •Microbes associated with the human body outnumber human cells by at least a factor of ten. •The vast majority cannot be cultured. What can we study?
  • 9. 2 ESTUDIOS DE METAGENÓMICA. UAT Unidirectional sequencing (16S rRNA) The 16S rRNA gene is comprised of highly conserved regions interspersed with more variable regions, allowing PCR primers to be designed that are complementary to universally conserved regions flanking variable regions. Wu et al. BMC Microbiol. 2010; 10: 206.
  • 10. 2 ESTUDIOS DE METAGENÓMICA. UAT  Shotgun: ¿qué organismos hay y cómo funciona la comunidad? ¿variaciones en respuesta a modificaciones ambientales, p.ej, contaminación? Aplicaciones: -identificación y clasificación taxonómica de microorganismos presentes -ensamblaje de genomas -predicción y anotación de genes, estudio funcional -comparación de múltiples muestras Inconvenientes: -los organismos más abundantes son los más ampliamente representados en la secuenciación, enmascarando los menos abundantes -necesidad de cobertura alta para encontrar microorganismos poco abundantes → caro  Amplicones 16S rRNA: identificación de microorganismos presentes en la muestra (estudio taxonómico). Inconvenientes: -es posible que la región estudiada no permita asignar una secuencia de forma inequívoca -generación de quimeras durante la amplificación, que hay que eliminar durante el análisis bioinformático
  • 11. 2 ESTUDIOS DE METAGENÓMICA. UAT VENTAJAS DE LA NGS -Secuenciación directa de muestras (la mayoría de los microorganismos no pueden ser cultivados). Muchas comunidades de muestras bacterianas no cultivadas se han estudiado mediante Sanger para determinar las secuencias 16SrRNA. -Las técnicas de NGS permiten obtener un número muy alto de secuencias en paralelo, lo que permite obtener una representación de la diversidad microbiana presente en la muestra con menor esfuerzo que usando secuenciación Sanger. ¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA? 454 (Roche GS FLX/GS Junior) With the recently capability to sequence >400 nt, it will be possible to span most hypervariable regions, multiple adjacent hypervariable regions, or possibly combinations of non-adjacent hypervariable regions through paired-end sequencing strategies (Huse et al., PLoS Genetics 2008)
  • 12. 2 ESTUDIOS DE METAGENÓMICA. UAT Sampling and pyrosequencing methods for characterizing bacterial communities in the human gut using 16S sequence tags. Wu et al. BMC Microbiol. 2010; 10: 206. This is a study of methods for surveying bacterial communities in human feces using 454/Roche pyrosequencing of 16S rRNA gene tags. Comparison of different methods of sample storage (no effect), DNA extraction and purification (great effect), set of primers for amplification of several variable regions (effect) and GS FLX vs. GS FLX Titanium sequencing (no effect). We did find that the choice of 16S rRNA gene region used for analysis had a noticeable effect, with the V6-V9 region representing an outlier. The V6-V9 primers consistently showed the lowest percentage of taxonomic assignments at the genus level. We note that our choice of V6-V9 primer and sequencing direction did not cover the V6 regions efficiently. Composition of the gut microbiome in the ten subjects studied.
  • 13. 2 ESTUDIOS DE METAGENÓMICA. UAT NIH Human Microbiome Project
  • 14. 2 ESTUDIOS DE METAGENÓMICA. UAT •To establish associations between the genes of the human intestinal microbiota and our health and disease. • Focused on two disorders of increasing importance in Europe, Inflammatory Bowel Disease (IBD) and obesity.
  • 15. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT ¿Cómo se secuencia un genoma completo? Caso A: no existe un genoma de referencia (secuenciación “de novo”) Caso B: existe un genoma de referencia (resecuenciación)
  • 16. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Secuenciación “de novo” (por ejemplo, bacterias, plantas....): 1) GS FLX de Roche, usando librerías de PE+librerías de shotgun: “andamio” con baja cobertura 2) Illumina o SOLiD: secuenciación con cobertura alta 3) “Rellenar huecos” mediante secuenciación Sanger 4) Análisis bioninformático (ensamblaje, anotación funcional, búsqueda de variantes, etc.) 5) Validación mediante tecnologías complementarias (ej. arrays de SNPs) 2 2 1 3 3 4
  • 17. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT DNA genómico de alto peso molecular 500 ng mínimo 15 µg Resecuenciación Secuenciación de novo
  • 18. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Performance comparison of benchtop high-troughput sequencing platforms. Nat. Biotechn. 30 (5): 434-441 (2012) Secuenciación de la cepa bacteriana E. coli O104:H4 con GS Junior, MiSeq, PGM. 1. Creación de un ensamblaje de referencia (Roche GS FLX+ shotgun + 8 Kb PE, coverage 32x). Contiene 1 cromosoma (5.3 kb) y 2 plásmidos. Quedan 153 gaps correspondientes a regiones repetitivas sin resolver. 2. Secuenciación de la misma cepa usando: • 2 runs del 454 GS Junior • 2 chips 316 del Ion Torrent PGM • 1 run del MiSeq (2x150 bases)
  • 19. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Performance comparison of benchtop high-troughput sequencing platforms. Nat. Biotechn. 30 (5): 434-441 (2012) Conclusions: “One important conclusion from this evaluation is that saying that one has “sequenced a bacterial genome” means different things on different benchtop sequencing platforms” MiSeq GS Junior IonTorrent Throughput/run The highest The lowest The fastest Errors The lowest Intermediate(indels) Many, specially in homopolymers Read length Intermediate The longest (520 bp) The shortest (100bp) (2x150bp) Run time The longest (27 Intermediate (9 hr) The shortest (3 hr) hr) Price per Mb The cheapest The most expensive Intermediate Other Unfillable gaps Errors in homopolymers The worstest considerations performance
  • 20. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Resecuenciación, por ejemplo de genomas humanos: 1) Secuenciación: • Illumina o SOLiD: recomendados por su rendimiento elevado (en Gb de secuencia obtenidos), precio por secuencia bajo. Tiempo de carrera largo. • Roche: no recomendado por su rendimiento medio-bajo y por su elevado coste (sólo es abordable para genomas pequeños, p.ej. microbianos). Tiempo de carrera corto. •Ion Proton: recomendado por su rendimiento medio-alto (previsto hasta 10 Gb), precio por secuencia bajo, tiempo de carrera corto. Rápidos avances en la tecnología. 2) “Rellenar huecos” mediante secuenciación Sanger. 3) Análisis bioinformático (ensamblaje, anotación funcional, variantes....) 4) Validación mediante tecnologías complementarias
  • 21. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT • La pequeña fracción del genoma con variaciones entre los individuos puede explicar diferencias en la susceptibilidad a una enfermedad, en la respuesta a fármacos o en la reacción a factores ambientales. El “Proyecto de los 1000 genomas” tratará de establecer un mapa del genoma humano que incluya la descripción de la mayor cantidad posible de variaciones en el mismo, mejorando de forma espectacular la información obtenida con el proyecto HapMap. • El proyecto se realiza con el soporte principal de tres instituciones: el Wellcome Trust Sanger Institute (Hinxton, Inglaterra), el Beijing Genomics Institute (Shenzen, China) y el National Human Genome Research Institute, que forma parte del NIH (National Institutes of Health, USA).
  • 22. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Methods: 1-Low coverage (5x) sequencing: SOLiD+Illumina 2-Whole exome sequencing (80× average coverage across a consensus target of 24 Mb spanning more than 15,000 genes)): SeqCap EZHuman Exome Library, Nimblegen, and SureSelect All Exon V2 Target Enrichment kit from Agilent. 3-SNP genotyping: Initially all samples were typed using a Sequenom MassArray SNP Genotyping panel of 23 SNPs and one gender determining assay to establish a genetic fingerprint. After gender concordance was verified the samples were placed on 96 well plates using the llumina HumanOmni2.5OQuad v1.0 B SNP array.
  • 23. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT El proyecto publicará el genotipo de los voluntarios, junto con información detallada de su fenotipo: registros médicos, varios análisis, imágenes RM, etc. Toda la información estará disponible para cualquiera en Internet, para que investigadores puedan probar varias hipótesis acerca de las relaciones entre el genotipo, el ambiente y el fenotipo.
  • 24. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT
  • 25. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT What is ClinVar? The goal of ClinVar is to provide a freely accessible, public archive of reports of the relationships among human variations and phenotypes along with supporting evidence. By so doing, ClinVar will facilitate access to and communication about the relationships asserted between human variation and observed health status. ClinVar collects reports of variants found in patient samples, assertions made regarding their clinical significance, information about the submitter, and other supporting data. The alleles described in the submissions are mapped to reference sequences, and reported according to the HGVS standard.
  • 26. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT ¿Cuánto cuesta secuenciar un genoma humano completo? (human-sized genome: 3 Gb) 1ª generación 2ª generación 1ª generación 2ª generación COSTS include: •Labor, administration, management, utilities, reagents, and consumables •Sequencing instruments and other large equipment (amortized over three years) •Informatics activities directly related to sequence production •Shotgun library construction (required for preparing DNA to be sequenced) •Submission of data to a public database •Indirect Costs ‘Sequence coverage' values used in calculating the cost per genome: • Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage • 454 sequencing (average read length=300-400 bases): 10-fold coverage resequencing projects • Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage
  • 27. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT
  • 28. 4 RNAseq UAT ¿Cuál es el material de partida? Todas las especies de RNA: -RNA total (mRNA o especies de RNA no codificantes) -mRNA (análisis del transcriptoma) -small RNA (p.ej. microRNA) ¿Qué podemos estudiar?  Sitios de inicio de la transcripción  RNA-Seq específico de cadena  Patrones de procesamiento alternativo  Fusiones génicas  Perfil de RNAs de pequeño tamaño  Secuenciación directa de RNA (Helicos Bioscience)
  • 29. 4 RNAseq Construcción de librerías para RNA sequencing UAT Total RNA RNA fragmentation+cDNA synthesis Small RNAs Direct RNA sequencing (Helicos) Reference genome/transcriptome “De novo” assembly
  • 30. 4 RNAseq Consideraciones a tener en cuenta UAT • El mRNA se transcribe a partir de exones que están separados por intrones de un tamaño mucho mayor: mapear las lecturas sobre un genoma puede ser complicado, especialmente si se utilizan lecturas cortas. • El rango dinámico de los niveles de expresión génica es muy amplio, por tanto la abundancia relativa de las especies de RNA es muy variable, de 105 a 107 órdenes de magnitud. • Debido a la particularidad anterior, podemos encontrarnos con que al secuenciar una librería de cDNA la mayoría de las lecturas corresponden a una pequeña fracción de genes altamente expresados, por ejemplo, genes ribosomales. Por ello puede ser recomendable “normalizar” la librería antes de secuenciarla, es decir, reducir el rango de las especies más abundantes al de las menos abundantes con el fin de obtener una mejor representación de todos los RNAs presentes. • Los diferentes tipos de RNA tienen particularidades y tamaños muy diferentes: – Para aislar los RNAs de pequeño tamaño hay que utilizar protocolos específicos – La construcción de las librerías de cDNA puede introducir un “bias” • El RNA se degrada más fácilmente que el DNA. Hay protocolos para extracción de RNA de muestras parafinadas y para comenzar la ultrasecuenciación con muy poca cantidad de RNA y de baja calidad (teniendo en cuenta que “garbage in=garbage out”.
  • 31. 4 RNAseq Normalización de una librería de cDNA UAT (DSN) Tránscritos muy expresados: reducción 10x Tránscritos poco expresados: enriquecimiento 10x Desventaja: en una librería normalizada no se pueden cuantificar niveles de expresión de los tránscritos.
  • 32. 4 RNAseq UAT Comparación RNAseq. vs. microarrays para el análisis del transcriptoma 500 pg RNAt 100 pg RNAt (Illumina), 500 pg (Roche) Wang et al., Nat. Rev. Genetics 10 (2009) Lecturas largas (Roche/454) Lecturas cortas (SOLiD, Illumina) Ensamblaje de transcriptomas “de novo”, Resecuenciación de transcriptomas, secuenciación “de novo” en identificación de tránscritos de fusión (ej. en cáncer), detección combinación con la tecnología de Roche de variantes de splicing Util para transcriptomas pequeños o para generar un “andamio” Por su alto rendimiento, estas plataformas proporcionan una inicial que se rellene con lecturas cortas profundidad de lectura muy alta Para transcriptomas grandes (ej. humano), el coste es Mucho más económicas por base que la tecnología 454 prohibitivo
  • 33. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT La secuenciación de un genoma completo es complejo y caro, y puede ser innecesario, p. ej. en aquellos casos donde se sospecha cuál es la región génica responsable de un determinado fenotipo. En estos casos se puede “capturar” la región de interés antes de secuenciarla. VENTAJAS: -sistema flexible: existen arrays prediseñados (exoma) o se pueden hacer “a la carta” a partir de las coordenadas génicas de la región de interés -más barato y más sencillo que secuenciar el genoma completo (tanto técnicamente como desde el punto de vista bioinformático). Por el mismo precio se pueden secuenciar más muestras. -tamaño del genoma a secuenciar menor: permite aumentar el “coverage” PLATAFORMAS DE ARRAYS DE CAPTURA DE SECUENCIA: -Nimblegen -Sistema SureSelect (Agilent) -FebIt
  • 34. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Nimblegen Capture Arrays Format ARRAY DISEÑO Exome array v3.0 Exones codificantes y miRNAs(64 Mb total) Exome array v2.0 Exones codificantes y miRNAs(44,1 Mb total) Exome +UTR Exones codificantes y miRNAs(64 Mb total), más 32 Mb de 5’ y 3’- UTRs Exome plus Exones codificantes y miRNAs(64 Mb total), más 50 Mb a la carta Choice library Captura a la carta de regiones de entre 100 Kb y 7 Mb Choice library XL Captura a la carta de regiones de entre 7 y 50 Mb Developer library Captura a la carta de regiones de interés de hasta 50 Mb en especies diferentes a la humana Paneles prediseñados Comprehensive Cancer, Neurology, 50 MB UTR, Soybean Exome, Mouse Exome, Human MHC, Baylor Vchrome (exome)
  • 35. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT
  • 36. 5 Gen1 rs1 50 01 23 Gen2 D1 59 4S D1 10s 4S r 31 7 99 99 D1 16 D 56 14S 7 Gen3 68 4S D1 25rs 4S 6 71 95 72 D1 Diseño del array 10 4S 44 rs7 55 D1 102 28 4S 0s r9 72 rs8 905 82 02 3 ROI Gen4 rs1 0 rs7 0495 42 8 89 3 rs1 05 rs1 4195 00 78 13 rs2 36 9 X D1 522 56 4S 5 rs1 02 25 90 rs1 15 97 99 rs9 41 73 1 -automatizable rs1 00 Gen5 79 04 -manejo mayor nº muestras -no requiere equipos especiales ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT
  • 37. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Limitaciones de los arrays de captura: Respecto al diseño: • Hay que conocer la secuencia para poder diseñar el array • Las sondas no cubren el 100% de la región a capturar, p.ej. se evitan siempre las regiones con secuencias repetitivas para evitar capturas “off-target” Respecto al resultado del proceso de captura: •% alto de lecturas “off-target”, sobre todo en regiones pequeñas (50-70%), y mayor en solución que en sólido •la cobertura puede no ser uniforme, especialmente en regiones ricas en GC En el caso de Nimblegen: •aunque son más baratos que secuenciar un genoma completo, son caros (se abaratan proporcionalmente para muchas muestras) •no generan un solo array a la carta, el mínimo es de 4 o 12 arrays (según el tipo) •el tiempo de diseño & manufactura es relativamente largo (6-8 semanas)
  • 38. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT •Roche/Nimblegen's SeqCap EZ Exome Library v2.0 •Agilent's SureSelect Human All Exon 50Mb •Illumina's TruSeq Exome Enrichment
  • 39. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Metrics of the three capture systems Method “To assess the enrichment efficiency of each platform, we sequenced libraries generated from genomic DNA derived from peripheral blood mononuclear cells (PBMCs) of a healthy volunteer of European descent. Exome DNA was enriched with each platform according to the manufacturers' recommendation. For each exome library, 112–184 million (M) 101-bp paired-end reads were generated using one lane of an Illumina HiSeq 2000 and mapped using the Burrows-Wheeler Alignment tool (BWA)”.
  • 40. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Target enrichment efficiency: 10x 20x 30x % Targeted bases Total bases 98,6 % of bases 96,6 % of bases were covered at least 1x 97,1 % of bases Higher density design, higher efficiency Lower density design captures more total bases
  • 41. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Off-target enrichment and GC biass: -PCR efficiency (library generation) -hybridization with the oligonucleotide probes
  • 42. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Exome-Seq variant statistics: Variant detection overlap between exome-seq and WGS by platform: (coverage previously normalized) Disease associated Low cov. in WGS Enrichment failure Many false positives Many false positives
  • 43. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT CONCLUSIONS •We have observed that the densely packed, overlapping baits of the Nimblegen SeqCap EZ Exome demonstrate the highest efficiency target enrichment, able to adequately cover the largest proportion of its targeted bases with the least amount of sequencing. Therefore, the Nimblegen platform is superior to the other two platforms for research restricted to the regions that it covers. •Comparison with a large database of disease-related variants classified 456 Agilent, 369 Nimblegen and 467 Illumina exome sequencing–specific SNVs as associated with human diseases. Three hundred and one of these were common between all three platforms, suggesting that some regions missed by WGS but captured by exome sequencing have clinical relevance. •It may be argued that the importance of targeted sequencing is transient and will diminish as WGS becomes less expensive. However, we found that exome sequencing can identify variants that are not evident in WGS because of greater base coverage after enrichment. Even at equivalent coverage levels, specific regions had higher read depth in exome sequencing resulting in greater sensitivity in those regions. Target capture by exome sequencing unambiguously identified some of these difficult regions through preferential selection and observation at higher local read depth.