SlideShare una empresa de Scribd logo
1 de 109
Descargar para leer sin conexión
Sequenziamento e Analisi
                         Bioinformatica del Genoma
                                  Umano

                                        Frederic Reinier
                                         reinier@crs4.it
                             Sala Auditorium, Via Roma 253 Cagliari
                                          11/05/2011




venerdì 13 maggio 2011
• Cos’è il genoma umano ?
                  – 46 cromosomi distinti (22 coppie di autosomi + X + Y)
                  – ∼3,2 miliardi di paia di basi A-T e G-C.
                  – ∼20,000–25,000 geni.




                                                                            3

venerdì 13 maggio 2011
• Cos’è il sequenziamento ?
                         – Il sequenziamento del DNA è la determinazione dell'ordine dei
                           diversi nucleotidi (basi) (Adenina, Citosina, Guanina e Timina) che
                           costituiscono l'acido nucleico (DNA).




                                                                                                 4

venerdì 13 maggio 2011
• Sequenziamento “ad alta processività”
                         • Vantaggi delle piattaforme di nuova generazione

           • Rivoluzionaria diminuzione del costo e del tempo per generare dati di
           sequenza (lavorano in multi‐parallelo)
                     – 10 Giorni per sequenziare il genoma di un individuo

           • Richiesta meno robotica nelle fasi precedenti al caricamento sul
           sequenziatore

           • Eccezionale risoluzione per molti tipi di esperimenti (es. analisi di
           espressione, sequenziamento di DNA immunoprecipitato e di micro RNA,
           analisi di medie/grandi inserzioni‐delezioni nei genomi....)




                                                                                     5

venerdì 13 maggio 2011
•Work ow del sequenziamento




                                                       6

venerdì 13 maggio 2011
•Work ow del sequenziamento




                                                       6

venerdì 13 maggio 2011
•Work ow del sequenziamento




                                                       6

venerdì 13 maggio 2011
•Primo Step - Preparazione del DNA




                                                              7

venerdì 13 maggio 2011
8

venerdì 13 maggio 2011
• DNA fragmentation




                             9

venerdì 13 maggio 2011
10

venerdì 13 maggio 2011
La Flowcell è un supporto in vetro delle dimensioni di un vetrino da microscopio
       contenente 8 “lane” a loro volta suddivise in 120 “tile” - quadrati in cui è possibile
       fissare circa 220.000 molecole di DNA.
                                                                                                11

venerdì 13 maggio 2011
12

venerdì 13 maggio 2011
frammento originale



                                               Nuovo frammento esteso
                                               del frammento originale.




                                                                          13

venerdì 13 maggio 2011
14

venerdì 13 maggio 2011
15

venerdì 13 maggio 2011
16

venerdì 13 maggio 2011
17

venerdì 13 maggio 2011
18

venerdì 13 maggio 2011
19

venerdì 13 maggio 2011
Stesso fragmento di DNA = CLUSTERS
                                                              20

venerdì 13 maggio 2011
CBOT




                                21

venerdì 13 maggio 2011
CBOT




                                21

venerdì 13 maggio 2011
• Flowcell
                  –contiene i clusters che sono frammenti di DNA.
            • Tempo di preparazione
                  –4 ore
            • Utilizzo della CBOT
                  –permette l’incorporazione dei frammenti di DNA
                   sulla owcell.




                                                                    22

venerdì 13 maggio 2011
Secondo Step - Il Sequenziamento




                                                            23

venerdì 13 maggio 2011
Secondo Step - Il Sequenziamento




                                                            23

venerdì 13 maggio 2011
Secondo Step - Il Sequenziamento




                                                            23

venerdì 13 maggio 2011
Secondo Step - Il Sequenziamento




                                                            23

venerdì 13 maggio 2011
Il laboratorio del CRS4




                                                   24

venerdì 13 maggio 2011
2009




                         25

venerdì 13 maggio 2011
• Al interno del sequenziatore   26

venerdì 13 maggio 2011
Hiseq2000



  2010




                                     27

venerdì 13 maggio 2011
28

venerdì 13 maggio 2011
@ CRS4




                                  29

venerdì 13 maggio 2011
30

venerdì 13 maggio 2011
31

venerdì 13 maggio 2011
G       C       G

 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                              32

venerdì 13 maggio 2011
G       C
                              G
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                  32

venerdì 13 maggio 2011
G       C
                              G   cycle 1
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                            32

venerdì 13 maggio 2011
G       C
                              G   cycle 1
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                            32

venerdì 13 maggio 2011
X


                                            Y
      G       C
                              G   cycle 1
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                                    32

venerdì 13 maggio 2011
G
                                                X


                                            Y
      G       C
                              G   cycle 1
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                                    32

venerdì 13 maggio 2011
G


                                            Y
      G       C
                              G   cycle 1
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                                32

venerdì 13 maggio 2011
G



      G       C
                              G   cycle 1
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                            32

venerdì 13 maggio 2011
G



      G       C
                              G
                              G   cycle 1
 A                    T
          A
                  G
  G

  T
              G       T
 C                        A
                  C
      T




                                            32

venerdì 13 maggio 2011
G



      G       C
                              G
                              G   cycle 1
 A                    T
          A                   T
                  G
  G



              G       T
 C                        A
                  C
      T




                                            32

venerdì 13 maggio 2011
GT



      G       C
                              G
                              G   cycle 1
 A                    T
          A                   T
                              T   cycle 2
                  G
  G



              G       T
 C                        A
                  C
      T




                                             32

venerdì 13 maggio 2011
GT



      G       C
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G



              G       T
 C

                  C
      T




                                         32

venerdì 13 maggio 2011
GT



      G       C
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G
  G                       A   cycle 3


              G       T
 C

                  C
      T




                                         32

venerdì 13 maggio 2011
GTA



      G       C
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3


              G       T
 C

                  C
      T




                                          32

venerdì 13 maggio 2011
GTA



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C

              G       T
 C

                  C
      T




                                          32

venerdì 13 maggio 2011
GTAC



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                           32

venerdì 13 maggio 2011
GTACT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                            32

venerdì 13 maggio 2011
GTACT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                            32

venerdì 13 maggio 2011
GTACT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                            32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4

              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
              G       T
 C

                  C
      T




                                               32

venerdì 13 maggio 2011
GTAC T G



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                               32

venerdì 13 maggio 2011
GTAC T G T



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                 32

venerdì 13 maggio 2011
GTAC T G TC



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                  32

venerdì 13 maggio 2011
GTAC T G TCA



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                   32

venerdì 13 maggio 2011
GTAC T G TCAT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                    32

venerdì 13 maggio 2011
GTAC T G TCATG



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                     32

venerdì 13 maggio 2011
GTAC T G TCATGC



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                      32

venerdì 13 maggio 2011
GTAC T G TCATGCG



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                       32

venerdì 13 maggio 2011
GTAC T G TCATGCG T



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                         32

venerdì 13 maggio 2011
GTAC T G TCATGCG TA



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T




                                                          32

venerdì 13 maggio 2011
GTAC T G TCATGCG TAT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T
                          A




                                                           32

venerdì 13 maggio 2011
GTAC T G TCATGCG TAT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T
                          A




                                                           32

venerdì 13 maggio 2011
GTAC T G TCATGCG TAT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T
                          A
                          C



                                                           32

venerdì 13 maggio 2011
GTAC T G TCATGCG TAT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T
                          A   cycle 99
                          C



                                                           32

venerdì 13 maggio 2011
GTAC T G TCATGCG TAT



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T
                          A   cycle 99
                          C   cycle 100


                                                           32

venerdì 13 maggio 2011
GTAC T G TCATGCG TATA



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T
                          A   cycle 99
                          C   cycle 100


                                                            32

venerdì 13 maggio 2011
GTAC T G TCATGCG TATAC



      G
                          G
                          G   cycle 1
 A                    T
          A               T
                          T   cycle 2
                  G       A
  G                           cycle 3
                          C   cycle 4
                          C
                          T
              G       T
 C                        G
                          T
                  C
      T                   C
                          A
                          T
                          G
                          C
                          G
                          T
                          A
                          T
                          A   cycle 99
                          C   cycle 100


                                                             32

venerdì 13 maggio 2011
33

venerdì 13 maggio 2011
CTAGCGATCAG


                                             CGATGATCGAC

                                            CACAGCAGCTAC



        • 2 Miliardi (2Gbasi) di Clusters sulla owcell
              –2 Miliardi di Reads
                    • 100 Bases per Reads



                          200 GB di basi sequenziate              34

venerdì 13 maggio 2011
• copertura del genoma (coverage)
                  –numero di volte che una base è rappresentata
                   nell’insieme dei reads




                                                                  35

venerdì 13 maggio 2011
• Genome Analyzer (1 owcell)
          – genera 96 000 000 000 (96 Miliardi) di basi.
          – equivalente a 96/3 =~ 32 genomi umani letti una volta.
          – limitazione a 1 individuo/Lane:
                • 32/8 Lanes/2 owcells =~ 2x di copertura del
                   genoma
                                                                     36

venerdì 13 maggio 2011
• Hiseq 2000 (2 owcells)
         – genera 400 000 000 000 (400 Miliardi) di basi.
         – equivalente a 400/3 =~ 133 genomi umani letti una
          volta.
         – limitazione a 1 individuo/Lane:
               • 133/8 Lanes/2 owcells =~ 8,3x di copertura del
                  genoma                                          37

venerdì 13 maggio 2011
1 TB (1 TeraByte) = 1 000 USB keys of 1 GB


                                                       analizza
      immagine (foto)                   32 TB
                                                       automaticamente
      “intensity data”:
                                        2 TB           si può conservare
      prima analisi
      base call /
                                        250 GB         250 GB
      quality data

      allineamento                      6TB            1.2 TB


                            per ogni esperimento: 1.45 TB

                                                                           38

venerdì 13 maggio 2011
39

venerdì 13 maggio 2011
–OK abbiamo tanti reads, ma come li utilizziamo?
                  –Siamo sicuri che questi dati sono di buona qualita ?




                                                                          40

venerdì 13 maggio 2011
il formato FASTQ per le sequenze
           @SEQ_ID
           GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
           +
           !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65



           Sanger format can encode a Phred quality score from
           0 to 93 using ASCII 33 to 126 (although in raw read
           data the Phred quality score rarely exceeds 60, higher
           scores are possible in assemblies or read maps). Also
           used in SAM format.


                                                                          41

venerdì 13 maggio 2011
!"#"#$%&'&(#')*)+
            • Phred-score Quality
   !     !"#"$"%&"'()%&"*
                         ! +,"*-./0$,1(./"234'+56
                         * +,"74,/$14''+8)"/..(."9.(747+'+56"!
            Phred quality scores are         Probability of incorrect base call              Base call accuracy
         logarithmically linked to error
                 probabilities
              Phred Quality Score



    10                                     1 in 10                                90 %

    20                                     1 in 100                               99 %

    30                                     1 in 1000                              99.9 %

    40                                     1 in 10000                             99.99 %

    50                                     1 in 100000                            99.999 %
                                                                                                                  42

venerdì 13 maggio 2011
Terzo Step - Analisi dei Dati




                                                         43

venerdì 13 maggio 2011
Terzo Step - Analisi dei Dati




                                                         43

venerdì 13 maggio 2011
Terzo Step - Analisi dei Dati




                                                         43

venerdì 13 maggio 2011
Terzo Step - Analisi dei Dati




                                                         43

venerdì 13 maggio 2011
BIOINFORMATICS                                      ORIGINAL PAPER
                                                                                                                              Vol. 25 no. 14 2009, pages 1754–1760
                                                                                                                                   doi:10.1093/bioinformatics/btp324


                         Sequence analysis

                         Fast and accurate short read alignment with Burrows–Wheeler
                         transform
                         Heng Li and Richard Durbin∗
                         Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Cambridge, CB10 1SA, UK
                         Received on February 20, 2009; revised on May 6, 2009; accepted on May 12, 2009
                         Advance Access publication May 18, 2009
                         Associate Editor: John Quackenbush


                         ABSTRACT                                                                of scanning the whole genome when few reads are aligned.
                         Motivation: The enormous amount of short reads generated by the         The second category of software, including SOAPv1 (Li et al.,
                         new DNA sequencing technologies call for the development of fast        2008b), PASS (Campagna et al., 2009), MOM (Eaves and
                         and accurate read alignment programs. A first generation of hash         Gao, 2009), ProbeMatch (Jung Kim et al., 2009), NovoAlign
                         table-based methods has been developed, including MAQ, which            (http://www.novocraft.com), ReSEQ (http://code.google.com/p/
                         is accurate, feature rich and fast enough to align short reads from a   re-seq), Mosaik (http://bioinformatics.bc.edu/marthlab/Mosaik) and
                         single individual. However, MAQ does not support gapped alignment       BFAST (http://genome.ucla.edu/bfast), hash the genome. These
                         for single-end reads, which makes it unsuitable for alignment of        programs can be easily parallelized with multi-threading, but they
                         longer reads where indels may occur frequently. The speed of MAQ is     usually require large memory to build an index for the human
                         also a concern when the alignment is scaled up to the resequencing      genome. In addition, the iterative strategy frequently introduced by
                         of hundreds of individuals.                                             these software may make their speed sensitive to the sequencing
                         Results: We implemented Burrows-Wheeler Alignment tool (BWA),           error rate. The third category includes slider (Malhis et al., 2009)
                         a new read alignment package that is based on backward search           which does alignment by merge-sorting the reference subsequences
                         with Burrows–Wheeler Transform (BWT), to efficiently align short         and read sequences.
                         sequencing reads against a large reference sequence such as the            Recently, the theory on string matching using Burrows–Wheeler
                         human genome, allowing mismatches and gaps. BWA supports both           Transform (BWT) (Burrows and Wheeler, 1994) has drawn the
                         base space reads, e.g. from Illumina sequencing machines, and           attention of several groups, which has led to the development of
                         color space reads from AB SOLiD machines. Evaluations on both           SOAPv2 (http://soap.genomics.org.cn/), Bowtie (Langmead et al.,
                         simulated and real data suggest that BWA is ∼10–20× faster than         2009) and BWA, our new aligner described in this article.
                         MAQ, while achieving similar accuracy. In addition, BWA outputs         Essentially, using backward search (Ferragina and Manzini, 2000;
                         alignment in the new standard SAM (Sequence Alignment/Map)              Lippert, 2005) with BWT, we are able to effectively mimic the top-
                         format. Variant calling and other downstream analyses after the         down traversal on the prefix trie of the genome with relatively small
                         alignment can be achieved with the open source SAMtools software        memory footprint (Lam et al., 2008) and to count the number of exact
                         package.                                                                hits of a string of length m in O(m) time independent of the size of
                         Availability: http://maq.sourceforge.net                                the genome. For inexact search, BWA samples from the implicit
                         Contact: rd@sanger.ac.uk                                                prefix trie the distinct substrings that are less than k edit distance
                                                                                                 away from the query read. Because exact repeats are collapsed on        44
                                                                                                 one path on the prefix trie, we do not need to align the reads against
venerdì 13 maggio 2011   1   INTRODUCTION                                                        each copy of the repeat. This is the main reason why BWT-based
• Allineamento con l’algoritmo di BWA
                  – index del genoma di riferimento
                         • divide il genoma di riferimento in diversi pezzi
                  – calcolo delle coordinate di “su x array” con il
                   migliore allineamento sul riferimento index.
                  – conversione della coordinate di “su x array” in
                   coordinate “genomica”.




                                                                              45

venerdì 13 maggio 2011
• Data “management” del formato dei reads
         allineato
           – il formato SAM e BAM sono de niti dalla comunità
            scienti ca internazionale.
           – il programma samtools permette:
                 • di ordinare i reads secondo le coordinate genomiche
                   di allineamento
                 • di creare un formato unico (chiamato SAM o BAM)
                 • il formato BAM è la versione “compressa” del formato
                   SAM.


                                                                          46

venerdì 13 maggio 2011
• GATK
               – GATK ricalibra ( modifica il Phred-score) lo
                score delle basi in un file di sequenze
                allineate
                 • Dopo la ricalibrazione, lo score di ogni
                   sequenza è piu “accurate”, nel senso che la
                   qualità rappresenta la probabilità di non
                   avere allineato correttamente il read sul
                   genoma di riferimento.
                 • Inoltre, la ricalibrazione prova a correggere
                   la qualità in funzione del ciclo di
                   sequenziamento della machina (efficienza
                   dei reagenti chimici) .
                                                                   47

venerdì 13 maggio 2011
!"#
   • Controlli di qualita
         –
                             !"!#$!



                            "%&'()*

                            +,#&-.&/'&,0&11,2313/'&4,5/,67"7879
                               :69,;<=>,7,"8,;?=>@
                            +,"AB&C3D&,'A/)5)E&/E,05E%,F3'%5/&,
                               G&CHACF3/'&
                            +,6B&C3D&,-.315EI,JK,!L=,3E,1&3)E,HAC,H5C)E,
                               M=>,'I'1&)
                            +,NACF311I,6BD,-.315EI,HAC,E%&,13)E,'I'1&)
                               )%A.14,2&,2&E0&&/,OP,3/4,L=


                                                                           48

venerdì 13 maggio 2011
Il genoma di riferimento è una sequenza di DNA assemblato dagli scienziati durante il
          progetto genoma umano.


                                                                                                  49

venerdì 13 maggio 2011
50

venerdì 13 maggio 2011
51

venerdì 13 maggio 2011
• Programmazione Informatica
        –numeri linguaggio di programmazione sono usati:
              •C
              • C++
              • Perl script
              • Python script
              • Bash script
  • Statistica e Matematica
  • Competenze in Biologia

                                                           52

venerdì 13 maggio 2011
• Il sequenziamento del genoma sardo permette
              di definire i caratteri genetici specifici della
              popolazione.
            • Popolazione Isolata
              – Assenza sostanziale di sottostruttura di
                popolazione (basso tasso di immigrazione)
              – Presenza di varianti comuni nei sardi e rare o
                assenti in altre popolazioni
              – Nonostante sia una popolazione europea, si
                comporta come un outlier rispetto alla
                gamma di variabilità europea

                                                                 53

venerdì 13 maggio 2011
BIOMEDICINA      ENERGIA
                       E AMBIENTE
                                    DATA FUSION    Collana di Seminari per la Valorizzazione dei Risultati della Ricerca al CRS4



  prossimo appuntamento... 25 Maggio
     30.03.2011
  2011             Seminario 16:00 -18:00 P.M.
                        AULA MAGNA DIP. FISICA
                                                                Cittadella Universitaria - Monserrato
                                                                                                                                   Nel campo della ricerca biomedica, si possono veri care 3 situazioni in
                                                                                                                                   grado di generare importanti quantità di dati: l’elevato livello di
                                                                                                                                   digitalizzazione dei sistemi informativi sanitari pubblici, la presenza di
                                                                                                                                   rilevanti studi di popolazione su larga scala che raccolgono
                                                                                                                                   informazioni di tipo fenotipico e clinico e la disponibilità di moderni
                                                                                                                                   strumenti d’indagine, come i sequenziatori di nuova generazione,
                                                                                                                                   capaci di produrre importanti quantità di dati genomici.
                         Studi di associazione genetica e
                      disegno sperimentale “caso controllo”:                                                                       La vastità e l’eterogeneità di questi dati implica necessariamente un
                                                                                                                                   nuovo approccio che, separando opportunamente il generico concetto
       applicazioni a diabete di tipo 1 e sclerosi multipla nella popolazione Sarda
                                                                                                                                   del dato dal suo formalismo, permetta il loro e ciente utilizzo per
                                                                                                                                   l’estrazione di informazioni a bene cio della ricerca.

                                                                                                                                   Durante il seminario sarà illustrata l’esperienza del CRS4 nell’approccio
                                                                                                                                   integrato alla gestione e alla fruizione analitica di grosse quantità di
                                                                                                                                   dati biologici e clinici in collaborazione con importanti istituti di
                                                                                                                                   ricerca.

        Relatore                                  I recenti sviluppi delle nuove piattaforme sperimentali consentono
        Ilenia Zara
        CRS4          Relatore: Giammarco Cuccuru di studiare le caratteristiche genetiche di intere popolazioni utlizzando
                                                  volumi di dati sempre crescenti con costi sempre minori.
                                                  Questo tipo di studi rende necessaria l’interazione tra persone con una
                                                  formazione medico/biologica e persone con competenze nei campi
venerdì 13 maggio 2011
                                                  della statistica e dell’informatica.
Ringraziamenti !!
          CHRIS JONES                 LIDIA LEONI
            Ilenia Zara               and her group
          Maria Valentini
         Riccardo Berutti       PATRICIA RODRIGUEZ-TOME
         Rossano Atzeni                and her group

    ANDREA ANGIUS                 FRANCESCO CUCCA
   Maria Francesca Urru              Serena Sanna
      Manuela Oppo                    Carlo Sidore
        Rosella Pilu
      Marco Marcelli                  Groups VALE &
     Roberto Cusano                    OUTREACH

venerdì 13 maggio 2011
Info e iscrizione: www.crs4.it

         Video e slide:
                         facebook.com/crs4fb

                         twitter.com/crs4research

                         youtube.com/CRS4video

                         slideshare.net/CRS4           contatti: calis@crs4.it

venerdì 13 maggio 2011

Más contenido relacionado

Destacado

Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015
Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015
Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015CRS4 Research Center in Sardinia
 
What is the epidemiological evidence linking early life events and cancer ris...
What is the epidemiological evidence linking early life events and cancer ris...What is the epidemiological evidence linking early life events and cancer ris...
What is the epidemiological evidence linking early life events and cancer ris...World Cancer Research Fund International
 
Retroviruses Compressed
Retroviruses CompressedRetroviruses Compressed
Retroviruses Compressedguestc0268e
 
Developmental Origins of Obesity: The Role of Epigenetics
Developmental Origins of Obesity: The Role of EpigeneticsDevelopmental Origins of Obesity: The Role of Epigenetics
Developmental Origins of Obesity: The Role of Epigeneticszferraro
 
Short intro epigenetics & nutrigenomics& the early impact of nutrition
Short intro epigenetics & nutrigenomics& the early impact of nutrition Short intro epigenetics & nutrigenomics& the early impact of nutrition
Short intro epigenetics & nutrigenomics& the early impact of nutrition Norwich Research Park
 
New Generation Sequencing Technologies: an overview
New Generation Sequencing Technologies: an overviewNew Generation Sequencing Technologies: an overview
New Generation Sequencing Technologies: an overviewPaolo Dametto
 
Under the Hood of Alignment Algorithms for NGS Researchers
Under the Hood of Alignment Algorithms for NGS ResearchersUnder the Hood of Alignment Algorithms for NGS Researchers
Under the Hood of Alignment Algorithms for NGS Researchers Golden Helix Inc
 

Destacado (7)

Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015
Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015
Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015
 
What is the epidemiological evidence linking early life events and cancer ris...
What is the epidemiological evidence linking early life events and cancer ris...What is the epidemiological evidence linking early life events and cancer ris...
What is the epidemiological evidence linking early life events and cancer ris...
 
Retroviruses Compressed
Retroviruses CompressedRetroviruses Compressed
Retroviruses Compressed
 
Developmental Origins of Obesity: The Role of Epigenetics
Developmental Origins of Obesity: The Role of EpigeneticsDevelopmental Origins of Obesity: The Role of Epigenetics
Developmental Origins of Obesity: The Role of Epigenetics
 
Short intro epigenetics & nutrigenomics& the early impact of nutrition
Short intro epigenetics & nutrigenomics& the early impact of nutrition Short intro epigenetics & nutrigenomics& the early impact of nutrition
Short intro epigenetics & nutrigenomics& the early impact of nutrition
 
New Generation Sequencing Technologies: an overview
New Generation Sequencing Technologies: an overviewNew Generation Sequencing Technologies: an overview
New Generation Sequencing Technologies: an overview
 
Under the Hood of Alignment Algorithms for NGS Researchers
Under the Hood of Alignment Algorithms for NGS ResearchersUnder the Hood of Alignment Algorithms for NGS Researchers
Under the Hood of Alignment Algorithms for NGS Researchers
 

Más de CRS4 Research Center in Sardinia

Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...CRS4 Research Center in Sardinia
 
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...CRS4 Research Center in Sardinia
 
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid CRS4 Research Center in Sardinia
 
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...CRS4 Research Center in Sardinia
 
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...CRS4 Research Center in Sardinia
 
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015CRS4 Research Center in Sardinia
 
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...CRS4 Research Center in Sardinia
 
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)CRS4 Research Center in Sardinia
 
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...CRS4 Research Center in Sardinia
 
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...CRS4 Research Center in Sardinia
 

Más de CRS4 Research Center in Sardinia (20)

The future is close
The future is closeThe future is close
The future is close
 
The future is close
The future is closeThe future is close
The future is close
 
Presentazione Linea B2 progetto Tutti a Iscol@ 2017
Presentazione Linea B2 progetto Tutti a Iscol@ 2017Presentazione Linea B2 progetto Tutti a Iscol@ 2017
Presentazione Linea B2 progetto Tutti a Iscol@ 2017
 
Iscola linea B 2016
Iscola linea B 2016Iscola linea B 2016
Iscola linea B 2016
 
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
 
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
 
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
 
Big Data Infrastructures - Hadoop ecosystem, M. E. Piras
Big Data Infrastructures - Hadoop ecosystem, M. E. PirasBig Data Infrastructures - Hadoop ecosystem, M. E. Piras
Big Data Infrastructures - Hadoop ecosystem, M. E. Piras
 
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 Big Data Analytics, Giovanni Delussu e Marco Enrico Piras  Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
 
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
 
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
 
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
 
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
 
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
 
SmartGeo/Eiagrid portal (Guido Satta, CRS4)
SmartGeo/Eiagrid portal (Guido Satta, CRS4)SmartGeo/Eiagrid portal (Guido Satta, CRS4)
SmartGeo/Eiagrid portal (Guido Satta, CRS4)
 
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
 
Mobile Graphics (part2)
Mobile Graphics (part2)Mobile Graphics (part2)
Mobile Graphics (part2)
 
Mobile Graphics (part1)
Mobile Graphics (part1)Mobile Graphics (part1)
Mobile Graphics (part1)
 
2015 crs4-seminar-massive-models-full
2015 crs4-seminar-massive-models-full2015 crs4-seminar-massive-models-full
2015 crs4-seminar-massive-models-full
 

Sequenziamento e analisi bioinformatica del genoma umano

  • 1. Sequenziamento e Analisi Bioinformatica del Genoma Umano Frederic Reinier reinier@crs4.it Sala Auditorium, Via Roma 253 Cagliari 11/05/2011 venerdì 13 maggio 2011
  • 2. • Cos’è il genoma umano ? – 46 cromosomi distinti (22 coppie di autosomi + X + Y) – ∼3,2 miliardi di paia di basi A-T e G-C. – ∼20,000–25,000 geni. 3 venerdì 13 maggio 2011
  • 3. • Cos’è il sequenziamento ? – Il sequenziamento del DNA è la determinazione dell'ordine dei diversi nucleotidi (basi) (Adenina, Citosina, Guanina e Timina) che costituiscono l'acido nucleico (DNA). 4 venerdì 13 maggio 2011
  • 4. • Sequenziamento “ad alta processività” • Vantaggi delle piattaforme di nuova generazione • Rivoluzionaria diminuzione del costo e del tempo per generare dati di sequenza (lavorano in multi‐parallelo) – 10 Giorni per sequenziare il genoma di un individuo • Richiesta meno robotica nelle fasi precedenti al caricamento sul sequenziatore • Eccezionale risoluzione per molti tipi di esperimenti (es. analisi di espressione, sequenziamento di DNA immunoprecipitato e di micro RNA, analisi di medie/grandi inserzioni‐delezioni nei genomi....) 5 venerdì 13 maggio 2011
  • 5. •Work ow del sequenziamento 6 venerdì 13 maggio 2011
  • 6. •Work ow del sequenziamento 6 venerdì 13 maggio 2011
  • 7. •Work ow del sequenziamento 6 venerdì 13 maggio 2011
  • 8. •Primo Step - Preparazione del DNA 7 venerdì 13 maggio 2011
  • 10. • DNA fragmentation 9 venerdì 13 maggio 2011
  • 12. La Flowcell è un supporto in vetro delle dimensioni di un vetrino da microscopio contenente 8 “lane” a loro volta suddivise in 120 “tile” - quadrati in cui è possibile fissare circa 220.000 molecole di DNA. 11 venerdì 13 maggio 2011
  • 14. frammento originale Nuovo frammento esteso del frammento originale. 13 venerdì 13 maggio 2011
  • 21. Stesso fragmento di DNA = CLUSTERS 20 venerdì 13 maggio 2011
  • 22. CBOT 21 venerdì 13 maggio 2011
  • 23. CBOT 21 venerdì 13 maggio 2011
  • 24. • Flowcell –contiene i clusters che sono frammenti di DNA. • Tempo di preparazione –4 ore • Utilizzo della CBOT –permette l’incorporazione dei frammenti di DNA sulla owcell. 22 venerdì 13 maggio 2011
  • 25. Secondo Step - Il Sequenziamento 23 venerdì 13 maggio 2011
  • 26. Secondo Step - Il Sequenziamento 23 venerdì 13 maggio 2011
  • 27. Secondo Step - Il Sequenziamento 23 venerdì 13 maggio 2011
  • 28. Secondo Step - Il Sequenziamento 23 venerdì 13 maggio 2011
  • 29. Il laboratorio del CRS4 24 venerdì 13 maggio 2011
  • 30. 2009 25 venerdì 13 maggio 2011
  • 31. • Al interno del sequenziatore 26 venerdì 13 maggio 2011
  • 32. Hiseq2000 2010 27 venerdì 13 maggio 2011
  • 34. @ CRS4 29 venerdì 13 maggio 2011
  • 37. G C G A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 38. G C G A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 39. G C G cycle 1 A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 40. G C G cycle 1 A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 41. X Y G C G cycle 1 A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 42. G X Y G C G cycle 1 A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 43. G Y G C G cycle 1 A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 44. G G C G cycle 1 A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 45. G G C G G cycle 1 A T A G G T G T C A C T 32 venerdì 13 maggio 2011
  • 46. G G C G G cycle 1 A T A T G G G T C A C T 32 venerdì 13 maggio 2011
  • 47. GT G C G G cycle 1 A T A T T cycle 2 G G G T C A C T 32 venerdì 13 maggio 2011
  • 48. GT G C G G cycle 1 A T A T T cycle 2 G A G G T C C T 32 venerdì 13 maggio 2011
  • 49. GT G C G G cycle 1 A T A T T cycle 2 G G A cycle 3 G T C C T 32 venerdì 13 maggio 2011
  • 50. GTA G C G G cycle 1 A T A T T cycle 2 G A G cycle 3 G T C C T 32 venerdì 13 maggio 2011
  • 51. GTA G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C G T C C T 32 venerdì 13 maggio 2011
  • 52. GTAC G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 53. GTACT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 54. GTACT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 55. GTACT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 56. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 57. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 58. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 59. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 60. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 G T C C T 32 venerdì 13 maggio 2011
  • 61. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C G T C C T 32 venerdì 13 maggio 2011
  • 62. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C G T C C T 32 venerdì 13 maggio 2011
  • 63. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C G T C C T 32 venerdì 13 maggio 2011
  • 64. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C G T C C T 32 venerdì 13 maggio 2011
  • 65. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C G T C C T 32 venerdì 13 maggio 2011
  • 66. GTAC T G G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 67. GTAC T G T G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 68. GTAC T G TC G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 69. GTAC T G TCA G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 70. GTAC T G TCAT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 71. GTAC T G TCATG G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 72. GTAC T G TCATGC G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 73. GTAC T G TCATGCG G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 74. GTAC T G TCATGCG T G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 75. GTAC T G TCATGCG TA G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T 32 venerdì 13 maggio 2011
  • 76. GTAC T G TCATGCG TAT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T A 32 venerdì 13 maggio 2011
  • 77. GTAC T G TCATGCG TAT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T A 32 venerdì 13 maggio 2011
  • 78. GTAC T G TCATGCG TAT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T A C 32 venerdì 13 maggio 2011
  • 79. GTAC T G TCATGCG TAT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T A cycle 99 C 32 venerdì 13 maggio 2011
  • 80. GTAC T G TCATGCG TAT G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T A cycle 99 C cycle 100 32 venerdì 13 maggio 2011
  • 81. GTAC T G TCATGCG TATA G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T A cycle 99 C cycle 100 32 venerdì 13 maggio 2011
  • 82. GTAC T G TCATGCG TATAC G G G cycle 1 A T A T T cycle 2 G A G cycle 3 C cycle 4 C T G T C G T C T C A T G C G T A T A cycle 99 C cycle 100 32 venerdì 13 maggio 2011
  • 84. CTAGCGATCAG CGATGATCGAC CACAGCAGCTAC • 2 Miliardi (2Gbasi) di Clusters sulla owcell –2 Miliardi di Reads • 100 Bases per Reads 200 GB di basi sequenziate 34 venerdì 13 maggio 2011
  • 85. • copertura del genoma (coverage) –numero di volte che una base è rappresentata nell’insieme dei reads 35 venerdì 13 maggio 2011
  • 86. • Genome Analyzer (1 owcell) – genera 96 000 000 000 (96 Miliardi) di basi. – equivalente a 96/3 =~ 32 genomi umani letti una volta. – limitazione a 1 individuo/Lane: • 32/8 Lanes/2 owcells =~ 2x di copertura del genoma 36 venerdì 13 maggio 2011
  • 87. • Hiseq 2000 (2 owcells) – genera 400 000 000 000 (400 Miliardi) di basi. – equivalente a 400/3 =~ 133 genomi umani letti una volta. – limitazione a 1 individuo/Lane: • 133/8 Lanes/2 owcells =~ 8,3x di copertura del genoma 37 venerdì 13 maggio 2011
  • 88. 1 TB (1 TeraByte) = 1 000 USB keys of 1 GB analizza immagine (foto) 32 TB automaticamente “intensity data”: 2 TB si può conservare prima analisi base call / 250 GB 250 GB quality data allineamento 6TB 1.2 TB per ogni esperimento: 1.45 TB 38 venerdì 13 maggio 2011
  • 90. –OK abbiamo tanti reads, ma come li utilizziamo? –Siamo sicuri che questi dati sono di buona qualita ? 40 venerdì 13 maggio 2011
  • 91. il formato FASTQ per le sequenze @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 Sanger format can encode a Phred quality score from 0 to 93 using ASCII 33 to 126 (although in raw read data the Phred quality score rarely exceeds 60, higher scores are possible in assemblies or read maps). Also used in SAM format. 41 venerdì 13 maggio 2011
  • 92. !"#"#$%&'&(#')*)+ • Phred-score Quality ! !"#"$"%&"'()%&"* ! +,"*-./0$,1(./"234'+56 * +,"74,/$14''+8)"/..(."9.(747+'+56"! Phred quality scores are Probability of incorrect base call Base call accuracy logarithmically linked to error probabilities Phred Quality Score 10 1 in 10 90 % 20 1 in 100 99 % 30 1 in 1000 99.9 % 40 1 in 10000 99.99 % 50 1 in 100000 99.999 % 42 venerdì 13 maggio 2011
  • 93. Terzo Step - Analisi dei Dati 43 venerdì 13 maggio 2011
  • 94. Terzo Step - Analisi dei Dati 43 venerdì 13 maggio 2011
  • 95. Terzo Step - Analisi dei Dati 43 venerdì 13 maggio 2011
  • 96. Terzo Step - Analisi dei Dati 43 venerdì 13 maggio 2011
  • 97. BIOINFORMATICS ORIGINAL PAPER Vol. 25 no. 14 2009, pages 1754–1760 doi:10.1093/bioinformatics/btp324 Sequence analysis Fast and accurate short read alignment with Burrows–Wheeler transform Heng Li and Richard Durbin∗ Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Cambridge, CB10 1SA, UK Received on February 20, 2009; revised on May 6, 2009; accepted on May 12, 2009 Advance Access publication May 18, 2009 Associate Editor: John Quackenbush ABSTRACT of scanning the whole genome when few reads are aligned. Motivation: The enormous amount of short reads generated by the The second category of software, including SOAPv1 (Li et al., new DNA sequencing technologies call for the development of fast 2008b), PASS (Campagna et al., 2009), MOM (Eaves and and accurate read alignment programs. A first generation of hash Gao, 2009), ProbeMatch (Jung Kim et al., 2009), NovoAlign table-based methods has been developed, including MAQ, which (http://www.novocraft.com), ReSEQ (http://code.google.com/p/ is accurate, feature rich and fast enough to align short reads from a re-seq), Mosaik (http://bioinformatics.bc.edu/marthlab/Mosaik) and single individual. However, MAQ does not support gapped alignment BFAST (http://genome.ucla.edu/bfast), hash the genome. These for single-end reads, which makes it unsuitable for alignment of programs can be easily parallelized with multi-threading, but they longer reads where indels may occur frequently. The speed of MAQ is usually require large memory to build an index for the human also a concern when the alignment is scaled up to the resequencing genome. In addition, the iterative strategy frequently introduced by of hundreds of individuals. these software may make their speed sensitive to the sequencing Results: We implemented Burrows-Wheeler Alignment tool (BWA), error rate. The third category includes slider (Malhis et al., 2009) a new read alignment package that is based on backward search which does alignment by merge-sorting the reference subsequences with Burrows–Wheeler Transform (BWT), to efficiently align short and read sequences. sequencing reads against a large reference sequence such as the Recently, the theory on string matching using Burrows–Wheeler human genome, allowing mismatches and gaps. BWA supports both Transform (BWT) (Burrows and Wheeler, 1994) has drawn the base space reads, e.g. from Illumina sequencing machines, and attention of several groups, which has led to the development of color space reads from AB SOLiD machines. Evaluations on both SOAPv2 (http://soap.genomics.org.cn/), Bowtie (Langmead et al., simulated and real data suggest that BWA is ∼10–20× faster than 2009) and BWA, our new aligner described in this article. MAQ, while achieving similar accuracy. In addition, BWA outputs Essentially, using backward search (Ferragina and Manzini, 2000; alignment in the new standard SAM (Sequence Alignment/Map) Lippert, 2005) with BWT, we are able to effectively mimic the top- format. Variant calling and other downstream analyses after the down traversal on the prefix trie of the genome with relatively small alignment can be achieved with the open source SAMtools software memory footprint (Lam et al., 2008) and to count the number of exact package. hits of a string of length m in O(m) time independent of the size of Availability: http://maq.sourceforge.net the genome. For inexact search, BWA samples from the implicit Contact: rd@sanger.ac.uk prefix trie the distinct substrings that are less than k edit distance away from the query read. Because exact repeats are collapsed on 44 one path on the prefix trie, we do not need to align the reads against venerdì 13 maggio 2011 1 INTRODUCTION each copy of the repeat. This is the main reason why BWT-based
  • 98. • Allineamento con l’algoritmo di BWA – index del genoma di riferimento • divide il genoma di riferimento in diversi pezzi – calcolo delle coordinate di “su x array” con il migliore allineamento sul riferimento index. – conversione della coordinate di “su x array” in coordinate “genomica”. 45 venerdì 13 maggio 2011
  • 99. • Data “management” del formato dei reads allineato – il formato SAM e BAM sono de niti dalla comunità scienti ca internazionale. – il programma samtools permette: • di ordinare i reads secondo le coordinate genomiche di allineamento • di creare un formato unico (chiamato SAM o BAM) • il formato BAM è la versione “compressa” del formato SAM. 46 venerdì 13 maggio 2011
  • 100. • GATK – GATK ricalibra ( modifica il Phred-score) lo score delle basi in un file di sequenze allineate • Dopo la ricalibrazione, lo score di ogni sequenza è piu “accurate”, nel senso che la qualità rappresenta la probabilità di non avere allineato correttamente il read sul genoma di riferimento. • Inoltre, la ricalibrazione prova a correggere la qualità in funzione del ciclo di sequenziamento della machina (efficienza dei reagenti chimici) . 47 venerdì 13 maggio 2011
  • 101. !"# • Controlli di qualita – !"!#$! "%&'()* +,#&-.&/'&,0&11,2313/'&4,5/,67"7879 :69,;<=>,7,"8,;?=>@ +,"AB&C3D&,'A/)5)E&/E,05E%,F3'%5/&, G&CHACF3/'& +,6B&C3D&,-.315EI,JK,!L=,3E,1&3)E,HAC,H5C)E, M=>,'I'1&) +,NACF311I,6BD,-.315EI,HAC,E%&,13)E,'I'1&) )%A.14,2&,2&E0&&/,OP,3/4,L= 48 venerdì 13 maggio 2011
  • 102. Il genoma di riferimento è una sequenza di DNA assemblato dagli scienziati durante il progetto genoma umano. 49 venerdì 13 maggio 2011
  • 105. • Programmazione Informatica –numeri linguaggio di programmazione sono usati: •C • C++ • Perl script • Python script • Bash script • Statistica e Matematica • Competenze in Biologia 52 venerdì 13 maggio 2011
  • 106. • Il sequenziamento del genoma sardo permette di definire i caratteri genetici specifici della popolazione. • Popolazione Isolata – Assenza sostanziale di sottostruttura di popolazione (basso tasso di immigrazione) – Presenza di varianti comuni nei sardi e rare o assenti in altre popolazioni – Nonostante sia una popolazione europea, si comporta come un outlier rispetto alla gamma di variabilità europea 53 venerdì 13 maggio 2011
  • 107. BIOMEDICINA ENERGIA E AMBIENTE DATA FUSION Collana di Seminari per la Valorizzazione dei Risultati della Ricerca al CRS4 prossimo appuntamento... 25 Maggio 30.03.2011 2011 Seminario 16:00 -18:00 P.M. AULA MAGNA DIP. FISICA Cittadella Universitaria - Monserrato Nel campo della ricerca biomedica, si possono veri care 3 situazioni in grado di generare importanti quantità di dati: l’elevato livello di digitalizzazione dei sistemi informativi sanitari pubblici, la presenza di rilevanti studi di popolazione su larga scala che raccolgono informazioni di tipo fenotipico e clinico e la disponibilità di moderni strumenti d’indagine, come i sequenziatori di nuova generazione, capaci di produrre importanti quantità di dati genomici. Studi di associazione genetica e disegno sperimentale “caso controllo”: La vastità e l’eterogeneità di questi dati implica necessariamente un nuovo approccio che, separando opportunamente il generico concetto applicazioni a diabete di tipo 1 e sclerosi multipla nella popolazione Sarda del dato dal suo formalismo, permetta il loro e ciente utilizzo per l’estrazione di informazioni a bene cio della ricerca. Durante il seminario sarà illustrata l’esperienza del CRS4 nell’approccio integrato alla gestione e alla fruizione analitica di grosse quantità di dati biologici e clinici in collaborazione con importanti istituti di ricerca. Relatore I recenti sviluppi delle nuove piattaforme sperimentali consentono Ilenia Zara CRS4 Relatore: Giammarco Cuccuru di studiare le caratteristiche genetiche di intere popolazioni utlizzando volumi di dati sempre crescenti con costi sempre minori. Questo tipo di studi rende necessaria l’interazione tra persone con una formazione medico/biologica e persone con competenze nei campi venerdì 13 maggio 2011 della statistica e dell’informatica.
  • 108. Ringraziamenti !! CHRIS JONES LIDIA LEONI Ilenia Zara and her group Maria Valentini Riccardo Berutti PATRICIA RODRIGUEZ-TOME Rossano Atzeni and her group ANDREA ANGIUS FRANCESCO CUCCA Maria Francesca Urru Serena Sanna Manuela Oppo Carlo Sidore Rosella Pilu Marco Marcelli Groups VALE & Roberto Cusano OUTREACH venerdì 13 maggio 2011
  • 109. Info e iscrizione: www.crs4.it Video e slide: facebook.com/crs4fb twitter.com/crs4research youtube.com/CRS4video slideshare.net/CRS4 contatti: calis@crs4.it venerdì 13 maggio 2011