Sequenziamento e analisi bioinformatica del genoma umano
1. Sequenziamento e Analisi
Bioinformatica del Genoma
Umano
Frederic Reinier
reinier@crs4.it
Sala Auditorium, Via Roma 253 Cagliari
11/05/2011
venerdì 13 maggio 2011
2. • Cos’è il genoma umano ?
– 46 cromosomi distinti (22 coppie di autosomi + X + Y)
– ∼3,2 miliardi di paia di basi A-T e G-C.
– ∼20,000–25,000 geni.
3
venerdì 13 maggio 2011
3. • Cos’è il sequenziamento ?
– Il sequenziamento del DNA è la determinazione dell'ordine dei
diversi nucleotidi (basi) (Adenina, Citosina, Guanina e Timina) che
costituiscono l'acido nucleico (DNA).
4
venerdì 13 maggio 2011
4. • Sequenziamento “ad alta processività”
• Vantaggi delle piattaforme di nuova generazione
• Rivoluzionaria diminuzione del costo e del tempo per generare dati di
sequenza (lavorano in multi‐parallelo)
– 10 Giorni per sequenziare il genoma di un individuo
• Richiesta meno robotica nelle fasi precedenti al caricamento sul
sequenziatore
• Eccezionale risoluzione per molti tipi di esperimenti (es. analisi di
espressione, sequenziamento di DNA immunoprecipitato e di micro RNA,
analisi di medie/grandi inserzioni‐delezioni nei genomi....)
5
venerdì 13 maggio 2011
5. •Work ow del sequenziamento
6
venerdì 13 maggio 2011
6. •Work ow del sequenziamento
6
venerdì 13 maggio 2011
7. •Work ow del sequenziamento
6
venerdì 13 maggio 2011
8. •Primo Step - Preparazione del DNA
7
venerdì 13 maggio 2011
12. La Flowcell è un supporto in vetro delle dimensioni di un vetrino da microscopio
contenente 8 “lane” a loro volta suddivise in 120 “tile” - quadrati in cui è possibile
fissare circa 220.000 molecole di DNA.
11
venerdì 13 maggio 2011
24. • Flowcell
–contiene i clusters che sono frammenti di DNA.
• Tempo di preparazione
–4 ore
• Utilizzo della CBOT
–permette l’incorporazione dei frammenti di DNA
sulla owcell.
22
venerdì 13 maggio 2011
25. Secondo Step - Il Sequenziamento
23
venerdì 13 maggio 2011
26. Secondo Step - Il Sequenziamento
23
venerdì 13 maggio 2011
27. Secondo Step - Il Sequenziamento
23
venerdì 13 maggio 2011
28. Secondo Step - Il Sequenziamento
23
venerdì 13 maggio 2011
37. G C G
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
38. G C
G
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
39. G C
G cycle 1
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
40. G C
G cycle 1
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
41. X
Y
G C
G cycle 1
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
42. G
X
Y
G C
G cycle 1
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
43. G
Y
G C
G cycle 1
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
44. G
G C
G cycle 1
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
45. G
G C
G
G cycle 1
A T
A
G
G
T
G T
C A
C
T
32
venerdì 13 maggio 2011
46. G
G C
G
G cycle 1
A T
A T
G
G
G T
C A
C
T
32
venerdì 13 maggio 2011
47. GT
G C
G
G cycle 1
A T
A T
T cycle 2
G
G
G T
C A
C
T
32
venerdì 13 maggio 2011
48. GT
G C
G
G cycle 1
A T
A T
T cycle 2
G A
G
G T
C
C
T
32
venerdì 13 maggio 2011
49. GT
G C
G
G cycle 1
A T
A T
T cycle 2
G
G A cycle 3
G T
C
C
T
32
venerdì 13 maggio 2011
50. GTA
G C
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
G T
C
C
T
32
venerdì 13 maggio 2011
51. GTA
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C
G T
C
C
T
32
venerdì 13 maggio 2011
52. GTAC
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
53. GTACT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
54. GTACT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
55. GTACT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
56. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
57. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
58. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
59. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
60. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
G T
C
C
T
32
venerdì 13 maggio 2011
61. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
G T
C
C
T
32
venerdì 13 maggio 2011
62. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
G T
C
C
T
32
venerdì 13 maggio 2011
63. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
G T
C
C
T
32
venerdì 13 maggio 2011
64. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
G T
C
C
T
32
venerdì 13 maggio 2011
65. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
G T
C
C
T
32
venerdì 13 maggio 2011
66. GTAC T G
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
67. GTAC T G T
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
68. GTAC T G TC
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
69. GTAC T G TCA
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
70. GTAC T G TCAT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
71. GTAC T G TCATG
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
72. GTAC T G TCATGC
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
73. GTAC T G TCATGCG
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
74. GTAC T G TCATGCG T
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
75. GTAC T G TCATGCG TA
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
32
venerdì 13 maggio 2011
76. GTAC T G TCATGCG TAT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A
32
venerdì 13 maggio 2011
77. GTAC T G TCATGCG TAT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A
32
venerdì 13 maggio 2011
78. GTAC T G TCATGCG TAT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A
C
32
venerdì 13 maggio 2011
79. GTAC T G TCATGCG TAT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C
32
venerdì 13 maggio 2011
80. GTAC T G TCATGCG TAT
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C cycle 100
32
venerdì 13 maggio 2011
81. GTAC T G TCATGCG TATA
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C cycle 100
32
venerdì 13 maggio 2011
82. GTAC T G TCATGCG TATAC
G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C cycle 100
32
venerdì 13 maggio 2011
84. CTAGCGATCAG
CGATGATCGAC
CACAGCAGCTAC
• 2 Miliardi (2Gbasi) di Clusters sulla owcell
–2 Miliardi di Reads
• 100 Bases per Reads
200 GB di basi sequenziate 34
venerdì 13 maggio 2011
85. • copertura del genoma (coverage)
–numero di volte che una base è rappresentata
nell’insieme dei reads
35
venerdì 13 maggio 2011
86. • Genome Analyzer (1 owcell)
– genera 96 000 000 000 (96 Miliardi) di basi.
– equivalente a 96/3 =~ 32 genomi umani letti una volta.
– limitazione a 1 individuo/Lane:
• 32/8 Lanes/2 owcells =~ 2x di copertura del
genoma
36
venerdì 13 maggio 2011
87. • Hiseq 2000 (2 owcells)
– genera 400 000 000 000 (400 Miliardi) di basi.
– equivalente a 400/3 =~ 133 genomi umani letti una
volta.
– limitazione a 1 individuo/Lane:
• 133/8 Lanes/2 owcells =~ 8,3x di copertura del
genoma 37
venerdì 13 maggio 2011
88. 1 TB (1 TeraByte) = 1 000 USB keys of 1 GB
analizza
immagine (foto) 32 TB
automaticamente
“intensity data”:
2 TB si può conservare
prima analisi
base call /
250 GB 250 GB
quality data
allineamento 6TB 1.2 TB
per ogni esperimento: 1.45 TB
38
venerdì 13 maggio 2011
90. –OK abbiamo tanti reads, ma come li utilizziamo?
–Siamo sicuri che questi dati sono di buona qualita ?
40
venerdì 13 maggio 2011
91. il formato FASTQ per le sequenze
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
Sanger format can encode a Phred quality score from
0 to 93 using ASCII 33 to 126 (although in raw read
data the Phred quality score rarely exceeds 60, higher
scores are possible in assemblies or read maps). Also
used in SAM format.
41
venerdì 13 maggio 2011
92. !"#"#$%&'&(#')*)+
• Phred-score Quality
! !"#"$"%&"'()%&"*
! +,"*-./0$,1(./"234'+56
* +,"74,/$14''+8)"/..(."9.(747+'+56"!
Phred quality scores are Probability of incorrect base call Base call accuracy
logarithmically linked to error
probabilities
Phred Quality Score
10 1 in 10 90 %
20 1 in 100 99 %
30 1 in 1000 99.9 %
40 1 in 10000 99.99 %
50 1 in 100000 99.999 %
42
venerdì 13 maggio 2011
93. Terzo Step - Analisi dei Dati
43
venerdì 13 maggio 2011
94. Terzo Step - Analisi dei Dati
43
venerdì 13 maggio 2011
95. Terzo Step - Analisi dei Dati
43
venerdì 13 maggio 2011
96. Terzo Step - Analisi dei Dati
43
venerdì 13 maggio 2011
97. BIOINFORMATICS ORIGINAL PAPER
Vol. 25 no. 14 2009, pages 1754–1760
doi:10.1093/bioinformatics/btp324
Sequence analysis
Fast and accurate short read alignment with Burrows–Wheeler
transform
Heng Li and Richard Durbin∗
Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Cambridge, CB10 1SA, UK
Received on February 20, 2009; revised on May 6, 2009; accepted on May 12, 2009
Advance Access publication May 18, 2009
Associate Editor: John Quackenbush
ABSTRACT of scanning the whole genome when few reads are aligned.
Motivation: The enormous amount of short reads generated by the The second category of software, including SOAPv1 (Li et al.,
new DNA sequencing technologies call for the development of fast 2008b), PASS (Campagna et al., 2009), MOM (Eaves and
and accurate read alignment programs. A first generation of hash Gao, 2009), ProbeMatch (Jung Kim et al., 2009), NovoAlign
table-based methods has been developed, including MAQ, which (http://www.novocraft.com), ReSEQ (http://code.google.com/p/
is accurate, feature rich and fast enough to align short reads from a re-seq), Mosaik (http://bioinformatics.bc.edu/marthlab/Mosaik) and
single individual. However, MAQ does not support gapped alignment BFAST (http://genome.ucla.edu/bfast), hash the genome. These
for single-end reads, which makes it unsuitable for alignment of programs can be easily parallelized with multi-threading, but they
longer reads where indels may occur frequently. The speed of MAQ is usually require large memory to build an index for the human
also a concern when the alignment is scaled up to the resequencing genome. In addition, the iterative strategy frequently introduced by
of hundreds of individuals. these software may make their speed sensitive to the sequencing
Results: We implemented Burrows-Wheeler Alignment tool (BWA), error rate. The third category includes slider (Malhis et al., 2009)
a new read alignment package that is based on backward search which does alignment by merge-sorting the reference subsequences
with Burrows–Wheeler Transform (BWT), to efficiently align short and read sequences.
sequencing reads against a large reference sequence such as the Recently, the theory on string matching using Burrows–Wheeler
human genome, allowing mismatches and gaps. BWA supports both Transform (BWT) (Burrows and Wheeler, 1994) has drawn the
base space reads, e.g. from Illumina sequencing machines, and attention of several groups, which has led to the development of
color space reads from AB SOLiD machines. Evaluations on both SOAPv2 (http://soap.genomics.org.cn/), Bowtie (Langmead et al.,
simulated and real data suggest that BWA is ∼10–20× faster than 2009) and BWA, our new aligner described in this article.
MAQ, while achieving similar accuracy. In addition, BWA outputs Essentially, using backward search (Ferragina and Manzini, 2000;
alignment in the new standard SAM (Sequence Alignment/Map) Lippert, 2005) with BWT, we are able to effectively mimic the top-
format. Variant calling and other downstream analyses after the down traversal on the prefix trie of the genome with relatively small
alignment can be achieved with the open source SAMtools software memory footprint (Lam et al., 2008) and to count the number of exact
package. hits of a string of length m in O(m) time independent of the size of
Availability: http://maq.sourceforge.net the genome. For inexact search, BWA samples from the implicit
Contact: rd@sanger.ac.uk prefix trie the distinct substrings that are less than k edit distance
away from the query read. Because exact repeats are collapsed on 44
one path on the prefix trie, we do not need to align the reads against
venerdì 13 maggio 2011 1 INTRODUCTION each copy of the repeat. This is the main reason why BWT-based
98. • Allineamento con l’algoritmo di BWA
– index del genoma di riferimento
• divide il genoma di riferimento in diversi pezzi
– calcolo delle coordinate di “su x array” con il
migliore allineamento sul riferimento index.
– conversione della coordinate di “su x array” in
coordinate “genomica”.
45
venerdì 13 maggio 2011
99. • Data “management” del formato dei reads
allineato
– il formato SAM e BAM sono de niti dalla comunità
scienti ca internazionale.
– il programma samtools permette:
• di ordinare i reads secondo le coordinate genomiche
di allineamento
• di creare un formato unico (chiamato SAM o BAM)
• il formato BAM è la versione “compressa” del formato
SAM.
46
venerdì 13 maggio 2011
100. • GATK
– GATK ricalibra ( modifica il Phred-score) lo
score delle basi in un file di sequenze
allineate
• Dopo la ricalibrazione, lo score di ogni
sequenza è piu “accurate”, nel senso che la
qualità rappresenta la probabilità di non
avere allineato correttamente il read sul
genoma di riferimento.
• Inoltre, la ricalibrazione prova a correggere
la qualità in funzione del ciclo di
sequenziamento della machina (efficienza
dei reagenti chimici) .
47
venerdì 13 maggio 2011
105. • Programmazione Informatica
–numeri linguaggio di programmazione sono usati:
•C
• C++
• Perl script
• Python script
• Bash script
• Statistica e Matematica
• Competenze in Biologia
52
venerdì 13 maggio 2011
106. • Il sequenziamento del genoma sardo permette
di definire i caratteri genetici specifici della
popolazione.
• Popolazione Isolata
– Assenza sostanziale di sottostruttura di
popolazione (basso tasso di immigrazione)
– Presenza di varianti comuni nei sardi e rare o
assenti in altre popolazioni
– Nonostante sia una popolazione europea, si
comporta come un outlier rispetto alla
gamma di variabilità europea
53
venerdì 13 maggio 2011
107. BIOMEDICINA ENERGIA
E AMBIENTE
DATA FUSION Collana di Seminari per la Valorizzazione dei Risultati della Ricerca al CRS4
prossimo appuntamento... 25 Maggio
30.03.2011
2011 Seminario 16:00 -18:00 P.M.
AULA MAGNA DIP. FISICA
Cittadella Universitaria - Monserrato
Nel campo della ricerca biomedica, si possono veri care 3 situazioni in
grado di generare importanti quantità di dati: l’elevato livello di
digitalizzazione dei sistemi informativi sanitari pubblici, la presenza di
rilevanti studi di popolazione su larga scala che raccolgono
informazioni di tipo fenotipico e clinico e la disponibilità di moderni
strumenti d’indagine, come i sequenziatori di nuova generazione,
capaci di produrre importanti quantità di dati genomici.
Studi di associazione genetica e
disegno sperimentale “caso controllo”: La vastità e l’eterogeneità di questi dati implica necessariamente un
nuovo approccio che, separando opportunamente il generico concetto
applicazioni a diabete di tipo 1 e sclerosi multipla nella popolazione Sarda
del dato dal suo formalismo, permetta il loro e ciente utilizzo per
l’estrazione di informazioni a bene cio della ricerca.
Durante il seminario sarà illustrata l’esperienza del CRS4 nell’approccio
integrato alla gestione e alla fruizione analitica di grosse quantità di
dati biologici e clinici in collaborazione con importanti istituti di
ricerca.
Relatore I recenti sviluppi delle nuove piattaforme sperimentali consentono
Ilenia Zara
CRS4 Relatore: Giammarco Cuccuru di studiare le caratteristiche genetiche di intere popolazioni utlizzando
volumi di dati sempre crescenti con costi sempre minori.
Questo tipo di studi rende necessaria l’interazione tra persone con una
formazione medico/biologica e persone con competenze nei campi
venerdì 13 maggio 2011
della statistica e dell’informatica.
108. Ringraziamenti !!
CHRIS JONES LIDIA LEONI
Ilenia Zara and her group
Maria Valentini
Riccardo Berutti PATRICIA RODRIGUEZ-TOME
Rossano Atzeni and her group
ANDREA ANGIUS FRANCESCO CUCCA
Maria Francesca Urru Serena Sanna
Manuela Oppo Carlo Sidore
Rosella Pilu
Marco Marcelli Groups VALE &
Roberto Cusano OUTREACH
venerdì 13 maggio 2011
109. Info e iscrizione: www.crs4.it
Video e slide:
facebook.com/crs4fb
twitter.com/crs4research
youtube.com/CRS4video
slideshare.net/CRS4 contatti: calis@crs4.it
venerdì 13 maggio 2011