Sequenziamento e analisi bioinformatica del genoma umano

Sequenziamento e Analisi
Bioinformatica del Genoma
Umano

Frederic Reinier
reinier@crs4.it
Sala Auditorium, Via Roma 253 Cagliari
11/05/2011

venerdì 13 maggio 2011

• Cos’è il genoma umano ?
– 46 cromosomi distinti (22 coppie di autosomi + X + Y)
– ∼3,2 miliardi di paia di basi A-T e G-C.
– ∼20,000–25,000 geni.

3


• Cos’è il sequenziamento ?
– Il sequenziamento del DNA è la determinazione dell'ordine dei
diversi nucleotidi (basi) (Adenina, Citosina, Guanina e Timina) che
costituiscono l'acido nucleico (DNA).

4


• Sequenziamento “ad alta processività”
• Vantaggi delle piattaforme di nuova generazione

• Rivoluzionaria diminuzione del costo e del tempo per generare dati di
sequenza (lavorano in multi‐parallelo)
– 10 Giorni per sequenziare il genoma di un individuo

• Richiesta meno robotica nelle fasi precedenti al caricamento sul
sequenziatore

• Eccezionale risoluzione per molti tipi di esperimenti (es. analisi di
espressione, sequenziamento di DNA immunoprecipitato e di micro RNA,
analisi di medie/grandi inserzioni‐delezioni nei genomi....)

5


•Work ow del sequenziamento

6


•Primo Step - Preparazione del DNA

7


• DNA fragmentation

9


La Flowcell è un supporto in vetro delle dimensioni di un vetrino da microscopio
contenente 8 “lane” a loro volta suddivise in 120 “tile” - quadrati in cui è possibile
fissare circa 220.000 molecole di DNA.
11


frammento originale

Nuovo frammento esteso
del frammento originale.

13


Stesso fragmento di DNA = CLUSTERS
20


CBOT

21


• Flowcell
–contiene i clusters che sono frammenti di DNA.
• Tempo di preparazione
–4 ore
• Utilizzo della CBOT
–permette l’incorporazione dei frammenti di DNA
sulla owcell.

22


Secondo Step - Il Sequenziamento

23


Il laboratorio del CRS4

24


2009

25


• Al interno del sequenziatore 26


Hiseq2000

2010

27


@ CRS4

29


G C G

A T
A
G
G

T
G T
C A
C
T

32


G C
G
A T
A
G
G

T
G T
C A
C
T

32


G C
G cycle 1
A T
A
G
G

T
G T
C A
C
T

32


X

Y
G C
G cycle 1
A T
A
G
G

T
G T
C A
C
T

32


G
X

Y
G C
G cycle 1
A T
A
G
G

T
G T
C A
C
T

32


G

Y
G C
G cycle 1
A T
A
G
G

T
G T
C A
C
T

32


G

G C
G cycle 1
A T
A
G
G

T
G T
C A
C
T

32


G

G C
G
G cycle 1
A T
A
G
G

T
G T
C A
C
T

32


G

G C
G
G cycle 1
A T
A T
G
G

G T
C A
C
T

32


GT

G C
G
G cycle 1
A T
A T
T cycle 2
G
G

G T
C A
C
T

32


GT

G C
G
G cycle 1
A T
A T
T cycle 2
G A
G

G T
C

C
T

32


GT

G C
G
G cycle 1
A T
A T
T cycle 2
G
G A cycle 3

G T
C

C
T

32


GTA

G C
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3

G T
C

C
T

32


GTA

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C

G T
C

C
T

32


GTAC

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4

G T
C

C
T

32


GTACT

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4

G T
C

C
T

32


GTAC T G

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4

G T
C

C
T

32


GTAC T G

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
G T
C

C
T

32


GTAC T G

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G T

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TC

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCA

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCAT

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCATG

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCATGC

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCATGCG

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCATGCG T

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCATGCG TA

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T

32


GTAC T G TCATGCG TAT

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A

32



G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A
C

32



G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C

32



G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C cycle 100

32


GTAC T G TCATGCG TATA

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C cycle 100

32


GTAC T G TCATGCG TATAC

G
G
G cycle 1
A T
A T
T cycle 2
G A
G cycle 3
C cycle 4
C
T
G T
C G
T
C
T C
A
T
G
C
G
T
A
T
A cycle 99
C cycle 100

32


CTAGCGATCAG

CGATGATCGAC

CACAGCAGCTAC

• 2 Miliardi (2Gbasi) di Clusters sulla owcell
–2 Miliardi di Reads
• 100 Bases per Reads

200 GB di basi sequenziate 34


• copertura del genoma (coverage)
–numero di volte che una base è rappresentata
nell’insieme dei reads

35


• Genome Analyzer (1 owcell)
– genera 96 000 000 000 (96 Miliardi) di basi.
– equivalente a 96/3 =~ 32 genomi umani letti una volta.
– limitazione a 1 individuo/Lane:
• 32/8 Lanes/2 owcells =~ 2x di copertura del
genoma
36


• Hiseq 2000 (2 owcells)
– genera 400 000 000 000 (400 Miliardi) di basi.
– equivalente a 400/3 =~ 133 genomi umani letti una
volta.
– limitazione a 1 individuo/Lane:
• 133/8 Lanes/2 owcells =~ 8,3x di copertura del
genoma 37


1 TB (1 TeraByte) = 1 000 USB keys of 1 GB

analizza
immagine (foto) 32 TB
automaticamente
“intensity data”:
2 TB si può conservare
prima analisi
base call /
250 GB 250 GB
quality data

allineamento 6TB 1.2 TB

per ogni esperimento: 1.45 TB

38


–OK abbiamo tanti reads, ma come li utilizziamo?
–Siamo sicuri che questi dati sono di buona qualita ?

40


il formato FASTQ per le sequenze
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Sanger format can encode a Phred quality score from
0 to 93 using ASCII 33 to 126 (although in raw read
data the Phred quality score rarely exceeds 60, higher
scores are possible in assemblies or read maps). Also
used in SAM format.

41


!"#"#$%&'&(#')*)+
• Phred-score Quality
! !"#"$"%&"'()%&"*
! +,"*-./0$,1(./"234'+56
* +,"74,/$14''+8)"/..(."9.(747+'+56"!
Phred quality scores are Probability of incorrect base call Base call accuracy
logarithmically linked to error
probabilities
Phred Quality Score

10 1 in 10 90 %

20 1 in 100 99 %

30 1 in 1000 99.9 %

40 1 in 10000 99.99 %

50 1 in 100000 99.999 %
42


Terzo Step - Analisi dei Dati

43


BIOINFORMATICS ORIGINAL PAPER
Vol. 25 no. 14 2009, pages 1754–1760
doi:10.1093/bioinformatics/btp324

Sequence analysis

Fast and accurate short read alignment with Burrows–Wheeler
transform
Heng Li and Richard Durbin∗
Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Cambridge, CB10 1SA, UK
Received on February 20, 2009; revised on May 6, 2009; accepted on May 12, 2009
Advance Access publication May 18, 2009
Associate Editor: John Quackenbush

ABSTRACT of scanning the whole genome when few reads are aligned.
Motivation: The enormous amount of short reads generated by the The second category of software, including SOAPv1 (Li et al.,
new DNA sequencing technologies call for the development of fast 2008b), PASS (Campagna et al., 2009), MOM (Eaves and
and accurate read alignment programs. A first generation of hash Gao, 2009), ProbeMatch (Jung Kim et al., 2009), NovoAlign
table-based methods has been developed, including MAQ, which (http://www.novocraft.com), ReSEQ (http://code.google.com/p/
is accurate, feature rich and fast enough to align short reads from a re-seq), Mosaik (http://bioinformatics.bc.edu/marthlab/Mosaik) and
single individual. However, MAQ does not support gapped alignment BFAST (http://genome.ucla.edu/bfast), hash the genome. These
for single-end reads, which makes it unsuitable for alignment of programs can be easily parallelized with multi-threading, but they
longer reads where indels may occur frequently. The speed of MAQ is usually require large memory to build an index for the human
also a concern when the alignment is scaled up to the resequencing genome. In addition, the iterative strategy frequently introduced by
of hundreds of individuals. these software may make their speed sensitive to the sequencing
Results: We implemented Burrows-Wheeler Alignment tool (BWA), error rate. The third category includes slider (Malhis et al., 2009)
a new read alignment package that is based on backward search which does alignment by merge-sorting the reference subsequences
with Burrows–Wheeler Transform (BWT), to efficiently align short and read sequences.
sequencing reads against a large reference sequence such as the Recently, the theory on string matching using Burrows–Wheeler
human genome, allowing mismatches and gaps. BWA supports both Transform (BWT) (Burrows and Wheeler, 1994) has drawn the
base space reads, e.g. from Illumina sequencing machines, and attention of several groups, which has led to the development of
color space reads from AB SOLiD machines. Evaluations on both SOAPv2 (http://soap.genomics.org.cn/), Bowtie (Langmead et al.,
simulated and real data suggest that BWA is ∼10–20× faster than 2009) and BWA, our new aligner described in this article.
MAQ, while achieving similar accuracy. In addition, BWA outputs Essentially, using backward search (Ferragina and Manzini, 2000;
alignment in the new standard SAM (Sequence Alignment/Map) Lippert, 2005) with BWT, we are able to effectively mimic the top-
format. Variant calling and other downstream analyses after the down traversal on the prefix trie of the genome with relatively small
alignment can be achieved with the open source SAMtools software memory footprint (Lam et al., 2008) and to count the number of exact
package. hits of a string of length m in O(m) time independent of the size of
Availability: http://maq.sourceforge.net the genome. For inexact search, BWA samples from the implicit
Contact: rd@sanger.ac.uk prefix trie the distinct substrings that are less than k edit distance
away from the query read. Because exact repeats are collapsed on 44
one path on the prefix trie, we do not need to align the reads against
venerdì 13 maggio 2011 1 INTRODUCTION each copy of the repeat. This is the main reason why BWT-based

• Allineamento con l’algoritmo di BWA
– index del genoma di riferimento
• divide il genoma di riferimento in diversi pezzi
– calcolo delle coordinate di “su x array” con il
migliore allineamento sul riferimento index.
– conversione della coordinate di “su x array” in
coordinate “genomica”.

45


• Data “management” del formato dei reads
allineato
– il formato SAM e BAM sono de niti dalla comunità
scienti ca internazionale.
– il programma samtools permette:
• di ordinare i reads secondo le coordinate genomiche
di allineamento
• di creare un formato unico (chiamato SAM o BAM)
• il formato BAM è la versione “compressa” del formato
SAM.

46


• GATK
– GATK ricalibra ( modiﬁca il Phred-score) lo
score delle basi in un ﬁle di sequenze
allineate
• Dopo la ricalibrazione, lo score di ogni
sequenza è piu “accurate”, nel senso che la
qualità rappresenta la probabilità di non
avere allineato correttamente il read sul
genoma di riferimento.
• Inoltre, la ricalibrazione prova a correggere
la qualità in funzione del ciclo di
sequenziamento della machina (efficienza
dei reagenti chimici) .
47


!"#
• Controlli di qualita
–
!"!#$!

"%&'()*

+,#&-.&/'&,0&11,2313/'&4,5/,67"7879
:69,;<=>,7,"8,;?=>@
+,"AB&C3D&,'A/)5)E&/E,05E%,F3'%5/&,
G&CHACF3/'&
+,6B&C3D&,-.315EI,JK,!L=,3E,1&3)E,HAC,H5C)E,
M=>,'I'1&)
+,NACF311I,6BD,-.315EI,HAC,E%&,13)E,'I'1&)
)%A.14,2&,2&E0&&/,OP,3/4,L=

48


Il genoma di riferimento è una sequenza di DNA assemblato dagli scienziati durante il
progetto genoma umano.

49


• Programmazione Informatica
–numeri linguaggio di programmazione sono usati:
•C
• C++
• Perl script
• Python script
• Bash script
• Statistica e Matematica
• Competenze in Biologia

52


• Il sequenziamento del genoma sardo permette
di deﬁnire i caratteri genetici speciﬁci della
popolazione.
• Popolazione Isolata
– Assenza sostanziale di sottostruttura di
popolazione (basso tasso di immigrazione)
– Presenza di varianti comuni nei sardi e rare o
assenti in altre popolazioni
– Nonostante sia una popolazione europea, si
comporta come un outlier rispetto alla
gamma di variabilità europea

53


BIOMEDICINA ENERGIA
E AMBIENTE
DATA FUSION Collana di Seminari per la Valorizzazione dei Risultati della Ricerca al CRS4

prossimo appuntamento... 25 Maggio
30.03.2011
2011 Seminario 16:00 -18:00 P.M.
AULA MAGNA DIP. FISICA
Cittadella Universitaria - Monserrato
Nel campo della ricerca biomedica, si possono veri care 3 situazioni in
grado di generare importanti quantità di dati: l’elevato livello di
digitalizzazione dei sistemi informativi sanitari pubblici, la presenza di
rilevanti studi di popolazione su larga scala che raccolgono
informazioni di tipo fenotipico e clinico e la disponibilità di moderni
strumenti d’indagine, come i sequenziatori di nuova generazione,
capaci di produrre importanti quantità di dati genomici.
Studi di associazione genetica e
disegno sperimentale “caso controllo”: La vastità e l’eterogeneità di questi dati implica necessariamente un
nuovo approccio che, separando opportunamente il generico concetto
applicazioni a diabete di tipo 1 e sclerosi multipla nella popolazione Sarda
del dato dal suo formalismo, permetta il loro e ciente utilizzo per
l’estrazione di informazioni a bene cio della ricerca.

Durante il seminario sarà illustrata l’esperienza del CRS4 nell’approccio
integrato alla gestione e alla fruizione analitica di grosse quantità di
dati biologici e clinici in collaborazione con importanti istituti di
ricerca.

Relatore I recenti sviluppi delle nuove piattaforme sperimentali consentono
Ilenia Zara
CRS4 Relatore: Giammarco Cuccuru di studiare le caratteristiche genetiche di intere popolazioni utlizzando
volumi di dati sempre crescenti con costi sempre minori.
Questo tipo di studi rende necessaria l’interazione tra persone con una
formazione medico/biologica e persone con competenze nei campi
della statistica e dell’informatica.

Ringraziamenti !!
CHRIS JONES LIDIA LEONI
Ilenia Zara and her group
Maria Valentini
Riccardo Berutti PATRICIA RODRIGUEZ-TOME
Rossano Atzeni and her group

ANDREA ANGIUS FRANCESCO CUCCA
Maria Francesca Urru Serena Sanna
Manuela Oppo Carlo Sidore
Rosella Pilu
Marco Marcelli Groups VALE &
Roberto Cusano OUTREACH


Info e iscrizione: www.crs4.it

Video e slide:
facebook.com/crs4fb

twitter.com/crs4research

youtube.com/CRS4video

slideshare.net/CRS4 contatti: calis@crs4.it


Sequenziamento e analisi bioinformatica del genoma umano

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (7)

Más de CRS4 Research Center in Sardinia

Más de CRS4 Research Center in Sardinia (20)

Sequenziamento e analisi bioinformatica del genoma umano