Secuencias Genoma.ppt

Secuenciación, Limpieza de
Datos y Ensamblaje
Genomas

Genomas Secuenciados
Organismo Proyectos Genoma
Virus 1419
Eubacteria 178
Archea 16
Eucariotes 64
Plantas 7
Hongos 21
Invertebrados 26
Vertebrados 10

Escherichia coli
E. coli Total proteínas
35%
65%
Desconocido Conocido
E.coli COGS
26%
0%
0%
0%
5%
1%
6%
2%
7%
2%
2%
3%
5%
6%
5%
2%
3%
4%
1%
7%
8%
3%
1%
1%

Mycobacterium tuberculosis
M. tuberculosis
62%
38%
Hipotéticas Conocidas
M. tuberculosis COGS
0%
0% 5% 1%
5%
2%
3%
3%
6%
4%
4%
5%
3%
1%
2%
3%
5%
3%
9%
5%
33%

Para Secuenciar un genoma
• Fred Sanger (1977)
• Mejoras en últimos 10 años
– Polimerasas termoestables
– Instrumentos basados en capilares (500-800pb de
alta calidad)
– Mejores detecciones fluorescentes.
– Robots para subclonajes purificaciones,
subclonaciones, etc.

Clone by Clone shotgun
• Estrategia: “Mapear primero, secuenciar
después”
• Construcción del mapa:
– DNA genómico se clona en BAC’s, PAC’s(100-
200kb) o YAC’s (1Mb)
– De cada BAC se toman “fingerprints” basados en
restricciones.
– Se usan para determinar regiones sobrelapadas y
ensamblar los contigs
– Se usan otros marcadores para el mapeo para
ubicar los BAC en el genoma.

Clone by Clone shotgun
• Clones que se sobrelapan mínimamente son
seleccionados para secuenciación
• Para cada BAC seleccionado el fragmento es
purificado y fragmentado  son sub-clonados.
• Se seleccionan algunos de manera aleatoria y se
secuencian.
• A través de computadores y herramientas
bioinformáticas se ensamblan las secuencias en
contigs.
• Se chequea una vez terminada para observar que
los resultados con marcadores y enzimas de
restricción se sigan obteniendo.

Whole-genome shotgun
sequencing
• Se generan secuencias aleatorias a lo
largo de todo el genoma.
• Requiere que se hagan muchas copias
para asegurar que se cubre todo el
genoma.
• No necesita un mapa físico anterior.

Generación de Secuencias
Traducción de Cromatogramas
Remover contaminación de Vectores
Enmascaramiento de repeticiones
Agrupamiento (Clustering)
Ensamblaje

Generación de Secuencias
• Marcar los fragmentos con colorantes
fluorescentes.
• Electroforesis (Geles o Capilares)
• Capilares: Detección por láser
• Convertir las mediciones en secuencia
• Problemas:
– Generalmente primeros 50 nuc. no son tan
confiables, hay ruido y los picos no están bien
separados
– Depende de factores como la calidad de la
secuencia o la afinidad y calidad de la polimerasa
usada.

Traducción de Cromatograma
Hay varios programas, entre ellos:
• Phred (Ewig et al., 98);
• ABI (Connell et al., 87);
• Sax (Berno, 95);
• A base-calling library (Giddings et al.,
93);

Phred
Genome Research 8: 175-185, 1998

Phred
1. Lee cromatogramas – compatible con la mayoria
de formatos: SCF (standard chromatogram format),
ABI (373/377/3700), ESD (MegaBACE) and LI-
COR.
2. “Base calling” – A cada pico asigna un nucleotido
especifico, con menor probabilidad de error que
otros programas.

Phred
3. Asigna valores de calidad a cada base – un “Phred
value” basado en una estimacion del error para
cada base.
4. Crea archivos de salida – aparecen los
nucleotidos, valores de calidad y posicion de cada
pico respecto al origen.

Phd file
BEGIN_SEQUENCE
01EBV10201A02.g
BEGIN_COMMENT
CHROMAT_FILE: EBV10201A02.g
ABI_THUMBPRINT:
PHRED_VERSION: 0.990722.g
CALL_METHOD: phred
QUALITY_LEVELS:99
TIME: Thu May 24 00:18:58 2001
TRACE_ARRAY_MIN_INDEX: 0
TRACE_ARRAY_MAX_INDEX: 12153
TRIM:
CHEM: term
DYE: big
END_COMMENT
BEGIN_DNA
t 8 5
c 13 17
a 19 26
c 19 32
t 24 2221
a 24 2232
a 22 2245
a 27 2261
g 25 2272
c 19 2286
c 12 2302
t 19 2314
g 12 2324
g 15 2331
g 19 2346
g 23 2363
t 33 2378
g 36 2390
c 44 2404
c 44 2419
END_DNA
END_SEQUEN
CE

Limpieza de Contaminación por
Vectores
• Eliminar regiones 5’ y 3’ que corresponden a los
vectores y adaptadores usados para la
secuenciación.
• Contaminación: De Bacterias, Levaduras.
• Se usan programas tipo Blast que realizan
alineamientos pareados contra bases de datos de
vectores. UniVec es una base de datos no
redundante en el NCBI
http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html
• VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen)

Enmascaramiento de
Repeticiones
• Deben ser enmascarados no eliminados porque
también causaría un mal ensamblaje. Interesante para
ciertos estudios evolutivos y para el mapeo de
enfermedades.
• También se puede enmascarar el DNA ribosomal.
• Herramientas:
– Repeat masker: Diseñado para encontrar elementos
repetitivos y secuencias de baja complejidad.
http://repeatmasker.genome.washington.edu/cgi-
bin/RepeatMasker
– MaskerAid: Usando otro algoritmo (WU-Blast) para
alineamientos es 30 veces mejor que repeat Masker.
http://sapiens.wustl.edu/maskeraid

Ensamblaje y Procesamiento
• Reconstrucción de la secuencia original a partir de
los subfragmentos.
• Puede generar mas de 1 secuencia.
• Phrap ampliamente usado para secuencias
genómicas
• Otros disponibles:
– CAP3, TIGR Assembler.

Phrap
Phragment Assembly Program
Es un programa para ensamblar fragmentos
“Shotgun”

Phrap
Caracteristicas:
a. Usa las entradas completas (Salidas de Phred) (No necesita
editarlas)
b. No genera un conscenso!! El Contig es constituido por un
mosaico de los segmentos de mayor calidad de las lecturas.
c. En los diferentes archivos de salida da diferentes
características de los alineamientos como la calidad de estos.
d. Maneja facilmente gran cantidad de datos (Cientos de miles).

Algoritmo de Phrap
1) Lee la secuencia y los valores de calidad, genera los
complementos.
2) Busca palabras homólogas y elimina secuencias
idénticas.
3) Busca contaminación por vectores y enmascara.
4) Busca secuencias casi idénticas y con “self-matching”

4) Encuentra “matches” de 2 secuencias y se confirman
según la calidad de las lecturas.
6) Calcula un puntaje para los “matches”.
7) Encuentra el mejor alineamiento para cada pareja con
“match”
8) Con los alineamientos, se arman los contigs de mayor
a menor puntaje.
Algoritmo de Phrap

Archivos de salida de Phrap
• *.contigs – Contigs en formato Fasta
• *.singlets – “Singlets” en formato Fasta
• *.ace – Archivo para correr el Consed
• *.view – Requerido para ver en el PhrapView

Consed
Programa para ver y editar los ensamblajes.
Características:
a. Assembly viewer - Permite ver los contigs como alineamientos
múltiples de las secuencias.
b. Trace file viewer – Permite ver y comparar los cromatogramas de
las diferentes secuencias alineadas.
c. Navigation – Da características de las secuencias, como
regiones de baja calidad o inconsistencias.

Problemas en ensamblaje
A
B
C
B

Secuencias Genoma.ppt

Más contenido relacionado

Similar a Secuencias Genoma.ppt

Más de David Rosales

Último

Secuencias Genoma.ppt