Secuenciación, Limpieza de
Datos y Ensamblaje
Genomas
Genomas Secuenciados
Organismo Proyectos Genoma
Virus 1419
Eubacteria 178
Archea 16
Eucariotes 64
Plantas 7
Hongos 21
Invertebrados 26
Vertebrados 10
Escherichia coli
E. coli Total proteínas
35%
65%
Desconocido Conocido
E.coli COGS
26%
0%
0%
0%
5%
1%
6%
2%
7%
2%
2%
3%
5%
6%
5%
2%
3%
4%
1%
7%
8%
3%
1%
1%
Mycobacterium tuberculosis
M. tuberculosis
62%
38%
Hipotéticas Conocidas
M. tuberculosis COGS
0%
0% 5% 1%
5%
2%
3%
3%
6%
4%
4%
5%
3%
1%
2%
3%
5%
3%
9%
5%
33%
Para Secuenciar un genoma
• Fred Sanger (1977)
• Mejoras en últimos 10 años
– Polimerasas termoestables
– Instrumentos basados en capilares (500-800pb de
alta calidad)
– Mejores detecciones fluorescentes.
– Robots para subclonajes purificaciones,
subclonaciones, etc.
Estrategias
Clone by Clone shotgun
• Estrategia: “Mapear primero, secuenciar
después”
• Construcción del mapa:
– DNA genómico se clona en BAC’s, PAC’s(100-
200kb) o YAC’s (1Mb)
– De cada BAC se toman “fingerprints” basados en
restricciones.
– Se usan para determinar regiones sobrelapadas y
ensamblar los contigs
– Se usan otros marcadores para el mapeo para
ubicar los BAC en el genoma.
Clone by Clone shotgun
• Clones que se sobrelapan mínimamente son
seleccionados para secuenciación
• Para cada BAC seleccionado el fragmento es
purificado y fragmentado  son sub-clonados.
• Se seleccionan algunos de manera aleatoria y se
secuencian.
• A través de computadores y herramientas
bioinformáticas se ensamblan las secuencias en
contigs.
• Se chequea una vez terminada para observar que
los resultados con marcadores y enzimas de
restricción se sigan obteniendo.
Whole-genome shotgun
sequencing
• Se generan secuencias aleatorias a lo
largo de todo el genoma.
• Requiere que se hagan muchas copias
para asegurar que se cubre todo el
genoma.
• No necesita un mapa físico anterior.
Generación de Secuencias
Traducción de Cromatogramas
Remover contaminación de Vectores
Enmascaramiento de repeticiones
Agrupamiento (Clustering)
Ensamblaje
Generación de Secuencias
• Marcar los fragmentos con colorantes
fluorescentes.
• Electroforesis (Geles o Capilares)
• Capilares: Detección por láser
• Convertir las mediciones en secuencia
• Problemas:
– Generalmente primeros 50 nuc. no son tan
confiables, hay ruido y los picos no están bien
separados
– Depende de factores como la calidad de la
secuencia o la afinidad y calidad de la polimerasa
usada.
Metodo Dideoxy
Traducción de Cromatograma
Hay varios programas, entre ellos:
• Phred (Ewig et al., 98);
• ABI (Connell et al., 87);
• Sax (Berno, 95);
• A base-calling library (Giddings et al.,
93);
Phred
Genome Research 8: 175-185, 1998
Phred
1. Lee cromatogramas – compatible con la mayoria
de formatos: SCF (standard chromatogram format),
ABI (373/377/3700), ESD (MegaBACE) and LI-
COR.
2. “Base calling” – A cada pico asigna un nucleotido
especifico, con menor probabilidad de error que
otros programas.
Phred
3. Asigna valores de calidad a cada base – un “Phred
value” basado en una estimacion del error para
cada base.
4. Crea archivos de salida – aparecen los
nucleotidos, valores de calidad y posicion de cada
pico respecto al origen.
Phd file
BEGIN_SEQUENCE
01EBV10201A02.g
BEGIN_COMMENT
CHROMAT_FILE: EBV10201A02.g
ABI_THUMBPRINT:
PHRED_VERSION: 0.990722.g
CALL_METHOD: phred
QUALITY_LEVELS:99
TIME: Thu May 24 00:18:58 2001
TRACE_ARRAY_MIN_INDEX: 0
TRACE_ARRAY_MAX_INDEX: 12153
TRIM:
CHEM: term
DYE: big
END_COMMENT
BEGIN_DNA
t 8 5
c 13 17
a 19 26
c 19 32
t 24 2221
a 24 2232
a 22 2245
a 27 2261
g 25 2272
c 19 2286
c 12 2302
t 19 2314
g 12 2324
g 15 2331
g 19 2346
g 23 2363
t 33 2378
g 36 2390
c 44 2404
c 44 2419
END_DNA
END_SEQUEN
CE
Limpieza de Contaminación por
Vectores
• Eliminar regiones 5’ y 3’ que corresponden a los
vectores y adaptadores usados para la
secuenciación.
• Contaminación: De Bacterias, Levaduras.
• Se usan programas tipo Blast que realizan
alineamientos pareados contra bases de datos de
vectores. UniVec es una base de datos no
redundante en el NCBI
http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html
• VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen)
Enmascaramiento de
Repeticiones
• Deben ser enmascarados no eliminados porque
también causaría un mal ensamblaje. Interesante para
ciertos estudios evolutivos y para el mapeo de
enfermedades.
• También se puede enmascarar el DNA ribosomal.
• Herramientas:
– Repeat masker: Diseñado para encontrar elementos
repetitivos y secuencias de baja complejidad.
http://repeatmasker.genome.washington.edu/cgi-
bin/RepeatMasker
– MaskerAid: Usando otro algoritmo (WU-Blast) para
alineamientos es 30 veces mejor que repeat Masker.
http://sapiens.wustl.edu/maskeraid
Gran Numero de Repeticiones
Ensamblaje y Procesamiento
• Reconstrucción de la secuencia original a partir de
los subfragmentos.
• Puede generar mas de 1 secuencia.
• Phrap ampliamente usado para secuencias
genómicas
• Otros disponibles:
– CAP3, TIGR Assembler.
Phrap
Phragment Assembly Program
Es un programa para ensamblar fragmentos
“Shotgun”
Phrap
Caracteristicas:
a. Usa las entradas completas (Salidas de Phred) (No necesita
editarlas)
b. No genera un conscenso!! El Contig es constituido por un
mosaico de los segmentos de mayor calidad de las lecturas.
c. En los diferentes archivos de salida da diferentes
características de los alineamientos como la calidad de estos.
d. Maneja facilmente gran cantidad de datos (Cientos de miles).
Algoritmo de Phrap
1) Lee la secuencia y los valores de calidad, genera los
complementos.
2) Busca palabras homólogas y elimina secuencias
idénticas.
3) Busca contaminación por vectores y enmascara.
4) Busca secuencias casi idénticas y con “self-matching”
4) Encuentra “matches” de 2 secuencias y se confirman
según la calidad de las lecturas.
6) Calcula un puntaje para los “matches”.
7) Encuentra el mejor alineamiento para cada pareja con
“match”
8) Con los alineamientos, se arman los contigs de mayor
a menor puntaje.
Algoritmo de Phrap
Archivos de salida de Phrap
• *.contigs – Contigs en formato Fasta
• *.singlets – “Singlets” en formato Fasta
• *.ace – Archivo para correr el Consed
• *.view – Requerido para ver en el PhrapView
Consed
Programa para ver y editar los ensamblajes.
Características:
a. Assembly viewer - Permite ver los contigs como alineamientos
múltiples de las secuencias.
b. Trace file viewer – Permite ver y comparar los cromatogramas de
las diferentes secuencias alineadas.
c. Navigation – Da características de las secuencias, como
regiones de baja calidad o inconsistencias.
Consed
Consed
Consed
Consed
Consed
Problemas en ensamblaje
A
B
C
B
Secuencias Genoma.ppt

Secuencias Genoma.ppt

  • 1.
  • 2.
    Genomas Secuenciados Organismo ProyectosGenoma Virus 1419 Eubacteria 178 Archea 16 Eucariotes 64 Plantas 7 Hongos 21 Invertebrados 26 Vertebrados 10
  • 3.
    Escherichia coli E. coliTotal proteínas 35% 65% Desconocido Conocido E.coli COGS 26% 0% 0% 0% 5% 1% 6% 2% 7% 2% 2% 3% 5% 6% 5% 2% 3% 4% 1% 7% 8% 3% 1% 1%
  • 4.
    Mycobacterium tuberculosis M. tuberculosis 62% 38% HipotéticasConocidas M. tuberculosis COGS 0% 0% 5% 1% 5% 2% 3% 3% 6% 4% 4% 5% 3% 1% 2% 3% 5% 3% 9% 5% 33%
  • 6.
    Para Secuenciar ungenoma • Fred Sanger (1977) • Mejoras en últimos 10 años – Polimerasas termoestables – Instrumentos basados en capilares (500-800pb de alta calidad) – Mejores detecciones fluorescentes. – Robots para subclonajes purificaciones, subclonaciones, etc.
  • 7.
  • 8.
    Clone by Cloneshotgun • Estrategia: “Mapear primero, secuenciar después” • Construcción del mapa: – DNA genómico se clona en BAC’s, PAC’s(100- 200kb) o YAC’s (1Mb) – De cada BAC se toman “fingerprints” basados en restricciones. – Se usan para determinar regiones sobrelapadas y ensamblar los contigs – Se usan otros marcadores para el mapeo para ubicar los BAC en el genoma.
  • 9.
    Clone by Cloneshotgun • Clones que se sobrelapan mínimamente son seleccionados para secuenciación • Para cada BAC seleccionado el fragmento es purificado y fragmentado  son sub-clonados. • Se seleccionan algunos de manera aleatoria y se secuencian. • A través de computadores y herramientas bioinformáticas se ensamblan las secuencias en contigs. • Se chequea una vez terminada para observar que los resultados con marcadores y enzimas de restricción se sigan obteniendo.
  • 11.
    Whole-genome shotgun sequencing • Segeneran secuencias aleatorias a lo largo de todo el genoma. • Requiere que se hagan muchas copias para asegurar que se cubre todo el genoma. • No necesita un mapa físico anterior.
  • 13.
    Generación de Secuencias Traducciónde Cromatogramas Remover contaminación de Vectores Enmascaramiento de repeticiones Agrupamiento (Clustering) Ensamblaje
  • 14.
    Generación de Secuencias •Marcar los fragmentos con colorantes fluorescentes. • Electroforesis (Geles o Capilares) • Capilares: Detección por láser • Convertir las mediciones en secuencia • Problemas: – Generalmente primeros 50 nuc. no son tan confiables, hay ruido y los picos no están bien separados – Depende de factores como la calidad de la secuencia o la afinidad y calidad de la polimerasa usada.
  • 15.
  • 19.
    Traducción de Cromatograma Hayvarios programas, entre ellos: • Phred (Ewig et al., 98); • ABI (Connell et al., 87); • Sax (Berno, 95); • A base-calling library (Giddings et al., 93);
  • 20.
  • 21.
    Phred 1. Lee cromatogramas– compatible con la mayoria de formatos: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) and LI- COR. 2. “Base calling” – A cada pico asigna un nucleotido especifico, con menor probabilidad de error que otros programas.
  • 22.
    Phred 3. Asigna valoresde calidad a cada base – un “Phred value” basado en una estimacion del error para cada base. 4. Crea archivos de salida – aparecen los nucleotidos, valores de calidad y posicion de cada pico respecto al origen.
  • 23.
    Phd file BEGIN_SEQUENCE 01EBV10201A02.g BEGIN_COMMENT CHROMAT_FILE: EBV10201A02.g ABI_THUMBPRINT: PHRED_VERSION:0.990722.g CALL_METHOD: phred QUALITY_LEVELS:99 TIME: Thu May 24 00:18:58 2001 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 12153 TRIM: CHEM: term DYE: big END_COMMENT BEGIN_DNA t 8 5 c 13 17 a 19 26 c 19 32 t 24 2221 a 24 2232 a 22 2245 a 27 2261 g 25 2272 c 19 2286 c 12 2302 t 19 2314 g 12 2324 g 15 2331 g 19 2346 g 23 2363 t 33 2378 g 36 2390 c 44 2404 c 44 2419 END_DNA END_SEQUEN CE
  • 24.
    Limpieza de Contaminaciónpor Vectores • Eliminar regiones 5’ y 3’ que corresponden a los vectores y adaptadores usados para la secuenciación. • Contaminación: De Bacterias, Levaduras. • Se usan programas tipo Blast que realizan alineamientos pareados contra bases de datos de vectores. UniVec es una base de datos no redundante en el NCBI http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html • VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen)
  • 26.
    Enmascaramiento de Repeticiones • Debenser enmascarados no eliminados porque también causaría un mal ensamblaje. Interesante para ciertos estudios evolutivos y para el mapeo de enfermedades. • También se puede enmascarar el DNA ribosomal. • Herramientas: – Repeat masker: Diseñado para encontrar elementos repetitivos y secuencias de baja complejidad. http://repeatmasker.genome.washington.edu/cgi- bin/RepeatMasker – MaskerAid: Usando otro algoritmo (WU-Blast) para alineamientos es 30 veces mejor que repeat Masker. http://sapiens.wustl.edu/maskeraid
  • 27.
    Gran Numero deRepeticiones
  • 29.
    Ensamblaje y Procesamiento •Reconstrucción de la secuencia original a partir de los subfragmentos. • Puede generar mas de 1 secuencia. • Phrap ampliamente usado para secuencias genómicas • Otros disponibles: – CAP3, TIGR Assembler.
  • 30.
    Phrap Phragment Assembly Program Esun programa para ensamblar fragmentos “Shotgun”
  • 31.
    Phrap Caracteristicas: a. Usa lasentradas completas (Salidas de Phred) (No necesita editarlas) b. No genera un conscenso!! El Contig es constituido por un mosaico de los segmentos de mayor calidad de las lecturas. c. En los diferentes archivos de salida da diferentes características de los alineamientos como la calidad de estos. d. Maneja facilmente gran cantidad de datos (Cientos de miles).
  • 32.
    Algoritmo de Phrap 1)Lee la secuencia y los valores de calidad, genera los complementos. 2) Busca palabras homólogas y elimina secuencias idénticas. 3) Busca contaminación por vectores y enmascara. 4) Busca secuencias casi idénticas y con “self-matching”
  • 33.
    4) Encuentra “matches”de 2 secuencias y se confirman según la calidad de las lecturas. 6) Calcula un puntaje para los “matches”. 7) Encuentra el mejor alineamiento para cada pareja con “match” 8) Con los alineamientos, se arman los contigs de mayor a menor puntaje. Algoritmo de Phrap
  • 34.
    Archivos de salidade Phrap • *.contigs – Contigs en formato Fasta • *.singlets – “Singlets” en formato Fasta • *.ace – Archivo para correr el Consed • *.view – Requerido para ver en el PhrapView
  • 35.
    Consed Programa para very editar los ensamblajes. Características: a. Assembly viewer - Permite ver los contigs como alineamientos múltiples de las secuencias. b. Trace file viewer – Permite ver y comparar los cromatogramas de las diferentes secuencias alineadas. c. Navigation – Da características de las secuencias, como regiones de baja calidad o inconsistencias.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.