BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt

BIOINFORMÁTICA:
Fundamentos y aplicaciones
de actualidad
Curso de Verano
Universidad de Santiago de
Compostela

ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
Juan José Nieto
Lunes, 11 de Julio de 2005

¿Qué es un
ALINEAMIENTO
de dos o varias secuencias?

ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
 El gráfico de puntos
 Alineamiento global: algoritmo de
Needleman y Wunsch
 Alineamiento local: El algoritmo de Smith-
Waterman
 Búsquedas en bases de datos: FastA,
BLAST …

Concepto de Secuencia
 Conjunto ordenado de letras seleccionado
de un alfabeto

Ej. de Alfabetos
 Castellano (27 letras)
 Gallego (23 letras)
 Inglés (26 letras)
 Aas (20 letras)
 DNA (4 letras) a , c , g , t

Complejidad de un Alfabeto
 Número diferente de
letras que contiene

Cada secuencia forma una palabra
 XYZSECW
 GALLEGO
 GALEGO
 GATA
 CAT
 CAT:
 Gato (Inglés)
 Histidina (DNA)

Secuencias EST
 EST
(Expressed
Sequences Tags)
 Alfabeto EST:
a, g, t, c, n

INDELS
 Inserción: INSERT
 Se asigna una base demasiado pronto
 Eliminación: DELETED
 Queda sin asignar una base
 Se introduce una nueva letra en el alfabeto
DNA: El “hueco” (gap) -

¿Cómo podemos obtener una secuencia
de ácidos nucleicos, o de proteínas?
 Laboratorio
 Bases de datos
 Internet

http://www.ncbi.nlm.nih.gov
 Mycobacterium
Tuberculosis
H37Rv
 NC_000962

Mycobacterium Tuberculosis
 H37Rv
 Genoma Completo
 Gene 1--1524

M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 ttgaccgatg accccggttc aggcttcacc acagtgtgga acgcggtcgt ctccgaactt
61 aacggcgacc ctaaggttga cgacggaccc agcagtgatg ctaatctcag cgctccgctg
121 acccctcagc aaagggcttg gctcaatctc gtccagccat tgaccatcgt cgaggggttt
181 gctctgttat ccgtgccgag cagctttgtc caaaacgaaa tcgagcgcca tctgcgggcc
241 ccgattaccg acgctctcag ccgccgactc ggacatcaga tccaactcgg ggtccgcatc
301 gctccgccgg cgaccgacga agccgacgac actaccgtgc cgccttccga aaatcctgct
361 accacatcgc cagacaccac aaccgacaac gacgagattg atgacagcgc tgcggcacgg
421 ggcgataacc agcacagttg gccaagttac ttcaccgagc gcccgcacaa taccgattcc
481 gctaccgctg gcgtaaccag ccttaaccgt cgctacacct ttgatacgtt cgttatcggc
541 gcctccaacc ggttcgcgca cgccgccgcc ttggcgatcg cagaagcacc cgcccgcgct
601 tacaaccccc tgttcatctg gggcgagtcc ggtctcggca agacacacct gctacacgcg
661 gcaggcaact atgcccaacg gttgttcccg ggaatgcggg tcaaatatgt ctccaccgag
721 gaattcacca acgacttcat taactcgctc cgcgatgacc gcaaggtcgc attcaaacgc
781 agctaccgcg acgtagacgt gctgttggtc gacgacatcc aattcattga aggcaaagag
841 ggtattcaag aggagttctt ccacaccttc aacaccttgc acaatgccaa caagcaaatc
901 gtcatctcat ctgaccgccc acccaagcag ctcgccaccc tcgaggaccg gctgagaacc
961 cgctttgagt gggggctgat cactgacgta caaccacccg agctggagac ccgcatcgcc
1021 atcttgcgca agaaagcaca gatggaacgg ctcgcggtcc ccgacgatgt cctcgaactc
1081 atcgccagca gtatcgaacg caatatccgt gaactcgagg gcgcgctgat ccgggtcacc
1141 gcgttcgcct cattgaacaa aacaccaatc gacaaagcgc tggccgagat tgtgcttcgc
1201 gatctgatcg ccgacgccaa caccatgcaa atcagcgcgg cgacgatcat ggctgccacc
1261 gccgaatact tcgacactac cgtcgaagag cttcgcgggc ccggcaagac ccgagcactg
1321 gcccagtcac gacagattgc gatgtacctg tgtcgtgagc tcaccgatct ttcgttgccc
1381 aaaatcggcc aagcgttcgg ccgtgatcac acaaccgtca tgtacgccca acgcaagatc
1441 ctgtccgaga tggccgagcg ccgtgaggtc tttgatcacg tcaaagaact caccactcgc
1501 atccgtcagc gctccaagcg ctag

¿ Cuál es el propósito del
análisis de una secuencia?
 Identificar los genes
 Determinar funciones de los genes
 Comparar con otros genes similares
 Identificar las proteínas que intervienen
 Determinar patrones en las secuencias
 Identificar otras regiones

Todas estas tareas son
COMPUTACIONALES
 Biología
 Ciencias de la
Computación
 Matemáticas

 A : 0.1693
 C : 0.3232
 G : 0.3304
 T : 0.1771
 A : 17%
 C : 32%
 G : 33%
 T : 18%

 A : 17%
 C : 32%
 G : 33%
 T : 18%
 A <= > T
 G <= > C
 A+G <=> C+T
 A+T # C+G

 A : 17
 C : 32
 G : 33
 T : 18
 A/T = 0.94
 G/C = 1.03
 Pu / Py = 1.00
 Asimetría = 0.54

Reglas de Chargaff
 A <=> T
 G <=> C
 A+G <=> C+T
 A+T vs C+G

Humano
 A : 31%
 C : 20%
 G : 20%
 T : 29%

Tuberculosis vs Humano
Tuberculosis Humano
A/T 0.94 1.07
G/C 1.03 1.00
Pu/Py 1.00 1.04
Asimetría 0.54 1.50

Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A/T = c1 1.00 1.00
G/C = c2 1.00 1.00
Pu/Py = c3 1.00 1.00
Asimetría = c4 1.00 15.67

Ecuaciones
 A = c1 T
 G = c2 C
 A + G = c3 ( C + T )
 A + T = c4 ( C + G )

Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A 25% 47%
C 25% 3%
G 25% 3%
T 25% 47%

Asimetría
 Humano: 1.50
 Oveja: 1.36
 Levadura: 1.83
 E. Coli: 1.13
 Clostridium: 2.70
 Brucella: 0.72

M. Tuberculosis 3 972 522 bp
A C G T
Primera
base
228 244 409 011 470 868 216 051
Segunda
base
233 472 416 457 404 607 269 638
Tercera
base
210 892 458 256 437 223 217 803

M. Tuberculosis 3 972 522 bp
 Primera base:
1 324 174
 Segunda base:
1 324 174
 Tercera base:
1 324 174
 En la primera base hay
1324174
nucleótidos,
de los cuales
228 244
son A

Primera base del
M.Tuberculosis
 Primera base: 1 324 174
 A en la primera base: 228 244
 Fracción de A en la primera base:
228244 / 1324174 = 0.1724
 En la primera base el 17.24% son A

Primera base del
M.Tuberculosis
 En la primera base el 17.24% son A
 En la primera base el 30.89% son C
 En la primera base el 35.56% son G
 En la primera base el 16.32% son T

Frecuencias de los
nucleótidos por bases
A C G T
Primera
base
0.1724 0.3089 0.3556 0.1632
Segunda
base
0.1763 0.3145 0.3056 0.2036
Tercera
base
0.1593 0.3461 0.3302 0.1645

M. Tuberculosis
 Matriz de
3 filas x 4 columnas
 Cada entrada toma un
valor entre 0 y 1
 I = [0,1]
 Vector de I 12

Escherichia coli K-12
 http://www.ncbi.nlm.nih.gov
 NC_000913
 4 639 221 bp

 http://www.
ncbi.nlm.nih.gov
 NC_000913
 4 639 221 bp

A C G T
Primera
base
348 972 324 793 452 813 215 406
Segunda
base
381 930 306 729 235 128 418 197
Tercera
base
245 774 344 638 400 070 351 502

Frecuencias de los
nucleótidos por bases E. Coli
A C G T
Primera
base
0.2600 0.2420 0.3374 0.1605
Segunda
base
0.2846 0.2286 0.1752 0.3116
Tercera
base
0.1831 0.2568 0.2981 0.2619

Tuberculosis vs E. Coli
Tuberculosis E. Coli
A 0.1693 0.2426
C 0.3232 0.2425
G 0.3304 0.2447
T 0.1771 0.2702

Tuberculosis E. Coli
A/T 0.94 0.90
G/C 1.03 1.01
Pu / Py 1.00 0.95
Asimetría 0.54 1.05

¿Cómo comparar dos
genomas completos?
 Humano 3 000 millones bases
 Tuberculosis 4 millones de bases
 E. Coli 4 millones de bases
 Mycoplasma genitalium 528 000 bases

 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Similitud ?
 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Diferencia ?
 A mayor similitud, menor diferencia
 A menor similitud, mayor diferencia

Diferencia
Concepto matemático: Distancia

Concepto de Distancia
 Un conjunto E sobre el que se define la
distancia
 Una aplicación d: E x E ----> R+
d ( x , y)
nos da la distancia entre los elementos x
, y

Propiedades de una
Distancia
 d(x,y) = 0 <==> x = y
 d(x,y) = d(y,x)
 d(x,y) ≤ d(x,z) + d(z,y)

En I12
 x = (x1 , ……. , x12)
 y = (y1 , ……. , y12)
 d1(x , y) = | x1 - y1 | + …. + | x12 - y12 |

En I12
E =
{ Frecuencias nucleótidos/bases
Genoma completo }

A C G T
Primera
base
0.2600
0.1724
0.2420
0.3089
0.3374
0.3556
0.1605
0.1632
Segunda
base
0.2846
0.163
0.2286
0.3145
0.1752
0.3056
0.3116
0.2036
Tercera
base
0.1831
0.1593
0.2568
0.3461
0.2981
0.3002
0.2619
0.1645

E = { Frecuencias
nucleótidos/bases
Genoma completo }
 M. Tuberculosis
 E. Coli
 d1(M.Tuberculosis, E.Coli) = 0.8516

E = { Frecuencias
nucleótidos/bases
Genoma completo }

 | x1 - y1 | + …. + | x12 - y12 |
 d(x,y) = -----------------------------------------
 Max{x1,y1}+……+Max {x12,y12}

Propiedades básicas
 Es una distancia
 0 ≤ d(x,y) ≤ 1

Demostración
 J.J. .Nieto, A. Torres, M.M. Vázquez : “A metric
to study differences between polynucleotides”.
APPLIED MATHEMATICS LETTERS (2003)
 A. Dress, T. Lokot :”A simple proof of the triangle
inequality for the NTV metric”. APPLIED
MATHEMATICS LETTERS (2003)

Distancia
 d(Tuberculosis, E.Coli) = 0.8516 / 3.4253
 d(M.Tuberculosis, E.Coli) = 0.2483

d(M.Tuber., E.Coli) = 0.2483
 A. Torres & J.J. Nieto, The fuzzy
polynucleotide space: basic properties
BIOINFORMATICS Vol. 19 (2003),
pp. 587-592

Entropía de una secuencia
 “Las bases que aparecen en distintas
posiciones son independientes”
 Por ej. M. Tuberculosis

M. Tuberculosis vs
Distribución uniforme
 A : 0.1693
 C : 0.3232
 G : 0.3304
 T : 0.1771
 A : 0.25
 C : 0.25
 G : 0.25
 T : 0.25

Fórmula de la entropía
∑n fn log2 ( fn / un )

Propiedades de la entropía
 Toma valores entre 0 y 1
 Vale 0 para la distribución uniforme (por
ej. para el Aspergillus )

Entropía M. Tuberculosis
 Entropía ( M. Tuberculosis ) = 0.0693
 En una secuencia de longitud 100 hay
6.93 bits de información extra.

1-100
ttgaccgatgaccccggttcaggcttc
accacagtgtggaacgcggtcgtctc
cgaacttaacggcgaccctaaggttg
acgacggacccagcagtgatg

100 primeros nucleótidos
M. Tuberculosis
 A total: 17%
 C total: 32%
 G total: 33%
 T total: 18%
 A100: 22
 C100: 30
 G100: 29
 T100: 19

1-100
 La probabilidad de que esa secuencia
provenga del genoma de M. Tuberculosis es
26.93 = 121.9
veces más de que haya sido generada
por la distribución uniforme

Di-nucleótidos
AA AC AG AT
CA CC CG CT
GA GC GG GT
TA TC TG TT

Tri-Nucleótidos
Aminoácidos
Por ej. TCT TCA serina

BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt

Recomendados

Recomendados

Más contenido relacionado

Similar a BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt

Similar a BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt (19)

Más de David Rosales

Más de David Rosales (6)

Último

Último (15)

BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt