6. ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
El gráfico de puntos
Alineamiento global: algoritmo de
Needleman y Wunsch
Alineamiento local: El algoritmo de Smith-
Waterman
Búsquedas en bases de datos: FastA,
BLAST …
12. INDELS
Inserción: INSERT
Se asigna una base demasiado pronto
Eliminación: DELETED
Queda sin asignar una base
Se introduce una nueva letra en el alfabeto
DNA: El “hueco” (gap) -
13. ¿Cómo podemos obtener una secuencia
de ácidos nucleicos, o de proteínas?
Laboratorio
Bases de datos
Internet
17. ¿ Cuál es el propósito del
análisis de una secuencia?
Identificar los genes
Determinar funciones de los genes
Comparar con otros genes similares
Identificar las proteínas que intervienen
Determinar patrones en las secuencias
Identificar otras regiones
18. Todas estas tareas son
COMPUTACIONALES
Biología
Ciencias de la
Computación
Matemáticas
31. M. Tuberculosis 3 972 522 bp
A C G T
Primera
base
228 244 409 011 470 868 216 051
Segunda
base
233 472 416 457 404 607 269 638
Tercera
base
210 892 458 256 437 223 217 803
32. M. Tuberculosis 3 972 522 bp
Primera base:
1 324 174
Segunda base:
1 324 174
Tercera base:
1 324 174
En la primera base hay
1324174
nucleótidos,
de los cuales
228 244
son A
33. Primera base del
M.Tuberculosis
Primera base: 1 324 174
A en la primera base: 228 244
Fracción de A en la primera base:
228244 / 1324174 = 0.1724
En la primera base el 17.24% son A
34. Primera base del
M.Tuberculosis
En la primera base el 17.24% son A
En la primera base el 30.89% son C
En la primera base el 35.56% son G
En la primera base el 16.32% son T
35. Frecuencias de los
nucleótidos por bases
A C G T
Primera
base
0.1724 0.3089 0.3556 0.1632
Segunda
base
0.1763 0.3145 0.3056 0.2036
Tercera
base
0.1593 0.3461 0.3302 0.1645
36. M. Tuberculosis
Matriz de
3 filas x 4 columnas
Cada entrada toma un
valor entre 0 y 1
I = [0,1]
Vector de I 12
39. Escherichia coli K-12
A C G T
Primera
base
348 972 324 793 452 813 215 406
Segunda
base
381 930 306 729 235 128 418 197
Tercera
base
245 774 344 638 400 070 351 502
40. Frecuencias de los
nucleótidos por bases E. Coli
A C G T
Primera
base
0.2600 0.2420 0.3374 0.1605
Segunda
base
0.2846 0.2286 0.1752 0.3116
Tercera
base
0.1831 0.2568 0.2981 0.2619
41. Tuberculosis vs E. Coli
Tuberculosis E. Coli
A 0.1693 0.2426
C 0.3232 0.2425
G 0.3304 0.2447
T 0.1771 0.2702
42. Tuberculosis vs E. Coli
Tuberculosis E. Coli
A/T 0.94 0.90
G/C 1.03 1.01
Pu / Py 1.00 0.95
Asimetría 0.54 1.05
43. ¿Cómo comparar dos
genomas completos?
Humano 3 000 millones bases
Tuberculosis 4 millones de bases
E. Coli 4 millones de bases
Mycoplasma genitalium 528 000 bases
44. Tuberculosis vs E. Coli
¿Cómo comparar ambos y dar una medida
cuantitativa de su Similitud ?
¿Cómo comparar ambos y dar una medida
cuantitativa de su Diferencia ?
A mayor similitud, menor diferencia
A menor similitud, mayor diferencia
46. Concepto de Distancia
Un conjunto E sobre el que se define la
distancia
Una aplicación d: E x E ----> R+
d ( x , y)
nos da la distancia entre los elementos x
, y
49. En I12
E =
{ Frecuencias nucleótidos/bases
Genoma completo }
50. Tuberculosis vs E. Coli
A C G T
Primera
base
0.2600
0.1724
0.2420
0.3089
0.3374
0.3556
0.1605
0.1632
Segunda
base
0.2846
0.163
0.2286
0.3145
0.1752
0.3056
0.3116
0.2036
Tercera
base
0.1831
0.1593
0.2568
0.3461
0.2981
0.3002
0.2619
0.1645
51. E = { Frecuencias
nucleótidos/bases
Genoma completo }
M. Tuberculosis
E. Coli
d1(M.Tuberculosis, E.Coli) = 0.8516
54. Demostración
J.J. .Nieto, A. Torres, M.M. Vázquez : “A metric
to study differences between polynucleotides”.
APPLIED MATHEMATICS LETTERS (2003)
A. Dress, T. Lokot :”A simple proof of the triangle
inequality for the NTV metric”. APPLIED
MATHEMATICS LETTERS (2003)
55. Tuberculosis vs E. Coli
A C G T
Primera
base
0.2600
0.1724
0.2420
0.3089
0.3374
0.3556
0.1605
0.1632
Segunda
base
0.2846
0.163
0.2286
0.3145
0.1752
0.3056
0.3116
0.2036
Tercera
base
0.1831
0.1593
0.2568
0.3461
0.2981
0.3002
0.2619
0.1645
64. 100 primeros nucleótidos
M. Tuberculosis
A total: 17%
C total: 32%
G total: 33%
T total: 18%
A100: 22
C100: 30
G100: 29
T100: 19
65. 1-100
La probabilidad de que esa secuencia
provenga del genoma de M. Tuberculosis es
26.93 = 121.9
veces más de que haya sido generada
por la distribución uniforme