SlideShare una empresa de Scribd logo
1 de 67
BIOINFORMÁTICA:
Fundamentos y aplicaciones
de actualidad
Curso de Verano
Universidad de Santiago de
Compostela
ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
Juan José Nieto
Lunes, 11 de Julio de 2005
¿Qué es una
SECUENCIA?
¿Qué es un
ALINEAMIENTO
de dos o varias secuencias?
¿Qué es un
ALGORITMO?
ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
 El gráfico de puntos
 Alineamiento global: algoritmo de
Needleman y Wunsch
 Alineamiento local: El algoritmo de Smith-
Waterman
 Búsquedas en bases de datos: FastA,
BLAST …
Concepto de Secuencia
 Conjunto ordenado de letras seleccionado
de un alfabeto
Ej. de Alfabetos
 Castellano (27 letras)
 Gallego (23 letras)
 Inglés (26 letras)
 Aas (20 letras)
 DNA (4 letras) a , c , g , t
Complejidad de un Alfabeto
 Número diferente de
letras que contiene
Cada secuencia forma una palabra
 XYZSECW
 GALLEGO
 GALEGO
 GATA
 CAT
 CAT:
 Gato (Inglés)
 Histidina (DNA)
Secuencias EST
 EST
(Expressed
Sequences Tags)
 Alfabeto EST:
a, g, t, c, n
INDELS
 Inserción: INSERT
 Se asigna una base demasiado pronto
 Eliminación: DELETED
 Queda sin asignar una base
 Se introduce una nueva letra en el alfabeto
DNA: El “hueco” (gap) -
¿Cómo podemos obtener una secuencia
de ácidos nucleicos, o de proteínas?
 Laboratorio
 Bases de datos
 Internet
http://www.ncbi.nlm.nih.gov
 Mycobacterium
Tuberculosis
H37Rv
 NC_000962
Mycobacterium Tuberculosis
 H37Rv
 Genoma Completo
 Gene 1--1524
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 ttgaccgatg accccggttc aggcttcacc acagtgtgga acgcggtcgt ctccgaactt
61 aacggcgacc ctaaggttga cgacggaccc agcagtgatg ctaatctcag cgctccgctg
121 acccctcagc aaagggcttg gctcaatctc gtccagccat tgaccatcgt cgaggggttt
181 gctctgttat ccgtgccgag cagctttgtc caaaacgaaa tcgagcgcca tctgcgggcc
241 ccgattaccg acgctctcag ccgccgactc ggacatcaga tccaactcgg ggtccgcatc
301 gctccgccgg cgaccgacga agccgacgac actaccgtgc cgccttccga aaatcctgct
361 accacatcgc cagacaccac aaccgacaac gacgagattg atgacagcgc tgcggcacgg
421 ggcgataacc agcacagttg gccaagttac ttcaccgagc gcccgcacaa taccgattcc
481 gctaccgctg gcgtaaccag ccttaaccgt cgctacacct ttgatacgtt cgttatcggc
541 gcctccaacc ggttcgcgca cgccgccgcc ttggcgatcg cagaagcacc cgcccgcgct
601 tacaaccccc tgttcatctg gggcgagtcc ggtctcggca agacacacct gctacacgcg
661 gcaggcaact atgcccaacg gttgttcccg ggaatgcggg tcaaatatgt ctccaccgag
721 gaattcacca acgacttcat taactcgctc cgcgatgacc gcaaggtcgc attcaaacgc
781 agctaccgcg acgtagacgt gctgttggtc gacgacatcc aattcattga aggcaaagag
841 ggtattcaag aggagttctt ccacaccttc aacaccttgc acaatgccaa caagcaaatc
901 gtcatctcat ctgaccgccc acccaagcag ctcgccaccc tcgaggaccg gctgagaacc
961 cgctttgagt gggggctgat cactgacgta caaccacccg agctggagac ccgcatcgcc
1021 atcttgcgca agaaagcaca gatggaacgg ctcgcggtcc ccgacgatgt cctcgaactc
1081 atcgccagca gtatcgaacg caatatccgt gaactcgagg gcgcgctgat ccgggtcacc
1141 gcgttcgcct cattgaacaa aacaccaatc gacaaagcgc tggccgagat tgtgcttcgc
1201 gatctgatcg ccgacgccaa caccatgcaa atcagcgcgg cgacgatcat ggctgccacc
1261 gccgaatact tcgacactac cgtcgaagag cttcgcgggc ccggcaagac ccgagcactg
1321 gcccagtcac gacagattgc gatgtacctg tgtcgtgagc tcaccgatct ttcgttgccc
1381 aaaatcggcc aagcgttcgg ccgtgatcac acaaccgtca tgtacgccca acgcaagatc
1441 ctgtccgaga tggccgagcg ccgtgaggtc tttgatcacg tcaaagaact caccactcgc
1501 atccgtcagc gctccaagcg ctag
¿ Cuál es el propósito del
análisis de una secuencia?
 Identificar los genes
 Determinar funciones de los genes
 Comparar con otros genes similares
 Identificar las proteínas que intervienen
 Determinar patrones en las secuencias
 Identificar otras regiones
Todas estas tareas son
COMPUTACIONALES
 Biología
 Ciencias de la
Computación
 Matemáticas
Análisis de una
secuencia
Mycobacterium Tuberculosis
 A : 0.1693
 C : 0.3232
 G : 0.3304
 T : 0.1771
 A : 17%
 C : 32%
 G : 33%
 T : 18%
Mycobacterium Tuberculosis
 A : 17%
 C : 32%
 G : 33%
 T : 18%
 A <= > T
 G <= > C
 A+G <=> C+T
 A+T # C+G
Mycobacterium Tuberculosis
 A : 17
 C : 32
 G : 33
 T : 18
 A/T = 0.94
 G/C = 1.03
 Pu / Py = 1.00
 Asimetría = 0.54
Reglas de Chargaff
 A <=> T
 G <=> C
 A+G <=> C+T
 A+T vs C+G
Humano
 A : 31%
 C : 20%
 G : 20%
 T : 29%
Tuberculosis vs Humano
Tuberculosis Humano
A/T 0.94 1.07
G/C 1.03 1.00
Pu/Py 1.00 1.04
Asimetría 0.54 1.50
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A/T = c1 1.00 1.00
G/C = c2 1.00 1.00
Pu/Py = c3 1.00 1.00
Asimetría = c4 1.00 15.67
Ecuaciones
 A = c1 T
 G = c2 C
 A + G = c3 ( C + T )
 A + T = c4 ( C + G )
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A 25% 47%
C 25% 3%
G 25% 3%
T 25% 47%
Asimetría
 Humano: 1.50
 Oveja: 1.36
 Levadura: 1.83
 E. Coli: 1.13
 Clostridium: 2.70
 Brucella: 0.72
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 ttgaccgatg accccggttc aggcttcacc acagtgtgga acgcggtcgt ctccgaactt
61 aacggcgacc ctaaggttga cgacggaccc agcagtgatg ctaatctcag cgctccgctg
121 acccctcagc aaagggcttg gctcaatctc gtccagccat tgaccatcgt cgaggggttt
181 gctctgttat ccgtgccgag cagctttgtc caaaacgaaa tcgagcgcca tctgcgggcc
241 ccgattaccg acgctctcag ccgccgactc ggacatcaga tccaactcgg ggtccgcatc
301 gctccgccgg cgaccgacga agccgacgac actaccgtgc cgccttccga aaatcctgct
361 accacatcgc cagacaccac aaccgacaac gacgagattg atgacagcgc tgcggcacgg
421 ggcgataacc agcacagttg gccaagttac ttcaccgagc gcccgcacaa taccgattcc
481 gctaccgctg gcgtaaccag ccttaaccgt cgctacacct ttgatacgtt cgttatcggc
541 gcctccaacc ggttcgcgca cgccgccgcc ttggcgatcg cagaagcacc cgcccgcgct
601 tacaaccccc tgttcatctg gggcgagtcc ggtctcggca agacacacct gctacacgcg
661 gcaggcaact atgcccaacg gttgttcccg ggaatgcggg tcaaatatgt ctccaccgag
721 gaattcacca acgacttcat taactcgctc cgcgatgacc gcaaggtcgc attcaaacgc
781 agctaccgcg acgtagacgt gctgttggtc gacgacatcc aattcattga aggcaaagag
841 ggtattcaag aggagttctt ccacaccttc aacaccttgc acaatgccaa caagcaaatc
901 gtcatctcat ctgaccgccc acccaagcag ctcgccaccc tcgaggaccg gctgagaacc
961 cgctttgagt gggggctgat cactgacgta caaccacccg agctggagac ccgcatcgcc
1021 atcttgcgca agaaagcaca gatggaacgg ctcgcggtcc ccgacgatgt cctcgaactc
1081 atcgccagca gtatcgaacg caatatccgt gaactcgagg gcgcgctgat ccgggtcacc
1141 gcgttcgcct cattgaacaa aacaccaatc gacaaagcgc tggccgagat tgtgcttcgc
1201 gatctgatcg ccgacgccaa caccatgcaa atcagcgcgg cgacgatcat ggctgccacc
1261 gccgaatact tcgacactac cgtcgaagag cttcgcgggc ccggcaagac ccgagcactg
1321 gcccagtcac gacagattgc gatgtacctg tgtcgtgagc tcaccgatct ttcgttgccc
1381 aaaatcggcc aagcgttcgg ccgtgatcac acaaccgtca tgtacgccca acgcaagatc
1441 ctgtccgaga tggccgagcg ccgtgaggtc tttgatcacg tcaaagaact caccactcgc
1501 atccgtcagc gctccaagcg ctag
M. Tuberculosis 3 972 522 bp
A C G T
Primera
base
228 244 409 011 470 868 216 051
Segunda
base
233 472 416 457 404 607 269 638
Tercera
base
210 892 458 256 437 223 217 803
M. Tuberculosis 3 972 522 bp
 Primera base:
1 324 174
 Segunda base:
1 324 174
 Tercera base:
1 324 174
 En la primera base hay
1324174
nucleótidos,
de los cuales
228 244
son A
Primera base del
M.Tuberculosis
 Primera base: 1 324 174
 A en la primera base: 228 244
 Fracción de A en la primera base:
228244 / 1324174 = 0.1724
 En la primera base el 17.24% son A
Primera base del
M.Tuberculosis
 En la primera base el 17.24% son A
 En la primera base el 30.89% son C
 En la primera base el 35.56% son G
 En la primera base el 16.32% son T
Frecuencias de los
nucleótidos por bases
A C G T
Primera
base
0.1724 0.3089 0.3556 0.1632
Segunda
base
0.1763 0.3145 0.3056 0.2036
Tercera
base
0.1593 0.3461 0.3302 0.1645
M. Tuberculosis
 Matriz de
3 filas x 4 columnas
 Cada entrada toma un
valor entre 0 y 1
 I = [0,1]
 Vector de I 12
Escherichia coli K-12
 http://www.ncbi.nlm.nih.gov
 NC_000913
 4 639 221 bp
Escherichia coli K-12
 http://www.
ncbi.nlm.nih.gov
 NC_000913
 4 639 221 bp
Escherichia coli K-12
A C G T
Primera
base
348 972 324 793 452 813 215 406
Segunda
base
381 930 306 729 235 128 418 197
Tercera
base
245 774 344 638 400 070 351 502
Frecuencias de los
nucleótidos por bases E. Coli
A C G T
Primera
base
0.2600 0.2420 0.3374 0.1605
Segunda
base
0.2846 0.2286 0.1752 0.3116
Tercera
base
0.1831 0.2568 0.2981 0.2619
Tuberculosis vs E. Coli
Tuberculosis E. Coli
A 0.1693 0.2426
C 0.3232 0.2425
G 0.3304 0.2447
T 0.1771 0.2702
Tuberculosis vs E. Coli
Tuberculosis E. Coli
A/T 0.94 0.90
G/C 1.03 1.01
Pu / Py 1.00 0.95
Asimetría 0.54 1.05
¿Cómo comparar dos
genomas completos?
 Humano 3 000 millones bases
 Tuberculosis 4 millones de bases
 E. Coli 4 millones de bases
 Mycoplasma genitalium 528 000 bases
Tuberculosis vs E. Coli
 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Similitud ?
 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Diferencia ?
 A mayor similitud, menor diferencia
 A menor similitud, mayor diferencia
Diferencia
Concepto matemático: Distancia
Concepto de Distancia
 Un conjunto E sobre el que se define la
distancia
 Una aplicación d: E x E ----> R+
d ( x , y)
nos da la distancia entre los elementos x
, y
Propiedades de una
Distancia
 d(x,y) = 0 <==> x = y
 d(x,y) = d(y,x)
 d(x,y) ≤ d(x,z) + d(z,y)
En I12
 x = (x1 , ……. , x12)
 y = (y1 , ……. , y12)
 d1(x , y) = | x1 - y1 | + …. + | x12 - y12 |
En I12
E =
{ Frecuencias nucleótidos/bases
Genoma completo }
Tuberculosis vs E. Coli
A C G T
Primera
base
0.2600
0.1724
0.2420
0.3089
0.3374
0.3556
0.1605
0.1632
Segunda
base
0.2846
0.163
0.2286
0.3145
0.1752
0.3056
0.3116
0.2036
Tercera
base
0.1831
0.1593
0.2568
0.3461
0.2981
0.3002
0.2619
0.1645
E = { Frecuencias
nucleótidos/bases
Genoma completo }
 M. Tuberculosis
 E. Coli
 d1(M.Tuberculosis, E.Coli) = 0.8516
E = { Frecuencias
nucleótidos/bases
Genoma completo }

 | x1 - y1 | + …. + | x12 - y12 |
 d(x,y) = -----------------------------------------
 Max{x1,y1}+……+Max {x12,y12}
Propiedades básicas
 Es una distancia
 0 ≤ d(x,y) ≤ 1
Demostración
 J.J. .Nieto, A. Torres, M.M. Vázquez : “A metric
to study differences between polynucleotides”.
APPLIED MATHEMATICS LETTERS (2003)
 A. Dress, T. Lokot :”A simple proof of the triangle
inequality for the NTV metric”. APPLIED
MATHEMATICS LETTERS (2003)
Tuberculosis vs E. Coli
A C G T
Primera
base
0.2600
0.1724
0.2420
0.3089
0.3374
0.3556
0.1605
0.1632
Segunda
base
0.2846
0.163
0.2286
0.3145
0.1752
0.3056
0.3116
0.2036
Tercera
base
0.1831
0.1593
0.2568
0.3461
0.2981
0.3002
0.2619
0.1645
Distancia
 d(Tuberculosis, E.Coli) = 0.8516 / 3.4253
 d(M.Tuberculosis, E.Coli) = 0.2483
d(M.Tuber., E.Coli) = 0.2483
 A. Torres & J.J. Nieto, The fuzzy
polynucleotide space: basic properties
BIOINFORMATICS Vol. 19 (2003),
pp. 587-592
Entropía de una secuencia
 “Las bases que aparecen en distintas
posiciones son independientes”
 Por ej. M. Tuberculosis
M. Tuberculosis vs
Distribución uniforme
 A : 0.1693
 C : 0.3232
 G : 0.3304
 T : 0.1771
 A : 0.25
 C : 0.25
 G : 0.25
 T : 0.25
Fórmula de la entropía
∑n fn log2 ( fn / un )
Propiedades de la entropía
 Toma valores entre 0 y 1
 Vale 0 para la distribución uniforme (por
ej. para el Aspergillus )
Entropía M. Tuberculosis
 Entropía ( M. Tuberculosis ) = 0.0693
 En una secuencia de longitud 100 hay
6.93 bits de información extra.
1-100
ttgaccgatgaccccggttcaggcttc
accacagtgtggaacgcggtcgtctc
cgaacttaacggcgaccctaaggttg
acgacggacccagcagtgatg
100 primeros nucleótidos
M. Tuberculosis
 A total: 17%
 C total: 32%
 G total: 33%
 T total: 18%
 A100: 22
 C100: 30
 G100: 29
 T100: 19
1-100
 La probabilidad de que esa secuencia
provenga del genoma de M. Tuberculosis es
26.93 = 121.9
veces más de que haya sido generada
por la distribución uniforme
Di-nucleótidos
AA AC AG AT
CA CC CG CT
GA GC GG GT
TA TC TG TT
Tri-Nucleótidos
Aminoácidos
Por ej. TCT TCA serina

Más contenido relacionado

Similar a BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt

Similar a BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt (19)

Web trig
Web trigWeb trig
Web trig
 
Formulas trigonometria
Formulas trigonometriaFormulas trigonometria
Formulas trigonometria
 
Identidades trigonometricas
Identidades trigonometricasIdentidades trigonometricas
Identidades trigonometricas
 
Formulario trigonometria
Formulario trigonometriaFormulario trigonometria
Formulario trigonometria
 
Identidades trigonometricas
Identidades trigonometricasIdentidades trigonometricas
Identidades trigonometricas
 
Analisis de la tasa de rechazo e indices de exposicion en radiologia digital
Analisis de la tasa de rechazo e indices de exposicion en radiologia digitalAnalisis de la tasa de rechazo e indices de exposicion en radiologia digital
Analisis de la tasa de rechazo e indices de exposicion en radiologia digital
 
Reforzamiento 1
Reforzamiento 1Reforzamiento 1
Reforzamiento 1
 
Guía n 11 identidades trigonométricas básicas y auxiliares
Guía n  11 identidades trigonométricas básicas y auxiliaresGuía n  11 identidades trigonométricas básicas y auxiliares
Guía n 11 identidades trigonométricas básicas y auxiliares
 
8vo Pre Prueba
8vo Pre Prueba 8vo Pre Prueba
8vo Pre Prueba
 
Relacion de problemas
Relacion de problemasRelacion de problemas
Relacion de problemas
 
Semana 3 completo
Semana 3 completoSemana 3 completo
Semana 3 completo
 
Semana 3 completo
Semana 3 completoSemana 3 completo
Semana 3 completo
 
Problemas bioestadistica
Problemas bioestadisticaProblemas bioestadistica
Problemas bioestadistica
 
Semana 8 1
Semana 8 1Semana 8 1
Semana 8 1
 
chi_cuad2010.ppt
chi_cuad2010.pptchi_cuad2010.ppt
chi_cuad2010.ppt
 
Semana 3
Semana 3Semana 3
Semana 3
 
Razones trigonometricas de angulos agudos
Razones trigonometricas de angulos agudosRazones trigonometricas de angulos agudos
Razones trigonometricas de angulos agudos
 
Proteina c activada en el paciente quirúrgico
Proteina c activada en el paciente quirúrgicoProteina c activada en el paciente quirúrgico
Proteina c activada en el paciente quirúrgico
 
Examen UNSM TARAPOTO
Examen UNSM TARAPOTOExamen UNSM TARAPOTO
Examen UNSM TARAPOTO
 

Más de David Rosales

UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.ppt
UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.pptUTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.ppt
UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.pptDavid Rosales
 
Promoter tools for further development of Aspergillus oryzae.pptx
Promoter tools for further development of Aspergillus oryzae.pptxPromoter tools for further development of Aspergillus oryzae.pptx
Promoter tools for further development of Aspergillus oryzae.pptxDavid Rosales
 
Técnicas en biología.pptx
Técnicas en biología.pptxTécnicas en biología.pptx
Técnicas en biología.pptxDavid Rosales
 
teoría 10. biomoleculas.pptx
teoría 10. biomoleculas.pptxteoría 10. biomoleculas.pptx
teoría 10. biomoleculas.pptxDavid Rosales
 
SEM_TEORIA_REPLICACION_DEL_ADN.pptx
SEM_TEORIA_REPLICACION_DEL_ADN.pptxSEM_TEORIA_REPLICACION_DEL_ADN.pptx
SEM_TEORIA_REPLICACION_DEL_ADN.pptxDavid Rosales
 
Secuencias Genoma.ppt
Secuencias Genoma.pptSecuencias Genoma.ppt
Secuencias Genoma.pptDavid Rosales
 

Más de David Rosales (6)

UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.ppt
UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.pptUTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.ppt
UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.ppt
 
Promoter tools for further development of Aspergillus oryzae.pptx
Promoter tools for further development of Aspergillus oryzae.pptxPromoter tools for further development of Aspergillus oryzae.pptx
Promoter tools for further development of Aspergillus oryzae.pptx
 
Técnicas en biología.pptx
Técnicas en biología.pptxTécnicas en biología.pptx
Técnicas en biología.pptx
 
teoría 10. biomoleculas.pptx
teoría 10. biomoleculas.pptxteoría 10. biomoleculas.pptx
teoría 10. biomoleculas.pptx
 
SEM_TEORIA_REPLICACION_DEL_ADN.pptx
SEM_TEORIA_REPLICACION_DEL_ADN.pptxSEM_TEORIA_REPLICACION_DEL_ADN.pptx
SEM_TEORIA_REPLICACION_DEL_ADN.pptx
 
Secuencias Genoma.ppt
Secuencias Genoma.pptSecuencias Genoma.ppt
Secuencias Genoma.ppt
 

Último

Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahodalisnicoles
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEmisor Digital
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdfJC Díaz Herrera
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaAlexander VA
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkJuanmanuelYapitamani
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.FeliGamarra1
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomascarmenachullahuamani1
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfJC Díaz Herrera
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioAlexander VA
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfJulioCesarRubianoArc1
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúDiegoFranciscoLarrea
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviHugoSSalinas
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...Daniela Márquez Sena
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdfJC Díaz Herrera
 

Último (15)

Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 

BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt

  • 1. BIOINFORMÁTICA: Fundamentos y aplicaciones de actualidad Curso de Verano Universidad de Santiago de Compostela
  • 2. ALGORITMOS DE ALINEAMIENTO DE SECUENCIAS Juan José Nieto Lunes, 11 de Julio de 2005
  • 4. ¿Qué es un ALINEAMIENTO de dos o varias secuencias?
  • 6. ALGORITMOS DE ALINEAMIENTO DE SECUENCIAS  El gráfico de puntos  Alineamiento global: algoritmo de Needleman y Wunsch  Alineamiento local: El algoritmo de Smith- Waterman  Búsquedas en bases de datos: FastA, BLAST …
  • 7. Concepto de Secuencia  Conjunto ordenado de letras seleccionado de un alfabeto
  • 8. Ej. de Alfabetos  Castellano (27 letras)  Gallego (23 letras)  Inglés (26 letras)  Aas (20 letras)  DNA (4 letras) a , c , g , t
  • 9. Complejidad de un Alfabeto  Número diferente de letras que contiene
  • 10. Cada secuencia forma una palabra  XYZSECW  GALLEGO  GALEGO  GATA  CAT  CAT:  Gato (Inglés)  Histidina (DNA)
  • 11. Secuencias EST  EST (Expressed Sequences Tags)  Alfabeto EST: a, g, t, c, n
  • 12. INDELS  Inserción: INSERT  Se asigna una base demasiado pronto  Eliminación: DELETED  Queda sin asignar una base  Se introduce una nueva letra en el alfabeto DNA: El “hueco” (gap) -
  • 13. ¿Cómo podemos obtener una secuencia de ácidos nucleicos, o de proteínas?  Laboratorio  Bases de datos  Internet
  • 15. Mycobacterium Tuberculosis  H37Rv  Genoma Completo  Gene 1--1524
  • 16. M. Tuberculosis BASE COUNT 352 a 518 c 380 g 274 t ORIGIN 1 ttgaccgatg accccggttc aggcttcacc acagtgtgga acgcggtcgt ctccgaactt 61 aacggcgacc ctaaggttga cgacggaccc agcagtgatg ctaatctcag cgctccgctg 121 acccctcagc aaagggcttg gctcaatctc gtccagccat tgaccatcgt cgaggggttt 181 gctctgttat ccgtgccgag cagctttgtc caaaacgaaa tcgagcgcca tctgcgggcc 241 ccgattaccg acgctctcag ccgccgactc ggacatcaga tccaactcgg ggtccgcatc 301 gctccgccgg cgaccgacga agccgacgac actaccgtgc cgccttccga aaatcctgct 361 accacatcgc cagacaccac aaccgacaac gacgagattg atgacagcgc tgcggcacgg 421 ggcgataacc agcacagttg gccaagttac ttcaccgagc gcccgcacaa taccgattcc 481 gctaccgctg gcgtaaccag ccttaaccgt cgctacacct ttgatacgtt cgttatcggc 541 gcctccaacc ggttcgcgca cgccgccgcc ttggcgatcg cagaagcacc cgcccgcgct 601 tacaaccccc tgttcatctg gggcgagtcc ggtctcggca agacacacct gctacacgcg 661 gcaggcaact atgcccaacg gttgttcccg ggaatgcggg tcaaatatgt ctccaccgag 721 gaattcacca acgacttcat taactcgctc cgcgatgacc gcaaggtcgc attcaaacgc 781 agctaccgcg acgtagacgt gctgttggtc gacgacatcc aattcattga aggcaaagag 841 ggtattcaag aggagttctt ccacaccttc aacaccttgc acaatgccaa caagcaaatc 901 gtcatctcat ctgaccgccc acccaagcag ctcgccaccc tcgaggaccg gctgagaacc 961 cgctttgagt gggggctgat cactgacgta caaccacccg agctggagac ccgcatcgcc 1021 atcttgcgca agaaagcaca gatggaacgg ctcgcggtcc ccgacgatgt cctcgaactc 1081 atcgccagca gtatcgaacg caatatccgt gaactcgagg gcgcgctgat ccgggtcacc 1141 gcgttcgcct cattgaacaa aacaccaatc gacaaagcgc tggccgagat tgtgcttcgc 1201 gatctgatcg ccgacgccaa caccatgcaa atcagcgcgg cgacgatcat ggctgccacc 1261 gccgaatact tcgacactac cgtcgaagag cttcgcgggc ccggcaagac ccgagcactg 1321 gcccagtcac gacagattgc gatgtacctg tgtcgtgagc tcaccgatct ttcgttgccc 1381 aaaatcggcc aagcgttcgg ccgtgatcac acaaccgtca tgtacgccca acgcaagatc 1441 ctgtccgaga tggccgagcg ccgtgaggtc tttgatcacg tcaaagaact caccactcgc 1501 atccgtcagc gctccaagcg ctag
  • 17. ¿ Cuál es el propósito del análisis de una secuencia?  Identificar los genes  Determinar funciones de los genes  Comparar con otros genes similares  Identificar las proteínas que intervienen  Determinar patrones en las secuencias  Identificar otras regiones
  • 18. Todas estas tareas son COMPUTACIONALES  Biología  Ciencias de la Computación  Matemáticas
  • 20. Mycobacterium Tuberculosis  A : 0.1693  C : 0.3232  G : 0.3304  T : 0.1771  A : 17%  C : 32%  G : 33%  T : 18%
  • 21. Mycobacterium Tuberculosis  A : 17%  C : 32%  G : 33%  T : 18%  A <= > T  G <= > C  A+G <=> C+T  A+T # C+G
  • 22. Mycobacterium Tuberculosis  A : 17  C : 32  G : 33  T : 18  A/T = 0.94  G/C = 1.03  Pu / Py = 1.00  Asimetría = 0.54
  • 23. Reglas de Chargaff  A <=> T  G <=> C  A+G <=> C+T  A+T vs C+G
  • 24. Humano  A : 31%  C : 20%  G : 20%  T : 29%
  • 25. Tuberculosis vs Humano Tuberculosis Humano A/T 0.94 1.07 G/C 1.03 1.00 Pu/Py 1.00 1.04 Asimetría 0.54 1.50
  • 26. Aspergillus vs Cangrejo mar Aspergillus Cangrejo mar A/T = c1 1.00 1.00 G/C = c2 1.00 1.00 Pu/Py = c3 1.00 1.00 Asimetría = c4 1.00 15.67
  • 27. Ecuaciones  A = c1 T  G = c2 C  A + G = c3 ( C + T )  A + T = c4 ( C + G )
  • 28. Aspergillus vs Cangrejo mar Aspergillus Cangrejo mar A 25% 47% C 25% 3% G 25% 3% T 25% 47%
  • 29. Asimetría  Humano: 1.50  Oveja: 1.36  Levadura: 1.83  E. Coli: 1.13  Clostridium: 2.70  Brucella: 0.72
  • 30. M. Tuberculosis BASE COUNT 352 a 518 c 380 g 274 t ORIGIN 1 ttgaccgatg accccggttc aggcttcacc acagtgtgga acgcggtcgt ctccgaactt 61 aacggcgacc ctaaggttga cgacggaccc agcagtgatg ctaatctcag cgctccgctg 121 acccctcagc aaagggcttg gctcaatctc gtccagccat tgaccatcgt cgaggggttt 181 gctctgttat ccgtgccgag cagctttgtc caaaacgaaa tcgagcgcca tctgcgggcc 241 ccgattaccg acgctctcag ccgccgactc ggacatcaga tccaactcgg ggtccgcatc 301 gctccgccgg cgaccgacga agccgacgac actaccgtgc cgccttccga aaatcctgct 361 accacatcgc cagacaccac aaccgacaac gacgagattg atgacagcgc tgcggcacgg 421 ggcgataacc agcacagttg gccaagttac ttcaccgagc gcccgcacaa taccgattcc 481 gctaccgctg gcgtaaccag ccttaaccgt cgctacacct ttgatacgtt cgttatcggc 541 gcctccaacc ggttcgcgca cgccgccgcc ttggcgatcg cagaagcacc cgcccgcgct 601 tacaaccccc tgttcatctg gggcgagtcc ggtctcggca agacacacct gctacacgcg 661 gcaggcaact atgcccaacg gttgttcccg ggaatgcggg tcaaatatgt ctccaccgag 721 gaattcacca acgacttcat taactcgctc cgcgatgacc gcaaggtcgc attcaaacgc 781 agctaccgcg acgtagacgt gctgttggtc gacgacatcc aattcattga aggcaaagag 841 ggtattcaag aggagttctt ccacaccttc aacaccttgc acaatgccaa caagcaaatc 901 gtcatctcat ctgaccgccc acccaagcag ctcgccaccc tcgaggaccg gctgagaacc 961 cgctttgagt gggggctgat cactgacgta caaccacccg agctggagac ccgcatcgcc 1021 atcttgcgca agaaagcaca gatggaacgg ctcgcggtcc ccgacgatgt cctcgaactc 1081 atcgccagca gtatcgaacg caatatccgt gaactcgagg gcgcgctgat ccgggtcacc 1141 gcgttcgcct cattgaacaa aacaccaatc gacaaagcgc tggccgagat tgtgcttcgc 1201 gatctgatcg ccgacgccaa caccatgcaa atcagcgcgg cgacgatcat ggctgccacc 1261 gccgaatact tcgacactac cgtcgaagag cttcgcgggc ccggcaagac ccgagcactg 1321 gcccagtcac gacagattgc gatgtacctg tgtcgtgagc tcaccgatct ttcgttgccc 1381 aaaatcggcc aagcgttcgg ccgtgatcac acaaccgtca tgtacgccca acgcaagatc 1441 ctgtccgaga tggccgagcg ccgtgaggtc tttgatcacg tcaaagaact caccactcgc 1501 atccgtcagc gctccaagcg ctag
  • 31. M. Tuberculosis 3 972 522 bp A C G T Primera base 228 244 409 011 470 868 216 051 Segunda base 233 472 416 457 404 607 269 638 Tercera base 210 892 458 256 437 223 217 803
  • 32. M. Tuberculosis 3 972 522 bp  Primera base: 1 324 174  Segunda base: 1 324 174  Tercera base: 1 324 174  En la primera base hay 1324174 nucleótidos, de los cuales 228 244 son A
  • 33. Primera base del M.Tuberculosis  Primera base: 1 324 174  A en la primera base: 228 244  Fracción de A en la primera base: 228244 / 1324174 = 0.1724  En la primera base el 17.24% son A
  • 34. Primera base del M.Tuberculosis  En la primera base el 17.24% son A  En la primera base el 30.89% son C  En la primera base el 35.56% son G  En la primera base el 16.32% son T
  • 35. Frecuencias de los nucleótidos por bases A C G T Primera base 0.1724 0.3089 0.3556 0.1632 Segunda base 0.1763 0.3145 0.3056 0.2036 Tercera base 0.1593 0.3461 0.3302 0.1645
  • 36. M. Tuberculosis  Matriz de 3 filas x 4 columnas  Cada entrada toma un valor entre 0 y 1  I = [0,1]  Vector de I 12
  • 37. Escherichia coli K-12  http://www.ncbi.nlm.nih.gov  NC_000913  4 639 221 bp
  • 38. Escherichia coli K-12  http://www. ncbi.nlm.nih.gov  NC_000913  4 639 221 bp
  • 39. Escherichia coli K-12 A C G T Primera base 348 972 324 793 452 813 215 406 Segunda base 381 930 306 729 235 128 418 197 Tercera base 245 774 344 638 400 070 351 502
  • 40. Frecuencias de los nucleótidos por bases E. Coli A C G T Primera base 0.2600 0.2420 0.3374 0.1605 Segunda base 0.2846 0.2286 0.1752 0.3116 Tercera base 0.1831 0.2568 0.2981 0.2619
  • 41. Tuberculosis vs E. Coli Tuberculosis E. Coli A 0.1693 0.2426 C 0.3232 0.2425 G 0.3304 0.2447 T 0.1771 0.2702
  • 42. Tuberculosis vs E. Coli Tuberculosis E. Coli A/T 0.94 0.90 G/C 1.03 1.01 Pu / Py 1.00 0.95 Asimetría 0.54 1.05
  • 43. ¿Cómo comparar dos genomas completos?  Humano 3 000 millones bases  Tuberculosis 4 millones de bases  E. Coli 4 millones de bases  Mycoplasma genitalium 528 000 bases
  • 44. Tuberculosis vs E. Coli  ¿Cómo comparar ambos y dar una medida cuantitativa de su Similitud ?  ¿Cómo comparar ambos y dar una medida cuantitativa de su Diferencia ?  A mayor similitud, menor diferencia  A menor similitud, mayor diferencia
  • 46. Concepto de Distancia  Un conjunto E sobre el que se define la distancia  Una aplicación d: E x E ----> R+ d ( x , y) nos da la distancia entre los elementos x , y
  • 47. Propiedades de una Distancia  d(x,y) = 0 <==> x = y  d(x,y) = d(y,x)  d(x,y) ≤ d(x,z) + d(z,y)
  • 48. En I12  x = (x1 , ……. , x12)  y = (y1 , ……. , y12)  d1(x , y) = | x1 - y1 | + …. + | x12 - y12 |
  • 49. En I12 E = { Frecuencias nucleótidos/bases Genoma completo }
  • 50. Tuberculosis vs E. Coli A C G T Primera base 0.2600 0.1724 0.2420 0.3089 0.3374 0.3556 0.1605 0.1632 Segunda base 0.2846 0.163 0.2286 0.3145 0.1752 0.3056 0.3116 0.2036 Tercera base 0.1831 0.1593 0.2568 0.3461 0.2981 0.3002 0.2619 0.1645
  • 51. E = { Frecuencias nucleótidos/bases Genoma completo }  M. Tuberculosis  E. Coli  d1(M.Tuberculosis, E.Coli) = 0.8516
  • 52. E = { Frecuencias nucleótidos/bases Genoma completo }   | x1 - y1 | + …. + | x12 - y12 |  d(x,y) = -----------------------------------------  Max{x1,y1}+……+Max {x12,y12}
  • 53. Propiedades básicas  Es una distancia  0 ≤ d(x,y) ≤ 1
  • 54. Demostración  J.J. .Nieto, A. Torres, M.M. Vázquez : “A metric to study differences between polynucleotides”. APPLIED MATHEMATICS LETTERS (2003)  A. Dress, T. Lokot :”A simple proof of the triangle inequality for the NTV metric”. APPLIED MATHEMATICS LETTERS (2003)
  • 55. Tuberculosis vs E. Coli A C G T Primera base 0.2600 0.1724 0.2420 0.3089 0.3374 0.3556 0.1605 0.1632 Segunda base 0.2846 0.163 0.2286 0.3145 0.1752 0.3056 0.3116 0.2036 Tercera base 0.1831 0.1593 0.2568 0.3461 0.2981 0.3002 0.2619 0.1645
  • 56. Distancia  d(Tuberculosis, E.Coli) = 0.8516 / 3.4253  d(M.Tuberculosis, E.Coli) = 0.2483
  • 57. d(M.Tuber., E.Coli) = 0.2483  A. Torres & J.J. Nieto, The fuzzy polynucleotide space: basic properties BIOINFORMATICS Vol. 19 (2003), pp. 587-592
  • 58. Entropía de una secuencia  “Las bases que aparecen en distintas posiciones son independientes”  Por ej. M. Tuberculosis
  • 59. M. Tuberculosis vs Distribución uniforme  A : 0.1693  C : 0.3232  G : 0.3304  T : 0.1771  A : 0.25  C : 0.25  G : 0.25  T : 0.25
  • 60. Fórmula de la entropía ∑n fn log2 ( fn / un )
  • 61. Propiedades de la entropía  Toma valores entre 0 y 1  Vale 0 para la distribución uniforme (por ej. para el Aspergillus )
  • 62. Entropía M. Tuberculosis  Entropía ( M. Tuberculosis ) = 0.0693  En una secuencia de longitud 100 hay 6.93 bits de información extra.
  • 64. 100 primeros nucleótidos M. Tuberculosis  A total: 17%  C total: 32%  G total: 33%  T total: 18%  A100: 22  C100: 30  G100: 29  T100: 19
  • 65. 1-100  La probabilidad de que esa secuencia provenga del genoma de M. Tuberculosis es 26.93 = 121.9 veces más de que haya sido generada por la distribución uniforme
  • 66. Di-nucleótidos AA AC AG AT CA CC CG CT GA GC GG GT TA TC TG TT