Curs einesbioinformatiques juny2011_bloc1_sessio3

Curs de Formació UEB

Eines bioinformàtiques per a la
investigació biomèdica
1r bloc: Introducció a la
Bioinformàtica i les bases de dades

Aplicacions guiades:
3ª sessió:
Blast. Genome Browsers.

Ferran Briansó (tècnic UEB)
ferran.brianso@vhir.org
https://ueb.ir.vhebron.net

Vall d'Hebron Institut de Recerca 21/06/2011

Sesión 3 – Índice de contenidos
BLAST
- Motivación: predicción funcional
- Similaridad vs Homología
- Alineamiento por parejas
– Sistemas de puntuación
– Sistemas de puntuación para proteínas
– Matrices de substitución (PAM, BLOSUM)
- BLAST (Alineamiento contra BD)
– Blast en NCBI
– ¿Cómo funciona?
– Parámetros, criterios, Bit-scores, E-values
– ¿Dónde cortar?
– ¿Existe homología?

GENOME BROWSERS
- Ensembl
- NCBI Map Viewer
- UCSC
- VEGA

BLAST
Búsqueda de homologías


Predicción funcional de una
proteína/gen

- Secuencia problema:
Queremos averiguar sus posibles propiedades.
- La evolución es un proceso conservativo
Cambian los residuos en una secuencia pero se conservan
las propiedades bioquímicas y los procesos fisiológicos
- Si somos capaces de encontrar secuencias
homólogas a la secuencia problema podemos
inferir que ésta “debe de tener” propiedades
similares a las de la secuencia conocida.
- La búsqueda (el hallazgo, de hecho) de secuencias
homólogas puede ser una vía para predecir la
función de una proteína o un gen.


Similaridad vs Homología
- Homología:
- Descendencia de un ancestro común
- Medida cualitativa: dos secuencias son homólogas o
no lo son

- Similaridad
- Medida cuantitativa para determinar el grado de
relación entre dos secuencias
- Podemos usar una medida de similaridad para inferir
homología


Sistemas de puntuación
- Queremos medir el grado de similaridad de dos secuencias

- Es necesario definir un criterio(sistema de puntuación)
que evalue esta similaridad

Ejemplo:
- Match=1
- Mismatch=0

S= A T G C A G T
T= A T A A G T


- El alineamiento de las secuencias puede aumentar
la puntuación:

- Match=1
S= A T G C A G T
- Mismatch=0
T= A T A A G T
- Gap=-1 p(s,t) 1 1 0 0 0 0 Σ= 2

S= A T G C A G T
T= A T A A ▬ G T
p(s,t) 1 1 0 0 -1 1 1 Σ= 3

S= A T G C A G T
T= A T ▬ A A G T



- Match=1 S= A T G C A G T
T= A T A A G T
- Mismatch=-1 p(s,t) 1 1 -1 -1 -1 -1 Σ= -2
- Gap Open=-3
- Gap Ext.=-2
S= A T G C A G T
T= A T A A ▬ G T
p(s,t) 1 1 -1 -1 -5 1 1 Σ= -3

S= A T G C A G T
T= A T ▬ A A G T
p(s,t) 1 1 -5 -1 1 1 1 Σ= -1


para proteínas

- Match=1
- Mismatch=0
- Gap=-1

S= T T Y G A P P W C S
T= − T G Y A P P P W S
p(s,t) -1 1 0 0 1 1 1 0 0 1 Σ= 4

T= T G Y A P P P W S −


para proteínas

Los AA tienen distintas propiedades 
posibilidades distintas de ser sustituidos unos
por otros en la evolucion
tiny
P
aliphatic C S+S small
G
I A G S
V CSH N
L T D
hydrophobic M Y K E
F Q
W H R
positive
aromatic polar
charged


Matrices de substitución
A 4
R
N
-1 5
-2 0 6
Pairwise alignment scores
D -2 -2 1 6 are determined using a
C 0 -3 -3 -3 9 scoring matrix such as
Q -1 1 0 0 -3 5
E -1 0 0 2 -4 2 5 Blosum62
G 0 -2 0 -1 -3 -2 -2 6
H -2 0 1 -1 -3 0 0 -2 8
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5
M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
A R N D C Q E G H I L K M F P S T W Y V



BLOSUM62

T= − T G Y A P P P W S
p(s,t) -1 5 -3 -3 4 7 7 -4 -2 4 Σ= 14

T= T G Y A P P P W − S


- No hay una matriz única que se pueda usar siempre

- Según la familia de proteínas y el grado de similitud
esperado se usará una u otra

- Las más utilizadas PAM y BLOSUM
- PAM: Percent Accepted Mutation Matrix
- Derivadas de alineamientos globales de secuencias próximas
- PAM40  PAM250. A mayor nº, mayor distancia evolutiva

- BLOSUM: BLOcks of amino acid SUbstitution Matrix
- Derivadas de alineamientos locales de secuencias distantes
- BLOSUM90  BLOSUM45 El nº representa porcentaje de
identidad


- Generalmente, la matrices BLOSUM funcionan mejor que
las PAM para búsquedas de similaridad local(Henikoff &
Henikoff, 1993).

- Cuando comparamos proteinas cercanas deberíamos
usar matrices PAM mas bajas o BLOSUM mas altas,
mientras que para proteinas distantes sería mas
conveniente el uso de matrices PAM mas altas o
BLOSUM mas bajas.

- Para búsquedas en BBDD sin información previa es
bastante comun el uso de una BLOSUM62.


Alineamiento contra BD
Supongamos que buscamos secuencias homólogas a nuestra
secuencia problema.

- Una estrategia posible es hacer alineamientos contra una
base de datos de secuencias.

- El algoritmo de Smith-Waterman obtiene un alineamiento
local óptimo, dado un sistema de puntuacion dado

- Demasiado lento para buscar contra una BBDD


Alineamiento vs BD

- El algoritmo BLAST(Basic Local Alignment Search Tool)
permite un rápida comparación(alineamiento) de una
secuencia problema contra una BBDD

- Es rápido y preciso (ademas, accesible via web)

- Algoritmo heurístico: puede obviar alineamientos
óptimos


Blast en NCBI


Ejemplo


¿Cómo funciona Blast?
- Fase 1: compilar una lista de palabras (w=3) con
score por encima de un threshold T (high-
scoring segment pairs (HSPs))

- Ejemplo: búsqueda para “human RBP”
…FSGTWYA…

Lista de palabras (w=3):
FSG SGT GTW TWY WYA
YSG TGT ATW SWY WFA
FTG SVT GSW TWF WYS


Fase 2:

- Escaneo de la base de datos para buscar
entradas que coincidan con la lista
compilada.

- Esto es relativamente rápido y fácil.


- Fase 3: cuando encontramos un hit
(es decir, una coincidencia entre una palabra y una entrada de la
BBDD), extender el hit en ambas direcciones.
- Calcular los “scores” a cada paso (usando la matriz de
substitución)
- Parar cuando la puntuación cae por debajo de cierto “cutoff”.

KENFDKARFSGTWYAMAKKDPEG RBP (query)
MKGLDIQKVAGTWYSLAMAASD lactoglobulin (hit)

extender extender
Hit!


Parámetros del algoritmo


Criterios de selección


Bit-scores

- El valor de la puntuaciones obtenidas por un
emparejamiento carecen de sentido si no se
tiene en cuenta el tamaño de la base de datos
y el sistema de puntuación

- Los Bit-scores normalizan las puntuaciones
para independizarlas de ambos factores de
forma que podamos compararlas


E-values

E = Kmn e-λS
- Dada una secuencia que ha obtenido una puntuacion E-
value es el número esperado de puntuaciones iguales o
superiores a las de dicha secuencia atribuibles al azar.
- Un E-value de 10 para una coincidencia significa, que, en
una base de datos de secuencias aleatorias del mismo
tamaño en la que se ha realizado la búsqueda, se podría
esperar encontrar hasta 10 coincidencias con la misma
puntuación o similar.
- El E-value es la medida de corte más utilizada en las
búsquedas en bases de datos. Sólo se informa de las
coincidencias que superan un nivel mínimo
- El E-value oscila entre 0 y cualquier valor


¿Dónde cortar?
- Valores bajos de E se pueden interpretar como un p-
valor (probabilidad de encontrar por azar una secuencia
con la misma puntuación o superior)

- Si queremos seguridad de que las seqs. que
encontramos son realmente homologas (mas
especificidad), tomaremos valores de corte pequeños
(E=0.05, 0.1 + Bit scores altos + Alto porcentaje de
identidad)

- Si, en cambio, nos interesa explorar y priorizamos no
perder información por delante de la seguridad (mas
sensibilidad), podemos relajar el punto de corte (E=1,
10 + Bit scores normales + Alto porcentaje de
identidad)


¿Existe homología?
>gb|AAA60147.1| placental protein 14 [Homo sapiens]
Length=162
Score = 33.9 bits (76), Expect = 0.34
Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%)
Query 28 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD-
86
+ K++ + + +GTW++MA + L + A V T + +L+ W+
Sbjct 5 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN
63
Query 87 -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132
C + T +P KFK+ Y ++ ++DTDYD +
Sbjct 64 NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102

- RBP4 y PAEP:
Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”).

- Pero son, en efecto, homólogas. Se puede comprovar
con una búsqueda BLAST con PAEP como secuencia
“query”, y se encuentran muchas lipocalinas.


Genome browsers


Genome Browsers

Ensembl
http://www.ensembl.org

NCBI Map Viewer
http://www.ncbi.nlm.nih.gov/projects/mapview

UCSC Genome Browser
http://genome.ucsc.edu/

VEGA Genome Browser
http://vega.sanger.ac.uk

Curs einesbioinformatiques juny2011_bloc1_sessio3

Recomendados

Recomendados

Más contenido relacionado

Más de VHIR Vall d’Hebron Institut de Recerca

Más de VHIR Vall d’Hebron Institut de Recerca (20)

Último

Último (20)

Curs einesbioinformatiques juny2011_bloc1_sessio3