SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

Algoritmo BLAST

Aluno: Marllus de Melo Lustosa

Marllus Lustosa
Universidade Federal do Piauí – UFPI

Bacharelado em Ciência da Computação

Tópicos em Bioinformática


Sumário:


1. Alinhamento de sequências
1.1. Alinhamento global
1.2. Alinha local
1.3. Global x Local
1.4. Alinhamento ótimo x heurístico
1.5. Ferramentas de alinhamento
2. FASTA vs BLAST
3. BLAST
3.1. Funcionamento do algoritmo
3.1.1. Semeadura

3.1.2. Extensão

3.1.3. Avaliação
3.2. Família de programas BLAST-NCBI
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

1. Alinhamento de sequências
-  Encontrar um grau de similaridade entre sequências de
nucleotídeos ou proteínas.
-  Definir sequências homólogas;
-  Definir fragmentos similares entre sequências;
-  Determinar características entre sequências;

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

1.1. Alinhamento global
-  Sequências são alinhadas de ponta a ponta;
-  Pode incluir grandes pedaços com baixa similaridade;
-  Útil para comparar sequências cujas semelhanças sejam
esperadas em toda a sua extensão;

Fig1. Exemplo de alinhamento global entre duas sequências. [1]

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

1.2. Alinhamento local
-  São alinhados um ou mais segmentos com alta
similaridade entre as sequências;
-  Útil quando não se tem nenhum conhecimento sobre a
semelhança entre as sequências a comparar;

Fig2. Exemplo de alinhamento local entre duas sequências. [2]

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

1.3. Global x Local
Global: As sequências são alinhadas de ponta a ponta;
Local: Pedaços das sequências é que são comparados;

Fig3. Exemplo de alinhamento global e local entre duas sequências. [3]
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

1.4. Alinhamento ótimo x heurístico
heurística -- do dicionário Houaiss
Acepções
¦ substantivo feminino
1
arte de inventar, de fazer descobertas; ciência
que tem por objeto a descoberta dos fatos
1.1
Rubrica: história.
ramo da História voltado à pesquisa de fontes e
documentos
1.2
Rubrica: informática.
método de investigação baseado na aproximação
progressiva de um dado problema
1.3
Rubrica: pedagogia.
método educacional que consiste em fazer descobrir
pelo aluno o que se lhe quer ensinar

-  Alinhamento
ótimo:
produz
computacionalmente possível;

o

melhor

resultado

-  Alinhamento heurístico: produz um resultado o mais próximo
possível do resultado ótimo, mas, principalmente, produz um
resultado de maneira muito veloz;
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

1.5. Ferramentas de alinhamento
Programa

Tipo de
Alinhamento


Precisão do
Alinhamento


Número de seqüências a
serem alinhadas


BLAST2Sequences


Local


Heurístico


2


SWAT 

(Smith-Waterman)

ClustalW

Multalin


Local


Ótimo


2


Global

Global

Global


Heurístico

Heurístico

Ótimo


N

N

2




Needleman-Wunsch


Tab1. Exemplo de alinhamento global e local entre duas sequências. [3]
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

2.  FASTA vs BLAST
1985

1988

1990

1997

FASTP

FASTA

BLAST

BLAST2

-  BLAST e FASTA são algoritmos de alinhamento local;
-  BLAST é mais rápido que o FASTA;
-  BLAST é mais preciso que o FASTA;
-  BLAST é mais versátil e mais amplamente utilizado que o
o FASTA;
-  Partem da ideia básica: Um bom alinhamento contém
subsequências de identidade absoluta (pequenas palavras
de similaridade exata) [5].
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3. BLAST
-  Basic Local Alignment Search Tool;
-  Ferramenta de alinhamento mais utilizada no mundo;
-  O artigo onde a ferramenta foi publicada é o mais citado
da história das ciências biológicas;
-  É um algoritmo de alinhamento simples, heurístico e
local;
-  Alinha um sequência de entrada contra uma base de
dados desejada;

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3. BLAST

Tab2. Família de programas BLAST. [4 - Adaptada]
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1. Funcionamento do algoritmo
-  Consiste em 3 etapas heurísticas:
-  Semeadura;
-  Separa a sequência de busca em palavras;
-  Identifica onde começa o alinhamento;
-  Extensão;
-  Extende o alinhamento das sementes;
-  Avaliação;
-  Determina quais alinhamentos são significantes;

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.1. Semeadura
-  Dada uma sequência de entrada, identifique
sequências de um tamanho específico (sementes).
Ex:

GEM
. . .
. . .
EDM

as

RGDMCQLV

DME
. . .
. . .
EMC

RCQ
. . .
. . .
ECQ

Sequência de busca

RGD
GDM
DMC
MCQ
CQL
QLV

No máximo
uma substituição
na palavra

KGD
. . .
. . .
TGD

todas

Sementes originais

CQE
. . .
. . .
RGL

KLV
. . .
. . .
QEV

Marllus Lustosa

Sementes adicionais
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.1. Semeadura
-  Comparar as sementes adicionais com a semente original
correspondente, utilizando uma matriz de substituição (recomenda-se
a matriz BLOSUM62 [6]).
Valores de avaliação

RGD

KGD
QGD
RGE
EGD
HGD
NGD
RGN
AGD
MGD
RAD
RSQ
RGS
RND
RSD
SGD
TGD

=
14 = 2 + 6 + 6 = (R-K) + (G-G) + (D+D)
=
13
=
13
=
12
=
12
=
12
=
12
=
12
=
11
=
11
=
11
=
11
=
11
=
11
=
11
=
11
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.1. Semeadura
-  Definir um valor mínimo de avaliação na seleção das sementes
adicionais;
-  Padrão BLAST, em geral, é utilizado o valor 12 para palavras de
tamanho 3;
KGD
QGD
RGE
EGD
HGD
NGD
RGN
AGD
MGD
RAD
RSQ
RGS
RND
RSD
SGD
TGD

=
14
=
13
=
13
=
12
=
12
=
12
=
12
=
12
=
11
=
11
=
11
=
11
=
11
=
11
=
11
=
11

Palavras válidas

Palavras que serão excluídas
do conjunto das sementes
válidas

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.1. Semeadura
-  Conjunto de sementes válidas para a busca no banco de dados:




Sementes originais + sementes adicionais

RGD

Semente original 

KGD
QGD
RGE
EGD
HGD
NGD
RGN
AGD

Sementes adicionais

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.1. Semeadura
-  Realizar a busca pelas sementes no banco de dados (prioridade
para sementes originais);
Ex:
Sementes de busca:
Sequência encontrada no BD:

GDM CQL
EGDMKCQLW

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.2. Extensão
-  Extender o alinhamento das sementes;
Ex:

Sementes de busca:

RGDM-CQLV

Sequência encontrada no BD:

EGDMKCQLW

-  Extende cada semente para a direita e para esquerda, considerando os
seguintes critérios [7]:
-  A pontuação (score) da semente for maior que um valor T;
-  Possuir outra semente a uma certa distância máxima entre elas;
-  O score da extensão com gaps tem pontuação normalizada de
pelo menos Sg’ bits;
-  Muitas vezes é necessário adicionar gaps (buracos) para corrigir o
alinhamento;
-  Gaps são vistos pelo BLAST como penalidades;
-  Quanto menos gaps, melhor o alinhamento;
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.2. Extensão
-  Extender o alinhamento das sementes;
Ex:
Sementes de busca:

RGDM-CQLV

Sequência encontrada no BD:

EGDMKCQLW

HSPs
-  HSPs (High-scoring Segment Pair): São alinhamentos locais que
atingem os scores mais altos em uma busca;
-  MSPs (Maximal-scoring
encontrados na busca;

Segment

Pair):

Marllus Lustosa

São

os

maiores

HSPs
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.3. Avaliação
- Score bruto:

S = soma(matches) – soma(mismatches) – soma(penalidades de gap)

legenda

- Score normalizado (Bit score):

m = Tamanho do banco de dados
n = Tamanho da sequência de entrada
λ = Escala da matriz de scores
K = Escala do tamanho do espaço de
busca

Penalidades de gap:

(gap open + gap extension)



S’ = (λS – ln K) / ln 2

- E-value (probabilidade de alinha-

mentos terem ocorrido ao 

acaso [2]):





E(S) = Kmne-λS

ou

E(S’) = mn2-S’



Gap open: é definido um valor
Gap extension: é definido um valor
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

3.1.3. Avaliação
Sementes de busca:
Definir Gap Costs:

RGDM-CQLV

Sequência encontrada no BD:

EGDMKCQLW


Gap open: 5

Gap extension: 2
De acordo com [8], valores de:


Match/mismatches = 1/-3 => Sequências 99% conservadas

Match/mismatches = 1/-2 => Sequências 95% conservadas

Match/mismatches = 1/-1 => Sequências 75% conservadas

Matches: 6*1 = 6
Mismatches: 2*2 = 4
Gap open: 1*5 = 5

Resultado parcial
Similaridade: 6/9 (67%)


S = 6 – 4 – 5 -2 = -5

Gap extension: 1*2 = 2
Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

-  Outro exemplo, adaptado de [2]:

Resultado do BLAST

Valores calculados
na “mão”

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

Referências
[1]
http://www.bdtd.ucb.br/tede/tde_arquivos/13/
TDE-2004-11-12T134348Z-143/Publico/Dissert_Felipe%20Liberman.pdf
[2] http://minerva.ufpel.edu.br/~lmaia.faem/aula4.pdf
[3] http://www.biotecnologia.com.br/revista/bio29/bioinf.pdf
[4]
http://www.bdtd.ucb.br/tede/tde_arquivos/13/
TDE-2004-11-12T134348Z-143/Publico/Dissert_Felipe%20Liberman.pdf
[5] http://csb.stanford.edu/class/public/readings/Bioinformatics_I_Lecture6/
Altschul_JMB_90_BLAST_Sequence_alignment.pdf
[6] Henikoff, S. & Henikoff, J.G. (1992) "Amino acid substitution matrices from
protein blocks." Proc. Natl. Acad. Sci. USA 89:10915-10919.
[7] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC146917/pdf/253389.pdf
[8] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC55814/

Marllus Lustosa
Universidade Federal do Piauí – UFPI
Bacharelado em Ciência da Computação
Tópicos em Bioinformática

OBRIGADO
Contatos
www.marllus.com
marlluslustosa@gmail.com

Marllus Lustosa

Más contenido relacionado

La actualidad más candente

Tipos de estudos epidemiológicos
Tipos de estudos epidemiológicosTipos de estudos epidemiológicos
Tipos de estudos epidemiológicos
Arquivo-FClinico
 
Aula1: Introdução á Bioestatística
Aula1: Introdução á BioestatísticaAula1: Introdução á Bioestatística
Aula1: Introdução á Bioestatística
ansansil
 
Metodologia cientifica
Metodologia cientificaMetodologia cientifica
Metodologia cientifica
jaddy xavier
 
Problema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESME
Problema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESMEProblema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESME
Problema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESME
Rilva Lopes de Sousa Muñoz
 
Modelos de Pesquisa Científica de Abordagem Quantitativa
Modelos de Pesquisa Científica de Abordagem QuantitativaModelos de Pesquisa Científica de Abordagem Quantitativa
Modelos de Pesquisa Científica de Abordagem Quantitativa
Rilva Lopes de Sousa Muñoz
 

La actualidad más candente (20)

Sistema GRADE: Avaliação da qualidade da evidência
Sistema GRADE: Avaliação da qualidade da evidênciaSistema GRADE: Avaliação da qualidade da evidência
Sistema GRADE: Avaliação da qualidade da evidência
 
TCC SLIDE DE APRESENTAÇÃO
TCC SLIDE DE APRESENTAÇÃOTCC SLIDE DE APRESENTAÇÃO
TCC SLIDE DE APRESENTAÇÃO
 
Ensaios Clinicos (aula 8)
Ensaios Clinicos (aula 8)Ensaios Clinicos (aula 8)
Ensaios Clinicos (aula 8)
 
Diferença entre DESCRITORES e PALAVRAS-CHAVE
Diferença entre DESCRITORES e PALAVRAS-CHAVEDiferença entre DESCRITORES e PALAVRAS-CHAVE
Diferença entre DESCRITORES e PALAVRAS-CHAVE
 
Aprenda a pesquisar no Portal BVS - Tutorial
Aprenda a pesquisar no Portal BVS - TutorialAprenda a pesquisar no Portal BVS - Tutorial
Aprenda a pesquisar no Portal BVS - Tutorial
 
Tipos de estudos epidemiológicos
Tipos de estudos epidemiológicosTipos de estudos epidemiológicos
Tipos de estudos epidemiológicos
 
Técnicas de Pesquisa: Entrevista, Questionário e Formulário
Técnicas de Pesquisa: Entrevista, Questionário e FormulárioTécnicas de Pesquisa: Entrevista, Questionário e Formulário
Técnicas de Pesquisa: Entrevista, Questionário e Formulário
 
O que é PICO e Pico?
O que é PICO e Pico?O que é PICO e Pico?
O que é PICO e Pico?
 
Aula1: Introdução á Bioestatística
Aula1: Introdução á BioestatísticaAula1: Introdução á Bioestatística
Aula1: Introdução á Bioestatística
 
Pesquisa clinica -
Pesquisa clinica - Pesquisa clinica -
Pesquisa clinica -
 
Pesquisa Analitica & Descritiva
Pesquisa Analitica & DescritivaPesquisa Analitica & Descritiva
Pesquisa Analitica & Descritiva
 
Via de Sinalização da Proteína G/Adenilato Ciclase
Via de Sinalização da Proteína G/Adenilato CiclaseVia de Sinalização da Proteína G/Adenilato Ciclase
Via de Sinalização da Proteína G/Adenilato Ciclase
 
Metodologia cientifica
Metodologia cientificaMetodologia cientifica
Metodologia cientifica
 
Aula 06 - Busca em Base de Dados
Aula 06 - Busca em Base de DadosAula 06 - Busca em Base de Dados
Aula 06 - Busca em Base de Dados
 
Revisão sistemática
Revisão sistemáticaRevisão sistemática
Revisão sistemática
 
Problema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESME
Problema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESMEProblema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESME
Problema de Pesquisa e Hipóteses Científicas - Profa.Rilva - GESME
 
Modelos de Pesquisa Científica de Abordagem Quantitativa
Modelos de Pesquisa Científica de Abordagem QuantitativaModelos de Pesquisa Científica de Abordagem Quantitativa
Modelos de Pesquisa Científica de Abordagem Quantitativa
 
Apresentação TCC
Apresentação TCCApresentação TCC
Apresentação TCC
 
Estatistica Basica para Saude Aula 1
Estatistica Basica para Saude Aula 1Estatistica Basica para Saude Aula 1
Estatistica Basica para Saude Aula 1
 
Estilos de aprendizagem
Estilos de aprendizagemEstilos de aprendizagem
Estilos de aprendizagem
 

Destacado

Fprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfoFprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfo
Francisco Prosdocimi
 
Issuesand analysispowerpoint
Issuesand analysispowerpointIssuesand analysispowerpoint
Issuesand analysispowerpoint
Jim Marteney
 
Alinhamentos 2011 2
Alinhamentos 2011 2Alinhamentos 2011 2
Alinhamentos 2011 2
UERGS
 
Gromacs on Science Gateway
Gromacs on Science GatewayGromacs on Science Gateway
Gromacs on Science Gateway
riround
 

Destacado (7)

Fprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfoFprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfo
 
Issuesand analysispowerpoint
Issuesand analysispowerpointIssuesand analysispowerpoint
Issuesand analysispowerpoint
 
How an Online Resource for Chemistry Can Change Our World
How an Online Resource for Chemistry Can Change Our WorldHow an Online Resource for Chemistry Can Change Our World
How an Online Resource for Chemistry Can Change Our World
 
Chemistry Database Tips 2010
Chemistry Database Tips 2010Chemistry Database Tips 2010
Chemistry Database Tips 2010
 
Alinhamentos 2011 2
Alinhamentos 2011 2Alinhamentos 2011 2
Alinhamentos 2011 2
 
Gromacs on Science Gateway
Gromacs on Science GatewayGromacs on Science Gateway
Gromacs on Science Gateway
 
SEO: Getting Personal
SEO: Getting PersonalSEO: Getting Personal
SEO: Getting Personal
 

Último (7)

FOUCAULT, Michel. A coragem da verdade.pdf
FOUCAULT, Michel. A coragem da verdade.pdfFOUCAULT, Michel. A coragem da verdade.pdf
FOUCAULT, Michel. A coragem da verdade.pdf
 
NEUROCIENCIA I (1).ppt aula explicativa 1
NEUROCIENCIA I (1).ppt aula explicativa 1NEUROCIENCIA I (1).ppt aula explicativa 1
NEUROCIENCIA I (1).ppt aula explicativa 1
 
Bilhete de Identidade sobre o Tungsténio.pptx
Bilhete de Identidade sobre o Tungsténio.pptxBilhete de Identidade sobre o Tungsténio.pptx
Bilhete de Identidade sobre o Tungsténio.pptx
 
Historia da Agricultura Agronomia 2017.pptx
Historia da Agricultura Agronomia 2017.pptxHistoria da Agricultura Agronomia 2017.pptx
Historia da Agricultura Agronomia 2017.pptx
 
Estudo Dirigido Sistema Cardiovascular - 8°.docx
Estudo Dirigido Sistema Cardiovascular - 8°.docxEstudo Dirigido Sistema Cardiovascular - 8°.docx
Estudo Dirigido Sistema Cardiovascular - 8°.docx
 
Apresentação sobre o cientista linus pauling.pptx
Apresentação sobre o cientista linus pauling.pptxApresentação sobre o cientista linus pauling.pptx
Apresentação sobre o cientista linus pauling.pptx
 
Planejamento do viveiro de mudas florestais
Planejamento do viveiro de mudas florestaisPlanejamento do viveiro de mudas florestais
Planejamento do viveiro de mudas florestais
 

Algoritmo BLAST

  • 1. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática Algoritmo BLAST Aluno: Marllus de Melo Lustosa Marllus Lustosa
  • 2. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática Sumário: 1. Alinhamento de sequências 1.1. Alinhamento global 1.2. Alinha local 1.3. Global x Local 1.4. Alinhamento ótimo x heurístico 1.5. Ferramentas de alinhamento 2. FASTA vs BLAST 3. BLAST 3.1. Funcionamento do algoritmo 3.1.1. Semeadura 3.1.2. Extensão 3.1.3. Avaliação 3.2. Família de programas BLAST-NCBI Marllus Lustosa
  • 3. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 1. Alinhamento de sequências -  Encontrar um grau de similaridade entre sequências de nucleotídeos ou proteínas. -  Definir sequências homólogas; -  Definir fragmentos similares entre sequências; -  Determinar características entre sequências; Marllus Lustosa
  • 4. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 1.1. Alinhamento global -  Sequências são alinhadas de ponta a ponta; -  Pode incluir grandes pedaços com baixa similaridade; -  Útil para comparar sequências cujas semelhanças sejam esperadas em toda a sua extensão; Fig1. Exemplo de alinhamento global entre duas sequências. [1] Marllus Lustosa
  • 5. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 1.2. Alinhamento local -  São alinhados um ou mais segmentos com alta similaridade entre as sequências; -  Útil quando não se tem nenhum conhecimento sobre a semelhança entre as sequências a comparar; Fig2. Exemplo de alinhamento local entre duas sequências. [2] Marllus Lustosa
  • 6. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 1.3. Global x Local Global: As sequências são alinhadas de ponta a ponta; Local: Pedaços das sequências é que são comparados; Fig3. Exemplo de alinhamento global e local entre duas sequências. [3] Marllus Lustosa
  • 7. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 1.4. Alinhamento ótimo x heurístico heurística -- do dicionário Houaiss Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar -  Alinhamento ótimo: produz computacionalmente possível; o melhor resultado -  Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz; Marllus Lustosa
  • 8. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 1.5. Ferramentas de alinhamento Programa Tipo de Alinhamento Precisão do Alinhamento Número de seqüências a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT 
 (Smith-Waterman) ClustalW Multalin Local Ótimo 2 Global Global Global Heurístico Heurístico Ótimo N N 2 Needleman-Wunsch Tab1. Exemplo de alinhamento global e local entre duas sequências. [3] Marllus Lustosa
  • 9. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 2.  FASTA vs BLAST 1985 1988 1990 1997 FASTP FASTA BLAST BLAST2 -  BLAST e FASTA são algoritmos de alinhamento local; -  BLAST é mais rápido que o FASTA; -  BLAST é mais preciso que o FASTA; -  BLAST é mais versátil e mais amplamente utilizado que o o FASTA; -  Partem da ideia básica: Um bom alinhamento contém subsequências de identidade absoluta (pequenas palavras de similaridade exata) [5]. Marllus Lustosa
  • 10. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3. BLAST -  Basic Local Alignment Search Tool; -  Ferramenta de alinhamento mais utilizada no mundo; -  O artigo onde a ferramenta foi publicada é o mais citado da história das ciências biológicas; -  É um algoritmo de alinhamento simples, heurístico e local; -  Alinha um sequência de entrada contra uma base de dados desejada; Marllus Lustosa
  • 11. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3. BLAST Tab2. Família de programas BLAST. [4 - Adaptada] Marllus Lustosa
  • 12. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1. Funcionamento do algoritmo -  Consiste em 3 etapas heurísticas: -  Semeadura; -  Separa a sequência de busca em palavras; -  Identifica onde começa o alinhamento; -  Extensão; -  Extende o alinhamento das sementes; -  Avaliação; -  Determina quais alinhamentos são significantes; Marllus Lustosa
  • 13. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.1. Semeadura -  Dada uma sequência de entrada, identifique sequências de um tamanho específico (sementes). Ex: GEM . . . . . . EDM as RGDMCQLV DME . . . . . . EMC RCQ . . . . . . ECQ Sequência de busca RGD GDM DMC MCQ CQL QLV No máximo uma substituição na palavra KGD . . . . . . TGD todas Sementes originais CQE . . . . . . RGL KLV . . . . . . QEV Marllus Lustosa Sementes adicionais
  • 14. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.1. Semeadura -  Comparar as sementes adicionais com a semente original correspondente, utilizando uma matriz de substituição (recomenda-se a matriz BLOSUM62 [6]). Valores de avaliação RGD KGD QGD RGE EGD HGD NGD RGN AGD MGD RAD RSQ RGS RND RSD SGD TGD = 14 = 2 + 6 + 6 = (R-K) + (G-G) + (D+D) = 13 = 13 = 12 = 12 = 12 = 12 = 12 = 11 = 11 = 11 = 11 = 11 = 11 = 11 = 11 Marllus Lustosa
  • 15. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.1. Semeadura -  Definir um valor mínimo de avaliação na seleção das sementes adicionais; -  Padrão BLAST, em geral, é utilizado o valor 12 para palavras de tamanho 3; KGD QGD RGE EGD HGD NGD RGN AGD MGD RAD RSQ RGS RND RSD SGD TGD = 14 = 13 = 13 = 12 = 12 = 12 = 12 = 12 = 11 = 11 = 11 = 11 = 11 = 11 = 11 = 11 Palavras válidas Palavras que serão excluídas do conjunto das sementes válidas Marllus Lustosa
  • 16. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.1. Semeadura -  Conjunto de sementes válidas para a busca no banco de dados: Sementes originais + sementes adicionais RGD Semente original KGD QGD RGE EGD HGD NGD RGN AGD Sementes adicionais Marllus Lustosa
  • 17. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.1. Semeadura -  Realizar a busca pelas sementes no banco de dados (prioridade para sementes originais); Ex: Sementes de busca: Sequência encontrada no BD: GDM CQL EGDMKCQLW Marllus Lustosa
  • 18. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.2. Extensão -  Extender o alinhamento das sementes; Ex: Sementes de busca: RGDM-CQLV Sequência encontrada no BD: EGDMKCQLW -  Extende cada semente para a direita e para esquerda, considerando os seguintes critérios [7]: -  A pontuação (score) da semente for maior que um valor T; -  Possuir outra semente a uma certa distância máxima entre elas; -  O score da extensão com gaps tem pontuação normalizada de pelo menos Sg’ bits; -  Muitas vezes é necessário adicionar gaps (buracos) para corrigir o alinhamento; -  Gaps são vistos pelo BLAST como penalidades; -  Quanto menos gaps, melhor o alinhamento; Marllus Lustosa
  • 19. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.2. Extensão -  Extender o alinhamento das sementes; Ex: Sementes de busca: RGDM-CQLV Sequência encontrada no BD: EGDMKCQLW HSPs -  HSPs (High-scoring Segment Pair): São alinhamentos locais que atingem os scores mais altos em uma busca; -  MSPs (Maximal-scoring encontrados na busca; Segment Pair): Marllus Lustosa São os maiores HSPs
  • 20. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.3. Avaliação - Score bruto: S = soma(matches) – soma(mismatches) – soma(penalidades de gap) legenda - Score normalizado (Bit score): m = Tamanho do banco de dados n = Tamanho da sequência de entrada λ = Escala da matriz de scores K = Escala do tamanho do espaço de busca Penalidades de gap: (gap open + gap extension)
 S’ = (λS – ln K) / ln 2 - E-value (probabilidade de alinha- mentos terem ocorrido ao acaso [2]): 
 E(S) = Kmne-λS ou E(S’) = mn2-S’ 
 Gap open: é definido um valor Gap extension: é definido um valor Marllus Lustosa
  • 21. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática 3.1.3. Avaliação Sementes de busca: Definir Gap Costs: RGDM-CQLV Sequência encontrada no BD: EGDMKCQLW Gap open: 5 Gap extension: 2 De acordo com [8], valores de: Match/mismatches = 1/-3 => Sequências 99% conservadas Match/mismatches = 1/-2 => Sequências 95% conservadas Match/mismatches = 1/-1 => Sequências 75% conservadas Matches: 6*1 = 6 Mismatches: 2*2 = 4 Gap open: 1*5 = 5 Resultado parcial Similaridade: 6/9 (67%)
 S = 6 – 4 – 5 -2 = -5 Gap extension: 1*2 = 2 Marllus Lustosa
  • 22. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática -  Outro exemplo, adaptado de [2]: Resultado do BLAST Valores calculados na “mão” Marllus Lustosa
  • 23. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática Referências [1] http://www.bdtd.ucb.br/tede/tde_arquivos/13/ TDE-2004-11-12T134348Z-143/Publico/Dissert_Felipe%20Liberman.pdf [2] http://minerva.ufpel.edu.br/~lmaia.faem/aula4.pdf [3] http://www.biotecnologia.com.br/revista/bio29/bioinf.pdf [4] http://www.bdtd.ucb.br/tede/tde_arquivos/13/ TDE-2004-11-12T134348Z-143/Publico/Dissert_Felipe%20Liberman.pdf [5] http://csb.stanford.edu/class/public/readings/Bioinformatics_I_Lecture6/ Altschul_JMB_90_BLAST_Sequence_alignment.pdf [6] Henikoff, S. & Henikoff, J.G. (1992) "Amino acid substitution matrices from protein blocks." Proc. Natl. Acad. Sci. USA 89:10915-10919. [7] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC146917/pdf/253389.pdf [8] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC55814/ Marllus Lustosa
  • 24. Universidade Federal do Piauí – UFPI Bacharelado em Ciência da Computação Tópicos em Bioinformática OBRIGADO Contatos www.marllus.com marlluslustosa@gmail.com Marllus Lustosa