1) O documento discute os conceitos fundamentais de bioinformática, incluindo armazenamento e análise de informações genéticas e proteicas.
2) É explicado como as sequências de DNA determinam as sequências de proteínas através do código genético e como as estruturas proteicas surgem a partir das sequências.
3) São descritos os principais bancos de dados biológicos e como eles armazenam e conectam informações sobre sequências genômicas, proteicas e estruturais.
1. Dogma Central e Periféricos
Prof. Dra. Adriana Dantas
UERGS – Bento Gonçalves
Bioinformática
2. Arquivo de informações
• Matéria-prima de informações é o material genético:
• DNA – replicação quase perfeita é essencial para
estabilidade da herdabilidade
• As imperfeições também são necessárias, herda
mecanismos de informações de material não-próprio,
gerando informações evolutivas
• A implementação da informação do DNA ocorre com a
síntese do RNA e proteínas.
• O ‘código genético’ é de fato uma codificação: tripletos de
letras sucessivas da sequencia do DNA especificam
aminoácidos consecutivos
• Porção de sequencias de DNA codificam sequencias de
aminoácidos de proteínas
3. Informações ‘supérflua’ e ‘lixo’
• Proteínas são compostas de 200 a 400 aminoácidos, o
que exige de 600 a 1.200 letras de mensagens de DNA
expresso para especificá-las.
• RNA ribossomal também são determinadas pelo DNA.
• Nem todo DNA é expresso em proteínas ou RNA
estrutural
• Muitos genes a serem transcritos apresentam sequencias
chamadas ‘introns’ – sequencias não traduzidas
• Algumas regiões do DNA atuam como mecanismos de
controle, e uma porção substancial do genoma dos
organismos superiores aparenta ser supérflua (significa,
que ainda não compreendemos sua função).
5. ‘O gene seria definido então como um segmento do DNA contendo o
código para uma determinada proteína.
Já se sabia antes de completado o genoma, que seus elementos
significativos ou região codificadora (exons) aparecem interrompidos na
longa cadeia de DNA por sequências aparentemente inúteis ou não
codificadoras (íntrons). O código para a fabricação da proteína só era
montado na hora, num processo conhecido como "splicing”.
6.
7. Nomenclatura e estrutura
molecular
• Os quatro nucleotídeos de ocorrência
natural no DNA (RNA)
1. As moléculas de DNA são
a adenina quimicamente similares, e a
estrutura do DNA é uniforme
g guanina (embora algumas interações
DNA-proteina causam distorções
t timina na estrutura do DNA.
2. Proteínas e RNAs estruturais
c citosina apresentam ampla variedade de
conformações tridimensional,
(u uracila) necessárias para garantir o
desempenho de diversos papéis
funcionais.
8. Aminoácidos
• não-polares • Polares • Carregados
G glicina S serina D ác. aspártico
I isoleucina C cisteína E ác glutâmico
A alanina T treonina K lisina
P prolina N asparigina R arginina
V Valina Q glutamina
L Leucina H ác. glutâmico
F fenilalanina Y tirosina
M metionina W triptofano
9. Nomenclatura dos aminoácidos
• Histidina, fenilalanina, tirosina e triptofano são
aromáticos de desempenham papéis estruturais
especiais em proteínas de membrana
• Os nomes dos aminoácidos são abreviados com
as suas três primeiras letras. Ex.: Gli para glicina
• Exceto isoleucina (Ile); asparagina (Asn);
glutamina (Gln); triptofano (Trp);selenocísteina
(Sec).
• Convenção: escreve-se nucleotídeos com letras
minúsculas. (atg = adenina-timina-guanina)
• Maiúsculas. (ATG = alanina-treonina-glicina).
10. Sequencias de aminoácidos
• A sequencia de aminoácidos de uma proteína
determina a estrutura tridimensional
• Para cada sequencia de aminoácidos há um único
estado nativo estável, o qual sob condições
adequadas é estabelecida sem alterações.
• Para leitura de uma proteína é preciso ‘desenovelar’
em uma estrutura desordenada e inativa.
• Em condições normais restauradas, as moléculas de
proteínas geralmente reassumem a sua estrutura
nativa.
• As funções das proteínas dependem de elas
adotarem a estrutura tridimensional do seu estado
nativo.
11.
12. Uni e tridimensional
• O enovelamento espontâneo de proteínas para formar
seu estado nativo é o ponto em que a natureza realiza
o grande salto do mundo unidimensional em
sequencias dos genes e sequencias de proteínas para o
mundo tridimensional em que vivemos.
• Paradoxo: a tradução de sequencias de DNA em
sequencias de aminoácidos é muito simples de
descrever de maneira lógica: código genético.
• O enovelamento de uma cadeia polipeptídica em uma
estrutura tridimensional precisa é muito difícil de
explicar de maneira lógica.
• A tradução exige mecanismos moleculares
complicados do ribossomos, dos tRNAs e moléculas
associadas.
14. Características dos aminoácidos
• Características dependendo dos componentes de suas
cadeias laterais, fazem com que possam ser reunidos
em grupos específicos, como hidrofóbicos, hidrofílicos,
aromáticos, alifáticos,entre outros.
• Um somatório de características, como grau de
hidrofobicidade,presença de enxofre, tamanho,
determinam que tipo de estrutura secundária, terciária
e quaternária; uma determinada sequência de
aminoácidos irá formar.
• Sequências contendo várias diferenças em relação aos
aminoácidos, podem formar proteínas
semelhantes,bastando conter aminoácidos com
características semelhantes em posições análogas nas
sequências
15. Paradigma molecular
• A sequencia de DNA determina a sequencia de
proteína
• A sequencia da proteína determina a estrutura da
proteína
• A estrutura da proteína determina a função da
proteína
• Mecanismos regulatórios, incluindo mas
limitado ao controle de padrões de expressão,
fornecem as quantidades corretas das funções
corretas, nos momentos e locais corretos
16. Atividade organizada na
bioinformática
• Grande parte da bioinformática está
focalizando na analise dados relacionados
aos processos do paradigma
• Esse paradigma não inclui níveis maiores
do que o da estrutura e organização
molecular, ex.; tecidos que se tornam
diferenciados ou efeitos ambientais que
exercem controle sobre eventos genéticos.
17. Arquivos de Dados
• Arquivo de informação’
• Organização lógica ou ‘estruturada’
• Ferramentas de acessos
• Sequencias de ácidos nucleicos
• Sequencias de proteínas
• Estrutura e funções de macromoléculas
• Padrões de expressão
• Redes e vias metabólicas
• Cascata de regulação
18. Banco de Dados primários
• Sequencias de DNA e proteínas
• Variações, tais como haplótipos
• Estrutura de ácidos nucléicos e proteínas
• Banco de dados específicos para organismos,
incluindo banco de dados do genoma.
• Banco de Dados de padrões de expressão
protéica
• Banco de dados de rotas metabólicas.
• Padrões de interações e de vias regulatórias
19. Banco de Dados derivados ou
secundários
• Contém o banco de dados primário e analisa
seus conteúdos
• Motivos de sequencias protéicas (padrões de
assinatura – famílias protéicas)
• Mutações de variantes nas sequencias de DNA e
de proteínas
• Classificações ou relações, características de
família de sequencia de proteínas ou
classificação hierárquica de padrões de
enovelamento de proteínas.
20. Banco de dados biológicos
• Banco de dados bibliográficos
• Banco de dados de sítios na web:
– Banco de dados contendo informações
biológicas
– Conexões entre banco de dados
21.
22.
23.
24.
25.
26. Recursos na web
• Arquivo de sequencias de ácidos nucléicos:
– GenBank, situado no US National Center for
Biotechnology Information (NCBI)
– EMBL Nucleotide Sequence Database, localizado no
European Bioinformatics Institute (EBI)
– The Center for information Biology e DNA DataBank
of Japan no Nacional Institute of Genetics
• Informações entre os 3 sítios, trocam informações
diariamente sobre novas submissões para garantir
que todos tenham o mesmo conteúdo.te
27. Arquivo sequencias de aminoácidos
de proteínas
• Determinado exclusivamente pela
tradução de sequencias de genes
• United Protein Database (uniProt)
– SWISS-PROT
– The protein Identification Resouce (PIR)
– Translated EMBL (TrEMBL)
– ‘Sequence Retrieval System (SRS) – seleção e
recuperação de sequencias
28. Questões a serem acessadas
• Banco de dados contém informações de que
preciso? (Encontrar as sequencias de
aminoácidos das proteínas álcool desidrogenase)
• Como posso organizar as informações
selecionadas de banco de dados de maneira útil?
(compilar uma lista de sequencias de globinas,
ou melhor obter uma tabela com sequencias de
globinas alinhadas)
• Índices de banco de dados são úteis como
questões: Como encontrar informações
especificas? (sequencia de aminoácidos da
proteína tripsina de porco-espinho)
29. Consultas ao banco de dados
• Dada uma sequencia, ou fragmento de uma
sequencia, encontrar sequencias no banco de
dados que sejam similares
• Dada a estrutura de uma proteína, encontrar a
estrutura de uma proteína, ou parte de uma
estrutura protéica, pareamento de sequencias em
três dimensões
• Dada a seqüência de uma proteína de estrutura
desconhecida, encontrar as estruturas no banco
de dados por proteínas, encontrar proteínas que
apresentem sequencias suficientemente similares
30. Conexões
• Tarefas muito complexas biologicamente
falando: ‘Para quais proteínas de estrutura
conhecida, envolvidas em biossíntese de purinas
em humanos, existem proteínas relacionadas em
fungos?
• Precisamos:
– Função especificada
– Detecção da relação
– Correlação com doenças e espécies
– Efetividade de suas conexões com outras fontes de
informações
31. Fluxo da informação na
bioinformática
• As informações entram no domínio
quando um cientista deposita seus
resultados
• A entrada e montagem do arquivo é
determinada pela origem dos dados e não
pela unidade biológica ou pelo contexto
• Entrada corresponde geralmente a um
artigo publicado
32. Organização dos dados
• A simples integração da nova entrada a um sistema de
pesquisas genéticas ou especificas
• Divulgação de um gene codificador de uma proteína por um
banco de dados contendo sequencias de DNA seguida pelo
surgimento da sua tradução em aminoácidos nos banco de
dados de proteínas.
• Recombinação de dados de diferentes formas. Agrupar
sequencias ou estruturas de famílias protéicas homólogas, ou
que compartilhem a mesma função. (Banco de dados da
protease MEROPS e o Protein Kinase Resource.
• A extração de subconjuntos de dados:
– Identificação de genes em uma seqüência de DNA (ex.:
genoma de bactéria ou um cromossomo eucariótico)
– Seleção de um conjunto de sequencias de proteínas não-
redundantes (reduz incertezas).
33. Ciência da computação
• Meios de armazenamento mais rápido e de alta
capacidade essenciais para manter o banco de dados.
• Soluções, recorrer:
– Análise de algoritmos (medimos a similaridade da
sequencia sonda com todas as sequencias depositadas
no BD
– Estrutura de dados e recuperação de informação
(meios para indexar, ou pre-processar os dados para
tornar mais eficiente)
– Engenharia de software (linguagem de alto nível,
como C, C++, PERL (Pratical Extraction and
Report Language), JAVA ou até mesmo FORTRAM)
34. Sequencias obtidas x onde esta o
que eu quero?
Produto gênico
Transposon
Gene hipotético Gene predito
Contig Gene 1 Gene 2
....actctagt....
Dados de outros genes e genomas
permitem anotar uma função e
produto para o Gene 2 com o
auxílio do programa BLAST.
A presença do suposto Gene 1 foi assinalada Regiões repetitivas como transposons
por um algoritmo que busca por ORFs podem ser anotadas com o auxílio de
significativas, enquanto não se conhece seu programas como BLAST, RepeatMasker e
produto (proteína), é considerado hipotético. outros.
35. Uso de seqüências na determinação
de relações filogenéticas
• Recuperação biológica
de sequencias similares
em banco de dados.
• Exemplos:
ancestralidade do trigo