SlideShare una empresa de Scribd logo
1 de 78
Bioinformática:
Banco de Dados
Prof. Dra. Adriana Dantas
UERGS, Bento Gonçalves, RS
Introdução
• Tipos de dados relacionados a moléculas pra suporte a
pesquisa e aplicações em biologia, agricultura e
tecnologias entre outras.
• Conhecer a infraestrutura básica da bioinformática, em
termos dos sítios na web
• Conceitos básicos de recuperação de informação,
concluindo como formular consultas a banco de dados
• Desenvolver habilidades com os instrumentos de
pesquisa na web e em sítios específicos
• Aprender a pesquisar por informações especificas sobre
sequencias, estruturas, vias metabólicas, e realizar analise
com dados recuperados.
Como acessar e recuperar
informações dos bancos de dados?
• Todo banco de dados é composto por entradas (pacotes discretos e
coerentes de informação)
• Um software de recuperação de informação identifica entradas
relevantes para o seu interesse
• Para que a pesquisa seja bem-sucedida, seja o mais específico possível
• Se você procura uma albumina de galinha..
• Busque por Chicken AND albumin
• Se você for procurar primeiro por Chicken vão aparecer entradas que
não contêm informação sobre as albuminas (perda de tempo)
• Se você procurar por albumin vão aparecer entradas contendo a
informação sobre albuminas que não são necessariamente de galinha
(perda de informação)
Saiba o quê e aonde você está
pesquisando....
• Entrada: E. coli Escherichia coli
• E. Coli – Elisabetta ColiElisabetta Coli, pesquisadora do departamento de
psiquiatria, farmacologia, neurobiologia e biotecnologia.
Sede por conhecimento
• Talvez você não encontre o que você busca, mas se
encontrar.....
• Se encontrou provavelmente vai querer saber mais
• Exemplos:
• Achar genes homólogos ao que você buscou
• Referências bibliográficas sobre o gene
• Estrutura da proteína codificada por esse gene
Conexão entre os bancos de dados
(Interatividade)
• Achar genes homólogos ao que você buscou
•Conexão entre entradas do mesmo banco
(banco de dados de genes)
• Referências bibliográficas sobre o gene
•Conexão entre banco de dados de genes e banco
de referências
• Estrutura da proteína codificada por esse gene
•Conexão entre banco de dados de genes e banco
de estruturas de proteínas
Bancos de dados e o crescimento da informaçãoBancos de dados e o crescimento da informação
• Informação aumenta, os genes evoluem e os bancos
devem se adequar...e ..evoluir
• Aumento do recurso computacional para o arquivamento
e interpretação dos dados
• Aumento do número de bancos especializados
(“boutiques”)
• Surgimento dos sites “guarda-chuva” – tipo portal
• Aumento da interatividade
Exemplos de bancos de dados públicos
para biologia molecular
• Bancos de dados primários (sequencias de nucleotídeos)
• NCBI, EMBL, DDBJ
• Meta-databases
• ENTREZ
• Bancos de dados genômicos
• Ensembl, SGD, TAIR
• Bancos de dados de proteínas
• UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY
• Bancos de dados de estrutura de proteínas
• PDB
• Bancos de domínios e motivos proteicos
• PFAM, SMART, PROSITE, PRODOM, PRINTS
• Bancos de vias metabólicas
• KEGG, BioCyc
• Bancos de dados de expressão gênica
• ArrayExpress, GEO
• Bancos de ontologia
• Gene Ontology
Bando de Dados Primários
• Sequencias de ácidos nucleicos, incluindo genmas
completos
• Sequencias de aminoácidos de proteínas
• Estruturas de proteínas e ácidos nucleicos
• Estruturas cristalográficas de pequenas moléculas
• Funções de proteínas
• Padrões de expressão de genes
• Vias metabólicas e redes de interação e controle
• Publicações
1. Bancos de dados primários
(sequencias de nucleotídeos)
• Arquivamento mundial de sequencias de ácidos nucleicos é uma parceria
entre:
• GenBank (National Center for Biotechnology Information - NCBI)(EUA)
• DDBJ (DNA Data Bank of Japan)
• EMBL Nucleotide DB (European Molecular Biology Laboratory - EBI)
• Consórcio International Nucleotide Sequence Database (INSD)
• Armazenam sequencias de nucleotídeos (DNA e RNA) coeltados de projetos
de genomas, publicções cientificas e depósitos de patentes
• Eles trocam informação e são fontes para outros bancos de dados
• http://www.ddbj.nig.ac.jp/
• http://www.ebi.ac.uk/embl/
• http://www.ncbi.nlm.nih.gov/
Banco de dados de ácidos nucleicos
• São coleções de registros ou entradas
• Cada entrada tem a forma de um arquivo texto contendo
dados e anotações para uma sequencia contigua única.
• Muitas entradas são reunidas a partir de diversos artigos
publicados que descrevem o fragmento sobreposto de
uma sequencia completa.
• Outras sequencias são genomas completos.
• As entradas tem um ciclo de vida no banco de dados, ou
seja, antes mesmo que esteja completa e verificada já é
depositada.
• Classes de entradas:
• Não anotada →Preliminar → Não revisada →Padrão
Entrada de sequencia de DNA do
EMBL Data Library
Tabela de características para o
gene do inibidor da tripsina
pancreática bovina
• FT (feature tables) – componente de
anotação específica para regiões
especificas, ex. sequencia
codificadoras (CDS):
• Tabela indica regiões:
• Executam ou afetam funções
• Interagem com outras moléculas
• Afetam replicação
• Estão envolvidas na recombinação
• São uma unidade repetitiva
• Possuem estrutura secundaria e terciaria
• São revisadas ou concluídas
National Center for BiotechnologyNational Center for Biotechnology
Information (ncbi)Information (ncbi)
OO NCBINCBI fornece acesso afornece acesso a
genomas completos de maisgenomas completos de mais
de 5.700 organismos.de 5.700 organismos.
Genomas significam tantoGenomas significam tanto
sequências completas desequências completas de
organismos quanto os queorganismos quanto os que
estão em processo deestão em processo de
sequenciamento.sequenciamento.
http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov
Acesso a Banco de Dados
• Bando de Dados de ácidos nucleicos e proteínas mantém recursos para
uma ampla variedade de mecanismos de recuperação de informação e
realização de analises
• 1. Categoria de possibilidades
• Recuperação de sequencias em banco de dados . Sequencias podem ser
convocadas com base nas características de suas anotações
• 2. Comparação de sequencias – pesquisa sobre homologias
• 3. Tradução das sequencias de DNA em sequencias de proteínas
• 4. Tipos simples de analise e predição de estruturas – ex. métodos
estatísticos para predição de estrutura secundaria de proteínas a partir
somente de sequencias
• 5. Reconhecimento de padrões – é possível pesquisar todas as sequencias
contendo um padrão , sitio de reconhecimento para enzimas.
• 6. Gráficos moleculares - mapeamento
ENTREZ
• O NCBI, mantém o sistema ENTREZ oferece acesso por meio das
seguintes divisões de banco de dados:
• PROTEINA
• PEPTIDEO
• Nucleotídeo
• GENE
• ESTRUTURA
• GENOMA
• POPSET – INFORMAÇÕES SOBRE POPULAÇÕES
• OMIM – ON LINE MEDELINA INHERITANCE IN MAN
• Pontos fortes dos sistema NCBI são as conexões entre os vários
banco de dados.
• Recuperação das sequencias e estrutura é chamado de Entrez.
GenBank
• Genbank, ddBJ, EMBL
• Identificadores
• gI, accession number
• Formatos
• FASTA, GenBank
• http://www.ncbi.nlm.nih.g
ov/nuccore/187830767?
report=genbank&log$=seq
view
• >gi|187830767|ref|NM_000546.4| Homo sapiens
tumor protein p53 (TP53), transcript variant
1, mRNA
• GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAG
TTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGT
AGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG
CTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTG
CCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCG
TCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAAC
TACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAA
TGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCA
CTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)
>gi|187830767 numero geninfo, identificador atribuído
pelo NCBI para cada sequencia do seu bancode dados
ENTREZ,
O NCBI coleta sequencias a partir de varias fontes,
incluindo coleções de arquivos de dados primários e
pedidos de patentes.
Seus números gi fornecem um identificador, dotipo
guarda-chuva, comum econsistente, para as sequencias,
sobrepondo as diferente convenções dos bancos de dados
fonte.
sp|P00435 indica que o banco de dados fonteé o
SWISS-PROT, e o numero de entrada é P00435
BLAST databases
• Pept i de Sequence Dat abases
• Nr: Al l non- r edundant GenBank CDS t r ansl at i ons + Ref Seq Pr ot ei ns + PDB + Swi ssPr ot + PI R
+ PRF
• Ref seq: Ref Seq pr ot ei n sequences f r om NCBI ' s Ref er ence Sequence Pr oj ect .
• Swi ssprot : Last maj or r el ease of t he SWI SS- PROT pr ot ei n sequence dat abase ( no updat es) .
• Pat : Pr ot ei ns f r om t he Pat ent di vi si on of GenPept .
• Pdb: Sequences der i ved f r om t he 3- di mensi onal st r uct ur e f r om Br ookhaven Pr ot ei n Dat a
Bank.
• Mont h: Al l new or r evi sed GenBank CDS t r ansl at i on+PDB+Swi ssPr ot +PI R+PRF r el eased i n t he
l ast 30 days.
• env_nr: Pr ot ei n sequences f r om envi r onment al sampl es.
• Nucl eot i de Sequence Dat abases
• Nr: Al l GenBank + Ref Seq Nucl eot i des + EMBL + DDBJ + PDB sequences ( excl udi ng HTGS0, 1, 2,
EST, GSS, STS, PAT, WGS) . No l onger " non- r edundant " .
• ref seq_rna, ref seq_genomi c
• Est : Dat abase of GenBank + EMBL + DDBJ sequences f r om EST Di vi si ons
• est _human, est _mouse, est _ot hers
• gss: Genome Sur vey Sequence, i ncl udes si ngl e- pass genomi c dat a, exon- t r apped sequences,
and Al u PCR sequences.
• Pat : Nucl eot i des f r om t he Pat ent di vi si on of GenBank.
• Mont h: Al l new or r evi sed GenBank + EMBL + DDBJ + PDB sequences r el eased i n t he l ast 30
days.
• Dbst s: Dat abase of GenBank+EMBL+DDBJ sequences f r om STS Di vi si ons .
• Chromosome: A dat abase wi t h compl et e genomes and chr omosomes f r om t he NCBI Ref er ence
Sequence pr oj ect . .
• Wgs: A dat abase f or whol e genome shot gun sequence ent r i es.
• env_nt : Nucl eot i de sequences f r om envi r onment al sampl es, i ncl udi ng t hose f r om Sar gasso
Sea and Mi ne Dr ai nage pr oj ect s.
RefSeq
• Banco de dados de
sequências de referência
para genomas
• Apresenta uma única cópia
para cada gene no genoma
• É o verdadeiro NR
• Dividido em genoma, cDNA
e proteína (NC, NM e NP)
• Contém sequências de
splicing alternativo
dbEST
dbGSS
• Contém sequências
genômicas single-passed
para diversos organismos
UniGene
• Contém clusters de ESTs formados a
partir de similaridades usando o
algoritmo megaBLAST
• Reúne variantes de splicing no
mesmo identificador
• Cataloga variantes de splicing por
tecido
• Organização das sequências do
GenBank em um conjunto de
aglomerados
• Cada aglomerado do UniGene
contém as sequências que
representam um gene único
• E também informações
relacionadas, como em que tecidos
o gene é expresso, etc.
• E também onde está mapeado
Pesquisando dados de nucleotídeos
utilizando Entrez
3 - Bancos de dados genômicos
• Coleção de informações sobre determinados genomas (quase
sempre organimos modelo).
• Dados de anotação vinculados a genome browse
• Iniciativa conjunta ente o EBI e o Sanger Center.
• Coleta e anotação de sequencias disponíveis de eucariotos,
tendo como foco principal o Homo sapiens.
Busca por região no cromossomo 16Busca por região no cromossomo 16
Ensembl fornece:Ensembl fornece:
-- Genomas completos de diversos
- Anotação de SNPs
- Alinhamento com sequencias homólogas de outros organismo
- Correlações com outros bancos de dados
SGD fornece:SGD fornece:
--Genoma completoGenoma completo
--Fenótipos de mutantes específicos paraFenótipos de mutantes específicos para
cada genecada gene
--Dados de expressão gênicaDados de expressão gênica
TAIR fornece:TAIR fornece:
--Genoma completoGenoma completo
--Localização das inserções de T-DNALocalização das inserções de T-DNA
--Dados de expressão gênicaDados de expressão gênica
4 - Bancos de proteínas
• Consórcio que visa fornecer anotação relevante e
curada de proteínas.
• Baseiam-se em dados de proteômica (principalmente),
genômica e transcriptômica.
Banco de dados de sequencias de
proteínas
• Três bancos de dados de proteínas
• Protein Information Resource National Biomedical
Research Foundation da Georgetown, University Medical
Center em Washington, DC, EUA;
• SWISS-PROT, Swiss Institute of Bioinformatics, Genebra
• TrEMBL, European Bioinformatics Institute em Hinxton,
Reino Unido.
• Como funciona:
• Proteínas anotadas são incluídas no UniProtKB-
SwissProt
• Traduções de genes depositados no EBI são incluídos
no UniProt-TrEMBL
Enzyme DB armazena as seguintes
informações:
• Numero EC:Numero EC: identificador numérico designado pela
Comissão de Enzimas (autorizada pela União
Internacional de Bioquímica e Biologia Molecular-
IUBMB)
• Nome recomendado; Nomes alternativos;
Atividade catalítica;Co-fatores; Ponteiros para
SWISS-PROT e outros banco de dados; Ponteiro
para doenças associadas coma deficiência da
enzima.
• Caracteres:Caracteres:
• ID = identificação (identification)
• DE = descrição (description) = nome oficial
• NA = Nome alternativo (alternative names)
• CA = atividade catalítica (Catalytic activity)
• CF = co-fatores (cofactor(s))
• CC = Comentários (Comments)
• DR = Referencia de dados (Database reference para
o SWISS-PROT)
Anotação da sequencia
Vant agens do Uni Prot :Vant agens do Uni Prot :
- banco curado manual ment e
- cont ém mui t a i nf ormação sobre as
prot eí nas ( gl i cosi l ação, pont es
di ssul f et o, Sí t i os t ransmembrana)
- conect ado a out ros bancos de dados
de prot eí nas
PIR e os bancos de dados associados:PIR e os bancos de dados associados:
PIR-PSD -PIR-PSD -principal banco de dados deprincipal banco de dados de
sequencias de proteínas;sequencias de proteínas;
iProClassiProClass – fornece informações– fornece informações
abrangentes das propriedades deabrangentes das propriedades de
proteínas presentes no SwissProt;proteínas presentes no SwissProt;
PIRSF:PIRSF: bando de dados de anotação ebando de dados de anotação e
similaridade da entrada é conectada asimilaridade da entrada é conectada a
uma lista de sequencias similares comuma lista de sequencias similares com
base em relações evolucionárias quebase em relações evolucionárias que
permite a anotação de funçõespermite a anotação de funções
biológicas especificas e de funçõesbiológicas especificas e de funções
bioquímicas genéricas;bioquímicas genéricas;
RESID:RESID: banco de dados de modificaçõesbanco de dados de modificações
covalentes na estrutura de proteínas (ex.covalentes na estrutura de proteínas (ex.
ponte de dissulfeto (característicaponte de dissulfeto (característica
estrutural importante em proteínas)estrutural importante em proteínas)
Ferramentas de recuperação de
infromação do PIR
• Recuperar entradas especificas de
banco de dados
• Alinhamento par a par de sequencias
• PIRSF Scan: Compara uma sequencia
sonda com bando de dados PIRSF de
famílias de proteínas organizadas e
anotadas
• Text Search: pesquisa por texto em
banco de dados
• Peptide Search: pesquisa por
pequenos peptídeos (3 a 30 resíduos)
• Pattern Search: reconhecimento dos
padrões
• Related Sequences: identificação de
homologias
Expasy –Expasy – Expert Protein Analysis SystemExpert Protein Analysis System
• Sistema de análise e recuperação de informação de proteínas.
• Produz as anotações para o UniProtKB/SwissProt
• Possui uma série de ferramentas para análise de proteínas
• Conexão com SRS (sequence retrieval system) – sistema
integrado para recuperar informações de muitos banco de
dados de sequencias diferente e pata utilizar as sequencias
como entradas de ferramentas analíticas, como comparação e
alinhamento de sequencias.
• SRS pode pesquisas em torno de 140 banco de daos de
sequencias de proteínas e nucleotídeos, vias metabólicas,
estruturas 3D e funções, genomas, doenças e informações
sobre o fenótipo.
5 - Bancos de estruturas de proteínas e outras
macromoléculas
• Anota, cataloga e distribui conjuntos de coordenadas
atômicas de macromoléculas
• Principal banco é Protein Data Bank (PDB) fornece:
• Detalhes experimentais sobre a geração da estrutura
• Estrutura de proteínas, ácidos nucleicos e carboidratos. -
• Atribuições da estrutura
• - Coordenações atômicas
• Links para outros bancos de dados
Informações que incluem na entrada
do Protein Data Bank
• Que proteína é o assunto da entrada, e a qual espécie ela pertence
• Quem determinou a estrutura, referencias para publicações
• Detalhes experimentais, qualidade dos resultados NMR
(Ressonância Magnética Nuclear) difração de raio X e estatísticas
estereoquímicas
• A sequencia dos aminoácidos
• Que moléculas adicionais aparecem na estrutura, incluindo co-
fatores, inibidores e solvente, como moléculas de água
• Atribuições de estrutura secundaria: hélice, folha
• Pontes de dissulfetos
• Coordenadas atômicas
6 - Bancos de domínios proteicos
• Anotam e catalogam domínios ou motivos proteicos.
Fazem comparações entre sequencia de consulta e
banco de dados.
Famílias protéicas
• A maioria das proteínas pode ser agrupada em
famílias com base na similaridade entre suas
sequências
• Similaridade intra-espécies
• Evidência de ancestralidade comum
• Proteínas da mesma família costumam ter funções
moleculares e biológicas semelhantes → inferência
biológica
• Inferência de função
• Similaridade de sequência
• Análise filogenética
Interpro
• Portal que inclui vários bancos de dados de domínios e
de estrutura de proteínas
Assinaturas ou domínios protéicos
• Obtidos através da análise de regiões que se mantém
constantes em grupos de sequências similares alinhadas
• Distingue membros de famílias dos não-membros
• Auxilia a atribuição de funcionalidades moleculares e biológicas
7 - Bancos de vias metabólicas
• Kyoto Encyclopedia of genes and Genome (KEEG) arquiva genomas individuais, produtos de
genes e suas funções, mas o seu diferencial principal esta na sua integração de informações
bioquímicas e genéticas.
• KEGG se concentra nas interações: associações de moléculas e redes metabólicas e
reguladoras
• Organiza em 5 tipos de dados :
• 1. Catálogos de compostos químicos em células vivas
• 2. Catálogo de genes
• Informações sobre moléculas ou sequencias especificas
• 3. Mapas de genomas
• Integra os genes de acordo com suas localização cromossômica
• 4. Mapas de vias
• Descrevem redes em potencial de atividades moleculares, tanto metabólicas como
reguladoras, possíveis cascatas metabólicas, alinha proteínas com enzimas dentro das
vias de referencias.
• 5. Tabelas de ortólogos
• Liga enzimas presentes em outros organismos, permite analise das relações entre as
vias metabólicas de diferentes organismos.
8 - Bancos de dados de expressão
gênica
• - Banco de dados de depósito de dados de expressão
gênica em larga escala (ArrayExpress – somente
microarranjos)
• GEO database - Contém dados de experimentos de
microarray
COG
• Cluster of Orthologous Groups
• 66 genomas bacterianos
• Best Hits cruzados entre 3 organismos
• Genes bacterianos agrupados por função biológica
• KOG, eucariotos
Conclusões
• Há bancos de dados em bioinformática para
praticamente qualquer tipo de abordagem em
biologia molecular
• Stein, 2009
• O papel central da bioinformática na pesquisa
genômica moderna
• É preciso conhecer os serviços, mais cedo ou mais
tarde, você pode precisar

Más contenido relacionado

La actualidad más candente

Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Nayara de Queiroz
 
Código genético
Código genéticoCódigo genético
Código genético
MARCIAMP
 
Apostila completa anatomia veterinaria
Apostila completa anatomia veterinariaApostila completa anatomia veterinaria
Apostila completa anatomia veterinaria
Luiza Mascarenhas
 
Técnicas Avançadas em Neuro RM
Técnicas Avançadas em Neuro RMTécnicas Avançadas em Neuro RM
Técnicas Avançadas em Neuro RM
Fabiano Ladislau
 

La actualidad más candente (20)

Aula 1 e 2 introduçao a embriologia
Aula 1 e 2 introduçao a embriologiaAula 1 e 2 introduçao a embriologia
Aula 1 e 2 introduçao a embriologia
 
Anatomia do sistema nervoso do equino
Anatomia do sistema nervoso do  equinoAnatomia do sistema nervoso do  equino
Anatomia do sistema nervoso do equino
 
Aula mitose
Aula mitoseAula mitose
Aula mitose
 
Embriologia
EmbriologiaEmbriologia
Embriologia
 
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteica
 
Código genético
Código genéticoCódigo genético
Código genético
 
Bioinformática com Biopython
Bioinformática com BiopythonBioinformática com Biopython
Bioinformática com Biopython
 
Biologia molecular
Biologia molecularBiologia molecular
Biologia molecular
 
Apostila completa anatomia veterinaria
Apostila completa anatomia veterinariaApostila completa anatomia veterinaria
Apostila completa anatomia veterinaria
 
Topografia veterinária - cabeça
Topografia veterinária - cabeçaTopografia veterinária - cabeça
Topografia veterinária - cabeça
 
Topografia veterinária - tórax
Topografia veterinária - tóraxTopografia veterinária - tórax
Topografia veterinária - tórax
 
Embriologia
EmbriologiaEmbriologia
Embriologia
 
Replicação, transcrição e tradução da informação genética.pdf
Replicação, transcrição e tradução da informação genética.pdfReplicação, transcrição e tradução da informação genética.pdf
Replicação, transcrição e tradução da informação genética.pdf
 
Topografia veterinária - membros torácicos e pélvicos
Topografia veterinária - membros torácicos e pélvicosTopografia veterinária - membros torácicos e pélvicos
Topografia veterinária - membros torácicos e pélvicos
 
Tronco encefálico
Tronco encefálicoTronco encefálico
Tronco encefálico
 
Bioinformática
BioinformáticaBioinformática
Bioinformática
 
Sistema nervoso parte i
Sistema nervoso parte iSistema nervoso parte i
Sistema nervoso parte i
 
Técnicas Avançadas em Neuro RM
Técnicas Avançadas em Neuro RMTécnicas Avançadas em Neuro RM
Técnicas Avançadas em Neuro RM
 
01ppt fluidos biologicos
01ppt fluidos biologicos01ppt fluidos biologicos
01ppt fluidos biologicos
 
Replicação do DNA
Replicação do DNAReplicação do DNA
Replicação do DNA
 

Similar a Bioinformática arquivo de dados

Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periférico
UERGS
 
Brnosql luciano ramalho-modelosricos
Brnosql luciano ramalho-modelosricosBrnosql luciano ramalho-modelosricos
Brnosql luciano ramalho-modelosricos
Jean Lopes
 

Similar a Bioinformática arquivo de dados (20)

BDsBiologicos.ppt
BDsBiologicos.pptBDsBiologicos.ppt
BDsBiologicos.ppt
 
ACC-Bioinformatica-Seminario
ACC-Bioinformatica-SeminarioACC-Bioinformatica-Seminario
ACC-Bioinformatica-Seminario
 
Palestra sobre Bioinformática
Palestra sobre BioinformáticaPalestra sobre Bioinformática
Palestra sobre Bioinformática
 
Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periférico
 
ERBASE 2019 - Renato Puga
ERBASE 2019 - Renato PugaERBASE 2019 - Renato Puga
ERBASE 2019 - Renato Puga
 
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2
 
Bioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonBioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando Python
 
Brnosql luciano ramalho-modelosricos
Brnosql luciano ramalho-modelosricosBrnosql luciano ramalho-modelosricos
Brnosql luciano ramalho-modelosricos
 
Pesquisa Reproduzivel
Pesquisa ReproduzivelPesquisa Reproduzivel
Pesquisa Reproduzivel
 
Getting updated: Tricks&Tips
Getting updated: Tricks&TipsGetting updated: Tricks&Tips
Getting updated: Tricks&Tips
 
Introdução BD
Introdução BDIntrodução BD
Introdução BD
 
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularUtilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
 
Aula 01 Revisão
Aula 01   RevisãoAula 01   Revisão
Aula 01 Revisão
 
Aula 2 - encontrando similaridades de sequências
Aula 2  - encontrando similaridades de sequênciasAula 2  - encontrando similaridades de sequências
Aula 2 - encontrando similaridades de sequências
 
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosGestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
 
Aula 03 Genética Molecular I.pptx
Aula 03 Genética Molecular I.pptxAula 03 Genética Molecular I.pptx
Aula 03 Genética Molecular I.pptx
 
Priscila
PriscilaPriscila
Priscila
 
Manipulação do dna & clonagem
Manipulação do dna & clonagemManipulação do dna & clonagem
Manipulação do dna & clonagem
 

Más de UERGS

Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadas
UERGS
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogms
UERGS
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscos
UERGS
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriais
UERGS
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriais
UERGS
 

Más de UERGS (20)

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenética
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a genetica
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentos
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturas
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frio
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodiesel
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteases
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutas
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutos
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticos
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnética
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - Carboidrases
 
Enzimas
EnzimasEnzimas
Enzimas
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadas
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogms
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscos
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriais
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriais
 

Último

ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
azulassessoria9
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
sh5kpmr7w7
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturas
rfmbrandao
 
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdfRepública Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
LidianeLill2
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
Autonoma
 
Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...
azulassessoria9
 

Último (20)

O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
 
Novena de Pentecostes com textos de São João Eudes
Novena de Pentecostes com textos de São João EudesNovena de Pentecostes com textos de São João Eudes
Novena de Pentecostes com textos de São João Eudes
 
AULÃO de Língua Portuguesa para o Saepe 2022
AULÃO de Língua Portuguesa para o Saepe 2022AULÃO de Língua Portuguesa para o Saepe 2022
AULÃO de Língua Portuguesa para o Saepe 2022
 
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturas
 
Missa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfMissa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdf
 
Caderno de exercícios Revisão para o ENEM (1).pdf
Caderno de exercícios Revisão para o ENEM (1).pdfCaderno de exercícios Revisão para o ENEM (1).pdf
Caderno de exercícios Revisão para o ENEM (1).pdf
 
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptxSlides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
 
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptxMonoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
 
Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)
 
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de LedAula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
 
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM  POLÍGON...Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM  POLÍGON...
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...
 
M0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptxM0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptx
 
Questões de Língua Portuguesa - gincana da LP
Questões de Língua Portuguesa - gincana da LPQuestões de Língua Portuguesa - gincana da LP
Questões de Língua Portuguesa - gincana da LP
 
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdfRepública Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
 
INTERTEXTUALIDADE atividade muito boa para
INTERTEXTUALIDADE   atividade muito boa paraINTERTEXTUALIDADE   atividade muito boa para
INTERTEXTUALIDADE atividade muito boa para
 
Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...
 
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
 

Bioinformática arquivo de dados

  • 1. Bioinformática: Banco de Dados Prof. Dra. Adriana Dantas UERGS, Bento Gonçalves, RS
  • 2. Introdução • Tipos de dados relacionados a moléculas pra suporte a pesquisa e aplicações em biologia, agricultura e tecnologias entre outras. • Conhecer a infraestrutura básica da bioinformática, em termos dos sítios na web • Conceitos básicos de recuperação de informação, concluindo como formular consultas a banco de dados • Desenvolver habilidades com os instrumentos de pesquisa na web e em sítios específicos • Aprender a pesquisar por informações especificas sobre sequencias, estruturas, vias metabólicas, e realizar analise com dados recuperados.
  • 3. Como acessar e recuperar informações dos bancos de dados? • Todo banco de dados é composto por entradas (pacotes discretos e coerentes de informação) • Um software de recuperação de informação identifica entradas relevantes para o seu interesse • Para que a pesquisa seja bem-sucedida, seja o mais específico possível • Se você procura uma albumina de galinha.. • Busque por Chicken AND albumin • Se você for procurar primeiro por Chicken vão aparecer entradas que não contêm informação sobre as albuminas (perda de tempo) • Se você procurar por albumin vão aparecer entradas contendo a informação sobre albuminas que não são necessariamente de galinha (perda de informação)
  • 4. Saiba o quê e aonde você está pesquisando.... • Entrada: E. coli Escherichia coli • E. Coli – Elisabetta ColiElisabetta Coli, pesquisadora do departamento de psiquiatria, farmacologia, neurobiologia e biotecnologia.
  • 5. Sede por conhecimento • Talvez você não encontre o que você busca, mas se encontrar..... • Se encontrou provavelmente vai querer saber mais • Exemplos: • Achar genes homólogos ao que você buscou • Referências bibliográficas sobre o gene • Estrutura da proteína codificada por esse gene
  • 6. Conexão entre os bancos de dados (Interatividade) • Achar genes homólogos ao que você buscou •Conexão entre entradas do mesmo banco (banco de dados de genes) • Referências bibliográficas sobre o gene •Conexão entre banco de dados de genes e banco de referências • Estrutura da proteína codificada por esse gene •Conexão entre banco de dados de genes e banco de estruturas de proteínas
  • 7. Bancos de dados e o crescimento da informaçãoBancos de dados e o crescimento da informação • Informação aumenta, os genes evoluem e os bancos devem se adequar...e ..evoluir • Aumento do recurso computacional para o arquivamento e interpretação dos dados • Aumento do número de bancos especializados (“boutiques”) • Surgimento dos sites “guarda-chuva” – tipo portal • Aumento da interatividade
  • 8. Exemplos de bancos de dados públicos para biologia molecular • Bancos de dados primários (sequencias de nucleotídeos) • NCBI, EMBL, DDBJ • Meta-databases • ENTREZ • Bancos de dados genômicos • Ensembl, SGD, TAIR • Bancos de dados de proteínas • UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY • Bancos de dados de estrutura de proteínas • PDB • Bancos de domínios e motivos proteicos • PFAM, SMART, PROSITE, PRODOM, PRINTS • Bancos de vias metabólicas • KEGG, BioCyc • Bancos de dados de expressão gênica • ArrayExpress, GEO • Bancos de ontologia • Gene Ontology
  • 9. Bando de Dados Primários • Sequencias de ácidos nucleicos, incluindo genmas completos • Sequencias de aminoácidos de proteínas • Estruturas de proteínas e ácidos nucleicos • Estruturas cristalográficas de pequenas moléculas • Funções de proteínas • Padrões de expressão de genes • Vias metabólicas e redes de interação e controle • Publicações
  • 10. 1. Bancos de dados primários (sequencias de nucleotídeos) • Arquivamento mundial de sequencias de ácidos nucleicos é uma parceria entre: • GenBank (National Center for Biotechnology Information - NCBI)(EUA) • DDBJ (DNA Data Bank of Japan) • EMBL Nucleotide DB (European Molecular Biology Laboratory - EBI) • Consórcio International Nucleotide Sequence Database (INSD) • Armazenam sequencias de nucleotídeos (DNA e RNA) coeltados de projetos de genomas, publicções cientificas e depósitos de patentes • Eles trocam informação e são fontes para outros bancos de dados • http://www.ddbj.nig.ac.jp/ • http://www.ebi.ac.uk/embl/ • http://www.ncbi.nlm.nih.gov/
  • 11. Banco de dados de ácidos nucleicos • São coleções de registros ou entradas • Cada entrada tem a forma de um arquivo texto contendo dados e anotações para uma sequencia contigua única. • Muitas entradas são reunidas a partir de diversos artigos publicados que descrevem o fragmento sobreposto de uma sequencia completa. • Outras sequencias são genomas completos. • As entradas tem um ciclo de vida no banco de dados, ou seja, antes mesmo que esteja completa e verificada já é depositada. • Classes de entradas: • Não anotada →Preliminar → Não revisada →Padrão
  • 12. Entrada de sequencia de DNA do EMBL Data Library
  • 13.
  • 14.
  • 15.
  • 16. Tabela de características para o gene do inibidor da tripsina pancreática bovina • FT (feature tables) – componente de anotação específica para regiões especificas, ex. sequencia codificadoras (CDS): • Tabela indica regiões: • Executam ou afetam funções • Interagem com outras moléculas • Afetam replicação • Estão envolvidas na recombinação • São uma unidade repetitiva • Possuem estrutura secundaria e terciaria • São revisadas ou concluídas
  • 17. National Center for BiotechnologyNational Center for Biotechnology Information (ncbi)Information (ncbi) OO NCBINCBI fornece acesso afornece acesso a genomas completos de maisgenomas completos de mais de 5.700 organismos.de 5.700 organismos. Genomas significam tantoGenomas significam tanto sequências completas desequências completas de organismos quanto os queorganismos quanto os que estão em processo deestão em processo de sequenciamento.sequenciamento. http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov
  • 18. Acesso a Banco de Dados • Bando de Dados de ácidos nucleicos e proteínas mantém recursos para uma ampla variedade de mecanismos de recuperação de informação e realização de analises • 1. Categoria de possibilidades • Recuperação de sequencias em banco de dados . Sequencias podem ser convocadas com base nas características de suas anotações • 2. Comparação de sequencias – pesquisa sobre homologias • 3. Tradução das sequencias de DNA em sequencias de proteínas • 4. Tipos simples de analise e predição de estruturas – ex. métodos estatísticos para predição de estrutura secundaria de proteínas a partir somente de sequencias • 5. Reconhecimento de padrões – é possível pesquisar todas as sequencias contendo um padrão , sitio de reconhecimento para enzimas. • 6. Gráficos moleculares - mapeamento
  • 19. ENTREZ • O NCBI, mantém o sistema ENTREZ oferece acesso por meio das seguintes divisões de banco de dados: • PROTEINA • PEPTIDEO • Nucleotídeo • GENE • ESTRUTURA • GENOMA • POPSET – INFORMAÇÕES SOBRE POPULAÇÕES • OMIM – ON LINE MEDELINA INHERITANCE IN MAN • Pontos fortes dos sistema NCBI são as conexões entre os vários banco de dados. • Recuperação das sequencias e estrutura é chamado de Entrez.
  • 20.
  • 21.
  • 22.
  • 23. GenBank • Genbank, ddBJ, EMBL • Identificadores • gI, accession number • Formatos • FASTA, GenBank • http://www.ncbi.nlm.nih.g ov/nuccore/187830767? report=genbank&log$=seq view • >gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA • GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAG TTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGT AGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG CTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTG CCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCG TCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAAC TACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAA TGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCA CTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...) >gi|187830767 numero geninfo, identificador atribuído pelo NCBI para cada sequencia do seu bancode dados ENTREZ, O NCBI coleta sequencias a partir de varias fontes, incluindo coleções de arquivos de dados primários e pedidos de patentes. Seus números gi fornecem um identificador, dotipo guarda-chuva, comum econsistente, para as sequencias, sobrepondo as diferente convenções dos bancos de dados fonte. sp|P00435 indica que o banco de dados fonteé o SWISS-PROT, e o numero de entrada é P00435
  • 24. BLAST databases • Pept i de Sequence Dat abases • Nr: Al l non- r edundant GenBank CDS t r ansl at i ons + Ref Seq Pr ot ei ns + PDB + Swi ssPr ot + PI R + PRF • Ref seq: Ref Seq pr ot ei n sequences f r om NCBI ' s Ref er ence Sequence Pr oj ect . • Swi ssprot : Last maj or r el ease of t he SWI SS- PROT pr ot ei n sequence dat abase ( no updat es) . • Pat : Pr ot ei ns f r om t he Pat ent di vi si on of GenPept . • Pdb: Sequences der i ved f r om t he 3- di mensi onal st r uct ur e f r om Br ookhaven Pr ot ei n Dat a Bank. • Mont h: Al l new or r evi sed GenBank CDS t r ansl at i on+PDB+Swi ssPr ot +PI R+PRF r el eased i n t he l ast 30 days. • env_nr: Pr ot ei n sequences f r om envi r onment al sampl es. • Nucl eot i de Sequence Dat abases • Nr: Al l GenBank + Ref Seq Nucl eot i des + EMBL + DDBJ + PDB sequences ( excl udi ng HTGS0, 1, 2, EST, GSS, STS, PAT, WGS) . No l onger " non- r edundant " . • ref seq_rna, ref seq_genomi c • Est : Dat abase of GenBank + EMBL + DDBJ sequences f r om EST Di vi si ons • est _human, est _mouse, est _ot hers • gss: Genome Sur vey Sequence, i ncl udes si ngl e- pass genomi c dat a, exon- t r apped sequences, and Al u PCR sequences. • Pat : Nucl eot i des f r om t he Pat ent di vi si on of GenBank. • Mont h: Al l new or r evi sed GenBank + EMBL + DDBJ + PDB sequences r el eased i n t he l ast 30 days. • Dbst s: Dat abase of GenBank+EMBL+DDBJ sequences f r om STS Di vi si ons . • Chromosome: A dat abase wi t h compl et e genomes and chr omosomes f r om t he NCBI Ref er ence Sequence pr oj ect . . • Wgs: A dat abase f or whol e genome shot gun sequence ent r i es. • env_nt : Nucl eot i de sequences f r om envi r onment al sampl es, i ncl udi ng t hose f r om Sar gasso Sea and Mi ne Dr ai nage pr oj ect s.
  • 25. RefSeq • Banco de dados de sequências de referência para genomas • Apresenta uma única cópia para cada gene no genoma • É o verdadeiro NR • Dividido em genoma, cDNA e proteína (NC, NM e NP) • Contém sequências de splicing alternativo
  • 26. dbEST
  • 27. dbGSS • Contém sequências genômicas single-passed para diversos organismos
  • 28. UniGene • Contém clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST • Reúne variantes de splicing no mesmo identificador • Cataloga variantes de splicing por tecido • Organização das sequências do GenBank em um conjunto de aglomerados • Cada aglomerado do UniGene contém as sequências que representam um gene único • E também informações relacionadas, como em que tecidos o gene é expresso, etc. • E também onde está mapeado
  • 29. Pesquisando dados de nucleotídeos utilizando Entrez
  • 30.
  • 31.
  • 32. 3 - Bancos de dados genômicos • Coleção de informações sobre determinados genomas (quase sempre organimos modelo). • Dados de anotação vinculados a genome browse • Iniciativa conjunta ente o EBI e o Sanger Center. • Coleta e anotação de sequencias disponíveis de eucariotos, tendo como foco principal o Homo sapiens.
  • 33.
  • 34.
  • 35.
  • 36. Busca por região no cromossomo 16Busca por região no cromossomo 16
  • 37.
  • 38. Ensembl fornece:Ensembl fornece: -- Genomas completos de diversos - Anotação de SNPs - Alinhamento com sequencias homólogas de outros organismo - Correlações com outros bancos de dados
  • 39. SGD fornece:SGD fornece: --Genoma completoGenoma completo --Fenótipos de mutantes específicos paraFenótipos de mutantes específicos para cada genecada gene --Dados de expressão gênicaDados de expressão gênica
  • 40.
  • 41. TAIR fornece:TAIR fornece: --Genoma completoGenoma completo --Localização das inserções de T-DNALocalização das inserções de T-DNA --Dados de expressão gênicaDados de expressão gênica
  • 42. 4 - Bancos de proteínas • Consórcio que visa fornecer anotação relevante e curada de proteínas. • Baseiam-se em dados de proteômica (principalmente), genômica e transcriptômica.
  • 43. Banco de dados de sequencias de proteínas • Três bancos de dados de proteínas • Protein Information Resource National Biomedical Research Foundation da Georgetown, University Medical Center em Washington, DC, EUA; • SWISS-PROT, Swiss Institute of Bioinformatics, Genebra • TrEMBL, European Bioinformatics Institute em Hinxton, Reino Unido. • Como funciona: • Proteínas anotadas são incluídas no UniProtKB- SwissProt • Traduções de genes depositados no EBI são incluídos no UniProt-TrEMBL
  • 44.
  • 45.
  • 46. Enzyme DB armazena as seguintes informações: • Numero EC:Numero EC: identificador numérico designado pela Comissão de Enzimas (autorizada pela União Internacional de Bioquímica e Biologia Molecular- IUBMB) • Nome recomendado; Nomes alternativos; Atividade catalítica;Co-fatores; Ponteiros para SWISS-PROT e outros banco de dados; Ponteiro para doenças associadas coma deficiência da enzima. • Caracteres:Caracteres: • ID = identificação (identification) • DE = descrição (description) = nome oficial • NA = Nome alternativo (alternative names) • CA = atividade catalítica (Catalytic activity) • CF = co-fatores (cofactor(s)) • CC = Comentários (Comments) • DR = Referencia de dados (Database reference para o SWISS-PROT)
  • 47.
  • 48. Anotação da sequencia Vant agens do Uni Prot :Vant agens do Uni Prot : - banco curado manual ment e - cont ém mui t a i nf ormação sobre as prot eí nas ( gl i cosi l ação, pont es di ssul f et o, Sí t i os t ransmembrana) - conect ado a out ros bancos de dados de prot eí nas
  • 49. PIR e os bancos de dados associados:PIR e os bancos de dados associados: PIR-PSD -PIR-PSD -principal banco de dados deprincipal banco de dados de sequencias de proteínas;sequencias de proteínas; iProClassiProClass – fornece informações– fornece informações abrangentes das propriedades deabrangentes das propriedades de proteínas presentes no SwissProt;proteínas presentes no SwissProt; PIRSF:PIRSF: bando de dados de anotação ebando de dados de anotação e similaridade da entrada é conectada asimilaridade da entrada é conectada a uma lista de sequencias similares comuma lista de sequencias similares com base em relações evolucionárias quebase em relações evolucionárias que permite a anotação de funçõespermite a anotação de funções biológicas especificas e de funçõesbiológicas especificas e de funções bioquímicas genéricas;bioquímicas genéricas; RESID:RESID: banco de dados de modificaçõesbanco de dados de modificações covalentes na estrutura de proteínas (ex.covalentes na estrutura de proteínas (ex. ponte de dissulfeto (característicaponte de dissulfeto (característica estrutural importante em proteínas)estrutural importante em proteínas)
  • 50. Ferramentas de recuperação de infromação do PIR • Recuperar entradas especificas de banco de dados • Alinhamento par a par de sequencias • PIRSF Scan: Compara uma sequencia sonda com bando de dados PIRSF de famílias de proteínas organizadas e anotadas • Text Search: pesquisa por texto em banco de dados • Peptide Search: pesquisa por pequenos peptídeos (3 a 30 resíduos) • Pattern Search: reconhecimento dos padrões • Related Sequences: identificação de homologias
  • 51. Expasy –Expasy – Expert Protein Analysis SystemExpert Protein Analysis System • Sistema de análise e recuperação de informação de proteínas. • Produz as anotações para o UniProtKB/SwissProt • Possui uma série de ferramentas para análise de proteínas • Conexão com SRS (sequence retrieval system) – sistema integrado para recuperar informações de muitos banco de dados de sequencias diferente e pata utilizar as sequencias como entradas de ferramentas analíticas, como comparação e alinhamento de sequencias. • SRS pode pesquisas em torno de 140 banco de daos de sequencias de proteínas e nucleotídeos, vias metabólicas, estruturas 3D e funções, genomas, doenças e informações sobre o fenótipo.
  • 52.
  • 53.
  • 54.
  • 55. 5 - Bancos de estruturas de proteínas e outras macromoléculas • Anota, cataloga e distribui conjuntos de coordenadas atômicas de macromoléculas • Principal banco é Protein Data Bank (PDB) fornece: • Detalhes experimentais sobre a geração da estrutura • Estrutura de proteínas, ácidos nucleicos e carboidratos. - • Atribuições da estrutura • - Coordenações atômicas • Links para outros bancos de dados
  • 56.
  • 57.
  • 58.
  • 59.
  • 60. Informações que incluem na entrada do Protein Data Bank • Que proteína é o assunto da entrada, e a qual espécie ela pertence • Quem determinou a estrutura, referencias para publicações • Detalhes experimentais, qualidade dos resultados NMR (Ressonância Magnética Nuclear) difração de raio X e estatísticas estereoquímicas • A sequencia dos aminoácidos • Que moléculas adicionais aparecem na estrutura, incluindo co- fatores, inibidores e solvente, como moléculas de água • Atribuições de estrutura secundaria: hélice, folha • Pontes de dissulfetos • Coordenadas atômicas
  • 61. 6 - Bancos de domínios proteicos • Anotam e catalogam domínios ou motivos proteicos. Fazem comparações entre sequencia de consulta e banco de dados.
  • 62.
  • 63.
  • 64.
  • 65.
  • 66. Famílias protéicas • A maioria das proteínas pode ser agrupada em famílias com base na similaridade entre suas sequências • Similaridade intra-espécies • Evidência de ancestralidade comum • Proteínas da mesma família costumam ter funções moleculares e biológicas semelhantes → inferência biológica • Inferência de função • Similaridade de sequência • Análise filogenética
  • 67.
  • 68. Interpro • Portal que inclui vários bancos de dados de domínios e de estrutura de proteínas
  • 69. Assinaturas ou domínios protéicos • Obtidos através da análise de regiões que se mantém constantes em grupos de sequências similares alinhadas • Distingue membros de famílias dos não-membros • Auxilia a atribuição de funcionalidades moleculares e biológicas
  • 70.
  • 71.
  • 72.
  • 73. 7 - Bancos de vias metabólicas • Kyoto Encyclopedia of genes and Genome (KEEG) arquiva genomas individuais, produtos de genes e suas funções, mas o seu diferencial principal esta na sua integração de informações bioquímicas e genéticas. • KEGG se concentra nas interações: associações de moléculas e redes metabólicas e reguladoras • Organiza em 5 tipos de dados : • 1. Catálogos de compostos químicos em células vivas • 2. Catálogo de genes • Informações sobre moléculas ou sequencias especificas • 3. Mapas de genomas • Integra os genes de acordo com suas localização cromossômica • 4. Mapas de vias • Descrevem redes em potencial de atividades moleculares, tanto metabólicas como reguladoras, possíveis cascatas metabólicas, alinha proteínas com enzimas dentro das vias de referencias. • 5. Tabelas de ortólogos • Liga enzimas presentes em outros organismos, permite analise das relações entre as vias metabólicas de diferentes organismos.
  • 74.
  • 75.
  • 76. 8 - Bancos de dados de expressão gênica • - Banco de dados de depósito de dados de expressão gênica em larga escala (ArrayExpress – somente microarranjos) • GEO database - Contém dados de experimentos de microarray
  • 77. COG • Cluster of Orthologous Groups • 66 genomas bacterianos • Best Hits cruzados entre 3 organismos • Genes bacterianos agrupados por função biológica • KOG, eucariotos
  • 78. Conclusões • Há bancos de dados em bioinformática para praticamente qualquer tipo de abordagem em biologia molecular • Stein, 2009 • O papel central da bioinformática na pesquisa genômica moderna • É preciso conhecer os serviços, mais cedo ou mais tarde, você pode precisar