SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
Palestra sobre Bioinformática 
Uso de ferramentas de acesso geral ou de 
ferramentas à medida em Bioinformática 
António Cardoso Costa 
Departamento de Eng.ª Informática 
Instituto Superior de Engenharia do Porto
2 
Agenda 
● O que é a Bioinformática 
● História da Bioinformática 
● A Bioinformática atual 
● Ferramentas de uso geral na Bioinformática 
● Utilizações da Bioinformática 
● Ferramentas à medida na Bioinformática 
● Ferramentas para entrar na Bioinformática 
● Conclusão
3 
O que é a Bioinformática 
• A Bioinformática 
– É uma área interdisciplinar que desenvolve métodos 
para armazenamento, acesso, organização e análise de 
dados biológicos detalhados e numa escala baixa 
– Lida com dados biológicos elementares (ADN, etc.) 
– Usa computadores para compreender a biologia 
– Desenvolve ferramentas de software que lidam com 
informação biológica numa perspetiva utilitária 
– Recorre à informática, matemática, engenharia, etc. 
– É muito diferente da Biologia Computacional
4 
ADN e Proteínas Célula 
Núcleo Cromossoma 
ADN 
Proteínas do 
Vírus Ébola 
Código do ADN [4] 
a c g t 
Código proteico [20] 
A R N D C E Q G H I 
L K M F P S T W Y V 
Figuras: Wikimedia
5 
História da Bioinformática 
• Primeiras aplicações da Bioinformática 
– 1950: comparação computacional de sequências 
proteicas e criação de repositórios de dados biológicos 
– 1960: métodos de alinhamento de sequências 
– 1970: análise automatizada de sequências biológicas 
– 1980: análise de genomas e criação de grandes 
repositórios de dados de acesso geral (GenBank) 
– 1990 em diante: desenvolvimento generalizado de 
novas ferramentas bioinformáticas visando dados 
biológicos – nucleótidos, aminoácidos, proteínas, etc.
6 
A Bioinformática atual 
• Objetivos 
– Analizar e interpretar vários tipos de dados biológicos 
– Vertentes principais da Bioinformática 
• Desenvolvimento e implementação de software que use 
eficientemente os vários tipos de dados biológicos 
• Desenvolvimento de algoritmos/heurísticas e medidas 
estatísticas para avaliar relações entre dados de repositórios 
– A Bioinformática recorre a métodos computacionais 
• Reconhecimento de padrões, exploração de dados, 
aprendizagem automática, visualização de informação, 
simulação de processos, computação avançada, etc.
7 
A Bioinformática atual 
• Atividades comuns e áreas de aplicação 
– Mapear e analizar ADN e sequências proteicas 
– Alinhar sequências com vista a compará-las 
– Criar, visualizar e explorar modelos 3D de proteínas 
– Extrair resultados de grandes repositórios de dados 
– Anotar sequências, genomas, mutações, etc. 
– Desenvolver ontologias para explorar dados biológicos 
– Ajudar na análise da expressão/regulação de ADN, etc. 
– Fornecer métodos e técnicas para fins forenses
8 
Ferramentas de acesso geral na Bioinformática 
• Repositórios ou bases de dados 
– São essenciais para efeitos de aplicação e investigação 
– Há grande diversidade e interligação de repositórios 
– Os repositórios de dados são de vários tipos 
• Dados resultantes de métodos empíricos 
• Dados resultantes de métodos preditivos 
• Dados empíricos e preditivos 
• Meta-dados que relacionam vários repositórios de dados 
– Alguns casos notáveis 
• Nucleótidos: GenBank (EUA), EMBL (UE) 
• Proteínas: UniProt (UE), PROSITE (UE), PDB (EUA)
9 
Ferramentas de acesso geral na Bioinformática 
• GenBank (repositório de dados do NCBI) 
– «GenBank ® is the NIH genetic sequence database, an 
annotated collection of all publicly available DNA 
sequences (Nucleic Acids Research, 2013 Jan; 
41(D1):D36-42). GenBank is part of the International 
Nucleotide Sequence Database Collaboration, which 
comprises the DNA DataBank of Japan (DDBJ), the 
European Molecular Biology Laboratory (EMBL), and 
GenBank at NCBI. These three organizations exchange 
data on a daily basis...» 
– Registo GenBank; Nucleótidos; BLAST; Serviços
10 
Ferramentas de acesso geral na Bioinformática 
• EMBL (repositório de dados) 
– «EMBL is at the forefront of innovation in life sciences 
research, technology development and transfer, and 
provides outstanding training and services to the 
scientific community in its member states. This 
publicly-funded non-profit institute is housed at five 
sites in Europe whose expertise covers the whole 
spectrum of molecular biology...» 
– EMBL-UK; serviços (web) 
• «EMBL-EBI provides programmatic access to various data 
resources and analysis tools via Web Services technologies»
11 
Ferramentas de acesso geral na Bioinformática 
• UniProt (repositório de dados de EBI/SIB/PIR) 
– «The mission of UniProt is to provide the scientific 
community with a comprehensive, high-quality and 
freely accessible resource of protein sequence and 
functional information...» 
– Vários repositórios de sequências proteicas e serviços 
• UniProtKB; UniRef; UniParc 
• Proteomes – conjunto das proteínas expressas pelo genoma 
• Serviços gerais (CGI Services) (Web Services) 
• Serviços orientados ao ambiente JAVA (API)
12 
Ferramentas de acesso geral na Bioinformática 
• PDB (repositório de dados) 
– «The Worldwide Protein Data Bank (wwPDB) consists 
of organizations that act as deposition, data processing 
and distribution centers for PDB data. Members are: 
RCSB PDB (USA), PDBe (Europe) and PDBj (Japan), 
and BMRB (USA). The wwPDB's mission is to 
maintain a single PDB archive of macromolecular 
structural data that is freely and publicly available to 
the global community...» 
– PDBus / PDBe; Registo PDB; Serviço Web
13 
Ferramentas de acesso geral na Bioinformática 
• Modalidades 
– Através de serviços remotos Web ou FTP 
• http://www.uniprot.org/uniprot/P31946 
• http://rest.ensembl.org/homology/symbol/human/ABAT?;typ 
e=orthologues;aligned=0 
• ftp://ftp.ncbi.nlm.nih.gov/blast/db/ 
– Através de software local que recorre a uma API 
• esearch -db protein -query ABAT | efetch -format fasta 
– Através de software local previamente obtido 
• clustalo --auto --force --wrap=100000 -i fich1 -o fich2 
– Alternativa: software desenvolvido à medida
14 
Ferramentas de acesso geral na Bioinformática 
• Ambientes de desenvolvimento de software 
– OBF (BioJava; BioPerl; BioPython; BioSQL); etc. 
• Usam ambientes de programação atuais complementados 
com componentes funcionais específicos da Bioinformática 
• É uma boa prática de desenvolvimento de software! 
– Baseados em integração de funcionalidades/dados 
• geWorkbench; InterMine; BioGraph; PATRIC; Gaggle; 
UGENE; etc. 
– Baseados em fluxos de trabalho (workflow) 
• Armadillo; Anduril; BioUno; Galaxy; GenePattern; 
Taverna Workbench; etc.
15 
Ferramentas de acesso geral na Bioinformática 
• Software para instalação local em computador 
– Listagem na Wikipedia (inclui as categorias abaixo) 
– Código fechado/proprietário 
• Ver lista acima filtrada por “commercial” 
• Dendroscope – View phylogenetic trees and rooted networks 
– Código aberto/livre 
• PHYLIP – Package of programs for inferring phylogenies 
• Clustal – Multiple alignment of DNA/protein sequences 
• JalView – MSA editing, visualisation and analysis 
• PyMol – Molecular visualization system 
• HyPhy – Hypothesis testing using phylogenies
16 
Utilizações da Bioinformática 
• Como muitas pessoas usam a Bioinformática 
– 1. Procurar gene BRCA1 no UniProtKB 
• Selecionar 7 espécies e visualizar as sequências 
• Descarregar as 7 sequências para ficheiro local 
– 2. Visualizar as 7 sequências com o JalView 
• Antes de serem alinhadas com um software de MSA 
• Depois de serem alinhadas (observar e analisar) 
– 3. Escolher uma subsequência e pesquisar no BLAST 
• Verificar as sequências candidatas e analisar 
– 4. Abrir sequência BRCA1_HUMAN no UniProtKB 
• Visualizar BRCA1 “1jnx” em 3D no software PyMol
17 
Ferramentas à medida na Bioinformática 
• Descrição do problema 
– Dada uma lista de mutações (exemplo R283Q) em 
sequências proteicas de genes humanos, 
– Pesquisar essas mutações nas sequências proteicas 
ortólogas de 39 mamíferos previamente definidos e 
– Guardar todos os casos de mutações iguais às humanas, 
nos 39 mamíferos em causa, numa folha de cálculo 
– Pressupostos 
• As sequências humanas são descritas pelo identificador 
RefSeq (exemplo: NP_000005.2)
18 
Ferramentas à medida na Bioinformática 
• Análise do problema 
– O problema está claramente formulado? Sim/Não 
– As fontes de informação estão definidas? Sim/Não 
– O que está em falta para se poder resolver? 
Discussão/sugestões!
19 
Ferramentas à medida na Bioinformática 
• Análise do problema 
– O problema está claramente formulado? Sim 
– As fontes de informação estão definidas? Não 
– O que está em falta para se poder resolver? 
• A lista que define os 39 mamíferos! 
• Um repositório com sequências proteicas de mamíferos! 
• Um algoritmo que descreva uma solução adequada! 
• Uma solução implementada de modo correto e bem testada!
20 
Ferramentas à medida na Bioinformática 
• Preparação da solução 
– Fornecida a lista com os nomes dos 39 mamíferos 
– Identificado um repositório de dados com sequências 
proteicas de mamíferos: Ensembl 
• «The Ensembl project produces genome databases for 
vertebrates and other eukaryotic species, and makes this 
information freely available online...» 
• Existe uma interface Web para aceder ao Ensembl e obter 
automaticamente sequências proteicas de mamíferos que 
sejam ortólogas de uma dada sequência proteica humana: 
http://rest.ensembl.org/homology/symbol/human/X?;type=orthologues;aligned=0 
– Descarregadas todas as sequências necessárias
21 
Ferramentas à medida na Bioinformática 
• Definição da solução (algoritmo) 
– Solução incluirá ações (A), decisões (D) e ciclos (C) 
• Descrição simplificada da solução: 
Esboço da solução? 
Discussão/sugestões!
22 
Ferramentas à medida na Bioinformática 
• Definição da solução (algoritmo) 
– Solução incluirá ações (A), decisões (D) e ciclos (C) 
• Descrição simplificada da solução: 
A: Inicia a execução 
A: Prepara os dados necessários 
C: Para cada sequência de gene humano 
C: .Para cada mamífero 
D: ..Se existe sequência do respetivo gene ortólogo 
A: ...Faz alinhamento das sequências humana+mamífero 
C: ....Para cada mutação do gene humano em causa 
D: .....Se há mutação na sequência do mamífero 
A: ......Guarda informação da mutação encontrada 
A: Armazena os resultados encontrados num ficheiro 
A: Termina a execução
23 
Ferramentas à medida na Bioinformática 
• Caraterísticas da solução encontrada 
– O tempo de execução (TE) será proporcional ao 
• Nº de genes humanos (N1) 
• Nº de mamíferos (N2) 
• Nº médio de mutações por gene humano (N3) 
• TE ≈ N1  N2  N3 
– A solução encontrada está próxima do ótimo 
– Exemplo de resultado 
ABCB1 erinaceus_europaeus 472 V=>A 
nd...Vi.p.. NP_003733.2 homo_sapiens 
dn...Av.s.. ENSEEUP00000004710 erinaceus_europaeus
24 
Ferramentas para entrar na Bioinformática 
• Aprender Bioinformática 
– Plataforma de aprendizagem Rosalind 
• Python Village (aprender a linguagem Python) 
• Bioinformatics Stronghold (descobrir algoritmos) 
• Bioinformatics Armory (ferramentas prontas a usar) 
• Bioinformatics Textbook Track (coleção de exercícios) 
• Algorithmic Heights (exercícios sobre algoritmos) 
– Cursos online na plataforma Coursera 
– Leituras 
• Bioinformatics for Dummies (2ª edição, Ebook) 
• Livros sobre Bioinformática na Amazon UK
25 
Sequências de aminoácidos por alinhar e alinhadas
26 
Sequências de ADN por alinhar e alinhadas
27 
Visualização 3D de uma proteína (modo cartoon)
28 
Visualização 3D de uma proteína (superfície)
Palestra sobre Bioinformática 
Uso de ferramentas de acesso geral ou de 
ferramentas à medida em Bioinformática 
António Cardoso Costa 
Departamento de Eng.ª Informática 
Instituto Superior de Engenharia do Porto

Más contenido relacionado

La actualidad más candente

Conversão Retrospectiva
Conversão RetrospectivaConversão Retrospectiva
Conversão Retrospectiva
UNESP
 
Projecto dissertação - plano de investigação
Projecto dissertação - plano de investigaçãoProjecto dissertação - plano de investigação
Projecto dissertação - plano de investigação
Luis Pedro
 
Logística trabalho. bibliografias
Logística trabalho. bibliografiasLogística trabalho. bibliografias
Logística trabalho. bibliografias
Liziane Souza
 
Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009
Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009
Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009
Fernando Neves Hugo
 
Texto 10--analise de dados
Texto 10--analise de dadosTexto 10--analise de dados
Texto 10--analise de dados
Anderson Santos
 

La actualidad más candente (20)

Assessing ultra-deep, long-read metagenomics on Oxford Nanopore PromethION
Assessing ultra-deep, long-read metagenomics on Oxford Nanopore PromethIONAssessing ultra-deep, long-read metagenomics on Oxford Nanopore PromethION
Assessing ultra-deep, long-read metagenomics on Oxford Nanopore PromethION
 
Aula 1 - TCC
Aula 1 -  TCCAula 1 -  TCC
Aula 1 - TCC
 
Conversão Retrospectiva
Conversão RetrospectivaConversão Retrospectiva
Conversão Retrospectiva
 
Serviço processo referencia
Serviço processo referencia Serviço processo referencia
Serviço processo referencia
 
Qualificação Mestrado
Qualificação MestradoQualificação Mestrado
Qualificação Mestrado
 
Roteiro para elaboração relatorio aula prática
Roteiro para elaboração relatorio aula práticaRoteiro para elaboração relatorio aula prática
Roteiro para elaboração relatorio aula prática
 
Regulamento do 1º Torneio de Tiro Esportivo da Cidade de Arara
Regulamento do 1º Torneio de Tiro Esportivo da Cidade de AraraRegulamento do 1º Torneio de Tiro Esportivo da Cidade de Arara
Regulamento do 1º Torneio de Tiro Esportivo da Cidade de Arara
 
Norma ABNT 10520 Citações
Norma ABNT 10520 CitaçõesNorma ABNT 10520 Citações
Norma ABNT 10520 Citações
 
Introdução a investigação e produção científica na área da saúde
Introdução a investigação e produção científica na área da saúdeIntrodução a investigação e produção científica na área da saúde
Introdução a investigação e produção científica na área da saúde
 
Análise de conteúdo como técnica de análise de dados na pesquisa em adm
Análise de conteúdo como técnica de análise de dados na pesquisa em admAnálise de conteúdo como técnica de análise de dados na pesquisa em adm
Análise de conteúdo como técnica de análise de dados na pesquisa em adm
 
Aula 06 - Busca em Base de Dados
Aula 06 - Busca em Base de DadosAula 06 - Busca em Base de Dados
Aula 06 - Busca em Base de Dados
 
Projecto dissertação - plano de investigação
Projecto dissertação - plano de investigaçãoProjecto dissertação - plano de investigação
Projecto dissertação - plano de investigação
 
Qualificação Mestrado
Qualificação MestradoQualificação Mestrado
Qualificação Mestrado
 
Revisão Sistemática e Bases de Pesquisa
Revisão Sistemática e Bases de PesquisaRevisão Sistemática e Bases de Pesquisa
Revisão Sistemática e Bases de Pesquisa
 
Modelo de pre projeto de monografia
Modelo de pre projeto de monografiaModelo de pre projeto de monografia
Modelo de pre projeto de monografia
 
Logística trabalho. bibliografias
Logística trabalho. bibliografiasLogística trabalho. bibliografias
Logística trabalho. bibliografias
 
Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009
Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009
Revisões Sistemáticas e Meta-análise FOP-UNICAMP 2009
 
Inteligência Artificial aplicada a negócios
Inteligência Artificial aplicada a negóciosInteligência Artificial aplicada a negócios
Inteligência Artificial aplicada a negócios
 
Texto 10--analise de dados
Texto 10--analise de dadosTexto 10--analise de dados
Texto 10--analise de dados
 
Tipos de pesquisa
Tipos de pesquisaTipos de pesquisa
Tipos de pesquisa
 

Similar a Palestra sobre Bioinformática

InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de DoençasInfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
Carlos Carvalho
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
UERGS
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dados
lrmodesto
 
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
SciELO - Scientific Electronic Library Online
 

Similar a Palestra sobre Bioinformática (20)

ACC-Bioinformatica-Seminario
ACC-Bioinformatica-SeminarioACC-Bioinformatica-Seminario
ACC-Bioinformatica-Seminario
 
BDsBiologicos.ppt
BDsBiologicos.pptBDsBiologicos.ppt
BDsBiologicos.ppt
 
InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de DoençasInfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
Pesquisa Reproduzivel
Pesquisa ReproduzivelPesquisa Reproduzivel
Pesquisa Reproduzivel
 
Rumo à construção de uma Infraestrutura Nacional de Dados sobre Biodiversidad...
Rumo à construção de uma Infraestrutura Nacional de Dados sobre Biodiversidad...Rumo à construção de uma Infraestrutura Nacional de Dados sobre Biodiversidad...
Rumo à construção de uma Infraestrutura Nacional de Dados sobre Biodiversidad...
 
Bioinformatica e genomica-george_carvalho
Bioinformatica e genomica-george_carvalhoBioinformatica e genomica-george_carvalho
Bioinformatica e genomica-george_carvalho
 
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularUtilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 
1228690340 ds
1228690340 ds1228690340 ds
1228690340 ds
 
Acesso aberto a dados de pesquisa no Brasil
Acesso aberto a dados de pesquisa no BrasilAcesso aberto a dados de pesquisa no Brasil
Acesso aberto a dados de pesquisa no Brasil
 
Aula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicasAula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicas
 
Indrodução a Bioinformática
Indrodução a BioinformáticaIndrodução a Bioinformática
Indrodução a Bioinformática
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dados
 
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
 
Computação Cognitiva: conceitos e aplicações
Computação Cognitiva: conceitos e aplicaçõesComputação Cognitiva: conceitos e aplicações
Computação Cognitiva: conceitos e aplicações
 
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
 
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
 
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
 

Más de António Cardoso Costa

Rethinking Engineering Education - The CDIO Approach
Rethinking Engineering Education - The CDIO ApproachRethinking Engineering Education - The CDIO Approach
Rethinking Engineering Education - The CDIO Approach
António Cardoso Costa
 

Más de António Cardoso Costa (6)

TEEM_2015_ACC_79_ISEP
TEEM_2015_ACC_79_ISEPTEEM_2015_ACC_79_ISEP
TEEM_2015_ACC_79_ISEP
 
História da Computação Gráfica
História da Computação GráficaHistória da Computação Gráfica
História da Computação Gráfica
 
Rethinking Engineering Education - The CDIO Approach
Rethinking Engineering Education - The CDIO ApproachRethinking Engineering Education - The CDIO Approach
Rethinking Engineering Education - The CDIO Approach
 
The Importance of Practising CDIO for Achieving EUR-ACE Certification
The Importance of Practising CDIO for Achieving EUR-ACE CertificationThe Importance of Practising CDIO for Achieving EUR-ACE Certification
The Importance of Practising CDIO for Achieving EUR-ACE Certification
 
CDIO: impactos da aplicação no ISEP e na qualidade da sua oferta formativa
CDIO: impactos da aplicação no ISEP e na qualidade da sua oferta formativaCDIO: impactos da aplicação no ISEP e na qualidade da sua oferta formativa
CDIO: impactos da aplicação no ISEP e na qualidade da sua oferta formativa
 
The Context of Engineering Education
The Context of Engineering EducationThe Context of Engineering Education
The Context of Engineering Education
 

Palestra sobre Bioinformática

  • 1. Palestra sobre Bioinformática Uso de ferramentas de acesso geral ou de ferramentas à medida em Bioinformática António Cardoso Costa Departamento de Eng.ª Informática Instituto Superior de Engenharia do Porto
  • 2. 2 Agenda ● O que é a Bioinformática ● História da Bioinformática ● A Bioinformática atual ● Ferramentas de uso geral na Bioinformática ● Utilizações da Bioinformática ● Ferramentas à medida na Bioinformática ● Ferramentas para entrar na Bioinformática ● Conclusão
  • 3. 3 O que é a Bioinformática • A Bioinformática – É uma área interdisciplinar que desenvolve métodos para armazenamento, acesso, organização e análise de dados biológicos detalhados e numa escala baixa – Lida com dados biológicos elementares (ADN, etc.) – Usa computadores para compreender a biologia – Desenvolve ferramentas de software que lidam com informação biológica numa perspetiva utilitária – Recorre à informática, matemática, engenharia, etc. – É muito diferente da Biologia Computacional
  • 4. 4 ADN e Proteínas Célula Núcleo Cromossoma ADN Proteínas do Vírus Ébola Código do ADN [4] a c g t Código proteico [20] A R N D C E Q G H I L K M F P S T W Y V Figuras: Wikimedia
  • 5. 5 História da Bioinformática • Primeiras aplicações da Bioinformática – 1950: comparação computacional de sequências proteicas e criação de repositórios de dados biológicos – 1960: métodos de alinhamento de sequências – 1970: análise automatizada de sequências biológicas – 1980: análise de genomas e criação de grandes repositórios de dados de acesso geral (GenBank) – 1990 em diante: desenvolvimento generalizado de novas ferramentas bioinformáticas visando dados biológicos – nucleótidos, aminoácidos, proteínas, etc.
  • 6. 6 A Bioinformática atual • Objetivos – Analizar e interpretar vários tipos de dados biológicos – Vertentes principais da Bioinformática • Desenvolvimento e implementação de software que use eficientemente os vários tipos de dados biológicos • Desenvolvimento de algoritmos/heurísticas e medidas estatísticas para avaliar relações entre dados de repositórios – A Bioinformática recorre a métodos computacionais • Reconhecimento de padrões, exploração de dados, aprendizagem automática, visualização de informação, simulação de processos, computação avançada, etc.
  • 7. 7 A Bioinformática atual • Atividades comuns e áreas de aplicação – Mapear e analizar ADN e sequências proteicas – Alinhar sequências com vista a compará-las – Criar, visualizar e explorar modelos 3D de proteínas – Extrair resultados de grandes repositórios de dados – Anotar sequências, genomas, mutações, etc. – Desenvolver ontologias para explorar dados biológicos – Ajudar na análise da expressão/regulação de ADN, etc. – Fornecer métodos e técnicas para fins forenses
  • 8. 8 Ferramentas de acesso geral na Bioinformática • Repositórios ou bases de dados – São essenciais para efeitos de aplicação e investigação – Há grande diversidade e interligação de repositórios – Os repositórios de dados são de vários tipos • Dados resultantes de métodos empíricos • Dados resultantes de métodos preditivos • Dados empíricos e preditivos • Meta-dados que relacionam vários repositórios de dados – Alguns casos notáveis • Nucleótidos: GenBank (EUA), EMBL (UE) • Proteínas: UniProt (UE), PROSITE (UE), PDB (EUA)
  • 9. 9 Ferramentas de acesso geral na Bioinformática • GenBank (repositório de dados do NCBI) – «GenBank ® is the NIH genetic sequence database, an annotated collection of all publicly available DNA sequences (Nucleic Acids Research, 2013 Jan; 41(D1):D36-42). GenBank is part of the International Nucleotide Sequence Database Collaboration, which comprises the DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), and GenBank at NCBI. These three organizations exchange data on a daily basis...» – Registo GenBank; Nucleótidos; BLAST; Serviços
  • 10. 10 Ferramentas de acesso geral na Bioinformática • EMBL (repositório de dados) – «EMBL is at the forefront of innovation in life sciences research, technology development and transfer, and provides outstanding training and services to the scientific community in its member states. This publicly-funded non-profit institute is housed at five sites in Europe whose expertise covers the whole spectrum of molecular biology...» – EMBL-UK; serviços (web) • «EMBL-EBI provides programmatic access to various data resources and analysis tools via Web Services technologies»
  • 11. 11 Ferramentas de acesso geral na Bioinformática • UniProt (repositório de dados de EBI/SIB/PIR) – «The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information...» – Vários repositórios de sequências proteicas e serviços • UniProtKB; UniRef; UniParc • Proteomes – conjunto das proteínas expressas pelo genoma • Serviços gerais (CGI Services) (Web Services) • Serviços orientados ao ambiente JAVA (API)
  • 12. 12 Ferramentas de acesso geral na Bioinformática • PDB (repositório de dados) – «The Worldwide Protein Data Bank (wwPDB) consists of organizations that act as deposition, data processing and distribution centers for PDB data. Members are: RCSB PDB (USA), PDBe (Europe) and PDBj (Japan), and BMRB (USA). The wwPDB's mission is to maintain a single PDB archive of macromolecular structural data that is freely and publicly available to the global community...» – PDBus / PDBe; Registo PDB; Serviço Web
  • 13. 13 Ferramentas de acesso geral na Bioinformática • Modalidades – Através de serviços remotos Web ou FTP • http://www.uniprot.org/uniprot/P31946 • http://rest.ensembl.org/homology/symbol/human/ABAT?;typ e=orthologues;aligned=0 • ftp://ftp.ncbi.nlm.nih.gov/blast/db/ – Através de software local que recorre a uma API • esearch -db protein -query ABAT | efetch -format fasta – Através de software local previamente obtido • clustalo --auto --force --wrap=100000 -i fich1 -o fich2 – Alternativa: software desenvolvido à medida
  • 14. 14 Ferramentas de acesso geral na Bioinformática • Ambientes de desenvolvimento de software – OBF (BioJava; BioPerl; BioPython; BioSQL); etc. • Usam ambientes de programação atuais complementados com componentes funcionais específicos da Bioinformática • É uma boa prática de desenvolvimento de software! – Baseados em integração de funcionalidades/dados • geWorkbench; InterMine; BioGraph; PATRIC; Gaggle; UGENE; etc. – Baseados em fluxos de trabalho (workflow) • Armadillo; Anduril; BioUno; Galaxy; GenePattern; Taverna Workbench; etc.
  • 15. 15 Ferramentas de acesso geral na Bioinformática • Software para instalação local em computador – Listagem na Wikipedia (inclui as categorias abaixo) – Código fechado/proprietário • Ver lista acima filtrada por “commercial” • Dendroscope – View phylogenetic trees and rooted networks – Código aberto/livre • PHYLIP – Package of programs for inferring phylogenies • Clustal – Multiple alignment of DNA/protein sequences • JalView – MSA editing, visualisation and analysis • PyMol – Molecular visualization system • HyPhy – Hypothesis testing using phylogenies
  • 16. 16 Utilizações da Bioinformática • Como muitas pessoas usam a Bioinformática – 1. Procurar gene BRCA1 no UniProtKB • Selecionar 7 espécies e visualizar as sequências • Descarregar as 7 sequências para ficheiro local – 2. Visualizar as 7 sequências com o JalView • Antes de serem alinhadas com um software de MSA • Depois de serem alinhadas (observar e analisar) – 3. Escolher uma subsequência e pesquisar no BLAST • Verificar as sequências candidatas e analisar – 4. Abrir sequência BRCA1_HUMAN no UniProtKB • Visualizar BRCA1 “1jnx” em 3D no software PyMol
  • 17. 17 Ferramentas à medida na Bioinformática • Descrição do problema – Dada uma lista de mutações (exemplo R283Q) em sequências proteicas de genes humanos, – Pesquisar essas mutações nas sequências proteicas ortólogas de 39 mamíferos previamente definidos e – Guardar todos os casos de mutações iguais às humanas, nos 39 mamíferos em causa, numa folha de cálculo – Pressupostos • As sequências humanas são descritas pelo identificador RefSeq (exemplo: NP_000005.2)
  • 18. 18 Ferramentas à medida na Bioinformática • Análise do problema – O problema está claramente formulado? Sim/Não – As fontes de informação estão definidas? Sim/Não – O que está em falta para se poder resolver? Discussão/sugestões!
  • 19. 19 Ferramentas à medida na Bioinformática • Análise do problema – O problema está claramente formulado? Sim – As fontes de informação estão definidas? Não – O que está em falta para se poder resolver? • A lista que define os 39 mamíferos! • Um repositório com sequências proteicas de mamíferos! • Um algoritmo que descreva uma solução adequada! • Uma solução implementada de modo correto e bem testada!
  • 20. 20 Ferramentas à medida na Bioinformática • Preparação da solução – Fornecida a lista com os nomes dos 39 mamíferos – Identificado um repositório de dados com sequências proteicas de mamíferos: Ensembl • «The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online...» • Existe uma interface Web para aceder ao Ensembl e obter automaticamente sequências proteicas de mamíferos que sejam ortólogas de uma dada sequência proteica humana: http://rest.ensembl.org/homology/symbol/human/X?;type=orthologues;aligned=0 – Descarregadas todas as sequências necessárias
  • 21. 21 Ferramentas à medida na Bioinformática • Definição da solução (algoritmo) – Solução incluirá ações (A), decisões (D) e ciclos (C) • Descrição simplificada da solução: Esboço da solução? Discussão/sugestões!
  • 22. 22 Ferramentas à medida na Bioinformática • Definição da solução (algoritmo) – Solução incluirá ações (A), decisões (D) e ciclos (C) • Descrição simplificada da solução: A: Inicia a execução A: Prepara os dados necessários C: Para cada sequência de gene humano C: .Para cada mamífero D: ..Se existe sequência do respetivo gene ortólogo A: ...Faz alinhamento das sequências humana+mamífero C: ....Para cada mutação do gene humano em causa D: .....Se há mutação na sequência do mamífero A: ......Guarda informação da mutação encontrada A: Armazena os resultados encontrados num ficheiro A: Termina a execução
  • 23. 23 Ferramentas à medida na Bioinformática • Caraterísticas da solução encontrada – O tempo de execução (TE) será proporcional ao • Nº de genes humanos (N1) • Nº de mamíferos (N2) • Nº médio de mutações por gene humano (N3) • TE ≈ N1  N2  N3 – A solução encontrada está próxima do ótimo – Exemplo de resultado ABCB1 erinaceus_europaeus 472 V=>A nd...Vi.p.. NP_003733.2 homo_sapiens dn...Av.s.. ENSEEUP00000004710 erinaceus_europaeus
  • 24. 24 Ferramentas para entrar na Bioinformática • Aprender Bioinformática – Plataforma de aprendizagem Rosalind • Python Village (aprender a linguagem Python) • Bioinformatics Stronghold (descobrir algoritmos) • Bioinformatics Armory (ferramentas prontas a usar) • Bioinformatics Textbook Track (coleção de exercícios) • Algorithmic Heights (exercícios sobre algoritmos) – Cursos online na plataforma Coursera – Leituras • Bioinformatics for Dummies (2ª edição, Ebook) • Livros sobre Bioinformática na Amazon UK
  • 25. 25 Sequências de aminoácidos por alinhar e alinhadas
  • 26. 26 Sequências de ADN por alinhar e alinhadas
  • 27. 27 Visualização 3D de uma proteína (modo cartoon)
  • 28. 28 Visualização 3D de uma proteína (superfície)
  • 29. Palestra sobre Bioinformática Uso de ferramentas de acesso geral ou de ferramentas à medida em Bioinformática António Cardoso Costa Departamento de Eng.ª Informática Instituto Superior de Engenharia do Porto