SlideShare una empresa de Scribd logo
1 de 205
Биоинформатика. Базы данных Порозов Юрий.  porozov@sns.it  porozov@ifc.cnr.it
[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object]
Bioinformatics  - A New Discipline Взято из : D. Gilberts & C. Tan, 2002 http://www.brc.dcs.gla.ac.uk/~drg/courses/bioinformatics_city/slides/slides1/sld018.htm   Large scale analysis and interpretation of genomics data.  Computing Math& Stats Life  sciences Physical  sciences
The BIG Goal ,[object Object],[object Object],[object Object],Bio-informatics: Provide methodologies for elucidating biological knowledge from biological data.
Goal:  Enable the discovery of  new biological insights  and create a   global   perspective for life sciences. Data produced by  bio-labs and  stored in database. Better biological  and medical understanding. Bio-Informatics Algorithms  and Tools Это вычислительные методы для глобального понимания биологических данных . Что такое биоинформатика ?
Биоинформатика Structural Genomics Pharmaco-Genomics Functional Genomics Proteomics Genomics Bioinformatics
Задачи биоинформатики ,[object Object],[object Object],[object Object],[object Object]
Биополимеры  ,[object Object],[object Object],(дезоксирибонуклеиновые и рибонуклеиновые кислоты) – обеспечивающих хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов   } Протеины (белки)
[object Object],[object Object],[object Object]
ДНК
ДНК O O=P-O O Фосфатная группа N Азотистое основание (A, G, C, or T) CH2 O C 1 C 4 C 3 C 2 5 Сахар (дезоксирибоза)
ДНК ДНК состоит из двух цепей нуклеотидов, соединённых попарно : ADENINE  –  THYMINE CYTOSINE  -  GUANINE Правило комплементарности
Двойная спираль P P P O O O 1 2 3 4 5 5 3 3 5 P P P O O O 1 2 3 4 5 5 3 5 3 G C T A
Биополимеры – ДНК ,[object Object],Гуанин Цитозин Тимин Аденозинфосфат Пурины Пиримидины
Биополимеры - ДНК J. Watson  и  F. Crick.  Фото из архива  Photo Researchers inc.
ДНК,  дальнейшая упаковка.
ДНК Функции  ДНК — наследственность и изменчивость.
Репликация ДНК Репликация ДНК
Биополимеры - белки ,[object Object],[object Object]
Биополимеры - белки
Форматы файлов, используемых в биоинформатике ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],LOCUS  SCU49845  5028 bp  DNA  PLN  21-JUN-1999 DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION  U49845 VERSION  U49845.1  GI:1293613 KEYWORDS  . SOURCE  Saccharomyces cerevisiae (baker's yeast) ORGANISM  Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE  1  (bases 1 to 5028) AUTHORS  Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE  Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL  Yeast 10 (11), 1503-1509 (1994) PUBMED  7871890 REFERENCE  2  (bases 1 to 5028) AUTHORS  Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE  Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL  Genes Dev. 10 (7), 777-793 (1996) PUBMED  8846915 REFERENCE  3  (bases 1 to 5028) AUTHORS  Roemer,T. TITLE  Direct Submission JOURNAL  Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES  Location/Qualifiers source  1..5028 /organism=&quot;Saccharomyces cerevisiae&quot; /db_xref=&quot;taxon:4932&quot; /chromosome=&quot;IX&quot; /map=&quot;9&quot; CDS  <1..206 /codon_start=3 /product=&quot;TCP1-beta&quot; /protein_id=&quot;AAA98665.1&quot; /db_xref=&quot;GI:1293614&quot; /translation=&quot;SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM&quot; gene  687..3158 /gene=&quot;AXL2&quot; CDS  687..3158 /gene=&quot;AXL2&quot; /note=&quot;plasma membrane glycoprotein&quot; /codon_start=1 /function=&quot;required for axial budding pattern of S. cerevisiae&quot; /product=&quot;Axl2p&quot; / protein_id=&quot;AAA98666.1&quot; /db_xref=&quot;GI:1293615&quot; /translation=&quot;MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN ------------------------------------------//---------------------------------------------------------  YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML&quot; gene  complement(3300..4037) /gene=&quot;REV7&quot; CDS  complement(3300..4037) /gene=&quot;REV7&quot; /codon_start=1 /product=&quot;Rev7p&quot; /protein_id=&quot;AAA98667.1&quot; /db_xref=&quot;GI:1293616&quot; /translation=&quot;MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD  KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF&quot; ORIGIN 1 gatcctccat   atacaacggt  atctccacct  caggtttaga  tctcaacaac   ggaaccattg 61 ccgacatgag   acagttaggt   atcgtcgaga   gttacaagct  aaaacgagca  gtagtcagct 121 ctgcatctga  agccgctgaa  gttctactaa  gggtggataa   catcatccgt   gcaagaccaa 181 gaaccgccaa   tagacaacat  atgtaacata   tttaggatat   acctcgaaaa  taataaaccg 241 ccacactgtc   attattataa   ttagaaacag  aacgcaaaaa   ttatccacta  tataattcaa 301 agacgcgaaa   aaaaaagaac   aacgcgtcat   agaacttttg   gcaattcgcg  tcacaaataa ------------------------------------------//----------------------------------------------  4621 tcttcgcact  tcttttccca   ttcatctctt  tcttcttcca  aagcaacgat  ccttctaccc 4681 atttgctcag   agttcaaatc   ggcctctttc   agtttatcca   ttgcttcctt  cagtttggct 4741 tcactgtctt  ctagctgttg   ttctagatcc   tggtttttct  tggtgtagtt  ctcattatta 4801 gatctcaagt   tattggagtc  ttcagccaat   tgctttgtat   cagacaattg   actctctaac 4861 ttctccactt  cactgtcgag  ttgctcgttt   ttagcggaca   aagatttaat   ctcgttttct 4921 ttttcagtgt  tagattgctc  taattctttg  agctgttctc  tcagctcctc  atatttttct 4981 tgccatgact  cagattctaa  ttttaagcta  ttcaatttct  ctttgatc //
GenBank.  Запись  sequence
GenBank.  Запись  mRNA
Сплайсинг и восстановление последовательности  mRNA mRNA seq=(AF018429.1:282-561)+(AF018429.1:1034-1172)+(AF018430.1:560-651)+(AF018430.1:1-45)+………
GenBank.  Запись  genomic DNA
GenBank.  Аннотация
Как добавить данные в  GB? http://www.ncbi.nlm.nih.gov/ Genbank/submit.html ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Форматы описания белков ,[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],DBREF  1RRX A  2  227  UNP  P42212  GFP_AEQVI  290  517  SEQADV 1RRX YOF A  39  UNP  P42212  TYR  327 MODIFIED RESIDUE  SEQADV 1RRX MFC A  66  UNP  P42212  THR  353 MODIFIED RESIDUE  SEQADV 1RRX MFC A  66  UNP  P42212  TYR  354 MODIFIED RESIDUE  SEQADV 1RRX MFC A  66  UNP  P42212  GLY  355 MODIFIED RESIDUE  SEQADV 1RRX YOF A  74  UNP  P42212  TYR  362 MODIFIED RESIDUE  SEQADV 1RRX YOF A  92  UNP  P42212  TYR  380 MODIFIED RESIDUE  SEQADV 1RRX YOF A  106  UNP  P42212  TYR  394 MODIFIED RESIDUE  SEQADV 1RRX YOF A  143  UNP  P42212  TYR  431 MODIFIED RESIDUE  SEQADV 1RRX YOF A  143  UNP  P42212  TYR  433 MODIFIED RESIDUE  SEQADV 1RRX YOF A  151  UNP  P42212  TYR  439 MODIFIED RESIDUE  SEQADV 1RRX YOF A  182  UNP  P42212  TYR  470 MODIFIED RESIDUE  SEQADV 1RRX YOF A  200  UNP  P42212  TYR  488 MODIFIED RESIDUE  SEQRES  1 A  226  SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE  SEQRES  2 A  226  LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE  SEQRES  3 A  226  SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY  SEQRES  4 A  226  LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU  SEQRES  5 A  226  PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL  SEQRES  6 A  226  GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS  SEQRES  7 A  226  ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN  SEQRES  8 A  226  GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS  SEQRES  9 A  226  THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL  SEQRES  10 A  226  ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP  SEQRES  11 A  226  GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN  SEQRES  12 A  226  SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN  SEQRES  13 A  226  GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU  SEQRES  14 A  226  ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN  SEQRES  15 A  226  THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN  SEQRES  16 A  226  HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO  SEQRES  17 A  226  ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL  SEQRES  18 A  226  THR ALA ALA GLY ILE  MODRES 1RRX YOF A  39  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  74  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  92  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  106  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  143  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  145  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  151  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  182  TYR  3-FLUOROTYROSINE  MODRES 1RRX YOF A  200  TYR  3-FLUOROTYROSINE  MODRES 1RRX MFC A  66  GLY  CYCLIZED  MODRES 1RRX MFC A  66  TYR  CYCLIZED  HETNAM  YOF 3-FLUOROTYROSINE  HETNAM  MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3,  HETNAM  2 MFC  5-DIHYDRO-IMIDAZOL-4-ONE  FORMUL  1  YOF  9(C9 H10 F N O3)  FORMUL  1  MFC  C15 H16 F N3 O5  FORMUL  2  HOH  *61(H2 O)
HELIX  1  1 GLU A  5  THR A  9  5  5  HELIX  2  2 ALA A  37  YOF A  39  5  3  HELIX  3  3 PRO A  56  VAL A  61  5  6  HELIX  4  4 VAL A  68  SER A  72  5  5  HELIX  5  5 PRO A  75  HIS A  81  5  7  HELIX  6  6 ASP A  82  ALA A  87  1  6  SHEET  1  A12 VAL A  12  VAL A  22  0  SHEET  2  A12 HIS A  25  ASP A  36 -1  O  GLY A  31  N  VAL A  16  SHEET  3  A12 LYS A  41  CYS A  48 -1  O  THR A  43  N  GLU A  34  SHEET  4  A12 HIS A 217  ALA A 227 -1  O  LEU A 220  N  LEU A  44  SHEET  5  A12 HIS A 199  SER A 208 -1  N  SER A 202  O  THR A 225  SHEET  6  A12 ASN A 149  ASP A 155 -1  N  ILE A 152  O  HIS A 199  SHEET  7  A12 GLY A 160  ASN A 170 -1  O  GLY A 160  N  ASP A 155  SHEET  8  A12 VAL A 176  PRO A 187 -1  O  GLN A 177  N  HIS A 169  SHEET  9  A12 YOF A  92  PHE A 100 -1  N  GLU A  95  O  GLN A 184  SHEET  10  A12 ASN A 105  GLU A 115 -1  O  YOF A 106  N  ILE A  98  SHEET  11  A12 THR A 118  ILE A 128 -1  O  LYS A 126  N  LYS A 107  SHEET  12  A12 VAL A  12  VAL A  22  1  N  ASP A  21  O  GLY A 127  CISPEP  1 MET A  88  PRO A  89  0  0.50  CRYST1  51.003  62.430  70.931  90.00  90.00  90.00 P 21 21 21  4  ORIGX1  1.000000  0.000000  0.000000  0.00000  ORIGX2  0.000000  1.000000  0.000000  0.00000  ORIGX3  0.000000  0.000000  1.000000  0.00000  SCALE1  0.019607  0.000000  0.000000  0.00000  SCALE2  0.000000  0.016018  0.000000  0.00000  SCALE3  0.000000  0.000000  0.014098  0.00000  ATOM  1  N  SER A  2  28.277  8.150  50.951  1.00 57.00  N  ATOM  2  CA  SER A  2  27.454  9.223  51.584  1.00 55.40  C  ATOM  3  C  SER A  2  25.972  8.992  51.295  1.00 55.44  C  ATOM  4  O  SER A  2  25.576  7.932  50.799  1.00 54.37  O  ATOM  5  CB  SER A  2  27.883  10.601  51.046  1.00 70.82  C  ATOM  6  OG  SER A  2  27.150  11.676  51.622  1.00 71.45  O  ATOM  7  N  LYS A  3  25.157  9.993  51.619  1.00141.28  N  ATOM  8  CA  LYS A  3  23.716  9.932  51.398  1.00140.16  C  -----------------------------------//---------------------------------------------------------------- ATOM  47  CA  PHE A  8  26.551  11.090  41.294  1.00 19.27  C  ATOM  48  C  PHE A  8  27.751  10.357  40.676  1.00 21.43  C  ATOM  49  O  PHE A  8  28.562  10.924  39.938  1.00 21.44  O  ATOM  50  CB  PHE A  8  27.022  12.362  41.991  1.00 21.68  C  ATOM  51  CG  PHE A  8  25.909  13.297  42.288  1.00 17.60  C  ATOM  52  CD1 PHE A  8  25.488  14.212  41.321  1.00 14.95  C  ATOM  495  CA  VAL A  68  23.860  22.610  40.452  1.00 14.12  C  ATOM  496  C  VAL A  68  25.259  22.196  40.854  1.00 13.41  C  ATOM  1164  CA  SER A 147  37.123  31.083  35.325  1.00 21.88  C  ATOM  1819  CD1 ILE A 229  38.888  21.450  53.055  1.00 29.11  C  ATOM  1820  OXT ILE A 229  43.220  19.637  50.148  1.00 25.25  O  TER  1821  ILE A 229  HETATM 1822  O  HOH  1  30.450  20.682  37.367  1.00 15.75  O  HETATM 1823  O  HOH  2  26.443  24.175  38.999  1.00 18.82  O  ---------------------------------//------------------------------------------------ HETATM 1831  O  HOH  10  29.132  18.648  45.101  1.00 13.77  O  HETATM 1832  O  HOH  11  24.076  46.248  42.794  1.00 22.62  O  HETATM 1833  O  HOH  12  31.870  32.426  52.146  1.00 36.77  O  HETATM 1880  O  HOH  59  37.243  14.571  53.463  1.00 31.12  O  HETATM 1881  O  HOH  60  40.360  20.483  56.144  1.00 32.74  O  HETATM 1882  O  HOH  61  13.483  49.374  33.179  1.00 30.77  O  CONECT  267  268  CONECT  268  267  269  271  CONECT  819  820  CONECT 1594 1592 1596 1598  CONECT 1595 1593 1596  CONECT 1596 1594 1595 1597  CONECT 1597 1596  CONECT 1598 1594  MASTER  259  0  10  6  12  0  0  6 1881  1  140  18  END
PDB-XML ,[object Object],<?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot; ?> <PDBx:datablock datablockName=&quot;1CFC&quot; xmlns:PDBx=&quot;http://pdbml.pdb.org/schema/pdbx-v32.xsd&quot; xmlns:xsi=&quot;http://www.w3.org/2001/XMLSchema-instance&quot; xsi:schemaLocation=&quot;http://pdbml.pdb.org/schema/pdbx-v32.xsd pdbx-v32.xsd&quot;> <PDBx:atom_siteCategory> <PDBx:atom_site id=&quot;1&quot;> <PDBx:B_iso_or_equiv>1.43</PDBx:B_iso_or_equiv> <PDBx:B_iso_or_equiv_esd xsi:nil=&quot;true&quot; /> <PDBx:Cartn_x>14.550</PDBx:Cartn_x> <PDBx:Cartn_x_esd xsi:nil=&quot;true&quot; /> <PDBx:Cartn_y>12.461</PDBx:Cartn_y> <PDBx:Cartn_y_esd xsi:nil=&quot;true&quot; /> <PDBx:Cartn_z>-10.584</PDBx:Cartn_z> <PDBx:Cartn_z_esd xsi:nil=&quot;true&quot; /> <PDBx:auth_asym_id>A</PDBx:auth_asym_id> <PDBx:auth_atom_id>N</PDBx:auth_atom_id> <PDBx:auth_comp_id>ALA</PDBx:auth_comp_id> <PDBx:auth_seq_id>1</PDBx:auth_seq_id> <PDBx:group_PDB>ATOM</PDBx:group_PDB> <PDBx:label_alt_id></PDBx:label_alt_id> <PDBx:label_asym_id>A</PDBx:label_asym_id> <PDBx:label_atom_id>N</PDBx:label_atom_id> <PDBx:label_comp_id>ALA</PDBx:label_comp_id> <PDBx:label_entity_id>1</PDBx:label_entity_id> <PDBx:label_seq_id>1</PDBx:label_seq_id> <PDBx:occupancy>1.00</PDBx:occupancy> <PDBx:occupancy_esd xsi:nil=&quot;true&quot; /> <PDBx:pdbx_PDB_ins_code xsi:nil=&quot;true&quot; /> <PDBx:pdbx_PDB_model_num>1</PDBx:pdbx_PDB_model_num> <PDBx:pdbx_formal_charge xsi:nil=&quot;true&quot; /> <PDBx:type_symbol>N</PDBx:type_symbol> </PDBx:atom_site> <PDBx:atom_site id=&quot;2&quot;>
MMDB-Cn3D ,[object Object]
[object Object]
ClustalW ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Выходной файл : aln format Форматы на http://www.ebi.ac.uk/help/formats.html
 
 
Источники информации и базы данных в Интернете
Типы баз данных ,[object Object],[object Object],[object Object],[object Object]
Проблемы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Пример  GenBank ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Полные базы данных ,[object Object],[object Object],[object Object]
NCBI   ( National center for biotechnology information ) NCBI PubMed Books OMIM Nucleotides Proteins Genomes Taxonomy Structure Domains Exp’ profiles
NCBI - GenBank ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
NCBI - GenBank ,[object Object],[object Object],[object Object],[object Object]
EMBL ,[object Object]
Swiss  prot ,[object Object],[object Object],[object Object],[object Object],[object Object]
Организмоориентированные базы
Молекулоспецифические базы ,[object Object],GtRDB: The Genomic tRNA Database
PDB – Protein Data Bank ,[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],Анализ белковых последовательностей :   Swiss-Prot
UniProt DB ,[object Object],[object Object]
Поиск белка в  Swiss-Prot  ( по названию)
Advances search
Результаты
Выборка гомологичных белков
Сохранить в  FASTA  формате
Стандартная   запись  Swiss-Prot
Стандартные поля : entry, name, origin Название записи, уникальный идентификатор ( ID) , предыдущие идентификаторы соответствующей записи, даты первой и последней модификаций, распространенное название белка   и его синонимы ( EC  номер для ферментов), название гена, организм и его таксономия, уровень подтверждения
NiceZyme  (ферменты)
Taxonomy Browser
Ссылки на статьи, использованные для аннотации
Комментарии
Продолжение
Возможные разделы комментариев
Cross-References
Cross-References регистрация
3 D-Structure  (список структур)
Reactome
GO terms Определение термина, синонимы, родительские ( Hierarchy)  и дочерние термины ,  ключевые слова, дата последней модификации
Cross-References ,  Keywords
KEGG   Kyoto Encyclopedia of Genes and Genomes   http://www.genome.jp/kegg/
KEGG  ( pathway viewer)
DrugBank
Keywords
Словарь ключевых слов
Feature Table
Координаты в  Feature table
Feature table,  продолжение
Feature Table,  продолжение Только экспериментальные
Feature Table viewer (Sequence Element viewer)
Feature aligner Можно построить множественное выравнивание подмножества этих элементов ( ClustalW)  или скопировать их в  FASTA  формате
Sequence
Sequence,  продолжение
FASTA format Программа  FASTA (1988,   WR Pearson & DJ Lipman): >(the definition line) _уникальный_ ID  + короткое описание ПОСЛЕДОВАТЕЛЬНОСТЬ БЕЛКА (ИЛИ ДНК) В ОДНОБУКВЕННОМ КОДЕ RAW format –  без  definition line
NiceProt view
Базы данных На  22.02.2011 PDB   Exp.Method   Proteins   Nucleic Acids   Protein/NA Complexes   Other   Total
Базы данных OCA
SCOP -  Structural Classification Of Proteins ,[object Object],[object Object]
NCBI - Entrez  ,[object Object],[object Object],[object Object]
NCBI - Entrez ,[object Object]
SRS  ( Sequence Retrieval System ) . ,[object Object],[object Object],[object Object],[object Object]
SRS ,[object Object],Выбор базы данных Заполнение формы запроса Страница результатов
Полные базы данных ,[object Object],[object Object],[object Object]
NCBI   ( National center for biotechnology information ) NCBI PubMed Books OMIM Nucleotides Proteins Genomes Taxonomy Structure Domains Exp’ profiles
NCBI - GenBank ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
NCBI - GenBank ,[object Object],[object Object],[object Object],[object Object]
EMBL ,[object Object]
Swiss  prot ,[object Object],[object Object],[object Object],[object Object],[object Object]
Организмоориентированные базы
Молекулоспецифические базы ,[object Object],GtRDB: The Genomic tRNA Database
PDB – Protein Data Bank ,[object Object],[object Object],[object Object],[object Object]
SCOP -  Structural Classification Of Proteins ,[object Object],[object Object]
Текстовый поиск ,[object Object],[object Object],[object Object],[object Object],[object Object]
NCBI - Entrez  ,[object Object],[object Object],[object Object]
NCBI - Entrez ,[object Object]
Эффективность поиска ,[object Object]
SRS  ( Sequence Retrieval System ) . ,[object Object],[object Object],[object Object],[object Object]
SRS ,[object Object],Выбор базы данных Заполнение формы запроса Страница результатов
Проект  ENCODE ,[object Object]
Анализ белковой последовательности ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Анализ белковой последовательности ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
ProtParam  - предсказание физико-химических параметров белка
ProtParam ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Compute pI/Mw
PeptideMass
PeptideMass - output
PeptideCutter
PeptideCutter  -  output
PeptideCutter  -  output
Метод скользящего окна ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Предсказание трансмембранных сегментов : ProtScale 56  аминокислотных шкал (с литературными ссылками), скользящее окно - >  выбор ширины окна
ProtScale - output
Более сложное предсказание трансмембранных сегментов : TMHMM Transmembrane beta barrel prediction:  PROFtmb   (http://rostlab.org/services/proftmb ) ;  PRED-TMBB ( http://biophysics.biol.uoa.gr/PRED-TMBB/ ) ;  TBBPred ( http://www.imtech.res.in/raghava/tbbpred  )
TMHMM -  результаты TMHMM  предсказывает сегменты, а также топологию межсегментных участков Наход ит только 7!  TMs
Домены ,[object Object],[object Object],[object Object]
История коллекций доменов ,[object Object],[object Object],[object Object],[object Object],[object Object]
C ерверы для поиска доменов ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
InterPro Database  .
InterPro   ,[object Object],[object Object],[object Object]
Как это происходит ,[object Object]
Поиск доменов : InterProScan
InterProScan -  результаты
Table View
CD server Input - Accession number ,  gi  или последовательность в  FASTA  формате
CD server – output Красный –  SMART,  синий –  Pfam,  зеленый –  COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена
CDART –  поиск белков с аналогичной доменной структурой
Pfscan Как правило, работает несколько минут
Pfscan - output Особенности вывода  Pfscan ,[object Object],[object Object],[object Object],[object Object]
Structure Classification Databases ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
SCOP- S tructural  C lassification  o f  P roteins ,[object Object],[object Object],[object Object],[object Object]
Superfamily :  Probable common evolutionary origin Белки, имеющие низкую идентичность последовательностей, но чьи структурные и функциональные особенности позволяют предположить наличие общего предка, могут быть объединены в суперсемейства .  Например, актин , the ATPase domain  белков теплового шока и гексакиназы образуют  суперсемейство Fold :  Major structural similarity Общий фолд – одинаковая  организация вторичной струкруры, с похожим пространственным расположением и с похожими соединениями .  Белки с одинаковым фолдом зачастую имеют концевые элементы вторичной структуры , изгибы и повороты различных разметов и конформаций (до половины всей структуры) .  Белки, объединённые одним фолдом, могут  не иметь общего предка (химия, физика     упаковка и топология) SCOP
SCOP Family :  Clear evolutionarily relationship Белки, сгруппированные в семейство, тесно связаны эволюционно. Это значит, что парное выравнивание показывает 30 %  и выше .  Иногда похожие функция и структура показывают наличие общего предка и при отсутствии высокой идентичности последовательностей ;  например ,  многие глобины образуют семейство, хотя некоторые из них имеют идентичность 1 D ~   15%.
Archetype Structures   of Domains
Поиск по  SCOP
SCOP
CATH  ( Brookhaven   protein databank  ) ,[object Object],[object Object]
CATH ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
CATH ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
CATH ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
SCOP / CATH ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
SCOP / CATH -> DALI ,[object Object],[object Object],[object Object],Presentation of results of the classification, where the methods that underlie the classification remain internal Structure comparison
DALI    anti parallel   barrel  meander More information about DALI Touring protein fold space with Dali/FSSP: Liisa Holm and Chris Sander Comparing protein structures in 3D
DALI ,[object Object],[object Object],[object Object],[object Object]
DALI  ,[object Object],[object Object],[object Object]
DALI  •  Базируется на выравненных  2D  матрицах внутримолекулярных дистанций •  Считает лучший  subset  соответствующих аминокислот в двух белках – максимальная похожесть  2D  матриц дистанций •  Поиск по всем возможным выравниваниям остатков –  Monte-Carlo  и  branch-and-bound algorithms An intra-molecular distance plot for myoglobin
Pfam Database  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Homstrad Database  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
PClass Database  Инструмент для классификации, базирующийся на иерархии 600 белков-представителей из  PDB.  Структурное выравнивание  600  структур было выполнено при помощи алгоритма  3dSearch.
3D Structure Validation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка качества стереохимии ,[object Object],[object Object],[object Object],[object Object],[object Object]
Мы можем использовать эту  PDB  структуру ? ,[object Object],[object Object],[object Object],[object Object],[object Object]
Важные параметры ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
WHAT IF ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
WHAT_IF Validation Parameters ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
The PDBREPORT Database  ,[object Object],[object Object]
WHAT_CHECK Criteria Peptide-Pl:  RMS distance of the backbone oxygen from the oxygen in similar backbone conformations found in the database, distances in the range [3..1] are mapped to [0..9] Rotamer:  Probability that the sidechain rotamer (chi-1 only) is correct, probabilities in the range [0.1 .. 0.9] are mapped to [0..9] Chi-1/Chi-2:  Z-score for the sidechain chi-1/chi-2 combination,  Z-scores in the range probabilities in the range [-4..+4] are mapped to [0..9] Bumps:  Sum of bumps per residue, distances in the range [0.1 .. 0] are mapped to [0..9]. Packing 1:  First packing quality Z-score, Z-scores in the range [-5..+5] are mapped to [0..9]. Packing 2:  Second packing quality Z-score, Z-scores in the range [-3..+3] are mapped to [0..9]. In/Out:  Absolute inside/outside distribution Z-score per residue, Z-scores in the range [4..2] are mapped to [0..9]. H-Bonds:  9 minus number of unsatisfied hydrogen bonds, 2 is subtracted for buried backbone nitrogen, 5 for buried sidechain. Flips:  Indicates flipped Asn/Gln/His sidechain, 9=OK, 0=needs  flipping.
WHAT_CHECK Criteria Access:  Relative side chain accessibility, 0=buried, 9=exposed. Quality:  Several quality estimators from the PDBREPORTs.0=is oh no, 9=perfect.  B-Factors:  Crystallographic B-factors, the range [10..60] is mapped to [9..0] Bonds:  Absolute Z-score of the largest bond deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9]. Angles:  Absolute Z-score of the largest angle deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9]. Torsions:  Average Z-score of the torsion angles per residue, Z-Scores in the range [-3..+3] are mapped to [0..9]. Phi/Psi:  Ramachandran Z-score per residue, Z-Scores in the range [-4..+4] are mapped to [0..9]. Planarity:  Z-score for the planarity of the residue sidechain, Z-Scores in the range [6..2] are mapped to [0..9]. Chirality:  Average absolute Z-score of the chirality deviations per residue, average absolute Z-Scores in the range [4..2] are mapped to [0..9]. Backbone:  Number of similar backbone conformations found in the database, numbers in the range [0..10] are mapped to [0..9]
Procheck http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Procheck.  Отчёты
PDB Validation Tools ,[object Object],[object Object]
ERRAT ,[object Object],[object Object],[object Object],[object Object]
PROVE ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Biotech Validation Suite ,[object Object]
SAV ,[object Object],[object Object],[object Object],[object Object]
Способы визуализации
Для чего визуализация? ALLSFERKYRVRGGTLIGGDLFDFWVGPYFVGFFGVSAIFFIFLGVSLIGYAASQGPTWDPFAISINPPDLKYGLAAPLLEGGFWQAITVCALGAFISWMLREVEISRKLGIGWHVPLAFCVPIFMFCVLQVFRPLLLGSWGHAFPYGILSHLDWVNNFGYQYLNWHYNPGHMSSVSFLFVNAMALGLHGGLILSVANPGDGDKVKTAEHENQYFRDVVGYSIGALSIHRLGLFLASNIFLTGAFGTIASGPFWTRGWPEWWGWWLDIPFWS
An Introduction to Protein Architecture By A. M. Lesk
Инструменты визуализации ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
RasMol
RasTop
Chime ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Protein Explorer   ,[object Object],[object Object],[object Object],[object Object]
Protein Explorer
Protein Explorer
ExPASy
SwissPdbViewer - Deep view ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
YASARA ,[object Object],[object Object],[object Object]
RasMol –  Главное меню
RasMol -  Дисплей
RasMol -  Цвет
RasMol –  Опции      Сечение
RasMol –  Опции      Атомы  H
RasMol –  Опции      Зеркальная поверхность
RasMol –  Опции      Тени
RasMol –  Опции      Стерео
RasMol –  Опции      Метки
RasMol -  Экспорт
RasMol - Help
RasMol Manual RasMol 2.6 Manual   http://www.umass.edu/microbio/rasmol/getras.htm#rasmanual RasMol 2.7   Manual   http://www.rasmol.org/
RasTop  ,[object Object],[object Object]
Swiss-PDBViewer Домашняя страница :   http://ca.expasy.org/spdbv/ Руководство пользователя  http://ca.expasy.org/spdbv/text/tutorial.htm.
Swiss-PDBViewer

Más contenido relacionado

La actualidad más candente

початок людського життя
початок людського життяпочаток людського життя
початок людського життяkrasilya
 
Phylogenetic Tree, types and Applicantion
Phylogenetic Tree, types and Applicantion Phylogenetic Tree, types and Applicantion
Phylogenetic Tree, types and Applicantion Faisal Hussain
 
Sequence homology search and multiple sequence alignment(1)
Sequence homology search and multiple sequence alignment(1)Sequence homology search and multiple sequence alignment(1)
Sequence homology search and multiple sequence alignment(1)AnkitTiwari354
 
Psychrophilic enzymes -cold adapted enzyme kinetics
Psychrophilic enzymes -cold adapted enzyme kineticsPsychrophilic enzymes -cold adapted enzyme kinetics
Psychrophilic enzymes -cold adapted enzyme kineticsKawya Krishnarajan
 
Darwinian fitness(animal behaviour)
Darwinian fitness(animal behaviour)Darwinian fitness(animal behaviour)
Darwinian fitness(animal behaviour)Abhinaya Alley
 
Role of bioinformatics of drug designing
Role of bioinformatics of drug designingRole of bioinformatics of drug designing
Role of bioinformatics of drug designingDr NEETHU ASOKAN
 
genetic linkage and gene mapping
genetic linkage and gene mappinggenetic linkage and gene mapping
genetic linkage and gene mappingMahammed Faizan
 
mendel law (1).pptx
mendel law (1).pptxmendel law (1).pptx
mendel law (1).pptxAitlasKhan
 
Polygenic Inheritance
Polygenic InheritancePolygenic Inheritance
Polygenic InheritanceRachel Raines
 
Allelic variation
Allelic variationAllelic variation
Allelic variationANU RAJ
 
The uni prot knowledgebase
The uni prot knowledgebaseThe uni prot knowledgebase
The uni prot knowledgebaseKew Sama
 
Bioinformatics, its application main
Bioinformatics, its application mainBioinformatics, its application main
Bioinformatics, its application mainKAUSHAL SAHU
 
Ion channels, types and their importace in managment of diseases
Ion channels, types and their importace in managment of diseasesIon channels, types and their importace in managment of diseases
Ion channels, types and their importace in managment of diseasesFarazaJaved
 
8. Biology and characterization of cultured cells
8. Biology and characterization of cultured cells8. Biology and characterization of cultured cells
8. Biology and characterization of cultured cellsShailendra shera
 
Sequence Submission Tools
Sequence Submission ToolsSequence Submission Tools
Sequence Submission ToolsRishikaMaji
 
01 sex linkage(Dr.Endom(FST Genetic))
01 sex linkage(Dr.Endom(FST Genetic))01 sex linkage(Dr.Endom(FST Genetic))
01 sex linkage(Dr.Endom(FST Genetic))ummusulaim92
 
Plant transformation vectors and their types
Plant transformation vectors and their typesPlant transformation vectors and their types
Plant transformation vectors and their typesZahra Naz
 

La actualidad más candente (20)

Insect cell culture
Insect cell cultureInsect cell culture
Insect cell culture
 
початок людського життя
початок людського життяпочаток людського життя
початок людського життя
 
Phylogenetic Tree, types and Applicantion
Phylogenetic Tree, types and Applicantion Phylogenetic Tree, types and Applicantion
Phylogenetic Tree, types and Applicantion
 
Sequence homology search and multiple sequence alignment(1)
Sequence homology search and multiple sequence alignment(1)Sequence homology search and multiple sequence alignment(1)
Sequence homology search and multiple sequence alignment(1)
 
Psychrophilic enzymes -cold adapted enzyme kinetics
Psychrophilic enzymes -cold adapted enzyme kineticsPsychrophilic enzymes -cold adapted enzyme kinetics
Psychrophilic enzymes -cold adapted enzyme kinetics
 
Darwinian fitness(animal behaviour)
Darwinian fitness(animal behaviour)Darwinian fitness(animal behaviour)
Darwinian fitness(animal behaviour)
 
Role of bioinformatics of drug designing
Role of bioinformatics of drug designingRole of bioinformatics of drug designing
Role of bioinformatics of drug designing
 
genetic linkage and gene mapping
genetic linkage and gene mappinggenetic linkage and gene mapping
genetic linkage and gene mapping
 
2 d page
2 d page2 d page
2 d page
 
Molecular evolution
Molecular evolutionMolecular evolution
Molecular evolution
 
mendel law (1).pptx
mendel law (1).pptxmendel law (1).pptx
mendel law (1).pptx
 
Polygenic Inheritance
Polygenic InheritancePolygenic Inheritance
Polygenic Inheritance
 
Allelic variation
Allelic variationAllelic variation
Allelic variation
 
The uni prot knowledgebase
The uni prot knowledgebaseThe uni prot knowledgebase
The uni prot knowledgebase
 
Bioinformatics, its application main
Bioinformatics, its application mainBioinformatics, its application main
Bioinformatics, its application main
 
Ion channels, types and their importace in managment of diseases
Ion channels, types and their importace in managment of diseasesIon channels, types and their importace in managment of diseases
Ion channels, types and their importace in managment of diseases
 
8. Biology and characterization of cultured cells
8. Biology and characterization of cultured cells8. Biology and characterization of cultured cells
8. Biology and characterization of cultured cells
 
Sequence Submission Tools
Sequence Submission ToolsSequence Submission Tools
Sequence Submission Tools
 
01 sex linkage(Dr.Endom(FST Genetic))
01 sex linkage(Dr.Endom(FST Genetic))01 sex linkage(Dr.Endom(FST Genetic))
01 sex linkage(Dr.Endom(FST Genetic))
 
Plant transformation vectors and their types
Plant transformation vectors and their typesPlant transformation vectors and their types
Plant transformation vectors and their types
 

Similar a Биологические базы данных #1

Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.Ildus Fatkhutdinov
 
Современные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерийСовременные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерийИгорь Шадеркин
 
Генная инженерия лекция.pptx
Генная инженерия лекция.pptxГенная инженерия лекция.pptx
Генная инженерия лекция.pptxssuser59bb22
 
программа «Геном человека»
программа «Геном человека»программа «Геном человека»
программа «Геном человека»hoffmann57
 
биосинтез белков
биосинтез белковбиосинтез белков
биосинтез белковssobxdoc
 
Сравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкцияСравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкцияIlya Klabukov
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsolegshpynov
 
Нанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследованийНанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследованийValerija Pride (Udalova)
 
Биоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxБиоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxssuser0527111
 
Доклад на съезде Фармакологов
Доклад на съезде ФармакологовДоклад на съезде Фармакологов
Доклад на съезде ФармакологовValerija Pride (Udalova)
 
генетики1
генетики1генетики1
генетики1koleso123
 
Биохимические основы хранения и передачи генетической информации
Биохимические основы хранения и передачи генетической информацииБиохимические основы хранения и передачи генетической информации
Биохимические основы хранения и передачи генетической информацииYuri Korenovsky
 

Similar a Биологические базы данных #1 (20)

Biodb 2011-01
Biodb 2011-01Biodb 2011-01
Biodb 2011-01
 
Biodb 2011-everything
Biodb 2011-everythingBiodb 2011-everything
Biodb 2011-everything
 
Vvedenie v bioinformatiku_1
Vvedenie v bioinformatiku_1Vvedenie v bioinformatiku_1
Vvedenie v bioinformatiku_1
 
Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.
 
Современные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерийСовременные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерий
 
Sulimov 2009 10_30
Sulimov 2009 10_30Sulimov 2009 10_30
Sulimov 2009 10_30
 
Генная инженерия лекция.pptx
Генная инженерия лекция.pptxГенная инженерия лекция.pptx
Генная инженерия лекция.pptx
 
программа «Геном человека»
программа «Геном человека»программа «Геном человека»
программа «Геном человека»
 
биосинтез белков
биосинтез белковбиосинтез белков
биосинтез белков
 
Сравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкцияСравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкция
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformatics
 
Нанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследованийНанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследований
 
Биоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxБиоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptx
 
Доклад на съезде Фармакологов
Доклад на съезде ФармакологовДоклад на съезде Фармакологов
Доклад на съезде Фармакологов
 
генетики1
генетики1генетики1
генетики1
 
11 колчанов
11 колчанов11 колчанов
11 колчанов
 
890
890890
890
 
678
678678
678
 
678
678678
678
 
Биохимические основы хранения и передачи генетической информации
Биохимические основы хранения и передачи генетической информацииБиохимические основы хранения и передачи генетической информации
Биохимические основы хранения и передачи генетической информации
 

Más de Nikolay Vyahhi

Assembly and finishing
Assembly and finishingAssembly and finishing
Assembly and finishingNikolay Vyahhi
 
Molbiol 2011-13-organelles
Molbiol 2011-13-organellesMolbiol 2011-13-organelles
Molbiol 2011-13-organellesNikolay Vyahhi
 
Molbiol 2011-12-eukaryotic gene-expression
Molbiol 2011-12-eukaryotic gene-expressionMolbiol 2011-12-eukaryotic gene-expression
Molbiol 2011-12-eukaryotic gene-expressionNikolay Vyahhi
 
Molbiol 2011-10-proteins
Molbiol 2011-10-proteinsMolbiol 2011-10-proteins
Molbiol 2011-10-proteinsNikolay Vyahhi
 
Molbiol 2011-09-reparation-recombination
Molbiol 2011-09-reparation-recombinationMolbiol 2011-09-reparation-recombination
Molbiol 2011-09-reparation-recombinationNikolay Vyahhi
 
Molbiol 2011-08-epigenetics
Molbiol 2011-08-epigeneticsMolbiol 2011-08-epigenetics
Molbiol 2011-08-epigeneticsNikolay Vyahhi
 
Molbiol 2011-07-chromosomes-cell-cycle
Molbiol 2011-07-chromosomes-cell-cycleMolbiol 2011-07-chromosomes-cell-cycle
Molbiol 2011-07-chromosomes-cell-cycleNikolay Vyahhi
 
Molbiol 2011-06-transcription-translation
Molbiol 2011-06-transcription-translationMolbiol 2011-06-transcription-translation
Molbiol 2011-06-transcription-translationNikolay Vyahhi
 
Molbiol 2011-05-dna-rna-protein
Molbiol 2011-05-dna-rna-proteinMolbiol 2011-05-dna-rna-protein
Molbiol 2011-05-dna-rna-proteinNikolay Vyahhi
 
Molbiol 2011-04-metabolism
Molbiol 2011-04-metabolismMolbiol 2011-04-metabolism
Molbiol 2011-04-metabolismNikolay Vyahhi
 
Molbiol 2011-03-biochem
Molbiol 2011-03-biochemMolbiol 2011-03-biochem
Molbiol 2011-03-biochemNikolay Vyahhi
 
Molbiol 2011-02-biology
Molbiol 2011-02-biologyMolbiol 2011-02-biology
Molbiol 2011-02-biologyNikolay Vyahhi
 
Molbiol 2011-01-chemistry
Molbiol 2011-01-chemistryMolbiol 2011-01-chemistry
Molbiol 2011-01-chemistryNikolay Vyahhi
 
Molbiol 2011-11-role of-proteins
Molbiol 2011-11-role of-proteinsMolbiol 2011-11-role of-proteins
Molbiol 2011-11-role of-proteinsNikolay Vyahhi
 
Biotech 2011-08-recombinant-dna
Biotech 2011-08-recombinant-dnaBiotech 2011-08-recombinant-dna
Biotech 2011-08-recombinant-dnaNikolay Vyahhi
 
Biotech 2011-02-genetics
Biotech 2011-02-geneticsBiotech 2011-02-genetics
Biotech 2011-02-geneticsNikolay Vyahhi
 
Biotech 2011-10-methods
Biotech 2011-10-methodsBiotech 2011-10-methods
Biotech 2011-10-methodsNikolay Vyahhi
 
Biotech 2011-09-pcr and-in_situ_methods
Biotech 2011-09-pcr and-in_situ_methodsBiotech 2011-09-pcr and-in_situ_methods
Biotech 2011-09-pcr and-in_situ_methodsNikolay Vyahhi
 
Biotech 2011-07-finding-orf-etc
Biotech 2011-07-finding-orf-etcBiotech 2011-07-finding-orf-etc
Biotech 2011-07-finding-orf-etcNikolay Vyahhi
 

Más de Nikolay Vyahhi (20)

Assembly and finishing
Assembly and finishingAssembly and finishing
Assembly and finishing
 
Molbiol 2011-wetlab
Molbiol 2011-wetlabMolbiol 2011-wetlab
Molbiol 2011-wetlab
 
Molbiol 2011-13-organelles
Molbiol 2011-13-organellesMolbiol 2011-13-organelles
Molbiol 2011-13-organelles
 
Molbiol 2011-12-eukaryotic gene-expression
Molbiol 2011-12-eukaryotic gene-expressionMolbiol 2011-12-eukaryotic gene-expression
Molbiol 2011-12-eukaryotic gene-expression
 
Molbiol 2011-10-proteins
Molbiol 2011-10-proteinsMolbiol 2011-10-proteins
Molbiol 2011-10-proteins
 
Molbiol 2011-09-reparation-recombination
Molbiol 2011-09-reparation-recombinationMolbiol 2011-09-reparation-recombination
Molbiol 2011-09-reparation-recombination
 
Molbiol 2011-08-epigenetics
Molbiol 2011-08-epigeneticsMolbiol 2011-08-epigenetics
Molbiol 2011-08-epigenetics
 
Molbiol 2011-07-chromosomes-cell-cycle
Molbiol 2011-07-chromosomes-cell-cycleMolbiol 2011-07-chromosomes-cell-cycle
Molbiol 2011-07-chromosomes-cell-cycle
 
Molbiol 2011-06-transcription-translation
Molbiol 2011-06-transcription-translationMolbiol 2011-06-transcription-translation
Molbiol 2011-06-transcription-translation
 
Molbiol 2011-05-dna-rna-protein
Molbiol 2011-05-dna-rna-proteinMolbiol 2011-05-dna-rna-protein
Molbiol 2011-05-dna-rna-protein
 
Molbiol 2011-04-metabolism
Molbiol 2011-04-metabolismMolbiol 2011-04-metabolism
Molbiol 2011-04-metabolism
 
Molbiol 2011-03-biochem
Molbiol 2011-03-biochemMolbiol 2011-03-biochem
Molbiol 2011-03-biochem
 
Molbiol 2011-02-biology
Molbiol 2011-02-biologyMolbiol 2011-02-biology
Molbiol 2011-02-biology
 
Molbiol 2011-01-chemistry
Molbiol 2011-01-chemistryMolbiol 2011-01-chemistry
Molbiol 2011-01-chemistry
 
Molbiol 2011-11-role of-proteins
Molbiol 2011-11-role of-proteinsMolbiol 2011-11-role of-proteins
Molbiol 2011-11-role of-proteins
 
Biotech 2011-08-recombinant-dna
Biotech 2011-08-recombinant-dnaBiotech 2011-08-recombinant-dna
Biotech 2011-08-recombinant-dna
 
Biotech 2011-02-genetics
Biotech 2011-02-geneticsBiotech 2011-02-genetics
Biotech 2011-02-genetics
 
Biotech 2011-10-methods
Biotech 2011-10-methodsBiotech 2011-10-methods
Biotech 2011-10-methods
 
Biotech 2011-09-pcr and-in_situ_methods
Biotech 2011-09-pcr and-in_situ_methodsBiotech 2011-09-pcr and-in_situ_methods
Biotech 2011-09-pcr and-in_situ_methods
 
Biotech 2011-07-finding-orf-etc
Biotech 2011-07-finding-orf-etcBiotech 2011-07-finding-orf-etc
Biotech 2011-07-finding-orf-etc
 

Биологические базы данных #1

  • 1. Биоинформатика. Базы данных Порозов Юрий. porozov@sns.it porozov@ifc.cnr.it
  • 2.
  • 3.
  • 4.
  • 5. Bioinformatics - A New Discipline Взято из : D. Gilberts & C. Tan, 2002 http://www.brc.dcs.gla.ac.uk/~drg/courses/bioinformatics_city/slides/slides1/sld018.htm Large scale analysis and interpretation of genomics data. Computing Math& Stats Life sciences Physical sciences
  • 6.
  • 7. Goal: Enable the discovery of new biological insights and create a global perspective for life sciences. Data produced by bio-labs and stored in database. Better biological and medical understanding. Bio-Informatics Algorithms and Tools Это вычислительные методы для глобального понимания биологических данных . Что такое биоинформатика ?
  • 8. Биоинформатика Structural Genomics Pharmaco-Genomics Functional Genomics Proteomics Genomics Bioinformatics
  • 9.
  • 10.
  • 11.
  • 13. ДНК O O=P-O O Фосфатная группа N Азотистое основание (A, G, C, or T) CH2 O C 1 C 4 C 3 C 2 5 Сахар (дезоксирибоза)
  • 14. ДНК ДНК состоит из двух цепей нуклеотидов, соединённых попарно : ADENINE – THYMINE CYTOSINE - GUANINE Правило комплементарности
  • 15. Двойная спираль P P P O O O 1 2 3 4 5 5 3 3 5 P P P O O O 1 2 3 4 5 5 3 5 3 G C T A
  • 16.
  • 17. Биополимеры - ДНК J. Watson и F. Crick. Фото из архива Photo Researchers inc.
  • 18. ДНК, дальнейшая упаковка.
  • 19. ДНК Функции ДНК — наследственность и изменчивость.
  • 21.
  • 23.
  • 24.
  • 27. Сплайсинг и восстановление последовательности mRNA mRNA seq=(AF018429.1:282-561)+(AF018429.1:1034-1172)+(AF018430.1:560-651)+(AF018430.1:1-45)+………
  • 28. GenBank. Запись genomic DNA
  • 30.
  • 31.
  • 32.
  • 33. HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 0.50 CRYST1 51.003 62.430 70.931 90.00 90.00 90.00 P 21 21 21 4 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 0.019607 0.000000 0.000000 0.00000 SCALE2 0.000000 0.016018 0.000000 0.00000 SCALE3 0.000000 0.000000 0.014098 0.00000 ATOM 1 N SER A 2 28.277 8.150 50.951 1.00 57.00 N ATOM 2 CA SER A 2 27.454 9.223 51.584 1.00 55.40 C ATOM 3 C SER A 2 25.972 8.992 51.295 1.00 55.44 C ATOM 4 O SER A 2 25.576 7.932 50.799 1.00 54.37 O ATOM 5 CB SER A 2 27.883 10.601 51.046 1.00 70.82 C ATOM 6 OG SER A 2 27.150 11.676 51.622 1.00 71.45 O ATOM 7 N LYS A 3 25.157 9.993 51.619 1.00141.28 N ATOM 8 CA LYS A 3 23.716 9.932 51.398 1.00140.16 C -----------------------------------//---------------------------------------------------------------- ATOM 47 CA PHE A 8 26.551 11.090 41.294 1.00 19.27 C ATOM 48 C PHE A 8 27.751 10.357 40.676 1.00 21.43 C ATOM 49 O PHE A 8 28.562 10.924 39.938 1.00 21.44 O ATOM 50 CB PHE A 8 27.022 12.362 41.991 1.00 21.68 C ATOM 51 CG PHE A 8 25.909 13.297 42.288 1.00 17.60 C ATOM 52 CD1 PHE A 8 25.488 14.212 41.321 1.00 14.95 C ATOM 495 CA VAL A 68 23.860 22.610 40.452 1.00 14.12 C ATOM 496 C VAL A 68 25.259 22.196 40.854 1.00 13.41 C ATOM 1164 CA SER A 147 37.123 31.083 35.325 1.00 21.88 C ATOM 1819 CD1 ILE A 229 38.888 21.450 53.055 1.00 29.11 C ATOM 1820 OXT ILE A 229 43.220 19.637 50.148 1.00 25.25 O TER 1821 ILE A 229 HETATM 1822 O HOH 1 30.450 20.682 37.367 1.00 15.75 O HETATM 1823 O HOH 2 26.443 24.175 38.999 1.00 18.82 O ---------------------------------//------------------------------------------------ HETATM 1831 O HOH 10 29.132 18.648 45.101 1.00 13.77 O HETATM 1832 O HOH 11 24.076 46.248 42.794 1.00 22.62 O HETATM 1833 O HOH 12 31.870 32.426 52.146 1.00 36.77 O HETATM 1880 O HOH 59 37.243 14.571 53.463 1.00 31.12 O HETATM 1881 O HOH 60 40.360 20.483 56.144 1.00 32.74 O HETATM 1882 O HOH 61 13.483 49.374 33.179 1.00 30.77 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.  
  • 39.  
  • 40. Источники информации и базы данных в Интернете
  • 41.
  • 42.
  • 43.
  • 44.
  • 45. NCBI ( National center for biotechnology information ) NCBI PubMed Books OMIM Nucleotides Proteins Genomes Taxonomy Structure Domains Exp’ profiles
  • 46.
  • 47.
  • 48.
  • 49.
  • 51.
  • 52.
  • 53.
  • 54.
  • 55. Поиск белка в Swiss-Prot ( по названию)
  • 59. Сохранить в FASTA формате
  • 60. Стандартная запись Swiss-Prot
  • 61. Стандартные поля : entry, name, origin Название записи, уникальный идентификатор ( ID) , предыдущие идентификаторы соответствующей записи, даты первой и последней модификаций, распространенное название белка и его синонимы ( EC номер для ферментов), название гена, организм и его таксономия, уровень подтверждения
  • 64. Ссылки на статьи, использованные для аннотации
  • 70. 3 D-Structure (список структур)
  • 72. GO terms Определение термина, синонимы, родительские ( Hierarchy) и дочерние термины , ключевые слова, дата последней модификации
  • 73. Cross-References , Keywords
  • 74. KEGG Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/
  • 75. KEGG ( pathway viewer)
  • 80. Координаты в Feature table
  • 81. Feature table, продолжение
  • 82. Feature Table, продолжение Только экспериментальные
  • 83. Feature Table viewer (Sequence Element viewer)
  • 84. Feature aligner Можно построить множественное выравнивание подмножества этих элементов ( ClustalW) или скопировать их в FASTA формате
  • 87. FASTA format Программа FASTA (1988, WR Pearson & DJ Lipman): >(the definition line) _уникальный_ ID + короткое описание ПОСЛЕДОВАТЕЛЬНОСТЬ БЕЛКА (ИЛИ ДНК) В ОДНОБУКВЕННОМ КОДЕ RAW format – без definition line
  • 89. Базы данных На 22.02.2011 PDB   Exp.Method   Proteins   Nucleic Acids   Protein/NA Complexes   Other   Total
  • 91.
  • 92.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97. NCBI ( National center for biotechnology information ) NCBI PubMed Books OMIM Nucleotides Proteins Genomes Taxonomy Structure Domains Exp’ profiles
  • 98.
  • 99.
  • 100.
  • 101.
  • 103.
  • 104.
  • 105.
  • 106.
  • 107.
  • 108.
  • 109.
  • 110.
  • 111.
  • 112.
  • 113.
  • 114.
  • 115. ProtParam - предсказание физико-химических параметров белка
  • 116.
  • 121. PeptideCutter - output
  • 122. PeptideCutter - output
  • 123.
  • 124. Предсказание трансмембранных сегментов : ProtScale 56 аминокислотных шкал (с литературными ссылками), скользящее окно - > выбор ширины окна
  • 126. Более сложное предсказание трансмембранных сегментов : TMHMM Transmembrane beta barrel prediction: PROFtmb (http://rostlab.org/services/proftmb ) ; PRED-TMBB ( http://biophysics.biol.uoa.gr/PRED-TMBB/ ) ; TBBPred ( http://www.imtech.res.in/raghava/tbbpred )
  • 127. TMHMM - результаты TMHMM предсказывает сегменты, а также топологию межсегментных участков Наход ит только 7! TMs
  • 128.
  • 129.
  • 130.
  • 132.
  • 133.
  • 135. InterProScan - результаты
  • 137. CD server Input - Accession number , gi или последовательность в FASTA формате
  • 138. CD server – output Красный – SMART, синий – Pfam, зеленый – COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена
  • 139. CDART – поиск белков с аналогичной доменной структурой
  • 140. Pfscan Как правило, работает несколько минут
  • 141.
  • 142.
  • 143.
  • 144. Superfamily : Probable common evolutionary origin Белки, имеющие низкую идентичность последовательностей, но чьи структурные и функциональные особенности позволяют предположить наличие общего предка, могут быть объединены в суперсемейства . Например, актин , the ATPase domain белков теплового шока и гексакиназы образуют суперсемейство Fold : Major structural similarity Общий фолд – одинаковая организация вторичной струкруры, с похожим пространственным расположением и с похожими соединениями . Белки с одинаковым фолдом зачастую имеют концевые элементы вторичной структуры , изгибы и повороты различных разметов и конформаций (до половины всей структуры) . Белки, объединённые одним фолдом, могут не иметь общего предка (химия, физика  упаковка и топология) SCOP
  • 145. SCOP Family : Clear evolutionarily relationship Белки, сгруппированные в семейство, тесно связаны эволюционно. Это значит, что парное выравнивание показывает 30 % и выше . Иногда похожие функция и структура показывают наличие общего предка и при отсутствии высокой идентичности последовательностей ; например , многие глобины образуют семейство, хотя некоторые из них имеют идентичность 1 D ~ 15%.
  • 146. Archetype Structures of Domains
  • 148. SCOP
  • 149.
  • 150.
  • 151.
  • 152.
  • 153.
  • 154.
  • 155. DALI    anti parallel  barrel  meander More information about DALI Touring protein fold space with Dali/FSSP: Liisa Holm and Chris Sander Comparing protein structures in 3D
  • 156.
  • 157.
  • 158. DALI • Базируется на выравненных 2D матрицах внутримолекулярных дистанций • Считает лучший subset соответствующих аминокислот в двух белках – максимальная похожесть 2D матриц дистанций • Поиск по всем возможным выравниваниям остатков – Monte-Carlo и branch-and-bound algorithms An intra-molecular distance plot for myoglobin
  • 159.
  • 160.
  • 161. PClass Database Инструмент для классификации, базирующийся на иерархии 600 белков-представителей из PDB. Структурное выравнивание 600 структур было выполнено при помощи алгоритма 3dSearch.
  • 162.
  • 163.
  • 164.
  • 165.
  • 166.
  • 167.
  • 168.
  • 169. WHAT_CHECK Criteria Peptide-Pl: RMS distance of the backbone oxygen from the oxygen in similar backbone conformations found in the database, distances in the range [3..1] are mapped to [0..9] Rotamer: Probability that the sidechain rotamer (chi-1 only) is correct, probabilities in the range [0.1 .. 0.9] are mapped to [0..9] Chi-1/Chi-2: Z-score for the sidechain chi-1/chi-2 combination, Z-scores in the range probabilities in the range [-4..+4] are mapped to [0..9] Bumps: Sum of bumps per residue, distances in the range [0.1 .. 0] are mapped to [0..9]. Packing 1: First packing quality Z-score, Z-scores in the range [-5..+5] are mapped to [0..9]. Packing 2: Second packing quality Z-score, Z-scores in the range [-3..+3] are mapped to [0..9]. In/Out: Absolute inside/outside distribution Z-score per residue, Z-scores in the range [4..2] are mapped to [0..9]. H-Bonds: 9 minus number of unsatisfied hydrogen bonds, 2 is subtracted for buried backbone nitrogen, 5 for buried sidechain. Flips: Indicates flipped Asn/Gln/His sidechain, 9=OK, 0=needs flipping.
  • 170. WHAT_CHECK Criteria Access: Relative side chain accessibility, 0=buried, 9=exposed. Quality: Several quality estimators from the PDBREPORTs.0=is oh no, 9=perfect. B-Factors: Crystallographic B-factors, the range [10..60] is mapped to [9..0] Bonds: Absolute Z-score of the largest bond deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9]. Angles: Absolute Z-score of the largest angle deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9]. Torsions: Average Z-score of the torsion angles per residue, Z-Scores in the range [-3..+3] are mapped to [0..9]. Phi/Psi: Ramachandran Z-score per residue, Z-Scores in the range [-4..+4] are mapped to [0..9]. Planarity: Z-score for the planarity of the residue sidechain, Z-Scores in the range [6..2] are mapped to [0..9]. Chirality: Average absolute Z-score of the chirality deviations per residue, average absolute Z-Scores in the range [4..2] are mapped to [0..9]. Backbone: Number of similar backbone conformations found in the database, numbers in the range [0..10] are mapped to [0..9]
  • 171.
  • 173.
  • 174.
  • 175.
  • 176.
  • 177.
  • 179. Для чего визуализация? ALLSFERKYRVRGGTLIGGDLFDFWVGPYFVGFFGVSAIFFIFLGVSLIGYAASQGPTWDPFAISINPPDLKYGLAAPLLEGGFWQAITVCALGAFISWMLREVEISRKLGIGWHVPLAFCVPIFMFCVLQVFRPLLLGSWGHAFPYGILSHLDWVNNFGYQYLNWHYNPGHMSSVSFLFVNAMALGLHGGLILSVANPGDGDKVKTAEHENQYFRDVVGYSIGALSIHRLGLFLASNIFLTGAFGTIASGPFWTRGWPEWWGWWLDIPFWS
  • 180. An Introduction to Protein Architecture By A. M. Lesk
  • 181.
  • 182. RasMol
  • 183. RasTop
  • 184.
  • 185.
  • 188. ExPASy
  • 189.
  • 190.
  • 191. RasMol – Главное меню
  • 192. RasMol - Дисплей
  • 193. RasMol - Цвет
  • 194. RasMol – Опции  Сечение
  • 195. RasMol – Опции  Атомы H
  • 196. RasMol – Опции  Зеркальная поверхность
  • 197. RasMol – Опции  Тени
  • 198. RasMol – Опции  Стерео
  • 199. RasMol – Опции  Метки
  • 200. RasMol - Экспорт
  • 202. RasMol Manual RasMol 2.6 Manual http://www.umass.edu/microbio/rasmol/getras.htm#rasmanual RasMol 2.7 Manual http://www.rasmol.org/
  • 203.
  • 204. Swiss-PDBViewer Домашняя страница : http://ca.expasy.org/spdbv/ Руководство пользователя http://ca.expasy.org/spdbv/text/tutorial.htm.

Notas del editor

  1. Устно
  2. The classes are based on Levitt, M. &amp; Chothia, C 1.Family: Clear evolutionarily relationship. Proteins clustered together into families are clearly evolutionarily related. Generally, this means that pairwise residue identities between the proteins are 30% and greater. However, in some cases similar functions and structures provide definitive evidence of common descent in the absense of high sequence identity; for example, many globins form a family though some members have sequence identities of only 15%. 2.Superfamily: Probable common evolutionary origin. Proteins that have low sequence identities, but whose structural and functional features suggest that a common evolutionary origin is probable are placed together in superfamilies. For example, actin, the ATPase domain of the heat shock protein, and hexakinase together form a superfamily. 3.Fold: Major structural similarity. Proteins are defined as having a common fold if they have the same major secondary structures in the same arrangement and with the same topological connections. Different proteins with the same fold often have peripheral elements of secondary structure and turn regions that differ in size and conformation. In some cases, these differing peripheral regions may comprise half the structure. Proteins placed together in the same fold category may not have a common evolutionary origin: the structural similarities could arise just from the physics and chemistry of proteins favoring certain packing arrangements and chain topologies.
  3. Устное.
  4. Domain – A poly peptide chain or fragment (100-200 aa) which fold into stable tertiary structure.
  5. Pfam is a database of two parts, the first is the curated part of Pfam containing over 3,700 protein families. To give Pfam a more comprehensive coverage of known proteins we automatically generate a supplement called Pfam-B. This contains a large number of small families taken from the PRODOM database that do not overlap with Pfam-A. Although of lower quality Pfam-B families can be useful when no Pfam-A families are found.
  6. HOMSTRAD (HOMologous STRucture Alignment Database) provides aligned three-dimensional structures of homologous proteins. The word homology is only used to mean having a common evolutionary origin, but we practically define homologous families as a group of proteins with sufficiently high sequence identities. We combine the classifications proposed by various databases including SCOP , Pfam , PROSITE and SMART and the results from sequence similarity searches by PSI-BLAST and FUGUE and make our own decisions to define the families. Our focus is to collect reasonable sets of protein sequences, where functionally and structurally important residues can be correctly aligned and highlighted. For example, even if a highly conserved local sequence motif is shared by a diverse group of proteins, it is sometimes difficult to align all the sequences on the basis of their structures. In such a case, we split the group into several smaller ones and call them families. On the other hand, some families defined in HOMSTRAD include protein pairs with fairly low overall sequence similarity but they still present convincing structure-based alignments. The central element of HOMSTRAD is a collection of carefully examined structure-based alignments organised at the level of homologous families. This requires substantial manual editing and is complementary to fully automated structure comparisons such as FSSP. One unique feature of HOMSTRAD is to display the alignments in a specially devised annotated form to help understand the conservation of various structural features. The analysis and annotation is carried out by the program JOY. See the software section for further details of this format. The combination of HOMSTRAD and JOY proved to be particularly useful in achieving accurate alignments for comparative modelling (Burk et al., 1999). This facility, again, contrasts some other database resources such as SCOP (Murzin et al., 1995) and CATH (Orengo et al., 1997), which provide a hierarchical classification of protein structures.
  7. Устное объяснение
  8. Устное объяснение
  9. toms with non-zero accessible surface area could not be handled, because they are not completely surrounded by other atoms, and their Voronoi volume can therefore not be defined. A negative Z-score means that the atom has a smaller than average volume, whereas a positive score indicates that an atom has a larger than average volume.
  10. Цитохром Rhodopseudomonas viridis. Note the symmetry of LM = 60% identity
  11. 1wqa, 1tx4, 1grn, 1tad and 1gfi. -&gt; only 1tx4, 1grn, 1tad Note that some amino acids may appear in yellow once a molecule has been loaded. It signifies that their sidechain has been reconstructed during the loading process because some atoms were lacking. When all sidechain atoms are lacking, a rotamer library is searched until the rotamer that generate a maximum of H-bonds and a minimum of steric hindrances is found. If only some sidechain atoms are lacking, the rotamer that gives the lowest RMS when fitted to the partial sidechain is taken. In any case, you may try to find a better sidechain manually with the mutation tool. If you want to act on a complete column , simply hold down the shift key while clicking in a column Note: if a little earth icon is shown below the first tool, the rotation takes place in absolute coordinates. Otherwise (little protein icon) molecules are rotated around their centrotid. Hence the first option allows you to rotate the molecule around any atom, providing that this atom has previously been centered (translated to the (0,0,0) coordinate). Note: if &amp;quot;caps lock&amp;quot; is down, you can measure several distances or angles successively. To exit the &amp;quot;repeated&amp;quot; measurement mode, you can either depress &amp;quot;caps lock&amp;quot; or hit &amp;quot;esc&amp;quot;.