1. Bioinformática Genómica & Proteómica Parte II
Secuencia 1:
1 caaaaattcc caatttgttt tttcaaacaa acttgctcag atcctcttct tcttagggat
61 caatcttcaa atcaattgtt gttaaaataa atgggattaa agcgacctta tgatgctgaa
121 gagatgcaaa agtgcaatgc taagcatgca agacagctta gttacaaaaa ccataaccaa
181 tttgacgaag ctattccata tcatcatgct tctatggaga agaagacaaa tgttttagag
241 gatctgattg gtctctgtga gaatcctacg tggactaatg atgcaaatca cgttgacaag
301 ggttttgaaa caaccggttt gtgtcaggaa gattctcagt ctggagtgac gactcagtca
361 gatctttctc atcaatcttc tggttcagat ttcacctgga agccagtgga agatgtttat
421 acttgtttga tgaatcaacc tcctaggaaa caagttcttg ttgggtctaa tcatcaagcg
481 gatattcccg agtttgtcaa ggaagagatt cttgatcagt cagaggctcg aactaaggag
541 gacttagaag ggaagctgat gagaaagtgt gtgataccaa tgtctgactc tgacctttgt
601 ggaaccggtc aaggaagaaa ggaatgtctt tgcctagata aaggctctat tagatgtgtg
661 cggcgacata tcattgaagc cagagagagt ttggttgaaa ctattggata tgaaaggttt
721 atggagctag ggttatgtga gatgggggag gaagttgcga gtttatggac agaggaagaa
781 gaagatctct ttcacaaggt tgtatactcc aatcctttct cagcgggtcg tgacttctgg
841 aagcaattaa agggaacgtt tccttcaaga accatgaagg agttggttag ctactacttc
901 aatgtcttca tcttgcggag acggggtatt cagaatcggt tcaaagccct agatgttaac
961 agtgatgatg acgagtggca agttgaatac aacattttta acagcaccaa atctttagat
1021 gaggaaaaca acaatggaaa tcgctcctca tatgaagata acgaggaaga agaagaaacc
1081 agcagcaatg atgatgatga agaagaagaa gaggaagacg actcatcaag taacgatgct
1141 cattgtgtag atacggataa ggcttcaaga gacggttttg gtgaagaagt aaatgtggaa
1201 gacgactcat gtatgtcctt cgagttacaa gactccaact tgatcttcag tcacaaccca
1261 atcaaaaaca gagagtgcca cagatctggt gaagattcat attcatttga tgatcagaaa
1321 ttcacatcag attgttggaa caagaacaac gatctactac caacttcaaa cattattgag
1381 gagatatttg gtcaagacga ttggggagat aaagatgata ataacttgaa ggagaagtaa
1441 ataaaaagtt ttcttctctt ctttcatgga ttctgcagat tttttttttc ttaagtgaat
1501 tagataaaga tgcagaagtt tgaaagtttc atctttagga gttttgtgtt ggttaaggtt
1561 gaagaagaaa ggacttcctg attgatttga ctctgtaaaa aatgctattc aaatccatga
1621 accttttttt ctctagttgt tttagtcctc aagatctcaa tgtacattat tatggtataa
1681 aa
Esta es una secuencia completa del clon GSLTFB20ZB03 (cDNA) de flores y brotes de
la sepa col-0 de Arabidopsis Thaliana. La localización especifica del gen en el
cromosoma es en el mRNA linear BX818861. El numero que la identifica a nivel
taxonómico es el 3702.
Referencia:
http://www.ncbi.nlm.nih.gov/sites/entrez?cmd=Retrieve&db=nucleotide&dopt=GenBank&RID=YNY1MATM012&log
%24=nucltop&blast_rank=1&list_uids=42475916
Secuencia 2:
MKVYFESYGCTLNKRDTLYMQAQIENTTNNLEEADVVVINSCIV
KQPTETKILYRINQLKKMGKKIVLTGCMVSEPYLKYKELQDISLVNIYNQDRIKEAIE
RTYKGERVLFLEKKKIYKEFARPLSKARAIIQIQEGCLWRCTYCGTKLARSMFYSYPP
KLIKREIEEKLKQGIKIFYLTGPDTATYGKDINYSLADLLKDLIEIEGDFYIRVGMAN
PTFFLEQIDELIDVFKSNKIFKFFHLPVQSGSNKVLKDMNRPYTIEEYKELIYKLRKH
FPLATYVTDIIVGYPTETEEDFEQTLELVREIKFDGINISRFWRRPGTIAWNLKQLDP
EIVTNRVKRLKEVFLQGAYERNKLWLNWEGEAIIEEKGKNNTWIAKNEMYKQIIVKGN
YEEGQKIKVKIKKARAIDLIA
MERDLNVTDLELVEKVKSGDRRSFSELVKRHQRSVLRMSLRFVK
DMDTAEDVTQEAFIKAYEKLNTFEGRSSFKSWLFQIAVNTARNKLREWKRDTVDIDDV
QLAVDAEAETTLVHTAVSDILKNEVEKLPFKQKTALVLRVYEDLSFNEIADIMECPYD
TAKANYRHALMKLRQTFEQQAELKNWTEEVGGFFLEVNQRFAEAEG
Esta contiene secuencias de dos diferentes proteínas. La primera parte contiene
información de una proteína hipotética llamada NEQ008. Esta proteína es obtenida del
organismo Nanoarchaeum equitans que es una arquea. Según la información solo hay
una referencia para esta proteína. La proteína no está muy bien identificada pero según
los estudios es parecida a 2-metiltioadenina sintetasa.
2. Referencia:
http://www.ncbi.nlm.nih.gov/sites/entrez?cmd=Retrieve&db=protein&dopt=GenPept&RID=YPH1XSW7014&log
%24=prottop&blast_rank=1&list_uids=41614804
La segunda secuencia de proteína es para la proteína RNA polimerasa factor Sigma-E.
Esta se encuentra en la bacteria Bdellovibrio bacteriovorus HD100. Según la
información esta es una subunidad especializada de la RNA polimerasa.
Referencia:
http://www.ncbi.nlm.nih.gov/sites/entrez?cmd=Retrieve&db=protein&dopt=GenPept&RID=YPH5EXZN012&log
%24=prottop&blast_rank=1&list_uids=42522327
Secuencia 3
Numero de acceso: NC_005014
Este numero de acceso es para el genoma del plásmido R64 de la bacteria
Salmonella typhimurium. Este gen tiene 120826 bp y es DNA circular. Es un
plásmido involucrado en conjugación. Es un plásmido muy estudiado y se ha
utilizado para transformar bacterias de otras especies.
Referencia:
http://www.ncbi.nlm.nih.gov/nuccore/32470134
Numero de acceso: BX842648
Este numero de acceso es para el genoma entero de la bacteria Bdellovibrio
bacteriovorus tipo HD100. En la pagina ensena todos los diferentes genes
codificadores para proteínas que aparecen en este genoma entero.
Referencia:
http://www.ncbi.nlm.nih.gov/nuccore/41584206
Secuencia 4:
1 gatgaacgct ggcggcgtgc ttaacacatg caagtcgaac gatgatccca gcttgctggg
61 ggattagtgg cgaacgggtg agtaacacgt gagtaacctg cccttaactc tgggataagc
121 ctgggaaact gggtctaata ccggatatga ctcctcatcg catggtgggg ggtggaaagc
181 tttattgtgg ttttggatgg actcgcggcc tatcagcttg ttggtgaggt aatggctcac
241 caaggcgacg acgggtagcc ggcctgagag ggtgaccggc cacactggga ctgagacacg
301 gcccagactc ctacgggagg cagcagtggg gaatattgca caatgggcga aagcctgatg
361 cagcgacgcc gcgtgaggga tgacggcctt cgggttgtaa acctctttca gtagggaaga
421 agcgaaagtg acggtacctg cagaagaagc gccggctaac tacgtgccag cagccgcggt
481 aatacgtagg gcgcaagcgt tatccggaat tattgggcgt aaagagctcg taggcggttt
541 gtcgcgtctg ccgtgaaagt ccggggctca actccggatc tgcggtgggt acgggcagac
601 tagagtgatg taggggagac tggaattcct ggtgtagcgg tgaaatgcgc agatatcagg
661 aggaacaccg atggcgaagg caggtctctg ggcattaact gacgctgagg agcgaaagca
721 tggggagcga acaggattag ataccctggt agtccatgcc gtaaacgttg ggcactaggt
781 gtgggggaca ttccacgttt tccgcgccgt agctaacgca ttaagtgccc cgcctgggga
841 gtacggccgc aaggctaaaa ctcaaaggaa ttgacggggg cccgcacaag cggcggagca
901 tgcggattaa ttcgatgcaa cgcgaagaac cttaccaagg cttgacatga accggtaata
961 cctggaaaac aggtgccccg cttgcggtcg gtttacaggt ggtgcatggt tgtcgtcagc
1021 tcgtgtcgtg agatgttggg ttaagtcccg caacgagcgc aaccctcgtt ctatgttgcc
1081 agcgcgtgat ggcggggact cataggagac tgccggggtc aactcggagg aaggtgggga
1141 cgacgtcaaa tcatcatgcc ccttatgtct tgggcttcac gcatgctaca atggccggta
1201 caaagggttg cgatactgtg aggtggagct aatcccaaaa agccggtctc agttcggatt
1261 ggggtctgca actcgacccc atgaagtcgg agtcgctagt aatcgcagat cagcaacgct
1321 gcggtgaata cgttcccggg ccttgtacac accgcccgtc aagtcacgaa agttggtaac
3. 1381 acccgaagcc ggtggcctaa ccccttgtgg gagggagctg tcgaaggtgg gactggcgat
1441 tgggactaag tcgtaacaag gta
Se obtiene como resultado una bacteria, mediante la secuenciación parcial del gen 16S
rRNA de dicha bacteria. Su nombre científico es , Arthrobacter sp. An5, la cual es una
actino bacteria. El numero que la identifica a nivel taxonómico es el 23050. Tambien
podemos observar que la bacteria ha sido estudiada ya que en resultado aparecen los
nombres y autores de dichas investigaciones.
Referencia:
http://www.ncbi.nlm.nih.gov/sites/entrez?cmd=Retrieve&db=nucleotide&dopt=GenBank&RID=YNY33ZBY014&log
%24=nucltop&blast_rank=1&list_uids=42475865#sequence_42475865
Secuencia 5:
1 aattcgatgc aacgcgaaga accttacctg ggtttgacat gcacaggacg ccggcagaga
61 tgtcggttcc cttgtggcct gtgtgcaggt ggtgcatggc tgtcgtcagc tcgtgtcgtg
121 agatgttggg ttaagtcccg caacgagcgc aacccttgtc ctatgttgcc agcgggttat
181 gccggggact cgtaggagac tgccggggtc aactcggagg aaggtgggga tgacgtcaag
241 tcatcatgcc ccttatgtcc agggcttcac acatgctaca atggccggta caaagggctg
301 cgatgccgtg aggtggagcg aatcctttca aagccggtct cagttcggat cggggtctgc
361 aactcgaccc cgtgaagtcg gagtcgctag taatcgcaga tcagcaacgc tgcggtgaat
421 acgttcccgg gccttgtaca caccgcccgt cacgtcatga aagtcggtaa cacccgaagc
481 cggtggccta acccttgtgg agggagccgt cgaaggtggg atcggcgatt gg
Secuencia del gen 16S rRNA para la Micobacterium mucogenicum. Bacteria Gram +
que ocasionalmente puede causar infecciones en los humanos. Tiene localización
especifica en el DNA linear AM884316. El numero que identifica a esta bacteria a nivel
taxonómico 56689.
Referencia:
http://www.ncbi.nlm.nih.gov/nuccore/157390571?from=1&to=1469&report=gbwithparts
Secuencia 6:
MSRPRLIVALFLFFNVFVHGENKVKQSTIALALLPLLFTPVTKA
RTPEMPVLENRAAQGDITAPGGARRLTADQTAALRDSLSDKPAKNIILLIGDGMGDSE
ITAARNYAEGAGGFFKGIDALPLTGQYTHYALNKKTGKPDYVTDSAASATAWSTGVKT
YNGALGVDIHEKDHPTILEMAKAAGLATGNVSTAELQDATPAALVAHVTSRKCYGPSA
TSEKCPGNALEKGGKGSITEQLLNARADVTLGGGAKTFAETATAGEWQGKTLREQAQA
RGYQLVSDAASLNSVTEANQQKPLLGLFADGNMPVRWLGPKATYHGNIDKPAVTCTPN
PQRNDSVPTLAQMTDKAIELLSKNEKGFFLQVEGASIDKQDHAANPCGQIGETVDLDE
AVQRALEFAKKDGNTLVIVTADHAHASQIVAPDTKAPGLTQALNTKDGAVMVMSYGNS
EEDSQEHTGSQLRIAAYGPHAANVVGLTDQTDLFYTMKAALGLK
Esta secuencia de proteína es para la proteína fosfatasa alcalina encontrada en la
bacteria Escherichia coli tipo O157:H7. Tambien se encuentra en alginos tipos de
Shigella sp.
Referencia:
http://www.ncbi.nlm.nih.gov/sites/entrez?cmd=Retrieve&db=protein&dopt=GenPept&RID=YPHDNZWA012&log
%24=prottop&blast_rank=1&list_uids=15800109
El modelo preferido para la orientación de la proteína en la membrana con el terminal N
dentro del citoplasma, cuenta con dos hélices transmebranales. Del amino acido 1-20
son los que están orientados de adentro hacia afuera, del amino acido 26-42 son los
que tienen la orientación de afuera hacia dentro. Según el programa este es el nivel
topográfico con la mayor posibilidad de ser cierto.
4. Referencia:
http://www.ch.embnet.org/cgi-bin/TMPRED_form_parser
Secuencia 7:
MRLAALLLAALLATPAFAVQPDEILPDPALEARARDISQGLRCL
VCRNENIDDSNAQLARDLRLLVRERLAAGDSDAEVVEFVVDRYGEYVLLNPTTGGANL
ILWIAGPAMLAGGLGLAALYLRRRRTAPDAASAALSDEEQARLPEILKD
Esta secuencia que contiene 151 amino ácidos es de la proteína de maduración CcmH
de la bacteria Rhodobacter sphaeroides. El CcmH es corto para Cytochrome C
biogenesis protein. Da la casualidad que las referencias que aparecen de esta
secuencia son investigación del profesor Carlos Rios Velazquez.
Referencia:
http://www.ncbi.nlm.nih.gov/sites/entrez?cmd=Retrieve&db=protein&dopt=GenPept&RID=YPHH9BPF01N&log
%24=prottop&blast_rank=1&list_uids=12830827
El modelo preferido para la orientación de la proteína en la membrana con el terminal
N dentro del citoplasma, cuenta con dos hélices transmebranales.Del amino acido 1-19
son los que están orientados de adentro hacia afuera, del amino acido 103-123 son los
que tienen la orientación de afuera hacia dentro. Según el programa este es el nivel
topográfico con la mayor posibilidad de ser cierto.
Referencia:
http://www.ch.embnet.org/cgi-bin/TMPRED_form_parser
Secuencia 8:
YVEPPPAAFIGIDELGKWSFYRALIAEFIATLLFLYITVLTVIG YKSQSATDPCGGVGILGIAWAFGGMIFVLVYCTAGISGGHINPAVT
Esta secuencia de 90 amino ácidos es de la proteína acuaporina parecida a la PIP3 de
la plante Apium graveolens conocida como celeri.
Referencia:
http://www.ncbi.nlm.nih.gov/sites/entrez?cmd=Retrieve&db=protein&dopt=GenPept&RID=YPHPHYZD014&log
%24=prottop&blast_rank=1&list_uids=15082000
El modelo preferido para la orientación de la proteína en la membrana con el terminal N
dentro del citoplasma, cuenta con dos hélices transmebranales. Del amino acido 23-45
son los que están orientados de adentro hacia afuera, del amino acido 56-74 son los
que tienen la orientación de afuera hacia dentro. Según el programa este es el nivel
topográfico con la mayor posibilidad de ser cierto.
Referencia:
http://www.ch.embnet.org/cgi-bin/TMPRED_form_parser