1. UNIVERSIDAD NACIONAL DE MOQUEGUA
ESCUELO PROFESIONAL DE INGENIERIA
AMBIENTAL
TEMA: ANALISIS DE SECUENCIAS DE ADN Y USO
DEL BANCO DE GENES BLASTN
DOCENTE: HERBERT HERNAN SOTO GONZALES
CURSO: BIOTECNOLOGIA
ALUMNOS:
ANGELA MATIHEL SANCHEZ JAVIER
FABRICCIO PANTA AURIS
CICLO: VII
2. TABLA DE CONTENIDO
1.INTRODUCCIÓN .....................................................................................................................2
2.OBJETIVOS .............................................................................................................................2
2.1. OBJETIVO GENERAL..................................................................................................2
2.2. OBJETIVOS ESPECIFICOS..........................................................................................2
3.MATERIALES ..........................................................................................................................2
4.METODOLOGIA......................................................................................................................3
5.CUESTIONARIO ......................................................................................................................4
6.RESULTADOS........................................................................................................................10
7.DISCUSIÓN DE RESULTADOS ................................................................................................14
8.CONCLUSIONES....................................................................................................................14
9.BIBLIOGRAFÍA ......................................................................................................................15
3. ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE GENES
BLASTN
1.INTRODUCCIÓN
El ADN es el material que contiene la información hereditaria en los humanos y casi
todos los demás organismos. Casi todas las células del cuerpo de una persona tienen el
mismo ADN. La mayor parte del ADN se encuentra en el núcleo celular (o ADN nuclear),
pero también se puede encontrar una pequeña cantidad de ADN en las mitocondrias
(ADN mitocondrial o ADNmt). Las mitocondrias son estructuras dentro de las células
que convierten la energía de los alimentos para que las células la puedan utilizar.
La secuenciación del ADN es un método de laboratorio utilizado para determinar el orden
de las bases dentro del ADN. Las diferencias en la secuencia de los 3 mil millones de
pares de bases del genoma humano conducen a la composición genética única de cada
persona. En medicina, la secuenciación de ADN se usa para diversos propósitos, incluido
el diagnóstico y el tratamiento de enfermedades. En general, la secuenciación permite a
los profesionales de la salud determinar si un gen o la región que regula un gen contiene
cambios, llamados variantes o mutaciones, que están vinculados a un trastorno.
La familia de programas BLAST es la más utilizada para buscar secuencias similares en
una base de datos dada una secuencia problema.
2.OBJETIVOS
2.1. OBJETIVO GENERAL
Analizar secuencias de ADN utilizando el banco de genes Blastn.
2.2. OBJETIVOS ESPECIFICOS
Identificar 15 secuencias de ADN al azar.
Utilizar el Banco de genes para una identificación más rápida.
3.MATERIALES
Laptop
Bioedit
4. 4.METODOLOGIA
Para comenzar se descargaron los archivos que contenían las estructuras del ADN, luego se abrió
utilizando el programa Bioedit y se trabajó con la opción “Open sequence set” y de ese modo se
abre la secuencia de ADN en el programa.
Imagen 1: Secuencia de ADN en Bioedit
Ahora te vas a la opcion File, seleccionas la opcion “Export as Fasta” y se guarda la
secuencia en el bloc de notas.
Imagen 2: Secuencia de ADN en el block de notas
Una vez que se tiene la secuencia de ADN en el block de notas se copia y se pega en la
pagina del NCBI.
5. Imagen 3: Pagina del NCBI
Luego de eso configuras algunas opciones, le das a la opcion “explosion”, se abrira una
nueva pestana donde saldran los resultados de la busqueda.
Imagen 4: Resultados de la búsqueda
Tanto el nombre como los demas datos de la secuencia de ADN se colocan de manera
ordenada en el cuadro de excel y se analiza si la secuncia es mala,regular o buena.
5.CUESTIONARIO
5.1. ¿Qué es el blasth y como nos ayuda en la práctica?
BLAST es el acrónimo de Basic Local Alignment Search Tool. Fué desarrollado por
Altschul en 1990 y es el algoritmo más empleado por el NCBI. La principal
característica del BLAST es su velocidad, pudiendo tomar pocos minutos cualquier
búsqueda en la totalidad de la base de datos. De hecho, los resultados se presentan en
pantalla inmediatamente después de calculados. El BLAST puede hacer búsquedas en
6. una base de datos no redundante (nr) la cual tiene los registros no redundantes entre las
dos bases de datos principales a nivel mundial: GenBank en USA y EMBL (European
Molecular Biology Laboratories) en Europa.
En la práctica realizada nos ayudó a identificar rápidamente las secuencias de ADN.
5.2.¿Qué es una secuencia de ADN y como nos serviría en ingeniería ambiental?
La secuenciación del ADN significa determinar el orden de los cuatro componentes
básicos químicos, llamados "bases", que forman la molécula de ADN. La secuencia les
informa a los científicos la clase de información genética que se transporta en un
segmento específico de ADN. Por ejemplo, los científicos pueden usar la información
de las secuencias para determinar qué tramos de ADN contienen genes y qué tramos
transportan instrucciones regulatorias, que activan o desactivan genes. Además, y de
manera muy importante, los datos de las secuencias pueden resaltar los cambios en un
gen que pueden causar enfermedades.
El eDNA en estas áreas de las Ciencias Ambientales se utiliza principalmente para el
estudio de las respuestas del medio ambiente ante los cambios provocados por la
contaminación. Se usa, además, para averiguar las probabilidades de una especie de
sobrevivir o no a un contaminante y así obtener información sobre la gravedad del
mismo (Ruppert et al., 2019). Un claro ejemplo del efecto de los contaminantes sobre
los ecosistemas y la biodiversidad es el efecto de las prospecciones petroleras sobre los
ecosistemas marinos. Gracias a los estudios que utilizan eDNA se ha concluido que los
metazoos son los más afectados por la contaminación derivada de la actividad
petrolífera, hallándose cambios en las estructuras de las comunidades existentes en el
sedimento que rodea la plataforma, que incluían metazoos así como algunos taxones
protistas (Lanzén, Lekang, Jonassen, Thompson, & Troedsson, 2016). Se ha observado,
además, que existen bacterias que pueden utilizarse como bioindicadores, al sobrevivir
en áreas expuestas a los hidrocarburos (que explotan como recurso trófico). La
identificación de estas bacterias mediante eDNA permite categorizar el grado de
contaminación de un área determinada (Laroche et al., 2018). Del mismo modo Bell et
al., (2014) estudiaron las comunidades fúngicas y bacterianas de suelo de las rizosferas
de sauces (Salix spp.) y del suelo de una antigua planta petroquímica, obteniendo como
resultado cambios drásticos en las comunidades fúngicas y una disminución de la
diversidad bacteriana. Los residuos nucleares también son susceptibles de ser
identificados e incluso cuantificados mediante eDNA. Así, por ejemplo, Smith et al.,
7. (2015) utilizaron las comunidades microbianas para cuantificar el grado de
contaminación por residuos nucleares, y concluyeron, que estas comunidades
microbianas pueden ser usadas como marcadores ambientales para evaluar el impacto
de los residuos nucleares.
5.3. Dibuje la secuencia del ADN e indique la historia para su descubrimiento
Imagen 5: Secuencia del ADN
Durante el año de 1869 el biólogo suizo Johann Friedrich Miescher, utilizo alcohol
caliente y luego una pepsina enzimática, la cual separa la membrana celular y el
citoplasma de la célula, lo que se quería lograr era aislar el núcleo de la célula. Este
proceso se llevó a cabo con los núcleos de las células obtenidas del pus de vendajes
quirúrgicos desechados y del esperma de salmón, sometiéndolos a estos materiales y a
una fuerza centrífuga para aislar a los núcleos y luego realizo un análisis químico a los
núcleos.
De esta forma Miescher identifico a un nuevo grupo de substancias celulares a las que
denomino nucleínas. Observo la presencia de fósforo, después Richard Altmann los
identifico como ácidos y les dio el nombre de ácidos nucleicos. En 1914 Robert Feulgen
describió un método para revelar el ADN, basado en la colorante fucsina.
En el transcurso de los años 20, el bioquímico P.A. Levene realizo un análisis a los
componentes del ADN y encontró que contenía cuatro bases nitrogenadas: citosina y
8. timina, adenina y guanina; azúcar desoxirribosa; y fosfato. También señalo que se
encontraban unidas en un orden definido el cual es: fosfato-azúcar-base, formando lo
que llamo nucleótido. Levene también expuso que los nucleótidos se encontraban
unidos por los fosfatos formando el ADN. James Watson y Francis Crick, ellos
descubrieron la forma que del ADN al interior de la célula: una hélice doble, que le
permite replicarse y traspasar información de una generación a otra. Este
descubrimiento fue el punto de partida para el estudio del genoma. Desde aquella fecha
hasta hoy han pasado 50 años, y los avances de la Genética han sido enormes.
5.4.¿Qué es el método de secuencia de sanger?
Se basa en sintetizar, de forma secuencial, una hebra de ADN complementaria a
una hebra de cadena simple (que se utiliza como molde), en presencia de ADN
polimerasa, los cuatro 2’-deoxinucleótidos que componen la secuencia del ADN
(dATP, dGTP, dCTP y dTTP) y cuatro dideoxinucleótidos (ddATP, ddGTP,
ddCTP y ddTTP). Estos últimos nucleótidos “especiales” o nucleótidos de parada,
están diseñados para que carezcan del grupo 3’-OH, que permite la adición del
nucleótido consecutivo, de forma que cuando uno de ellos es incorporado por la
polimerasa se interrumpe la síntesis de la nueva hebra. Esto lleva a que se obtengan
fragmentos secuenciados de diferente tamaño, según dónde se incorporen los
dideoxinucleótidos. De este modo, y tras una simple electroforesis, se va a poder
dilucidar la secuencia.
5.5.Dibuje toda la metodología de secuenciación de ADN (secuenciación sanger
Imagen 6: Secuencia sanger
9. 5.6.¿Cuántos tipo de secuenciación de ADN existen actualmente?
Existen dos tipos de secuenciación
Métodos clásicos: Método químico de Maxam y Gilbert y Método enzimático
de Sanger
Secuenciación automática empleando el metodo enzimático: Para este método
resulta esencial disponer de un ADN de cadena simple (molde) y un iniciador,
cebador o "primer" complementario de una región del ADN molde anterior a
donde va a iniciarse la secuencia.
5.7.Los 15 archivos que usted analizo a que ser vivo corresponden
Imagen 7: Secuencias de ADN analizadas
5.8.Realice una breve sinopsis de la historia de secuenciación de los ácidos
nucleicos
Gregor Mendel realizó sus experimentos de hibridación con plantas de arvejas (Pisum
sativum), encontrando que las nuevas características que presentaban las plantas, eran
el resultado de la mezcla de los caracteres iniciales que poseían las plantas.
Por primera vez, en 1871, Johann Meisher hace una descripción del ácido
desoxirribonucleico (DNA) en el esperma de la trucha, y en 1944 tres investigadores:
Oswald Avery, Colin McLeod y Maclyn McCarty, demuestran que el DNA es la
molécula en donde se encuentra la información genética.
En la década de 1940, Frederick Sanger, investigador del Departamento de Bioquímica
de la Universidad de Cambridge, estaba interesado en el metabolismo de los
aminoácidos y en la secuenciación de estos en una proteína de gran interés biológico: la
insulina. En esa época no se conocía la estructura del DNA, por lo que su investigación
N° codigo sec mala regular buena
F10.14.12 N.I.
1 G07.7H.13 Klebsiella sp. ICBR 115 94.36%
2 F09.6.11 Klebsiella sp. 81.75%
3 H09.8.15 N.I.
4 H10_16_16 Enterobacter sp. IICDBZ9 86.93%
5 7_G03_13 N.I.
6 2_B03_03 uncultured soil bacterium 71.52%
7 5_E03_09 Enterobacter sp. 93.01%
8 11-375NZ_C02_06 Klebsiella pneumoniae 77.47%
9 14-483H_F02_12 Klebsiella quasipneumoniae 88.50%
10 09-419YZ_A02_02 Enterobacter cloacae 96.81%
11 DIVERSOS-_B07_2H_03 Stenotrophomonas sp. UYSB3216S gen de ARN ribosomal, secuencia parcial 74.24%
12 USER_04set2007_09-419YZ_A02_02 Enterobacter sp. Gen del ARN ribosomal CB716S, secuencia parcial 95.81%
13 USER_04set2007_15-456NZ_G02_14 Bacillus thuringiensis cepa BT62cromosoma, genoma completo 91.54%
14 USER_04set2007_03-419AZ_C01_05 Klebsiella sp. cromosoma MPUS7, genoma completo 97.35%
15 USER_04set2007_08-375H_H01_15 Klebsiella oxytoca cepa ac1w1-1gen de ARN ribosomal 16S, secuencia parcial 0.7375
Especie identificada %
calidad de la secuencia
10. se enfocaba en la elucidación estructural de las proteínas, compuestos que se creía
conformaban el material genético.
La determinación de que las cantidades de adenina y timina y las de citosina y guanina
son las mismas, es un gran aporte que hace Erwin Chargaff en 1950 y que,
posteriormente, se constituyó en la "Regla de Chargaff.
A principios de la década de 1970 Allan M. Maxam y Walter Gilbert adscritos al
Departamento de Bioquímica y Biología Molecular de la Universidad de Harvard,
investigan sobre la secuenciación del DNA y en febrero de 1977 publican, en
Proceedings of the National Academy of Sciences of the United States of America, un
artículo que titularon "A New method for sequencing DNA" en el que afirman que el
DNA puede ser secuenciado por un procedimiento químico, mediante el cual es posible
determinar la secuencia de nucleótidos del DNA.
Frederick Sanger, tomando en consideración lo reportado por Meselson y Stahl,
desarrolla un método de secuenciación de pequeños fragmentos de DNA cuyo enfoque
diferencial, frente a la propuesta de Maxan y Gilbert que era eminentemente química y
tomaba al menos un día, fue la utilización de síntesis enzimática de la cadena
complementaria del fragmento de ADN a secuenciar. Utilizando esta estrategia, Sanger
y colaboradores, en 1978, realizan la secuenciación total del bacteriófago Φ-X174 y
desde entonces es el método más utilizado para determinar secuencias de DNA.
Hasta este momento la secuenciación era un proceso manual, pero en 1982 Marvin
Caruthers y Leroy Hood desarrollan el primer método automatizado para secuenciar
DNA, el cual era capaz de secuenciar fragmentos de 5 a 75 pares de bases (pb) y, en
1986, Leroy Hood y Lloyd Smith diseñan el primer secuenciador automático que utiliza
rayos láser que reconocen marcadores de fluorescencia en el DNA.
5.9.¿Qué es el bioedit?
Bioedit es un programa gratuito para edición de alineamientos y análisis de secuencias
que funciona únicamente sobre ambiente MS/Windows. Es, sin lugar a duda, uno de los
programas más conocidos para edición de secuencias para dicho sistema operativo.
5.10. ¿Qué es el NCBI (National Center Biotecnology Investigation) incluir
su historia?
11. El Centro Nacional para la Información Biotecnológica es parte de la Biblioteca
Nacional de Medicina de Estados Unidos, una rama de los Institutos Nacionales de
Salud. Está localizado en Bethesda (Maryland).
Fundado el 4 de noviembre de 1988, y ubicado en Bethesda, Maryland, el National
Center for Biotechnology Information es una división de la National Library of
Medicine, uno de los Institutos Nacionales de Salud de los Estados Unidos. Como
recurso nacional de información sobre biología molecular y uno de los más poderosos
en las llamadas ciencias de la vida en general, el centro desarrolla constantemente
nuevas tecnologías de información para ayudar a comprender, tanto los procesos
genéticos, como moleculares que controlan la salud y la enfermedad.
El sitio del NCBI, conformado por un amplio y diverso banco de bases de datos,
herramientas y otros medios, posibilita la exploración integral de sus recursos mediante
un sistema de recuperación (un gran motor de búsqueda) de interfaz única denominado
Entrez, The Life Sciences Search Engine, distribuido por primera vez en 1991, que
permite la búsqueda simultánea de información generalmente de carácter público sobre
los más diversos aspectos de las ciencias de la vida y la salud en decenas de bases de
datos de una calidad excepcional.
El NCBI agrupa sus bases de datos esenciales en tres grandes sectores: Literature
Databases, Molecular Databases y Genomes. Estas dos últimas clases comprenden un
grupo amplio y diverso de bases de datos biológicas cuya información procede
básicamente de los resultados de experimentos científicos, suministrados directamente
por los laboratorios o instituciones que los realizan o publicados en la literatura
científica especializada, donde con frecuencia se aplican tecnologías de
experimentación de muy alto rendimiento y el análisis computacional. La información
contenida en estas bases de datos comprende: funciones, estructura y localización (tanto
celular como cromosómica) de los genes, los efectos clínicos de las mutaciones, así
como las similitudes entre secuencias y estructuras biológicas.
6.RESULTADOS
Los resultados obtenidos del software BLASTn son los siguientes:
En la primera secuencia se identificó como Klebsiella sp. ICBR 115
Imagen 8: Identificación de secuencia 1
12. En la segunda secuencia se identificó como Klebsiella sp.
Imagen 9: Identificación de secuencia 2
En la tercera secuencia no se pudo idénticar.
Imagen 10: Identificación de secuencia 3
13. La cuarta secuencia se identificó como Enterobacter sp. IICDBZ9
Imagen 11: Identificación de secuencia 4
Se continuo con la misma metodología para las siguientes siendo los resultados agrupados
en una tabla:
Tabla 12: Secuencias de ADN identificadas
14. Se pudo identificar 13 de las 15 secuencias de ADN teniendo grados de similitud altos.
De las cuales se identificó en que ser vivo están presentes y alguna característica.
Klebsiella sp. ICBR 115 , Klebsiella sp. y Enterobacter sp. IICDBZ9 residen en el
intestino de muchas personas sanas, causando raras veces infección. Las infecciones con
dichas bacterias suelen adquirirse en hospitales y centros de atención a largo plazo.
Stenotrophomonas sp. anteriormente conocida como Xanthomonas maltophilia y
Pseudomonas maltophilia es un bacilo Gram negativo no fermentador de la glucosa,
reconocido como agente causal de diversas infecciones nosocomiales, además de
presentar resistencia a múltiples agentes antimicrobianos.
Imagen 13: Stenotrophomonas sp.
N° codigo sec mala regular buena
1 G07.7H.13 Klebsiella sp. ICBR 115 94.36%
2 F09.6.11 Klebsiella sp. 81.75%
3 H09.8.15 N.I.
4 H10_16_16 Enterobacter sp. IICDBZ9 86.93%
5 7_G03_13 N.I.
6 2_B03_03 uncultured soil bacterium 71.52%
7 5_E03_09 Enterobacter sp. 93.01%
8 11-375NZ_C02_06 Klebsiella pneumoniae 77.47%
9 14-483H_F02_12 Klebsiella quasipneumoniae 88.50%
10 09-419YZ_A02_02 Enterobacter cloacae 96.81%
11 DIVERSOS-_B07_2H_03 Stenotrophomonas sp. UYSB3216S gen de ARN ribosomal, secuencia parcial 74.24%
12 USER_04set2007_09-419YZ_A02_02 Enterobacter sp. Gen del ARN ribosomal CB716S, secuencia parcial 95.81%
13 USER_04set2007_15-456NZ_G02_14 Bacillus thuringiensis cepa BT62cromosoma, genoma completo 91.54%
14 USER_04set2007_03-419AZ_C01_05 Klebsiella sp. cromosoma MPUS7, genoma completo 97.35%
15 USER_04set2007_08-375H_H01_15 Klebsiella oxytoca cepa ac1w1-1gen de ARN ribosomal 16S, secuencia parcial 0.7375
Especie identificada %
calidad de la secuencia
15. 7.DISCUSIÓN DE RESULTADOS
Los datos de la secuenciación de ADN tienen un valor limitado a menos que la
información sea útil biológicamente, por lo que la bioinformática pasa a ser una parte
crítica de la secuenciación del ADN. La comparación de secuencias puede conducir a la
identificación de los genes y otros patrones de secuencias conservadas. Además, la
comparación de secuencias se puede utilizar para establecer relaciones funcionales,
estructurales y evolutivas entre genes. Otra ventaja potencial es que la comparación de
secuencias proporciona un método fiable para deducir las funciones biológicas de los
genes recién secuenciados.
Una de las bases de datos más grandes y más influyentes es la GenBank. Esta base de
datos de código abierto contiene más de un billón de secuencia de nucleótidos, son datos
públicamente disponibles. Cada entrada en GenBank contiene una secuencia y un número
de acceso único, así como la ayuda de anotaciones bibliográficas y biológicas tales como
referencias de autor y datos taxonómicos. El NCBI supervisa y mantiene la base de datos,
pero cada entrada la presenta directamente cada laboratorio de forma individual. La
presentación directa ha permitido que la base de datos mantenga un rápido ritmo de
crecimiento en la cantidad de datos de secuencias. Sin embargo, esto también significa
que existe heterogeneidad en la calidad de las entradas, especialmente en la certeza de la
identidad de cada nucleótido y en la medida de las anotaciones adjuntas. El impacto de
esta incertidumbre puede variar en función de los objetivos del estudio, las propiedades
físicas de la región(es) de ADN, y el método de secuenciación elegido. Para solucionar
esto, GenBank clasifica la información de las secuencias en base a la estrategia de
secuenciación utilizada para obtener los datos
8.CONCLUSIONES
BLAST resulta el algoritmo a escoger en una búsqueda preliminar de similitud entre una
secuencia problema y las bases de datos disponibles. Provee como primer resultado una
medida cuantitativa de la similaridad de la secuencia problema contra cada una de las
secuencias de la base de datos. Es una herramienta de alineamiento local por pares.
Consiste en hacer coincidir un par de secuencias. Es decir, sólo producen alineamientos
por pares de la secuencia problema con cada una de las secuencias de la base de datos con
las que muestra alta similitud.
16. El almacenamiento de datos aparece en la bioinformática para apoyar el descubrimiento
de los conocimientos biológicos y también para facilitar la investigación y el intercambio
de información. Se considera que las aplicaciones web biológicas colaborativas han
revolucionado la investigación biológica. Muchas de las investigaciones recientes
probablemente sean en las ciencias biológicas y de la salud, por lo que se busca que se
busca un enfoque investigativo desde la informática hacia esta área. Como trabajo futuro
se requiere definir las plataformas tecnológicas y la implementación de los procesos
asociados a la solución propuesta. No obstante, en esta fase los investigadores ven
representados sus intereses y requerimientos lo que es condición fundamental para el
éxito del sistema planteado.
9.BIBLIOGRAFÍA
Entrez Genome Database Search. National Center for Biotechnology Information.
Search for details on specific genomes by organism name and strain.
International Human Genome Sequencing Consortium (2001). Initial sequencing
and analysis of the human genoma.
Búsqueda de secuencias utilizando BLAST — Bioinformatics at COMAV 0.1
documentation. (s. f.). Bioinfo. Recuperado 19 de mayo de 2022, de
https://bioinf.comav.upv.es/courses/intro_bioinf/practica_blast.html
EMBnet Colombia - Centro de Bioinformà ¡tica del Instituto de BiotecnologÃa.
(s. f.). Bioinfo. Recuperado 20 de mayo de 2022, de
http://bioinf.ibun.unal.edu.co/documentos/Blast/blast.php