Análisis de secuencias biológicas debido a su gran importancia dentro de la biotecnología. Aplicación del software MEGA y creación de un árbol filogenético.
INFORME 05 - Filogenia molecular de genes ribomales y construcción de un dendrograma.pdf
1. “Año del fortalecimiento de la Soberanía Nacional”
UNIVERSIDAD NACIONAL DE MOQUEGUA
Escuela Profesional de Ingeniería Ambiental
INFORME DE LABORATORIO 05:
FILOGENIA MOLECULAR DE GENES RIBOMALES Y CONSTRUCCIÓN
DE UN DENDROGRAMA
CURSO
Biotecnología
DOCENTE
Dr. Soto Gonzales, Hebert Hernan
INTEGRANTES
Bardales Aragón, Flavia Deborah Antonieta (2019205008)
Mamani Velasquez, Yanira Brigitte (2019205037)
Mamani Ibáñez, Erika Soledad (2017205068)
VII CICLO
ILO-MOQUEGUA
2022
2. ÍNDICE
RESUMEN ................................................................................................................................4
ABSTRACT...............................................................................................................................4
I. INTRODUCCIÓN..............................................................................................................5
II. OBJETIVOS ...................................................................................................................5
2.1. Objetivo general ..........................................................................................................5
2.2. Objetivos específicos...................................................................................................5
III. MARCO TEÓRICO........................................................................................................5
3.1. ADN ............................................................................................................................5
3.2. Filogenia......................................................................................................................5
3.2.1. Interpretación de las filogenias ............................................................................6
3.3. Evolución ....................................................................................................................8
3.4. Filogenética.................................................................................................................8
3.5. Analogía ......................................................................................................................8
3.6. Homología...................................................................................................................8
3.6.1. Tipos de homología..............................................................................................9
3.6.1.1. Homología filogenética ................................................................................9
3.7. Árbol filogenético .....................................................................................................11
3.7.1. Árbol filogenético enraizados y no enraizados..................................................12
3.8. Filogenia y taxonomía...............................................................................................13
3.9. Filogenia molecular...................................................................................................13
3.10. Alineamiento de secuencias...................................................................................14
3.11. Dendrogramas........................................................................................................16
3.11.1. Topología...........................................................................................................18
3.12. Filogenias basadas en secuencias ..........................................................................19
IV. MATERIALES .............................................................................................................19
V. METODOLOGÍA.............................................................................................................20
3. VI. RESULTADOS Y DISCUSIONES..............................................................................27
VII. CONCLUSIONES ........................................................................................................29
BIBLIOGRAFÍA .....................................................................................................................30
ANEXOS .................................................................................................................................31
Cuestionario .........................................................................................................................31
4. RESUMEN
El análisis de secuencias biológicas está fundamentado en los principios de la evolución, las
similitudes y divergencias entre secuencias biológicas, por esta razón la filogenética molecular
es de gran importancia dentro de la biotecnología. El software Molecular Evolutionary
Genetics Analysis (MEGA) está diseñada para el análisis comparativo de secuencias de genes
homólogos, ya sea de familias multigénicas o de diferentes especies, además tiene herramientas
para la presentación visual como los árboles filogenéticos.
En el desarrollo de la práctica se realizó un árbol filogenético con secuencias de gen 16S para
lo cual se usó 20 secuencias (5 series de 4 nucleótidos), el cual se descargó del banco de genes
del NCBI, y con el software MEGA se realizó la alineación, eliminación y creación del árbol
filogenético. Los nucleótidos analizados fueron 4 bacterias pertenecientes a los géneros de
Klebsiella, Bacillus, Escherichia y Enterococcus, y se evidencio un patrón de agrupamiento
diferente entre estas especies lo que podría asociarse a la existencia de un mayor polimorfismo
en relación a las demás subespecies.
ABSTRACT
The analysis of biological sequences is based on the principles of evolution, the similarities
and divergences between biological sequences, for this reason molecular phylogenetics is of
great importance within biotechnology. The Molecular Evolutionary Genetics Analysis
(MEGA) software is designed for the comparative analysis of homologous gene sequences,
either from multigenic families or from different species, and also has tools for visual
presentation such as phylogenetic trees.
In the development of the practice, a phylogenetic tree with 16S gene sequences was made for
which 20 sequences (5 series of 4 nucleotides) were used, which was downloaded from the
NCBI gene bank, and with the MEGA software the alignment, elimination and reconciliation
of the phylogenetic tree was carried out. The nucleotides analyzed were 4 bacteria belonging
to the genera of Klebsiella, Bacillus, Escherichia and Enterococcus, and a different grouping
pattern was evidenced between these species which could be associated with the existence of
a greater polymorphism in relation to the other subspecies.
5. I. INTRODUCCIÓN
El análisis de secuencias biológicas está fundamentado en los principios de la
evolución, las similitudes y divergencias entre secuencias biológicas relacionadas (reveladas
con alineamiento) a menudo requieren de ser analizadas y visualizadas en el contexto de
árboles filogenéticos. Por esta razón la filogenética molecular es de gran importancia dentro de
la bioinformática. (Rodríguez Tello, 2013).
El software Molecular Evolutionary Genetics Analysis (MEGA) es una aplicación de
escritorio diseñada para el análisis comparativo de secuencias de genes homólogos, ya sea de
familias multigénicas o de diferentes especies, con especial énfasis en inferir relaciones
evolutivas y patrones de evolución de ADN y proteínas. Además, cuenta con herramientas para
la presentación visual de los resultados obtenidos en forma de árboles filogenéticos interactivos
y matrices de distancias evolutivas. (Kumar et al., 2008)
II. OBJETIVOS
2.1. Objetivo general
Realizar un árbol filogenético con 20 muestras de gen 16S usando el software MEGA
DNA para construir un dendrograma.
2.2. Objetivos específicos
➢ Seleccionar las 20 muestras del banco genético del NCBI.
➢ Construcción de un árbol filogenético.
III. MARCO TEÓRICO
3.1. ADN
Moléculas del interior de las células que contienen información genética y la transmiten
de una generación a otra. También se llama ácido desoxirribonucleico y DNA.
3.2. Filogenia
Filogenia o filogénesis. La filogenia estudia las relaciones evolutivas entre los
organismos y trata de establecer líneas, similares a los árboles genealógicos, donde se refleje
la descendencia y grado de parentesco entre unos y otros grupos de seres vivos. Tales líneas se
denominan filogenéticas. El término filogenia (del griego filon, raza, y genea, generación) fue
6. propuesto en 1866 por el embriólogo alemán Ernst Haeckel y trataba de recoger de forma
significativa y funcionalmente efectiva las tesis evolucionistas mantenidas y difundidas por los
naturalistas británicos Charles Darwin y Alfred Russel Wallace. La filogenética o filogenia es
la parte de la biología que estudia la evolución de las especies de forma global, en
contraposición a la ontogenia, que estudia la evolución del individuo.
Una filogenia se representa en un diagrama conocido como árbol filogenético. Las
ramas del árbol representan linajes ancestrales y/o descendientes.
3.2.1. Interpretación de las filogenias
Entender una filogenia es muy parecido a leer un árbol genealógico. La raíz del árbol
representa el linaje ancestral, y las puntas de las ramas representan a los descendientes de ese
antepasado. A medida que pasas de la raíz a las puntas, avanzas en el tiempo.
Cuando un linaje se divide (especiación), se representa como ramificación en una
filogenia. Cuando ocurre un evento de especiación, un solo linaje ancestral da lugar a dos o
más linajes hijos.
7. Las filogenias trazan patrones de ascendencia compartida entre linajes. Cada linaje tiene
una parte de su historia que es única para él solo y partes que se comparten con otros linajes.
Del mismo modo, cada linaje tiene antepasados que son únicos para ese linaje y
antepasados que se comparten con otros linajes: ancestros comunes.
Un clado es una agrupación que incluye un ancestro común y todos los descendientes
(vivos y extintos) de ese antepasado. Usando una filogenia, es fácil saber si un grupo de linajes
forma un clado. Imagínese recortar una sola rama de la filogenia: todos los organismos en esa
rama podada forman un clado.
Los clados están anidados entre sí: forman una jerarquía anidada. Un clado puede
incluir muchos miles de especies o solo unas pocas. Algunos ejemplos de clados en diferentes
niveles están marcados en las filogenias a continuación. Observe cómo los clados están
anidados dentro de clados más grandes.
8. Hasta ahora, hemos dicho que las puntas de una filogenia representan linajes
descendientes. Sin embargo, dependiendo de cuántas ramas del árbol esté incluyendo, los
descendientes en las puntas pueden ser diferentes poblaciones de una especie, diferentes
especies o diferentes clados, cada uno compuesto de muchas especies.
3.3. Evolución
Generalmente se denomina evolución a cualquier proceso de cambio en el tiempo. En
el contexto biológico, la evolución es un cambio en el perfil genético de una población de
individuos, que puede llevar a la aparición de nuevas especies, a la adaptación a distintos
ambientes o a la aparición de novedades evolutivas.
3.4. Filogenética
Tiene por objetivo el trazar la relación ancestro descendiente de los organismos (árbol
filogenético) a diferentes niveles taxonómicos, incluyendo el árbol universal, haciendo una
reconstrucción de esta relación en base a diversos caracteres homólogos (adquiridos por
descendencia directa), tanto morfológicos como moleculares. Las hipótesis filogenéticas
resultantes son la base para hacer predicciones (inferencias) sobre propiedades biológicas de
los grupos revelados por la filogenia mediante el mapeo de caracteres sobre la topología
(hipótesis evolutiva) (Vinuesa, 2007).
3.5. Analogía
Es la relación existente entre dos caracteres cuando éstos, aun siendo similares, han
heredados convergentemente a partir de caracteres ancestrales no relacionados en términos
genealógicos
3.6. Homología
Es la relación entre dos caracteres que han descendido, generalmente con modificación,
de un ancestro común. Estrictamente se refiere a ancestría común inferida. Dado que filogenia
es “el flujo de la herencia”, sólo los caracteres genéticos o heredables son informativos desde
una perspectiva genealógica. Caracteres y estados de carácter. Los evolucionistas distinguen
entre caracteres, como por ejemplo los amino ácidos, y sus estados, como pueden ser gly o trp.
La homología reside en los caracteres, no en sus estados.
9. La homología no es una cualidad cuantitativa. Sólo hay dos condiciones posibles: ser o
no homólogo. No se es más o menos homólogo. Es como el embarazo. Se está o no se está en
dicho estado y se es o no homólogo. En Bioquímica, Genética y Biología Molecular la
homología se secuencias se refiere al hecho en el que las secuencias de dos o más proteínas o
ácidos nucleicos guardan gran similitud debido a que presentan un mismo origen evolutivo.
El concepto de homología es simplemente una abstracción sobre la relación entre
caracteres, sobre su ascendencia común, relación que es indispensable determinar para poder
hacer reconstrucciones filogenéticas que reflejen la historia del “flujo de la herencia”.
3.6.1. Tipos de homología
En cada nivel estructural, existen dos tipos de homología o correspondencia. Se pueden
comparar las partes o estructuras del mismo organismo o la correspondencia es entre
organismos diferentes.
• Homología iterativa. La correspondencia molecular, genética, ontogenética, etc. que
existiría entre diferentes estructuras o procesos del mismo organismo Por ejemplo entre
copias del mismo gen, partes repetidas del mismo órgano (dedos), etc.
• Homología filogenética. La correspondencia histórica a nivel molecular, genético,
ontogenético, etc. entre características o procesos de diferentes organismos. Relación
entre partes de organismos por compartir la misma historia filogenética o ancestria
común.
3.6.1.1. Homología filogenética
En el plano ontológico, la expectativa teórica del concepto de homología filogenética
es que todas las partes, funciones y procesos de los organismos a todos los niveles de homología
están conectados históricamente en mayor o menor grado (Frost y Kluge, 1994). Por lo tanto,
no es difícil visualizar que existen varios niveles y tipos de homología filogenética
correspondientes con la estructura jerárquica de la vida al nivel de moléculas, genes, desarrollo,
etc. (Roth, 1994). La profundidad histórica recuperada es diferente a cada nivel. Algunas
comparaciones solo tienen alcance en la escala del tiempo de una generación (según la especie
en cuestión). Otras comparaciones, por ejemplo, la presencia de núcleo en las células, penetran
en la historia profunda de la vida. La combinación de distintas estructuras comparadas da un
alcance escalonado a distintos tiempos de la historia de cada grupo estudiado
filogenéticamente.
10. La relación histórica entre características de dos o más organismos puede ser de dos
tipos:
a) Homología taxica. La relación histórica entre estados similares observados entre
grupos de organismos. "Homología táxica" es la correspondencia del mismo rasgo entre
diferentes organismos debido a la herencia sin modificación a partir de un ancestro
común que tenía ese rasgo. La similitud que existe entre partes o procesos de dos o más
organismos pero que no es resultado de ancestria común es "homoplasia".
b) Homología transformacional. La relación histórica entre estados diferentes, cada uno
observado en grupos de organismos. "Homología transformacional" es una
correspondencia entre dos (o más) rasgos diferentes debido a modificaciones históricas
de un estado en el otro. Este es el concepto central que captura y expresa las hipótesis
de cambio de estados como marcadores de la diversificación de linajes. La selección de
un carácter como taxonómico y el reconocimiento de estados implica una hipótesis de
homología transformacional. Cada estado marca el origen de un linaje. Empíricamente
entonces podemos reconocer linajes cuando examinamos la variación de un carácter y
logramos discernir la existencia de estados.
El conjunto de los estados de un carácter es conocido como "serie transformacional"
(Wiley, 1981). Este tipo de hipótesis consiste en declaraciones explicitas del orden de estados
y de la secuencia temporal de estados previos y derivados de la modificación. Cada uno de los
dos componentes (orden y polaridad) se infieren por medio de métodos distintos. Un universo
empírico frecuentemente aludido como base (aunque muy cuestionado) para la proposición de
"series de transformación" son las transformaciones observadas en la ontogenia. Otro enfoque
consiste en el examen de las transformaciones implícitas en la cladograma ("transformation
series analysis"). Bajo este enfoque las hipótesis de homología transformacional y la
identificación de los estados anteriores y posteriores al cambio son un resultado del análisis
cladístico.
✓ Plesiomorfia. El estado preexistente a la transformación se denomina plesiomorfico.
Cuando el estado ancestral es una similitud compartida en varias unidades de muestreo
(poblaciones, taxa) la similitud se denomina "simplesiomorfia". Si la serie de
transformación del carácter incluye tres estados o más (0, 1, 2), un estado da origen a
otro y este a su vez es el preexistente respecto al tercero. En una secuencia así el estado
intermedio es apomorfico respecto al primero y plesiomorfico respecto al tercero.
11. ✓ Apomorfía. El rasgo posterior al cambio se nombra "apomorfía". Cuando el estado es
una similitud compartida por varias unidades de muestreo, la similitud se denomina
"sinapomorfia". Como en el caso de la "plesiomorfia", la designación es relativa en la
secuencia temporal de cambios de estado. Todos los estados de un carácter son
"apomorfías" a algún nivel, el nivel que corresponde a su aparición como novedad
filogenética en un linaje particular.
3.7. Árbol filogenético
Un árbol filogenético, o cladograma, es un diagrama esquemático utilizado como
ilustración visual de las relaciones evolutivas propuestas entre los taxones. Los árboles
filogenéticos se diagraman en base a suposiciones de cladística o sistemática filogenética.
Cladistics es un sistema de clasificación que clasifica los organismos en función de rasgos
compartidos, o sinapomorfias, según lo determinado por el análisis genético, anatómico y
molecular. Los principales supuestos de la cladística son:
a) Todos los organismos descienden de un ancestro común.
b) Los nuevos organismos se desarrollan cuando las poblaciones existentes se dividen en
dos grupos.
c) Con el tiempo, los linajes experimentan cambios en las características.
Figura 1
Árbol filogenético
12. NOTA: Este árbol filogénico muestra filogenia basada en diferencias en la secuencia
proteica del citocromo c en organismos que van desde el moho Neurospora hasta los
humanos. Tomado de ¿Qué es la filogenia? Definición y ejemplos (thoughtco.com)
La estructura filogenética del árbol está determinada por rasgos compartidos entre
diferentes organismos. Su ramificación arbórea representa taxones divergentes de un ancestro
común. Los términos que es importante entender al interpretar un diagrama de árbol
filogenético incluyen:
• Nodos: Estos son puntos en un árbol filogenético donde se produce la ramificación. Un
nodo representa el final del taxón ancestral y el punto donde una nueva especie se separa
de su predecesora.
• Ramas: Estas son las líneas en un árbol filogenético que representan linajes ancestrales
y / o descendientes. Las ramas que surgen de los nodos representan especies
descendientes que se separan de un ancestro común.
• Grupo Monofilético (Clado): Este grupo es una sola rama en un árbol filogenético que
representa un grupo de organismos que descienden de un ancestro común más reciente.
Los métodos de construcción de árboles pueden ser clasificados en distintas familias
según se base en:
• distancias.
• parsimonia.
• máxima verosimilitud.
• bayesianos.
3.7.1. Árbol filogenético enraizados y no enraizados
Los árboles filogenéticos pueden estar enraizados o no rooteados. Los árboles
filogenéticos enraizados se encuentran en un punto sobre un solo nodo que representa un
hipotético ancestro común. Existen varios métodos para producir un árbol filogenético
enraizado, pero los más comunes utilizan un grupo externo que consiste en un pariente lejano
para todas las demás especies dentro del análisis. Los árboles enraizados proporcionan una
representación de las relaciones evolutivas a través del tiempo, con los caminos más largos
entre una especie y un antepasado que reflejan la mayor distancia evolutiva entre ellos. Los
árboles no enraizados muestran las conexiones entre organismos sin indicar ascendencia y no
requieren un ancestro conocido o inferido.
13. • Taxón (pl. Taxones): Los taxones son agrupaciones o categorías específicas de
organismos vivos. Las puntas de las ramas en un árbol filogenético terminan en un
taxón.
3.8. Filogenia y taxonomía
La filogenia y la taxonomía son dos sistemas para clasificar organismos. Representan
los dos campos principales de la biología sistemática. Ambos sistemas se basan en
características o rasgos para clasificar los organismos en diferentes grupos. En filogenética, el
objetivo es rastrear la historia evolutiva de las especies intentando reconstruir la filogenia de la
vida o el árbol evolutivo de la vida. La taxonomía es un sistema jerárquico para nombrar,
clasificar e identificar organismos. Las características filogénicas se utilizan para ayudar a
establecer agrupaciones taxonómicas.
La taxonomía no solo es útil para categorizar organismos, sino que también establece
un sistema de nomenclatura específico para organismos. Conocido como nomenclatura
binomial, este sistema proporciona un nombre único para un organismo que consiste en un
nombre de género y un nombre de especie. Este sistema de nomenclatura universal es
reconocido en todo el mundo y evita la confusión sobre la denominación de organismos.
3.9. Filogenia molecular
La filogenética es la ciencia de estimar y analizar las relaciones evolutivas. La filogenia
molecular es el uso de la estructura de las moléculas para obtener información sobre las
relaciones evolutivas de un organismo. Las relaciones filogenéticas entre microorganismos son
especialmente difíciles de discernir. La biología molecular a menudo ayuda a determinar las
relaciones genéticas entre diferentes organismos. Los ácidos nucleicos (ADN y ARN) y las
proteínas son "moléculas de información" en el sentido de que conservan un registro de la
historia evolutiva de un organismo. El enfoque consiste en comparar secuencias de ácidos
nucleicos o proteínas de diferentes organismos utilizando programas informáticos y estimar las
relaciones evolutivas en función del grado de homología entre las secuencias. Los ácidos
nucleicos y las proteínas son moléculas lineales hechas de unidades más pequeñas llamadas
nucleótidos y aminoácidos, respectivamente. Las diferencias de nucleótidos o aminoácidos
dentro de un gen reflejan la distancia evolutiva entre dos organismos. En otras palabras, los
organismos estrechamente relacionados exhibirán menos diferencias de secuencia que los
organismos distantemente relacionados. En particular, la secuencia del ARN ribosómico de
14. subunidad pequeña (ARNr) es ampliamente utilizada en filogenia molecular. El resultado de
un análisis filogenético molecular se expresa en un llamado árbol filogenético.
Una ventaja del enfoque molecular en la determinación de las relaciones filogenéticas
sobre los enfoques más clásicos, como los basados en la morfología o los rasgos del ciclo de
vida, es que las diferencias son fácilmente cuantificables. Se pueden comparar secuencias de
diferentes organismos y se puede establecer el número de diferencias. Estos datos a menudo se
expresan en forma de "árboles" en los que las posiciones y longitudes de las "ramas"
representan la relación entre los organismos. A continuación, se muestra un árbol de vida de
tres dominios basado en pequeñas secuencias de ARNr de subunidades (modificado de N.R.
Pace, ASM News 62: 464, 1996).
Cada organismo vivo contiene ADN, ARN y proteínas. Los organismos estrechamente
relacionados generalmente tienen un alto grado de acuerdo en la estructura molecular de estas
sustancias, mientras que las moléculas de organismos distantemente relacionados generalmente
muestran un patrón de disimilitud. La filogenia molecular utiliza estos datos para construir un
"árbol de relación" que muestra la probable evolución de varios organismos. Sin embargo, no
ha sido hasta las últimas décadas cuando ha sido posible aislar e identificar estas estructuras
moleculares.
Otra aplicación de las técnicas que lo hacen posible se puede ver en el campo muy
limitado de la genética humana, como el uso cada vez más popular de las pruebas genéticas
para determinar la paternidad de un niño, así como la aparición de una nueva rama de la
medicina forense criminal centrada en la evidencia genética.
El efecto sobre los esquemas de clasificación científica tradicionales en las ciencias
biológicas también ha sido dramático. El trabajo que una vez fue inmensamente intensivo en
mano de obra y materiales ahora se puede hacer rápida y fácilmente, lo que lleva a que otra
fuente de información esté disponible para la evaluación sistemática y taxonómica. Este tipo
particular de datos se ha vuelto tan popular que se pueden encontrar esquemas taxonómicos
basados únicamente en datos moleculares.
3.10. Alineamiento de secuencias
Un alineamiento de secuencias en bioinformática es una forma de representar y
comparar dos o más secuencias o cadenas de ADN, ARN, o estructuras primarias proteicas. De
este modo, al compararlas, se resaltan sus zonas de similitud, las cuales podrían indicar
15. relaciones funcionales o evolutivas entre los genes o proteínas consultados. Las secuencias
alineadas se escriben con letras, que representan aminoácidos o nucleótidos, en filas de una
matriz en las que, si es necesario, se insertan espacios para que las zonas con idéntica o similar
estructura se alineen de forma paralela en la misma posición. Por ejemplo, la siguiente figura
muestra un alineamiento de dos secuencias entre de dos proteínas que presentan un dominio
estructural común, denominado Dedo de Zinc. Ambas secuencias están identificadas por un
número situado a la izquierda que es el acceso a GeneBank, una base de datos de la que
hablaremos más adelante.
Si dos secuencias en un alineamiento proceden de un ancestro común, las no
coincidencias pueden interpretarse como mutaciones puntuales (sustituciones), y los huecos
como mutaciones de inserción o deleción introducidas en uno o ambos linajes en el tiempo que
transcurrió desde que divergieron. En el alineamiento de secuencias proteicas, el grado de
similitud entre los aminoácidos que ocupan una posición concreta en la secuencia puede
interpretarse como una medida aproximada de conservación en una región particular, o
secuencia motivo, entre linajes. La ausencia de sustituciones, o la sustitución de aminoácidos
cuya cadena lateral tiene propiedades químicas similares en una región particular de la
secuencia (lo que se denomina como sustituciones muy conservadas) indica que esta zona tiene
importancia estructural o funcional.
Cuando las secuencias son muy cortas o muy similares pueden alinearse manualmente.
Sin embargo, generalmente es necesario alinear secuencias largas, muy variables y
extremadamente numerosas que requerirían gran cantidad de tiempo para ser realizadas de
forma manual. El conocimiento humano se aplica principalmente en la construcción de
algoritmos que produzcan alineamientos de alta calidad. Las aproximaciones computacionales
al alineamiento de secuencias se dividen en dos categorías: alineamiento global y
alineamiento local. El alineamiento global consiste en alinear las secuencias problema en su
totalidad y en su longitud total. Se utiliza cuando las secuencias problema iniciales son
similares y aproximadamente del mismo tamaño. Comparativamente, los alineamientos locales
identifican regiones similares dentro de largas secuencias que normalmente son muy
16. divergentes entre sí. A menudo se prefieren los alineamientos locales, pero pueden ser más
difíciles de calcular porque se añade el desafío de identificar las regiones de mayor similitud.
La siguiente figura muestra como actuarían sobre una determinada secuencia ambos tipos de
algoritmos.
Se aplican gran variedad de algoritmos computacionales al problema de alineamiento
de secuencias. Unos son métodos lentos, pero de optimización, como la programación
dinámica. Otros, conocidos como métodos heurísticos o probabilísticos, son eficientes, pero
no exhaustivos, diseñados para búsqueda a gran escala en bases de datos.
Entre los algoritmos computacionales de programación dinámica se utilizan el algoritmo
Needleman-Wunsch para el alineamiento global y el algoritmo Smith-Waterman para el
alineamiento local. Con secuencias suficientemente similares, no existe diferencia entre
alineamientos globales y locales.
Habitualmente, cuando se procede al alineamiento de proteínas, se asignan
puntuaciones a las coincidencias y a las diferencias entre aminoácidos. Del mismo modo,
cuando se producen huecos ("gaps") al hacer coincidir un aminoácido de una secuencia con
otra, se penaliza.
En una utilización habitual, en los alineamientos de proteínas se utiliza una matriz de
sustitución para asignar puntuaciones a las coincidencias y a las diferencias entre aminoácidos,
y una penalización por gap (literalmente hueco, aunque en buena parte de la literatura en
castellano se utiliza el vocablo inglés) al hacer coincidir un aminoácido de una secuencia con
un hueco en otra. Así, en el ejemplo mostrado en la figura anterior, si damos un valor de +1 a
la identidad de secuencia y de -1 a los huecos o a las discrepancias de secuencias la puntuación
o "score" que obtendríamos en el alineamiento global sería (9-4) = 5 y en el alineamiento local
(8-6) = 2.
3.11. Dendrogramas
Los métodos filogenéticos reconstruyen árboles (dendrogramas) en los que las ramas y
los nodos unen diferentes taxones. Estos taxones pueden ser especies, individuos, genes, etc.
17. Al recorrer las ramas desde los nodos terminales hacia nodo original recorremos la historia
evolutiva de ese gen u organismo.
En filogenia se suele utilizar una serie de términos específicos.
Un dendograma es un árbol que representa las relaciones entre los distintos nodos.
Un Clado es una rama del árbol. Representa un conjunto de especies emparentadas por
un antepasado común.
Un taxón es un clado al que le ha asignado una categoría taxonómica.
Un filograma es un dendograma en el que la longitud de las ramas se corresponde con
el número de cambios o con la distancia entre los nodos.
En un árbol ultramétrico todas las ramas desde el antepasado común hasta el actual
tienen el mismo tamaño.
La raíz es la base de todas las ramas. Los árboles pueden clasificarse en árboles con y
sin raíz.
Monofilético el grupo que sólo incluye ramas que provienen de un único antecesor
común. Un grupo polifilético incluye ramas que provienen de varios antepasados, por ejemplo,
18. el de los gusanos sería un grupo polifilético. Por último, un grupo se denomina parafilético si
todos sus miembros provienen de un antepasado común, pero no incluye todos los
descendientes del mismo, los reptiles son un ejemplo de grupo parafilético puesto que no
incluye a las aves.
Una politomía es un nodo sin resolver del que parten varias ramas.
3.11.1. Topología
Un dendograma puede ser representado gráficamente de distintos modos equivalentes.
Hemos de ser cautos a la hora de decidir qué dendrogramas son distintos y cuales no lo son.
19. 3.12. Filogenias basadas en secuencias
Las filogenias pueden construirse con datos de muchos tipos, pero en este curso nos
centraremos en las creadas a partir de secuencias de ADN o proteína. Al utilizar un método de
reconstrucción filogenética estaremos asumiendo una serie de premisas:
• Cada secuencia es correcta y pertenece a su organismo.
• Las secuencias son homólogas y se han originado a partir de un ancestro común.
• Cada posición de una secuencia del alineamiento es homóloga a la del resto de
secuencias.
• Las secuencias evolucionan con un patrón al azar.
• Las posiciones del alineamiento evolucionan independientemente unas de otras.
• No existe intercambio de información genética entre los diferentes organismos
(recombinación).
Además, al hacer el árbol asumimos que las secuencias utilizadas incluyen información
suficiente como para resolver el problema. Esta es una asunción que podemos y debemos
comprobar por algún método estadístico.
Por último, hay que tener en cuenta que si pretendemos reconstruir un árbol de especies
y estamos utilizando una o varias secuencias para hacerlo hemos de asumir que las secuencias
elegidas son representativas de las especies incluidas en el análisis. Si no fuese así estaríamos
generando un árbol correcto de secuencias, pero no de especies.
Conviene recordar cuales son los distintos tipos de homologías:
• Ortólogo: Secuencias homólogas de dos especies diferentes y que provienen de una
secuencia común.
• Parálogo: Secuencias homólogas de un mismo organismo. Provenientes de
duplicaciones génicas.
• Xenólogo: Secuencias homólogas de dos especies diferentes, pero provienen de una
transferencia horizontal.
IV. MATERIALES
• Software MEGAX: Es una aplicación de escritorio diseñada para el análisis
comparativo de secuencias genéticas homólogas, ya sea de familias multigénicas o de
20. diferentes especies, con especial énfasis en la inferencia de relaciones evolutivas y
patrones de evolución de ADN y proteínas
• Laptop: Permite ejecutar los softwares y herramientas necesarias
• NCBI: El Centro Nacional de Información Biotecnológica es una web de base de datos
que facilita el acceso a la información biomédica y genómica
V. METODOLOGÍA
Descarga de secuencias del GEN 16s rRNA
Se puede agregar las secuencias del genoma rRNA a través de la instalación del
software que ejecuta el MEGA X la web referencial fue NCBI, se seleccionaron 20 diferentes
secuencias para cuatro bacterias.
Inicio de la práctica
Abrimos el Software MEGAX. Hacemos clic en ALING y damos otro clic en Query
Databanks.
21. Seleccionamos la opción Query Databanks nos abrirá una página de Home Nucleotide
de la National Library of Medicine (NCBI)
En la barra de búsqueda “nucleotide” colocamos 16s rRNA, la cual dará muchos
resultados de bacterias, entonces seleccionamos cuatro bacterias al azar.
Damos clic a la primera opción que tenga menos de 15000bp
22. Los resultados se muestran a continuación y revisamos los datos de la web
Adicionamos la secuencia del genoma 16s rRNA al software MEGAX a través del
botón “Add to aligment”
Se abre la ventana Input Sequence Label no modificamos nada en First and Sencond
Word y damos clic en OK. Para las siguientes secuencias de la misma bacteria se debe
modificar the Second Word con su código correspondiente.
23. Al dar OK se abre una página de MIX: Alignment Explorer
Repetimos el mismo procedimiento para todas las bacterias a analizar.
Corrección y Aislamiento de secuencia de ADN Bacteriano
Luego de completar las 20 secuencias se realizó a una corrección de las mismas. Damos
clic en la opción EDIT, seleccionamos SELECT ALL y darle clic, lo cual obtendremos lo
siguiente:
24. Procedemos a dar clic en el botón que tiene forma de musculo y seleccionamos ALIGN
DNA
Obteneos el alineamiento de las muestras insertadas
Por último, se elimina las columnas vacías, seleccionando y dando clic a X. En el caso
de las bacterias seleccionadas era semejantes entre sí, por ello no había columnas vacías. El
criterio para eliminar una columna es del 25% vacío.
25. Formulación del dendrograma
Damos clic al comando DATA, clic en EXPORTAR, clic en MEGA
FORMAL/ALINEAMIENTO, clic en guardar.
Guardar con el nombre de ALINEAMIENTO
El segundo nombre se le pondrá ALINEAMIENTO y dar clic en OK, dar clic en YES
para la confirmación. Los mismo se repite para exportar en los tres formatos: FASTA Format,
NEXUS/PAUP Format y MEGA Format.
Ir a MEGAX, clic en PHYLOGENY otro clic en CONTRUCT/TES UPGMA TREE.
26. Se abre la venta M11: Analysis Preferences y damos OK sin modificar nada.
Obtenemos el árbol filogenético o dendograma. Las bacterias analizadas corresponden
a: Klebsiella pneumoniae, Escherichia coli, Bacillus thuringiensis y Enterococcus faecium
27. VI. RESULTADOS Y DISCUSIONES
En la construcción del árbol filogenético basado en el gen ADNr 16S, se utilizó el
programa MEGA para la alineación de las 20 secuencias del gen 16s rRNA, y posterior mente
se procedió a la elaboración del árbol filogenético.
• En el primer grupo se conformó por Klebsiella pneumoniae 9-3B y Bacillus
thuringiensis. Estas dos son especies próximas ya que presentan una cercanía de 60%.
Este grupo de dos especies se muestra a una cercanía de 16% con la especie Escherichia
coli JCM 16946.
• El segundo grupo es formado por Enterococcus faecium LC488240 y Bacillus
thuringiensis AM293342, estas dos son especies próximas ya que presentan una
cercanía de 18%. Este grupo de dos especies se encuentran a una cercanía de 62% con
la especie y Enterococcus faecium AB012213.
• El tercer grupo está formado por Bacillus thuringiensis X-1 y Escherichia coli, estas
especies son próximas a que presentan una cercanía de 40%. Este grupo se encuentra a
una cercanía de 100% con la especie Klebsiella pneumoniae.
• El cuarto grupo está conformado por Klebsiella pneumoniae 1M46 y Bacillus
thuringiensis HF545006 estas dos son especies próximas ya que presentan una cercanía
de 99%. Este grupo se encuentra a una cercanía de 100% con la especie Bacillus
thuringiensis RG17-11.
28. • El quinto grupo está formado por Klebsiella pneumoniae IT977 y Enterococcus
faecium, estas dos son especies próximas ya que representan una cercanía de 69%.
También está conformado por Klebsiella pneumoniae TR17 y Enterococcus faecium
estas dos son especies próximas ya que representan una cercanía de 26%. Este grupo
de 4 especies se encuentran a una cercanía de 100% a la especie Enterococcus faecium
AB512765.
• El sexto grupo está formado por Escherichia coli IRQBAS127 y Escherichia coli PK3,
estas dos son especies próximas ya que representan una cercanía de 23% este grupo se
encuentra a una cercanía de 51% con la especie Escherichia coli H7.
• El séptimo, Árbol filogenético basado en el gen ADNr 16S de las 20 secuencias.
29. En cuanto a las especies Klebsiella, Bacillus, Escherichia y Enterococcus, se observó
un patrón de agrupamiento diferente entre las cuatro especies que podría asociarse a la
existencia un mayor polimorfismo en relación a las demás subespecies, el árbol filogenético
presentó una agrupación similar a la taxonomía establecida en el Genbank y permitió verificar
la variabilidad en el gen ADNr 16S, lo cual justifica la separación de los cuatro géneros como
linajes separados.
Otra aplicación del análisis de secuencias de múltiples genes constitutivos es el impacto
en la historia filogenética de las especies bacterianas y la inferencia de la estructura
poblacional, lo cual puede explicar la expansión y diversificación dentro de linajes específicos.
VII. CONCLUSIONES
En conclusión, este estudio permitió identificar la posición taxonómica de las especies
clasificadas y corregidas en los géneros Klebsiella, Bacillus, Escherichia y Enterococcus de
acuerdo con el análisis comparativo de los genes ADNr 16S y rpoB, entre los cuales ha existido
controversia y desacuerdo en la adopción de una nomenclatura universal entre laboratorios, e
incluso sistemas de clasificación que se tienen de referencia a nivel diagnóstico.
30. BIBLIOGRAFÍA
Aranda, C., Paredes, J., Valenzuela, C., Lam, P., & Guillou, L. (2010). 16S rRNA gene-based
molecular analysis of mat-forming and accompanying bacteria covering organically-
enriched marine sediments underlying a salmon farm in Southern Chile (Calbuco
Island). Gayana (Concepción), 74(2), 125–1235. https://doi.org/10.4067/s0717-
65382010000200006
Fukaya, K., Murakami, H., Yoon, S., Minami, K., Osada, Y., Yamamoto, S., Masuda, R.,
Kasai, A., Miyashita, K., Minamoto, T., & Kondoh, M. (2020). Estimating fish
population abundance by integrating quantitative data on environmental DNA and
hydrodynamic modelling. Molecular Ecology, 30(13), 3057–3067.
https://doi.org/10.1111/mec.15530
Jaramillo Roldán, E., López Martínez, J., Ramírez, R., & Velásquez Trujillo, L. E. (2014).
Análisis morfológico del sistema reproductor e identificación molecular a través de
los marcadores mitocondriales COI y 16S rRNA de <em>Megalobulimus
oblongus</em> (Mollusca, Strophocheilidae) de Colombia. Revista Peruana de
Biología, 21(1). https://doi.org/10.15381/rpb.v21i1.8250
Kumar, S., Nei, M., Dudley, J., & Tamura, K. (2008). MEGA: A biologist-centric software
for evolutionary analysis of DNA and protein sequences. Briefings in Bioinformatics,
9(4), 299–306. https://doi.org/10.1093/bib/bbn017
31. ANEXOS
Cuestionario
1. ¿Qué es MEGA DNA?
El software Molecular Evolutionary Genetics Analysis (MEGA) es una aplicación de
escritorio diseñada para el análisis comparativo de secuencias de genes homólogos de familias
multigénicas o de diferentes especies con un énfasis especial en inferir relaciones evolutivas y
patrones de evolución de proteínas y ADN. Tiene como propósito facilitar a los científicos los
métodos y algoritmos adecuados para comprender la función, evolución y adaptación de genes
y especies. Además, aparte de las herramientas para el análisis estadístico de datos, el software
MEGA proporciona muchas facilidades convenientes para el ensamblaje de conjuntos de datos
de secuencias a partir de archivos o repositorios basados en la web, e incluye herramientas para
la presentación visual de los resultados obtenidos en forma de árboles filogenéticos interactivos
y matrices de distancias evolutivas.
2. ¿En ingeniería ambiental para que nos servirá el MEGA DNA?
Desde hace algunos años el estudio del ADN de los diferentes organismos se convirtió
de gran importancia debido a los avances que genera en el cocimiento de las diferentes especies.
Entonces, como se mencionó anteriormente la importancia del software MEGA DNA radica
en la facilidad del reconocimiento de las especies y la relación evolutiva entre los distintos
taxones, esto en ingeniería ambiental nos ayuda a determinar la relación entre las diferentes
especies genéticas analizadas y también conocer si podrían ser futuros contaminantes para el
medio ambiente. Por ejemplo, un estudio realizado por Fukaya et al. (2020), titulado
“Estimación de la abundancia de la población de peces mediante la integración de datos
cuantitativos sobre el ADN ambiental (eDNA) y modelo hidrodinámico” muestra la
importancia del análisis molecular del ADN para el medio ambiente pues el eDNA puede ser
usado para realizar biomonitoreos y de este modo conocer los contaminantes presentes en el
agua. Además, se podría cuantificar la abundancia de la población presente en esta zona.
3. ¿El programa MUSCLE, qué función tiene?
MUSCLE: alineación múltiple de secuencias con gran precisión y alto rendimiento. Es
un programa informático para crear alineaciones múltiples de secuencias de proteínas. Los
elementos del algoritmo incluyen la estimación rápida de la distancia mediante el recuento de
32. kmer, la alineación progresiva mediante una nueva función de perfil que denominamos
puntuación de logexpectativa, y el refinamiento mediante el particionamiento restringido
dependiente del árbol. La velocidad y la precisión de MUSCLE se comparan con T-Coffee,
MAFFT y CLUSTALW en cuatro conjuntos de prueba de alineaciones de referencia:
BAliBASE, SABmark, SMART y una nueva referencia, PREFAB. MUSCLE alcanza el rango
más alto, o el rango conjunto más alto, en precisión en cada uno de estos conjuntos. Sin
refinamiento, MUSCLE alcanza una precisión media estadísticamente indistinguible de T-
Coffee y MAFFT, y es el más rápido de los métodos probados para un gran número de
secuencias, alineando 5000 secuencias de longitud media 350 en 7 minutos en un ordenador de
sobremesa actual. Para aplicar la alineación por pares a los perfiles, debe definirse una función
de puntuación en un par alineado de posiciones de perfil, es decir, un par de columnas de
alineación múltiple [. Sean i y j tipos de aminoácidos, pi la probabilidad de fondo de i, pij la
probabilidad conjunta de que i y j estén alineados entre sí, fxi la frecuencia observada de i en
la columna x del primer perfil, y f xG la frecuencia observada de huecos en esa columna en la
posición x de la familia. La probabilidad estimada αxi de observar el aminoácido i en la
posición x puede derivarse de fx, normalmente añadiendo pseudoconteos heurísticos o
utilizando métodos bayesianos como los priores de mezcla de Dirichlet. MUSCLE utiliza una
nueva función de perfil que llamamos puntuación log-expectativa (LE):
Este diagrama resume el flujo del algoritmo MUSCLE. Hay tres etapas principales:
Etapa 1 (borrador progresivo), Etapa 2 (progresivo mejorado) y Etapa 3 (refinamiento). Al final
de cada etapa se dispone de una alineación múltiple, momento en el que el algoritmo puede
terminar.
33. 4. En base al artículo: “Actividad antifúngica e identificación molecular de cepas nativas de Bacillus subtilis”, elaborar un mapa conceptual de 1 o
2 slides
34. 5. Indicar y conceptualizar ¿Cuáles son los genes que se utilizan en taxonomía
molecular, por ejemplo, el gen 16S, 23S, entre otros?
El ARNr 16S
Es la macromolécula más ampliamente utilizada en estudios de filogenia
y taxonomía bacterianas. Su aplicación como cronómetro molecular fue
propuesta por Carl Woese (Universidad de Illinois) a principios de la
década de 1970. El análisis de los ARNr 16S se ha utilizado
ampliamente para establecer las relaciones filogenéticas dentro del
mundo procariota, causando un profundo impacto en nuestra visión de
la evolución y, como consecuencia, en la clasificación e identificación
bacteriana.
El ARNr 18S
Es la macromolécula equivalente dado que los ARNr 16S y 18S
proceden de las subunidades pequeñas de los ribosomas, el acrónimo
ARNr SSU, se utiliza para ambos. Los ARNr SSU se encuentran
altamente conservados, presentando regiones comunes a todos los
organismos, pero contienen además variaciones que se concentran en
zonas específicas.
El ARNr 23S
Es un componente de la subunidad 50S de los ribosomas de procariotas,
se trata de una cadena de ácido ribonucleico que, en Escherichia coli,
posee 2.904 nucleótidos de longitud en él radica la actividad peptidil
transferasa del ribosoma, esencial en la biosíntesis de proteínas. El
agente antimicrobiano denominado cloranfenicol es un inhibidor
enzimático de la traducción precisamente porque bloquea los residuos
aminoacídicos implicados en el proceso de generación del enlace
peptídico.
El ARNr 5S
Es uno de los ARN ribosomales pequeños que constituyen tanto
la subunidad 50S grande de los ribosomas de los procariotas como
la subunidad grande 60S del ribosoma citosol de los eucariotas por otro
lado, está ausente en los
ribosomas mitocondriales de hongos y animales, en los seres humanos,
consta de 121 nucleótidos.