Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Edgar Fernando Salcedo, M.Sc
CIENCIAS ÓMICAS: BIOINFORMÁTICA,
GENÓMICA, PROTEÓMICA,
TRANCRIPTÓMICA Y METAGENÓMICA
Fernando Salcedo
Biólogo, M.Sc.
e-mail: fsalcedo@unilibrebaq.edu.co

E. Fernando Salcedo, M.Sc
I. INTRODUCCIÓN A LA
BIOINFORMÁTICA
1. Historia de la Bioinformática
2. Definiciones de Bioinformática y Biología Computacional
3. Conocer los conceptos ‘wet lab ’ y ‘dry lab ’: la generación de nuevas
hipótesis basadas high-throughput analysis .
4. Conocer la existencia de diferentes sistemas operativos (UNIX/Linux, Mac
OS X, Microsoft Windows).
5. Conocer los diferentes formatos de archivos utilizados en Bioinformática y
Biología Computacional (.txt, .doc, .xls, .cvs, .xml, pdb, FASTA, GCG, etc),
así como los modos/aplicaciones para la interconversión de formatos.
6. Aplicaciones de la bioinformática en la biología molecular y la
biotecnología.

1. Historia de la Bioinformática
• La bioinformática es la disciplina que utiliza una combinación de las tecnologías de
la computación, las ciencias de la información y el conocimiento biológico, para
coleccionar, almacenar, relacionar, modelar e interpretar datos biológicos.
Historia de la informática
Historia de la biología molecular

Bioinformática

2. ¿Bioinformática o Biología Computacional?
• Bioinformática: Investigación, desarrollo o aplicación de
herramientas y enfoques computacionales, para expandir el uso
de datos biológicos, médicos o de salud; incluyendo la
adquisición, almacenamiento, organización, archivo, análisis o
visualización de los datos.
• Biología Computacional: El desarrollo y aplicación de
métodos de análisis de datos y métodos teóricos, modelación
matemática y técnicas de simulación computacional, para el
estudio de sistemas biológicos, conductuales y sociales.

¿Expectativas de la asignatura?

¿Qué NO es Bioinformática?
• Algoritmos Genéticos: Son llamados así porque se inspiran en la evolución
biológica y su base genético-molecular. Estos algoritmos hacen evolucionar
una población de individuos sometiéndola a acciones aleatorias semejantes a
las que actúan en la evolución biológica (mutaciones y recombinaciones
genéticas), así como también a una selección de acuerdo con algún criterio, en
función del cual se decide cuáles son los individuos más adaptados, que
sobreviven, y cuáles los menos aptos, que son descartados.
• Redes Neuronales: La clase de problemas que mejor se resuelven con las
redes neuronales son los mismos que el ser humano resuelve mejor:
Asociación, evaluación, y reconocimiento de patrones. Las redes neuronales
son perfectas para problemas que son muy difíciles de calcular pero que no
requieren de respuestas perfectas, sólo respuestas rápidas y buenas. Tal y
como acontece con el escenario bursátil en el que se quiere saber ¿compro?,
¿vendo?, ¿mantengo?, o en el reconocimiento cuando se desea saber ¿se
parece? ¿es el mismo pero tienen una ligera modificación?
• Un Algoritmo es una serie de pasos organizados que describe el proceso que
se debe seguir, para dar solución a un problema específico.

¿Quién es un Bioinformático?
• Utiliza y desarrolla herramientas de software
bioinformáticas para analizar los datos de
secuencias y estructuras moleculares y así
responder preguntas de tipo biológico y/o
encontrar nuevo conocimiento.

Competencias de los Bioinformáticos
• Conocimientos en biología molecular.
• Entendimiento perfecto del dogma central.
• Experiencia en paquetes más conocidos de
biología molecular.
• Conocimientos de ambientes Linux.
• Experiencia en programación con C++, Perl,
Phyton, Bash, Ruby, etc.

Capacidad de cómputo
Primera generación Segunda generación
Tercera generación Cuarta generación

Súper cómputo
Súper Computador Cluster de Computadores
http://upload.wikimedia.org/wikipedia/commons/3/3d/Us-nasa-columbia.jpg
http://linuxitomex.files.wordpress.com/2009/09/botnet.jpg
http://upload.wikimedia.org/wikipedia/commons/1/18/CRAY_T3D_d.jpg

Descifrando el código
http://www.dw.de/image/0,,16879454_303,00.jpg http://img.irtve.es/v/2418968/
http://gdb.martinoticias.org/0DDCBE54-D9C2-47B3-9339-0F5853533A02_mw1024_n_s.jpg

Bioinformática: Omas y Omicas

Transcriptomica
• Desde la caracterización del
genoma humano, han surgido
nuevas vías de investigación sobre
el análisis global del material
genético.
• Es evidente que NO todo el
genoma es transcrito y traducido
finalmente a proteínas
• Transcriptoma surge para
representar todo el mRNA
transcrito bajo unas circunstancias,
de forma global.
• Cada organismo tiene infinidad de
transcriptomas dependiendo del
tipo tisular o las condiciones
ambientales que se estudien.

Transcriptoma

Proteoma y Proteomica
• Proteoma: Es el set completo de proteínas y otros productos
génicos producidos por el genoma.
• Proteómica: Es el estudio de las interacciones entre proteínas,
incluyendo diferencias en los distintos estados del desarrollo,
tejidos y órganos.

¿Para qué es necesaria la bioinformática?
• Para poder abordar el descubrimiento de nuevo conocimiento biológico.
• Lo cual facilita la integración de información y una mejor comprensión de
los sistemas biológicos.
• Establece puentes entre distintas áreas de conocimiento.

3. “wet lab” y “dry lab”

Campos de acción
• Medicina
• Descubrimiento de drogas
• Medicina personalizada
• Terapias genética / Prevención
• Agricultura
• Mejoramiento de Cultivos
• Tratamiento plagas y enfermedades
• Ecología y Medio Ambiente
• Antropología
• Investigación forense

Oportunidades en Colombia
Específicamente se centran en desarrollar herramientas
bioinformáticas para:
• Fortalecer en el campo agrícola las áreas de estudios genómicos
en cultivos de interés estratégico nacional.
• Mejorar en salud humana la capacidad de innovación en
sistemas de diagnóstico, el desarrollo de procesos y productos
conducentes a la obtención de vacunas para el tratamiento
humano en enfermedades de alta incidencia en el país.
• En los temas de agua y producción limpia, implementar
procesos de tratamiento de residuos sólidos, líquidos
industriales y domésticos y procesos de biorremediación para el
tratamiento de desechos bióticos y xenobióticos.

Oportunidades en Colombia
•En biodiversidad y bosques para fortalecer el conocimiento y la
innovación sobre los componentes genéticos de la biodiversidad y
aportar conocimiento de tipo genético a la conservación de las especies.
•En el área de mercados verdes obtener mecanismos para agregar valor
de tipo genético y mejorar los procesos de escalamiento y obtención de
los mismos.
•Fortalecer las técnicas aplicadas al mejoramiento animal que permitan
conocer el potencial genético de las razas criollas.
•Identificar y estudiar a nivel genético nuestra diversidad marina, así
como para usar esta de manera sostenible.

Entorno típico de un proyecto Bioinformático

“Pipelines” Bioinformáticos
• “Copiar y pegar” desde una aplicación web a otra anotando manualmente.
• Ventajas : Rápido, fácil acceso a recursos distribuidos.
• Desventajas: Consumo de tiempo, tendencia al error, procedimientos tácitos
que hacen difícil compartir protocolos y resultados
• Conclusión: Sería mejor automatizar el proceso, es decir, un verdadero
Pipeline

"High Throughput Analysis" (HTA)
• Plataforma de "High Throughput Analysis" (HTA). Es un
sistema, diseñado y creado para el análisis rápido y la
caracterización masiva de colecciones de datos.
• Estos van desde la secuenciación de genomas enteros,
transcriptomas y pequeños RNAs no codificantes a la
descripción de las regiones metiladas, la identificación de una
proteína, sitios de interacción de ADN y detección de la
variación estructural.
• Next generation sequencing.

4. Sistemas operativos

Windows, Linux y Mac OS X
Windows Linux Mac OS X
- S.O. más popular
- La mayoría de los programas
son compatibles con este
S.O.
- Utilizado principalmente en
computadoras personales,
existiendo también diferentes
versiones para servidores y
dispositivos móviles.
- Tiene ciertas limitaciones por
RAM.
- No ofrece el bloqueo de
intrusos.
- Es costoso, debido a que es
necesaria una frecuente
atención y monitoreo contra
ataques de virus, hackers y
errores de código, así como
también la instalación y
actualización de parches y
service packs.
- Es uno de los paradigmas
más prominentes del software
libre y del desarrollo del
código abierto, su código
fuente está disponible
públicamente y cualquier
persona puede usarlo
libremente, estudiarlo,
redistribuirlo y modificarlo si
tiene conocimientos
informáticos.
- Es un sistema que ha sido
desarrollado por
programadores de todo el
mundo es por ello que es
libre y gratuito.
- Los Hackers y/o creadores de
virus rara vez atacan a
Software de Linux.
- Es considerado por muchos
expertos el sistema operativo
más sencillo de utilizar, más
innovador y de estética más
cuidada.
- Este sistema tiene su punto
fuerte en la producción y
edición de música,
fotografías y videos.
- Muy estable: Los usuarios de
Mac presumen de tener un
SO sin pantallas azules de
error.
- Blindado: Apple asegura que
su sistema está prácticamente
libre de la amenaza de los
virus.
- Atractivo: Mac ha destacado
siempre por su aspecto
gráfico.

¿Miedo a Linux?

Un Linux amigable…
Lo que muchos imaginan…
La realidad…

5. Tipos de archivos y archivos de secuencias
• Archivos binarios:
• Comprimidos o empaquetados: .zip, .Z, .gz, .tar
• Ejecutables o compilados: .exe, .com, .bat, .dll, .mdb
• Procesadores de palabras: .doc .txt
• Archivos ascii: Los archivos ASCII son archivos básicos de texto,
donde cada byte contiene un carácter ASCII. Los caracteres siguen el
estándar fijado por el Código Estándar Estadounidense para el
Intercambio de Información (ASCII).
• Dentro de los archivos ASCII de uso común por los programas de
bioinformática están los siguientes:
• De secuencias: .seq
• De secuencias múltiples: .aln, .msf (Multiple Sequence Format,
secuencias alineadas), .rsf (Rich Sequence Format, estos archivos
pueden incluir una o más secuencias relacionadas o no).

FastQ

Formatos de archivos de secuencias
• Todos estos archivos se caracterizan por tener ciertos formatos
distintivos, que hacen posible su reconocimiento por parte de los
programas de manipulación y análisis de secuencias como el PHYLIP,
el GCG; entre muchos otros.
• Formato FASTA (*.fas): es uno de los formatos más empleados en la
actualidad. Puede incluir una o más secuencias lineales de nucleótidos
o aminoácidos no alineadas.

• Alineamiento (*.aln): es uno de los muchos formatos para archivos
de secuencias alineadas más utilizados por los programas de análisis
de secuencias (MUSCLE o CLUSTAL).
• Tanto nucleótidos como aminoácidos son representados por el código
de una letra; los gaps son indicados con un guión "-" y al final de las
secuencias alineadas, puede aparecer una especie de secuencia
consenso con signo: "*"

• Formato PHYLIP (*.phy): es un formato de secuencias de
nucleótidos y de residuos de aminoácidos que se utiliza
frecuentemente como formato de entrada de diferentes programas o
paquetes de análisis tales como: PHYLIP (el cual le dio el nombre) y
MEGA; entre otros.
Intercalado Secuencial

• GCG: Éstos pertenecen a la categoría Archivos de datos. El nombre
completo de este formato de archivo es GCG DNA Sequence File. Se
pueden abrir con el programa MEGA.

• GenBank: este formato es el utilizado para los reportes de secuencias tanto de
nucleótidos como de aminoácidos (genPept) en el GenBank. Se caracteriza por
proporcionar al usuario una información bastante completa sobre la secuencia.

• EMBL: los archivos en este formato son reportes generados por la
base de datos de secuencias de nucleótidos y de proteínas respaldada
por el EMBL (European Molecular Biology Laboratory).

• Nexus: Es el formato de archivo utilizado por PAUP, PAML, entre otros
para análisis evolutivos y filogenético. Se caracteriza porque inicia con el
Numeral seguido por la palabra NEXUS. En muchos casos es necesario
editarlo “manualmente” según el tipo de análisis que se quiera usar.

• Formato MEGA (*meg):

• Protein Data Bank (PDB): es un repositorio de descripciones experimentales de
las estructuras moleculares de proteínas y ácidos nucleicos resueltos hasta el
momento. Cada descripción es un archivo de texto que contiene las coordenadas
atómicas de la molécula en cuestión en un formato que se llama PDB. Los datos
son generalmente obtenidos mediante cristalografía de rayos X o resonancia
magnética nuclear. Es de dominio público y puede ser usada libremente.

6. Importancia de la bioinformática
• Esta disciplina está siendo aplicada en problemas que implican
evaluar y entender la dispersión y la variación de marcadores
genéticos, modelaje molecular, genómica, proteómica, y minería
de datos biológicos. Se ha aplicado en medicina forense,
antropología, manejo y control de plagas, conservación,
desarrollo de vacunas y drogas, mejoramiento genético de
animales y plantas, entre otros.

Importancia de la bioinformática
• Con las herramientas bioinformáticas podemos obtener
información de:
- Secuencias con palabras clave o información similar a la
secuencia problema.
- La obtención de secuencias de DNA o proteínas similares a la
secuencia problema.
- El alineamiento múltiple de la secuencia problema con otras
similares, y definición de regiones conservadas y variables.
- Ensamblaje de fragmentos de DNA y creación de mapas
genómicos.
- La reconstrucción de la filogenia a partir del alineamiento.
- Genómica comparativa: Estudio de la estructura y función
del genoma entre diferentes especies.

II. BASES DE DATOS
1. Contenedores de información biológica: bases de datos.
2. Definición, organización y mantenimiento de las bases de datos.
3. Definición de bases de datos primarias. Visión histórica de la creación de
las mismas. Funcionamiento de las Bases de datos: índices, campos, métodos
de búsqueda. Bases de datos de proteínas. Bases de datos de ADN. Ejemplos
de bases de datos primarias: Genbank, EMBL, Swiss-Prot, PDB.
4. Definición de bases de datos secundarias. Construcción de bases de
secundarias. El problema de los falsos positivos/negativos. Modelos ocultos
de Markov. Ejemplos de bases de Datos secundarias: Pfam, Gene-Ontology,
UniProt, PRINTS, ProSIte.. Diseño y mantenimiento de bases de Datos
secundarias.

1. Contenedores de inf. biológica: bases de datos
• Base de Datos: Es un conjunto de datos pertenecientes a un
mismo contexto y almacenados sistemáticamente para su
posterior uso.
Modelos de bases de datos
• Un modelo de datos es básicamente una “descripción” de
algo conocido como contenedor de datos, así como de los
métodos para almacenar y recuperar información de esos
contenedores

• Bases de datos jerárquicas: En este modelo los datos se
organizan en una forma similar a un árbol (visto al revés), en
donde un nodo padre de información puede tener varios hijos.
El nodo que no tiene padre es llamado raíz, y a los nodos que
no tienen hijos se los conoce como hojas.

• Bases de datos relacionales: Éste es el modelo utilizado en la
actualidad para modelar problemas reales y administrar datos
dinámicamente. El lenguaje más habitual para construir las
consultas a bases de datos relacionales es SQL, Structured
Query Language.

¿Por qué las bases de datos?
• Crecimiento exponencial de los datos biológicos.
• Datos (secuencias, estructuras 3D, análisis gel 2D, MS
análisis, etc) no son publicados en revistas, pero si en bases
de datos.
• Son usadas en investigación biológica, como lo eran la
revistas científicas.
• Los biólogos dependen de los computadores para almacenar,
organizar, buscar, manipular, y recuperar los datos
• Base de todas las herramientas bioinformáticas.

Historia de las bases de datos biológicas

Bases de datos primarias y secundarias
• Bases de datos primarias o bancos de datos: almacenan los datos tal y
como han sido depositados por quienes los han generado, de manera que
se pueden analizar repetidamente a medida que van surgiendo nuevas
herramientas.
BD de Nucleótidos
• GenBank
• ENA (European Nucleotide Archive)
• DDBJ (DNA Data Bank of Japan)
• NDB (Nucleic acid database) (Estructura tridimensional de ácidos
nucleicos)
BD de proteínas
• SWISS-PROT
• Uniprot-KB
• PDB (Protein Data Bank) (Estructura tridimensional de proteínas)

https://www.ncbi.nlm.nih.gov/genbank/

http://www.ebi.ac.uk/ena/

http://www.ddbj.nig.ac.jp

http://ndbserver.rutgers.edu

http://web.expasy.org/docs/swiss-prot_guideline.html

http://www.rcsb.org/pdb/home/home.do

Bases de datos primarias y secundarias
• Bases de datos secundarias o derivadas: A partir del análisis de la
información depositada en las bases de datos primarias se pueden
descubrir nuevas propiedades o establecer nuevas relaciones entre los
datos. En muchos casos resulta interesante almacenar todo este "valor
añadido" en una nueva base de datos para que otros investigadores
puedan acceder directamente a esta información.
BD de proteínas
• ProSIte
• PRINTS
• Pfam
• UniProt
Otras
• Gene-Ontology
• Refseq (Reference Sequence): BD de nucleótidos mantenida por el NCBI.

Bases de datos especializadas
• Bases de datos compuestas: surgen a partir de la fusión de
otras ya existentes (primarias o secundarias). Su gran ventaja
es que evitan tener que hacer varias búsquedas.
• Uniprot-KB: es la suma de tres bases de datos primarias de
secuencias de proteínas: SWISS-PROT, TrEMBL y PIR
• InterPro: es la suma de once bases de datos secundarias de
secuencias de proteínas.

Bases de datos especializadas
• Bases de datos específicas: Aquéllas que sólo contienen información
relativa a un organismo concreto o a un tipo de molécula determinado.
• ZFIN: (pez cebra)
• Flybase: (Drosophila melanogaster)
• Rebase: (información relac. con las enzimas de restricción)
• tRNAdb: (RNA de transferencia)
• Q-bank Bacteria database: contiene secuencias de ADN curadas
(Barcodes) de aproximadamente trescientas cepas bacterianas de
relevancia en fitopatología bacteriana.
• NCIMB Bacteria Database: (National Collections of Industrial,
Marine and Food Bacteria).
• SGD: (Levadura)
• TAIR: (Arabidopsis)
• ENSEML: (Hombre, ratón y otros).
• KEGG: Rutas metabólicas.
• OMIM: Enfermedades genéticas humanas.

Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Similar a Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA (20)

Último

Último (20)

Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA