Este documento describe los desafíos y avances en el desarrollo de software para sistemas biológicos. Se ha pasado de herramientas individuales a plataformas integradas que permiten el análisis y modelado de grandes cantidades de datos biológicos de manera colaborativa. Estas plataformas usan estándares de datos, ontologías, análisis basados en redes e inferencia, curación profunda de datos y simulaciones dinámicas para generar modelos fisiológicos multiescala. El futuro implic
2. PANORAMA
• El entendimiento de la Biología exige herramientas
que soporten su complejidad.
• Las Tecnologías de Laboratorio y su integración con
modelos computacionales es una exigencia.
• Desarrollar un entorno de trabajo colaborativo implica
el desarrollo de plataformas que soporten el volumen
de información.
3. SURGIMIENTO
• Inicia en el año 1990 con la aparición de la Biología de
Sistemas.
• Se desarrollan modelos de estudio del ciclo celular en
las que se evalúan los efectos de 120 mutaciones.
• Se empiezan a estudiar las vías de señalización
celular, sus proteínas y su papel en la aparición del
cáncer.
• Aparición de las “omicas”: Proteomica, Genomica,
Metabolomica…
4. DESAFIOS ACTUALES
• Soporte al volumen y dispersión de la Información.
• Integración de los actores y las fuentes del
conocimiento.
• Velocidad de computación y transferencia de la
información.
• Desarrollo de modelos biológicos de base
computacional que simulen el sistema.
5. APLICACIONES ACTUALES
• Diseño de Fármacos.
• Estudio de vías metabólicas.
• Genómica del Cáncer.
• Predicción de Sistemas Biológicos.
6. MODELOS CLAVE EN
BIOLOGÍA
• Manejo y Administración de los Datos.
• Análisis e Inferencia de los Datos basados en redes
• Curado de Datos (Deep Curation)
• Modelos de Simulación In Silico
• Modelamiento Fisiológico Multiescala
7. ADMINISTRACIÓN DE LOS
DATOS
• La ciencias biológicas se han convertido en la ciencias
de los grandes datos o del Big Data.
• La gestión de los datos no puede ser tratado con un
sistema de gestión corriente dada la heterogeneidad
de los datos, formatos y esquemas.
• Es necesario el desarrollo de estándares e
identificadores que permita la integración de la
información.
8. I. Estándares De Datos
Se refiere al desarrollo de estándares de representación
y comunicación en Biología de Sistemas.
Se han centrado en 3 aspectos
i. Representación Mínima
ii. Formatos de Archivo
iii.Ontologías
9. i. Representación Mínima
Es la información mínima requerida para los diferentes
experimentos en Biología de Sistemas.
• Minimum Information About a Microarray Experiment
(MIAME)
• Minimum Information About a Proteomic Experiment
(MIAPE)
• Minimum Information for Biological and Biomedical
Investigation (MIBBI)
10. ii. Formatos de Archivo
Definen como la información puede ser almacenada.
Usualmente son basados en XML. Se nombran algunos
estándares desarrollados.
• Microarray Gene Expression Data (MGED)
• Proteomics Standards Initiative (PSI)
• Metabolomics Standards Initiative (MSI)
11. iii. Ontologías
Definen las relaciones y jerarquías entre los diferentes
términos y permiten la anotación semántica de los
datos.
• Gene Ontology (GO)
• Systems Biology Ontology (SBO)
12. II. Herramientas de Análisis de
Datos
Se pueden clasifican en dos grupos.
i. Hojas de Calculo
ii. Aplicaciones Web
13. i. Hojas de Calculo
Es el modo de almacenamiento clásico en las ciencias
de la vida, se requiere conocimiento avanzado para el
llenado de los datos.
• MAGETAB: Herramienta de soporte a microarrays
basada en el modelo de hojas de calculo
• ELN(Electronic Notebook): proveen varias
herramientas, suele costar trabajo su implantación.
14. ii. Aplicaciones Web
Provee como principal característica el análisis y la
integración de la información conocidos genéricamente
como WMSs(Workflow Management Systems)
• KNIME: Analisis Bioinformatico
• Taverna
• Galaxy: Análisis Genómico
• Bio-STEER
• ELIXIR: Proyecto que planea construir una infraestructura
completa de administración de datos biológicos
15. ANÁLISIS E INFERENCIA DE LOS
DATOS BASADOS EN REDES
• Desarrollados en la ultima década
• Se implementan algoritmos para inferir relaciones
entre entidades moleculares (Genes, Proteínas,
Metabolitos…)
• Los modelos derivados de este tipo de modelado de
datos se conocen también como redes de inferencia,
redes de coexpresión o redes de asociación
16. ANÁLISIS E INFERENCIA DE LOS
DATOS BASADOS EN REDES
• Se han hecho estudios para encontrar patrones en la
expresión de los genes para distinguir estados de
salud/enfermedad
• Algunos estudios han incluido datos
multidimensionales para construir redes de genes
causales
• La nueva generación de tecnologías de secuenciación
incorporaran conocimiento de SNPs en este tipo de
modelos de inferencia
17. ANÁLISIS E INFERENCIA DE LOS
DATOS BASADOS EN REDES
• Están basados principalmente en inferencia bayesiana
18.
19. CURADO PROFUNDO DE LOS
DATOS
• A Diferencia de los modelos basados en redes de
inferencia, este crea un mapa detallado de interacción
molecular, utilizando como fuentes bases de datos y
publicaciones…
• La construcción del modelo no es automático, es manual o
semi-manual, permitiendo a los investigadores adicionar
sus propias hipótesis.
• Provee detalles de cada interacción donde le curador
puede ver el reporte de los mecanismos moleculares y
confrontarlos con la literatura
20. CURADO PROFUNDO DE LOS
DATOS
• Este enfoque es ideal en el descubrimiento y
desarrollo de medicamentos dado que la prioridad es
entender los mecanismos moleculares en lugar de
encontrar nuevas moléculas o interacciones.
• Seria ideal su combinación con modelos de inferencia
basados en redes
21. CURADO PROFUNDO DE LOS
DATOS
• Curación profunda requiere una estructura de
conocimientos de diversas fuentes bibliográficas y de
datos.
• The Systems Biology Graphical Notation (SBGN) fue
diseñada para estandarizar un método para la
estandarización de vías.
• Esta notación define la representación gráfica de
redes para que los usuarios pueden interpretar los
diagramas consistentemente.
22. MODELOS DE SIMULACIÓN IN
SILICO
• Los dos modelos anteriores son de naturaleza
estática, pero en biología todo es dinámico.
• Estos modelos de alimentan de los dos modelos
anteriores principalmente de la Deep Curation
• Las simulaciones tienen un papel importante en la
verificación computacional de modelos biológicos y la
predicción de comportamientos.
23. MODELOS DE SIMULACIÓN IN
SILICO
• Una vez creado el modelo inicial como un conjunto de
hipótesis, las simulaciones dinámicas examinan si el
modelo se comporta un sistema biológico real.
• Cuando algunos comportamientos observados no son
reproducidos por el modelo, esto indica que algunas
hipótesis son inexactas o que el modelo debe ser
alimentado con otras adicionales.
24. MODELOS DE SIMULACIÓN IN
SILICO
• Los modelos dinámicos han dilucidado con éxito la
transcripción de genes y su proceso de traducción en
proteínas.
• SBML, SBGN y MIRIAM son algunos de los estándares
desarrollados para la anotación y representación de
los modelos.
25. MODELOS FISIOLOGICOS
MULTIESCALA
• Se orienta al desarrollo de modelos fisiológicos a
partir de redes moleculares y polimorfismos
genéticos.
• Estos modelos implican un desafío dado que son de
importancia clínica, debido a que los polimorfismos
genéticos y su consecuentes diferencias en las redes
moleculares pueden explicar el origen de las
enfermedades.
26. MODELOS FISIOLOGICOS
MULTIESCALA
• En la actualidad se están haciendo esfuerzos con el fin
de relacionar los genomas a las moléculas y a su vez
estos elementos a componente fisiológico.
Se han desarrollado iniciativas con el fin de desarrollar
plataformas que integren modelos desde el nivel
genético y molecular al fisiológico Integral
I. Virtual Physiological Human (VPH)
II. High-Definition Physiology (HD-Physiology)
27. PLATAFORMAS INTEGRADAS
• Las plataformas integradas ha sido un mecanismo del
desarrollo de la alta productividad y eficiencia de las
industrias actuales. Se espera que ese mismo proceso
suceda en la Biología de Sistemas.
• La idea consiste en facilitar al usuario el diseño del
flujo de trabajo que se ajuste al modelo Biológico en
estudio, de modo que ofrezca altos niveles de
integración e interoperabilidad.
28. PLATAFORMAS INTEGRADAS
• Estas estrategias reducirían sensiblemente los costos
asociados al uso de herramientas independientes e
incompatibles.
• Se mejoraría la productividad y la reducción de errores
en el manejo y análisis de modelos biológicos
complejos.
• Las plataformas integradas serian una vía adecuada
del estudio del cáncer.
29. EL FUTURO…
• Crear y hacer el mejor uso de software y recursos de datos
facilitará la comprensión en profundidad de los sistemas
biológicos.
• El impacto de la creación de una plataforma de software
ampliamente aceptado puede ir mucho más allá de las mejoras
de productividad en el grupo de investigación debido a que la
plataforma podría potencialmente conectar grupos de
investigación a nivel mundial.
30. EL FUTURO…
• Aunque la colaboración internacional en proyectos científicos
es común, determinar la mejor manera de crear una
colaboración abierta con éxito sigue siendo un desafío.