1. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Autores: Farm. Damián Palomba1,2
Dr. Gustavo E. Vazquez2
Dra. Mónica F. Díaz1,2
1PlantaPiloto de Ingeniería Química (PLAPIQUI)- U.N.S.- CONICET
2Laboratorio de Investigación y Desarrollo en Computación Científica
(LIDeCC)- U.N.S.- CONICET
2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba, 13/05/2011
2. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Introducción
Desarrollo de nuevos
Campo de aplicación general
materiales poliméricos
Síntesis de
propiedades
prototipos
deseadas
poliméricos
Campo de aplicación específico Predicción in silico de
propiedades
medición experimental
síntesis y el procesado del material dificultades intrínsecas
gasto de tiempo e incremento de costos
estimar propiedades previo a la
Ventaja
síntesis del material
2
3. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Temperatura de transición vítrea (Tg)
propiedades de los polímeros más material se convierte en rígido y frágil
ampliamente modeladas
característica del material cambios profundos manufactura y
propiedades mecánicas y físicas en el rango de T utilización del material
Tg/M = Temperatura de transición vítrea molar
M= masa de la unidad repetitiva más fácil modelar interconvertible
interacciones intra e aumentan Tg
restrinjan movimientos moleculares
intermoleculares
¡¡Enorme!! n › 20000
3
4. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Métodos QSPR para polímeros
Empíricos Teóricos
correlacionan target con otras descriptores moleculares
propiedades químicas y físicas estructura del monómero
y/o de la unidad repetitiva
grupos químicos investigados
QSPR con redes neuronales
Gran auge mejores resultados que
métodos lineales (MLR)
No linealidad de la propiedad
Calidad de los descriptores Calidad del modelo
Conclusion
Buenos modelos a partir de buenos descriptores
QSPR= Quantitative Structure-Property Relationship
4
5. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Objetivos
características físicas,
químicas, geométricas y
electrónicas de las cadenas
Nuevos principales y laterales
Descriptores
Nuevo Modelo
por medio de QSPR
una ANN
5
6. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Estrategias
Varias
Unidad Cadena
unidades Trímero Monómero Grupo Lateral
repetitiva Principal
repetitivas
Estireno Poliestireno
Unidades repetitivas
(monómero) unidad repetitiva (mer)
¡¡Enorme!! n › 20000
6
7. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Estrategias
Varias
Unidad Cadena
unidades Trímero Monómero Grupo Lateral
repetitiva Principal
repetitivas
Modelado molecular computacional
Propiedades cadena principal y
al grupo lateral de la unidad estructura tridimensional
repetitiva media (trímero)
(Exp las cadenas influyen en la Tg)
7
8. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
H H CP
G
Estireno
Modelado molecular computacional
Poliestireno L
(monómero)
Propiedades cadena repetitiva y
unidad
principal unidad repetitiva
(media del trímero)
(mer)
al grupo lateral de la unidad estructura tridimensional
repetitiva media (trímero)
(Exp las cadenas influyen en la Tg)
Polimetilmetacrilato
unidad repetitiva
cadena principal grupo lateral
8
9. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Descriptores-Metodología
Modelado molecular computacional
Base de Datos
88 homopolímeros trímero (unidos cabeza-cola) completado con
hidrógenos HyperChem 8.0.7
(estructuralmente diversos)
(PM elevado)
optimización
Mecánica Cuántica
Mecánica Molecular
Método Semiempirical
(Método MM+)
(Algorithm Polak-Ribiere)
conformaciones energéticamente estables
cálculo de descriptores
Tradicionales Nuevos
trímero unidad repetitiva media del trímero
cadena principal grupo lateral
9
10. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Descriptores para QSPR
Descriptores Tradicionales trímero
descriptores 3D
descriptores
Molecular Properties 0D, 1D, 2D
Fingerprints
descriptores binarios
altamente correlacionados (R≥0.9)
Nuevos descriptores unidad repetitiva media del trímero
cadena grupo
principal lateral
área superficial (aproximada) área superficial (grid) volumen polarizabilidad
masa molecular Log P refractividad número de átomos
Propiedad cadena principal o lateral/número
de átomos de cadena principal o lateral
10
11. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Generación del modelo QSPR
Descriptores
Dragon Valores exp de
tradicionales (Target = Tg/M)
propiedades
HyperChem Descriptores Delphos (software de selección óptima de descriptores)
nuevos
25 mejores conjuntos alternativos de descriptores
Mejor conjunto de descriptores (criterio químico y estadístico)
Statistica
(redes neuronales)
Modelo QSPR
Validación del modelo QSPR
validación interna test de randomización
Cross-Validation y Y-Scrambling externa
al azar varias veces
set de datos diferentes proporciones
(entrenamiento, testeo y validación)
ad hoc 2 grupos de datos
11
12. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Resultados y discusión
modelo QSPR 4 descriptores
grupo lateral cadena principal trímero
masa área superficial (ap) área superficial (ap) RBN
número bajo principio de parsimonia (Occam) compuestos
más descriptores estructuralmente
literatura diversos
pocos descriptores familia en particular
Parámetros de la red neuronal
MLP 4-23-1 función de activación error function algoritmo de entrenamiento
capa oculta y salida Tanh SOS BFGS 81
Características de los sets
Entrenamiento:50% (n= 44) testeo :23% (n=20) Validación:27% (n=24 )
R2= 0.992 q2= 0.95 R2= 0.946
Rearmado de los sets 2 sets ad hoc
60-20-20 R2= 0.98; 0.98; 0.96 proporción equitativa 60-15-25 R2= 0.97; 0.93; 0.93
50-25-25 R2= 0.99; 0.97; 0.91 de todas las familias 60-15-25 R2= 0.98; 0.99; 0.92
no resultado al azar sin remover outliers
12
13. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Descriptores del modelo QSPR
área superficial del grupo lateral (aproximada)
relación inversa ante igual cantidad de materia ocupan mayor
los grupos más flexibles (los que poseen área superficial
libre rotación)
si la misma cantidad de materia restringen los
ocupa menos área superficial masa es más rígida movimientos de Tg
rotación
área superficial de la cadena principal (aproximada)
diferenciar estructuralmente en la cadena principal relación inversa
Área superficial GL
Área superficial CP
Tg/M
Tg/M 13
14. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
number of rotatable bonds (RBN) Es el número de enlaces que permiten libre rotación
alrededor de sí mismos
relación inversa correlación A sup del GL
el nro de enlaces que rotan libremente aumenta el A S GL ≠ cdo varía la CP
polióxidos el RBN es ≠ para c/u y el A S GL es 0 para todos
cadenas laterales longitudinales extensas Falla polímeros cadena lateral corta
RBN también M, de modo que Tg/M estos polímeros se diferencian A S del GL
masa del grupo lateral
relación inversa
Correlac A sup GL 2 grupos laterales masa similar A S GL
AS GL similar masa del grupo lateral
más representativa masa GL también M, de modo que Tg/M
14
15. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
masa GL
RBN
Tg/M Tg/M
15
16. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Dificultades superadas y ventajas con el enfoque
Dificultad
descriptores
cálculo peso molecular y target
toda molécula es prácticamente imposible Tg ≈ cte PM ≈ 25000
amplias distribuciones de PM y PM elevados base de datos PM › 50000
trímero independientes del PM
Ventajas
optimizar trímero unidad repetitiva media
interacciones velocidad de optimización influencia fisicoquímica, estérica y
intramoleculares electrónica de las unidades laterales
ocurren a › escala facilidad de cálculo conserva las características
de los descriptores estructurales
16
17. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
Conclusiones
Nuevos Descriptores
Independencia del tipo de sólo las cadenas más generalizables
átomos y grupos atómicos
Fáciles de calcular operación automatizada
Clara interpretación fisicoquímica
Relación inversa Tg/M
Nuevo Modelo QSPR
Número bajo de descriptores
Parámetros estadísticos equiparables a los mejores
Trabajo futuro
Modelo con mayor número de unidades repetitivas
Heteropolímeros Polímeros entrecruzados
Otras propiedades target mezclas de materiales poliméricos
17
18. 2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba / 11-13 de Mayo de 2011
18