SlideShare una empresa de Scribd logo
1 de 81
Descargar para leer sin conexión
DESARROLLO DE METODOLOG´IA PARA CONTROL A PRIORI DE
DENSIDAD Y CONTACTOS DEFECTUOSOS EN PREDICCI´ON DE
ESTRUCTURAS CRISTALINAS DETERMINANTES EN EL DISE ˜NO DE
DROGAS FARMAC´EUTICAS
Dami´an A. Grillo
UNIVERSIDAD DE BUENOS AIRES
Facultad de Ciencias Exactas y Naturales
Tesis de Licenciatura en Ciencias F´ısicas
Octubre 2012
Resumen
El M´etodo de Algoritmos Gen´eticos Modificados para Cristales (MGAC) es una de
las metodolog´ıas disponibles actualmente para resolver problemas de predicci´on de estruc-
turas cristalinas de mol´eculas org´anicas. Esta tesis est´a dedicada a proponer y evaluar
m´etodos para excluir las estructuras an´omalas de la poblaci´on cuando se utiliza el MGAC.
Uno de los m´etodos corresponde a un criterio basado en la observaci´on de vol´umenes de
celda, mediante el cual se excluyen todos aquellos candidatos que no cumplan el criterio
de volumen establecido. El otro m´etodo consiste en un criterio basado en la verificaci´on
de los contactos at´omicos dentro del cristal, mediante el cual se excluyen todas aquellas
estructuras que presenten defectos en sus contactos at´omicos.
Para estudiar el comportamiento del MGAC bajo estas modificaciones, se realizaron
simulaciones tanto antes como despu´es de la implementaci´on de los m´etodos. Los sistemas
estudiados para tal fin correspondieron a las mol´eculas denominadas Mol-XVI, Mol-XVII,
Mol-XVIII y Mol-XX, las cuales formaron parte del conjunto de mol´eculas propuestas en
el desaf´ıo de predicci´on de estructuras CSP2010, y tambi´en se estudi´o la mol´ecula deno-
minada Jayces, la cual hab´ıa sido tratada previamente con MGAC. Luego se compararon
los resultados obtenidos en cada caso, identificando las ventajas y desventajas de la aplica-
ci´on del m´etodo. Para las mol´eculas correspondientes al CSP2010 se realiz´o una discusi´on
comparando el MGAC con otras m´etodos que han tenido resultados satisfactorios en dicho
certamen.
1
2
Agradecimientos
Primero quiero agradecer a la Dra. Marta B. Ferraro, directora de esta tesis, por la
oportunidad brindada con este trabajo. En ella he encontrado una excelente profesional y
una gran persona, que me ha dado todo el apoyo, la confianza y la gu´ıa adecuada para
poder trabajar de la mejor manera, siempre valorando mi labor y apuntal´andome en lo que
fuera necesario.
Agradezco al Dr. Julio C. Facelli, director del CHPC de la Universidad de Utah, por
su colaboraci´on y su apoyo brindado para la realizaci´on de esta tesis.
Agradezco a mis compa˜neros, colegas, y sobre todo amigos, Facundo, Javier, Cynthia
y Ariel, por esos almuerzos, meriendas y cenas, por esos momentos y charlas compartidas.
Por todas esas cosas, ellos tambi´en han sido un gran apoyo en mi carrera y en mi vida.
Agradezco a Daniel Vega y a Griselda Polla, quienes han sido muy importantes tanto
en mi desarrollo acad´emico como profesional.
Agradezco a mis amigos de la vida, no voy a nombrarlos porque son unos cuantos
y no quiero omitir a ninguno, pero cada uno de ellos sabe desde qu´e lugar fueron, son y
ser´an importantes para m´ı.
Agradezco a la Universidad de Buenos Aires y al CHPC de la Universidad de Utah
por facilitar sus instalaciones para llevar a cabo esta tesis.
Por ´ultimo quiero agradecer a mi familia, quienes han sido un constante apoyo en mi
vida. Me han alentado en mis decisiones, me han sostenido en los momentos de debilidad y
me han orientado en los momentos de duda. Por estas cosas, mi formaci´on como profesional
y como ser humano, tambi´en se debe en gran parte a ellos.
3
4
´Indice general
Resumen 1
Agradecimientos 3
1. Introducci´on 7
1.1. Importancia de la predicci´on de estructuras . . . . . . . . . . . . . . . . . 7
1.2. Caracter´ısticas de los m´etodos de predicci´on de estructuras . . . . . . . . . 8
1.3. C´alculo de la energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Muestreo del espacio de configuraciones . . . . . . . . . . . . . . . . . . . . 9
1.5. Problemas de los m´etodos de predicci´on de estructuras . . . . . . . . . . . 10
1.6. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. M´etodo de Algoritmos Gen´eticos Modificados para Cristales 13
2.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Genoma de un cristal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3. Operadores gen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4. Descripci´on general del algoritmo . . . . . . . . . . . . . . . . . . . . . . . 16
2.5. C´alculo de la energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. M´etodos para el control a priori de la poblaci´on 21
3.1. M´etodo de control basado en el volumen de celda y la densidad de los cristales 21
3.1.1. Descripci´on del modelo de Hofmann . . . . . . . . . . . . . . . . . . 23
3.1.2. Descripci´on del modelo ARH . . . . . . . . . . . . . . . . . . . . . 24
5
6
3.2. M´etodo de control basado en contactos at´omicos . . . . . . . . . . . . . . . 26
3.2.1. Exploraci´on del cristal . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2. Extensi´on de la regi´on de exploraci´on . . . . . . . . . . . . . . . . . 32
3.2.3. Verificaci´on de la integridad del cristal . . . . . . . . . . . . . . . . 38
4. Resultados 41
4.1. Configuraci´on del filtro de volumen . . . . . . . . . . . . . . . . . . . . . . 41
4.1.1. An´alisis de modelos para estimaci´on de vol´umenes de celda . . . . 45
4.1.2. Determinaci´on del rango de aceptaci´on . . . . . . . . . . . . . . . . 48
4.2. Implementaci´on del m´etodo de control . . . . . . . . . . . . . . . . . . . . 51
4.3. Resultados de la implementaci´on . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1. Resultados para Mol-XVI . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.2. Resultados para Mol-XVII . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.3. Resultados para Mol-XVIII . . . . . . . . . . . . . . . . . . . . . . 60
4.3.4. Resultados para Mol-XX . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.5. Resultados para Jayces . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.6. Consideraciones generales respecto de los problemas presentados en
el CSP2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5. Conclusiones 73
Bibliograf´ıa 77
6
Cap´ıtulo 1
Introducci´on
1.1. Importancia de la predicci´on de estructuras
Existen varias razones para justificar la necesidad de predecir estructuras cristalinas.
En el caso de los cristales moleculares, las mismas se encuentran relacionadas con la discipli-
na denominada Ingenier´ıa de Cristales, la cual tiene como objetivo el dise˜no de materiales
s´olidos con ciertas propiedades espec´ıficas. Productos farmac´euticos, agroqu´ımicos, pig-
mentos, materiales altamente energ´eticos, etc., son ejemplos de algunos s´olidos cristalinos
org´anicos de gran importancia para diferentes aplicaciones.
La evidencia experimental muestra que existe una gran cantidad de compuestos que
exhiben el fen´omeno de polimorfismo. Se conoce como polimorfismo a la capacidad que tie-
ne una dada sustancia de existir en dos o m´as formas cristalinas, las cuales se caracterizan
por tener diferentes ordenamientos de sus mol´eculas dentro de la estructura cristalina [1].
Existen situaciones en las cuales las mol´eculas presentan adem´as distintas conformaciones,
es en estos casos cuando se habla de polimorfismo conformacional. Como resultado de estas
diferencias estructurales, cada polimorfo manifiesta diferentes propiedades f´ısicas y qu´ımi-
cas, entre las cuales se pueden destacar punto de fusi´on, solubilidad, densidad, estabilidad,
higroscopicidad, estabilidad, dureza, conductividad t´ermica y el´ectrica, entre otras.
Por lo tanto, para buscar y dise˜nar nuevos materiales con las propiedades deseadas,
7
8 Introducci´on
resulta de vital importancia disponer de herramientas que permitan obtener informaci´on
acerca de los distintos polimorfos y conseguir el control de su producci´on. Por este motivo,
el desarrollo de metodolog´ıas que permitan conocer las formas m´as probables en la que un
compuesto cristaliza resulta de especial inter´es.
1.2. Caracter´ısticas de los m´etodos de predicci´on de
estructuras
Ante la gran cantidad de posibles estructuras que puede llegar a formar un dado
compuesto, resulta necesario determinar cu´al de todas corresponde a la configuraci´on m´as
estable. El criterio m´as ampliamente aceptado consiste en establecer a la estructura de
m´ınima energ´ıa como la termodin´amicamente m´as estable. Por este motivo, la mayor par-
te de los m´etodos de predicci´on de estructuras cristalinas se basan en procedimientos de
b´usqueda de la soluci´on de energ´ıa m´ınima, lo que com´unmente se conoce como optimiza-
ci´on global.
Existen numerosos m´etodos de optimizaci´on global, pero no todos resultan eficaces
para atacar el problema de la predicci´on de estructuras. Dada la enorme complejidad del
mapa de energ´ıa, la b´usqueda del m´ınimo global se convierte en un problema de tipo
NP-dif´ıcil, por lo tanto los m´etodos determin´ısticos no son aplicables en este contexto.
Aqu´ı es donde entran en juego los m´etodos heur´ısticos y los m´etodos estoc´asticos, mediante
los cuales se busca alcanzar el m´ınimo global a partir de un muestreo representativo del
espacio de configuraciones. Este muestreo requiere de alg´un criterio que gu´ıe la b´usqueda,
el cual corresponde justamente a la energ´ıa de cada configuraci´on. En consecuencia, tanto
el m´etodo de c´alculo de energ´ıa como el m´etodo de muestreo ser´an los principales factores
que dirijan el rumbo de la optimizaci´on.
8
1.3. C´alculo de la energ´ıa 9
1.3. C´alculo de la energ´ıa
Tal como se ha descrito previamente, la predicci´on de estructuras involucra la b´usque-
da de la configuraci´on de m´ınima energ´ıa. Por lo tanto, un m´etodo adecuado para calcular
la energ´ıa de cada configuraci´on de manera precisa debe ser provisto. Existen distintos
m´etodos para llevar a cabo este tipo de c´alculo, entre los m´as utilizados se encuentran
aquellos que implementan el uso de potenciales cl´asicos y aquellos que implementan m´eto-
dos cu´anticos basados en DFT. Estos ´ultimos suelen ser m´as precisos que los primeros, pero
tienen la desventaja de tener un mayor costo computacional. En el caso de los cristales
moleculares, suelen preferirse los m´etodos implementados en base a potenciales cl´asicos,
dado que se pueden obtener resultados comparables a los conseguidos con los m´etodos
DFT pero con un costo computacional mucho menor. En este punto resulta crucial que el
m´etodo disponga de una correcta parametrizaci´on de los potenciales cl´asicos para realizar
el c´alculo de energ´ıa de manera precisa.
1.4. Muestreo del espacio de configuraciones
La complejidad num´erica de encontrar una cantidad de m´ınimos que sean representa-
tivos, incluyendo el m´ınimo global, puede llegar a ser muy grande. El problema se complica
a´un m´as en los casos en los que las mol´eculas presentan cierto nivel de flexibilidad, esto es,
las mol´eculas pueden admitir una gran variedad de conformaciones que pueden ser energ´eti-
camente accesibles. Luego, las distintas conformaciones pueden traer como consecuencia
diferentes arreglos espaciales de las mol´eculas, lo cual deriva en diferentes polimorfos. Por lo
tanto, en la b´usqueda de nuevos polimorfos, se encuentran acopladas tanto las posiciones de
las mol´eculas dentro del cristal como las diferentes conformaciones que pueden presentar,
esto hace que la cantidad de grados de libertad del problema aumente considerablemente.
Es aqu´ı donde el muestreo del espacio de configuraciones juega un rol fundamental.
Un muestreo efectivo deber´ıa ser capaz de alcanzar la zona del espacio de configuraciones
donde se encuentra el m´ınimo global, mientras que un muestreo deficiente puede pasar por
9
10 Introducci´on
alto dicha zona, por lo cual el m´ınimo global nunca ser´a encontrado. De esta manera, el
problema del muestreo se convierte en otro punto crucial a la hora de la b´usqueda del
m´ınimo global; para resolverlo se suelen utilizar diversas t´ecnicas computacionales, tanto
heur´ısticas como estoc´asticas, ya sea algoritmos gen´eticos, simulated annealing, Monte-
Carlo, entre otros.
1.5. Problemas de los m´etodos de predicci´on de es-
tructuras
Para el caso de los cristales moleculares, se ha mencionado que los m´etodos que
emplean potenciales cl´asicos para el c´alculo de energ´ıa resultan de especial inter´es, dadas
sus ventajas frente a los que implementan m´etodos cu´anticos. Sin embargo, a la hora de
realizar una predicci´on de estructuras, dichos m´etodos tambi´en se encuentran con algunas
dificultades, las cuales est´an principalmente relacionadas con dos factores fundamentales:
la precisi´on en el c´alculo de energ´ıa y el muestreo del espacio de configuraciones.
En el primer caso, los problemas se pueden originar por dos motivos. Por un lado,
puede ocurrir que la aplicaci´on del m´etodo de c´alculo de energ´ıa no resulte apropiada para
el sistema en cuesti´on, dado que la parametrizaci´on de los potenciales cl´asicos no sea la
adecuada para el sistema estudiado. Por otro lado, puede darse que el m´etodo calcule
valores de energ´ıa err´oneos para algunas estructuras muy alejadas de la configuraci´on de
equilibrio. Este tipo de problema se produce debido a que los potenciales se parametrizan
en regiones pr´oximas a estructuras de energ´ıa m´ınima, y puede ocasionar que el potencial
no se encuentre bien modelado y resulte deformado en las regiones m´as alejadas. Como
consecuencia de esta anomal´ıa, algunas estructuras f´ısicamente defectuosas pueden ser
susceptibles de exhibir bajas energ´ıas, lo cual las har´ıa parecer como buenas estructuras,
hablando en t´erminos energ´eticos, causando que la b´usqueda del ´optimo global se dirija en
esa direcci´on, equivocando el camino.
En el segundo caso, el ´exito de la predicci´on se ve comprometido por un deficiente
10
1.6. Objetivos de la tesis 11
muestreo del espacio de configuraciones, en el cual la zona donde se encuentra el m´ınimo
global no es alcanzada y, por lo tanto, la configuraci´on ´optima nunca es encontrada. Este
problema suele observarse en los sistemas cuyas mol´eculas presentan gran flexibilidad,
elevando considerablemente el n´umero de grados de libertad y haciendo que el espacio de
configuraciones sea demasiado extenso para ser muestreado de manera efectiva.
1.6. Objetivos de la tesis
Existen en la actualidad varios m´etodos de predicci´on de estructuras, todos ellos en
continuo desarrollo y a la espera de nuevas mejoras [4]. El m´etodo de algoritmos gen´eticos
modificado para cristales, MGAC [5], es uno de ellos y fue el elegido para el desarrollo de
este trabajo.
El m´etodo MGAC ha sido probado en numerosas oportunidades, cosechando ´exitos y
algunos fracasos [2, 3, 4]. En estos ´ultimos casos, se han realizado exhaustivas pruebas con
el fin de determinar cu´ales son los factores que influyen para que los resultados obtenidos no
conduzcan a una predicci´on exitosa; en la mayor´ıa de ellos las fuentes de error se encuentran
asociadas con las cuestiones descritas anteriormente: la precisi´on en el c´alculo de energ´ıa
y el muestreo del espacio de configuraciones.
El objetivo de esta tesis se centra principalmente en la propuesta de nuevos m´etodos
auxiliares que ayuden a resolver, por un lado, el problema de la inclusi´on de individuos
f´ısicamente defectuosos exhibiendo bajas energ´ıas, y por otro lado, el problema relacionado
con el muestreo de espacios de configuraciones extensos. Para resolver estos problemas se
proponen dos m´etodos diferentes, uno basado en el volumen de celda y en la densidad de los
cristales, y el otro basado en el criterio de contactos at´omicos. Estos m´etodos funcionar´ıan
como mecanismos de control que filtrar´ıan a priori aquellas estructuras carentes de sentido
f´ısico, lo cual causar´ıa un doble efecto: se lograr´ıa acotar el espacio de b´usqueda y se
conseguir´ıa descartar aquellas configuraciones defectuosas de baja energ´ıa, introducidas en
la poblaci´on por el artilugio del potencial cl´asico.
11
12 Introducci´on
En el cap´ıtulo 2 se realiza una descripci´on del m´etodo MGAC, analizando de manera
breve cada uno de sus m´odulos y realizando una breve descripci´on del funcionamiento
general del m´etodo. En el cap´ıtulo 3 se introducen los dos m´etodos propuestos para control
a priori de las poblaciones. En el cap´ıtulo 4 se presentan los resultados obtenidos para una
serie de cristales estudiados. En el cap´ıtulo 5 se presentan las conclusiones y se eval´uan los
posibles trabajos a futuro para realizar nuevas mejoras.
12
Cap´ıtulo 2
M´etodo de Algoritmos Gen´eticos
Modificados para Cristales
2.1. Introducci´on
El m´etodo MGAC [5] constituye uno de los tantos m´etodos de optimizaci´on global
desarrollados para cristales moleculares. El m´etodo tiene como objetivo encontrar el m´ıni-
mo global mediante un barrido eficiente del espacio de configuraciones. Los fundamentos
b´asicos y su implementaci´on se describen brevemente a continuaci´on.
2.2. Genoma de un cristal
El genoma constituye la estructura mediante la cual se codifica la informaci´on de
cada individuo. En el caso de los cristales, la informaci´on necesaria para describir a cada
uno de ellos consiste en los par´ametros de su celda unidad y la posici´on de cada ´atomo
dentro de ella. La celda unidad se define como el bloque de ´atomos que, al ser repetido
peri´odicamente, forma el cristal. En el caso que el cristal presentase m´as simetr´ıas que la
traslacional, o sea que tambi´en presente simetr´ıas puntuales, s´olo es necesario definir las
posiciones de los ´atomos que se encuentran en una porci´on de la celda, conocida como
celda asim´etrica. El resto de las posiciones dentro de la celda unidad est´an dadas por las
13
14 M´etodo de Algoritmos Gen´eticos Modificados para Cristales
Figura 2.2.1: Representaci´on esquem´atica del cristal generado por el genoma.
operaciones de simetr´ıa del cristal. La combinaci´on entre simetr´ıas de punto y traslacionales
forman lo que se conoce como grupos espaciales [6].
Por lo tanto, para definir un cristal completamente es necesario conocer los par´ame-
tros de la celda unidad, las posiciones de los ´atomos en la celda asim´etrica y el grupo
espacial. En el caso de cristales moleculares, puede reducirse notablemente la cantidad de
informaci´on necesaria para describir al cristal, ya que es posible considerar que existen por-
ciones de la mol´ecula que son r´ıgidas. De esta manera, para especificar las coordenadas de
todos los ´atomos, s´olo se necesita conocer la posici´on del centro de masa de las mol´eculas,
sus orientaciones y los valores de los ´angulos diedros que vinculan entre s´ı cada porci´on
r´ıgida de la mol´ecula. Este esquema es el elegido para representar finalmente el genoma del
cristal (Ver Figura 2.2.2).
14
2.3. Operadores gen´eticos 15
Figura 2.2.2: Representaci´on esquem´atica del genoma de un cristal.
Como se puede observar, cada tipo de par´ametros se mantiene en diferentes sectores
del genoma, esto es para que la informaci´on se intercambie entre categor´ıas similares de
par´ametros y no se mezcle al aplicar los operadores gen´eticos. Tambi´en se puede apreciar
que los ejes de la celda unidad no son parte del conjunto de par´ametros a optimizar. Por el
contrario, los ejes son sometidos a un procedimiento de ajuste, tal que las mol´eculas corres-
pondientes a la celda unidad queden enteramente contenidas en ella. A este procedimiento
se lo denomina fitcell (para m´as detalles, consultar [5]).
2.3. Operadores gen´eticos
La funci´on de los operadores gen´eticos consiste en el intercambio y la creaci´on de
informaci´on entre los individuos presentes. Existen dos tipos de operadores: de recombi-
naci´on y de mutaci´on. Los operadores de recombinaci´on toman dos estructuras para crear
otras dos a trav´es del intercambio de la informaci´on presente en las estructuras a la en-
trada del mismo, mientras que los operadores de mutaci´on toman una sola estructura a
su entrada, que se modifica para crear una nueva estructura. Los detalles de los distintos
tipos de operadores implementados pueden consultarse en [5].
El tipo de operador aplicado se elige al azar entre los operadores disponibles y la
frecuencia con que se aplican var´ıa seg´un el tipo, esto se debe a la funci´on que cumple cada
15
16 M´etodo de Algoritmos Gen´eticos Modificados para Cristales
uno. Por un lado, los operadores de recombinaci´on explotan la informaci´on existente en los
individuos presentes, mientras que la mutaci´on explora nuevas estructuras, introduciendo
nueva informaci´on. En general, las implementaciones de algoritmos gen´eticos tratan de
asignar una mayor frecuencia a los operadores de recombinaci´on, con lo cual se privilegia
una b´usqueda con memoria, la cual aprende de las estructuras previamente generadas para
construir nuevas generaciones.
2.4. Descripci´on general del algoritmo
El primer paso del algoritmo consiste en crear aleatoriamente una poblaci´on o ge-
neraci´on inicial. Para esto, el siguiente procedimiento es aplicado para inicializar a cada
individuo. Las posiciones de las mol´eculas son generadas eligiendo puntos aleatorios de un
cubo de un tama˜no dado, que depender´a de las caracter´ısticas geom´etricas de la mol´ecu-
la y del n´umero de ellas por celda asim´etrica. En forma similar, las orientaciones de las
mol´eculas y los ´angulos diedros son tambi´en elegidos de manera aleatoria. Luego, los ejes
de la celda se ajustan mediante el procedimiento de fitcell, para que el conjunto de mol´ecu-
las generado aleatoriamente quede contenido dentro de la celda asim´etrica. Por ´ultimo, el
conjunto es sometido a una optimizaci´on local. El siguiente paso es la elecci´on del 50 % de
los cristales de la poblaci´on inicial a trav´es del m´etodo estoc´astico conocido como Roulette
Wheel, en el cual cada cristal presenta una probabilidad de ser elegido proporcional a
pi ∝
Emax − Ei
Emax − Emin
, (2.4.1)
donde Ei es la energ´ıa total del cristal y Emax, Emin son la m´axima y la m´ınima energ´ıa
presentes en la poblaci´on. Todas estas energ´ıas son calculadas una vez que los cristales
fueron optimizados localmente. Es importante destacar que este procedimiento prioriza a
los cristales de menor energ´ıa, pues son los elegidos con mayor frecuencia. Una vez elegidos
los individuos, estos son utilizados para generar nuevos cristales mediante la aplicaci´on de
los operadores de recombinaci´on y de mutaci´on. A estos nuevos individuos se los somete al
16
2.5. C´alculo de la energ´ıa 17
proceso de fitcell y se los optimiza localmente, para introducirlos en una poblaci´on temporal
compuesta por estas estructuras m´as la poblaci´on inicial. Esta poblaci´on resulta ser 50 %
m´as grande que la inicial (100 % de la inicial y 50 % de nuevas estructuras), por lo tanto,
para llevarla al tama˜no correcto se eliminan los cristales de mayor energ´ıa. La poblaci´on
resultante define una nueva generaci´on, a la cual se le puede aplicar nuevamente el proceso
descripto para conseguir la generaci´on siguiente, y as´ı sucesivamente hasta alcanzar el
n´umero de generaciones deseado. Este proceso se representa esquem´aticamente en la Figura
2.4.1.
2.5. C´alculo de la energ´ıa
Como se ha visto en el punto anterior, la energ´ıa es el par´ametro que se utiliza para
clasificar a los cristales obtenidos. Los de menor energ´ıa tienen mayor probabilidad de
ser elegidos en cada ciclo, y por lo tanto, son los que gu´ıan la b´usqueda de los nuevos
cristales. Un c´alculo err´oneo en la energ´ıa de los cristales puede llevar a una incorrecta
clasificaci´on que no privilegie la creaci´on del cristal experimental. En consecuencia, resulta
imprescindible disponer de un m´etodo de c´alculo suficientemente preciso, tal que genere
una superficie de energ´ıa en la cual la estructura experimental sea pr´acticamente un m´ınimo
global.
El MGAC implementa para el c´alculo de la energ´ıa un m´etodo basado en el uso del
GAFF (General Amber Force Field), un potencial cl´asico que dispone del suficiente n´umero
de par´ametros para modelar las interacciones entre la mayor´ıa de las mol´eculas org´anicas
y de inter´es farmacol´ogico compuestas por C, H, N, O, S, P y hal´ogenos [7].
El GAFF ha sido dise˜nado con un gran n´umero de tipos de ´atomos, con el objetivo de
poder describir una mayor variedad de ambientes qu´ımicos. Esto trae como consecuencia
un aumento considerable del n´umero de par´ametros necesarios para describir todas las
posibles interacciones. Por este motivo, GAFF incorpora un conjunto de reglas emp´ıricas
y heur´ısticas para estimar aquellos par´ametros que no han sido expl´ıcitamente definidos
17
18 M´etodo de Algoritmos Gen´eticos Modificados para Cristales
Figura 2.4.1: Diagrama de flujo representando el funcionamiento general del MGAC.
18
2.5. C´alculo de la energ´ıa 19
dentro del potencial. As´ı se logra una relaci´on de compromiso adecuada entre el n´umero
de par´ametros necesario para definir el potencial y el detalle con que se describe a las
mol´eculas.
Debido a que GAFF est´a definido en base a un conjunto de par´ametros y reglas,
su aplicaci´on requiere de un generador de par´ametros para cada tipo de mol´ecula. Este
generador es implementado en el programa antechamber [8], el cual toma como entrada
las coordenadas at´omicas de la mol´ecula y genera la serie de par´ametros necesarios para
modelarla.
El c´alculo de energ´ıa provisto por GAFF se compone de una serie de t´erminos, al-
gunos de ellos relacionados con cuestiones geom´etricas y topol´ogicas de la mol´ecula y
otros vinculados con las contribuciones electrost´aticas al potencial. Los primeros contie-
nen par´ametros que salen como resultado de la aplicaci´on del programa antechamber a
la mol´ecula en cuesti´on. En cambio, los segundos se basan en par´ametros que modelan
las interacciones electrost´aticas, las cuales est´an representadas por un conjunto de cargas
puntuales ubicadas en las posiciones at´omicas y que generan un potencial equivalente al
que corresponde a la mol´ecula en fase gaseosa. Estas cargas puntuales se calculan mediante
alg´un m´etodo ab-initio o DFT.
En este trabajo, el c´alculo del potencial electrost´atico para una mol´ecula aislada se
realiz´o mediante el programa Gaussian [9] utilizando el m´etodo HF/6-31G*, mientras que el
ajuste de las cargas puntuales que representan el potencial equivalente se obtuvo mediante
la utilizaci´on del programa RESP [10]. Una vez definido el potencial, tanto el c´alculo de la
energ´ıa de cada cristal como su optimizaci´on local fueron efectuadas utilizando el programa
CHARMM [11]. Para ello fue necesaria la utilizaci´on de una extensi´on de antechamber,
llamada charmmgen, la cual permiti´o generar el potencial y la topolog´ıa de la mol´ecula en
un formato adecuado para ser le´ıdo por CHARMM.
19
20 M´etodo de Algoritmos Gen´eticos Modificados para Cristales
20
Cap´ıtulo 3
M´etodos para el control a priori de la
poblaci´on
3.1. M´etodo de control basado en el volumen de celda
y la densidad de los cristales
La estimaci´on te´orica de la densidad de un cristal es un problema bien conocido y
ampliamente estudiado por varios autores [12, 13, 14]. Para ciertas aplicaciones industriales,
cristales de cierta densidad son requeridos. En el caso de los materiales energ´eticos, por
ejemplo, la densidad resulta ser el par´ametro primario relacionado con la performance de la
detonaci´on, por lo tanto, una estimaci´on precisa de la densidad puede proveer una b´usqueda
dirigida hacia nuevos materiales energ´eticos, de manera m´as r´apida y menos costosa [12].
En la bibliograf´ıa consultada [13, 14], cada autor propone un modelo para la es-
timaci´on de la densidad de los cristales. Estos m´etodos requieren como entrada cierta
informaci´on acerca de la mol´ecula (tipos de ´atomos, de entornos, de enlaces, etc.) y ofrecen
como salida el valor de la densidad que se espera para un cristal formado por el compuesto
en cuesti´on. Cada uno posee su propio conjunto de par´ametros que lo caracteriza y que
es necesario ajustar a partir de datos experimentales. Los mismos fueron determinados
ajustando el modelo respectivo contra los datos correspondientes a cientos de miles de es-
21
22 M´etodos para el control a priori de la poblaci´on
tructuras alojadas en la Cambridge Structural Database (CSD). Luego, cada modelo fue
contrastado contra los datos experimentales para determinar su precisi´on.
La Figura 3.1.1 ilustra algunos de los resultados m´as relevantes de la bibliograf´ıa
consultada. Seg´un el modelo de Hofmann [13], se obtiene que los cristales observados exhi-
ben un volumen de celda cuyo valor se encuentra mayoritariamente entre 90 % y el 110 %
del volumen estimado. Esto significa que, en su mayor´ıa, los cristales observados tienen
vol´umenes de celda que van desde 10 % por debajo hasta 10 % por arriba del volumen
estimado. Este resultado es similar al obtenido por el modelo de Beaucamp et al. [14], en el
cual se ve que la mayor´ıa de los cristales observados exhiben densidades cuyas diferencias
respecto de la densidad esperada van entre -10 % y 10 %. Estos resultados sugieren que el
volumen por celda o la densidad de un cristal experimental deber´ıan encontrarse dentro
del valor indicado por cada m´etodo, con un margen de error del orden del 10 %. Dicho
de otro modo, la probabilidad de encontrar un cristal experimental exhibiendo un valor
de volumen de celda o de densidad que difiera m´as de un cierto valor (en este caso 10 %)
respecto del valor estimado es muy remota. Esta observaci´on resulta de suma relevancia,
pues ofrece una idea de las caracter´ısticas que se esperan de un individuo que sea plausible
f´ısicamente.
En consecuencia, se formular´a un criterio de selecci´on de cristales basado en un rango
de aceptaci´on, ya sea en t´erminos de volumen de celda o en t´erminos de densidad. Este
criterio establecer´a que los individuos que caigan dentro del rango deben aceptarse y man-
tenerse dentro de la poblaci´on, mientras que aquellos que caigan fuera deben rechazarse y
ser descartados.
La formulaci´on del criterio queda sujeta a la definici´on del rango de aceptaci´on.
Para definirlo, primero hay que decidir cu´al es la propiedad del cristal que se observar´a,
si el volumen de celda o la densidad. Ambas posibilidades son igualmente v´alidas, sin
embargo es operativamente m´as conveniente observar el volumen de celda, por lo tanto
se definir´a el rango de aceptaci´on en t´erminos de esta variable. Ahora, el paso siguiente
consiste en establecer los l´ımites inferior y superior del rango de aceptaci´on. A priori, en
22
3.1. M´etodo de control basado en el volumen de celda y la densidad de los cristales 23
Figura 3.1.1: (a) Frecuencia de aparici´on de las estructuras en funci´on del volumen de celda
observado (en porcentaje respecto del volumen estimado), seg´un el modelo de Hofmann. (b) Frecuencia
de aparici´on de las estructuras (en porcentaje) en funci´on de la diferencia de densidades observada y
estimada (en porcentaje) seg´un el modelo de Beaucamp et al.
base a las observaciones previas, una elecci´on razonable ser´ıa elegir estos valores un 10 % por
debajo y un 10 % por encima del volumen de celda estimado, respectivamente. Sin embargo,
esta elecci´on produce que los l´ımites dependan expl´ıcitamente del valor estimado para el
volumen de celda. Es aqu´ı donde se hace presente la necesidad de implementar un m´etodo
para estimar el volumen de celda. Para ello, se considerar´an tanto el modelo provisto por
Hofmann como el desarrollado por Beaucamp et al., tambi´en conocido como modelo ARH.
Estos modelos se aplicar´an a una serie de sistemas para evaluar sus desempe˜nos; a partir
de los resultados se determinar´a cu´al es el m´etodo m´as conveniente y se definir´a cu´al es el
rango de aceptaci´on adecuado para el m´etodo elegido.
3.1.1. Descripci´on del modelo de Hofmann
El modelo de Hofmann [13] consiste b´asicamente en la estimaci´on del volumen de
celda de un cristal mediante un esquema de aditividad de vol´umenes. Esto significa que
el volumen de celda se estima como la suma de los vol´umenes promedio de los elementos
contenidos en la celda unidad. Adem´as, el modelo asume que el volumen tiene una depen-
dencia lineal con la temperatura. Con estas hip´otesis, la estimaci´on del volumen de celda
23
24 M´etodos para el control a priori de la poblaci´on
Elemento H B C N O F P S Cl Br
¯v (˚A3
) 5.08 13.24 13.87 11.8 11.39 11.17 29.5 25.2 25.8 32.7
∆¯v (˚A3
) 0.04 0.17 0.05 0.3 0.17 0.15 0.2 0.3 0.3 0.6
Tabla 3.1.1: Valores de los vol´umenes promedio (¯v) y sus dispersiones (∆¯v) para los elementos de
inter´es.
adopta la expresi´on:
Vest =
i
ni¯vi(1 + ¯αT), (3.1.1)
donde ni es el n´umero de elementos de tipo i, ¯vi es el volumen promedio del elemen-
to de tipo i y ¯α es el coeficiente de expansi´on t´ermica promedio. La estimaci´on de los
par´ametros ¯vi y ¯α se ha realizado mediante un ajuste del modelo contra los datos expe-
rimentales correspondientes a un conjunto seleccionado de cientos de miles de estructuras
de la CSD empleando un procedimiento por cuadrados m´ınimos. En este trabajo se des-
precia el t´ermino correspondiente a la expansi´on t´ermica de los vol´umenes, puesto que no
consideran efectos por temperatura sobre las estructuras. Por lo tanto, s´olo resultan rele-
vantes los valores estimados para los vol´umenes promedio. En la Tabla 3.1.1 se muestra un
extracto de los resultados, considerando s´olo los vol´umenes promedio y las dispersiones de
un conjunto de elementos que aparecen com´unmente en compuestos org´anicos y que son
de inter´es para este trabajo.
3.1.2. Descripci´on del modelo ARH
El modelo ARH [14] consiste en un esquema de particionamiento del volumen del
cristal en contribuciones aditivas asociadas con par´ametros f´ısicos del cristal. Dado que el
coeficiente de empaquetamiento del cristal se mantiene pr´acticamente constante, el volumen
ocupado por un ´atomo k parece estar determinado por tres factores: el radio de Van der
Waals del ´atomo k, el n´umero de ´atomos vecinos y el radio de Van der Waals de estos
´atomos vecinos. En particular, el hecho de que los ´atomos de H sean mucho m´as peque˜nos
que el resto, permite hacer una distinci´on entre ´atomos tipo H y tipo no-H. En base a esto,
se asume por simplicidad que todos los ´atomos de tipo no-H tienen la misma influencia
24
3.1. M´etodo de control basado en el volumen de celda y la densidad de los cristales 25
sobre el volumen. Esto sugiere considerar que el volumen ocupado por cada ´atomo depende
de tres contribuciones: el tipo de ´atomo (determinado por su n´umero at´omico Z), el n´umero
total de vecinos de tipo no-H (denotado como n) y el n´umero total de vecinos de tipo H
(denotado como nH).
Por otro lado, adem´as de la cantidad y tipo de ´atomos vecinos, el tipo de entorno
tambi´en influye sobre el volumen que ocupa el ´atomo en cuesti´on, esto es, si el ´atomo
forma parte de un anillo o si est´a involucrado en alguna uni´on tipo puente hidr´ogeno. Para
considerar estos efectos, el modelo incluye correcciones estructurales para cada tipo de
entorno. En total son nueve par´ametros de correcci´on: cinco par´ametros Vs correspondientes
a cada anillo de s elementos (3 ≤ s ≤ 7), un par´ametro V +
8 para cada anillo de 8 o m´as
elementos, dos par´ametros ∆V5 y ∆V6 para considerar efectos por planaridad en anillos de 5
y 6 elementos y un par´ametro h para corregir el volumen de aquellos elementos involucrados
en uniones puente hidr´ogeno.
En consecuencia, bajo este esquema de particionamiento, el volumen estimado pa-
ra el cristal se calcula como la suma de los vol´umenes ocupados por cada ´atomo en la
celda unidad (cada uno dependiendo de los par´ametros Z, n y nH) m´as las correcciones
estructurales correspondientes. Dado que este modelo se basa en par´ametros asociados con
´atomos, anillos y enlaces puente hidr´ogeno, este es el motivo por el cual se lo conoce como
el modelo ARH (atoms, rings and hydrogen bonds). Estos par´ametros fueron determinados
ajustando el modelo contra datos experimentales provenientes de la CSD y fueron incluidos
en el c´odigo desarrollado por los autores.
La implementaci´on del modelo ARH permite estimar el volumen de celda y la densi-
dad del cristal conociendo la topolog´ıa de la mol´ecula. Para ello, el programa requiere como
entrada dos argumentos. El primero corresponde a un archivo de texto que contenga la in-
formaci´on de cada ´atomo con sus respectivas coordenadas. Con esto, el programa procesa
autom´aticamente la informaci´on sobre los enlaces a partir de las distancias interat´omicas,
y luego determina cu´antos ´atomos hay de cada tipo, cu´ales son sus vecinos y cu´ales est´an
involucrados en uniones puente hidr´ogeno. El segundo argumento es justamente la informa-
25
26 M´etodos para el control a priori de la poblaci´on
ci´on que falta para completar el esquema, esto es, cu´antos anillos hay, de qu´e tipo y cu´antos
´atomos contiene. Esto se indica mediante una cadena de caracteres con n´umeros que van
entre 3 y 8, donde cada n´umero indica la cantidad de ´atomos de ese anillo, y para cada
anillo que sea plano se debe agregar una letra p luego del n´umero correspondiente. Como
salida, el programa devuelve un archivo de texto indicando el volumen total estimado (en
˚A3
) y la densidad estimada (en g/mol).
3.2. M´etodo de control basado en contactos at´omicos
Tanto el modelo de Hofmann como el modelo ARH brindan informaci´on acerca del
volumen de celda o de la densidad que se espera en un dado cristal experimental. Como se
ha visto, esta caracter´ıstica puede ser de gran utilidad para determinar cu´ales individuos
son esperables f´ısicamente y cu´ales no. Sin embargo, esta informaci´on no es del todo exacta,
sino s´olo una estimaci´on, dada la naturaleza estad´ıstica de cada modelo. Adem´as, la infor-
maci´on que ofrecen es acerca de variables macrosc´opicas del sistema, como el volumen y la
densidad, por lo cual se pierde de vista el detalle microsc´opico. Es posible que un cristal
posea un volumen de celda o una densidad cuyo valor se encuentre pr´oximo al estimado,
pero microsc´opicamente presente anomal´ıas. Aqu´ı el cristal parece, macrosc´opicamente ha-
blando, un candidato plausible, pero en realidad se trata de un cristal mal formado, por lo
tanto carente de sentido f´ısico.
En la Figura 3.2.1 se ilustra un ejemplo de este tipo de cristal. En este caso, el vo-
lumen de celda que exhibe el cristal presenta una diferencia respecto del valor estimado
por el modelo de Hofmann igual a ∆VHof = +0,25 %, mientras que su diferencia respecto
del valor estimado por el modelo ARH es ∆VARH = −2,72 %. Esto significa que el valor
del volumen de celda observado se encuentra pr´oximo al valor estimado por cada modelo,
sin embargo el detalle microsc´opico revela anomal´ıas en los contactos at´omicos del cristal.
Estos defectos aparecen como consecuencia del empaquetamiento del cristal, en donde las
mol´eculas est´an distribuidas de manera tal que se establecen contactos que son inconsis-
26
3.2. M´etodo de control basado en contactos at´omicos 27
Figura 3.2.1: Ejemplo de un cristal presentando un empaquetamiento defectuoso, pero exhibiendo
un volumen de celda pr´oximo al estimado por cada modelo (∆VHof = +0,25 %, ∆VARH = −2,72 %).
tentes con la configuraci´on de la mol´ecula. Esta situaci´on no representa un sistema f´ısico
real, por lo tanto, el candidato carece de sentido f´ısico y debe descartarse.
En este ejemplo, el problema reside en que el criterio basado en el volumen de celda
no permite descartar al candidato, en consecuencia, el criterio informar´ıa que se acepte
como v´alido, con lo cual se estar´ıa introduciendo este individuo defectuoso en la poblaci´on.
Para evitar este inconveniente, se hace evidente la necesidad de desarrollar otro criterio
adicional que pueda explorar los detalles microsc´opicos del cristal y decidir si el candidato
corresponde a un individuo defectuoso.
El criterio que se propone para este fin se encuentra basado en un procedimiento de
verificaci´on de los contactos at´omicos dentro del cristal, que consiste b´asicamente en anali-
zar la conectividad de las mol´eculas. Para mayor simplicidad, se supone que cada mol´ecula
dentro de la celda asim´etrica presenta una conectividad v´alida, con lo cual cada una se en-
cuentra aislada y no presenta contactos covalentes con las dem´as. Entonces, asumiendo una
correcta configuraci´on para la unidad asim´etrica, para establecer la integridad del cristal
s´olo bastar´ıa con verificar si hay o no conectividad entre mol´eculas dentro y fuera de dicha
unidad. Esto se puede llevar a cabo mirando la conectividad ´atomo por ´atomo. Cuando se
27
28 M´etodos para el control a priori de la poblaci´on
encuentre que un ´atomo de adentro presenta un enlace con otro de afuera, esto significa
que hay dos mol´eculas, una en el interior y otra en el exterior, que est´an conectadas entre
s´ı. Esta situaci´on conduce a una conectividad incorrecta para el cristal, por lo tanto, el
individuo no corresponde a un sistema f´ısico posible y debe descartarse de la poblaci´on.
En resumen, el criterio consiste en explorar las mol´eculas de afuera de la celda
asim´etrica y verificar su conectividad con las de adentro. Si se encuentra un contacto,
se descarta al candidato. En cambio, si no se encuentran contactos, se sigue explorando.
Como puede verse, la implementaci´on del criterio todav´ıa requiere resolver dos cuestiones
que a´un no se han definido: c´omo detectar la conectividad y c´omo realizar la exploraci´on
del cristal.
Para detectar la conectividad basta con conocer si existen contactos entre ´atomos
pertenecientes a mol´eculas diferentes (una dentro y otra fuera de la celda asim´etrica).
Entonces la cuesti´on se basa en decidir cu´ando dos ´atomos establecen entre s´ı un contacto
o enlace covalente. La pregunta se resuelve utilizando el siguiente criterio:
Criterio (Enlace covalente): Dos ´atomos A y B establecen un contacto o enlace covalente
si se cumple la condici´on
d(A, B) ≤ Rcov(A) + Rcov(B) + tol(A, B), (3.2.1)
donde Rcov(A) y Rcov(B) son los radios covalentes de los ´atomos A y B, tol(A, B) es
un valor de tolerancia que depende del par de ´atomos A y B evaluados y d(A, B) es la
distancia entre los ´atomos A y B.
Esta definici´on est´a sugerida por el Cambridge Crystallographic Data Centre (CCDC)
y es la que utilizan los programas de su autor´ıa para definir el criterio de enlace. En
particular resulta de especial inter´es para este trabajo el programa de visualizaci´on de
cristales Mercury [15], ya que ser´a el programa con el cual se analizar´an las estructuras
obtenidas. Los valores de radio covalente y de tolerancia se eligieron de manera tal de
28
3.2. M´etodo de control basado en contactos at´omicos 29
Elemento H B C N O F P S Cl Br K
Rcov (˚A) 0.23 0.83 0.68 0.68 0.68 0.64 1.05 1.02 0.99 1.21 2.03
Par de elementos Cl-Cl F-F Otro
tol (˚A) 0.20 0.25 0.40
Tabla 3.2.1: Valores de radio covalente y tolerancia para los elementos de inter´es.
unificar el criterio con aquel utilizado por Mercury. Los valores de estos par´ametros se
pueden ver en la Tabla 3.2.1.
La otra cuesti´on que falta definir est´a relacionada con la exploraci´on del cristal. El
procedimiento debe tomar mol´eculas que est´en fuera de la celda asim´etrica y determinar
si presentan conectividad con alguna de las mol´eculas que est´an adentro. Sin embargo, de
toda la regi´on externa, s´olo tiene sentido explorar una cierta regi´on circundante a la celda.
Esto es porque s´olo las mol´eculas en esta zona tienen chance de presentar conectividad con
las mol´eculas interiores, ya que si ninguna de estas lo hace, entonces tampoco lo har´an las
dem´as por estar situadas m´as lejos. Por lo tanto, lo que hay que definir es c´omo se hace la
exploraci´on del cristal y cual es la extensi´on de la regi´on de exploraci´on.
3.2.1. Exploraci´on del cristal
Tal como fue descripto brevemente en la secci´on 2.2, un cristal se puede definir com-
pletamente si se conocen los par´ametros de la celda unidad, las posiciones de los elementos
en la celda asim´etrica y el grupo espacial. La idea de esta secci´on consiste en elaborar una
descripci´on m´as detallada con el fin de comprender c´omo es el mecanismo mediante el cual
se construyen y se exploran los distintos elementos del cristal.
Un cristal ideal se construye como repetici´on peri´odica de una unidad estructural
a lo largo de todo el espacio. La unidad estructural puede ser un ´unico ´atomo, como
en las sustancias m´as simples, pero en general suele estar constituida por varios ´atomos
o mol´eculas. La estructura de cada cristal puede representarse en t´erminos de una red
peri´odica, denominada red de Bravais, con un conjunto de ´atomos asociados a cada punto
de la red. Este grupo de ´atomos es lo que se conoce como base, y repetida de manera
29
30 M´etodos para el control a priori de la poblaci´on
peri´odica a lo largo de todo el espacio forma la estructura cristalina [16]. Esto da lugar a
la siguiente relaci´on l´ogica:
Red de Bravais + Base = Estructura cristalina
La red de Bravais es una red peri´odica cuyos puntos est´a representados de forma
matem´atica por
R = n1a1 + n2a2 + n3a3, (3.2.2)
donde a1, a2, a3 son tres vectores no coplanares en el espacio, que constituyen los
tres vectores primitivos que establecen la celda unidad y a partir de los cuales se genera
la red, mientras que n1, n2, n3 son tres n´umeros enteros arbitrarios [16, 17]. Esto significa
que cualquier punto o vector de la red se representa como combinaci´on lineal entera de
los vectores primitivos a1, a2, a3. En consecuencia, si un cierto ´atomo se encuentra en la
posici´on r, entonces existir´a uno id´entico trasladado en un vector de la red, es decir, en la
posici´on r = r + n1a1 + n2a2 + n3a3, para cualesquiera n1, n2, n3 enteros.
Para completar la representaci´on del cristal es necesario determinar una base ade-
cuada. En un cristal, la base est´a dada por los elementos de la celda unidad, los cuales se
obtienen como resultado de la aplicaci´on de las distintas operaciones de simetr´ıa (provis-
tas por el grupo espacial) a todos los elementos en la celda asim´etrica. En consecuencia, la
construcci´on del cristal consiste en tomar cada elemento de la celda asim´etrica, aplicarle las
distintas operaciones de simetr´ıa y luego trasladarlos seg´un cada vector de la red. De esta
manera, las posiciones de cada elemento del cristal se encuentran dadas matem´aticamente
por
R = Tk(ri) + n1a1 + n2a2 + n3a3, (3.2.3)
donde ri es la posici´on del i-´esimo ´atomo de la celda asim´etrica, es la k-´esima operaci´on
de simetr´ıa, n1, n2, n3 son los coeficientes enteros que caracterizan la traslaci´on y R es
la posici´on del ´atomo resultante. Aplicando esta operaci´on para los distintos valores posi-
bles de i, k, n1, n2, n3 se obtienen los distintos elementos del cristal. Un ejemplo de esta
30
3.2. M´etodo de control basado en contactos at´omicos 31
Figura 3.2.2: Representaci´on esquem´atica de la construcci´on de un cristal en dos dimensiones. La
celda unidad se construye como aplicaci´on de las operaciones de simetr´ıa Tk sobre los elementos de la
unidad asim´etrica. La operaci´on T1 corresponde a la operaci´on identidad, por lo tanto, su resultado
es exactamente la celda asim´etrica. Luego, el cristal se forma como traslaci´on peri´odica de la celda
unidad.
construcci´on en dos dimensiones se visualiza en la Figura 3.2.2.
Para continuar con la descripci´on, es importante observar que la representaci´on de
cada elemento del cristal est´a directamente relacionada con la elecci´on de los vectores
primitivos. La forma m´as usual de informar las posiciones at´omicas es a trav´es de sus
coordenadas fraccionarias, las cuales corresponden a las coordenadas de los elementos ex-
presadas en la base de los vectores primitivos {a1, a2, a3}. Tambi´en es importante destacar
que las operaciones de simetr´ıa Tk siempre act´uan sobre las coordenadas fraccionarias, por
lo tanto, es necesario que las posiciones est´en expresadas en estas coordenadas para po-
der aplicar dichas operaciones. De esta manera, el uso de las coordenadas fraccionarias es
necesario para implementar el procedimiento de construcci´on y exploraci´on del cristal.
31
32 M´etodos para el control a priori de la poblaci´on
Sea B = {a1, a2, a3} la base de vectores primitivos elegida para describir la red y
sean (x1, x2, x3) las coordenadas de ri en la base B. Si (x1, x2, x3) son las coordenadas que
resultan de aplicar Tk sobre (x1, x2, x3), entonces el transformado de ri a trav´es de Tk vale
Tk(ri) = x1a1 + x2a2 + x3a3 . Usando este resultado, la ecuaci´on 3.2.3 se puede reescribir
como
R = (x1 + n1)a1 + (x2 + n2)a2 + (x3 + n3)a3, (3.2.4)
lo cual significa que las coordenadas fraccionarias del elemento resultante en la base B son
(x1 + n1, x2 + n2, x3 + n3). Como puede observarse, la traslaci´on de un elemento en un
vector de la red se puede llevar a cabo de manera muy sencilla cuando se utilizan coorde-
nadas fraccionarias. En esta representaci´on, la traslaci´on consiste simplemente en sumar
a cada coordenada fraccionaria xi el n´umero entero ni que caracteriza el desplazamiento.
En resumen, el procedimiento para obtener las coordenadas de cada elemento del cristal
consta de los siguientes pasos:
1. Tomar las coordenadas (x1, x2, x3) del correspondiente elemento en la celda asim´etri-
ca.
2. Aplicar el correspondiente operador de simetr´ıa para conseguir las coordenadas (x1, x2, x3)
del elemento transformado.
3. Realizar la traslaci´on correspondiente sumando a cada coordenada el coeficiente ni
adecuado.
3.2.2. Extensi´on de la regi´on de exploraci´on
El procedimiento descripto previamente permite obtener las coordenadas de los distin-
tos elementos haciendo un recorrido a lo largo de todo el cristal. El mismo puede explorarse
tan lejos como se desee, pues existen infinitas traslaciones de celda asociadas a los infinitos
juegos de valores enteros que pueden tomar los coeficientes n1, n2, n3. Sin embargo, dado
que el objetivo de la exploraci´on consiste en verificar la conectividad entre mol´eculas dentro
32
3.2. M´etodo de control basado en contactos at´omicos 33
y fuera de la celda asim´etrica, s´olo resulta de inter´es recorrer una cierta porci´on del cristal,
correspondiente a una cierta regi´on circundante a la celda asim´etrica. Las mol´eculas que se
encuentren en esta zona, por su cercan´ıa, son las que tienen chance de presentar contactos
con las mol´eculas de la celda asim´etrica, en cambio, aquellas que est´an m´as all´a se supone
que est´an suficientemente lejos, por lo tanto se puede asegurar que no establecen contactos.
Entonces, s´olo tiene sentido explorar en un cierto rango, que deber´a determinarse.
Considerando el ejemplo de la Figura 3.2.2, se puede observar que la unidad asim´etrica
se encuentra rodeada por todas aquellas mol´eculas correspondientes a traslaciones de celda
cuyos ´ındices asociados satisfacen la condici´on −1 ≤ n1, n2 ≤ 1 . Dado que el resto de
las mol´eculas est´an suficientemente lejos, ´estas son las ´unicas que tienen posibilidades de
exhibir contactos con la unidad asim´etrica. Por lo tanto, para buscar posibles contactos
bastar´ıa con explorar en este rango.
Sin embargo, el barrido de los ´ındices entre -1 y 1 no siempre asegura una exploraci´on
satisfactoria, esto es, una exploraci´on tal que todas las mol´eculas vecinas con posibilidad
de presentar contactos sean evaluadas y que ninguna de ellas sea pasada por alto. Esto se
debe a que la representaci´on de cada punto en la estructura depende de la base de vectores
primitivos elegida para realizar la descripci´on. En consecuencia, las mol´eculas que rodean
a la unidad asim´etrica tendr´an una representaci´on diferente en cada base, y por lo tanto
estar´an asociadas a diferentes traslaciones de celda. Un ejemplo de esto se ilustra en las
Figuras 3.2.3 y 3.2.4, en donde se esquematiza una estructura en dos dimensiones, la misma
en cada figura, pero representada mediante dos bases diferentes B y B , respectivamente.
En ambos casos, la mol´ecula M1 corresponde a la celda asim´etrica, en cambio, la mol´ecula
M2 corresponde a la traslaci´on de celda (−1, 1) en la representaci´on en la base B (Figura
3.2.3), pero corresponde a la traslaci´on de celda (−3, 1) en la base B (Figura 3.2.4).
En este ejemplo se pone en evidencia de qu´e manera las diferentes representaciones
influyen en la exploraci´on de las mol´eculas vecinas y determinan el rango de barrido de los
´ındices. Cuando una estructura viene representada en una base arbitraria, se hace dif´ıcil
determinar a priori cu´al es el rango de barrido que asegure una exploraci´on satisfactoria.
33
34 M´etodos para el control a priori de la poblaci´on
Figura 3.2.3: Representaci´on de un cristal en dos dimensiones en la base B = {a1, a2}. La
mol´ecula M1 corresponde a la celda asim´etrica, mientras que la mol´ecula vecina M2 est´a asociada
con la traslaci´on de celda (−1, 1).
Figura 3.2.4: Representaci´on del mismo cristal de la Figura 3.2.3 pero en la base B = {a1, a2}.
En este caso, la mol´ecula M1 sigue correspondiendo a la celda asim´etrica, en cambio, la mol´ecula
vecina M2 ahora est´a asociada con la traslaci´on de celda (−3, 1).
34
3.2. M´etodo de control basado en contactos at´omicos 35
Para resolver este inconveniente, la ambig¨uedad generada por las m´ultiples representaciones
debe eliminarse, para ello resulta necesario encontrar una nueva representaci´on que describa
a la estructura de manera ´unica y estandarizada.
Entre todas las posibles formas de representar una estructura, existen algunas que
suelen ser m´as ventajosas, debido a que otorgan ciertas propiedades que permiten hacer una
descripci´on m´as clara y sencilla. Las mismas est´an caracterizadas por tener el conjunto de
vectores primitivos que sean los m´as cortos posibles. Las celdas formadas por este tipo de
vectores reciben el nombre de celdas de Buerger; ejemplos de este tipo de celdas se pueden
observar en las Figuras 3.2.2 y 3.2.3. A pesar de sus ventajas, el problema que presenta
este tipo de celdas es que no suelen ser ´unicas, sino que existe un conjunto posible para
cada red, por lo tanto, el procedimiento para obtenerlas [18] no siempre conduce al mismo
resultado. Sin embargo, entre todo el conjunto de celdas de Buerger posibles para cada
red, existe una de ellas que satisface ciertas condiciones particulares, conocida como celda
de Niggli o celda reducida [19]. Esta celda posee todas las propiedades de una celda de
Buerger (de hecho, es una celda de Buerger) pero adem´as tiene la ventaja de ser ´unica, por
lo tanto puede ser determinada sin ambig¨uedad y puede utilizarse como celda de referencia.
Por lo tanto, para eliminar la ambig¨uedad y unificar la representaci´on, se propone
un procedimiento que transforme la estructura desde la base inicial hacia la base de la
celda reducida. Este procedimiento consiste b´asicamente en la transformaci´on de la celda,
de las coordenadas de los elementos en la celda asim´etrica y de las operaciones de simetr´ıa.
La transformaci´on de la celda se realiza mediante el algoritmo de reducci´on de celda [20],
mientras que las transformaciones de las coordenadas y de las operaciones de simetr´ıa se
realizan mediante la correspondiente matriz de cambio de base, que se computa en el mismo
proceso de reducci´on [21].
Una vez transformada la estructura hacia la base reducida, el paso siguiente consiste
en determinar el rango de barrido de ´ındices que establecen la regi´on a explorar. En esta
nueva base, es seguro que la regi´on comprendida por las traslaciones de celda con ´ındices
entre -1 y 1 contiene mol´eculas candidatas a presentar contactos con la unidad asim´etrica
35
36 M´etodos para el control a priori de la poblaci´on
(por ejemplo, ver Figura 3.2.2). Pero, ¿qu´e significa que dos mol´eculas sean candidatas a
presentar contactos? Por otra parte, ¿siempre es suficiente con barrer en este rango o el
mismo debe ajustarse para cada caso particular?
Para resolver la primera pregunta se puede considerar la construcci´on de la Figura
3.2.5. En ella se observa que la mol´ecula M1, correspondiente a la unidad asim´etrica, se
encierra en una esfera de centro C y radio R. El centro C corresponde al centro geom´etrico
o centroide de la mol´ecula, mientras que el radio R corresponde a la distancia m´axima entre
los ´atomos de la mol´ecula y el centroide. Por su parte, la mol´ecula M2, correspondiente a
la traslaci´on de celda (0, 2), se encierra en una esfera de centro C y radio R. En base a este
esquema, se considera que las mol´eculas M1 y M2 son candidatas a presentar contactos
si las esferas que las encierran se solapan o est´an lo suficientemente cerca entre s´ı, m´as
precisamente, si las esferas cumplen la condici´on
d(C, C ) ≤ 2R + tol, (3.2.5)
donde tol es un par´ametro de tolerancia a determinar. En este trabajo, el valor de tole-
rancia se determin´o considerando la m´axima distancia de enlace posible entre dos ´atomos
cualesquiera. En el tipo de compuestos de inter´es a ser tratados con MGAC (mol´eculas
org´anicas), el elemento con mayor radio covalente que puede llegar a estar presente corres-
ponde al potasio, cuyo radio covalente es de 2.03˚A. Ahora, tomando en cuenta el criterio de
enlace anteriormente establecido, para que dos ´atomos de potasio K1 y K2 puedan llegar
a establecer enlace, la distancia entre ellos deber´ıa cumplir que d(K1, K2) ≤ Rcov(K1) +
Rcov(K2) + tol(K1, K2) = 2.03˚A + 2.03˚A + 0.40˚A = 4.46˚A. De esta manera, para que
dos ´atomos cualesquiera (considerando s´olo aquellos de inter´es) puedan tener chance de
establecer un contacto entre ellos, es necesario que la separaci´on entre ellos sea, a lo sumo,
de 4.46˚A. Por lo tanto, eligiendo un valor de tolerancia mayor o igual a 4.46˚A, se puede
asegurar que no existir´a posibilidad de contactos para cualquier par de mol´eculas cuyos
centros disten m´as que el valor indicado por la cota de la ecuaci´on 3.2.5. En este trabajo,
36
3.2. M´etodo de control basado en contactos at´omicos 37
Figura 3.2.5: Esquema de una porci´on de un cristal en dos dimensiones. El solapamiento entre
esferas indica la posibilidad de contacto entre las mol´eculas M1 y M2.
el par´ametro de tolerancia fue establecido en un valor de 4.5˚A.
Para resolver la segunda pregunta, resulta fundamental considerar la relaci´on entre
el tama˜no de la mol´ecula y las dimensiones de la celda unidad. Observando nuevamente
la Figura 3.2.5, y comparando el tama˜no de la mol´ecula con la dimensi´on de la celda
en la direcci´on a2, se puede apreciar que a2 < R < 2a2. Por otro lado, en este caso se
puede ver que la unidad asim´etrica es candidata a presentar contactos con mol´eculas que
correspondan a traslaciones de celda hasta ´ındice 2 en esa direcci´on. En conclusi´on, lo que
se observa en este caso particular es que el tama˜no de la mol´ecula cumple que a2 < R < 2a2,
entonces el rango de barrido de los ´ındices en la direcci´on debe ser −2 ≤ n2 ≤ 2. Bajo la
motivaci´on de este ejemplo, se puede generalizar la idea postulando el siguiente criterio:
37
38 M´etodos para el control a priori de la poblaci´on
Criterio (Determinaci´on del rango de barrido de´ındices): Sea R el radio de la esfera
que encierra a la unidad asim´etrica y sea k un entero no negativo tal que k ≤ (R/ai) < k+1.
Entonces el rango de barrido de ´ındices en la direcci´on ai que asegure una exploraci´on
satisfactoria debe ser −(k + 1) ≤ ni ≤ k + 1.
3.2.3. Verificaci´on de la integridad del cristal
En base a las ideas expuestas en las dos secciones anteriores se propone un proce-
dimiento para verificar la integridad del cristal basado en la b´usqueda de contactos. El
mismo debe ser capaz de determinar autom´aticamente la regi´on de exploraci´on para cada
cristal, detectar los posibles candidatos a presentar contactos con la unidad asim´etrica y
hacer la correspondiente evaluaci´on de contactos, para finalmente decidir si se trata de
un individuo bien formado (conectividad v´alida) o un individuo defectuoso (conectividad
inv´alida). Este procedimiento se formaliza a continuaci´on.
38
3.2. M´etodo de control basado en contactos at´omicos 39
Procedimiento (Verificaci´on de la integridad del cristal)
1. Se toma a la estructura inicial y se la transforma a la base de la celda reducida.
2. Se calcula el centro geom´etrico o centroide de la unidad asim´etrica (C) y la m´axima
distancia entre los ´atomos de la misma y el centroide (R).
3. Para 1 ≤ i ≤ 3, el rango de barrido de ´ındices se calcula como nmin
i ≤ ni ≤ nmax
i ,
donde nmax
i = int(R/ai) + 1, nmin
i = −nmax
i .
4. Se calcula el centroide imagen (C ) que resulta de aplicar cierta operaci´on de simetr´ıa
al centroide C y luego cierta traslaci´on cuyos ´ındices est´en dentro del rango calculado
en el punto 3. Si la distancia entre centroides satisface la condici´on 3.2.5, entonces se
prueba la conectividad para ese par de mol´eculas.
5. La conectividad se prueba ´atomo por ´atomo. Para ello, primero se toma cada ´atomo
de la unidad asim´etrica y se genera su imagen a trav´es de la operaci´on de simetr´ıa y la
traslaci´on correspondientes. Luego se prueba si esta imagen establece un contacto con
cada ´atomo de la unidad asim´etrica: en caso de encontrarse un contacto, se detiene
el procedimiento, sino se contin´ua con el pr´oximo ´atomo y se repite este paso hasta
finalizar la mol´ecula.
6. Si al finalizar el paso 5 no se ha encontrado contacto alguno, se vuelve al paso 4 y
se repite para cada operaci´on de simetr´ıa y para cada traslaci´on cuyos ´ındices est´en
contemplados dentro del rango calculado en el paso 3. Esto se realiza hasta finalizar
el barrido en el rango o hasta encontrar un contacto.
7. Si al finalizar el paso 6 no se ha encontrado contacto alguno, significa que el cristal
dispone de una conectividad v´alida, por lo tanto, se considera como buen candidato
y se mantiene en la poblaci´on. En cambio, si en alg´un momento se encuentra un
contacto, esto invalida la conectividad del cristal, por lo tanto se considera como un
candidato defectuoso y se lo descarta de la poblaci´on.
39
40 M´etodos para el control a priori de la poblaci´on
40
Cap´ıtulo 4
Resultados
4.1. Configuraci´on del filtro de volumen
En el cap´ıtulo 1 se explicaron los motivos por los cuales resulta necesario disponer de
m´etodos de control de la poblaci´on. Uno de los m´etodos consiste en filtrar las estructuras
en base a los valores de volumen de celda exhibidos por cada candidato. Este filtro requiere
que se provea un valor de referencia contra el cual comparar y un criterio de aceptaci´on que
permita decidir si se rechaza o se acepta al candidato en cuesti´on. El valor del volumen de
referencia para el compuesto dado puede calcularse por medio de los modelos introducidos
en el cap´ıtulo 3 (modelos de Hofmann y ARH); el criterio de aceptaci´on ser´a establecido a
partir del an´alisis de ambos modelos y de sus comportamientos frente a distintos problemas
estudiados.
Para la puesta a punto del filtro de volumen, se realizaron estudios con compuestos
que representaron problemas de especial relevancia para ser tratados en este trabajo. Los
compuestos estudiados aqu´ı fueron los denominados Mol-XVI, Mol-XVII, Mol-XVIII, Mol-
XX y Jayces, cuyos diagramas y nomenclaturas se ilustran en la Figura 4.1.1. Por un lado,
las mol´eculas Mol-XVI a Mol-XX fueron interesantes a ser abordadas ya que constituyeron
algunos de los problemas incluidos en el ´ultimo desaf´ıo de predicci´on de estructuras, el
CSP2010 organizado por el CCDC [4], del cual nuestro grupo fue uno de los miembros
41
42 Resultados
Compuesto Diagrama y nomenclatura
Mol-XVI
2-diazo-3,5-cyclohexadiene-1-one
Mol-XVII
1,2-dichloro-4,5-dinitrobenzene
Mol-XVIII
(1-((4-chlorophenyl)sulfonyl)-2-oxopropylidene)diazenium
Mol-XX
Benzyl-(4-(4-methyl-5-(p-tolylsulfonyl)-1,3-thiazol-2-
yl)phenyl)carbamate
Jayces
N-[4-cyano-3-(trifluoromethyl)phenyl]-3-[(4-fluorophenyl)sulfonyl]-2-
hydroxy-2-methylpropanamide
Figura 4.1.1: Compuestos utilizados para estudiar el comportamiento de los modelos de estimaci´on
de volumen.
42
4.1. Configuraci´on del filtro de volumen 43
participantes. Por otro lado, la mol´ecula Jayces correspond´ıa a un problema que ya hab´ıa
sido estudiado anteriormente con el m´etodo MGAC [22], mediante el cual s´olo se hab´ıa
podido predecir s´olo uno de los dos polimorfos experimentales reportados, y por lo tanto
resultaba interesante estudiar si con la nueva implementaci´on se lograba encontrar el otro
polimorfo.
Para la realizaci´on de las simulaciones, se utiliz´o el c´odigo MGAC instalado en los
clusters del Center for High Performance Computing (CHPC) de la Universidad de Utah.
Inicialmente, el c´odigo estaba dise˜nado para correr en cualquiera de los distintos clusters
del CHPC, de manera paralelizada bajo la plataforma MPICH, pero como dicha plataforma
hab´ıa quedado obsoleta, fue necesaria la adaptaci´on del c´odigo a otras plataformas MPI
disponibles en los clusters [23]. Dado que cada cluster se encuentra optimizado para una
plataforma en particular, se decidi´o realizar la adaptaci´on a varias plataformas, a saber,
MPICH2, MVAPICH2 y OpenMPI, y modificar el c´odigo para que el usuario pueda decidir
bajo cu´al desea que se ejecute el programa. De esta manera, ademas de elegir en qu´e clus-
ter se lanza la corrida, tambi´en se puede elegir bajo cu´al plataforma de paralelizaci´on,
permitiendo as´ı optimizar el rendimiento.
La realizaci´on de las corridas fueron llevadas a cabo siguiendo el procedimiento in-
dicado en la documentaci´on del Proyecto Dingo [24]. Los pasos principales del mismo se
describen brevemente a continuaci´on:
1. Se genera un archivo que contenga la informaci´on de la configuraci´on de la mol´ecula
aislada. ´Este debe estar confeccionado en un formato adecuado para ser reconocido
por el programa Gaussian.
2. Se corre este archivo en Gaussian para conseguir un archivo de salida con la configu-
raci´on optimizada de la mol´ecula y con la informaci´on del potencial electrost´atico de
la misma.
3. Se utiliza el archivo de salida obtenido en el punto anterior para generar los par´ame-
tros del potencial GAFF mediante la aplicaci´on antechamber y se obtienen las cargas
43
44 Resultados
puntuales que modelan el potencial electrost´atico mediante la aplicaci´on RESP.
4. Se generan los archivos con la informaci´on de la topolog´ıa y el potencial en el formato
adecuado para ser reconocidos por CHARMM.
5. Se genera el archivo de entrada de MGAC, donde se puede optar por una configu-
raci´on fija o flexible. Esto ´ultimo se logra especificando en dicho archivo los ´angulos
diedros a los cuales se les permite variar libremente.
6. Se lanza la corrida.
7. Una vez finalizada la corrida, se procesan los resultados con la aplicaci´on crystal filter,
la cual permite confeccionar un archivo conteniendo a las mejores N estructuras (N
es un par´ametro que debe especificar el usuario a voluntad).
8. Para visualizar las estructuras, se puede utilizar el programa Mercury, pero se requiere
que las estructuras se encuentren en formato cif. La aplicaci´on cml2cif es de utilidad
para este fin.
9. Si se desea, tambi´en se pueden buscar simetr´ıas escondidas o adicionales en la estruc-
tura mediante la aplicaci´on ADDSYM, correspondiente al c´odigo PLATON [25].
Una vez efectuadas todas las corridas, se filtraron las mejores 300 estructuras para cada
mol´ecula, se caracteriz´o la distribuci´on de volumen de celda presentada por cada conjunto
de estructuras y se observ´o la calidad de los cristales generados. Comparando esta informa-
ci´on con los valores de referencia arrojados por cada modelo y con los valores de volumen
de las estructuras experimentales, se decidi´o cu´al es el modelo de estimaci´on que mejor
se ajusta a las observaciones y c´ual es el rango de volumen m´as adecuado para establecer
como criterio de aceptaci´on.
44
4.1. Configuraci´on del filtro de volumen 45
4.1.1. An´alisis de modelos para estimaci´on de vol´umenes de celda
Las Figuras 4.1.2 a 4.1.6 muestran en un histograma las distribuciones de volumen
para cada conjunto de estructuras generadas (candidatos), donde se incluyen los valores de
volumen de estructuras experimentales conocidas y tambi´en aquellos valores estimados por
cada modelo. En otro histograma se muestran las diferencias de volumen de esas estructuras
respecto del valor estimado por cada modelo.
Como primera observaci´on, cabe destacar que en todos los casos, los valores de vo-
lumen experimentales se encuentran contenidos dentro de la distribuci´on de volumen de
candidatos. M´as a´un, estos valores experimentales se encuentran muy cercanos a los valores
medios de cada distribuci´on. Esta caracter´ıstica resulta de suma importancia a la hora de
la predicci´on, pues para encontrar a la estructura experimental es condici´on necesaria que
su volumen est´e contenido dentro de la distribuci´on de candidatos generados. Adem´as, la
probabilidad de encontrar al cristal experimental es proporcional a la cantidad de can-
didatos con volumen pr´oximo al emp´ırico. Por lo tanto, cuanto menor sea el sesgo de la
distribuci´on respecto de este volumen de referencia, mayor ser´a la probabilidad de una
predicci´on exitosa. En este sentido, se podr´ıa afirmar que las poblaciones generadas est´an
bien comportadas, pues cumplen con la caracter´ıstica de volumen requerida.
La siguiente observaci´on tiene que ver con la efectividad de cada modelo para estimar
el verdadero volumen. Como puede apreciarse en las Figuras 4.1.2 a 4.1.6, las estimaciones
se mantienen siempre dentro del rango abarcado por cada distribuci´on, aunque algunas
presentan un sesgo m´as acentuado respecto del volumen experimental (por ejemplo, Hof-
mann en Mol-XVI y ARH en Mol-XVII). En base a estas observaciones, no es f´acil decidir
a simple vista cu´al m´etodo es m´as efectivo, pues en ciertas ocasiones, el m´etodo que brinda
una estimaci´on m´as pr´oxima al experimental es el modelo ARH, mientras que en otras el
que lo hace mejor es el modelo de Hofmann. Por lo tanto, en este contexto, un criterio
adecuado para decidir el m´etodo m´as efectivo ser´ıa determinar cu´al de ellos es el que “en
promedio” m´as se acerca a las observaciones. Esto puede resolverse haciendo un poco de
estad´ıstica, calculando el valor medio cuadr´atico (tambi´en conocido como valor RMS) de
45
46 Resultados
Figura 4.1.2: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto
de los modelos de estimaci´on (derecha) observadas para Mol-XVI.
Figura 4.1.3: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto
de los modelos de estimaci´on (derecha) observadas para Mol-XVII.
Figura 4.1.4: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto
de los modelos de estimaci´on (derecha) observadas para Mol-XVIII.
46
4.1. Configuraci´on del filtro de volumen 47
Figura 4.1.5: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto
de los modelos de estimaci´on (derecha) observadas para Mol-XX.
Figura 4.1.6: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto
de los modelos de estimaci´on (derecha) observadas para Jayces.
Mol´ecula VHof ( ˚A3
) VARH( ˚A3
) Vexp( ˚A3
) ∆VHof ( %) ∆VARH( %)
Mol-XVI 138.5 145.2 144.0 -3.84 0.81
Mol-XVII 214.1 218.3 214.3 -0.08 1.88
Mol-XVIII 269.2 277.4 274.3 -1.85 1.14
Mol-XX 578.1 582.0 563.0 2.68 3.37
Jayces (Exp1) 459.8 469.0 465.4 -1.20 0.77
Jayces (Exp2) 459.8 469.0 466.7 -1.48 0.49
Valor cuadr´atico medio (RMS) 2.20 1.72
Tabla 4.1.1: Vol´umenes estimados, experimentales y sus diferencias dadas en porcentaje respecto
del volumen experimental correspondiente. En el caso de Jayces se consideraron las diferencias respecto
de los dos valores experimentales, indicados en la Figura 4.1.6.
47
48 Resultados
las diferencias entre los vol´umenes estimados y los experimentales para cada modelo. Esto
consiste en computar todas las diferencias correspondientes, elevarlas al cuadrado, prome-
diar y tomar ra´ız cuadrada. De esta manera se tiene una idea de la variabilidad de cada
m´etodo respecto de los datos experimentales y se puede decidir bajo un criterio razonable
cu´al es el que mejor ajusta. En la Tabla 4.1.1 se describen todas las diferencias computadas
para cada modelo (∆VHof = VHof − Vexp y ∆VARH = VARH − Vexp) y sus valores RMS co-
rrespondientes. Como puede apreciarse, el m´etodo que presenta un menor valor RMS es el
modelo ARH, lo cual significa que su variabilidad respecto de los datos experimentales es
menor, por lo tanto, es el que estad´ısticamente ajusta mejor. Por este motivo, el modelo
ARH es el elegido como m´etodo de referencia para calcular el volumen de celda estimado.
Este dato es el que se utilizar´a en el filtro de volumen como valor de referencia.
4.1.2. Determinaci´on del rango de aceptaci´on
Para terminar de establecer las caracter´ısticas del filtro de volumen faltar´ıa determi-
nar un rango de aceptaci´on adecuado, el cual permita decidir cu´ales candidatos se aceptan
y cu´ales se rechazan. Como primera medida, ser´ıa ´util analizar las diferencias de volumen
obtenidas para los casos estudiados. Observando los histogramas correspondientes (Figuras
4.1.2 a 4.1.6), se puede apreciar que los vol´umenes de los candidatos difieren, en el peor de
los casos, no m´as de un 20 % (en valor absoluto) respecto del valor de referencia estimado.
Esto significa que la m´axima diferencia que es razonable esperar se encuentra alrededor
del 20 %. Sin embargo, esto no brinda informaci´on acerca de la calidad del candidato, es
decir, si el candidato es un cristal f´ısicamente posible o un cristal mal formado, s´olo dice
en qu´e rango es esperable que se encuentre su volumen. Por lo tanto, si lo que se busca
es un filtro que permita rechazar candidatos defectuosos y admitir candidatos correctos,
hay que analizar con mayor detalle en qu´e rango de volumen se encuentran estos tipos de
individuos.
Tal como fue observado en la secci´on 3.2, el volumen de celda no es una medida
suficientemente confiable para garantizar en un 100 % la calidad del cristal, s´olo constituye
48
4.1. Configuraci´on del filtro de volumen 49
una medida estimativa. Por este motivo, un m´etodo de control basado en un filtro de
volumen es susceptible a generar falsos positivos, es decir, individuos aceptables desde el
punto de vista del volumen, pero f´ısicamente inv´alidos. Este efecto indeseado es posible
reducirlo acotando el rango de aceptaci´on. Sin embargo, un rango de aceptaci´on de volumen
demasiado acotado implicar´ıa un filtro demasiado restrictivo. Esto podr´ıa ocasionar que
los candidatos admisibles por el filtro correspondan a un subconjunto muy reducido dentro
del espacio de soluciones, conduciendo a un muestreo deficiente del espacio y poniendo en
riesgo el ´exito de la predicci´on. Por lo tanto, para configurar un filtro de volumen que sea lo
m´as ´optimo posible, es necesario encontrar un rango de volumen que sea lo suficientemente
acotado como para admitir la menor cantidad posible de falsos positivos, pero no tan
acotado como para reducir de manera cr´ıtica el espacio de b´usqueda.
Para realizar el ajuste del rango se juntaron los resultados de todas las estructuras y
se las separ´o en dos clases: candidatos buenos (presentan conectividad correcta) y candi-
datos defectuosos (conectividad incorrecta). A cada estructura se le calcul´o su diferencia
de volumen (en porcentaje) respecto del correspondiente valor esperado, estimado con el
modelo ARH. Para cada clase, se realizaron los histogramas correspondientes a las dife-
rencias de volumen, que se muestran en la Figura 4.1.7. All´ı se observa que la mayor´ıa de
las estructuras con diferencias de volumen menores a -10 % resultaron defectuosas, lo cual
indicar´ıa que es muy improbable encontrar un candidato v´alido en ese rango de valores.
Esta observaci´on se explica tomando en cuenta que una diferencia negativa corresponde a
un volumen de celda menor que el estimado, y esto implica una densidad cristalina mayor
a la esperada. Luego, si el volumen es lo suficientemente chico, esto conducir´ıa un empa-
quetamiento cristalino suficientemente denso como para representar una situaci´on f´ısica
posible, pues las mol´eculas estar´ıan tan cercanas unas de otras que el sistema no se podr´ıa
corresponder con una situaci´on de equilibrio estable. En consecuencia, establecer el l´ımite
de corte inferior alrededor de -10 % ser´ıa en principio una medida razonable, pues las es-
tructuras que se descartan (las que caen por debajo de este valor l´ımite) casi con seguridad
deber´ıan corresponderse con individuos defectuosos.
49
50 Resultados
Figura 4.1.7: Distribuci´on de las diferencias de volumen observadas para los conjuntos de candi-
datos buenos y defectuosos resultantes de todas las estructuras analizadas.
Ahora ser´ıa ´util preguntarse si es posible afinar a´un m´as el valor de corte inferior que
anteriormente se ha establecido. Para ello se puede analizar lo que sucede por encima del
valor -10 %. En el rango comprendido entre -10 % y +5 %, la mayor´ıa de las estructuras
corresponden a candidatos buenos, sin embargo, en este mismo rango tambi´en aparecen,
aunque en menor cantidad, algunos candidatos defectuosos. Como se observa en la figura,
al existir este solapamiento entre ambas clases de individuos, acotar el rango del filtro en
esta zona implicar´ıa descartar tanto candidatos buenos como defectuosos. Pero rechazar
candidatos buenos puede resultar un inconveniente, ya que podr´ıa afectar la calidad del
muestreo y pondr´ıa en riesgo la predicci´on. Por lo tanto, no es posible afinar el rango en
esta zona sin comprometer los resultados de la predicci´on. En base a todo este an´alisis, el
l´ımite de corte inferior m´as ´optimo que se puede establecer se encuentra en un valor de
-10 %.
Para terminar de definir el rango, faltar´ıa establecer el l´ımite de corte superior. Anali-
zando los resultados en la regi´on por encima del valor +5 %, all´ı se observa s´olo la presencia
de candidatos buenos, no hay defectuosos. Esto se explica de manera an´aloga al caso ante-
50
4.2. Implementaci´on del m´etodo de control 51
rior: una diferencia de volumen positiva corresponde a un volumen de celda mayor que el
estimado, y por tanto, una densidad menor. Esto implica que las mol´eculas est´an separadas
lo suficiente como para presentar anomal´ıas en la conectividad del cristal, y de esta forma
la estructura se exhibe como un candidato bueno. Como puede observarse, las estructuras
se presentan hasta un valor alrededor de +15 %, m´as all´a de este punto ya no se registran
resultados. Este resultado est´a en buen acuerdo con la evidencia encontrada en la biblio-
graf´ıa [13, 14], en donde se observa que es poco probable encontrar cristales experimentales
con diferencias de volumen mayores a +15 % (Ver Figura 3.1.1 ). Esto representa un argu-
mento s´olido para afirmar que un valor de +15 % ser´ıa ´optimo para establecer como l´ımite
de corte superior.
En consecuencia, en base a lo argumentado anteriormente, se establece como rango
de aceptaci´on el intervalo (−10 %, +15 %). De esta manera, s´olo ser´an aceptados todos
aquellos individuos que presenten diferencias de volumen comprendidas dentro de este
rango de valores, el resto ser´an rechazados y no ser´an admitidos en la poblaci´on.
4.2. Implementaci´on del m´etodo de control
El m´etodo para controlar cu´ales individuos deben ser incluidos en la poblaci´on y
cu´ales deben ser descartados se implement´o seg´un procedimiento esquematizado en la Fi-
gura 4.2.1. En este diagrama se observa que al candidato propuesto se lo somete a una serie
de filtros, que debe pasar exitosamente antes de ser aceptado e incluido en la poblaci´on.
El primer filtro consiste en el filtro de volumen configurado en la secci´on anterior,
en el cual se establec´ıa como condici´on para la aceptaci´on del candidato que su diferencia
de volumen (respecto de su valor estimado por el modelo ARH) se encuentre dentro del
intervalo (−10 %, +15 %). Sin embargo, como se hab´ıa se˜nalado previamente, este m´etodo
puede ser susceptible a presentar cierta cantidad de falsos positivos, por lo tanto el hecho
de que la estructura pase este primer filtro no constituye una garant´ıa para afirmar que
la misma se corresponda con un individuo f´ısicamente plausible. Aqu´ı se hace evidente la
51
52 Resultados
Figura 4.2.1: Diagrama esquem´atico que describe el funcionamiento del m´etodo de control im-
plementado.
necesidad de aplicar un segundo filtro que pueda descartar todos los falsos positivos que
haya dejado pasar el primero. Este segundo filtro no es otra cosa que la evaluaci´on de la
conectividad del cristal, implementado seg´un el m´etodo detallado en la secci´on 3.2.
En resumen, cada candidato es sometido primero al filtro de volumen, si satisface la
condici´on de aceptaci´on se lo somete al segundo filtro, el de conectividad. Si presenta una
conectividad v´alida, entonces es definitivamente aceptado e incliudo en la poblaci´on. De
cualquier otro modo, el cristal es descartado y debe probarse otro candidato posible.
52
4.3. Resultados de la implementaci´on 53
4.3. Resultados de la implementaci´on
Las corridas con el nuevo m´etodo de control se realizaron con las mismas mol´ecu-
las estudiadas anteriormente, a saber, Mol-XVI, Mol-XVI, Mol-XVIII, Mol-XX y Jayces,
utilizando el procedimiento indicado en la secci´on 4.1, pero agregando un paso adicional
en el punto 5: luego de crearse el archivo de salida de MGAC, ´este debe editarse para
incluir el valor del volumen estimado por el modelo ARH para la mol´ecula en cuesti´on. La
inclusi´on de este valor es estrictamente necesaria, pues constituye un campo requerido por
el c´odigo, si no se especifica dicho valor, el programa detecta la ausencia de ese par´ametro
y no permite iniciar la corrida.
Para poder estimar los efectos del m´etodo de control sobre la predicci´on, se deci-
di´o comparar los resultados finales sobre cada mol´ecula antes y despu´es de la implementa-
ci´on. Ahora, para que la comparaci´on tenga sentido, los procedimientos para cada mol´ecula
debieron ser realizados de la misma manera en ambas instancias. Esto significa elegir an-
tes y despu´es exactamente los mismos par´ametros para el c´alculo y la optimizaci´on de la
energ´ıa, mismos ´angulos diedros libres, mismo tama˜no de poblaci´on y n´umero de genera-
ciones, etc. De esta manera las diferencias que se puedan producir en los resultados finales
no estar´ıan asociadas con la elecci´on de diferentes par´ametros, sino que se corresponder´ıan
con la acci´on de este m´etodo de control adicional.
Para cada mol´ecula se realizaron 5 corridas con cada uno de los 14 grupos espaciales
m´as comunes en este tipo de compuestos (P1, P−1, P21, C2, Pc, Cc, P21/c, C2/c, P212121,
Pca21, Pna21, Pbca, Pbcn, Pnma), considerando s´olo una mol´ecula por celda asim´etrica,
a lo largo de un total de 130 generaciones, cada una de ellas constituida por una poblaci´on
de 30 cristales. La configuraci´on de cada mol´ecula fue considerada como r´ıgida o flexible
en funci´on de la complejidad de la misma. En los casos en donde se admiti´o flexibilidad, se
indican los ´angulos diedros a los cuales se les permiti´o mover libremente. Los par´ametros
para el c´alculo y la optimizaci´on de la energ´ıa tambi´en se eligieron en funci´on del tama˜no
de la mol´ecula.
En el an´alisis de los resultados, se consideraron las primeras 30 o 40 estructuras de
53
54 Resultados
cada corrida, seg´un el caso, y se analizaron sus energ´ıas, diferencias de volumen y conec-
tividad. En los casos donde fue posible, tambi´en se identific´o al candidato que presentase
coincidencia (dentro de un rango de tolerancia) con el cristal experimental. En los casos
negativos, se trat´o de buscar un argumento que explique porqu´e el m´etodo no funcion´o all´ı.
4.3.1. Resultados para Mol-XVI
En este caso, la elecci´on m´as adecuada para esta mol´ecula fue considerar una confi-
guraci´on r´ıgida, sin ´angulos diedros que puedan variar libremente. Para esta mol´ecula, los
par´ametros utilizados por CHARMM para el c´alculo y la optimizaci´on de la energ´ıa, cuyas
descripciones y usos pueden consultarse en la documentaci´on de CHARMM [26], fueron
los correspondientes a los valores m´as comunes para este tipo de mol´eculas, a saber:
C´alculo de la energ´ıa:
ihbfrq = -1, inbfrq = -1, imgfrq = -1, cutim = 20.0.
Optimizaci´on de la energ´ıa:
m´etodo = abnr-lattice, ihbfrq = -1, inbfrq = -1, imgfrq = -1, cutim = 20.0
Nstep = 2000, Nprint = 0, Tolgrd = 0.0001.
C´alculo de las interacciones electrost´aticas (utilizado en ambos casos):
m´etodo = pmewald, kappa = 0.34, order = 6
ctofnb = 12.0, cutnb = 14.0, qcor = 1.0.
La Tabla 4.3.1 muestra los resultados de las primeras 30 estructuras obtenidas con y
sin m´etodo de control, ordenadas por energ´ıa de manera creciente. Para cada una se indica
su diferencia de volumen respecto del correspondiente valor estimado por el modelo ARH
(indicado en la Figura 4.1.2) y si el cristal presenta buena o mala conectividad. Aqu´ı se
omiten los detalles de grupo espacial y datos de celda para mayor simplicidad de la tabla,
pero fueron tenidos en cuenta al momento del an´alisis. Si se comparan ambas listas, los
54
4.3. Resultados de la implementaci´on 55
Orden
Sin m´etodo de control Con m´etodo de control
Energ´ıa ∆VARH
Conectividad
Energ´ıa ∆VARH
Conectividad
(KJ/mol) ( %) (KJ/mol) ( %)
1 -236.74 -5.79 OK -236.74 -5.79 OK
2 -236.20 -1.25 OK -236.20 -1.25 OK
3 -235.01 -0.46 OK -235.01 -0.45 OK
4 -234.84 -4.33 OK -234.84 -4.33 OK
5 -234.65 -2.42 OK -234.59 -2.23 OK
6 -234.59 -2.23 OK -234.42 -3.23 OK
7 -234.42 -3.23 OK -234.40 -3.13 OK
8 -234.40 -3.13 OK -234.29 1.33 OK
9 -234.29 1.33 OK -234.16 -1.18 OK
10 -233.98 -2.41 OK -233.98 -2.41 OK
11 -233.93 0.86 OK -233.93 0.86 OK
12 -233.85 -2.54 OK -233.85 -2.54 OK
13 -233.50 -5.31 OK -233.50 -5.31 OK
14 -233.43 0.54 OK -233.42 0.54 OK
15 -233.34 0.68 OK -233.34 0.68 OK
16 -233.03 -1.33 OK -233.03 -1.33 OK
17 -232.83 0.68 OK -232.83 0.68 OK
18 -232.73 -0.20 OK -232.64 -3.23 OK
19 -232.64 -3.23 OK -232.37 2.90 OK
20 -232.58 -0.94 OK -232.12 -3.27 OK
21 -232.55 -2.15 OK -231.84 -0.34 OK
22 -232.37 2.90 OK -231.74 1.32 OK
23 -232.28 -23.46 BAD -231.59 -3.85 OK
24 -232.12 -3.27 OK -231.52 -3.99 OK
25 -231.84 -0.34 OK -231.42 -3.3 OK
26 -231.74 1.32 OK -231.32 -1.89 OK
27 -231.59 -3.85 OK -231.30 -0.83 OK
28 -231.52 -3.99 OK -231.29 1.63 OK
29 -231.42 -3.30 OK -231.19 -2.09 OK
30 -231.32 -1.87 OK -231.08 1.28 OK
Tabla 4.3.1: Lista de las primeras 30 estructuras resultantes para Mol-XVI, ordenadas por energ´ıa.
Cristal Grupo a b c α β γ Volumen Energ´ıa
Espacial (˚A) (˚A) (˚A) (º) (º) (º) (˚A3
) (KJ/mol)
MGAC Pbca 10.283 7.1478 16.014 90 90 90 1177 -234.29
Experimental Pbca 9.645 7.381 16.185 90 90 90 1152 -230.66
Tabla 4.3.2: Datos de grupo espacial, celda unidad, volumen y energ´ıa del candidato encontrado
por MGAC y del cristal experimental para la mol´ecula Mol-XVI.
55
56 Resultados
Figura 4.3.1: Comparaci´on entre el cristal experimental y el candidato encontrado por MGAC para
la mol´ecula Mol-XVI.
candidatos generados son casi todos los mismos, esto se puede corroborar comparando sus
grupos espaciales y celdas unidad. Adem´as, la mayor´ıa de ellos se ubican en el mismo orden
o similar en cada lista. En el caso sin m´etodo de control se observa que existe un candidato
defectuoso, el n´umero 23, que no aparece en la otra lista, justamente excluido por la acci´on
del m´etodo de control. Otra cosa que se puede verificar es que todos los buenos candidatos
aparecen con diferencias de volumen que caen dentro del rango de aceptaci´on, tal como fue
observado en la Figura 4.1.7.
Para esta mol´ecula efectivamente se pudo encontrar un cristal presentando coinci-
dencia con el experimental. Este cristal result´o ser el mismo en ambos casos, el cual se
indica resaltado en negrita en la tabla, y corresponde al n´umero 9 de la lista sin m´etodo
de control y al n´umero 8 de la lista con m´etodo de control. El hecho de que el cristal
56
4.3. Resultados de la implementaci´on 57
sea el mismo en los dos casos se explica teniendo en cuenta que CHARMM realiza una
optimizaci´on local con cada individuo, por lo tanto, cualquier estructura parecida (que se
encuentre cerca dentro del espacio de b´usqueda) termina convergiendo hacia ´este. En la
Tabla 4.3.2 se presentan los datos de grupo espacial, celda unidad, volumen y energ´ıa del
candidato encontrado y del cristal experimental, mientras que en la Figura 4.3.1 se muestra
un detalle donde se comparan ambos cristales gr´aficamente.
4.3.2. Resultados para Mol-XVII
Para esta mol´ecula se consider´o una configuraci´on flexible con los ´angulos diedros
libres seg´un se indican en la Figura 4.3.2. Para esta mol´ecula, los par´ametros utilizados
por CHARMM para el c´alculo y la optimizaci´on de la energ´ıa fueron los mismos que los
empleados para la mol´ecula Mol-XVI. Los resultados de las simulaciones se detallan en
la Tabla 4.3.3, donde nuevamente se incluyen los primeros 30 candidatos ordenados por
energ´ıa de manera creciente para cada caso.
Para esta mol´ecula tambi´en se observa que los individuos generados son en su mayor´ıa
los mismos y ubicados relativamente en ´ordenes similares en ambos casos, salvo por algunas
estructuras extra que se observan en la lista con m´etodo de control (las ubicadas en la
posici´on 14, 15 y 20) pero que no aparecen en la otra lista. La diferencia m´as notoria
que se manifiesta aqu´ı es la aparici´on de estructuras repetidas, las cuales se indican con
comillas en la tabla. Como se puede observar, cerca de la mitad de los cristales de cada
lista son repetidos, lo cual significa que existe mucha informaci´on redundante. Este tipo
de efecto no es deseable que ocurra debido a que reduce la diversidad de la poblaci´on, y
por lo tanto, acota de manera artificial el espacio de b´usqueda y puede llegar a perjudicar
el resultado de la predicci´on. Dado que el m´etodo de control implementado no es capaz de
identificar estructuras repetidas, solo si son buenos o malos candidatos, por ello tambi´en
se ve el mismo fen´omeno en el caso con control.
Para esta mol´ecula no se ha podido encontrar en ninguno de los dos casos coincidencia
con el cristal experimental dentro de las primeras 30 estructuras. Analizando los valores
57
58 Resultados
Figura 4.3.2: Esquema de la mol´ecula Mol-XVII identificando los nombres de cada ´atomo y los
´angulos diedros que se permiten variar.
de energ´ıas, se observa que el cristal experimental exhibe una energ´ıa de -32.20 KJ/mol,
cayendo fuera del rango alcanzado por las primeras 30 estructuras, tal como se observa
en la Tabla 4.3.3. Por este motivo se decidi´o extender la b´usqueda hacia las primeras 300
estructuras, alcanzando un rango de energ´ıas comprendido entre -41.66 KJ/mol y -30.35
KJ/mol para el caso sin control, y entre -41.66 KJ/mol y -31.03 KJ/mol para el caso con
control. Si bien ahora la energ´ıa del cristal experimental se encuentra dentro del nuevo
rango de estructuras, tampoco se ha podido encontrar coincidencia con el experimental
dentro de esta lista extendida. Evidentemente, aqu´ı el m´etodo de control no representa
una soluci´on, por lo cual se puede inferir que los problemas que tiene el m´etodo para la
predicci´on de esta estructura deben estar asociados con otros factores. Precisamente, este
problema ha sido estudiado en otros trabajos [4] y se ha concluido que el problema reside,
por un lado, en la orientaci´on de los grupos nitro, debido a que las interacciones de largo
alcance son dif´ıciles de modelar en estos casos, y por otro lado, la importante contribuci´on
a la energ´ıa del cristal aportada por la dispersi´on. En este punto, la parametrizaci´on del
potencial cl´asico que utiliza CHARMM para calcular la energ´ıa no es la m´as adecuada para
esta mol´ecula en particular, ya que no permite modelar correctamente estos efectos.
58
4.3. Resultados de la implementaci´on 59
Orden
Sin m´etodo de control Con m´etodo de control
Energ´ıa ∆VARH
Conectividad
Energ´ıa ∆VARH
Conectividad
(KJ/mol) ( %) (KJ/mol) ( %)
1 -41.66 -3.6 OK -41.66 -3.6 OK
2 ” ” ” ” ” ”
3 -41.52 -0.66 OK -41.52 -0.66 OK
4 ” ” ” ” ” ”
5 -40.72 -3.77 OK -40.73 -3.77 OK
6 ” ” ” ” ” ”
7 -39.44 -2.63 OK -39.44 -2.62 OK
8 ” ” ” ” ” ”
9 -39.43 -3.73 OK -39.43 -4.03 OK
10 -39.41 -4.04 OK -39.42 -3.71 OK
11 ” ” ” ” ” ”
12 -39.34 -5.15 OK -39.34 -5.15 OK
13 ” ” ” ” ” ”
14 -38.88 -1.77 OK -39.17 -4.57 OK
15 ” ” ” -39.02 -2.38 OK
16 -38.77 -5.12 OK -38.88 -1.77 OK
17 ” ” ” ” ” ”
18 -38.18 -5.6 OK -38.77 -5.12 OK
19 ” ” ” ” ” ”
20 -37.8 -3.08 OK -38.25 -0.01 OK
21 ” ” ” -38.18 -5.6 OK
22 -37.58 -2.5 OK ” ” ”
23 -37.48 -3.14 OK -37.8 -3.07 OK
24 ” ” ” ” ” ”
25 -37.45 -3.25 OK -37.58 -2.5 OK
26 ” ” ” -37.48 -3.12 OK
27 -37.43 -2.05 OK ” ” ”
28 -37.37 -5.58 OK -37.45 -3.25 OK
29 ” ” ” ” ” ”
30 -37.37 -1.22 OK -37.43 -2.05 OK
Tabla 4.3.3: Lista de las primeras 30 estructuras resultantes para Mol-XVII, ordenadas por energ´ıa.
59
60 Resultados
4.3.3. Resultados para Mol-XVIII
Para esta mol´ecula se consider´o una configuraci´on flexible con los ´angulos diedros
libres seg´un se indican en la Figura 4.3.3. Para esta mol´ecula, los par´ametros utilizados
por CHARMM para el c´alculo y la optimizaci´on de la energ´ıa fueron tambi´en los mismos
que los empleados para la mol´ecula Mol-XVI. Los resultados de las simulaciones se detallan
en la Tabla 4.3.4, incluyendo los primeros 30 candidatos ordenados por energ´ıa de manera
creciente para cada caso. Para esta mol´ecula se observa que los primeros cuatro individuos
de la lista sin m´etodo de control no s´olo corresponden a la misma estructura, sino que
adem´as constituyen un candidato defectuoso. Si se excluyen estos cuatro candidatos de la
lista, puede observarse que el resto es muy similar a la lista correspondiente con m´etodo
de control, con la excepci´on de alguna estructura que se intercale en el medio o con alguna
que cambie el orden relativo. Esto significa que el m´etodo de control no est´a generando un
efecto que modifique sustancialmente los resultados finales, lo cual quiz´a pueda deberse a
que la mayor´ıa de las estructuras son buenas, salvo esas primeras cuatro m´as la que aparece
en el puesto 19 sin m´etodo de control. Por lo tanto, el efecto de eliminar estas estructuras
no altera demasiado el comportamiento general, dado que ´estas representan una minor´ıa
respecto al total de la poblaci´on, que en su mayor´ıa se trata de buenos candidatos.
Figura 4.3.3: Esquema de la mol´ecula Mol-XVIII identificando los nombres de cada ´atomo y los
´angulos diedros que se permiten variar.
60
4.3. Resultados de la implementaci´on 61
Orden
Sin m´etodo de control Con m´etodo de control
Energ´ıa ∆VARH
Conectividad
Energ´ıa ∆VARH
Conectividad
(KJ/mol) ( %) (KJ/mol) ( %)
1 -677.95 -6.41 BAD -677.29 -3.11 OK
2 ” ” ” ” ” ”
3 ” ” ” -676.86 -3.56 OK
4 ” ” ” -676.5 -6.15 OK
5 -677.3 -3.11 OK ” ” ”
6 ” ” ” ” ” ”
7 -676.86 -3.56 OK ” ” ”
8 ” ” ” -675.41 -4.87 OK
9 -676.5 -6.15 OK ” ” ”
10 ” ” ” -675.22 -6.78 OK
11 -675.41 -4.87 OK ” ” ”
12 -675.22 -6.78 OK -674.57 -1.17 OK
13 ” ” ” ” ” ”
14 -674.57 -1.17 OK -674.37 -3.96 OK
15 -674.37 -3.96 OK -674.06 -2.57 OK
16 -674.07 -2.58 OK ” ” ”
17 ” ” ” -673.35 -3.2 OK
18 ” ” ” ” ” ”
19 -673.55 -15.61 BAD -673.34 -3.08 OK
20 -673.47 -1.01 OK ” ” ”
21 -673.35 -3.2 OK ” ” ”
22 ” ” ” -673.2 -3.36 OK
23 -673.34 -3.08 OK ” ” ”
24 ” ” ” -673.1 -3.58 OK
25 ” ” ” ” ” ”
26 -673.2 -3.36 OK -673.01 -2.22 OK
27 ” ” ” ” ” ”
28 -673.1 -3.58 OK -672.69 -4.01 OK
29 ” ” ” ” ” ”
30 -673.01 -2.22 OK ” ” ”
Tabla 4.3.4: Lista de las primeras 30 estructuras resultantes para Mol-XVIII, ordenadas por energ´ıa.
Cristal Grupo a b c α β γ Volumen Energ´ıa
Espacial (˚A) (˚A) (˚A) (º) (º) (º) (˚A3
) (KJ/mol)
MGAC Pbca 9.989 8.752 24.148 90 90 90 2111 -675.4
Experimental Pbca 9.888 8.887 24.969 90 90 90 2194 -651.7
Tabla 4.3.5: Datos de grupo espacial, celda unidad, volumen y energ´ıa del candidato encontrado
por MGAC y del cristal experimental para la mol´ecula Mol-XVIII.
61
62 Resultados
Figura 4.3.4: Comparaci´on entre el cristal experimental y el candidato encontrado por MGAC para
la mol´ecula Mol-XVIII.
Para esta mol´ecula tambi´en se pudo encontrar un cristal presentando coincidencia
con el experimental. Como en el caso de Mol-XVI, aqu´ı tambi´en el cristal result´o ser el
mismo en ambos casos y se indica resaltado en negrita en la tabla. ´Este corresponde al
n´umero 11 de la lista sin m´etodo de control y al n´umero 8 de la lista con m´etodo de control.
Sin embargo, si se excluyen tanto los cristales malos como los repetidos, su ubicaci´on final
ser´ıa el puesto n´umero 4 en ambas listas. En la Tabla 4.3.5 se presentan los datos de
grupo espacial, celda unidad, volumen y energ´ıa del candidato encontrado y del cristal
experimental, mientras que en la Figura 4.3.4 se muestra un detalle donde se comparan
ambos cristales gr´aficamente.
62
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal
Tesis-Licenciatura-VersionFinal

Más contenido relacionado

Similar a Tesis-Licenciatura-VersionFinal

Utilizacion de productos quimicos en la vida la dsolucion
Utilizacion de productos quimicos en la vida la dsolucionUtilizacion de productos quimicos en la vida la dsolucion
Utilizacion de productos quimicos en la vida la dsolucionCafuCe1
 
Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...
Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...
Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...Gabriel Minevitz
 
1. efectos dinamicos del viento en chimeneas de acero
1.  efectos dinamicos del viento en chimeneas de acero1.  efectos dinamicos del viento en chimeneas de acero
1. efectos dinamicos del viento en chimeneas de acerocteranb
 
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz BoliviaTesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz BoliviaSUPSI
 
Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...
Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...
Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...Neffer Yánez Vanegas
 
Apoyo didactico libro plantas de tratamiento de aguas residuales
Apoyo didactico  libro plantas de tratamiento de aguas residualesApoyo didactico  libro plantas de tratamiento de aguas residuales
Apoyo didactico libro plantas de tratamiento de aguas residualesJhon Stalin Castillo Armijos
 
Riesgo quimico papel
Riesgo quimico papelRiesgo quimico papel
Riesgo quimico papeldhocker
 
GUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdf
GUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdfGUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdf
GUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdfSandyZorrilla2
 
Mantenimiento de Reemplazo
Mantenimiento de ReemplazoMantenimiento de Reemplazo
Mantenimiento de ReemplazoVanessa Verano
 
Tesis javier iza corregida final(1)
Tesis javier iza corregida final(1)Tesis javier iza corregida final(1)
Tesis javier iza corregida final(1)lxndaremusikm
 
5º recomendaciones para la aplicación del rd1301 2006
5º recomendaciones para la aplicación del rd1301 20065º recomendaciones para la aplicación del rd1301 2006
5º recomendaciones para la aplicación del rd1301 2006Asebir
 
Aspectos ambientales de la gestión integrada de crecidas
Aspectos ambientales de la gestión integrada de crecidasAspectos ambientales de la gestión integrada de crecidas
Aspectos ambientales de la gestión integrada de crecidasMerlin Flores Ruiz
 

Similar a Tesis-Licenciatura-VersionFinal (20)

Fluidos
FluidosFluidos
Fluidos
 
Gtp lab hidraulica
Gtp lab hidraulicaGtp lab hidraulica
Gtp lab hidraulica
 
Utilizacion de productos quimicos en la vida la dsolucion
Utilizacion de productos quimicos en la vida la dsolucionUtilizacion de productos quimicos en la vida la dsolucion
Utilizacion de productos quimicos en la vida la dsolucion
 
Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...
Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...
Analisis sobre los beneficios del cambio de la Economía extraccionista lineal...
 
1. efectos dinamicos del viento en chimeneas de acero
1.  efectos dinamicos del viento en chimeneas de acero1.  efectos dinamicos del viento en chimeneas de acero
1. efectos dinamicos del viento en chimeneas de acero
 
Prototipo biogas
Prototipo biogasPrototipo biogas
Prototipo biogas
 
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz BoliviaTesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
 
Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...
Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...
Espectroscopia de resonancia magnética nuclear de sólidos aplicada a la carac...
 
Apoyo didactico libro plantas de tratamiento de aguas residuales
Apoyo didactico  libro plantas de tratamiento de aguas residualesApoyo didactico  libro plantas de tratamiento de aguas residuales
Apoyo didactico libro plantas de tratamiento de aguas residuales
 
70786120_2009.pdf
70786120_2009.pdf70786120_2009.pdf
70786120_2009.pdf
 
Riesgo quimico papel
Riesgo quimico papelRiesgo quimico papel
Riesgo quimico papel
 
GUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdf
GUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdfGUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdf
GUIA-PRACTICA-PROTOCOLOS-QUIRURGICOS.pdf
 
Sorzano2002c
Sorzano2002cSorzano2002c
Sorzano2002c
 
Tm 04-007
Tm 04-007Tm 04-007
Tm 04-007
 
Mantenimiento de Reemplazo
Mantenimiento de ReemplazoMantenimiento de Reemplazo
Mantenimiento de Reemplazo
 
Planta criogenica
Planta criogenicaPlanta criogenica
Planta criogenica
 
Tesis javier iza corregida final(1)
Tesis javier iza corregida final(1)Tesis javier iza corregida final(1)
Tesis javier iza corregida final(1)
 
5º recomendaciones para la aplicación del rd1301 2006
5º recomendaciones para la aplicación del rd1301 20065º recomendaciones para la aplicación del rd1301 2006
5º recomendaciones para la aplicación del rd1301 2006
 
Aspectos ambientales de la gestión integrada de crecidas
Aspectos ambientales de la gestión integrada de crecidasAspectos ambientales de la gestión integrada de crecidas
Aspectos ambientales de la gestión integrada de crecidas
 
Tesis 01
Tesis 01Tesis 01
Tesis 01
 

Tesis-Licenciatura-VersionFinal

  • 1. DESARROLLO DE METODOLOG´IA PARA CONTROL A PRIORI DE DENSIDAD Y CONTACTOS DEFECTUOSOS EN PREDICCI´ON DE ESTRUCTURAS CRISTALINAS DETERMINANTES EN EL DISE ˜NO DE DROGAS FARMAC´EUTICAS Dami´an A. Grillo UNIVERSIDAD DE BUENOS AIRES Facultad de Ciencias Exactas y Naturales Tesis de Licenciatura en Ciencias F´ısicas Octubre 2012
  • 2.
  • 3. Resumen El M´etodo de Algoritmos Gen´eticos Modificados para Cristales (MGAC) es una de las metodolog´ıas disponibles actualmente para resolver problemas de predicci´on de estruc- turas cristalinas de mol´eculas org´anicas. Esta tesis est´a dedicada a proponer y evaluar m´etodos para excluir las estructuras an´omalas de la poblaci´on cuando se utiliza el MGAC. Uno de los m´etodos corresponde a un criterio basado en la observaci´on de vol´umenes de celda, mediante el cual se excluyen todos aquellos candidatos que no cumplan el criterio de volumen establecido. El otro m´etodo consiste en un criterio basado en la verificaci´on de los contactos at´omicos dentro del cristal, mediante el cual se excluyen todas aquellas estructuras que presenten defectos en sus contactos at´omicos. Para estudiar el comportamiento del MGAC bajo estas modificaciones, se realizaron simulaciones tanto antes como despu´es de la implementaci´on de los m´etodos. Los sistemas estudiados para tal fin correspondieron a las mol´eculas denominadas Mol-XVI, Mol-XVII, Mol-XVIII y Mol-XX, las cuales formaron parte del conjunto de mol´eculas propuestas en el desaf´ıo de predicci´on de estructuras CSP2010, y tambi´en se estudi´o la mol´ecula deno- minada Jayces, la cual hab´ıa sido tratada previamente con MGAC. Luego se compararon los resultados obtenidos en cada caso, identificando las ventajas y desventajas de la aplica- ci´on del m´etodo. Para las mol´eculas correspondientes al CSP2010 se realiz´o una discusi´on comparando el MGAC con otras m´etodos que han tenido resultados satisfactorios en dicho certamen. 1
  • 4. 2
  • 5. Agradecimientos Primero quiero agradecer a la Dra. Marta B. Ferraro, directora de esta tesis, por la oportunidad brindada con este trabajo. En ella he encontrado una excelente profesional y una gran persona, que me ha dado todo el apoyo, la confianza y la gu´ıa adecuada para poder trabajar de la mejor manera, siempre valorando mi labor y apuntal´andome en lo que fuera necesario. Agradezco al Dr. Julio C. Facelli, director del CHPC de la Universidad de Utah, por su colaboraci´on y su apoyo brindado para la realizaci´on de esta tesis. Agradezco a mis compa˜neros, colegas, y sobre todo amigos, Facundo, Javier, Cynthia y Ariel, por esos almuerzos, meriendas y cenas, por esos momentos y charlas compartidas. Por todas esas cosas, ellos tambi´en han sido un gran apoyo en mi carrera y en mi vida. Agradezco a Daniel Vega y a Griselda Polla, quienes han sido muy importantes tanto en mi desarrollo acad´emico como profesional. Agradezco a mis amigos de la vida, no voy a nombrarlos porque son unos cuantos y no quiero omitir a ninguno, pero cada uno de ellos sabe desde qu´e lugar fueron, son y ser´an importantes para m´ı. Agradezco a la Universidad de Buenos Aires y al CHPC de la Universidad de Utah por facilitar sus instalaciones para llevar a cabo esta tesis. Por ´ultimo quiero agradecer a mi familia, quienes han sido un constante apoyo en mi vida. Me han alentado en mis decisiones, me han sostenido en los momentos de debilidad y me han orientado en los momentos de duda. Por estas cosas, mi formaci´on como profesional y como ser humano, tambi´en se debe en gran parte a ellos. 3
  • 6. 4
  • 7. ´Indice general Resumen 1 Agradecimientos 3 1. Introducci´on 7 1.1. Importancia de la predicci´on de estructuras . . . . . . . . . . . . . . . . . 7 1.2. Caracter´ısticas de los m´etodos de predicci´on de estructuras . . . . . . . . . 8 1.3. C´alculo de la energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4. Muestreo del espacio de configuraciones . . . . . . . . . . . . . . . . . . . . 9 1.5. Problemas de los m´etodos de predicci´on de estructuras . . . . . . . . . . . 10 1.6. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2. M´etodo de Algoritmos Gen´eticos Modificados para Cristales 13 2.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2. Genoma de un cristal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3. Operadores gen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4. Descripci´on general del algoritmo . . . . . . . . . . . . . . . . . . . . . . . 16 2.5. C´alculo de la energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3. M´etodos para el control a priori de la poblaci´on 21 3.1. M´etodo de control basado en el volumen de celda y la densidad de los cristales 21 3.1.1. Descripci´on del modelo de Hofmann . . . . . . . . . . . . . . . . . . 23 3.1.2. Descripci´on del modelo ARH . . . . . . . . . . . . . . . . . . . . . 24 5
  • 8. 6 3.2. M´etodo de control basado en contactos at´omicos . . . . . . . . . . . . . . . 26 3.2.1. Exploraci´on del cristal . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.2. Extensi´on de la regi´on de exploraci´on . . . . . . . . . . . . . . . . . 32 3.2.3. Verificaci´on de la integridad del cristal . . . . . . . . . . . . . . . . 38 4. Resultados 41 4.1. Configuraci´on del filtro de volumen . . . . . . . . . . . . . . . . . . . . . . 41 4.1.1. An´alisis de modelos para estimaci´on de vol´umenes de celda . . . . 45 4.1.2. Determinaci´on del rango de aceptaci´on . . . . . . . . . . . . . . . . 48 4.2. Implementaci´on del m´etodo de control . . . . . . . . . . . . . . . . . . . . 51 4.3. Resultados de la implementaci´on . . . . . . . . . . . . . . . . . . . . . . . 53 4.3.1. Resultados para Mol-XVI . . . . . . . . . . . . . . . . . . . . . . . 54 4.3.2. Resultados para Mol-XVII . . . . . . . . . . . . . . . . . . . . . . . 57 4.3.3. Resultados para Mol-XVIII . . . . . . . . . . . . . . . . . . . . . . 60 4.3.4. Resultados para Mol-XX . . . . . . . . . . . . . . . . . . . . . . . . 63 4.3.5. Resultados para Jayces . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.3.6. Consideraciones generales respecto de los problemas presentados en el CSP2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5. Conclusiones 73 Bibliograf´ıa 77 6
  • 9. Cap´ıtulo 1 Introducci´on 1.1. Importancia de la predicci´on de estructuras Existen varias razones para justificar la necesidad de predecir estructuras cristalinas. En el caso de los cristales moleculares, las mismas se encuentran relacionadas con la discipli- na denominada Ingenier´ıa de Cristales, la cual tiene como objetivo el dise˜no de materiales s´olidos con ciertas propiedades espec´ıficas. Productos farmac´euticos, agroqu´ımicos, pig- mentos, materiales altamente energ´eticos, etc., son ejemplos de algunos s´olidos cristalinos org´anicos de gran importancia para diferentes aplicaciones. La evidencia experimental muestra que existe una gran cantidad de compuestos que exhiben el fen´omeno de polimorfismo. Se conoce como polimorfismo a la capacidad que tie- ne una dada sustancia de existir en dos o m´as formas cristalinas, las cuales se caracterizan por tener diferentes ordenamientos de sus mol´eculas dentro de la estructura cristalina [1]. Existen situaciones en las cuales las mol´eculas presentan adem´as distintas conformaciones, es en estos casos cuando se habla de polimorfismo conformacional. Como resultado de estas diferencias estructurales, cada polimorfo manifiesta diferentes propiedades f´ısicas y qu´ımi- cas, entre las cuales se pueden destacar punto de fusi´on, solubilidad, densidad, estabilidad, higroscopicidad, estabilidad, dureza, conductividad t´ermica y el´ectrica, entre otras. Por lo tanto, para buscar y dise˜nar nuevos materiales con las propiedades deseadas, 7
  • 10. 8 Introducci´on resulta de vital importancia disponer de herramientas que permitan obtener informaci´on acerca de los distintos polimorfos y conseguir el control de su producci´on. Por este motivo, el desarrollo de metodolog´ıas que permitan conocer las formas m´as probables en la que un compuesto cristaliza resulta de especial inter´es. 1.2. Caracter´ısticas de los m´etodos de predicci´on de estructuras Ante la gran cantidad de posibles estructuras que puede llegar a formar un dado compuesto, resulta necesario determinar cu´al de todas corresponde a la configuraci´on m´as estable. El criterio m´as ampliamente aceptado consiste en establecer a la estructura de m´ınima energ´ıa como la termodin´amicamente m´as estable. Por este motivo, la mayor par- te de los m´etodos de predicci´on de estructuras cristalinas se basan en procedimientos de b´usqueda de la soluci´on de energ´ıa m´ınima, lo que com´unmente se conoce como optimiza- ci´on global. Existen numerosos m´etodos de optimizaci´on global, pero no todos resultan eficaces para atacar el problema de la predicci´on de estructuras. Dada la enorme complejidad del mapa de energ´ıa, la b´usqueda del m´ınimo global se convierte en un problema de tipo NP-dif´ıcil, por lo tanto los m´etodos determin´ısticos no son aplicables en este contexto. Aqu´ı es donde entran en juego los m´etodos heur´ısticos y los m´etodos estoc´asticos, mediante los cuales se busca alcanzar el m´ınimo global a partir de un muestreo representativo del espacio de configuraciones. Este muestreo requiere de alg´un criterio que gu´ıe la b´usqueda, el cual corresponde justamente a la energ´ıa de cada configuraci´on. En consecuencia, tanto el m´etodo de c´alculo de energ´ıa como el m´etodo de muestreo ser´an los principales factores que dirijan el rumbo de la optimizaci´on. 8
  • 11. 1.3. C´alculo de la energ´ıa 9 1.3. C´alculo de la energ´ıa Tal como se ha descrito previamente, la predicci´on de estructuras involucra la b´usque- da de la configuraci´on de m´ınima energ´ıa. Por lo tanto, un m´etodo adecuado para calcular la energ´ıa de cada configuraci´on de manera precisa debe ser provisto. Existen distintos m´etodos para llevar a cabo este tipo de c´alculo, entre los m´as utilizados se encuentran aquellos que implementan el uso de potenciales cl´asicos y aquellos que implementan m´eto- dos cu´anticos basados en DFT. Estos ´ultimos suelen ser m´as precisos que los primeros, pero tienen la desventaja de tener un mayor costo computacional. En el caso de los cristales moleculares, suelen preferirse los m´etodos implementados en base a potenciales cl´asicos, dado que se pueden obtener resultados comparables a los conseguidos con los m´etodos DFT pero con un costo computacional mucho menor. En este punto resulta crucial que el m´etodo disponga de una correcta parametrizaci´on de los potenciales cl´asicos para realizar el c´alculo de energ´ıa de manera precisa. 1.4. Muestreo del espacio de configuraciones La complejidad num´erica de encontrar una cantidad de m´ınimos que sean representa- tivos, incluyendo el m´ınimo global, puede llegar a ser muy grande. El problema se complica a´un m´as en los casos en los que las mol´eculas presentan cierto nivel de flexibilidad, esto es, las mol´eculas pueden admitir una gran variedad de conformaciones que pueden ser energ´eti- camente accesibles. Luego, las distintas conformaciones pueden traer como consecuencia diferentes arreglos espaciales de las mol´eculas, lo cual deriva en diferentes polimorfos. Por lo tanto, en la b´usqueda de nuevos polimorfos, se encuentran acopladas tanto las posiciones de las mol´eculas dentro del cristal como las diferentes conformaciones que pueden presentar, esto hace que la cantidad de grados de libertad del problema aumente considerablemente. Es aqu´ı donde el muestreo del espacio de configuraciones juega un rol fundamental. Un muestreo efectivo deber´ıa ser capaz de alcanzar la zona del espacio de configuraciones donde se encuentra el m´ınimo global, mientras que un muestreo deficiente puede pasar por 9
  • 12. 10 Introducci´on alto dicha zona, por lo cual el m´ınimo global nunca ser´a encontrado. De esta manera, el problema del muestreo se convierte en otro punto crucial a la hora de la b´usqueda del m´ınimo global; para resolverlo se suelen utilizar diversas t´ecnicas computacionales, tanto heur´ısticas como estoc´asticas, ya sea algoritmos gen´eticos, simulated annealing, Monte- Carlo, entre otros. 1.5. Problemas de los m´etodos de predicci´on de es- tructuras Para el caso de los cristales moleculares, se ha mencionado que los m´etodos que emplean potenciales cl´asicos para el c´alculo de energ´ıa resultan de especial inter´es, dadas sus ventajas frente a los que implementan m´etodos cu´anticos. Sin embargo, a la hora de realizar una predicci´on de estructuras, dichos m´etodos tambi´en se encuentran con algunas dificultades, las cuales est´an principalmente relacionadas con dos factores fundamentales: la precisi´on en el c´alculo de energ´ıa y el muestreo del espacio de configuraciones. En el primer caso, los problemas se pueden originar por dos motivos. Por un lado, puede ocurrir que la aplicaci´on del m´etodo de c´alculo de energ´ıa no resulte apropiada para el sistema en cuesti´on, dado que la parametrizaci´on de los potenciales cl´asicos no sea la adecuada para el sistema estudiado. Por otro lado, puede darse que el m´etodo calcule valores de energ´ıa err´oneos para algunas estructuras muy alejadas de la configuraci´on de equilibrio. Este tipo de problema se produce debido a que los potenciales se parametrizan en regiones pr´oximas a estructuras de energ´ıa m´ınima, y puede ocasionar que el potencial no se encuentre bien modelado y resulte deformado en las regiones m´as alejadas. Como consecuencia de esta anomal´ıa, algunas estructuras f´ısicamente defectuosas pueden ser susceptibles de exhibir bajas energ´ıas, lo cual las har´ıa parecer como buenas estructuras, hablando en t´erminos energ´eticos, causando que la b´usqueda del ´optimo global se dirija en esa direcci´on, equivocando el camino. En el segundo caso, el ´exito de la predicci´on se ve comprometido por un deficiente 10
  • 13. 1.6. Objetivos de la tesis 11 muestreo del espacio de configuraciones, en el cual la zona donde se encuentra el m´ınimo global no es alcanzada y, por lo tanto, la configuraci´on ´optima nunca es encontrada. Este problema suele observarse en los sistemas cuyas mol´eculas presentan gran flexibilidad, elevando considerablemente el n´umero de grados de libertad y haciendo que el espacio de configuraciones sea demasiado extenso para ser muestreado de manera efectiva. 1.6. Objetivos de la tesis Existen en la actualidad varios m´etodos de predicci´on de estructuras, todos ellos en continuo desarrollo y a la espera de nuevas mejoras [4]. El m´etodo de algoritmos gen´eticos modificado para cristales, MGAC [5], es uno de ellos y fue el elegido para el desarrollo de este trabajo. El m´etodo MGAC ha sido probado en numerosas oportunidades, cosechando ´exitos y algunos fracasos [2, 3, 4]. En estos ´ultimos casos, se han realizado exhaustivas pruebas con el fin de determinar cu´ales son los factores que influyen para que los resultados obtenidos no conduzcan a una predicci´on exitosa; en la mayor´ıa de ellos las fuentes de error se encuentran asociadas con las cuestiones descritas anteriormente: la precisi´on en el c´alculo de energ´ıa y el muestreo del espacio de configuraciones. El objetivo de esta tesis se centra principalmente en la propuesta de nuevos m´etodos auxiliares que ayuden a resolver, por un lado, el problema de la inclusi´on de individuos f´ısicamente defectuosos exhibiendo bajas energ´ıas, y por otro lado, el problema relacionado con el muestreo de espacios de configuraciones extensos. Para resolver estos problemas se proponen dos m´etodos diferentes, uno basado en el volumen de celda y en la densidad de los cristales, y el otro basado en el criterio de contactos at´omicos. Estos m´etodos funcionar´ıan como mecanismos de control que filtrar´ıan a priori aquellas estructuras carentes de sentido f´ısico, lo cual causar´ıa un doble efecto: se lograr´ıa acotar el espacio de b´usqueda y se conseguir´ıa descartar aquellas configuraciones defectuosas de baja energ´ıa, introducidas en la poblaci´on por el artilugio del potencial cl´asico. 11
  • 14. 12 Introducci´on En el cap´ıtulo 2 se realiza una descripci´on del m´etodo MGAC, analizando de manera breve cada uno de sus m´odulos y realizando una breve descripci´on del funcionamiento general del m´etodo. En el cap´ıtulo 3 se introducen los dos m´etodos propuestos para control a priori de las poblaciones. En el cap´ıtulo 4 se presentan los resultados obtenidos para una serie de cristales estudiados. En el cap´ıtulo 5 se presentan las conclusiones y se eval´uan los posibles trabajos a futuro para realizar nuevas mejoras. 12
  • 15. Cap´ıtulo 2 M´etodo de Algoritmos Gen´eticos Modificados para Cristales 2.1. Introducci´on El m´etodo MGAC [5] constituye uno de los tantos m´etodos de optimizaci´on global desarrollados para cristales moleculares. El m´etodo tiene como objetivo encontrar el m´ıni- mo global mediante un barrido eficiente del espacio de configuraciones. Los fundamentos b´asicos y su implementaci´on se describen brevemente a continuaci´on. 2.2. Genoma de un cristal El genoma constituye la estructura mediante la cual se codifica la informaci´on de cada individuo. En el caso de los cristales, la informaci´on necesaria para describir a cada uno de ellos consiste en los par´ametros de su celda unidad y la posici´on de cada ´atomo dentro de ella. La celda unidad se define como el bloque de ´atomos que, al ser repetido peri´odicamente, forma el cristal. En el caso que el cristal presentase m´as simetr´ıas que la traslacional, o sea que tambi´en presente simetr´ıas puntuales, s´olo es necesario definir las posiciones de los ´atomos que se encuentran en una porci´on de la celda, conocida como celda asim´etrica. El resto de las posiciones dentro de la celda unidad est´an dadas por las 13
  • 16. 14 M´etodo de Algoritmos Gen´eticos Modificados para Cristales Figura 2.2.1: Representaci´on esquem´atica del cristal generado por el genoma. operaciones de simetr´ıa del cristal. La combinaci´on entre simetr´ıas de punto y traslacionales forman lo que se conoce como grupos espaciales [6]. Por lo tanto, para definir un cristal completamente es necesario conocer los par´ame- tros de la celda unidad, las posiciones de los ´atomos en la celda asim´etrica y el grupo espacial. En el caso de cristales moleculares, puede reducirse notablemente la cantidad de informaci´on necesaria para describir al cristal, ya que es posible considerar que existen por- ciones de la mol´ecula que son r´ıgidas. De esta manera, para especificar las coordenadas de todos los ´atomos, s´olo se necesita conocer la posici´on del centro de masa de las mol´eculas, sus orientaciones y los valores de los ´angulos diedros que vinculan entre s´ı cada porci´on r´ıgida de la mol´ecula. Este esquema es el elegido para representar finalmente el genoma del cristal (Ver Figura 2.2.2). 14
  • 17. 2.3. Operadores gen´eticos 15 Figura 2.2.2: Representaci´on esquem´atica del genoma de un cristal. Como se puede observar, cada tipo de par´ametros se mantiene en diferentes sectores del genoma, esto es para que la informaci´on se intercambie entre categor´ıas similares de par´ametros y no se mezcle al aplicar los operadores gen´eticos. Tambi´en se puede apreciar que los ejes de la celda unidad no son parte del conjunto de par´ametros a optimizar. Por el contrario, los ejes son sometidos a un procedimiento de ajuste, tal que las mol´eculas corres- pondientes a la celda unidad queden enteramente contenidas en ella. A este procedimiento se lo denomina fitcell (para m´as detalles, consultar [5]). 2.3. Operadores gen´eticos La funci´on de los operadores gen´eticos consiste en el intercambio y la creaci´on de informaci´on entre los individuos presentes. Existen dos tipos de operadores: de recombi- naci´on y de mutaci´on. Los operadores de recombinaci´on toman dos estructuras para crear otras dos a trav´es del intercambio de la informaci´on presente en las estructuras a la en- trada del mismo, mientras que los operadores de mutaci´on toman una sola estructura a su entrada, que se modifica para crear una nueva estructura. Los detalles de los distintos tipos de operadores implementados pueden consultarse en [5]. El tipo de operador aplicado se elige al azar entre los operadores disponibles y la frecuencia con que se aplican var´ıa seg´un el tipo, esto se debe a la funci´on que cumple cada 15
  • 18. 16 M´etodo de Algoritmos Gen´eticos Modificados para Cristales uno. Por un lado, los operadores de recombinaci´on explotan la informaci´on existente en los individuos presentes, mientras que la mutaci´on explora nuevas estructuras, introduciendo nueva informaci´on. En general, las implementaciones de algoritmos gen´eticos tratan de asignar una mayor frecuencia a los operadores de recombinaci´on, con lo cual se privilegia una b´usqueda con memoria, la cual aprende de las estructuras previamente generadas para construir nuevas generaciones. 2.4. Descripci´on general del algoritmo El primer paso del algoritmo consiste en crear aleatoriamente una poblaci´on o ge- neraci´on inicial. Para esto, el siguiente procedimiento es aplicado para inicializar a cada individuo. Las posiciones de las mol´eculas son generadas eligiendo puntos aleatorios de un cubo de un tama˜no dado, que depender´a de las caracter´ısticas geom´etricas de la mol´ecu- la y del n´umero de ellas por celda asim´etrica. En forma similar, las orientaciones de las mol´eculas y los ´angulos diedros son tambi´en elegidos de manera aleatoria. Luego, los ejes de la celda se ajustan mediante el procedimiento de fitcell, para que el conjunto de mol´ecu- las generado aleatoriamente quede contenido dentro de la celda asim´etrica. Por ´ultimo, el conjunto es sometido a una optimizaci´on local. El siguiente paso es la elecci´on del 50 % de los cristales de la poblaci´on inicial a trav´es del m´etodo estoc´astico conocido como Roulette Wheel, en el cual cada cristal presenta una probabilidad de ser elegido proporcional a pi ∝ Emax − Ei Emax − Emin , (2.4.1) donde Ei es la energ´ıa total del cristal y Emax, Emin son la m´axima y la m´ınima energ´ıa presentes en la poblaci´on. Todas estas energ´ıas son calculadas una vez que los cristales fueron optimizados localmente. Es importante destacar que este procedimiento prioriza a los cristales de menor energ´ıa, pues son los elegidos con mayor frecuencia. Una vez elegidos los individuos, estos son utilizados para generar nuevos cristales mediante la aplicaci´on de los operadores de recombinaci´on y de mutaci´on. A estos nuevos individuos se los somete al 16
  • 19. 2.5. C´alculo de la energ´ıa 17 proceso de fitcell y se los optimiza localmente, para introducirlos en una poblaci´on temporal compuesta por estas estructuras m´as la poblaci´on inicial. Esta poblaci´on resulta ser 50 % m´as grande que la inicial (100 % de la inicial y 50 % de nuevas estructuras), por lo tanto, para llevarla al tama˜no correcto se eliminan los cristales de mayor energ´ıa. La poblaci´on resultante define una nueva generaci´on, a la cual se le puede aplicar nuevamente el proceso descripto para conseguir la generaci´on siguiente, y as´ı sucesivamente hasta alcanzar el n´umero de generaciones deseado. Este proceso se representa esquem´aticamente en la Figura 2.4.1. 2.5. C´alculo de la energ´ıa Como se ha visto en el punto anterior, la energ´ıa es el par´ametro que se utiliza para clasificar a los cristales obtenidos. Los de menor energ´ıa tienen mayor probabilidad de ser elegidos en cada ciclo, y por lo tanto, son los que gu´ıan la b´usqueda de los nuevos cristales. Un c´alculo err´oneo en la energ´ıa de los cristales puede llevar a una incorrecta clasificaci´on que no privilegie la creaci´on del cristal experimental. En consecuencia, resulta imprescindible disponer de un m´etodo de c´alculo suficientemente preciso, tal que genere una superficie de energ´ıa en la cual la estructura experimental sea pr´acticamente un m´ınimo global. El MGAC implementa para el c´alculo de la energ´ıa un m´etodo basado en el uso del GAFF (General Amber Force Field), un potencial cl´asico que dispone del suficiente n´umero de par´ametros para modelar las interacciones entre la mayor´ıa de las mol´eculas org´anicas y de inter´es farmacol´ogico compuestas por C, H, N, O, S, P y hal´ogenos [7]. El GAFF ha sido dise˜nado con un gran n´umero de tipos de ´atomos, con el objetivo de poder describir una mayor variedad de ambientes qu´ımicos. Esto trae como consecuencia un aumento considerable del n´umero de par´ametros necesarios para describir todas las posibles interacciones. Por este motivo, GAFF incorpora un conjunto de reglas emp´ıricas y heur´ısticas para estimar aquellos par´ametros que no han sido expl´ıcitamente definidos 17
  • 20. 18 M´etodo de Algoritmos Gen´eticos Modificados para Cristales Figura 2.4.1: Diagrama de flujo representando el funcionamiento general del MGAC. 18
  • 21. 2.5. C´alculo de la energ´ıa 19 dentro del potencial. As´ı se logra una relaci´on de compromiso adecuada entre el n´umero de par´ametros necesario para definir el potencial y el detalle con que se describe a las mol´eculas. Debido a que GAFF est´a definido en base a un conjunto de par´ametros y reglas, su aplicaci´on requiere de un generador de par´ametros para cada tipo de mol´ecula. Este generador es implementado en el programa antechamber [8], el cual toma como entrada las coordenadas at´omicas de la mol´ecula y genera la serie de par´ametros necesarios para modelarla. El c´alculo de energ´ıa provisto por GAFF se compone de una serie de t´erminos, al- gunos de ellos relacionados con cuestiones geom´etricas y topol´ogicas de la mol´ecula y otros vinculados con las contribuciones electrost´aticas al potencial. Los primeros contie- nen par´ametros que salen como resultado de la aplicaci´on del programa antechamber a la mol´ecula en cuesti´on. En cambio, los segundos se basan en par´ametros que modelan las interacciones electrost´aticas, las cuales est´an representadas por un conjunto de cargas puntuales ubicadas en las posiciones at´omicas y que generan un potencial equivalente al que corresponde a la mol´ecula en fase gaseosa. Estas cargas puntuales se calculan mediante alg´un m´etodo ab-initio o DFT. En este trabajo, el c´alculo del potencial electrost´atico para una mol´ecula aislada se realiz´o mediante el programa Gaussian [9] utilizando el m´etodo HF/6-31G*, mientras que el ajuste de las cargas puntuales que representan el potencial equivalente se obtuvo mediante la utilizaci´on del programa RESP [10]. Una vez definido el potencial, tanto el c´alculo de la energ´ıa de cada cristal como su optimizaci´on local fueron efectuadas utilizando el programa CHARMM [11]. Para ello fue necesaria la utilizaci´on de una extensi´on de antechamber, llamada charmmgen, la cual permiti´o generar el potencial y la topolog´ıa de la mol´ecula en un formato adecuado para ser le´ıdo por CHARMM. 19
  • 22. 20 M´etodo de Algoritmos Gen´eticos Modificados para Cristales 20
  • 23. Cap´ıtulo 3 M´etodos para el control a priori de la poblaci´on 3.1. M´etodo de control basado en el volumen de celda y la densidad de los cristales La estimaci´on te´orica de la densidad de un cristal es un problema bien conocido y ampliamente estudiado por varios autores [12, 13, 14]. Para ciertas aplicaciones industriales, cristales de cierta densidad son requeridos. En el caso de los materiales energ´eticos, por ejemplo, la densidad resulta ser el par´ametro primario relacionado con la performance de la detonaci´on, por lo tanto, una estimaci´on precisa de la densidad puede proveer una b´usqueda dirigida hacia nuevos materiales energ´eticos, de manera m´as r´apida y menos costosa [12]. En la bibliograf´ıa consultada [13, 14], cada autor propone un modelo para la es- timaci´on de la densidad de los cristales. Estos m´etodos requieren como entrada cierta informaci´on acerca de la mol´ecula (tipos de ´atomos, de entornos, de enlaces, etc.) y ofrecen como salida el valor de la densidad que se espera para un cristal formado por el compuesto en cuesti´on. Cada uno posee su propio conjunto de par´ametros que lo caracteriza y que es necesario ajustar a partir de datos experimentales. Los mismos fueron determinados ajustando el modelo respectivo contra los datos correspondientes a cientos de miles de es- 21
  • 24. 22 M´etodos para el control a priori de la poblaci´on tructuras alojadas en la Cambridge Structural Database (CSD). Luego, cada modelo fue contrastado contra los datos experimentales para determinar su precisi´on. La Figura 3.1.1 ilustra algunos de los resultados m´as relevantes de la bibliograf´ıa consultada. Seg´un el modelo de Hofmann [13], se obtiene que los cristales observados exhi- ben un volumen de celda cuyo valor se encuentra mayoritariamente entre 90 % y el 110 % del volumen estimado. Esto significa que, en su mayor´ıa, los cristales observados tienen vol´umenes de celda que van desde 10 % por debajo hasta 10 % por arriba del volumen estimado. Este resultado es similar al obtenido por el modelo de Beaucamp et al. [14], en el cual se ve que la mayor´ıa de los cristales observados exhiben densidades cuyas diferencias respecto de la densidad esperada van entre -10 % y 10 %. Estos resultados sugieren que el volumen por celda o la densidad de un cristal experimental deber´ıan encontrarse dentro del valor indicado por cada m´etodo, con un margen de error del orden del 10 %. Dicho de otro modo, la probabilidad de encontrar un cristal experimental exhibiendo un valor de volumen de celda o de densidad que difiera m´as de un cierto valor (en este caso 10 %) respecto del valor estimado es muy remota. Esta observaci´on resulta de suma relevancia, pues ofrece una idea de las caracter´ısticas que se esperan de un individuo que sea plausible f´ısicamente. En consecuencia, se formular´a un criterio de selecci´on de cristales basado en un rango de aceptaci´on, ya sea en t´erminos de volumen de celda o en t´erminos de densidad. Este criterio establecer´a que los individuos que caigan dentro del rango deben aceptarse y man- tenerse dentro de la poblaci´on, mientras que aquellos que caigan fuera deben rechazarse y ser descartados. La formulaci´on del criterio queda sujeta a la definici´on del rango de aceptaci´on. Para definirlo, primero hay que decidir cu´al es la propiedad del cristal que se observar´a, si el volumen de celda o la densidad. Ambas posibilidades son igualmente v´alidas, sin embargo es operativamente m´as conveniente observar el volumen de celda, por lo tanto se definir´a el rango de aceptaci´on en t´erminos de esta variable. Ahora, el paso siguiente consiste en establecer los l´ımites inferior y superior del rango de aceptaci´on. A priori, en 22
  • 25. 3.1. M´etodo de control basado en el volumen de celda y la densidad de los cristales 23 Figura 3.1.1: (a) Frecuencia de aparici´on de las estructuras en funci´on del volumen de celda observado (en porcentaje respecto del volumen estimado), seg´un el modelo de Hofmann. (b) Frecuencia de aparici´on de las estructuras (en porcentaje) en funci´on de la diferencia de densidades observada y estimada (en porcentaje) seg´un el modelo de Beaucamp et al. base a las observaciones previas, una elecci´on razonable ser´ıa elegir estos valores un 10 % por debajo y un 10 % por encima del volumen de celda estimado, respectivamente. Sin embargo, esta elecci´on produce que los l´ımites dependan expl´ıcitamente del valor estimado para el volumen de celda. Es aqu´ı donde se hace presente la necesidad de implementar un m´etodo para estimar el volumen de celda. Para ello, se considerar´an tanto el modelo provisto por Hofmann como el desarrollado por Beaucamp et al., tambi´en conocido como modelo ARH. Estos modelos se aplicar´an a una serie de sistemas para evaluar sus desempe˜nos; a partir de los resultados se determinar´a cu´al es el m´etodo m´as conveniente y se definir´a cu´al es el rango de aceptaci´on adecuado para el m´etodo elegido. 3.1.1. Descripci´on del modelo de Hofmann El modelo de Hofmann [13] consiste b´asicamente en la estimaci´on del volumen de celda de un cristal mediante un esquema de aditividad de vol´umenes. Esto significa que el volumen de celda se estima como la suma de los vol´umenes promedio de los elementos contenidos en la celda unidad. Adem´as, el modelo asume que el volumen tiene una depen- dencia lineal con la temperatura. Con estas hip´otesis, la estimaci´on del volumen de celda 23
  • 26. 24 M´etodos para el control a priori de la poblaci´on Elemento H B C N O F P S Cl Br ¯v (˚A3 ) 5.08 13.24 13.87 11.8 11.39 11.17 29.5 25.2 25.8 32.7 ∆¯v (˚A3 ) 0.04 0.17 0.05 0.3 0.17 0.15 0.2 0.3 0.3 0.6 Tabla 3.1.1: Valores de los vol´umenes promedio (¯v) y sus dispersiones (∆¯v) para los elementos de inter´es. adopta la expresi´on: Vest = i ni¯vi(1 + ¯αT), (3.1.1) donde ni es el n´umero de elementos de tipo i, ¯vi es el volumen promedio del elemen- to de tipo i y ¯α es el coeficiente de expansi´on t´ermica promedio. La estimaci´on de los par´ametros ¯vi y ¯α se ha realizado mediante un ajuste del modelo contra los datos expe- rimentales correspondientes a un conjunto seleccionado de cientos de miles de estructuras de la CSD empleando un procedimiento por cuadrados m´ınimos. En este trabajo se des- precia el t´ermino correspondiente a la expansi´on t´ermica de los vol´umenes, puesto que no consideran efectos por temperatura sobre las estructuras. Por lo tanto, s´olo resultan rele- vantes los valores estimados para los vol´umenes promedio. En la Tabla 3.1.1 se muestra un extracto de los resultados, considerando s´olo los vol´umenes promedio y las dispersiones de un conjunto de elementos que aparecen com´unmente en compuestos org´anicos y que son de inter´es para este trabajo. 3.1.2. Descripci´on del modelo ARH El modelo ARH [14] consiste en un esquema de particionamiento del volumen del cristal en contribuciones aditivas asociadas con par´ametros f´ısicos del cristal. Dado que el coeficiente de empaquetamiento del cristal se mantiene pr´acticamente constante, el volumen ocupado por un ´atomo k parece estar determinado por tres factores: el radio de Van der Waals del ´atomo k, el n´umero de ´atomos vecinos y el radio de Van der Waals de estos ´atomos vecinos. En particular, el hecho de que los ´atomos de H sean mucho m´as peque˜nos que el resto, permite hacer una distinci´on entre ´atomos tipo H y tipo no-H. En base a esto, se asume por simplicidad que todos los ´atomos de tipo no-H tienen la misma influencia 24
  • 27. 3.1. M´etodo de control basado en el volumen de celda y la densidad de los cristales 25 sobre el volumen. Esto sugiere considerar que el volumen ocupado por cada ´atomo depende de tres contribuciones: el tipo de ´atomo (determinado por su n´umero at´omico Z), el n´umero total de vecinos de tipo no-H (denotado como n) y el n´umero total de vecinos de tipo H (denotado como nH). Por otro lado, adem´as de la cantidad y tipo de ´atomos vecinos, el tipo de entorno tambi´en influye sobre el volumen que ocupa el ´atomo en cuesti´on, esto es, si el ´atomo forma parte de un anillo o si est´a involucrado en alguna uni´on tipo puente hidr´ogeno. Para considerar estos efectos, el modelo incluye correcciones estructurales para cada tipo de entorno. En total son nueve par´ametros de correcci´on: cinco par´ametros Vs correspondientes a cada anillo de s elementos (3 ≤ s ≤ 7), un par´ametro V + 8 para cada anillo de 8 o m´as elementos, dos par´ametros ∆V5 y ∆V6 para considerar efectos por planaridad en anillos de 5 y 6 elementos y un par´ametro h para corregir el volumen de aquellos elementos involucrados en uniones puente hidr´ogeno. En consecuencia, bajo este esquema de particionamiento, el volumen estimado pa- ra el cristal se calcula como la suma de los vol´umenes ocupados por cada ´atomo en la celda unidad (cada uno dependiendo de los par´ametros Z, n y nH) m´as las correcciones estructurales correspondientes. Dado que este modelo se basa en par´ametros asociados con ´atomos, anillos y enlaces puente hidr´ogeno, este es el motivo por el cual se lo conoce como el modelo ARH (atoms, rings and hydrogen bonds). Estos par´ametros fueron determinados ajustando el modelo contra datos experimentales provenientes de la CSD y fueron incluidos en el c´odigo desarrollado por los autores. La implementaci´on del modelo ARH permite estimar el volumen de celda y la densi- dad del cristal conociendo la topolog´ıa de la mol´ecula. Para ello, el programa requiere como entrada dos argumentos. El primero corresponde a un archivo de texto que contenga la in- formaci´on de cada ´atomo con sus respectivas coordenadas. Con esto, el programa procesa autom´aticamente la informaci´on sobre los enlaces a partir de las distancias interat´omicas, y luego determina cu´antos ´atomos hay de cada tipo, cu´ales son sus vecinos y cu´ales est´an involucrados en uniones puente hidr´ogeno. El segundo argumento es justamente la informa- 25
  • 28. 26 M´etodos para el control a priori de la poblaci´on ci´on que falta para completar el esquema, esto es, cu´antos anillos hay, de qu´e tipo y cu´antos ´atomos contiene. Esto se indica mediante una cadena de caracteres con n´umeros que van entre 3 y 8, donde cada n´umero indica la cantidad de ´atomos de ese anillo, y para cada anillo que sea plano se debe agregar una letra p luego del n´umero correspondiente. Como salida, el programa devuelve un archivo de texto indicando el volumen total estimado (en ˚A3 ) y la densidad estimada (en g/mol). 3.2. M´etodo de control basado en contactos at´omicos Tanto el modelo de Hofmann como el modelo ARH brindan informaci´on acerca del volumen de celda o de la densidad que se espera en un dado cristal experimental. Como se ha visto, esta caracter´ıstica puede ser de gran utilidad para determinar cu´ales individuos son esperables f´ısicamente y cu´ales no. Sin embargo, esta informaci´on no es del todo exacta, sino s´olo una estimaci´on, dada la naturaleza estad´ıstica de cada modelo. Adem´as, la infor- maci´on que ofrecen es acerca de variables macrosc´opicas del sistema, como el volumen y la densidad, por lo cual se pierde de vista el detalle microsc´opico. Es posible que un cristal posea un volumen de celda o una densidad cuyo valor se encuentre pr´oximo al estimado, pero microsc´opicamente presente anomal´ıas. Aqu´ı el cristal parece, macrosc´opicamente ha- blando, un candidato plausible, pero en realidad se trata de un cristal mal formado, por lo tanto carente de sentido f´ısico. En la Figura 3.2.1 se ilustra un ejemplo de este tipo de cristal. En este caso, el vo- lumen de celda que exhibe el cristal presenta una diferencia respecto del valor estimado por el modelo de Hofmann igual a ∆VHof = +0,25 %, mientras que su diferencia respecto del valor estimado por el modelo ARH es ∆VARH = −2,72 %. Esto significa que el valor del volumen de celda observado se encuentra pr´oximo al valor estimado por cada modelo, sin embargo el detalle microsc´opico revela anomal´ıas en los contactos at´omicos del cristal. Estos defectos aparecen como consecuencia del empaquetamiento del cristal, en donde las mol´eculas est´an distribuidas de manera tal que se establecen contactos que son inconsis- 26
  • 29. 3.2. M´etodo de control basado en contactos at´omicos 27 Figura 3.2.1: Ejemplo de un cristal presentando un empaquetamiento defectuoso, pero exhibiendo un volumen de celda pr´oximo al estimado por cada modelo (∆VHof = +0,25 %, ∆VARH = −2,72 %). tentes con la configuraci´on de la mol´ecula. Esta situaci´on no representa un sistema f´ısico real, por lo tanto, el candidato carece de sentido f´ısico y debe descartarse. En este ejemplo, el problema reside en que el criterio basado en el volumen de celda no permite descartar al candidato, en consecuencia, el criterio informar´ıa que se acepte como v´alido, con lo cual se estar´ıa introduciendo este individuo defectuoso en la poblaci´on. Para evitar este inconveniente, se hace evidente la necesidad de desarrollar otro criterio adicional que pueda explorar los detalles microsc´opicos del cristal y decidir si el candidato corresponde a un individuo defectuoso. El criterio que se propone para este fin se encuentra basado en un procedimiento de verificaci´on de los contactos at´omicos dentro del cristal, que consiste b´asicamente en anali- zar la conectividad de las mol´eculas. Para mayor simplicidad, se supone que cada mol´ecula dentro de la celda asim´etrica presenta una conectividad v´alida, con lo cual cada una se en- cuentra aislada y no presenta contactos covalentes con las dem´as. Entonces, asumiendo una correcta configuraci´on para la unidad asim´etrica, para establecer la integridad del cristal s´olo bastar´ıa con verificar si hay o no conectividad entre mol´eculas dentro y fuera de dicha unidad. Esto se puede llevar a cabo mirando la conectividad ´atomo por ´atomo. Cuando se 27
  • 30. 28 M´etodos para el control a priori de la poblaci´on encuentre que un ´atomo de adentro presenta un enlace con otro de afuera, esto significa que hay dos mol´eculas, una en el interior y otra en el exterior, que est´an conectadas entre s´ı. Esta situaci´on conduce a una conectividad incorrecta para el cristal, por lo tanto, el individuo no corresponde a un sistema f´ısico posible y debe descartarse de la poblaci´on. En resumen, el criterio consiste en explorar las mol´eculas de afuera de la celda asim´etrica y verificar su conectividad con las de adentro. Si se encuentra un contacto, se descarta al candidato. En cambio, si no se encuentran contactos, se sigue explorando. Como puede verse, la implementaci´on del criterio todav´ıa requiere resolver dos cuestiones que a´un no se han definido: c´omo detectar la conectividad y c´omo realizar la exploraci´on del cristal. Para detectar la conectividad basta con conocer si existen contactos entre ´atomos pertenecientes a mol´eculas diferentes (una dentro y otra fuera de la celda asim´etrica). Entonces la cuesti´on se basa en decidir cu´ando dos ´atomos establecen entre s´ı un contacto o enlace covalente. La pregunta se resuelve utilizando el siguiente criterio: Criterio (Enlace covalente): Dos ´atomos A y B establecen un contacto o enlace covalente si se cumple la condici´on d(A, B) ≤ Rcov(A) + Rcov(B) + tol(A, B), (3.2.1) donde Rcov(A) y Rcov(B) son los radios covalentes de los ´atomos A y B, tol(A, B) es un valor de tolerancia que depende del par de ´atomos A y B evaluados y d(A, B) es la distancia entre los ´atomos A y B. Esta definici´on est´a sugerida por el Cambridge Crystallographic Data Centre (CCDC) y es la que utilizan los programas de su autor´ıa para definir el criterio de enlace. En particular resulta de especial inter´es para este trabajo el programa de visualizaci´on de cristales Mercury [15], ya que ser´a el programa con el cual se analizar´an las estructuras obtenidas. Los valores de radio covalente y de tolerancia se eligieron de manera tal de 28
  • 31. 3.2. M´etodo de control basado en contactos at´omicos 29 Elemento H B C N O F P S Cl Br K Rcov (˚A) 0.23 0.83 0.68 0.68 0.68 0.64 1.05 1.02 0.99 1.21 2.03 Par de elementos Cl-Cl F-F Otro tol (˚A) 0.20 0.25 0.40 Tabla 3.2.1: Valores de radio covalente y tolerancia para los elementos de inter´es. unificar el criterio con aquel utilizado por Mercury. Los valores de estos par´ametros se pueden ver en la Tabla 3.2.1. La otra cuesti´on que falta definir est´a relacionada con la exploraci´on del cristal. El procedimiento debe tomar mol´eculas que est´en fuera de la celda asim´etrica y determinar si presentan conectividad con alguna de las mol´eculas que est´an adentro. Sin embargo, de toda la regi´on externa, s´olo tiene sentido explorar una cierta regi´on circundante a la celda. Esto es porque s´olo las mol´eculas en esta zona tienen chance de presentar conectividad con las mol´eculas interiores, ya que si ninguna de estas lo hace, entonces tampoco lo har´an las dem´as por estar situadas m´as lejos. Por lo tanto, lo que hay que definir es c´omo se hace la exploraci´on del cristal y cual es la extensi´on de la regi´on de exploraci´on. 3.2.1. Exploraci´on del cristal Tal como fue descripto brevemente en la secci´on 2.2, un cristal se puede definir com- pletamente si se conocen los par´ametros de la celda unidad, las posiciones de los elementos en la celda asim´etrica y el grupo espacial. La idea de esta secci´on consiste en elaborar una descripci´on m´as detallada con el fin de comprender c´omo es el mecanismo mediante el cual se construyen y se exploran los distintos elementos del cristal. Un cristal ideal se construye como repetici´on peri´odica de una unidad estructural a lo largo de todo el espacio. La unidad estructural puede ser un ´unico ´atomo, como en las sustancias m´as simples, pero en general suele estar constituida por varios ´atomos o mol´eculas. La estructura de cada cristal puede representarse en t´erminos de una red peri´odica, denominada red de Bravais, con un conjunto de ´atomos asociados a cada punto de la red. Este grupo de ´atomos es lo que se conoce como base, y repetida de manera 29
  • 32. 30 M´etodos para el control a priori de la poblaci´on peri´odica a lo largo de todo el espacio forma la estructura cristalina [16]. Esto da lugar a la siguiente relaci´on l´ogica: Red de Bravais + Base = Estructura cristalina La red de Bravais es una red peri´odica cuyos puntos est´a representados de forma matem´atica por R = n1a1 + n2a2 + n3a3, (3.2.2) donde a1, a2, a3 son tres vectores no coplanares en el espacio, que constituyen los tres vectores primitivos que establecen la celda unidad y a partir de los cuales se genera la red, mientras que n1, n2, n3 son tres n´umeros enteros arbitrarios [16, 17]. Esto significa que cualquier punto o vector de la red se representa como combinaci´on lineal entera de los vectores primitivos a1, a2, a3. En consecuencia, si un cierto ´atomo se encuentra en la posici´on r, entonces existir´a uno id´entico trasladado en un vector de la red, es decir, en la posici´on r = r + n1a1 + n2a2 + n3a3, para cualesquiera n1, n2, n3 enteros. Para completar la representaci´on del cristal es necesario determinar una base ade- cuada. En un cristal, la base est´a dada por los elementos de la celda unidad, los cuales se obtienen como resultado de la aplicaci´on de las distintas operaciones de simetr´ıa (provis- tas por el grupo espacial) a todos los elementos en la celda asim´etrica. En consecuencia, la construcci´on del cristal consiste en tomar cada elemento de la celda asim´etrica, aplicarle las distintas operaciones de simetr´ıa y luego trasladarlos seg´un cada vector de la red. De esta manera, las posiciones de cada elemento del cristal se encuentran dadas matem´aticamente por R = Tk(ri) + n1a1 + n2a2 + n3a3, (3.2.3) donde ri es la posici´on del i-´esimo ´atomo de la celda asim´etrica, es la k-´esima operaci´on de simetr´ıa, n1, n2, n3 son los coeficientes enteros que caracterizan la traslaci´on y R es la posici´on del ´atomo resultante. Aplicando esta operaci´on para los distintos valores posi- bles de i, k, n1, n2, n3 se obtienen los distintos elementos del cristal. Un ejemplo de esta 30
  • 33. 3.2. M´etodo de control basado en contactos at´omicos 31 Figura 3.2.2: Representaci´on esquem´atica de la construcci´on de un cristal en dos dimensiones. La celda unidad se construye como aplicaci´on de las operaciones de simetr´ıa Tk sobre los elementos de la unidad asim´etrica. La operaci´on T1 corresponde a la operaci´on identidad, por lo tanto, su resultado es exactamente la celda asim´etrica. Luego, el cristal se forma como traslaci´on peri´odica de la celda unidad. construcci´on en dos dimensiones se visualiza en la Figura 3.2.2. Para continuar con la descripci´on, es importante observar que la representaci´on de cada elemento del cristal est´a directamente relacionada con la elecci´on de los vectores primitivos. La forma m´as usual de informar las posiciones at´omicas es a trav´es de sus coordenadas fraccionarias, las cuales corresponden a las coordenadas de los elementos ex- presadas en la base de los vectores primitivos {a1, a2, a3}. Tambi´en es importante destacar que las operaciones de simetr´ıa Tk siempre act´uan sobre las coordenadas fraccionarias, por lo tanto, es necesario que las posiciones est´en expresadas en estas coordenadas para po- der aplicar dichas operaciones. De esta manera, el uso de las coordenadas fraccionarias es necesario para implementar el procedimiento de construcci´on y exploraci´on del cristal. 31
  • 34. 32 M´etodos para el control a priori de la poblaci´on Sea B = {a1, a2, a3} la base de vectores primitivos elegida para describir la red y sean (x1, x2, x3) las coordenadas de ri en la base B. Si (x1, x2, x3) son las coordenadas que resultan de aplicar Tk sobre (x1, x2, x3), entonces el transformado de ri a trav´es de Tk vale Tk(ri) = x1a1 + x2a2 + x3a3 . Usando este resultado, la ecuaci´on 3.2.3 se puede reescribir como R = (x1 + n1)a1 + (x2 + n2)a2 + (x3 + n3)a3, (3.2.4) lo cual significa que las coordenadas fraccionarias del elemento resultante en la base B son (x1 + n1, x2 + n2, x3 + n3). Como puede observarse, la traslaci´on de un elemento en un vector de la red se puede llevar a cabo de manera muy sencilla cuando se utilizan coorde- nadas fraccionarias. En esta representaci´on, la traslaci´on consiste simplemente en sumar a cada coordenada fraccionaria xi el n´umero entero ni que caracteriza el desplazamiento. En resumen, el procedimiento para obtener las coordenadas de cada elemento del cristal consta de los siguientes pasos: 1. Tomar las coordenadas (x1, x2, x3) del correspondiente elemento en la celda asim´etri- ca. 2. Aplicar el correspondiente operador de simetr´ıa para conseguir las coordenadas (x1, x2, x3) del elemento transformado. 3. Realizar la traslaci´on correspondiente sumando a cada coordenada el coeficiente ni adecuado. 3.2.2. Extensi´on de la regi´on de exploraci´on El procedimiento descripto previamente permite obtener las coordenadas de los distin- tos elementos haciendo un recorrido a lo largo de todo el cristal. El mismo puede explorarse tan lejos como se desee, pues existen infinitas traslaciones de celda asociadas a los infinitos juegos de valores enteros que pueden tomar los coeficientes n1, n2, n3. Sin embargo, dado que el objetivo de la exploraci´on consiste en verificar la conectividad entre mol´eculas dentro 32
  • 35. 3.2. M´etodo de control basado en contactos at´omicos 33 y fuera de la celda asim´etrica, s´olo resulta de inter´es recorrer una cierta porci´on del cristal, correspondiente a una cierta regi´on circundante a la celda asim´etrica. Las mol´eculas que se encuentren en esta zona, por su cercan´ıa, son las que tienen chance de presentar contactos con las mol´eculas de la celda asim´etrica, en cambio, aquellas que est´an m´as all´a se supone que est´an suficientemente lejos, por lo tanto se puede asegurar que no establecen contactos. Entonces, s´olo tiene sentido explorar en un cierto rango, que deber´a determinarse. Considerando el ejemplo de la Figura 3.2.2, se puede observar que la unidad asim´etrica se encuentra rodeada por todas aquellas mol´eculas correspondientes a traslaciones de celda cuyos ´ındices asociados satisfacen la condici´on −1 ≤ n1, n2 ≤ 1 . Dado que el resto de las mol´eculas est´an suficientemente lejos, ´estas son las ´unicas que tienen posibilidades de exhibir contactos con la unidad asim´etrica. Por lo tanto, para buscar posibles contactos bastar´ıa con explorar en este rango. Sin embargo, el barrido de los ´ındices entre -1 y 1 no siempre asegura una exploraci´on satisfactoria, esto es, una exploraci´on tal que todas las mol´eculas vecinas con posibilidad de presentar contactos sean evaluadas y que ninguna de ellas sea pasada por alto. Esto se debe a que la representaci´on de cada punto en la estructura depende de la base de vectores primitivos elegida para realizar la descripci´on. En consecuencia, las mol´eculas que rodean a la unidad asim´etrica tendr´an una representaci´on diferente en cada base, y por lo tanto estar´an asociadas a diferentes traslaciones de celda. Un ejemplo de esto se ilustra en las Figuras 3.2.3 y 3.2.4, en donde se esquematiza una estructura en dos dimensiones, la misma en cada figura, pero representada mediante dos bases diferentes B y B , respectivamente. En ambos casos, la mol´ecula M1 corresponde a la celda asim´etrica, en cambio, la mol´ecula M2 corresponde a la traslaci´on de celda (−1, 1) en la representaci´on en la base B (Figura 3.2.3), pero corresponde a la traslaci´on de celda (−3, 1) en la base B (Figura 3.2.4). En este ejemplo se pone en evidencia de qu´e manera las diferentes representaciones influyen en la exploraci´on de las mol´eculas vecinas y determinan el rango de barrido de los ´ındices. Cuando una estructura viene representada en una base arbitraria, se hace dif´ıcil determinar a priori cu´al es el rango de barrido que asegure una exploraci´on satisfactoria. 33
  • 36. 34 M´etodos para el control a priori de la poblaci´on Figura 3.2.3: Representaci´on de un cristal en dos dimensiones en la base B = {a1, a2}. La mol´ecula M1 corresponde a la celda asim´etrica, mientras que la mol´ecula vecina M2 est´a asociada con la traslaci´on de celda (−1, 1). Figura 3.2.4: Representaci´on del mismo cristal de la Figura 3.2.3 pero en la base B = {a1, a2}. En este caso, la mol´ecula M1 sigue correspondiendo a la celda asim´etrica, en cambio, la mol´ecula vecina M2 ahora est´a asociada con la traslaci´on de celda (−3, 1). 34
  • 37. 3.2. M´etodo de control basado en contactos at´omicos 35 Para resolver este inconveniente, la ambig¨uedad generada por las m´ultiples representaciones debe eliminarse, para ello resulta necesario encontrar una nueva representaci´on que describa a la estructura de manera ´unica y estandarizada. Entre todas las posibles formas de representar una estructura, existen algunas que suelen ser m´as ventajosas, debido a que otorgan ciertas propiedades que permiten hacer una descripci´on m´as clara y sencilla. Las mismas est´an caracterizadas por tener el conjunto de vectores primitivos que sean los m´as cortos posibles. Las celdas formadas por este tipo de vectores reciben el nombre de celdas de Buerger; ejemplos de este tipo de celdas se pueden observar en las Figuras 3.2.2 y 3.2.3. A pesar de sus ventajas, el problema que presenta este tipo de celdas es que no suelen ser ´unicas, sino que existe un conjunto posible para cada red, por lo tanto, el procedimiento para obtenerlas [18] no siempre conduce al mismo resultado. Sin embargo, entre todo el conjunto de celdas de Buerger posibles para cada red, existe una de ellas que satisface ciertas condiciones particulares, conocida como celda de Niggli o celda reducida [19]. Esta celda posee todas las propiedades de una celda de Buerger (de hecho, es una celda de Buerger) pero adem´as tiene la ventaja de ser ´unica, por lo tanto puede ser determinada sin ambig¨uedad y puede utilizarse como celda de referencia. Por lo tanto, para eliminar la ambig¨uedad y unificar la representaci´on, se propone un procedimiento que transforme la estructura desde la base inicial hacia la base de la celda reducida. Este procedimiento consiste b´asicamente en la transformaci´on de la celda, de las coordenadas de los elementos en la celda asim´etrica y de las operaciones de simetr´ıa. La transformaci´on de la celda se realiza mediante el algoritmo de reducci´on de celda [20], mientras que las transformaciones de las coordenadas y de las operaciones de simetr´ıa se realizan mediante la correspondiente matriz de cambio de base, que se computa en el mismo proceso de reducci´on [21]. Una vez transformada la estructura hacia la base reducida, el paso siguiente consiste en determinar el rango de barrido de ´ındices que establecen la regi´on a explorar. En esta nueva base, es seguro que la regi´on comprendida por las traslaciones de celda con ´ındices entre -1 y 1 contiene mol´eculas candidatas a presentar contactos con la unidad asim´etrica 35
  • 38. 36 M´etodos para el control a priori de la poblaci´on (por ejemplo, ver Figura 3.2.2). Pero, ¿qu´e significa que dos mol´eculas sean candidatas a presentar contactos? Por otra parte, ¿siempre es suficiente con barrer en este rango o el mismo debe ajustarse para cada caso particular? Para resolver la primera pregunta se puede considerar la construcci´on de la Figura 3.2.5. En ella se observa que la mol´ecula M1, correspondiente a la unidad asim´etrica, se encierra en una esfera de centro C y radio R. El centro C corresponde al centro geom´etrico o centroide de la mol´ecula, mientras que el radio R corresponde a la distancia m´axima entre los ´atomos de la mol´ecula y el centroide. Por su parte, la mol´ecula M2, correspondiente a la traslaci´on de celda (0, 2), se encierra en una esfera de centro C y radio R. En base a este esquema, se considera que las mol´eculas M1 y M2 son candidatas a presentar contactos si las esferas que las encierran se solapan o est´an lo suficientemente cerca entre s´ı, m´as precisamente, si las esferas cumplen la condici´on d(C, C ) ≤ 2R + tol, (3.2.5) donde tol es un par´ametro de tolerancia a determinar. En este trabajo, el valor de tole- rancia se determin´o considerando la m´axima distancia de enlace posible entre dos ´atomos cualesquiera. En el tipo de compuestos de inter´es a ser tratados con MGAC (mol´eculas org´anicas), el elemento con mayor radio covalente que puede llegar a estar presente corres- ponde al potasio, cuyo radio covalente es de 2.03˚A. Ahora, tomando en cuenta el criterio de enlace anteriormente establecido, para que dos ´atomos de potasio K1 y K2 puedan llegar a establecer enlace, la distancia entre ellos deber´ıa cumplir que d(K1, K2) ≤ Rcov(K1) + Rcov(K2) + tol(K1, K2) = 2.03˚A + 2.03˚A + 0.40˚A = 4.46˚A. De esta manera, para que dos ´atomos cualesquiera (considerando s´olo aquellos de inter´es) puedan tener chance de establecer un contacto entre ellos, es necesario que la separaci´on entre ellos sea, a lo sumo, de 4.46˚A. Por lo tanto, eligiendo un valor de tolerancia mayor o igual a 4.46˚A, se puede asegurar que no existir´a posibilidad de contactos para cualquier par de mol´eculas cuyos centros disten m´as que el valor indicado por la cota de la ecuaci´on 3.2.5. En este trabajo, 36
  • 39. 3.2. M´etodo de control basado en contactos at´omicos 37 Figura 3.2.5: Esquema de una porci´on de un cristal en dos dimensiones. El solapamiento entre esferas indica la posibilidad de contacto entre las mol´eculas M1 y M2. el par´ametro de tolerancia fue establecido en un valor de 4.5˚A. Para resolver la segunda pregunta, resulta fundamental considerar la relaci´on entre el tama˜no de la mol´ecula y las dimensiones de la celda unidad. Observando nuevamente la Figura 3.2.5, y comparando el tama˜no de la mol´ecula con la dimensi´on de la celda en la direcci´on a2, se puede apreciar que a2 < R < 2a2. Por otro lado, en este caso se puede ver que la unidad asim´etrica es candidata a presentar contactos con mol´eculas que correspondan a traslaciones de celda hasta ´ındice 2 en esa direcci´on. En conclusi´on, lo que se observa en este caso particular es que el tama˜no de la mol´ecula cumple que a2 < R < 2a2, entonces el rango de barrido de los ´ındices en la direcci´on debe ser −2 ≤ n2 ≤ 2. Bajo la motivaci´on de este ejemplo, se puede generalizar la idea postulando el siguiente criterio: 37
  • 40. 38 M´etodos para el control a priori de la poblaci´on Criterio (Determinaci´on del rango de barrido de´ındices): Sea R el radio de la esfera que encierra a la unidad asim´etrica y sea k un entero no negativo tal que k ≤ (R/ai) < k+1. Entonces el rango de barrido de ´ındices en la direcci´on ai que asegure una exploraci´on satisfactoria debe ser −(k + 1) ≤ ni ≤ k + 1. 3.2.3. Verificaci´on de la integridad del cristal En base a las ideas expuestas en las dos secciones anteriores se propone un proce- dimiento para verificar la integridad del cristal basado en la b´usqueda de contactos. El mismo debe ser capaz de determinar autom´aticamente la regi´on de exploraci´on para cada cristal, detectar los posibles candidatos a presentar contactos con la unidad asim´etrica y hacer la correspondiente evaluaci´on de contactos, para finalmente decidir si se trata de un individuo bien formado (conectividad v´alida) o un individuo defectuoso (conectividad inv´alida). Este procedimiento se formaliza a continuaci´on. 38
  • 41. 3.2. M´etodo de control basado en contactos at´omicos 39 Procedimiento (Verificaci´on de la integridad del cristal) 1. Se toma a la estructura inicial y se la transforma a la base de la celda reducida. 2. Se calcula el centro geom´etrico o centroide de la unidad asim´etrica (C) y la m´axima distancia entre los ´atomos de la misma y el centroide (R). 3. Para 1 ≤ i ≤ 3, el rango de barrido de ´ındices se calcula como nmin i ≤ ni ≤ nmax i , donde nmax i = int(R/ai) + 1, nmin i = −nmax i . 4. Se calcula el centroide imagen (C ) que resulta de aplicar cierta operaci´on de simetr´ıa al centroide C y luego cierta traslaci´on cuyos ´ındices est´en dentro del rango calculado en el punto 3. Si la distancia entre centroides satisface la condici´on 3.2.5, entonces se prueba la conectividad para ese par de mol´eculas. 5. La conectividad se prueba ´atomo por ´atomo. Para ello, primero se toma cada ´atomo de la unidad asim´etrica y se genera su imagen a trav´es de la operaci´on de simetr´ıa y la traslaci´on correspondientes. Luego se prueba si esta imagen establece un contacto con cada ´atomo de la unidad asim´etrica: en caso de encontrarse un contacto, se detiene el procedimiento, sino se contin´ua con el pr´oximo ´atomo y se repite este paso hasta finalizar la mol´ecula. 6. Si al finalizar el paso 5 no se ha encontrado contacto alguno, se vuelve al paso 4 y se repite para cada operaci´on de simetr´ıa y para cada traslaci´on cuyos ´ındices est´en contemplados dentro del rango calculado en el paso 3. Esto se realiza hasta finalizar el barrido en el rango o hasta encontrar un contacto. 7. Si al finalizar el paso 6 no se ha encontrado contacto alguno, significa que el cristal dispone de una conectividad v´alida, por lo tanto, se considera como buen candidato y se mantiene en la poblaci´on. En cambio, si en alg´un momento se encuentra un contacto, esto invalida la conectividad del cristal, por lo tanto se considera como un candidato defectuoso y se lo descarta de la poblaci´on. 39
  • 42. 40 M´etodos para el control a priori de la poblaci´on 40
  • 43. Cap´ıtulo 4 Resultados 4.1. Configuraci´on del filtro de volumen En el cap´ıtulo 1 se explicaron los motivos por los cuales resulta necesario disponer de m´etodos de control de la poblaci´on. Uno de los m´etodos consiste en filtrar las estructuras en base a los valores de volumen de celda exhibidos por cada candidato. Este filtro requiere que se provea un valor de referencia contra el cual comparar y un criterio de aceptaci´on que permita decidir si se rechaza o se acepta al candidato en cuesti´on. El valor del volumen de referencia para el compuesto dado puede calcularse por medio de los modelos introducidos en el cap´ıtulo 3 (modelos de Hofmann y ARH); el criterio de aceptaci´on ser´a establecido a partir del an´alisis de ambos modelos y de sus comportamientos frente a distintos problemas estudiados. Para la puesta a punto del filtro de volumen, se realizaron estudios con compuestos que representaron problemas de especial relevancia para ser tratados en este trabajo. Los compuestos estudiados aqu´ı fueron los denominados Mol-XVI, Mol-XVII, Mol-XVIII, Mol- XX y Jayces, cuyos diagramas y nomenclaturas se ilustran en la Figura 4.1.1. Por un lado, las mol´eculas Mol-XVI a Mol-XX fueron interesantes a ser abordadas ya que constituyeron algunos de los problemas incluidos en el ´ultimo desaf´ıo de predicci´on de estructuras, el CSP2010 organizado por el CCDC [4], del cual nuestro grupo fue uno de los miembros 41
  • 44. 42 Resultados Compuesto Diagrama y nomenclatura Mol-XVI 2-diazo-3,5-cyclohexadiene-1-one Mol-XVII 1,2-dichloro-4,5-dinitrobenzene Mol-XVIII (1-((4-chlorophenyl)sulfonyl)-2-oxopropylidene)diazenium Mol-XX Benzyl-(4-(4-methyl-5-(p-tolylsulfonyl)-1,3-thiazol-2- yl)phenyl)carbamate Jayces N-[4-cyano-3-(trifluoromethyl)phenyl]-3-[(4-fluorophenyl)sulfonyl]-2- hydroxy-2-methylpropanamide Figura 4.1.1: Compuestos utilizados para estudiar el comportamiento de los modelos de estimaci´on de volumen. 42
  • 45. 4.1. Configuraci´on del filtro de volumen 43 participantes. Por otro lado, la mol´ecula Jayces correspond´ıa a un problema que ya hab´ıa sido estudiado anteriormente con el m´etodo MGAC [22], mediante el cual s´olo se hab´ıa podido predecir s´olo uno de los dos polimorfos experimentales reportados, y por lo tanto resultaba interesante estudiar si con la nueva implementaci´on se lograba encontrar el otro polimorfo. Para la realizaci´on de las simulaciones, se utiliz´o el c´odigo MGAC instalado en los clusters del Center for High Performance Computing (CHPC) de la Universidad de Utah. Inicialmente, el c´odigo estaba dise˜nado para correr en cualquiera de los distintos clusters del CHPC, de manera paralelizada bajo la plataforma MPICH, pero como dicha plataforma hab´ıa quedado obsoleta, fue necesaria la adaptaci´on del c´odigo a otras plataformas MPI disponibles en los clusters [23]. Dado que cada cluster se encuentra optimizado para una plataforma en particular, se decidi´o realizar la adaptaci´on a varias plataformas, a saber, MPICH2, MVAPICH2 y OpenMPI, y modificar el c´odigo para que el usuario pueda decidir bajo cu´al desea que se ejecute el programa. De esta manera, ademas de elegir en qu´e clus- ter se lanza la corrida, tambi´en se puede elegir bajo cu´al plataforma de paralelizaci´on, permitiendo as´ı optimizar el rendimiento. La realizaci´on de las corridas fueron llevadas a cabo siguiendo el procedimiento in- dicado en la documentaci´on del Proyecto Dingo [24]. Los pasos principales del mismo se describen brevemente a continuaci´on: 1. Se genera un archivo que contenga la informaci´on de la configuraci´on de la mol´ecula aislada. ´Este debe estar confeccionado en un formato adecuado para ser reconocido por el programa Gaussian. 2. Se corre este archivo en Gaussian para conseguir un archivo de salida con la configu- raci´on optimizada de la mol´ecula y con la informaci´on del potencial electrost´atico de la misma. 3. Se utiliza el archivo de salida obtenido en el punto anterior para generar los par´ame- tros del potencial GAFF mediante la aplicaci´on antechamber y se obtienen las cargas 43
  • 46. 44 Resultados puntuales que modelan el potencial electrost´atico mediante la aplicaci´on RESP. 4. Se generan los archivos con la informaci´on de la topolog´ıa y el potencial en el formato adecuado para ser reconocidos por CHARMM. 5. Se genera el archivo de entrada de MGAC, donde se puede optar por una configu- raci´on fija o flexible. Esto ´ultimo se logra especificando en dicho archivo los ´angulos diedros a los cuales se les permite variar libremente. 6. Se lanza la corrida. 7. Una vez finalizada la corrida, se procesan los resultados con la aplicaci´on crystal filter, la cual permite confeccionar un archivo conteniendo a las mejores N estructuras (N es un par´ametro que debe especificar el usuario a voluntad). 8. Para visualizar las estructuras, se puede utilizar el programa Mercury, pero se requiere que las estructuras se encuentren en formato cif. La aplicaci´on cml2cif es de utilidad para este fin. 9. Si se desea, tambi´en se pueden buscar simetr´ıas escondidas o adicionales en la estruc- tura mediante la aplicaci´on ADDSYM, correspondiente al c´odigo PLATON [25]. Una vez efectuadas todas las corridas, se filtraron las mejores 300 estructuras para cada mol´ecula, se caracteriz´o la distribuci´on de volumen de celda presentada por cada conjunto de estructuras y se observ´o la calidad de los cristales generados. Comparando esta informa- ci´on con los valores de referencia arrojados por cada modelo y con los valores de volumen de las estructuras experimentales, se decidi´o cu´al es el modelo de estimaci´on que mejor se ajusta a las observaciones y c´ual es el rango de volumen m´as adecuado para establecer como criterio de aceptaci´on. 44
  • 47. 4.1. Configuraci´on del filtro de volumen 45 4.1.1. An´alisis de modelos para estimaci´on de vol´umenes de celda Las Figuras 4.1.2 a 4.1.6 muestran en un histograma las distribuciones de volumen para cada conjunto de estructuras generadas (candidatos), donde se incluyen los valores de volumen de estructuras experimentales conocidas y tambi´en aquellos valores estimados por cada modelo. En otro histograma se muestran las diferencias de volumen de esas estructuras respecto del valor estimado por cada modelo. Como primera observaci´on, cabe destacar que en todos los casos, los valores de vo- lumen experimentales se encuentran contenidos dentro de la distribuci´on de volumen de candidatos. M´as a´un, estos valores experimentales se encuentran muy cercanos a los valores medios de cada distribuci´on. Esta caracter´ıstica resulta de suma importancia a la hora de la predicci´on, pues para encontrar a la estructura experimental es condici´on necesaria que su volumen est´e contenido dentro de la distribuci´on de candidatos generados. Adem´as, la probabilidad de encontrar al cristal experimental es proporcional a la cantidad de can- didatos con volumen pr´oximo al emp´ırico. Por lo tanto, cuanto menor sea el sesgo de la distribuci´on respecto de este volumen de referencia, mayor ser´a la probabilidad de una predicci´on exitosa. En este sentido, se podr´ıa afirmar que las poblaciones generadas est´an bien comportadas, pues cumplen con la caracter´ıstica de volumen requerida. La siguiente observaci´on tiene que ver con la efectividad de cada modelo para estimar el verdadero volumen. Como puede apreciarse en las Figuras 4.1.2 a 4.1.6, las estimaciones se mantienen siempre dentro del rango abarcado por cada distribuci´on, aunque algunas presentan un sesgo m´as acentuado respecto del volumen experimental (por ejemplo, Hof- mann en Mol-XVI y ARH en Mol-XVII). En base a estas observaciones, no es f´acil decidir a simple vista cu´al m´etodo es m´as efectivo, pues en ciertas ocasiones, el m´etodo que brinda una estimaci´on m´as pr´oxima al experimental es el modelo ARH, mientras que en otras el que lo hace mejor es el modelo de Hofmann. Por lo tanto, en este contexto, un criterio adecuado para decidir el m´etodo m´as efectivo ser´ıa determinar cu´al de ellos es el que “en promedio” m´as se acerca a las observaciones. Esto puede resolverse haciendo un poco de estad´ıstica, calculando el valor medio cuadr´atico (tambi´en conocido como valor RMS) de 45
  • 48. 46 Resultados Figura 4.1.2: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto de los modelos de estimaci´on (derecha) observadas para Mol-XVI. Figura 4.1.3: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto de los modelos de estimaci´on (derecha) observadas para Mol-XVII. Figura 4.1.4: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto de los modelos de estimaci´on (derecha) observadas para Mol-XVIII. 46
  • 49. 4.1. Configuraci´on del filtro de volumen 47 Figura 4.1.5: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto de los modelos de estimaci´on (derecha) observadas para Mol-XX. Figura 4.1.6: Distribuci´on de volumen de candidatos (izquierda) y diferencias de volumen respecto de los modelos de estimaci´on (derecha) observadas para Jayces. Mol´ecula VHof ( ˚A3 ) VARH( ˚A3 ) Vexp( ˚A3 ) ∆VHof ( %) ∆VARH( %) Mol-XVI 138.5 145.2 144.0 -3.84 0.81 Mol-XVII 214.1 218.3 214.3 -0.08 1.88 Mol-XVIII 269.2 277.4 274.3 -1.85 1.14 Mol-XX 578.1 582.0 563.0 2.68 3.37 Jayces (Exp1) 459.8 469.0 465.4 -1.20 0.77 Jayces (Exp2) 459.8 469.0 466.7 -1.48 0.49 Valor cuadr´atico medio (RMS) 2.20 1.72 Tabla 4.1.1: Vol´umenes estimados, experimentales y sus diferencias dadas en porcentaje respecto del volumen experimental correspondiente. En el caso de Jayces se consideraron las diferencias respecto de los dos valores experimentales, indicados en la Figura 4.1.6. 47
  • 50. 48 Resultados las diferencias entre los vol´umenes estimados y los experimentales para cada modelo. Esto consiste en computar todas las diferencias correspondientes, elevarlas al cuadrado, prome- diar y tomar ra´ız cuadrada. De esta manera se tiene una idea de la variabilidad de cada m´etodo respecto de los datos experimentales y se puede decidir bajo un criterio razonable cu´al es el que mejor ajusta. En la Tabla 4.1.1 se describen todas las diferencias computadas para cada modelo (∆VHof = VHof − Vexp y ∆VARH = VARH − Vexp) y sus valores RMS co- rrespondientes. Como puede apreciarse, el m´etodo que presenta un menor valor RMS es el modelo ARH, lo cual significa que su variabilidad respecto de los datos experimentales es menor, por lo tanto, es el que estad´ısticamente ajusta mejor. Por este motivo, el modelo ARH es el elegido como m´etodo de referencia para calcular el volumen de celda estimado. Este dato es el que se utilizar´a en el filtro de volumen como valor de referencia. 4.1.2. Determinaci´on del rango de aceptaci´on Para terminar de establecer las caracter´ısticas del filtro de volumen faltar´ıa determi- nar un rango de aceptaci´on adecuado, el cual permita decidir cu´ales candidatos se aceptan y cu´ales se rechazan. Como primera medida, ser´ıa ´util analizar las diferencias de volumen obtenidas para los casos estudiados. Observando los histogramas correspondientes (Figuras 4.1.2 a 4.1.6), se puede apreciar que los vol´umenes de los candidatos difieren, en el peor de los casos, no m´as de un 20 % (en valor absoluto) respecto del valor de referencia estimado. Esto significa que la m´axima diferencia que es razonable esperar se encuentra alrededor del 20 %. Sin embargo, esto no brinda informaci´on acerca de la calidad del candidato, es decir, si el candidato es un cristal f´ısicamente posible o un cristal mal formado, s´olo dice en qu´e rango es esperable que se encuentre su volumen. Por lo tanto, si lo que se busca es un filtro que permita rechazar candidatos defectuosos y admitir candidatos correctos, hay que analizar con mayor detalle en qu´e rango de volumen se encuentran estos tipos de individuos. Tal como fue observado en la secci´on 3.2, el volumen de celda no es una medida suficientemente confiable para garantizar en un 100 % la calidad del cristal, s´olo constituye 48
  • 51. 4.1. Configuraci´on del filtro de volumen 49 una medida estimativa. Por este motivo, un m´etodo de control basado en un filtro de volumen es susceptible a generar falsos positivos, es decir, individuos aceptables desde el punto de vista del volumen, pero f´ısicamente inv´alidos. Este efecto indeseado es posible reducirlo acotando el rango de aceptaci´on. Sin embargo, un rango de aceptaci´on de volumen demasiado acotado implicar´ıa un filtro demasiado restrictivo. Esto podr´ıa ocasionar que los candidatos admisibles por el filtro correspondan a un subconjunto muy reducido dentro del espacio de soluciones, conduciendo a un muestreo deficiente del espacio y poniendo en riesgo el ´exito de la predicci´on. Por lo tanto, para configurar un filtro de volumen que sea lo m´as ´optimo posible, es necesario encontrar un rango de volumen que sea lo suficientemente acotado como para admitir la menor cantidad posible de falsos positivos, pero no tan acotado como para reducir de manera cr´ıtica el espacio de b´usqueda. Para realizar el ajuste del rango se juntaron los resultados de todas las estructuras y se las separ´o en dos clases: candidatos buenos (presentan conectividad correcta) y candi- datos defectuosos (conectividad incorrecta). A cada estructura se le calcul´o su diferencia de volumen (en porcentaje) respecto del correspondiente valor esperado, estimado con el modelo ARH. Para cada clase, se realizaron los histogramas correspondientes a las dife- rencias de volumen, que se muestran en la Figura 4.1.7. All´ı se observa que la mayor´ıa de las estructuras con diferencias de volumen menores a -10 % resultaron defectuosas, lo cual indicar´ıa que es muy improbable encontrar un candidato v´alido en ese rango de valores. Esta observaci´on se explica tomando en cuenta que una diferencia negativa corresponde a un volumen de celda menor que el estimado, y esto implica una densidad cristalina mayor a la esperada. Luego, si el volumen es lo suficientemente chico, esto conducir´ıa un empa- quetamiento cristalino suficientemente denso como para representar una situaci´on f´ısica posible, pues las mol´eculas estar´ıan tan cercanas unas de otras que el sistema no se podr´ıa corresponder con una situaci´on de equilibrio estable. En consecuencia, establecer el l´ımite de corte inferior alrededor de -10 % ser´ıa en principio una medida razonable, pues las es- tructuras que se descartan (las que caen por debajo de este valor l´ımite) casi con seguridad deber´ıan corresponderse con individuos defectuosos. 49
  • 52. 50 Resultados Figura 4.1.7: Distribuci´on de las diferencias de volumen observadas para los conjuntos de candi- datos buenos y defectuosos resultantes de todas las estructuras analizadas. Ahora ser´ıa ´util preguntarse si es posible afinar a´un m´as el valor de corte inferior que anteriormente se ha establecido. Para ello se puede analizar lo que sucede por encima del valor -10 %. En el rango comprendido entre -10 % y +5 %, la mayor´ıa de las estructuras corresponden a candidatos buenos, sin embargo, en este mismo rango tambi´en aparecen, aunque en menor cantidad, algunos candidatos defectuosos. Como se observa en la figura, al existir este solapamiento entre ambas clases de individuos, acotar el rango del filtro en esta zona implicar´ıa descartar tanto candidatos buenos como defectuosos. Pero rechazar candidatos buenos puede resultar un inconveniente, ya que podr´ıa afectar la calidad del muestreo y pondr´ıa en riesgo la predicci´on. Por lo tanto, no es posible afinar el rango en esta zona sin comprometer los resultados de la predicci´on. En base a todo este an´alisis, el l´ımite de corte inferior m´as ´optimo que se puede establecer se encuentra en un valor de -10 %. Para terminar de definir el rango, faltar´ıa establecer el l´ımite de corte superior. Anali- zando los resultados en la regi´on por encima del valor +5 %, all´ı se observa s´olo la presencia de candidatos buenos, no hay defectuosos. Esto se explica de manera an´aloga al caso ante- 50
  • 53. 4.2. Implementaci´on del m´etodo de control 51 rior: una diferencia de volumen positiva corresponde a un volumen de celda mayor que el estimado, y por tanto, una densidad menor. Esto implica que las mol´eculas est´an separadas lo suficiente como para presentar anomal´ıas en la conectividad del cristal, y de esta forma la estructura se exhibe como un candidato bueno. Como puede observarse, las estructuras se presentan hasta un valor alrededor de +15 %, m´as all´a de este punto ya no se registran resultados. Este resultado est´a en buen acuerdo con la evidencia encontrada en la biblio- graf´ıa [13, 14], en donde se observa que es poco probable encontrar cristales experimentales con diferencias de volumen mayores a +15 % (Ver Figura 3.1.1 ). Esto representa un argu- mento s´olido para afirmar que un valor de +15 % ser´ıa ´optimo para establecer como l´ımite de corte superior. En consecuencia, en base a lo argumentado anteriormente, se establece como rango de aceptaci´on el intervalo (−10 %, +15 %). De esta manera, s´olo ser´an aceptados todos aquellos individuos que presenten diferencias de volumen comprendidas dentro de este rango de valores, el resto ser´an rechazados y no ser´an admitidos en la poblaci´on. 4.2. Implementaci´on del m´etodo de control El m´etodo para controlar cu´ales individuos deben ser incluidos en la poblaci´on y cu´ales deben ser descartados se implement´o seg´un procedimiento esquematizado en la Fi- gura 4.2.1. En este diagrama se observa que al candidato propuesto se lo somete a una serie de filtros, que debe pasar exitosamente antes de ser aceptado e incluido en la poblaci´on. El primer filtro consiste en el filtro de volumen configurado en la secci´on anterior, en el cual se establec´ıa como condici´on para la aceptaci´on del candidato que su diferencia de volumen (respecto de su valor estimado por el modelo ARH) se encuentre dentro del intervalo (−10 %, +15 %). Sin embargo, como se hab´ıa se˜nalado previamente, este m´etodo puede ser susceptible a presentar cierta cantidad de falsos positivos, por lo tanto el hecho de que la estructura pase este primer filtro no constituye una garant´ıa para afirmar que la misma se corresponda con un individuo f´ısicamente plausible. Aqu´ı se hace evidente la 51
  • 54. 52 Resultados Figura 4.2.1: Diagrama esquem´atico que describe el funcionamiento del m´etodo de control im- plementado. necesidad de aplicar un segundo filtro que pueda descartar todos los falsos positivos que haya dejado pasar el primero. Este segundo filtro no es otra cosa que la evaluaci´on de la conectividad del cristal, implementado seg´un el m´etodo detallado en la secci´on 3.2. En resumen, cada candidato es sometido primero al filtro de volumen, si satisface la condici´on de aceptaci´on se lo somete al segundo filtro, el de conectividad. Si presenta una conectividad v´alida, entonces es definitivamente aceptado e incliudo en la poblaci´on. De cualquier otro modo, el cristal es descartado y debe probarse otro candidato posible. 52
  • 55. 4.3. Resultados de la implementaci´on 53 4.3. Resultados de la implementaci´on Las corridas con el nuevo m´etodo de control se realizaron con las mismas mol´ecu- las estudiadas anteriormente, a saber, Mol-XVI, Mol-XVI, Mol-XVIII, Mol-XX y Jayces, utilizando el procedimiento indicado en la secci´on 4.1, pero agregando un paso adicional en el punto 5: luego de crearse el archivo de salida de MGAC, ´este debe editarse para incluir el valor del volumen estimado por el modelo ARH para la mol´ecula en cuesti´on. La inclusi´on de este valor es estrictamente necesaria, pues constituye un campo requerido por el c´odigo, si no se especifica dicho valor, el programa detecta la ausencia de ese par´ametro y no permite iniciar la corrida. Para poder estimar los efectos del m´etodo de control sobre la predicci´on, se deci- di´o comparar los resultados finales sobre cada mol´ecula antes y despu´es de la implementa- ci´on. Ahora, para que la comparaci´on tenga sentido, los procedimientos para cada mol´ecula debieron ser realizados de la misma manera en ambas instancias. Esto significa elegir an- tes y despu´es exactamente los mismos par´ametros para el c´alculo y la optimizaci´on de la energ´ıa, mismos ´angulos diedros libres, mismo tama˜no de poblaci´on y n´umero de genera- ciones, etc. De esta manera las diferencias que se puedan producir en los resultados finales no estar´ıan asociadas con la elecci´on de diferentes par´ametros, sino que se corresponder´ıan con la acci´on de este m´etodo de control adicional. Para cada mol´ecula se realizaron 5 corridas con cada uno de los 14 grupos espaciales m´as comunes en este tipo de compuestos (P1, P−1, P21, C2, Pc, Cc, P21/c, C2/c, P212121, Pca21, Pna21, Pbca, Pbcn, Pnma), considerando s´olo una mol´ecula por celda asim´etrica, a lo largo de un total de 130 generaciones, cada una de ellas constituida por una poblaci´on de 30 cristales. La configuraci´on de cada mol´ecula fue considerada como r´ıgida o flexible en funci´on de la complejidad de la misma. En los casos en donde se admiti´o flexibilidad, se indican los ´angulos diedros a los cuales se les permiti´o mover libremente. Los par´ametros para el c´alculo y la optimizaci´on de la energ´ıa tambi´en se eligieron en funci´on del tama˜no de la mol´ecula. En el an´alisis de los resultados, se consideraron las primeras 30 o 40 estructuras de 53
  • 56. 54 Resultados cada corrida, seg´un el caso, y se analizaron sus energ´ıas, diferencias de volumen y conec- tividad. En los casos donde fue posible, tambi´en se identific´o al candidato que presentase coincidencia (dentro de un rango de tolerancia) con el cristal experimental. En los casos negativos, se trat´o de buscar un argumento que explique porqu´e el m´etodo no funcion´o all´ı. 4.3.1. Resultados para Mol-XVI En este caso, la elecci´on m´as adecuada para esta mol´ecula fue considerar una confi- guraci´on r´ıgida, sin ´angulos diedros que puedan variar libremente. Para esta mol´ecula, los par´ametros utilizados por CHARMM para el c´alculo y la optimizaci´on de la energ´ıa, cuyas descripciones y usos pueden consultarse en la documentaci´on de CHARMM [26], fueron los correspondientes a los valores m´as comunes para este tipo de mol´eculas, a saber: C´alculo de la energ´ıa: ihbfrq = -1, inbfrq = -1, imgfrq = -1, cutim = 20.0. Optimizaci´on de la energ´ıa: m´etodo = abnr-lattice, ihbfrq = -1, inbfrq = -1, imgfrq = -1, cutim = 20.0 Nstep = 2000, Nprint = 0, Tolgrd = 0.0001. C´alculo de las interacciones electrost´aticas (utilizado en ambos casos): m´etodo = pmewald, kappa = 0.34, order = 6 ctofnb = 12.0, cutnb = 14.0, qcor = 1.0. La Tabla 4.3.1 muestra los resultados de las primeras 30 estructuras obtenidas con y sin m´etodo de control, ordenadas por energ´ıa de manera creciente. Para cada una se indica su diferencia de volumen respecto del correspondiente valor estimado por el modelo ARH (indicado en la Figura 4.1.2) y si el cristal presenta buena o mala conectividad. Aqu´ı se omiten los detalles de grupo espacial y datos de celda para mayor simplicidad de la tabla, pero fueron tenidos en cuenta al momento del an´alisis. Si se comparan ambas listas, los 54
  • 57. 4.3. Resultados de la implementaci´on 55 Orden Sin m´etodo de control Con m´etodo de control Energ´ıa ∆VARH Conectividad Energ´ıa ∆VARH Conectividad (KJ/mol) ( %) (KJ/mol) ( %) 1 -236.74 -5.79 OK -236.74 -5.79 OK 2 -236.20 -1.25 OK -236.20 -1.25 OK 3 -235.01 -0.46 OK -235.01 -0.45 OK 4 -234.84 -4.33 OK -234.84 -4.33 OK 5 -234.65 -2.42 OK -234.59 -2.23 OK 6 -234.59 -2.23 OK -234.42 -3.23 OK 7 -234.42 -3.23 OK -234.40 -3.13 OK 8 -234.40 -3.13 OK -234.29 1.33 OK 9 -234.29 1.33 OK -234.16 -1.18 OK 10 -233.98 -2.41 OK -233.98 -2.41 OK 11 -233.93 0.86 OK -233.93 0.86 OK 12 -233.85 -2.54 OK -233.85 -2.54 OK 13 -233.50 -5.31 OK -233.50 -5.31 OK 14 -233.43 0.54 OK -233.42 0.54 OK 15 -233.34 0.68 OK -233.34 0.68 OK 16 -233.03 -1.33 OK -233.03 -1.33 OK 17 -232.83 0.68 OK -232.83 0.68 OK 18 -232.73 -0.20 OK -232.64 -3.23 OK 19 -232.64 -3.23 OK -232.37 2.90 OK 20 -232.58 -0.94 OK -232.12 -3.27 OK 21 -232.55 -2.15 OK -231.84 -0.34 OK 22 -232.37 2.90 OK -231.74 1.32 OK 23 -232.28 -23.46 BAD -231.59 -3.85 OK 24 -232.12 -3.27 OK -231.52 -3.99 OK 25 -231.84 -0.34 OK -231.42 -3.3 OK 26 -231.74 1.32 OK -231.32 -1.89 OK 27 -231.59 -3.85 OK -231.30 -0.83 OK 28 -231.52 -3.99 OK -231.29 1.63 OK 29 -231.42 -3.30 OK -231.19 -2.09 OK 30 -231.32 -1.87 OK -231.08 1.28 OK Tabla 4.3.1: Lista de las primeras 30 estructuras resultantes para Mol-XVI, ordenadas por energ´ıa. Cristal Grupo a b c α β γ Volumen Energ´ıa Espacial (˚A) (˚A) (˚A) (º) (º) (º) (˚A3 ) (KJ/mol) MGAC Pbca 10.283 7.1478 16.014 90 90 90 1177 -234.29 Experimental Pbca 9.645 7.381 16.185 90 90 90 1152 -230.66 Tabla 4.3.2: Datos de grupo espacial, celda unidad, volumen y energ´ıa del candidato encontrado por MGAC y del cristal experimental para la mol´ecula Mol-XVI. 55
  • 58. 56 Resultados Figura 4.3.1: Comparaci´on entre el cristal experimental y el candidato encontrado por MGAC para la mol´ecula Mol-XVI. candidatos generados son casi todos los mismos, esto se puede corroborar comparando sus grupos espaciales y celdas unidad. Adem´as, la mayor´ıa de ellos se ubican en el mismo orden o similar en cada lista. En el caso sin m´etodo de control se observa que existe un candidato defectuoso, el n´umero 23, que no aparece en la otra lista, justamente excluido por la acci´on del m´etodo de control. Otra cosa que se puede verificar es que todos los buenos candidatos aparecen con diferencias de volumen que caen dentro del rango de aceptaci´on, tal como fue observado en la Figura 4.1.7. Para esta mol´ecula efectivamente se pudo encontrar un cristal presentando coinci- dencia con el experimental. Este cristal result´o ser el mismo en ambos casos, el cual se indica resaltado en negrita en la tabla, y corresponde al n´umero 9 de la lista sin m´etodo de control y al n´umero 8 de la lista con m´etodo de control. El hecho de que el cristal 56
  • 59. 4.3. Resultados de la implementaci´on 57 sea el mismo en los dos casos se explica teniendo en cuenta que CHARMM realiza una optimizaci´on local con cada individuo, por lo tanto, cualquier estructura parecida (que se encuentre cerca dentro del espacio de b´usqueda) termina convergiendo hacia ´este. En la Tabla 4.3.2 se presentan los datos de grupo espacial, celda unidad, volumen y energ´ıa del candidato encontrado y del cristal experimental, mientras que en la Figura 4.3.1 se muestra un detalle donde se comparan ambos cristales gr´aficamente. 4.3.2. Resultados para Mol-XVII Para esta mol´ecula se consider´o una configuraci´on flexible con los ´angulos diedros libres seg´un se indican en la Figura 4.3.2. Para esta mol´ecula, los par´ametros utilizados por CHARMM para el c´alculo y la optimizaci´on de la energ´ıa fueron los mismos que los empleados para la mol´ecula Mol-XVI. Los resultados de las simulaciones se detallan en la Tabla 4.3.3, donde nuevamente se incluyen los primeros 30 candidatos ordenados por energ´ıa de manera creciente para cada caso. Para esta mol´ecula tambi´en se observa que los individuos generados son en su mayor´ıa los mismos y ubicados relativamente en ´ordenes similares en ambos casos, salvo por algunas estructuras extra que se observan en la lista con m´etodo de control (las ubicadas en la posici´on 14, 15 y 20) pero que no aparecen en la otra lista. La diferencia m´as notoria que se manifiesta aqu´ı es la aparici´on de estructuras repetidas, las cuales se indican con comillas en la tabla. Como se puede observar, cerca de la mitad de los cristales de cada lista son repetidos, lo cual significa que existe mucha informaci´on redundante. Este tipo de efecto no es deseable que ocurra debido a que reduce la diversidad de la poblaci´on, y por lo tanto, acota de manera artificial el espacio de b´usqueda y puede llegar a perjudicar el resultado de la predicci´on. Dado que el m´etodo de control implementado no es capaz de identificar estructuras repetidas, solo si son buenos o malos candidatos, por ello tambi´en se ve el mismo fen´omeno en el caso con control. Para esta mol´ecula no se ha podido encontrar en ninguno de los dos casos coincidencia con el cristal experimental dentro de las primeras 30 estructuras. Analizando los valores 57
  • 60. 58 Resultados Figura 4.3.2: Esquema de la mol´ecula Mol-XVII identificando los nombres de cada ´atomo y los ´angulos diedros que se permiten variar. de energ´ıas, se observa que el cristal experimental exhibe una energ´ıa de -32.20 KJ/mol, cayendo fuera del rango alcanzado por las primeras 30 estructuras, tal como se observa en la Tabla 4.3.3. Por este motivo se decidi´o extender la b´usqueda hacia las primeras 300 estructuras, alcanzando un rango de energ´ıas comprendido entre -41.66 KJ/mol y -30.35 KJ/mol para el caso sin control, y entre -41.66 KJ/mol y -31.03 KJ/mol para el caso con control. Si bien ahora la energ´ıa del cristal experimental se encuentra dentro del nuevo rango de estructuras, tampoco se ha podido encontrar coincidencia con el experimental dentro de esta lista extendida. Evidentemente, aqu´ı el m´etodo de control no representa una soluci´on, por lo cual se puede inferir que los problemas que tiene el m´etodo para la predicci´on de esta estructura deben estar asociados con otros factores. Precisamente, este problema ha sido estudiado en otros trabajos [4] y se ha concluido que el problema reside, por un lado, en la orientaci´on de los grupos nitro, debido a que las interacciones de largo alcance son dif´ıciles de modelar en estos casos, y por otro lado, la importante contribuci´on a la energ´ıa del cristal aportada por la dispersi´on. En este punto, la parametrizaci´on del potencial cl´asico que utiliza CHARMM para calcular la energ´ıa no es la m´as adecuada para esta mol´ecula en particular, ya que no permite modelar correctamente estos efectos. 58
  • 61. 4.3. Resultados de la implementaci´on 59 Orden Sin m´etodo de control Con m´etodo de control Energ´ıa ∆VARH Conectividad Energ´ıa ∆VARH Conectividad (KJ/mol) ( %) (KJ/mol) ( %) 1 -41.66 -3.6 OK -41.66 -3.6 OK 2 ” ” ” ” ” ” 3 -41.52 -0.66 OK -41.52 -0.66 OK 4 ” ” ” ” ” ” 5 -40.72 -3.77 OK -40.73 -3.77 OK 6 ” ” ” ” ” ” 7 -39.44 -2.63 OK -39.44 -2.62 OK 8 ” ” ” ” ” ” 9 -39.43 -3.73 OK -39.43 -4.03 OK 10 -39.41 -4.04 OK -39.42 -3.71 OK 11 ” ” ” ” ” ” 12 -39.34 -5.15 OK -39.34 -5.15 OK 13 ” ” ” ” ” ” 14 -38.88 -1.77 OK -39.17 -4.57 OK 15 ” ” ” -39.02 -2.38 OK 16 -38.77 -5.12 OK -38.88 -1.77 OK 17 ” ” ” ” ” ” 18 -38.18 -5.6 OK -38.77 -5.12 OK 19 ” ” ” ” ” ” 20 -37.8 -3.08 OK -38.25 -0.01 OK 21 ” ” ” -38.18 -5.6 OK 22 -37.58 -2.5 OK ” ” ” 23 -37.48 -3.14 OK -37.8 -3.07 OK 24 ” ” ” ” ” ” 25 -37.45 -3.25 OK -37.58 -2.5 OK 26 ” ” ” -37.48 -3.12 OK 27 -37.43 -2.05 OK ” ” ” 28 -37.37 -5.58 OK -37.45 -3.25 OK 29 ” ” ” ” ” ” 30 -37.37 -1.22 OK -37.43 -2.05 OK Tabla 4.3.3: Lista de las primeras 30 estructuras resultantes para Mol-XVII, ordenadas por energ´ıa. 59
  • 62. 60 Resultados 4.3.3. Resultados para Mol-XVIII Para esta mol´ecula se consider´o una configuraci´on flexible con los ´angulos diedros libres seg´un se indican en la Figura 4.3.3. Para esta mol´ecula, los par´ametros utilizados por CHARMM para el c´alculo y la optimizaci´on de la energ´ıa fueron tambi´en los mismos que los empleados para la mol´ecula Mol-XVI. Los resultados de las simulaciones se detallan en la Tabla 4.3.4, incluyendo los primeros 30 candidatos ordenados por energ´ıa de manera creciente para cada caso. Para esta mol´ecula se observa que los primeros cuatro individuos de la lista sin m´etodo de control no s´olo corresponden a la misma estructura, sino que adem´as constituyen un candidato defectuoso. Si se excluyen estos cuatro candidatos de la lista, puede observarse que el resto es muy similar a la lista correspondiente con m´etodo de control, con la excepci´on de alguna estructura que se intercale en el medio o con alguna que cambie el orden relativo. Esto significa que el m´etodo de control no est´a generando un efecto que modifique sustancialmente los resultados finales, lo cual quiz´a pueda deberse a que la mayor´ıa de las estructuras son buenas, salvo esas primeras cuatro m´as la que aparece en el puesto 19 sin m´etodo de control. Por lo tanto, el efecto de eliminar estas estructuras no altera demasiado el comportamiento general, dado que ´estas representan una minor´ıa respecto al total de la poblaci´on, que en su mayor´ıa se trata de buenos candidatos. Figura 4.3.3: Esquema de la mol´ecula Mol-XVIII identificando los nombres de cada ´atomo y los ´angulos diedros que se permiten variar. 60
  • 63. 4.3. Resultados de la implementaci´on 61 Orden Sin m´etodo de control Con m´etodo de control Energ´ıa ∆VARH Conectividad Energ´ıa ∆VARH Conectividad (KJ/mol) ( %) (KJ/mol) ( %) 1 -677.95 -6.41 BAD -677.29 -3.11 OK 2 ” ” ” ” ” ” 3 ” ” ” -676.86 -3.56 OK 4 ” ” ” -676.5 -6.15 OK 5 -677.3 -3.11 OK ” ” ” 6 ” ” ” ” ” ” 7 -676.86 -3.56 OK ” ” ” 8 ” ” ” -675.41 -4.87 OK 9 -676.5 -6.15 OK ” ” ” 10 ” ” ” -675.22 -6.78 OK 11 -675.41 -4.87 OK ” ” ” 12 -675.22 -6.78 OK -674.57 -1.17 OK 13 ” ” ” ” ” ” 14 -674.57 -1.17 OK -674.37 -3.96 OK 15 -674.37 -3.96 OK -674.06 -2.57 OK 16 -674.07 -2.58 OK ” ” ” 17 ” ” ” -673.35 -3.2 OK 18 ” ” ” ” ” ” 19 -673.55 -15.61 BAD -673.34 -3.08 OK 20 -673.47 -1.01 OK ” ” ” 21 -673.35 -3.2 OK ” ” ” 22 ” ” ” -673.2 -3.36 OK 23 -673.34 -3.08 OK ” ” ” 24 ” ” ” -673.1 -3.58 OK 25 ” ” ” ” ” ” 26 -673.2 -3.36 OK -673.01 -2.22 OK 27 ” ” ” ” ” ” 28 -673.1 -3.58 OK -672.69 -4.01 OK 29 ” ” ” ” ” ” 30 -673.01 -2.22 OK ” ” ” Tabla 4.3.4: Lista de las primeras 30 estructuras resultantes para Mol-XVIII, ordenadas por energ´ıa. Cristal Grupo a b c α β γ Volumen Energ´ıa Espacial (˚A) (˚A) (˚A) (º) (º) (º) (˚A3 ) (KJ/mol) MGAC Pbca 9.989 8.752 24.148 90 90 90 2111 -675.4 Experimental Pbca 9.888 8.887 24.969 90 90 90 2194 -651.7 Tabla 4.3.5: Datos de grupo espacial, celda unidad, volumen y energ´ıa del candidato encontrado por MGAC y del cristal experimental para la mol´ecula Mol-XVIII. 61
  • 64. 62 Resultados Figura 4.3.4: Comparaci´on entre el cristal experimental y el candidato encontrado por MGAC para la mol´ecula Mol-XVIII. Para esta mol´ecula tambi´en se pudo encontrar un cristal presentando coincidencia con el experimental. Como en el caso de Mol-XVI, aqu´ı tambi´en el cristal result´o ser el mismo en ambos casos y se indica resaltado en negrita en la tabla. ´Este corresponde al n´umero 11 de la lista sin m´etodo de control y al n´umero 8 de la lista con m´etodo de control. Sin embargo, si se excluyen tanto los cristales malos como los repetidos, su ubicaci´on final ser´ıa el puesto n´umero 4 en ambas listas. En la Tabla 4.3.5 se presentan los datos de grupo espacial, celda unidad, volumen y energ´ıa del candidato encontrado y del cristal experimental, mientras que en la Figura 4.3.4 se muestra un detalle donde se comparan ambos cristales gr´aficamente. 62