Este documento describe los conceptos fundamentales de la proteómica y su importancia para la investigación biomédica. Explica que mientras el genoma es constante, el proteoma es dinámico y depende del contexto celular. También describe los pasos clave de la electroforesis bidimensional y la espectrometría de masa para identificar proteínas y comparar cambios en los niveles de expresión entre diferentes condiciones. Finalmente, resume algunas aplicaciones importantes de la proteómica como caracterizar proteomas y comparar cambios asociados a distintos
3. PROTEOMICA ESTA DEDICADA AL ESTUDIO DE LA S
PROTEOMICAS Y DE SUS CAMBIOS EN
DEPONDENCIA DEL CONTEXTO
4. CONCEPTOS DE LA PROTEOMICA
Es precisamente esta variabilidad del proteoma lo que lo hace tan atractivo
para la investigación biomédica. Recientemente la proteomica ha comenzado a
dar una contribución importante a nuestra compresión de la biología y de la
medicina. Los avances logrados en genómica no se traducen directamente en
nuestro conocimiento de los respectivos proteomas: muchos genes carecen de
función conocida, a muchos otros se les adjudica una función por analogía con
otros genomas estudiados previamente. Si se extrapola la situación encontrada
con la levadura, más de la mitad del genoma humano no tiene una función
conocida en estos momentos.
Es el conjunto de proteínas expresadas por un organismo en un momento
dado . La proteínica comprende todas las técnicas para el estudio en gran escala
de la proteína expresada “proteoma” como las aplicaciones de estas técnicas al
análisis de problemas biológicos. Mientras que el genoma es un organismo, es
esencialmente constante a lo largo de la vida, el proteoma tiene un carácter
dinámico: la expresión de proteínas cambia en diferentes etapas del ciclo
celular pero también en respuesta a acciones extremas.
5. La proteómica incluye diversos campos de investigación:
La identificación de las proteínas expresas por un organismo en una
condición dada “proteómica descriptiva o estructural, todas las proteínas
expresada en un momento y en un contexto”
La identificación de los cambios en el nivel de expresión de proteínas
asociadas a cambios en la condiciones del organismo “proteómica
comparativa, cuales proteínas cambian cuando un organismo se somete a
condiciones diferentes”
La identificación de conjuntos funcionales de proteínas, es decir, grupos
de proteínas que se localizan en un mismo sitio celular y que operan en
mutua interacción “interacciones proteína-proteína, proteómica
funcional”
La identificación de las proteínas que forman un organelo “este enfoque
conduce a la elaboración de un mapa molecular de la célula”
6. ¿PORQUE LA PROTEÓMICA?
El dogma central de la genética:
ADN ARN PROTEÍNA
Da lugar a uno de los paradigmas
esenciales de la biología que prevaleció
durante la segunda mitad del siglo pasado:
UN GEN UNA PROTEÍNA
Esta relación aparentemente simple.
Aunque es cierto que un gen codifica una
secuencia de aminoácidos existen dos
eventos que incrementan
considerablemente el número de proteínas
que pueden ser originadas por un gen y
estar presentes en una célula en un
momento dado y por tanto hace más
complejo el proteoma de una célula.
Uno de esos eventos es el fenómeno conocido como
empalme alternativo. En los mamíferos y otros
organismos superiores el gen que codifica una proteína
no esta constituido por una secuencia continua de
nucleótidos.
Una parte de la secuencia del gen está formada por
regiones no codificantes que interrumpen la secuencia
codificante del gen y son llamados intrones. Las
regiones codificantes (y que por tanto dan lugar al ARN
y posteriormente a la proteína) son conocidas como
exones. Cuando se forma el ARN mensajero, mARN, los
intrones son eliminados quedando así la secuencia que
codifica una proteína. El fenómeno de splicing consiste
en que los exones pueden reordenarse de varias formas
y dar lugar a mas de una proteína a partir de un solo
gen.
7. Se calcula que alrededor del 10% de los genes de mamíferos codifica proteína cuya función
es modificar otras proteínas, y que genera más de 200 tipos de modificaciones post
tradicionales tales como:
Glicosilación.
Fosforilación.
Incorporcion de lípidos.
En adición, muchas proteínas participan en las rutas metabólicas que conllevan a la
degradación y finalmente la eliminación de proteínas. Así, en el sistema de ubiquitinación
participan 134 genes, mientras las fosfatasas son codificadas por unos 300 genes y las
proteínas kinasas se estiman codificadas por mas de 1100 genes.
Por ello, una secuencia única de aminoácidos puede generar muchas especies químicas
diferentes. De esta forma se estima que los aproximadamente 40 000 genes del genoma
humano pueden dar lugar a mas de un millón de proteínas.
8. Las diferencias que existen entre las
poblaciones de mARN y de proteínas están
dadas, por una parte, por la amplia población
de especies que portan modificaciones
químicas.
, intervienen otras causas importantes: el
tiempo de residencia de las moléculas de
proteínas en el interior de una célula o de un
compartimiento celular es variable debido a la
degradación por proteasas, a la translocación
intra y extracelular y a la modificación de las
proteínas durante su intervención en procesos
biológicos. Por ello la medición de la expresión
de mARN no suministra valores confiables de
los cuales se pudiera deducir la abundancia y
la presencia de las proteínas traducidas.
la amplia población de especies que portan
modificaciones químicas
Molécula Proteína
mRNA
9. El tiempo de vida media de las moléculas de
proteínas en el interior de una célula o de un
compartimiento celular es variable debido a la
acción de proteasas, a la translocación intra- y
extracelular y a la modificación de las proteínas
durante su intervención en procesos biológicos.
Por ello la medición de la expresión de mRNA no
suministra valores confiables de los cuales se
pudiera deducir la abundancia y la presencia de
las proteínas traducidas. Solo el estudio directo
de las proteínas, lo que es campo de la
Proteómica, puede dar respuesta a estas
cuestiones. Adicionalmente, una molécula de
mRNA puede originar varias secuencias de
proteínas, por el simple cambio del codón de
iniciación o de terminación, lo que origina
moléculas de secuencias más cortas o más
extensas.
En resumen, al concluir el siglo XX
la idea de considerar las proteínas
como macromoléculas definibles
por una secuencia de residuos de
aminoácidos completamente
determinadas por la secuencia de
una molécula de ADN había
cambiado sustancialmente: entre
genes y proteínas existen
diferencias de complejidad que
definen la existencia de un campo
de conocimiento singular,
irreducible a formas
relativamente menos complejas
del conocimiento: al concluir el
siglo las razones para el
surgimiento de la proteómica
estaban sólidamente establecidas.
10. ELECTROFORESIS
BIDIMENSIONAL
Electroforesis bidimensional de
proteínas de la fracción nuclear de
células de cáncer de pulmón humano
(small cell lung cáncer) . Las proteínas
de la fracción nuclear se extrajeron con
una solución de agentes caotrópicos y
detergentes. La primera dimensión se
efectuó en un gel de poliacrilamida
tubular con enfollinas portadoras de
rango 2 a 11. La segunda dimensión se
efectuó en un gel vertical de 16.5 %
poliacrilamida en presencia de SDS. Las
proteínas se detectaron mediante
tinción con plata (Gel confeccionado en
el laboratorio de los autores).
. Estos geles
permiten obtener
un arreglo o
despliegue físico en
dos dimensiones de
mezclas complejas
de proteínas.
11. Se basan en la combinación de dos
técnicas ortogonales (es decir, que
no comparten principios físicos
comunes
1) la separación por carga eléctrica
(focalización isoeléctrica, IEF) en la
que las proteínas migran en un
gradiente de pH hasta alcanzar el
sitio donde carecen de carga, es
decir su punto isoeléctrico.
2) la separación por tamaño
molecular que se efectúa en un gel
de poliacrilamida en presencia de
un detergente aniónico muy
potente, el docecil sulfato de sodio
(SDS-PAGE).
14. 2.- SEPARACIÓN
POR PUNTO
ISOELÉCTRICO.
Dos técnicas a escoger: la
separación en geles de
anfolinas (separación en
tubos) o separación en geles
de immobilinas(separación
en tiras IPG). En ambos
casos, la focalización
transcurre durante un
periodo prolongado a alto
voltaje (por ejemplo durante
10 a 20 horas y a voltajes
entre 3.5 y 8 KVJ.
15. 3.-SEPARACION POR
TALLA.
El gel que
contiene la
primera
separación se
coloca
perpendicularme
nte a la dirección
de migración en
un segundo gel,
ahora de SDS.
16. 4.- DETECCIÓN.
Este paso permite ver
las proteínas en el gel
en forma de manchas
(spots) y capturar la
imagen de la
separación utilizando
un scanner. Algunas
técnicas de detección
son incompatibles con
el siguiente paso de
análisis C
identificaciones.
17. 5.- ANÁLISIS DE
IMÁGENES DE
GELES.
Se hace para
identificar los
cambios en la
expresión de
proteínas entre dos o
varias condiciones
experimentales
diferentes,
comparando varios
geles de cada
condición.
18. 6.- SELECCIÓN DE
PROTEÍNAS DE
INTERÉS.
Se seleccionan
proteínas cuyo
cambio sea “a”
significativo y “b”
reproducible en
un grupo de
experimentos
idénticos.
19. 7.- RECORTAR
SECCIONES DE GEL
CON PROTEÍNAS
SELECCIONADAS.
Permite utilizar con
fines preparativos el
mapa
bidimensionales:
pequeños cilíndricos
de gel que contiene
las proteínas a
identificar se
recortan.
20. 8.- DIGERIR LAS
PROTEÍNAS EN LOS
BLOQUES DE GELES
CON UNA
PROTEASA
ESPECIFICA
(USUALMENTE
TRIPSINA).
Incubación de los bloques de
geles con tripsina durante 3-
20 horas. Se obtiene la mezcla
de los péptidos trípticos, cortes
en extremo C de lisina y de
arginina.
21. 9.- analizar
las mezclas
de péptidos
por
espectrometr
ía de masas.
Se obtienen las
masas moleculares
de los péptidos
obtenidos y se puede
además obtener
secuencias parciales
o completas de los
péptidos.
22. 10.- IDENTIFICAR
POR COMPARACIÓN
CON LAS BASES DE
DATOS DE
PROTEÍNAS.
Los valores de masas y los
fragmentos de secuencias,
obtenidos se comparan con
basas de datos de las
digestiones virtuales del
proteoma teórico del
organismo analizado si el
genoma no es conocido, se
comparan los valores con las
digestiones virtuales de
proteomas derivados de
genomas conocidos
procedentes de especies
cercanas.
23. APLICACIÓN DE LAS PROTEOMICAS
Caracterización del proteoma de un organismo. El propósito de este
estudio es la identificación del mayor número de proteínas expresadas
por un organismo en una condición biológica particular. En el caso de
organismos unicelulares o de células en cultivo, muchos trabajos se
han propuesto la separación y la identificación de proteínas en
preparaciones de proteínas totales y ya existen mapas en bases de datos
para numerosos organismos. Sin embargo, para lograr un nivel
superior de información se prefiere descomponer el estudio del
proteoma en el estudio de subproteomas correspondientes a organelos
subcelulares. Actualmente la Organización del Proteoma Humano
(HUPO) tiene en curso 3 proyectos internacionales destinados a la
construcción de los primeros mapas proteómicos de órganos o tejidos.
Estos son: cerebro, hígado y plasma.
24. PROTEÓMICA COMPARATIVA:
consiste en evaluar los cambios en
la expresión de proteínas de un
organismo sometido a dos o varias
condiciones biológicas diferentes,
generalmente una de ellas es una
condición control que se utiliza
como referencia de la expresión
de proteínas en condiciones
“normales”. Este tipo de trabajo
suministra información a nivel
molecular de los cambios causados
por la acción de un agente
externo: por ejemplo un
medicamento, por cambios en las
condiciones de cultivo, las
diferencias entre una línea celular
normal y una tumoral, la
evaluación de los cambios
producidos por un agente
infeccioso, el desarrollo de los
mecanismos de resistencia a
quimioterapéuticos o
antimicrobianos.
25. Este tipo de investigación es
de alto valor en ciencias
biomédicas. Para los trabajos
de proteómica comparativa
es necesario disponer de un
diseño experimental
cuidadosamente planificado.
Aquí resulta de gran utilidad
la existencia de una hipótesis
previa que oriente la
búsqueda hacia determinado
tipo de proteínas que pueden
ser seguidas por
inmunodetección con
anticuerpos específicos o
que se suponen localizadas
esencialmente en un
orgánulo subcelular. Por
ejemplo, algunos proyectos
se orientan específicamente
hacia la identificación de
cambios en los patrones de
fosforilación de proteínas.
26. . En este caso, la detección
del subconjunto de proteínas
fosforiladas puede facilitarse
mediante el uso de
anticuerpos específicos.
Confección de n mapa
bidimensional anotado.
Como resultado de las
identificaciones efectuadas
por espectrometría de masa,
el mapa bidimensional de
proteínas se enriquece con
abundante información que
incluye la identificación de
la naturaleza de las
proteínas, el punto
isoeléctrico y la masa
experimental y teórica, y las
propiedades reportadas
anteriormente en la
literatura.
27. Proteómica comparativa. El esquema
resume los pasos principales que permiten
la comparación de la expresión de proteínas
en dos condiciones biológicas y la
consecuente identificación de los cambios.
Interacción de Proteínas. En los últimos
años ha quedado evidenciada la
importancia de identificar las interacciones
entre proteínas y de proteínas con otras
moléculas. En varias publicaciones se han
reportado los resultados de aislamiento de
complejos de proteínas y la posterior
identificación de las proteínas componentes.
Estos resultados contribuyen
significativamente al establecimiento de
mapas de interacciones y al esclarecimiento
del mecanismo de determinadas funciones
biológicas.
Es posible predecir que las herramientas
que se emplean en proteómica se irán
perfeccionando e incluso aparecerán
nuevos procedimientos y equipos que
solucionarán las principales limitaciones
actuales. Sin lugar a dudas la proteómica
fortalecerá su posición actual en las
investigaciones médicas, farmacéuticas,
agrícolas y en otros campos y se
multiplicarán sus aplicaciones.
29. Desafortunadamente, las mismas
características que otorgan a las
proteínas su papel fundamental como
moléculas efectoras de la función celular
(diversidad química y estructural y
abundancia relativa) también dificultan
su análisis experimental. Actualmente no
existe un diagrama de flujo único para el
análisis proteómico de una muestra, ya
que las variables como complejidad,
método de separación, concentración y
estabilidad de las proteínas, además de la
plataforma tecnológica disponible para
su análisis, y muy especialmente el tipo
de pregunta biológica que se pretende
abordar, son los parámetros básicos que
determinan la elección de una estrategia
de estudio. Por lo tanto, no existe una
metodología idónea para el estudio de
proteomas en forma sistemática. En
consecuencia, la investigación
proteómica es el resultado de la
aplicación de un conjunto de técnicas
que permiten el estudio de proteínas. A
continuación, se describirá en forma
resumida una metodología para el
análisis proteómico de una muestra.
30. Separación de las proteínas. Una muestra
proveniente de un sistema biológico es una
mezcla compleja de proteínas. Por lo tanto, las
muestras provenientes de células, tejidos u
otro tipo de muestras biológicas (sangre, orina,
leche, líquido céfalo-raquídeo, semen, saliva,
lágrimas, etc.) se separan principalmente por
técnicas cromatográficas y/o electroforéticas,
las cuales son tecnologías robustas, versátiles y
con alta capacidad de resolución. Las más
utilizadas son: electroforesis unidimensional
(SDS-PAGE) y bidimensional (2-D PAGE),
electroforesis capilar, cromatografía líquida de
alta resolución (HPLC), cromatografía de
afinidad, cromatografía de exclusión
molecular y cromatografía de intercambio
iónico. La electroforesis bidimensional, por
ejemplo, permite la separación de hasta 2000
proteínas en un solo gel, mientras que la
electroforesis unidimensional solamente 100.
Estas técnicas de aislamiento pueden utilizarse
separadamente, en conjunto o en sistemas de
flujo continuo, como la cromatografía
multidimensional, también conocida como
MudPit (multidimensional protein isolation
technology), que contiene fase reversa e
intercambio iónico en forma conjugada.
31. La tecnología de cromatografía líquida acoplada a los espectrómetros de masas
(LC-MS, liquid chromatography-mass spectrometry) es utilizada para la separación
de péptidos provenientes de proteólisis enzimática, péptidos sintéticos o péptidos
nativos, por columnas de fase reversa micro-capilares acoplado a sistemas de
ionización tipo electrospray-MS. Esta tecnología permite la separación de mezclas
complejas de péptidos y su análisis simultaneo por espectrometría de masas. Este
sistema es compatible con columnas capilares tipo RPn y MudPit de nanoflujo, que
funcionan al mismo tiempo como agujas de producción de spray bajo la aplicación
de alto voltaje. En la actualidad, el sistema LC-MS es una de las más versátiles y
poderosas herramientas del análisis proteómico basado en la espectrometría de
masas.
Procesamiento de la muestra. El primer paso es la reducción de los puentes de
disulfuro y la alquilación de las cisteínas. Tiene como objetivo desnaturalizar las
proteínas permitiendo que se expongan los sitios específicos de corte enzimático
y, a la vez, se evita la formación de dímeros. Estas modificaciones químicas son
fundamentales, ya que para el análisis por EM se requiere que las proteínas sean
digeridas a péptidos con masas moleculares menores que 3 KDa. Eso se debe a
que las tecnologías de fragmentación de proteínas en espectrómetros de masas
(para obtención de secuencias) aún son limitadas y péptidos con mayores masas
moleculares producen informaciones estructurales no interpretables.
32. La muestra, reducida y alquilada, generalmente se digiere con
tripsina (enzima que corta específicamente en los C-terminales
de lisina y arginina, excepto cuando éstas son seguidas de
prolina); la elección de esta endoproteasa como enzima no es
casual. En su mayoría, los cortes trípticos generan péptidos con
masas moleculares entre 1 y 2 KDa; permiten la diferenciación
entre los amino ácidos lisina y glutamina (128 Da), ya que
todas las lisinas estarán posicionadas en el C-terminal de los
péptidos trípticos, y propicia la presencia de por lo menos dos
cargas positivas en el péptido (n-terminal y C-terminal con K o
R) que posibilitarán la transferencia de carga a través de las
ligaciones amídicas facilitando la fragmentación. La
descripción del proceso de reducción, alquilación y digestión
enzimática de una proteína para su análisis por EM es apenas
uno de los tantos procedimientos que pueden efectuarse en el
análisis proteómico. La identificación de biomarcadores,
determinación de modificaciones postraduccionales,
cuantificación, identificación de mezclas complejas, entre otras
aplicaciones, pueden involucrar decenas de metodologías
diferentes para el procesamiento de las muestras.
34. La búsqueda de respuestas
para preguntas biológicas
complejas está directamente
relacionada con el dominio, la
aplicación y la disponibilidad de
alta tecnología. En este
sentido, la creación de
unidades de servicio
especializadas, a nivel regional
o nacional, parece ser la mejor
alternativa para la investigación
científica y tecnológica en
países en desarrollo.
Las unidades de
proteómica:
a) son entidades técnica y
operacionalmente
elaboradas.
b) por su naturaleza
requieren grandes
inversiones financieras.
c) toman un tiempo
razonable para su
establecimiento.
d) exigen recursos
humanos altamente
capacitados.
35. Dada la relevancia de las
unidades de servicio en
proteómica, tanto para la
investigación básica como para
la investigación biotecnológica,
la comunidad de investigadores
del Instituto de Biotecnología
decidió la creación de la Unidad
de Proteómica (UPRO-IBT) en
junio de 2005. Esta unidad tiene
como objetivo ofrecer servicios
de análisis proteómico basados
en la espectrometría de masas
macromolecular.
36. La UPRO es la primera y única unidad de servicios en su género a nivel nacional.
Durante 2006 se analizaron más de ochocientos muestras de proteínas para
instituciones de investigación pública y privada, así como para compañías
particulares. Los servicios prestados por la UPRO incluyen determinación de masas
moleculares de proteínas y péptidos, identificación de proteínas por MALDI-TOF y
ESI-MS/MS, secuenciación parcial de proteínas desconocidas, determinación de
modificaciones postraduccionales, determinación de sitios de corte específicos de
nuevas enzimas e identificación de modificaciones sintéticas en proteínas.
Adicionalmente, la UPRO es un centro proteómico de referencia a nivel nacional
debido a la formación de recursos humanos (técnicos y de posgrado), al apoyo
brindado a otros laboratorios de proteómica y a su empeño en promover y desarrollar
la investigación proteómica en México ( http://www. smp.org.mx). El significativo
aumento de solicitudes de servicio es consecuencia del creciente interés de la
comunidad científica nacional e internacional en dilucidar a nivel cualitativo y
cuantitativo la expresión genética de los organismos, y especialmente la expresión
diferencial de proteínas debida a distintas enfermedades, estrés u otras alteraciones
físicoquímicas impuestas a los sistemas biológicos. La UPRO mantiene un esfuerzo
constante por mejorar su plataforma analítica y, de esta forma, ofrecer servicios de
primer nivel al creciente número de usuarios.
37.
38.
39. En 1974 Frederick Sanger (dos veces premio Nobel de química, en 1958 y en 1980) creó un método de
secuenciación del ácido desoxirribonucleico o ADN por terminación de cadenas. Su idea consistió en obtener
todas las secuencias posibles de una cadena de ADN con un único nucleótido de diferencia, para luego leerlas e
inferir la secuencia completa de pares de bases de un gen.
Esta técnica se aplicó manualmente en los laboratorios durante toda la década del 1980. Dada su baja resolución,
afortunados eran aquellos que, repitiendo tres veces el experimento, lograban leer con pocas dudas mil pares de
bases, es decir, un poco menos que el tamaño medio de un pequeño gen bacteriano.
En la siguiente década, los avances técnicos automatizaron el método, redujeron los errores de lectura,
permitieron la producción en paralelo, e imprimieron al costo de secuenciación una carrera descendente que aún
continúa. En 1998 un secuenciador automático procesaba un millón de pares de bases por día. Ese año el
consorcio público del proyecto del genoma humano se ponía como objetivo secuenciar ochenta millones de
ellas. Dos años después se había duplicado el rendimiento, y en 2001 se presentó públicamente el primer
esquema de nuestro genoma.
Esto no constituyó más que la punta del iceberg de una nueva forma de hacer biología, cuyo objetivo inmediato
fue la secuenciación de todos los genes humanos (alrededor de veintitrés mil), en especial aquellos asociados
con enfermedades, que constituyen perlas para la medicina.
40. Siguió el estudio de su regulación y expresión, para lo cual no solo interesan los genes, sino sus secuencias regulado
Estudio de Darwin en Down House, la casa de campo en la que vivió durante cuarenta años, situada en el condado de Kent,
cerca de la localidad de Downe, unos 26km del centro de Londres en dirección sudeste.
89 Volumen 19 número 113 octubre - noviembre 2009 ARTÍCU LO
ras; los intermediarios o transcriptos de sus productos finales, las proteínas; las secuencias que separan un gen de otro, y un
conjunto de otros elementos, algunos repetidos desde unas pocas decenas hasta miles de veces, que no hace mucho
formaban parte de lo completamente desconocido del genoma de un organismo eucariota superior.
Para comprender nuestro genoma y experimentar con él debemos entender nuestras diferencias con otras especies, como
gusanos, moscas, peces, ratones y nuestros parientes primates más cercanos, lo que llevó a la genómica comparativa. Esta
revolución no solo tiene consecuencias para la medicina o la industria farmacéutica sino, también, para áreas como
agricultura, ganadería, piscicultura e ingeniería forestal. Modifica preguntas y métodos en todos los campos del conocimiento
biológico, desde la biología del desarrollo a la sistemática, desde la microbiología al comportamiento, y desde la genética de
poblaciones a la conservación de especies. Institutos como el Sanger en Inglaterra o empresas como Celera en los Estados
Unidos son en la actualidad centros robotizados dedicados a la generación masiva de datos genómicos.
Ante estas nuevas posibilidades, en un mar de A, C, T y G –como se simbolizan las cuatro bases de los ácidos nucleicos–,
¿cómo distinguir las partes que tienen alguna función de las que no la tienen? ¿Con qué herramientas manejar y guardar esa
enorme información? ¿Cómo hacer accesibles los datos a investigadores y a otros interesados? Ya habrá supuesto el lector
que de eso se ocupa la bioinformática, a la que nos referiremos después de comentar brevemente la tecnología de los chips de
expresión.
42. La hibridación de ácidos nucleicos es una técnica de laboratorio usada por la biología
molecular que detecta la expresión de un gen por medio de la concentración del ARN
mensajero que da lugar a la producción de una proteína. La técnica se aplicaba
manualmente durante las décadas de 1980 y 1990. Actualmente hay empresas que venden
unas pequeñas placas de vidrio o chips que concentran en poco más de dos centímetros
cuadrados todos lo genes de un genoma, sea humano, de ratón o de mosca.
La cuantificación de ARN mensajero con estos chips de ADN, llamados microarrays, permite
medir la expresión de todos los mensajeros de los genes de un genoma sometido a una o
más condiciones experimentales y compararlo con un genoma de control. En un solo
experimento podemos obtener el transcriptoma (la totalidad de ARN mensajero expresado
en un genoma) de cualquier tipo de cáncer, en pacientes estratificados por edades, sexo y
distintos tratamientos farmacológicos. Podemos deducir cuáles genes son responsables del
crecimiento descontrolado de células, los que provocan el rendimiento de aceites en una
planta, los responsables genéticos de que una abeja reina sea diferente de una obrera o lo
que sucede durante la metamorfosis de un insecto. Esta tecnología de chips no solo se
aplica al análisis de la expresión de genes; también sirve para deducir pérdidas y ganancias
de material genético en distintas regiones cromosómicas, para la detección de mutaciones
de un solo nucleótido en poblaciones, para la interacción entre proteínas, etcétera. Si bien
las posibilidades de este tipo de tecnología son enormes, lo relevante en esta revolución
tecnológica es haber pasado del análisis individual de unos pocos genes al análisis masivo
de genes en paralelo.
44. Las relaciones de parentesco entre humanos,
moscas y gusanos no segmentados o nematodos
fueron definidas desde los inicios del siglo XX
gracias a una característica que surgió durante
la evolución de los dos primeros grupos de
organismos y que no se ve en el tercero: el
celoma. Este es una cavidad embrionaria
característica de moluscos, gusanos
segmentados o anélidos, artrópodos y
vertebrados, que supuestamente habría surgido
una única vez en el ancestro común de todos
estos organismos.
El estudio filogenético o historia evolutiva
molecular de los organismos mencionados
estableció una nueva clasificación, pues postuló
la existencia de los ecdisozoos (Ecdysozoa), un
grupo distinto que reúne a moscas y gusanos, es
decir, a artrópodos y nematodos en una sola
clase. La existencia de los ecdisozoos, que
forman uno de los grupos mayores del mundo
animal, postula la existencia de un ancestro
común diferente entre estos organismos. En la
vieja clasificación los humanos, lo mismo que
los cerdos y las serpientes, estábamos más cerca
de las moscas y arañas que de los gusanos no
segmentados. En la nueva clasificación, con el
grupo de ecdisozoos quedamos a igual distancia
de los insectos que de cualquier gusano parásito
nematodo. Así, desde mediados de la década de
1970, la información proporcionada por la
biología molecular pasó a dominar la
45. La nueva clasificación fue inicialmente
aceptada por algunos y discutida por
otros, según qué genes utilizaran para
el análisis. En 2003, cuando este autor
comenzó accidentalmente a analizar el
problema, se contaba ya con los
genomas completos de los tres
conjuntos de organismos nombrados,
así como de otros muchos que tienen
un lugar en el árbol de la vida, desde
unicelulares como el Plasmodium (el
parásito causante de la malaria) hasta
los humanos. Ahora, gracias al soporte
estadístico proporcionado por más de
11.000 secuencias de los genomas de
diferentes organismos, el grupo de los
ecdisozoos quedó firmemente
establecido. La filogenómica, es decir,
la historia de la vida reconstruida
sobre bases genómicas o de miles de
genes, aporta así una visión estadística
más robusta de las relaciones
genealógicas entre las especies.
Requiere el manejo masivo de genes y
la concatenación de miles de análisis
filogenéticos por medio de programas
informáticos en lenguajes como Perl,
Phyton o C++.
46. SELECCIÓN NATURAL Y DETECCIÓN
GENÓMICA DE ENFERMEDADES
En 2005 comenzamos a trabajar en la
predicción de enfermedades humanas mediante
el análisis evolutivo de presiones selectivas en
proteínas, es decir, midiendo la fuerza con que
un aminoácido es descartado de una población.
El razonamiento que utilizamos se basó en el
hecho de que, del mismo modo que la selección
natural puede mantener el cambio adaptativo
de la información genética de una proteína, su
trabajo frecuente es descartar mutaciones que
deterioran la información genética transmitida
de padres a hijos, causa principal de que los
hijos se parezcan a sus padres. Esta forma de
selección se conoce como selección
purificadora, y es la más frecuente en todas las
especies.
47. En un primer estudio, trabajamos con la proteína P53, que tiene un importante cometido en
el control del ciclo celular y, por lo tanto, es fundamental para evitar el crecimiento de la
mayor parte de cánceres humanos. Establecimos que por debajo de cierto umbral de
presiones selectivas sobre
un aminoácido, podíamos distinguir residuos de proteínas asociados con diferentes
frecuencias de cánceres, e identificamos los residuos de unas cuarenta proteínas con mayor
probabilidad de asociación con cánceres y enfermedades inmunológicas. Después,
trabajando en colaboración con un físico, extendimos esos primeros análisis a la
construcción de un sistema informático que opera con los principios de inteligencia
artificial y pudimos, primero, ampliar el método a todas las proteínas de la base de datos
UniProt (Universal Protein Resource) y, luego, a todo el genoma humano. Finalmente,
aplicamos el método en la publicación del consorcio que secuenció los genomas de todas las
cepas de ratones de laboratorio. En todo esto, la combinación de conocimientos en
evolución, genómica y bioinformática resultó clave para validar y predecir con éxito
enfermedades.
48. La bioinformática utiliza algoritmos informáticos y modelos probabilísticos para dar sentido a los datos contenidos en las bases
de datos biológicas. Entre las más conocidas podemos mencionar: (1) la de genes de enfermedades humanas
(2) la de ontologías, que emplea un vocabulario de términos semijerárquicos organizados por procesos biológicos,
componentes celulares y funciones biológicas, y (3) la de genomas completos. Entre las herramientas más populares, están las
que buscan secuencias parciales o completas (exones, motivos, genes o regiones genómicas) en diferentes bases de datos. Entre
los modelos probabilísticos están los ocultos de Markov, que sirven para buscar patrones definidos de secuencias. También las
regresiones logísticas, los modelos basados en máxima verosimilitud y el cálculo de probabilidades bayesianas para el ajuste
del modelo a los datos biológicos.
El trabajo principal del bioinformático es el manejo de la información biológica. Pero no alcanza con saber buscar datos en un
mar de letras y números: se debe saber qué hacer con ellos, es decir, formular hipótesis y ponerlas a prueba. El Departamento
de Bioinformática y Genómica de la institución en que se desempeña el autor en Valencia ha desarrollado herramientas que
integran soluciones a problemas diversos. Por ejemplo, para el análisis funcional de genes, que permite la caracterización
funcional de experimentos de microarrays, y su lectura. El programa que estudia la formación de redes mínimas de proteínas,
el que deduce estructuras terciarias de proteínas por comparación con secuencias con otras especies, el que se encarga del
análisis de la evolución molecular, filogenia y adaptación de las secuencias moleculares, y el que busca mutaciones
funcionales en el genoma humano y el de ratón.
Estas herramientas y muchas otras son utilizadas en internet por una amplia comunidad de investigadores alrededor del
mundo. Las herramientas bioinformáticas representan en esta época lo que fueron para la genética las técnicas de biología
molecular en las décadas de 1980 y 1990. Dado que no se puede hacer un experimento si no se tiene una hipótesis de trabajo
y una definición explícita de cómo manejar los números, resulta obvio que los poseedores de este conocimiento serán
jugadores clave en la generación de la biología de este siglo.
49. PIONEROS DE LA BIOINFORMÁTICA
Margaret Oakley Dayhoff (1925-1983), nacida en Filadelfia, escribió su
tesis doctoral en la Universidad de Columbia sobre la medición de
energías de resonancia en compuestos orgánicos. Se valió de aplicaciones
informáticas que usaban tarjetas perforadas. Química de profesión, se
desempeñó en las universidades Rockefeller, de Maryland y Georgetown.
Inventó el código de aminoácidos de una sola letra y la matriz PAM para
contabilizar el cambio evolutivo en secuencias de proteínas. Estos
desarrollos la llevaron a construir el primer árbol filogenético por medio
de una computadora. Su Atlas de secuencias y estructuras de proteínas,
organizado por familias génicas, que le llevó trece años de trabajo desde
1965, fue su más destacada contribución al desarrollo de la disciplina. El
atlas dio origen a la base de datos PIR (Protein Information Resource),
hoy incluida en UniProt.
Walter Benson Goad (1925-2000), nacido en el estado norteamericano
de Georgia, físico teórico del laboratorio de Los Álamos en Nuevo
México, desarrolló el código informático para la extracción,
almacenamiento y análisis de secuencias de ADN, que llevó a conformar
en 1982 la primera base de datos de nucleótidos del mundo: Los Alamos
Sequence Data Bank, que se convertiría en GenBank. Junto con sus
homólogas del Laboratorio Europeo de Biología Molecular y la Base de
datos de ADN del Japón, actualizan su contenido diariamente y no han
parado de crecer en forma exponencial desde su creación, con
duplicación de su contenido cada dieciocho meses.
50. ¿QUÉ NOS HACE HUMANOS Y NO
CHIMPANCÉS?
El sueño de conocer las diferencias genéticas completas
entre humanos y nuestros parientes vivientes más cercanos
se hizo posible en 2005, cuando se publicó la primera
versión del genoma del chimpancé. Los biólogos evolutivos
de esta generación tenemos la enorme fortuna de poder
responder científicamente a uno de los interrogantes que
desde siempre más han interesado a la humanidad: ¿qué
nos hace humanos?
Con ese propósito abordamos un análisis comparativo de
trece mil genes de cinco especies de mamíferos. El trabajo
consistió en el alineamiento automático de esos genes, su
ajuste a modelos estadísticos y la estimación de tasas o
velocidades de cambio evolutivo para cada uno de ellos en
cada una de las especies y en sus ancestros. Trabajamos en
total con unos noventa mil genes y unas cincuenta
variables a las que aplicamos diferentes pruebas para
estimar si en el linaje humano había grupos de genes que
cumplían funciones específicas y estaban cambiando de
manera adaptativa.
51. Los resultados de trabajos similares venían siendo poco
esclarecedores y el nuestro confirmó lo mismo: que no se han
encontrado características genéticas que nos hagan distintos de
un chimpancé. Sabemos algo más después de nuestro estudio:
que desde la separación genealógica de nuestro ancestro
común, los chimpancés cambiaron su genoma de manera
adaptativa o darwiniana en mayor medida que los humanos.
Asimismo, hay evidencia de que los humanos experimentaron
cambios adaptativos mucho más relevantes en proteínas
testiculares que cerebrales. Si eso no resulta sorprendente, sí lo
es descubrir que el linaje de chimpancé tuvo muchos más
cambios adaptativos en sus proteínas cerebrales que nuestro
linaje.
El uso de casi cinco millones de datos genéticos ofreció
perspectivas desconcertantes sobre lo ocurrido en los últimos
cinco millones de años de evolución de nuestra especie. Esos
resultados, por fin verificados de manera completa, hicieron
cambiar el rumbo de las investigaciones hacia otras regiones
del genoma. En 2007 se encontraron las primeras diferencias
de constitución genética entre humanos y chimpancés en
materia de cambio de dieta y actividad cerebral, no en
proteínas sino en las regiones del genoma que regulan la
expresión de los genes.
52. DEL GEN A LA BIOLOGÍA DE SISTEMAS
Cabe preguntarse si los avances realizados en los últimos veinte años en genómica y bioinformática aplicadas a la evolución llevaron a la
biología a un estadio del conocimiento proporcionado al esfuerzo invertido. Es conveniente tener en cuenta que, en el estudio de la
evolución –y posiblemente en el resto de la biología– seguimos pensando y aplicando métodos de la era pregenómica a los nuevos datos
genómicos. Si antes aplicábamos una prueba de selección a una decena de genes, ahora lo hacemos a miles con la ayuda de la
bioinformática. Los tres ejemplos anteriores muestran esa práctica.
Sin embargo, poco a poco va calando la idea de que este enfoque no es suficiente. Los datos genómicos muestran un comportamiento de la
naturaleza que no era evidente cuando el análisis abarcaba unos pocos genes. Aquí es donde entra la biología de sistemas, una nueva rama
de la biología conocida desde hace tiempo también como biología integrativa o biología holística, que tomó impulso con la revolución
genómica. La disciplina, sin embargo, no resulta de la mera negación de la visión más simplista o reduccionista creada por razonar sobre
pocos genes, sino de considerar las características propias del sistema complejo del que ahora tenemos datos.
Para dar un ejemplo, volvamos a la comparación de genomas entre especies que cambian con relativa rapidez y constituyen casos de
adaptación molecular. En ellas, el análisis de los genes individuales con métodos anteriores a la era genómica impide conceder validez
estadística al hecho de que hay, en cada especie, funciones diferentes asociadas con el cambio adaptativo. Pero reconociendo que los genes
no son independientes, hemos sido capaces de encontrar esas diferentes funciones. Los genes que se modifican en forma más acelerada
muestran características biológicas que no pueden ser explicadas considerándolos de manera individual, como su localización en los
cromosomas, más cercanos entre ellos, o la formación de redes más apretadas, que aquellos que se modifican de manera más lenta. Es decir,
existen propiedades biológicas imposibles de explicar solo por la acción de genes individuales.