Este documento presenta las respuestas de Igor García Atutxa a 10 preguntas iniciales sobre biología estructural de proteínas. Luego, describe una actividad en la que utiliza varias bases de datos como SCOP2, CATH, INTERPRO y PFAM para buscar información sobre la clasificación y funciones de diferentes proteínas y dominios proteicos. Finalmente, analiza el dominio básico-leucina zipper en PROSITE.
3. Biologı́a Estructural Igor Garcı́a Atutxa
1. Preguntas iniciales
1. ¿Por qué es tan importante que una proteı́na esté bien plegada?
Para que sea capaz de cumplir con eficacia la función biológica que le corres-
ponde.
2. ¿Qué consecuencias puede traer un mal plegado de una proteı́na?
Pon algún ejemplo.
Puede ocasionar enfermedades, tales como, Alzheimer, Parkinson y muchos
tipos de cáncer.
3. ¿Qué se conserva más a lo largo de la evolución, la estructura
tridimensional o la secuencia de una proteı́na? Razonad la
respuesta.
Las estructura tridimensional, ya que es lo que le dota de una función biológi-
ca a la proteı́na. Las cadenas que no cumplan estas funciones se acabarı́an
perdiendo por evolución, debido a que no serı́an útiles.
4. ¿Qué técnicas existen para estudiar el plegamiento de las pro-
teı́nas?
La espectroscopia de dicroı́smo circular, la interferometrı́a de polarización
dual, el dicroı́smo circular vibracional de proteı́nas (VCD) o simulaciones de
dinámica molecular (DM).
5. ¿Qué son las estructuras supersecundarias?
En muchas proteı́nas diferentes se observan agrupaciones compactas de un
número reducido de tramos con estructura secundaria que siempre se man-
tienen asociados de la misma manera. Estos elementos comunes, que luego
forman parte de distintas estructuras terciarias, se conocen como estructuras
supersecundarias.
6. ¿De qué están formadas y cómo interaccionan las cremalleras de
leucina? Nombrar su función
Están formadas por dos hélices alfa yuxtapuestas y regulan la expresión géni-
ca. Es decir, asegura que los genes apropiados se expresen en los momentos
precisos.
7. ¿Qué clase de estructura otorga función catalı́tica a una proteı́na?
Un dominio catalı́tico.
2
4. Biologı́a Estructural Igor Garcı́a Atutxa
8. ¿Qué es una familia de proteı́nas ortólogas? ¿Cómo se forma?
Son proteı́nas de distintas especies que cumplen la misma función. Estas fa-
milias se forman cuando especies descendientes de una misma especie, sufren
mutaciones independientes en un gen o proteı́na.
9. ¿Qué diferencia hay entre una familia y una superfamilia?
Las proteı́nas de una misma familia tienen secuencias similares, en cambio,
las de una superfamilia tienen secuencias distintas.
10. ¿Qué son y cuál se piensa que es el origen de las proteı́nas
multidominio?
Las proteı́nas multidominio son proteı́nas formadas por varios dominios,
donde cada uno de los cuales puede cumplir su función de forma
independiente. Se cree que estos dominios, que forman parte de las
proteı́nas multidominio, podrı́an haber existido inicialmente como proteı́nas
independientes y que acabaron formando proteı́nas multidominio para crear
nuevas funciones.
3
5. Biologı́a Estructural Igor Garcı́a Atutxa
2. Actividad
a) Comenzaremos trabajando con la base de datos SCOP2.
¿Qué es SCOP2? Haced una breve descripción de esta base de
datos.
SCOP2 es una base de datos que tiene como objetivo proporcionar una
descripción detallada y completa de las relaciones estructurales y evo-
lutivas entre todas las proteı́nas cuya estructura se conoce. Proporciona
un estudio amplio de todos los pliegues de proteı́nas conocidos, infor-
mación detallada sobre los parientes cercanos de cualquier proteı́na en
particular.
En base a las estadı́sticas, ¿cuál es el contenido (número de
PDBs, folds, superfamı́lias y familias) de esta base de datos?
ˆ PDBs: PDB, UniProt y SIFTS.
ˆ Folds: 1.549
ˆ Superfamilias: 2.783
ˆ Familias: 5.840
¿Cómo se estructura el contenido de la base de datos?
El contenido de la base de datos se distribuye en clases estructurales y
tipos de proteı́nas.
¿Qué clase tiene el número más grande de folds? Pon un
ejemplo que pertenezca a esta clase.
Proteı́nas alfa y beta (a+b), tiene 546 folds, entre ellos beta-Grasp.
Buscad en SCOP2 la superfamilia tRNA-binding arm:
¿A qué clase estructural y fold pertenece?
Pertenece al fold long alpha-hairpin de clase estructural all alpha pro-
teins.
¿Cuántas familias tiene esta superfamilia?
Cuatro familias.
¿Cuántos dominios de proteı́nas tiene la familia de Seryl-
tRNA synthetase (SerRS)?
Solamente uno.
Buscad dos proteı́nas que pertenecen a esta superfamilia
(escribid su código PDB y su código Uniprot).
4
6. Biologı́a Estructural Igor Garcı́a Atutxa
ˆ Serine–tRNA ligase. Código PDB es 1SET y el código Uniprot es
P34945.
ˆ Valine–tRNA ligase. Código PDB es 1IVS y el código Uniprot es
P96142.
Buscad ahora la proteı́na con código 2C0K
¿A qué clase, fold, familia y superfamilia pertenece? ¿Qué
funciones importantes realizan las proteı́nas de esta familia?
Pertenece a la familia globins, a la superfamilia globin-like, al fold globin-
like y a la clase all alpha proteins. Su función es functionally relevant
complex structure(s) determined.
b) Ahora trabajaremos con la base de datos CATH:
¿Qué es CATH?
Es una base de datos que clasifica estructuras de proteı́nas descargadas
del Protein Data Bank. Agrupa dominios de proteı́nas en superfamilias
cuando hay evidencia de que provienen de un ancestro común.
Describid brevemente los primeros niveles de la jerarquı́a
CATH.
ˆ Clase (C). Contenido general de la estructura secundaria del
dominio.
ˆ Arquitectura (A). Alta similitud estructural pero sin evidencia de
homologı́a.
ˆ Topologı́a/Fold (T). Una agrupación a gran escala de topologı́as
que comparten caracterı́sticas estructurales particulares.
ˆ Superfamilia homóloga (H). Indica una relación evolutiva demos-
trable.
Vamos a buscar la superfamilia del PDB: 1JLV, el glutatión
S-transferasa de Anopheles dirus.
Figura 1: Superfamilia glutatión S-transferasa.
5
7. Biologı́a Estructural Igor Garcı́a Atutxa
Explorad la página de CATH para encontrar una lista de
proteı́nas que son miembros de esta superfamilia. Tomad una
captura de pantalla de esta lista.
Figura 2: Listado proteı́nas.
¿A qué superfamilia homóloga pertenece? ¿A qué topologı́a
corresponde?
Pertenece a la familia homóloga 1.20.1050.10. Corresponde a la topo-
logı́a Glutathione S-transferase Yfyf (Class Pi); Chain A, domain 2.
¿Qué caracterı́sticas estructurales (estructura secundaria)
tiene esta topologı́a? Haced una captura de pantalla para
explicarlo.
Contiene solo hélices alpha.
Figura 3: Topologı́a Glutathione S-transferase Yfyf (Class Pi); Chain A, domain
2.
Explorad para encontrar cinco proteı́nas de esta superfamilia
que catalizan reacciones distintas a la catalizada por la
Chloride intracellular channel 2.
¿Qué nombre recibe la familia funcional de 5FHI?
Familia p64.
6
8. Biologı́a Estructural Igor Garcı́a Atutxa
Para estudiar el plegamiento TIM barrel utilizaremos esta base de datos.
Iremos a la opción Browse y entraremos en la clase Alpha-Beta. Escogemos
la arquitectura Alpha-Beta Barrel. Escogemos la topologı́a TIM Barrel.
¿Qué caracterı́sticas tiene esta topologı́a?
Consiste en ocho hélices alfa y ocho láminas beta paralelas que se al-
ternan en el esqueleto de la proteı́na. Formada por 34 superfamilias y
17.384 dominios.
¿Cuántas superfamilias homólogas tiene el plegamiento TIM
Barrel? ¿Son funcionalmente distintas? Explicad por qué.
Tiene 34 superfamilias homólogas. Son funcionalmente distintas, porque
tienen distinta actividad enzimática (aldolasa, glucosilasa, mutasa...).
Escogemos la superfamilia homóloga de Alanine Racemase:
¿Qué caracterı́sticas estructurales tiene esta superfamilia?
Clase Alpha-Beta, arquitectura Alpha-Beta Barrel y topologı́a TIM Ba-
rrel.
¿Cuántos dominios de secuencia con más de 35 % de identidad
están incluidas?
311 dominios.
¿Cuántas familias funcionales tiene?
Tiene 93 familias funcionales.
Ahora buscad en CATH el PDB: 3EJU (clase Alpha-Beta)
¿A qué superfamilia pertenece? ¿A qué topologı́a?
Superfamilia Glycoside hydrolase 38, N terminal domain (3.20.110.10).
Topologı́a 7-stranded beta/alpha barrel (3.20.110).
¿Como es de distinta la topologı́a (composición de alfas y be-
tas) de otras estructuras Alpha-Beta Barrel? ¿Por qué?
¿Cuántos grupos de familias funcionales tiene esta superfami-
lia?
Tiene 45 familias funcionales.
c) Comparad las dos bases de datos teniendo en cuenta todo lo
anterior.
7
9. Biologı́a Estructural Igor Garcı́a Atutxa
¿Cuáles son las principales diferencias entre ellas respecto a la
automatización, la organización y la definición de dominio?
Las dos bases de datos clasificacion sus dominios de forma diferente:
SCOP clasifica los dominios de proteı́nas en clases, pliegues, superfa-
milias y familias, mientras que los cuatro niveles principales de CATH
son clase, arquitectura, topologı́a y superfamilia homóloga.
El proceso de construcción de CATH contiene más pasos automáticos y
menos intervención humana en comparación con SCOP. Otra diferencia
es que SCOP tiende a dividir los dominios en menos componentes pero
más grandes que CATH.
¿Cuáles son las coincidencias entre las dos bases de datos?
Tanto SCOP como CATH comienzan en el nivel de clase definiendo tres
clases principales de contenido de estructura secundaria (todo α, todo
β y α/β).
Por otro lado, el nivel de topologı́a de CATH es análogo al nivel de
pliegue SCOP y agrupa estructuras que tienen un número y disposición
similar de elementos de estructura secundaria con la misma conectivi-
dad.
¿Creéis que un método de clasificación es mejor que el otro?
Razonad vuestra respuesta.
Prefiero la base de datos de SCOP, ya que CATH no toma en cuenta
la conectividad y SCOP sı́. Además, la base de datos SCOP se basa
principalmente en conocimientos de expertos.
d) Abrid INTERPRO:
¿Qué es INTERPRO? ¿Qué información nos ofrece?
Es una base de datos de familias, dominios y sitios funcionales de pro-
teı́nas en donde las caracterı́sticas identificables encontradas en pro-
teı́nas conocidas pueden ser aplicadas a nuevas secuencias de proteı́nas.
¿A qué dominio pertenece la secuencia?
HIT-like domain.
¿A qué familia de INTERPRO pertenece este dominio
estructural?
Histidine triad (HIT).
¿En qué función molecular está involucrada esta proteı́na?
8
10. Biologı́a Estructural Igor Garcı́a Atutxa
Actividad catalı́tica.
e) Abrid la base de datos PFAM:
¿Qué es Pfam?
Es una base de datos que reúne una amplia colección de alineamientos
múltiples de secuencias y modelos ocultos de Márkov que cubre buena
parte de dominios proteicos y familias comunes.
¿Cuántas familias tiene Pfam?
19.179 familias.
Ahora, con la herramienta Sequence Search identificad el
dominio mas largo de las siguientes secuencias, su función
biológica y también a qué clase, fold y familia pertenecen según
SCOP.
No se pueden ejecutar las secuencias por un error en la web.
f) Ahora trabajaremos con PROSITE. El motivo cremallera de leucina
(leucine-zipper) se observa en muchos factores de transcripción. Busca en
PROSITE basic-leucine zipper, escoge el dominio Basic-leucine zipper (bZIP)
domain signature and profile y responde las siguientes preguntas:
¿En qué sitio hacen unión este tipo de dominios?¿Cuál es su
función?
En un sitio palindrómico de 6 nucleótidos, aunque podrı́a alterarse. Su
función es la de permitir la dimerización en paralelo y doblar las hélices
para que el nuevo dı́mero funcional forme una bifurcación flexible donde
los dominios básicos, puedan interactuar con el ADN.
¿Qué tipo de proteı́nas tiene este dominio?
Proteı́nas involucradas en la expresión génica.
Escoged una estructura PDB con este dominio de las que cita
PROSITE y poned una imagen.
9
11. Biologı́a Estructural Igor Garcı́a Atutxa
Figura 4: Estructura PDB 1A02.
Describid brevemente el dominio en base a su estructura
secundaria y justificad su función según la estructura que
tiene.
Su función es la de permitir la dimerización en paralelo y doblar las
hélices para que el nuevo dı́mero funcional forme una bifurcación flexi-
ble donde los dominios básicos, puedan interactuar con el ADN.
g) Visualización de la estructura en PDB. Buscaremos el PDB: 5HEX.
En la pestaña 3DView (Structure) de PDB podemos encontrar
el visor de moléculas para manipular la proteı́na. Visualizaremos
5HEX (hexokinasa) con JSMol (abajo a la derecha encontraréis
como cambiar de visualizador). Esto es lo primero que veréis:
Figura 5: Vista 3D con el visualizador JSMol de 5HEX.
A partir de su estructura secundaria,
10
12. Biologı́a Estructural Igor Garcı́a Atutxa
¿podemos deducir a qué clase estructural pertenece 5HEX?
Pertenece a la clase Alpha Beta.
Una vez tengáis el programa bajo control, reproducid las
siguientes estructuras (fig.A,B,C,D,E,F) y plasmad vuestro
propio dibujo.
Figura 6: Style = Space Fill, Color
= Secondary Structure
Figura 7: Style = Black bone, Color
= By Chain
Figura 8: Style = Ribbon, Color =
By Chain
Figura 9: Style = Trace, Color = By
Amino Acid
Figura 10: Style = Ligands and
Pocket, Color = Secondary Structure
11
13. Biologı́a Estructural Igor Garcı́a Atutxa
Indicad qué opciones del programa habéis activado para
lograrlo y qué estáis viendo realmente al hacerlo:
ˆ Figura 6. Opciones Style = Space Fill, Color = Secondary Structure.
ˆ Figura 7. Opciones Style = Black bone, Color = By Chain.
ˆ Figura 8. Opciones Style = Ribbon, Color = By Chain.
ˆ Figura 9. Opciones Style = Trace, Color = By Amino Acid.
ˆ Figura 10. Opciones Style = Ligands and Pocket, Color = Secon-
dary Structure.
¿Podéis encontrar la manera de que gire automáticamente la
proteı́na? ¿Cómo?
En el visualizador Mol* vamos a settings/controls info y ponemos a on
el campo spin.
h) Ahora visualizad la estructura PDB: 4GLC
Es la estructura de una molécula de ADN determinada por rayos X. Podéis
ver la estructura en forma de doble hélice, las bases complementarias
apareadas.
Buscad las hendiduras mayor y menor y mostrad el dibujo.
Figura 11: Hendidura menor y hendidura mayor.
12
14. Biologı́a Estructural Igor Garcı́a Atutxa
¿Podéis calcular el tamaño de estas hendiduras con el
programa gráficamente?
Figura 12: Tamaño de las hendiduras utilizando el visualizador Mol*.
¿Cómo visualizáis los enlaces de puente de hidrógeno entre las
bases apareadas?
Figura 13: Adenina y timina unidas a través de dos puentes de hidrógeno
(rectángulo azul), guanina y citosina unidas con tres (rectángulo verde).
13