SlideShare a Scribd company logo
1 of 58
Структурное выравнивание
• Структурное выравнивание
- Структура vs Структура
- Докинг
• Структурное моделирование (Структура vs Структура)
- Homology modeling
- Fold recognition/ Threading
Structural Alignment
1) Conserved 1º sequences похожие структуры
2) Похожие структуры conserved 1º sequences
?
Почему структурное выравнивание?
• Группировка/классификация белков по структурам (по схожести)
• Определение вклада отдельных аминокислот в образование 3D
структуры
• Определение дистантных гомологов в белковых семействах
• Предсказание функции белков с низким уровнем sequence similarity
с другими белками
• Исследования:
– Структурно-функциональные отношения
– Эволюция
– Общие блокисайты связывания - мотивы
Distance Based Matrix
A B
DDM’s
• Самый простой метод сравнения структур
• Не требует ни трансформаций, ни поворотов, ни совмещений
• Очень эффективен для поиска движений в шарнирах или локальных
отличий
• Интуитивно понятная мера похожести
Совмещение структур
A B
Выравнивание структур белков
• Уровни описания структуры:
– Atom
– Group
– Fragment
– Элементы вторичной структуры (SSE)
• Описание структуры - особенности:
– Геометрия/архитектура - координаты/относительные позиции
– Топология - порядок аминокислот в белке, взаиморасположение
мотивов
– Свойства - физико-химические свойства аминокислот
6
Описание структур
Structure I Structure II
Feature Extraction
Structure
Description I
Structure
Description II
Comparison Algorithm
Constrains
Scoring
Equivalence
RMS
Scoring
Assessment
Statistical Significant? Accurate?
•Scoring Equivalences:
•Coordinate based - defined using a
transformation of one structure onto
the other:root mean square deviation –
RMSd
•Similarity of properties between
equivalenced elements -
conserved/similar amino acid
•Similarity of relations between pairs of
equivalenced elements - similar
distances, internal RMSd
•Pitfalls of RMSD:
•all atoms are treated equally
(residues on the surface have a higher
degree of freedom than those in the
core)
•best alignment does not always mean
minimal RMSD
•significance of RMSD is size
dependent
•Alternative RSMDs
•aRMSD = best root-mean-square
deviation calculated over all aligned
alpha-carbon atoms
•bRMSD = the RMSD over the highest
scoring residue pairs
•wRMSD = weighted RMSD
( W. Taylor(1999), Protein Science, 8: 654-
665.
http://www.prosci.uci.edu/Articles/Vol8/is
sue3/8272/8272.html#relat)
Поиск оптимального
выравнивания
B
• Поиск наибольшего количества атомов, выравненных с наименьшим
RMSD (Root Mean Squared Deviation)
• Поиск баланса между локальными областями с очень хорошим
выравниванием и общим выравниванием
Требования для сравнения структур
1. Какой атом структуры A соответствует другому атому структуры B?
Вариант ответа – в выравнивании последовательнсотей
THESESENTENCESALIGN----NICLEY
| | | | | | | | | | | | | | | | | | | | |
THE—SEQ--ENCE--ALIGNEDNICELY
2. Позициикоординаты атомов в структуре?
Ответ: PDB-файлы (Dihedral angles, bond lengths …)
9
How good is a particular choice ofHow good is a particular choice of
heuristic and what is theheuristic and what is the
computational cost of the search?computational cost of the search?
Локальное выравнивание
вторичных структур
Поиск первичного выравнивания двух белков при помощи динамического
программирования для векторов вторичной структуры
A B
Сопоставление атомов
• Применение жадных методов ближайшего соседа для минимизации
RMSD между Cα атомами пробы и шаблона (i.e. поиск локальных
минимумов в пространстве выравнивания)
Core Superposition
Поиск лучшего выравнивания последовательно идущих Cα атомов и
минимизация RMSD между ними
RMSD в множественном выравнивании структур
A B
RMSD без выравнивания
• 0.0-0.5 Å -> Essentially Identical
• <1.5 Å -> Very good fit
• < 5.0 Å -> Moderately good fit
• 5.0-7.0 Å -> Dubious relationship
• > 7.0 Å -> Structurally related
• > 12.0 Å -> Completely unrelated
Пример: Zinc Fingers
248 atoms RMS = 1.42Å
3znf and 4znf
30 CA atoms RMS = 0.70Å
Сервера для выравнивания
структур
• LOCK - hierarchical protein structure
Superposition
• 3dSearch - fast secondary structure
superposition
• CE - Tools for 3-D Protein Structure Comparison and Alignment
Using the Combinatorial Extension (CE) Method (no hetero atoms).
•Дополнительная информация об алгоритмах
•http://cmgm.stanford.edu/~brutlag/Papers/singh00.pdf
Алгоритмы структурного выравнивания
Distance based methods:
 DALI (Holm and Sander): Aligning scalar distance plots (similarity between the 2-D distance
matrices)
 STRUCTAL (Gerstein and Levitt): Dynamic programming using pair wise inter-molecular
distances
 SSAP (Orengo and Taylor): Dynamic programming using intra-molecular vector distances
 MINAREA (Falicov and Cohen): Minimizing soap-bubble surface area
Vector based methods:
 VAST (Bryant): Graph theory based secondary structure alignment
 3dSearch (Singh and Brutlag): Fast secondary structure index lookup
Both
 LOCK (Singh and Brutlag): Hierarchically uses both secondary structure vectors and
atomic distances
Docking и Scoring
How Do You Du(o)ck?
Ресурсы
Reviews in computational chemistry, vol. 17, 2001, 1-59
http://www.zbi.uni-
saarland.de/zbi/stud/lehrveranstaltungen/ws01/bioinfor
matikI/materialien/PL-Docking.pdf
Reviews in comp. chem., Vol 17. 2001. Ed. Kenny B.
Lipkowitz, Donald B. Boyd
Почему докинг?
Молекулярное узнавание – центральный феномен в биологии
• Ферменты ↔ Субстраты
• Рецепторы ↔ Сигналы (лиганды)
• Антитела ↔ Антигены
Классификация проблем докинга
• Докинг белок-лиганд
–Rigid-body докинг
–Flexible докинг
• Докинг белок-белок
• Докинг белок-ДНК
Проблема молекулярного докинга
Дано: две молекулы в 3D с атомарным
разрешением:
• Связываются ли они друг с другом? Если да:
• Как выглядит комплекс?
• Насколько сильно связывание?
Структуры белок-лиганд
• X-ray (PDB: 20946 entries from X-ray)
• NMR
Важность 3D структур
• Разрешение < 2.5Å
• Проблема моделирования гомологов
Основные принципы
Связывание молекул основано на взаимодействии
• H-связи, солевые мостики, гидрофобные контакты,
эдектростатические взаимодействия
• Очень сильное отталкивающее влияние VdW на
коротких дистанциях.
Случайные взаимодействия – слабые и короткие.
• Сильное связывание предполагает комплементарность
поверхностей.
Большинство молекул гибкие.
Binding Affinity
Склонность к связыванию – энергетическая
разность между связанным и свободным
состояниями.
• Среда (обычно вода) играет важную роль.
• Энтропия вносит значимый вклад.
Binding affinity описывает комплекс, а не
единичные структуры.
Applications
Оценка склонности к связыванию
• Поиск ключевых структур для белкаов
(виртуальный скрининг).
• Оценка влияния модификаций ключевых
структур.
• Дизайн лигандов De Novo.
• Создание библиотек.
Предсказание молекулярных комплексов.
• Распознавание вида связывания.
• Оптимизация ключевых структур.
Docking и Scoring
Идентификация верного
связывания лиганда с
активным сайтом
• Пробы
• Spatial DOF
• Internal DOF
Идентификация верного
связывания по
наименьшей энергии
• Функции скоринга -
оценка
Требования
Характеристки
Требования и характеристики
Требования
• Осуществить докинг и его оценку для базы
структурно различных (гипотетически) соединений.
• Идентифицировать weak binders среди non-binders.
• Идентифицировать как минимум одно соединение с
низкой IC50 mM активностью.
• Оценить ~10000 лигандов в день на процессор.
• RMS между экспериментом и моделью дока < 2Å -
допустимо.
Характеристики
• Высокий уровень false positives и false negatives.
• Отсутствие универсальной функции оценки.
False Positive и False negative
База данных – 100000 соединений, среди которых 20 -
хорошо связывающихся.
При 50% false negatives имеем 10 binders.
При 1% false positives имеем 1000 false positives.
Если мы можем лабораторными методами проверить
50 50 молекул (серьезный труд) из 1010 позитивных
хитов, то 60% за то, что мы не получим ни одного
верного соединения.
Для того, чтобы достичь 90% успеха в определении
верного хита уровень false positives должен быть 0.2%
Допустим
Что такое Docking?
• Вычислительный подход к предсказанию взаимодействий между
белками или между белками и другими молекулами (лигандами)
• Предположение: компоненты, которые хорошо стыкуются, могут и
связываться друг с другом.
• Предсказание какие протеины могут взаимодействовать друг с другом
• Предсказание сайтов для такого взаимодействия
• Автоматизированное предсказание для белок–лекарственного
взаимодействия
• Улучшение и облегчение инженерии белков и разработки лекарств (drug
design)
Docking – почему это важно?
• Биомолекулярные взаимодействия – ядро всех регуляторных и
метаболических процессов.
• Роль компьютерного анализа возрастает, поскольку растут объёмы баз
данных известных структур.
• Увеличение вычислительных мощностей позволяет производить более
детальный анализ и предсказание молекулярных взаимодействий.
• Автоматизированное предсказание молекулярных взаимодействий –
ключ к рациональной разработке новых лекарств.
Цели докинга
• Для двух заданных биомолекул определить:
1. Могут ли они взаимодействовать согласно Gibbs free energy
 Есть ли такая энергетически выгодная ориентация двух молекул,
при которой одна может модифицировать функциюсвойства
другой?
 Могут ли две молекулы «соответствовать» друг другу в каком-
либо энергетически выгодном состоянии?
1. Если могут, то какова их ориентация, которая сделает взаимодействие
максимальным при минимизации общей «энергии» комплекса?
• Цель: Найти такие молекулы в базах данных молекулярных структур.
Docking – Совмещение (Superposition)
• Найти матрицу трансформации, которая наилучшим образом
перекроет стол и стул. Иными словами найти такую
матрицу трансформации, которая минимизирует RMS
между соответствующими точками стола и стула.
• Соответствия:
• Верх стула – верх стола
• Бок стула – бок стола и т.д.
Алгоритм абсолютной ориентации
Ключ – нахождение соответствующих точек между двумя структурами
Docking – Совмещение
(Superposition)
Docking – почему это так
непросто?
Обе молекулы гибкие и могут изменять друг
друга во время взаимодействия:
• Степени свободы
• Допустимые конформации
Белок-белковое взаимодействие
• Обе молекулы рассматриваются как rigid bodies (но можно и иначе!).
• Огромная область для поиска (6 dof: 3 поворота, 3 перемещения)
• Стерические/энергетические ограничения для уменьшения области
поиска.
Полости, впадины и взаимодействие
•CASTp
Идентификация и характеризация областей на поверхности (и внутренних,
недоступных для взаимодействия) белков и иных молекул.
•MolSurfer
Белок-белковые интерфейсы
•PASS
Быстрое определение и визуализация впадин для предсказания сайтов
связывания
•Surface Racer
Расчет доступной дл явзаимодействия поверхности, её кривизны и впадин
(включая внутренние).
•SURFNET
Поверхности и доступные области на молекулярных поверхностях
•ASC
Набор скриптов для расчета поверхностей на базе PDB файла
CAPRI
• CAPRI: Critical Assessment of PRediction of Interactions
First community wide experiment on the comparative evaluation of
protein-protein docking for structure prediction
Hosted By EMBL/EBI-MSD Group
Жесткий докинг
Допущения
• Ригидный белок
• Ригидный лиганд
Применения метода
• Докинг малых или очень ригидных молекул.
• Докинг фрагментов (гибкий докинг  дизайн De
Novo).
• Докинг по базе мульти-конформеров.
The Clique Method
Сопоставляем подходящие точки/характеристики двух
молекул (рецептора и лиганда).
1. Для N сайтов рецептора и n сайтов лиганда образуем N x n узлов.
2. Для каждой пары узлов определяем Δd = D receptor sites – D ligand sites.
3. При Δd < ε, соединяем узлы линиями.
4. A clique – подграф, в котором все узлы соединены между собой.
A
B
C
D
рецептор
b
ca
лиганд
Aa
Ab
Ba
Ca Cb
Ac
BcBb
Cc
Da
Db
Dc
Distance compatibility
graph
The Dock Program
http://www.cmpharm.ucsf.edu/kuntz/dock35/dock_demo.html
X-ray structure of HIV protease Connolly surface for active site
Active site заполнен сферами. Их центры – потенциальные места
для атомов лиганда.
The Dock Program
Центры сфер соответствуют атомам
лиганда. Используя clique technique
(до 4 точек на cliques), можно
определить возможные ориентации
лиганда. Обычно генерируется
несколько десятков тысяч
ориентаций для каждой молекулы.
Лиганд представляется как
перекрывающиеся сферы
(или как атомы)
Scoring
Shape scoring – используя
аппроксимацию: Lennard-Jones
potential.
Electrostatic scoring – ПО DELPHI ,
расчет электростатического
потенциала.
Force-field scoring – потенциал
AMBER.
Модель с наивысшим
score vs X-ray структура
Гибкий докинг: Допущения
Гибкость лиганда ограничена торзионными углами +
кольцевыми структурами.
• Конформационные ансамбли
–Жесткий докинг пула конформаций для каждой
молекулы (DOCK).
• Фрагментация лиганда
–Постепенно наращиваемые конструкции (FlexX)
–«Вписываем-соединяем»
• Явный конформационный поиск
–Генетические алгоритмы (GOLD)
–Monte Carlo (LigandFit)
• Симуляции
Белок рассматривается как почти полностью жесткая
молекула
• Множественные модели белка (FlexE)
• Симуляции
Гибкий докинг: Применения
Анализ комплексов, поиск возможных
вариантов связывания.
Виртуальный скрининг по базам
малых молекул.
Incremental Construction
Стратегия
• Разбиение молекулы на фрагменты.
• Вставка одного или нескольких фрагментов в активный
сайт, игнорируя положение остальных.
• Последовательное добавление остальных фрагментов.
Стратегия поиска
• Жадный поиск: После добавления фрагмента – выбор
конформацию с наивысшей оценкой. Остальные
отбрасываем.
–Линейный масштаб от количества фрагментов.
–Без учета возможных взаимодействий между
фрагментами.
The FlexX Program
http://cartan.gmd.de/flexx/
Взаимодействия белок-лиганд описываются
типами и геометрией.
Типы взаимодействия делятся на группы и
«антигруппы».
Уровень взаимодействия - геометрия.
Чем выше уровень, тем более строгие требования к
геометрии взаимодействия.
Group Counter group Level
Hydrogen bond acceptor Hydrogen bond donor 3
Metal acceptor Metal 3
Aromatic ring atom, methyl, amide Aromatic ring center 2
Aliphatic carbons, aromatic carbons, sulfur 1
Геометрия взаимодействия
Взаимодействие между группой A лиганда и группой B
белка наблюдается, если:
1. Группа взаимодействия B находится в антигруппе A.
2. Центр взаимодействия A лежит примерно на
поверхности взаимодействия B и наоборот.
O Центр
взаимодействия
Поверхность
взаимодействия
O
H
NH-bond
donor
H-bond
acceptor
Геометрия взаимодействия
Hydrogen
bonds (3)
Hydrophobic:
Aromatic (2)
Hydrophobic:
Aliphatic (1)
Гибкость белков
• Protein flexibility and drug design: how to hit a moving target
• Несмотря на миллионы лет эволюции, создававшей
рецепторы, которые могут распознавать специфический
лиганд мы все ещё можем идентифицировать молекулы,
которые связываются с ним с большей афинностью
• Сайт связывания может взаимодействовать с множеством
молекул – существует возможность реорганизации сайта с
относительно небольшим «штрафом» для соответствия малой
молекуле.
• Двойная природа сайта связывания– высокая стабильность и
высокая гибкость (зачастую большая, чем у белка в целом).
• Парадигма «Ключ-замок» устарела. Белок – совокупность
предопределенных состояний.
Carlson/ Curr. Op. Chem. Biol. 2002, 6: 447-452.
Решения
Использование единичной структуры белка в
эксперименте докинга может пропустить возможное
взаимодействие
Cross docking
• Докинг всех лигандов на все имеющиеся структуры
белка с дальнейшим объединением в
ранжированный список.
• Ограничено имеющимися конформациями белка.
Protein flexibility
• FlexE
–Включает все комбинации структур белка.
Гибкость белков
Взаимодействие «Белок-Лиганд»
Идентификация сайтов
взаимодействия между белком (rigid
body) и подвижной, гибкой малой
молекулой (лигандом)
Очень большое поле поиска
Рассматривать лиганд как rigid body
Или как фрагменты rigid body,
соединенные гибкими связками.
Метод Монте-Карло или MD.
Лиганд
2 типа:
-Связывание средней силы, но в
конформации c минимальной свободной
энергией (most populated).
или
- Сильное связывание с менее выгодной
конформацией (less populated). Связывание
может сдвигать распределение (induced-fit
system).
Взаимодействие «белок-лиганд».
Серверы
LPC-CSU Server: Предсказание контактов «лиганд-
белок» и контактов структурных элементов
LigBase: Структурная БД сайтов связывания
Multiple Protein Structure
•Abl связывается с STI-571 в
неактивной конформации петли Abl.
•Abl связывается с PD173955 – «петля
активации» в иной конформации
(активная киназа).
Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002
MPS
Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002
Grid Based Dock Scoring
• Сначала - Расчет вероятных взаимодействий
•Построение сети – объем такой же, как и у белка
• Расчет стерических и электростатических взаимодействий
в каждой точке сети
• Ориентация лиганда – scoring суммированием
взаимодействий с точками сети
Пренебрегаем:
• электростатические взаимодействия с растворителем
• изменения энтропии
• изменения конформации белка
Drug Design
Drug Design
~6-7 лет. 3
фазы

More Related Content

Similar to Vvedenie v bioinformatiku_5_1

Анализ структуры магистральных электросетей методами теории сложных сетей
Анализ структуры магистральных электросетей  методами теории сложных сетейАнализ структуры магистральных электросетей  методами теории сложных сетей
Анализ структуры магистральных электросетей методами теории сложных сетейСергей Макрушин
 
Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...
Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...
Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...Marcus Akoev
 
структуры белков
структуры белковструктуры белков
структуры белковKonstantin German
 
Анализ топологической структуры магистральных электросетей: поиск новых моделей
Анализ топологической структуры магистральных электросетей: поиск новых моделейАнализ топологической структуры магистральных электросетей: поиск новых моделей
Анализ топологической структуры магистральных электросетей: поиск новых моделейСергей Макрушин
 
Фёдор Строк - Базы данных - SQL, ORM, NoSQL
Фёдор Строк - Базы данных - SQL, ORM, NoSQLФёдор Строк - Базы данных - SQL, ORM, NoSQL
Фёдор Строк - Базы данных - SQL, ORM, NoSQLYandex
 

Similar to Vvedenie v bioinformatiku_5_1 (9)

Vvedenie v bioinformatiku_5_3
Vvedenie v bioinformatiku_5_3Vvedenie v bioinformatiku_5_3
Vvedenie v bioinformatiku_5_3
 
Vvedenie v bioinformatiku_4
Vvedenie v bioinformatiku_4Vvedenie v bioinformatiku_4
Vvedenie v bioinformatiku_4
 
Анализ структуры магистральных электросетей методами теории сложных сетей
Анализ структуры магистральных электросетей  методами теории сложных сетейАнализ структуры магистральных электросетей  методами теории сложных сетей
Анализ структуры магистральных электросетей методами теории сложных сетей
 
Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...
Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...
Масштабирование от клиента к серверу. От РМД к хранилищам и от хранилищ к sem...
 
Sulimov 2009 10_30
Sulimov 2009 10_30Sulimov 2009 10_30
Sulimov 2009 10_30
 
структуры белков
структуры белковструктуры белков
структуры белков
 
Анализ топологической структуры магистральных электросетей: поиск новых моделей
Анализ топологической структуры магистральных электросетей: поиск новых моделейАнализ топологической структуры магистральных электросетей: поиск новых моделей
Анализ топологической структуры магистральных электросетей: поиск новых моделей
 
Фёдор Строк - Базы данных - SQL, ORM, NoSQL
Фёдор Строк - Базы данных - SQL, ORM, NoSQLФёдор Строк - Базы данных - SQL, ORM, NoSQL
Фёдор Строк - Базы данных - SQL, ORM, NoSQL
 
лекц4
лекц4лекц4
лекц4
 

More from BioinformaticsInstitute

Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsBioinformaticsInstitute
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...BioinformaticsInstitute
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкBioinformaticsInstitute
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр ПредеусBioinformaticsInstitute
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...BioinformaticsInstitute
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...BioinformaticsInstitute
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)BioinformaticsInstitute
 

More from BioinformaticsInstitute (20)

Graph genome
Graph genome Graph genome
Graph genome
 
Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
 
A superglue for string comparison
A superglue for string comparisonA superglue for string comparison
A superglue for string comparison
 
Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphs
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днк
 
Knime &amp; bioinformatics
Knime &amp; bioinformaticsKnime &amp; bioinformatics
Knime &amp; bioinformatics
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
 
Плюрипотентность 101
Плюрипотентность 101Плюрипотентность 101
Плюрипотентность 101
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
 
Biodb 2011-everything
Biodb 2011-everythingBiodb 2011-everything
Biodb 2011-everything
 
Biodb 2011-05
Biodb 2011-05Biodb 2011-05
Biodb 2011-05
 
Biodb 2011-03
Biodb 2011-03Biodb 2011-03
Biodb 2011-03
 
Biodb 2011-01
Biodb 2011-01Biodb 2011-01
Biodb 2011-01
 
Biodb 2011-02
Biodb 2011-02Biodb 2011-02
Biodb 2011-02
 
Ngs 3 1
Ngs 3 1Ngs 3 1
Ngs 3 1
 
Ngs 1 0_0
Ngs 1 0_0Ngs 1 0_0
Ngs 1 0_0
 
Ngs 2 0_0
Ngs 2 0_0Ngs 2 0_0
Ngs 2 0_0
 

Vvedenie v bioinformatiku_5_1

  • 1. Структурное выравнивание • Структурное выравнивание - Структура vs Структура - Докинг • Структурное моделирование (Структура vs Структура) - Homology modeling - Fold recognition/ Threading
  • 2. Structural Alignment 1) Conserved 1º sequences похожие структуры 2) Похожие структуры conserved 1º sequences ?
  • 3. Почему структурное выравнивание? • Группировка/классификация белков по структурам (по схожести) • Определение вклада отдельных аминокислот в образование 3D структуры • Определение дистантных гомологов в белковых семействах • Предсказание функции белков с низким уровнем sequence similarity с другими белками • Исследования: – Структурно-функциональные отношения – Эволюция – Общие блокисайты связывания - мотивы
  • 4. Distance Based Matrix A B DDM’s • Самый простой метод сравнения структур • Не требует ни трансформаций, ни поворотов, ни совмещений • Очень эффективен для поиска движений в шарнирах или локальных отличий • Интуитивно понятная мера похожести
  • 6. Выравнивание структур белков • Уровни описания структуры: – Atom – Group – Fragment – Элементы вторичной структуры (SSE) • Описание структуры - особенности: – Геометрия/архитектура - координаты/относительные позиции – Топология - порядок аминокислот в белке, взаиморасположение мотивов – Свойства - физико-химические свойства аминокислот 6
  • 7. Описание структур Structure I Structure II Feature Extraction Structure Description I Structure Description II Comparison Algorithm Constrains Scoring Equivalence RMS Scoring Assessment Statistical Significant? Accurate? •Scoring Equivalences: •Coordinate based - defined using a transformation of one structure onto the other:root mean square deviation – RMSd •Similarity of properties between equivalenced elements - conserved/similar amino acid •Similarity of relations between pairs of equivalenced elements - similar distances, internal RMSd •Pitfalls of RMSD: •all atoms are treated equally (residues on the surface have a higher degree of freedom than those in the core) •best alignment does not always mean minimal RMSD •significance of RMSD is size dependent •Alternative RSMDs •aRMSD = best root-mean-square deviation calculated over all aligned alpha-carbon atoms •bRMSD = the RMSD over the highest scoring residue pairs •wRMSD = weighted RMSD ( W. Taylor(1999), Protein Science, 8: 654- 665. http://www.prosci.uci.edu/Articles/Vol8/is sue3/8272/8272.html#relat)
  • 8. Поиск оптимального выравнивания B • Поиск наибольшего количества атомов, выравненных с наименьшим RMSD (Root Mean Squared Deviation) • Поиск баланса между локальными областями с очень хорошим выравниванием и общим выравниванием
  • 9. Требования для сравнения структур 1. Какой атом структуры A соответствует другому атому структуры B? Вариант ответа – в выравнивании последовательнсотей THESESENTENCESALIGN----NICLEY | | | | | | | | | | | | | | | | | | | | | THE—SEQ--ENCE--ALIGNEDNICELY 2. Позициикоординаты атомов в структуре? Ответ: PDB-файлы (Dihedral angles, bond lengths …) 9 How good is a particular choice ofHow good is a particular choice of heuristic and what is theheuristic and what is the computational cost of the search?computational cost of the search?
  • 10. Локальное выравнивание вторичных структур Поиск первичного выравнивания двух белков при помощи динамического программирования для векторов вторичной структуры A B
  • 11. Сопоставление атомов • Применение жадных методов ближайшего соседа для минимизации RMSD между Cα атомами пробы и шаблона (i.e. поиск локальных минимумов в пространстве выравнивания)
  • 12. Core Superposition Поиск лучшего выравнивания последовательно идущих Cα атомов и минимизация RMSD между ними
  • 13. RMSD в множественном выравнивании структур A B
  • 14. RMSD без выравнивания • 0.0-0.5 Å -> Essentially Identical • <1.5 Å -> Very good fit • < 5.0 Å -> Moderately good fit • 5.0-7.0 Å -> Dubious relationship • > 7.0 Å -> Structurally related • > 12.0 Å -> Completely unrelated
  • 15. Пример: Zinc Fingers 248 atoms RMS = 1.42Å 3znf and 4znf 30 CA atoms RMS = 0.70Å
  • 16. Сервера для выравнивания структур • LOCK - hierarchical protein structure Superposition • 3dSearch - fast secondary structure superposition • CE - Tools for 3-D Protein Structure Comparison and Alignment Using the Combinatorial Extension (CE) Method (no hetero atoms). •Дополнительная информация об алгоритмах •http://cmgm.stanford.edu/~brutlag/Papers/singh00.pdf
  • 17. Алгоритмы структурного выравнивания Distance based methods:  DALI (Holm and Sander): Aligning scalar distance plots (similarity between the 2-D distance matrices)  STRUCTAL (Gerstein and Levitt): Dynamic programming using pair wise inter-molecular distances  SSAP (Orengo and Taylor): Dynamic programming using intra-molecular vector distances  MINAREA (Falicov and Cohen): Minimizing soap-bubble surface area Vector based methods:  VAST (Bryant): Graph theory based secondary structure alignment  3dSearch (Singh and Brutlag): Fast secondary structure index lookup Both  LOCK (Singh and Brutlag): Hierarchically uses both secondary structure vectors and atomic distances
  • 19. How Do You Du(o)ck?
  • 20. Ресурсы Reviews in computational chemistry, vol. 17, 2001, 1-59 http://www.zbi.uni- saarland.de/zbi/stud/lehrveranstaltungen/ws01/bioinfor matikI/materialien/PL-Docking.pdf Reviews in comp. chem., Vol 17. 2001. Ed. Kenny B. Lipkowitz, Donald B. Boyd
  • 21. Почему докинг? Молекулярное узнавание – центральный феномен в биологии • Ферменты ↔ Субстраты • Рецепторы ↔ Сигналы (лиганды) • Антитела ↔ Антигены Классификация проблем докинга • Докинг белок-лиганд –Rigid-body докинг –Flexible докинг • Докинг белок-белок • Докинг белок-ДНК
  • 22. Проблема молекулярного докинга Дано: две молекулы в 3D с атомарным разрешением: • Связываются ли они друг с другом? Если да: • Как выглядит комплекс? • Насколько сильно связывание? Структуры белок-лиганд • X-ray (PDB: 20946 entries from X-ray) • NMR Важность 3D структур • Разрешение < 2.5Å • Проблема моделирования гомологов
  • 23. Основные принципы Связывание молекул основано на взаимодействии • H-связи, солевые мостики, гидрофобные контакты, эдектростатические взаимодействия • Очень сильное отталкивающее влияние VdW на коротких дистанциях. Случайные взаимодействия – слабые и короткие. • Сильное связывание предполагает комплементарность поверхностей. Большинство молекул гибкие.
  • 24. Binding Affinity Склонность к связыванию – энергетическая разность между связанным и свободным состояниями. • Среда (обычно вода) играет важную роль. • Энтропия вносит значимый вклад. Binding affinity описывает комплекс, а не единичные структуры.
  • 25. Applications Оценка склонности к связыванию • Поиск ключевых структур для белкаов (виртуальный скрининг). • Оценка влияния модификаций ключевых структур. • Дизайн лигандов De Novo. • Создание библиотек. Предсказание молекулярных комплексов. • Распознавание вида связывания. • Оптимизация ключевых структур.
  • 26. Docking и Scoring Идентификация верного связывания лиганда с активным сайтом • Пробы • Spatial DOF • Internal DOF Идентификация верного связывания по наименьшей энергии • Функции скоринга - оценка Требования Характеристки
  • 27. Требования и характеристики Требования • Осуществить докинг и его оценку для базы структурно различных (гипотетически) соединений. • Идентифицировать weak binders среди non-binders. • Идентифицировать как минимум одно соединение с низкой IC50 mM активностью. • Оценить ~10000 лигандов в день на процессор. • RMS между экспериментом и моделью дока < 2Å - допустимо. Характеристики • Высокий уровень false positives и false negatives. • Отсутствие универсальной функции оценки.
  • 28. False Positive и False negative База данных – 100000 соединений, среди которых 20 - хорошо связывающихся. При 50% false negatives имеем 10 binders. При 1% false positives имеем 1000 false positives. Если мы можем лабораторными методами проверить 50 50 молекул (серьезный труд) из 1010 позитивных хитов, то 60% за то, что мы не получим ни одного верного соединения. Для того, чтобы достичь 90% успеха в определении верного хита уровень false positives должен быть 0.2% Допустим
  • 29. Что такое Docking? • Вычислительный подход к предсказанию взаимодействий между белками или между белками и другими молекулами (лигандами) • Предположение: компоненты, которые хорошо стыкуются, могут и связываться друг с другом. • Предсказание какие протеины могут взаимодействовать друг с другом • Предсказание сайтов для такого взаимодействия • Автоматизированное предсказание для белок–лекарственного взаимодействия • Улучшение и облегчение инженерии белков и разработки лекарств (drug design)
  • 30. Docking – почему это важно? • Биомолекулярные взаимодействия – ядро всех регуляторных и метаболических процессов. • Роль компьютерного анализа возрастает, поскольку растут объёмы баз данных известных структур. • Увеличение вычислительных мощностей позволяет производить более детальный анализ и предсказание молекулярных взаимодействий. • Автоматизированное предсказание молекулярных взаимодействий – ключ к рациональной разработке новых лекарств.
  • 31. Цели докинга • Для двух заданных биомолекул определить: 1. Могут ли они взаимодействовать согласно Gibbs free energy  Есть ли такая энергетически выгодная ориентация двух молекул, при которой одна может модифицировать функциюсвойства другой?  Могут ли две молекулы «соответствовать» друг другу в каком- либо энергетически выгодном состоянии? 1. Если могут, то какова их ориентация, которая сделает взаимодействие максимальным при минимизации общей «энергии» комплекса? • Цель: Найти такие молекулы в базах данных молекулярных структур.
  • 32. Docking – Совмещение (Superposition) • Найти матрицу трансформации, которая наилучшим образом перекроет стол и стул. Иными словами найти такую матрицу трансформации, которая минимизирует RMS между соответствующими точками стола и стула. • Соответствия: • Верх стула – верх стола • Бок стула – бок стола и т.д.
  • 33. Алгоритм абсолютной ориентации Ключ – нахождение соответствующих точек между двумя структурами Docking – Совмещение (Superposition)
  • 34. Docking – почему это так непросто? Обе молекулы гибкие и могут изменять друг друга во время взаимодействия: • Степени свободы • Допустимые конформации
  • 35. Белок-белковое взаимодействие • Обе молекулы рассматриваются как rigid bodies (но можно и иначе!). • Огромная область для поиска (6 dof: 3 поворота, 3 перемещения) • Стерические/энергетические ограничения для уменьшения области поиска.
  • 36. Полости, впадины и взаимодействие •CASTp Идентификация и характеризация областей на поверхности (и внутренних, недоступных для взаимодействия) белков и иных молекул. •MolSurfer Белок-белковые интерфейсы •PASS Быстрое определение и визуализация впадин для предсказания сайтов связывания •Surface Racer Расчет доступной дл явзаимодействия поверхности, её кривизны и впадин (включая внутренние). •SURFNET Поверхности и доступные области на молекулярных поверхностях •ASC Набор скриптов для расчета поверхностей на базе PDB файла
  • 37. CAPRI • CAPRI: Critical Assessment of PRediction of Interactions First community wide experiment on the comparative evaluation of protein-protein docking for structure prediction Hosted By EMBL/EBI-MSD Group
  • 38. Жесткий докинг Допущения • Ригидный белок • Ригидный лиганд Применения метода • Докинг малых или очень ригидных молекул. • Докинг фрагментов (гибкий докинг  дизайн De Novo). • Докинг по базе мульти-конформеров.
  • 39. The Clique Method Сопоставляем подходящие точки/характеристики двух молекул (рецептора и лиганда). 1. Для N сайтов рецептора и n сайтов лиганда образуем N x n узлов. 2. Для каждой пары узлов определяем Δd = D receptor sites – D ligand sites. 3. При Δd < ε, соединяем узлы линиями. 4. A clique – подграф, в котором все узлы соединены между собой. A B C D рецептор b ca лиганд Aa Ab Ba Ca Cb Ac BcBb Cc Da Db Dc Distance compatibility graph
  • 40. The Dock Program http://www.cmpharm.ucsf.edu/kuntz/dock35/dock_demo.html X-ray structure of HIV protease Connolly surface for active site Active site заполнен сферами. Их центры – потенциальные места для атомов лиганда.
  • 41. The Dock Program Центры сфер соответствуют атомам лиганда. Используя clique technique (до 4 точек на cliques), можно определить возможные ориентации лиганда. Обычно генерируется несколько десятков тысяч ориентаций для каждой молекулы. Лиганд представляется как перекрывающиеся сферы (или как атомы) Scoring Shape scoring – используя аппроксимацию: Lennard-Jones potential. Electrostatic scoring – ПО DELPHI , расчет электростатического потенциала. Force-field scoring – потенциал AMBER. Модель с наивысшим score vs X-ray структура
  • 42. Гибкий докинг: Допущения Гибкость лиганда ограничена торзионными углами + кольцевыми структурами. • Конформационные ансамбли –Жесткий докинг пула конформаций для каждой молекулы (DOCK). • Фрагментация лиганда –Постепенно наращиваемые конструкции (FlexX) –«Вписываем-соединяем» • Явный конформационный поиск –Генетические алгоритмы (GOLD) –Monte Carlo (LigandFit) • Симуляции Белок рассматривается как почти полностью жесткая молекула • Множественные модели белка (FlexE) • Симуляции
  • 43. Гибкий докинг: Применения Анализ комплексов, поиск возможных вариантов связывания. Виртуальный скрининг по базам малых молекул.
  • 44. Incremental Construction Стратегия • Разбиение молекулы на фрагменты. • Вставка одного или нескольких фрагментов в активный сайт, игнорируя положение остальных. • Последовательное добавление остальных фрагментов. Стратегия поиска • Жадный поиск: После добавления фрагмента – выбор конформацию с наивысшей оценкой. Остальные отбрасываем. –Линейный масштаб от количества фрагментов. –Без учета возможных взаимодействий между фрагментами.
  • 45. The FlexX Program http://cartan.gmd.de/flexx/ Взаимодействия белок-лиганд описываются типами и геометрией. Типы взаимодействия делятся на группы и «антигруппы». Уровень взаимодействия - геометрия. Чем выше уровень, тем более строгие требования к геометрии взаимодействия. Group Counter group Level Hydrogen bond acceptor Hydrogen bond donor 3 Metal acceptor Metal 3 Aromatic ring atom, methyl, amide Aromatic ring center 2 Aliphatic carbons, aromatic carbons, sulfur 1
  • 46. Геометрия взаимодействия Взаимодействие между группой A лиганда и группой B белка наблюдается, если: 1. Группа взаимодействия B находится в антигруппе A. 2. Центр взаимодействия A лежит примерно на поверхности взаимодействия B и наоборот. O Центр взаимодействия Поверхность взаимодействия O H NH-bond donor H-bond acceptor
  • 48. Гибкость белков • Protein flexibility and drug design: how to hit a moving target • Несмотря на миллионы лет эволюции, создававшей рецепторы, которые могут распознавать специфический лиганд мы все ещё можем идентифицировать молекулы, которые связываются с ним с большей афинностью • Сайт связывания может взаимодействовать с множеством молекул – существует возможность реорганизации сайта с относительно небольшим «штрафом» для соответствия малой молекуле. • Двойная природа сайта связывания– высокая стабильность и высокая гибкость (зачастую большая, чем у белка в целом). • Парадигма «Ключ-замок» устарела. Белок – совокупность предопределенных состояний. Carlson/ Curr. Op. Chem. Biol. 2002, 6: 447-452.
  • 49. Решения Использование единичной структуры белка в эксперименте докинга может пропустить возможное взаимодействие Cross docking • Докинг всех лигандов на все имеющиеся структуры белка с дальнейшим объединением в ранжированный список. • Ограничено имеющимися конформациями белка. Protein flexibility • FlexE –Включает все комбинации структур белка.
  • 51. Взаимодействие «Белок-Лиганд» Идентификация сайтов взаимодействия между белком (rigid body) и подвижной, гибкой малой молекулой (лигандом) Очень большое поле поиска Рассматривать лиганд как rigid body Или как фрагменты rigid body, соединенные гибкими связками. Метод Монте-Карло или MD.
  • 52. Лиганд 2 типа: -Связывание средней силы, но в конформации c минимальной свободной энергией (most populated). или - Сильное связывание с менее выгодной конформацией (less populated). Связывание может сдвигать распределение (induced-fit system).
  • 53. Взаимодействие «белок-лиганд». Серверы LPC-CSU Server: Предсказание контактов «лиганд- белок» и контактов структурных элементов LigBase: Структурная БД сайтов связывания
  • 54. Multiple Protein Structure •Abl связывается с STI-571 в неактивной конформации петли Abl. •Abl связывается с PD173955 – «петля активации» в иной конформации (активная киназа). Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002
  • 55. MPS Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002
  • 56. Grid Based Dock Scoring • Сначала - Расчет вероятных взаимодействий •Построение сети – объем такой же, как и у белка • Расчет стерических и электростатических взаимодействий в каждой точке сети • Ориентация лиганда – scoring суммированием взаимодействий с точками сети Пренебрегаем: • электростатические взаимодействия с растворителем • изменения энтропии • изменения конформации белка

Editor's Notes

  1. When it is possible.
  2. Устное объяснение
  3. Устное объяснение