Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
1. Сборка генома: мифы и
реальность
Царев Ф. Н., канд. техн. наук, доцент
кафедры «Компьютерные технологии»
III Всероссийский конгресс молодых
ученых
Санкт-Петербург, 08.04.2014
10. 10
Геном
• Совокупность всей
наследственной
информации организма
• Как правило –
закодирован в молекуле
ДНК (у некоторых вирусов
– РНК)
• Двойная спираль
• Четыре типа оснований:
– A – аденин
– T – тимин
– G – гуанин
– C – цитозин
11.
12. 12
Размеры геномов
Тип Организм Размер генома Комментарий
Virus
Bacteriophage
MS2
3,569 3.5kb
Первый прочитанный
РНК-геном
Virus
Phage Φ-
X174
5,386 5.4kb
Первый прочитанный
ДНК-геном
Bacterium
Escherichia
coli
4,600,000 4.6Mb
Plant
Arabidopsis
thaliana
157,000,000 157Mb
Mammal Homo sapiens 3,200,000,000 3.2Gb
Fish
Protopterus
aethiopicus
130,000,000,000 130Gb
Самый большой
известный геном
позвоночного
Plant Paris japonica 150,000,000,000 150Gb
Самый большой
известный геном
растения
13. С 1990 года по 2001 год
3 000 000 000 «букв»
$3 000 000 000
Проект «Геном
человека»
14.
15. • Геном одного человека отличается от генома
другого человека примерно в одном из 1000
символов
• Эти 0.1% отвечает за все различия между
людьми
…CTGATGATGGACTACGCTACTACTGCTAGCTGTAT
TACGATCAGCTACCACATCGTAGCTACGATGCATTA
GGATCGCGGGACTATTATCGACTACAGATAAAACAT
GCTAGTACAACAGTATACATAGCTGCGGGATACGAT
TAGCTAATAGCTGACGATATCCGA…
…CTGATGATGGACTACGCTACTACTGCTAGCTGTAT
TACGATCAGCTACAACATCGTAGCTACGATGCATTA
GGATCGCGTGACTATTATCGACTACAGATGAAACAT
GCTAGTACAACAGTATACATAGCTGCGGGATACGAT
TAGCTAATAGCTGACGATATCCGA…
Геном человека
25. Задача сборки генома
• Исходные данные –
набор чтений
• Результат – геномная
последовательность
• Проблема – не знаем
из какой части генома
прочитано каждое
чтение
25
26. Объем данных
• Геном человека – 3 млрд.
символов
• Покрытие чтениями – 40 раз
• 120 Гб информации
27. Закон Мура – за 18
месяцев компьютеры
становятся в 2 раза
быстрее
Секвенаторы – в 10 раз
Разработка алгоритмов сборки геномных последовательностей для вычислительных систем
экзафлопсного уровня производительности
28. Мифы о сборке генома
• Миф №1. Собрать геном – это просто
• Миф №2. Есть понимание, что значит
«собрать геном»
• Миф №3. Существующие программы
для сборки генома хорошо его
собирают
28
31. Эйлеров путь в графе
• Путь, который проходит
по каждому ребру ровно
один раз
• Существует способ
быстро определить, есть
ли в графе такой путь
31
32. Секвенирование с помощью ДНК-
чипов
• С помощью чипа
можно определить,
содержит ли геном
некоторую заданную
подстроку
• Зафиксируем длину
строки k
• Рассмотрим чип для
всех 4k строк длины k
32
33. 33
Граф де Брёйна
• Ориентированный граф
• Вершины = строки
длины (k-1)
• Ребра = строки длины k
• Эйлеров путь в этом
графе соответствует
геномной
последовательности
38. Математические модели сборки
генома
• Наименьшая общая надстрока
• Эйлеров путь в графе де Брейна
• Кратчайший суперпуть в графе де Брейна
• Суперпуть в графе де Брейна с кратностями
• Путь в парном графе де Брейна
• Не учитывают ошибки секвенирования!
38
68. Сложность сборки генома для
различных моделей
• Наименьшая общая надстрока – NP-трудная
(Gallant et al., 1980)
• Эйлеров путь в графе де Брейна – решается за
время, пропорциональное размеру входных
данных (Pevzner et al., 1989)
• Суперпуть в графе де Брейна – NP-трудная
(Medvedev et al., 2007)
• Суперпуть в графе де Брейна с кратностями –
NP-трудная (Kapun and Tsarev, 2013)
• Путь в парном графе де Брейна – NP-трудная
(Kapun and Tsarev, 2013) 68
69. NP-трудность задачи сборки генома
на графе де Брёйна с кратностями
• Открытая задача с 2009 года
• Результаты работы представлены на
конференции RECOMB-Seq 2013 и
опубликованы в журнале BMC Bioinformatics
69
70. NP-трудность задачи сборки генома
на парном графе де Брёйна
• Открытая задача с 2011 года
• Результаты работы представлены на
семинаре WABI в рамках конференции ALGO
2013
70
72. Как работают сборщики геномов?
• Основаны на эвристических или
приближенных алгоритмах
• Собирают не целую геномную
последовательность, а контиги и
скэффолды
• Распространенные метрики сборки генома
мало связаны с качеством сборки
72
74. Скэффолд
• Скэффолд – последовательность контигов, для
которых известен их относительный порядок и
расстояния между ними
ContigContig Contig
Scaffold
74
75. Метрики сборки генома
• Длина кратчайшего
контига/скэффолда
• Длина наибольшего
контига/скэффолда
• Средняя длина контига/скэффолда
75
76. Метрики сборки генома
• N50/N90 – наибольшая длина контига
такая, что в контигах не меньшей
длины содержится 50/90% суммарной
длины контигов
• NG50/N90 – наибольшая длина
контига такая, что в контигах не
меньшей длины содержится 50/90%
суммарной длины генома
• Аналогично – для скэффолдов
76
77. Пример
• Длина контигов:
5, 7, 10, 15, 22, 24, 30, 45
• Длина кратчайшего – 5
• Длина наибольшего – 45
• Средняя длина – (5 + 7 + 10 + 15 +
122+ 24 + 30 + 45) / 8 = 19.75
77
78. Пример
• N50 = 24, так как
– 30 + 45 = 75 < 50% от 158
– 24 + 30 + 45 = 99 > 50% от 158
• Если длина генома 100, то NG50 =
30
• Если длина генома 200, то NG50 =
22
78
79. Что же делать?
• Сравнительные исследования работы
сборщиков на известных геномах
• Новые метрики, которые оценивают
насколько результат сборки соответствует
чтениям, которые были на входе
79
80. Выводы
• Есть разрыв между теорией и
практикой сборки генома
• У задачи сборки генома нет
универсального решения
• Необходимы новые
математические модели,
алгоритмы сборки генома и
метрики качества
80
81. Благодарности
• Научный руководитель, зав. каф. ТП, докт.
техн. наук, проф. А. А. Шалыто
• Декан факультета ИТиП, докт. техн. наук,
проф. В. Г. Парфенов
• Ректор НИУ ИТМО, докт. техн. наук, проф.,
чл.-корр. РАН В. Н. Васильев
81
82. Благодарности
• Директор центра «Биоинженерия» РАН
академик РАН К. Г. Скрябин
• Зав. лаб. геномики и эпигеномики
позвоночных Центра «Биоинженерия» РАН,
докт. биол. наук Е. Б. Прохорчук
82
83. Благодарности
• Сотрудники лаборатории «Алгоритмы сборки
геномных последовательностей»:
– Евгений Капун
– Алексей Сергушичев
– Антон Александров
– Сергей Казаков
– Павел Федотов
– Антон Ахи
– Сергей Мельников
• Сотрудники МНЛ «Компьютерные технологии»
83
84. Сотрудничество с Washington
University St. Louis
• Системная биология и биоинформатика
• Объединение нескольких видов
биологических данных для анализа одного
и того же процесса в клетке
84
86. Сборка генома: мифы и
реальность
Царев Ф. Н., канд. техн. наук, доцент
кафедры «Компьютерные технологии»
III Всероссийский конгресс молодых
ученых
Санкт-Петербург, 08.04.2014