SlideShare una empresa de Scribd logo
1 de 86
Сборка генома: мифы и
реальность
Царев Ф. Н., канд. техн. наук, доцент
кафедры «Компьютерные технологии»
III Всероссийский конгресс молодых
ученых
Санкт-Петербург, 08.04.2014
Зачем нужна
биоинформатика?
2
2014 год
2030 год
10
Геном
• Совокупность всей
наследственной
информации организма
• Как правило –
закодирован в молекуле
ДНК (у некоторых вирусов
– РНК)
• Двойная спираль
• Четыре типа оснований:
– A – аденин
– T – тимин
– G – гуанин
– C – цитозин
12
Размеры геномов
Тип Организм Размер генома Комментарий
Virus
Bacteriophage
MS2
3,569 3.5kb
Первый прочитанный
РНК-геном
Virus
Phage Φ-
X174
5,386 5.4kb
Первый прочитанный
ДНК-геном
Bacterium
Escherichia
coli
4,600,000 4.6Mb
Plant
Arabidopsis
thaliana
157,000,000 157Mb
Mammal Homo sapiens 3,200,000,000 3.2Gb
Fish
Protopterus
aethiopicus
130,000,000,000 130Gb
Самый большой
известный геном
позвоночного
Plant Paris japonica 150,000,000,000 150Gb
Самый большой
известный геном
растения
С 1990 года по 2001 год
3 000 000 000 «букв»
$3 000 000 000
Проект «Геном
человека»
• Геном одного человека отличается от генома
другого человека примерно в одном из 1000
символов
• Эти 0.1% отвечает за все различия между
людьми
…CTGATGATGGACTACGCTACTACTGCTAGCTGTAT
TACGATCAGCTACCACATCGTAGCTACGATGCATTA
GGATCGCGGGACTATTATCGACTACAGATAAAACAT
GCTAGTACAACAGTATACATAGCTGCGGGATACGAT
TAGCTAATAGCTGACGATATCCGA…
…CTGATGATGGACTACGCTACTACTGCTAGCTGTAT
TACGATCAGCTACAACATCGTAGCTACGATGCATTA
GGATCGCGTGACTATTATCGACTACAGATGAAACAT
GCTAGTACAACAGTATACATAGCTGCGGGATACGAT
TAGCTAATAGCTGACGATATCCGA…
Геном человека
Чтение
генома
Сборка
генома
Анализ
генома
На компьютере
Чтение и сборка генома
Несколько копий генома
17
Чтение и сборка генома
Несколько копий генома
Чтение
18
Чтение и сборка генома
Несколько копий генома
Чтения
Чтение
19
Чтение и сборка генома
Несколько копий генома
Чтения
Чтение
Сборка
20
Чтение и сборка генома
Несколько копий генома
Чтения
Собранный геном
…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…
Чтение
Сборка
21
Чтение генома
• Специальные
устройства -
секвенаторы
– Illumina
– Life Technologies
– Oxford Nanopore
– Pacific Biotechnologies
22
23
Карта секвенаторов
Объем данным ~15PB/год
Взаимодействие
биологов и
программистов
Сложная
структура
генома
Очень
большие
объемы
данных
Ошибки во
входных
данных
Сложность
задачи
сборки
генома
Новые технологии
секвенирования
Новые технологии
сборки
Цель:
один
геном за
1000$
24
Задача сборки генома
• Исходные данные –
набор чтений
• Результат – геномная
последовательность
• Проблема – не знаем
из какой части генома
прочитано каждое
чтение
25
Объем данных
• Геном человека – 3 млрд.
символов
• Покрытие чтениями – 40 раз
• 120 Гб информации
Закон Мура – за 18
месяцев компьютеры
становятся в 2 раза
быстрее
Секвенаторы – в 10 раз
Разработка алгоритмов сборки геномных последовательностей для вычислительных систем
экзафлопсного уровня производительности
Мифы о сборке генома
• Миф №1. Собрать геном – это просто
• Миф №2. Есть понимание, что значит
«собрать геном»
• Миф №3. Существующие программы
для сборки генома хорошо его
собирают
28
Миф №1
Собрать геном – это
просто
29
Кенигсбергские мосты
30
Эйлеров путь в графе
• Путь, который проходит
по каждому ребру ровно
один раз
• Существует способ
быстро определить, есть
ли в графе такой путь
31
Секвенирование с помощью ДНК-
чипов
• С помощью чипа
можно определить,
содержит ли геном
некоторую заданную
подстроку
• Зафиксируем длину
строки k
• Рассмотрим чип для
всех 4k строк длины k
32
33
Граф де Брёйна
• Ориентированный граф
• Вершины = строки
длины (k-1)
• Ребра = строки длины k
• Эйлеров путь в этом
графе соответствует
геномной
последовательности
Меньшее k
• AGCTAAGCTG
• AGCT
• GCTA
• CTAA
• TAAG
• AAGC
• AGCT
• GCTG
34
Меньшее k
• GCTAAGCTG
• Должно быть
AGCTAAGCTG
• Проблема
возникла из-за
повторов!
35
Меньшее k
• Если знать точное
число вхождений, то
проблема исправлена
36
Миф №2
Есть понимание, что
значит «собрать геном»
37
Математические модели сборки
генома
• Наименьшая общая надстрока
• Эйлеров путь в графе де Брейна
• Кратчайший суперпуть в графе де Брейна
• Суперпуть в графе де Брейна с кратностями
• Путь в парном графе де Брейна
• Не учитывают ошибки секвенирования!
38
Наименьшая общая надстрока
Чтения генома:
– AATGC
– GCATA
– CATAG
Искомая последовательность
AATGCATAG
Искомая последовательность
AATGCATAG
Искомая последовательность
AATGCATAG
Искомая последовательность
AATGCATAG
Проблема
• В реальных геномов много повторяющихся
участков достаточно большой длины
AGCTAGCTAT
AGCT
GCTA
TAGC
CTAT
TAGCTAT
Граф де Брёйна с кратностями
Чтения генома:
– AGCT
– GCTA
– TAGC
– CTAT
AGCT
AG GC
AGC
AGCT
GC CT
GCT
GCTA
GC CT
GCT
GCTA
CT TA
CTA
TAGC
TA AG
TAG
TAGC
AG GC
AGC
CTAT
CT TA
CTA
CTAT
TA AT
TAT
Кратчайший суперпуть в графе де
Брёйна с кратностями
AG GC
CTTA
AT
2
1 2
2
1
AGCT
AG GC
CTTA
AT
2
1 2
2
1
GCTA
AG GC
CTTA
AT
2
1 2
2
1
TAGC
AG GC
CTTA
AT
2
1 2
2
1
CTAT
AG GC
CTTA
AT
2
1 2
2
1
AG GC
CTTA
AT
2
1 2
2
1
AG
AG GC
CTTA
AT
1
1 2
2
1
AGC
AG GC
CTTA
AT
1
1 1
2
1
AGCT
AG GC
CTTA
AT
1
1 1
1
1
AGCTA
AG GC
CTTA
AT
1
0 1
1
1
AGCTAG
AG GC
CTTA
AT
0
0 1
1
1
AGCTAGC
AG GC
CTTA
AT
0
0 0
1
1
AGCTAGCT
AG GC
CTTA
AT
0
0 0
0
1
AGCTAGCTA
AG GC
CTTA
AT
0
0 0
0
0
AGCTAGCTAT
Сложность сборки генома для
различных моделей
• Наименьшая общая надстрока – NP-трудная
(Gallant et al., 1980)
• Эйлеров путь в графе де Брейна – решается за
время, пропорциональное размеру входных
данных (Pevzner et al., 1989)
• Суперпуть в графе де Брейна – NP-трудная
(Medvedev et al., 2007)
• Суперпуть в графе де Брейна с кратностями –
NP-трудная (Kapun and Tsarev, 2013)
• Путь в парном графе де Брейна – NP-трудная
(Kapun and Tsarev, 2013) 68
NP-трудность задачи сборки генома
на графе де Брёйна с кратностями
• Открытая задача с 2009 года
• Результаты работы представлены на
конференции RECOMB-Seq 2013 и
опубликованы в журнале BMC Bioinformatics
69
NP-трудность задачи сборки генома
на парном графе де Брёйна
• Открытая задача с 2011 года
• Результаты работы представлены на
семинаре WABI в рамках конференции ALGO
2013
70
Миф №3
Существующие
программы для сборки
генома хорошо его
собирают
71
Как работают сборщики геномов?
• Основаны на эвристических или
приближенных алгоритмах
• Собирают не целую геномную
последовательность, а контиги и
скэффолды
• Распространенные метрики сборки генома
мало связаны с качеством сборки
72
Контиги
• Непрерывная последовательность, которая
с большой долей уверенности является
частью геномной последовательности
Contig
73
Скэффолд
• Скэффолд – последовательность контигов, для
которых известен их относительный порядок и
расстояния между ними
ContigContig Contig
Scaffold
74
Метрики сборки генома
• Длина кратчайшего
контига/скэффолда
• Длина наибольшего
контига/скэффолда
• Средняя длина контига/скэффолда
75
Метрики сборки генома
• N50/N90 – наибольшая длина контига
такая, что в контигах не меньшей
длины содержится 50/90% суммарной
длины контигов
• NG50/N90 – наибольшая длина
контига такая, что в контигах не
меньшей длины содержится 50/90%
суммарной длины генома
• Аналогично – для скэффолдов
76
Пример
• Длина контигов:
5, 7, 10, 15, 22, 24, 30, 45
• Длина кратчайшего – 5
• Длина наибольшего – 45
• Средняя длина – (5 + 7 + 10 + 15 +
122+ 24 + 30 + 45) / 8 = 19.75
77
Пример
• N50 = 24, так как
– 30 + 45 = 75 < 50% от 158
– 24 + 30 + 45 = 99 > 50% от 158
• Если длина генома 100, то NG50 =
30
• Если длина генома 200, то NG50 =
22
78
Что же делать?
• Сравнительные исследования работы
сборщиков на известных геномах
• Новые метрики, которые оценивают
насколько результат сборки соответствует
чтениям, которые были на входе
79
Выводы
• Есть разрыв между теорией и
практикой сборки генома
• У задачи сборки генома нет
универсального решения
• Необходимы новые
математические модели,
алгоритмы сборки генома и
метрики качества
80
Благодарности
• Научный руководитель, зав. каф. ТП, докт.
техн. наук, проф. А. А. Шалыто
• Декан факультета ИТиП, докт. техн. наук,
проф. В. Г. Парфенов
• Ректор НИУ ИТМО, докт. техн. наук, проф.,
чл.-корр. РАН В. Н. Васильев
81
Благодарности
• Директор центра «Биоинженерия» РАН
академик РАН К. Г. Скрябин
• Зав. лаб. геномики и эпигеномики
позвоночных Центра «Биоинженерия» РАН,
докт. биол. наук Е. Б. Прохорчук
82
Благодарности
• Сотрудники лаборатории «Алгоритмы сборки
геномных последовательностей»:
– Евгений Капун
– Алексей Сергушичев
– Антон Александров
– Сергей Казаков
– Павел Федотов
– Антон Ахи
– Сергей Мельников
• Сотрудники МНЛ «Компьютерные технологии»
83
Сотрудничество с Washington
University St. Louis
• Системная биология и биоинформатика
• Объединение нескольких видов
биологических данных для анализа одного
и того же процесса в клетке
84
Email: fedor.tsarev@gmail.com
Twitter: @fedortsarev
Web: http://genome.ifmo.ru
Спасибо за внимание!
85
Сборка генома: мифы и
реальность
Царев Ф. Н., канд. техн. наук, доцент
кафедры «Компьютерные технологии»
III Всероссийский конгресс молодых
ученых
Санкт-Петербург, 08.04.2014

Más contenido relacionado

Similar a Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых

презентация писэх лабы
презентация писэх лабыпрезентация писэх лабы
презентация писэх лабы
student_kai
 
Guests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyGuests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assembly
Nikolay Vyahhi
 
Методы поиска уязвимостей в программах
Методы поиска уязвимостей в программахМетоды поиска уязвимостей в программах
Методы поиска уязвимостей в программах
Vasiliy Shapovalov
 
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqкомпьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
Ek_Kul
 
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетей284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
ivanov1566359955
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...
Ontico
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
Anton Gorokhov
 
якобовский - введение в параллельное программирование (2)
якобовский - введение в параллельное программирование (2)якобовский - введение в параллельное программирование (2)
якобовский - введение в параллельное программирование (2)
Michael Karpov
 

Similar a Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых (20)

презентация писэх лабы
презентация писэх лабыпрезентация писэх лабы
презентация писэх лабы
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformatics
 
Pre - Diploma Work
Pre - Diploma WorkPre - Diploma Work
Pre - Diploma Work
 
Genome Assembly
Genome AssemblyGenome Assembly
Genome Assembly
 
Guests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyGuests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assembly
 
Vvedenie v bioinformatiku_2
Vvedenie v bioinformatiku_2Vvedenie v bioinformatiku_2
Vvedenie v bioinformatiku_2
 
Тестирование Нейронных сетей
Тестирование Нейронных сетейТестирование Нейронных сетей
Тестирование Нейронных сетей
 
Методы поиска уязвимостей
Методы поиска уязвимостейМетоды поиска уязвимостей
Методы поиска уязвимостей
 
Методы поиска уязвимостей в программах
Методы поиска уязвимостей в программахМетоды поиска уязвимостей в программах
Методы поиска уязвимостей в программах
 
И.И.Першин "Распознавание паттернов в ЭЭГ"
И.И.Першин "Распознавание паттернов в ЭЭГ"И.И.Першин "Распознавание паттернов в ЭЭГ"
И.И.Першин "Распознавание паттернов в ЭЭГ"
 
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqкомпьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
 
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетей284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
 
Vvedenie v bioinformatiku_4
Vvedenie v bioinformatiku_4Vvedenie v bioinformatiku_4
Vvedenie v bioinformatiku_4
 
якобовский - введение в параллельное программирование (2)
якобовский - введение в параллельное программирование (2)якобовский - введение в параллельное программирование (2)
якобовский - введение в параллельное программирование (2)
 
Шляхова С.И. Визуализация звукового поля с применением камеры и микрофона - п...
Шляхова С.И. Визуализация звукового поля с применением камеры и микрофона - п...Шляхова С.И. Визуализация звукового поля с применением камеры и микрофона - п...
Шляхова С.И. Визуализация звукового поля с применением камеры и микрофона - п...
 
static - defcon russia 20
static  - defcon russia 20static  - defcon russia 20
static - defcon russia 20
 
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
 
Hейронные сети на практике — R&D, Azoft
Hейронные сети на практике — R&D, AzoftHейронные сети на практике — R&D, Azoft
Hейронные сети на практике — R&D, Azoft
 

Más de Fedor Tsarev

On NP-Hardness of the Paired de Bruijn Sound Cycle Problem
On NP-Hardness of the Paired de Bruijn Sound Cycle ProblemOn NP-Hardness of the Paired de Bruijn Sound Cycle Problem
On NP-Hardness of the Paired de Bruijn Sound Cycle Problem
Fedor Tsarev
 
Talk at dnGASP workshop, April 5, 2011
Talk at dnGASP workshop, April 5, 2011Talk at dnGASP workshop, April 5, 2011
Talk at dnGASP workshop, April 5, 2011
Fedor Tsarev
 
Problem solving on acm international collegiate programming contest
Problem solving on acm international collegiate programming contestProblem solving on acm international collegiate programming contest
Problem solving on acm international collegiate programming contest
Fedor Tsarev
 
05 динамическое программирование
05 динамическое программирование05 динамическое программирование
05 динамическое программирование
Fedor Tsarev
 
04 динамическое программирование - основные концепции
04 динамическое программирование - основные концепции04 динамическое программирование - основные концепции
04 динамическое программирование - основные концепции
Fedor Tsarev
 

Más de Fedor Tsarev (11)

We are the champions: programming world champions from Russia. Why and what for?
We are the champions: programming world champions from Russia. Why and what for?We are the champions: programming world champions from Russia. Why and what for?
We are the champions: programming world champions from Russia. Why and what for?
 
Becoming a World Champion in Programming: Keep Calm and Compete
Becoming a World Champion in Programming: Keep Calm and CompeteBecoming a World Champion in Programming: Keep Calm and Compete
Becoming a World Champion in Programming: Keep Calm and Compete
 
On NP-Hardness of the Paired de Bruijn Sound Cycle Problem
On NP-Hardness of the Paired de Bruijn Sound Cycle ProblemOn NP-Hardness of the Paired de Bruijn Sound Cycle Problem
On NP-Hardness of the Paired de Bruijn Sound Cycle Problem
 
Talk at dnGASP workshop, April 5, 2011
Talk at dnGASP workshop, April 5, 2011Talk at dnGASP workshop, April 5, 2011
Talk at dnGASP workshop, April 5, 2011
 
Problem solving on acm international collegiate programming contest
Problem solving on acm international collegiate programming contestProblem solving on acm international collegiate programming contest
Problem solving on acm international collegiate programming contest
 
05 динамическое программирование
05 динамическое программирование05 динамическое программирование
05 динамическое программирование
 
05 динамическое программирование
05 динамическое программирование05 динамическое программирование
05 динамическое программирование
 
04 динамическое программирование - основные концепции
04 динамическое программирование - основные концепции04 динамическое программирование - основные концепции
04 динамическое программирование - основные концепции
 
01 линейные структуры данных
01 линейные структуры данных01 линейные структуры данных
01 линейные структуры данных
 
03 двоичные деревья поиска и очередь с приоритетами
03 двоичные деревья поиска и очередь с приоритетами03 двоичные деревья поиска и очередь с приоритетами
03 двоичные деревья поиска и очередь с приоритетами
 
02 сортировка и поиск
02 сортировка и поиск02 сортировка и поиск
02 сортировка и поиск
 

Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых