генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of...

44
Немного о сборке генома Антон Банкевич Сергей Нурк Лаборатория вычислительной биологии АУ РАН http://bioinf.spbau.ru

Transcript of генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of...

Page 1: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Немного о сборке генома

Антон Банкевич Сергей Нурк

Лаборатория вычислительной биологии АУ РАН

http://bioinf.spbau.ru

Page 2: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Введение

Page 3: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Секвенирование ДНК

Page 4: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Секвенирование ДНК

Page 5: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Задача сборки

Получить последовательности нуклеотидов (контиги), которые:○ являются фрагментами генома○ подлиннее○ имеют поменьше перекрытий○ получше покрывают геном

Page 6: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Как написать ассемблер за выходные

Page 7: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Граф де Брёйна

Page 8: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Граф де Брёйна

○ k-мер: последовательность из k нуклеотидов

○ Вершины графа де Брёйна: все k-меры○ Рёбра графа де Брёйна: все (k+1)-меры○ Ребро e соединяет префикс и суффикс e

Page 9: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Граф де Брёйна

AAGACTCGACTCCGTCCGACTGACTGGGTGGGACTGGACTTT

K=3

Page 10: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

K имеет значение!

Page 11: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

ALUдлина: 300кратность: 1000000

Проблема повторов

Page 12: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Парные риды

Page 13: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Разрешение повторов

Page 14: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Парный граф де Брёйна

Page 15: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

○ Вершины парного графа де Брёйна: все пары k-меров на фиксированном расстоянии

○ Рёбра парного графа де Брёйна: все пары (k+1)-меров на фиксированном расстоянии

○ Ребро e соединяет пару префиксов e и пару суффиксов e

Парный граф де Брёйна

Page 16: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Граф де Брюина

Парный граф де Брюина

Page 17: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome
Page 18: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

○ Разброс расстояния○ Разрывы в покрытии ○ Ошибки секвенирования○ Проблемы с ресурсами

○ память○ время

Некоторые проблемы

Page 19: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Разброс расстояния

Page 20: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Разброс расстояния

Page 21: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Разрывы в покрытии

Покрытие конкретого (k+1)-мера — случайная величина.

Обычно приходится использовать k значительно меньше 100.

Page 22: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Ошибки секвенирования

○ Тип и частота зависят от технологий ○ Предобработка ридов: Quake,

BayesHammer○ Неисправленные ошибки превращаются в

лишние ребра в графе

Page 23: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome
Page 24: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

tip

bulge

chimeric connection

Page 25: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Можно потратить больше времени...

○ Velvet○ IDBA○ SOAP-denovo ○ Ray ○ ABySS○ Allpaths○ EULER○ Minia

Page 26: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

SPAdes

Page 27: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Single-cell секвенирование

○ Для секвенирования бактерии необходимо иметь значительное количество её клонов

○ Большинство бактерий невозможно клонировать в лабораторных условиях

○ Single-cell секвенирование позволяет увеличить количество ДНК не прибегая к клонированию

Page 28: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

MDA

Page 29: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Покрытие генома ридами

Page 30: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Борьба с разрывами

Page 31: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Борьба с разрывами

Page 32: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome
Page 33: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Chimeric connections

Page 34: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Chimeric connections

Page 35: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Представление графа

○ Память○ Время

Page 36: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Что нужно для построения графа де Брюина?

○ Возможность перебрать все k-меры○ Возможность найти соседей k-мера

Пример: Множество всех (k+1)-меров

Page 37: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Фильтр Блума

Page 38: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Вероятостный граф де Брюина

Page 39: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Точное представление

Page 40: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Хэширование без коллизий

Page 41: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Хэширование без коллизий

Позволяет:○ Хранить информацию в массиве ○ Не хранить ключиНе позволяет:○ Проверять наличие элемента в

множествеТребует:○ Предварительного нахождения

уникальных k-меров

Page 42: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Реализация графа де Брюйна

○ В хэш таблице хранятся все k-меры○ Для каждого k-мера хранятся все его

соседи (8 бит)

Page 43: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

Распределенное хранение

● Позволяет собрать что-то на кластере● На порядок медленнее● ABySS, Ray● K-меры распределяются по нодам в

соответствии с некоторым хэшем.

Page 44: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome

1. "Genome Reconstruction: A Puzzle with a Billion Pieces", P. Compeau, P Pevzner

2. "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al.

3. "Scaling metagenome sequence assembly with probabilistic de Bruijn graphs", Jason Pell et al.

4. "Space-efficient and exact de Bruijn graph representation based on a Bloom filter", Rayan Chikhi, Guillaume Rizk

5. "External Perfect Hashing for Very Large Key Sets", Fabiano C. Botelho, Nivio Ziviani

6. http://bioinf.spbau.ru/en/spades

Ссылки