Весенний семестр 2017/2018 учебного года...

47
Весенний семестр 2017/2018 учебного года Межфакультетский учебный курс механико-математического факультета «МАТЕМАТИЧЕСКИЕ МОДЕЛИ В БИОИНФОРМАТИКЕ»

Transcript of Весенний семестр 2017/2018 учебного года...

Page 1: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Весенний семестр

2017/2018 учебного года

Межфакультетский учебный курс

механико-математического факультета

«МАТЕМАТИЧЕСКИЕ МОДЕЛИ

В БИОИНФОРМАТИКЕ»

Page 2: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Преподаватели:

Василий Александрович Любецкий,

д.ф.-м.н., профессор кафедры математической

логики и теории алгоритмов механико-

математического факультета МГУ, заведующий

лабораторией «Математических методов и моделей

в биоинформатике» в Институте проблем передачи

информации им. А.А. Харкевича РАН

Александр Владиславович Селиверстов,

к.ф.-м.н., ведущий научный сотрудник той же

лаборатории ИППИ РАН

Page 3: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

О преподавателях:

В.А. Любецкий –

http://lpcs.math.msu.su/~lyubetsky/ ,

http://lpcs.math.msu.su/~lyubetsky/mfk2017/http://lp

cs.math.msu.su/~lyubetsky/mfk2017/

(кафедра мех-мата МГУ),

http://lab6.iitp.ru/ru/pub/ (лаборатория ИППИ РАН),

[email protected] (эл. почта);

А.В. Селиверстов –

тот же адрес лаборатории, [email protected] (эл. почта).

Page 4: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Общий взгляд:

Специальность ВАК 03.01.09 называется

«Математическая биология, Биоинформатика».

Отрасли наук:

физико-математические науки,

биологические науки,

медицинские науки. Очень широко!

Частный взгляд: наш курс –

Прикладная математика в предметной области:

«молекулярные процессы в клетке и мол. эволюция»

Page 5: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Слова «математическая модель» означают:

«все, что сформулировано на точном языке»

(«формальном»).

В такой модели скрыта (часто очень нетривиальная)

вычислительная часть.

Так обстоит дело в математической/теоретической

физике, которая служит нам примером. (В ней

вычислительная часть не вынесена в название.)

Page 6: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Математическая биология имеет хорошую аналогию

с Математической физикой. Действительно, можно

(условно) сказать:

«Математическая биология» – математические и

информатические (=computer science) модели

(биологических) явлений, а

Биоинформатика – счёт этих моделей, т.е. создание

алгоритмов и компьютерных программ

и счёт, как таковой, на суперкомпьютере (=

распределённой вычислительной системе).

Page 7: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

По сути это значит: (1) Подбор (биологических) ИС-

ХОДНЫХ ДАННЫХ, а для этого использование и/или

развитие уже готовых и/или создание новых Баз дан-

ных. Это – огромные Базы данных: длину генома х нуж-

но умножить на число y организмов, бывших или

нынешних или будущих, а их число очень быстро растёт

(за счёт автоматического секвенирования)!

Характерная длина генома – миллионы букв в 4х-

буквенном алфавите (например, бывает 17т – 3,1млд –

более 21млд букв)

(2) ИЗЛОЖЕНИЕ ОСНОВНЫХ ПОНЯТИЙ на строгом

языке («математическом», «формальном»).

Page 8: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

(3) Создание МОДЕЛИ каждого биологического

явления на этом языке. (Сравните с ТеорФизикой.)

(4) АЛГОРИТМ и ПРОГРАММА для счёта в данной

модели.

(5) Сам СЧЁТ и ИНТЕРПРЕТАЦИЯ его результатов.

(6) СРАВНЕНИЕ полученных результатов с

экспериментальными данными, которые содержатся

в других базах данных и в статьях о биологических

экспериментах. И часто возвращение назад, к (1).

(«Мокрые» эксперименты – отдельная наука.)

Page 9: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

background

ОНО же НА ЯЗЫКЕ

BACKGROUND модель

алгоритм,

программа

данные и

счёт

интерпрет

ация счёта

сравнение с

экспериментом

явление

???

Page 10: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

По адресу http://lab6.iitp.ru/pres лежат примеры

математических и информатических задач

Биоинформатики

– о них будем рассказывать в курсе.

См. также, например, абстракты/статьи на сайте

http://lab6.iitp.ru/pub. Конечно, выбор этих задач и

ссылок в какой-то мере субъективен.

НАШ КУРС НЕ ЯВЛЯЕТСЯ: описанием и исследова-

нием стандартного набора полезных БД и программ!

Page 11: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

NCBI (Национальный центр биотехнологической информации)

http://www.ncbi.nlm.nih.gov/

Содержит такие бесценные ресурсы как GenBank (аннотированную

коллекцию всех общедоступных последовательностей ДНК),

Reference Sequence (RefSeq) (неизбыточный хорошо аннотированный

и курируемый набор эталонных последовательностей геномов,

транскриптов и белков), PubMed и PubMed Central (PMC) (база данных

аннотаций биомедицинской тематики и архив с полными текстами

статей), Sequence Read Archive (SRA) (хранилище «сырых» данных с

секвенаторов «нового поколения») и мн. др., а также инструменты

для работы с ними, такие как Basic Local Alignment Search Tool

(BLAST) с многочисленными вариантами, Taxonomy Browser

(навигатор по устаревшей таксономии), Taxonomy Common Tree

(средство отображения таксономического дерева заданного набора

таксонов).

Ещё важные ресурсы:

Ensembl http://www.ensembl.org/ EuPathDB http://eupathdb.org/

OrthoMCL DB http://orthomcl.org/ UniProt http://www.uniprot.org/

Xfam (Pfam, Rfam etc.) http://xfam.org/ PhyloBayes и т.д.

Genomicus http://genomicus.biologie.ens.fr/

Page 12: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Ensembl содержит избранные полные геномы: позвоночных,

животных, растений, грибов, простейших, бактерий.

EuPathDB содержит геномы одноклеточных паразитов,

OrthoMCL DB содержит 1,5 миллиона белков из 150ти организмов

(представлены все виды жизни, включая вирусы), объединённые

в 125000 групп «одинаковых» (= ортологичных) белков,

UniProt содержит информацию о том, что делают белки (об их

функциях)

Pfam, Rfam etc содержат консервативные достаточно

самостоятельные трёхмерные участки (домены) белков и РНК,

повторы РНК

Genomicus содержат компьютерные программы для

исследования окрестностей генов (синтении) у позвоночных

Page 13: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Один из разделов важнейшей базы данных GenBank

(с него можно начать знакомство с

так сказать практической биоинформатикой):

http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.c

gi?mode=Undef&id=2759&lvl=3&keep=1&srchmode=1&un

lock)

Page 14: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

НАШ КУРС НЕ ЯВЛЯЕТСЯ: «Введением в МолБиоло-

гию (Биологию), БиоХимию и т.п.». Не является докла-

дом на профессиональной конференции или, хотя с ме-

ньшей уверенностью скажу, циклом популярных лекций.

Он (как обычно) требует большого background из

биологии, химии, математики и т.д. Возникает

принципиальная трудность, свойственная вообще

междисциплинарным курсам!

Отсюда возникает «промежуточный, птичий» язык

изложения самой предметной области (т.е. молбио

клетки и мол эволюции).

Page 15: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Курс читается «для всех»; поэтому используется

«общекультурный» язык в ущерб точности/деталь-

ности и особенностям живых клеток и организмов.

Ответы на вопросы в письменной форме будем

приводить на следующей лекции или на сайте курса:

http://lpcs.math.msu.su/~lyubetsky/mfk2017/ .

Page 16: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Наконец, перейдём к описанию упомянутого

«точного языка», на котором будем говорить о

нашей «предметной области», которая состоит из

ГЕНОМИКИ и ФИЛОГЕНЕТИКИ

Page 17: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

ГЕНОМИКА:

В курсе рассказывается, в основном, о

бактериях, археях, пластидах, митохондриях

(«прокариотических геномах»), и мы не касаемся

исключений, которых очень много в биологии.

Хотя все формы жизни поразительно

похожи и имеют сходные механизмы.

<Наряду с Большим взрывом, это кажется

важным.>

Page 18: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

ДНК – последовательность в 4-буквенном алфавите {A,C,T,G}.

Каждая буква называется «нуклеотид». Например, в после-

довательности TTGACATGGCTATATAAGTCATGTTATACT

30 позиций нуклеотидов. Слово – короткая часть такой

последовательности (обычно, с дополнительной структурой).

ген 1 ген 2 ген 3

кодирует белок (фермент,

регуляторный фактор)

сигнал 2 сигнал 3

межгенный участок

кодирует белок –

«строительный кирпич»)

кодирует РНК (посред-

ник, фермент, часть

молекулы, помощник в

молекулярном процессе

межгенный участок

DNA

Page 19: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

«Суть текущей жизни»: ген кодирует

молекулу («слово со структурой»),

ген считывается или не считывается по

сигналу обычно из межгенного участка.

Сигнал, в свою очередь, – слово или система

слов, часто с дополнительной структурой.

Page 20: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

ГЕНОМ – несколько ДНК,

которые находятся в разных частях клетки,

которые называются митохондрией, пластидой,

ядром и т.д. (не все эти части присутствуют в

одной клетке); или даже

ДНК просто плавают в среде («цитоплазме»).

На самом деле:

ГЕНЫ И СИГНАЛЫ имеют направление (векторы)!

Наиболее важные для нас молекулы: нуклеотид-

ные (ДНК, РНК) и аминокислотные (белки).

Page 21: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Пример СИГНАЛА (=участка с определённым буквенным

составом и с направлением); примеры «промоторов»:

human CAAACCCCAAAGACA

frog ACRTTATA (R= A или G)

bacteria TTGACA -17..18- TATAAT -4..7- R

Page 22: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Много копий одной молекулы, называемой РНК-поли-

меразой, плавают вокруг ДНК. Промотор свободен,

если на нем не находится ни одной полимеразы (или

другой сущест молекулы). Связывание полимеразы

с промотором происходит, если в момент попытки

связывания промотор свободен:

Каждый промотор

характеризуется своей

интенсивностью λ:

вероятностью

попытки связывания

= 1–exp(–λ∙t)

Что такое: «связывание с промотором»?

Page 23: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Транскрипция – связывание с промотором молекулы, РНК-

полимеразы, и её движение по направлению промотора.

Когда полимераза движется, она копирует ДНК (включая и

все сонаправленные гены), по правилу «буква в букву»:

ДНК РНК, где РНК – слово «практически» в том же в

4-х буквенном алфавите {A, C, U, G} .

Что такое «чтение гена»? Это – сначала «транскрипция гена»

и иногда затем ещё «трансляция» результата транскрипции:

DNA

RNA

РНК-polymerase

gene

Page 24: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Ген «однократно транскрибирован», если

полимераза прошла его от начала до конца один раз.

При каждом гене находится как бы счётчик числа его

прохождений (=транскрипций) в единицу времени.

Частота чтения гена называется уровнем его

транскрипции. Показано одно транскрибирование.

DNA

Page 25: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Иногда чтение гена заканчивается

на транскрипции,

а иногда идёт дальше

и включает трансляцию.

Итак, ДНК – длинная последовательность, а РНК

короткая!

(как память у комп: на жёстком диске или

оперативная).

Page 26: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

DNA

RNA

белок

другая машина: RIBOSOME

машина: POLYMERASE

promoter

Если за транскрипцией идёт трансляция, то РНК

называется мРНК. Тогда:

ген (на ДНК) мРНК (длиннее гена) белок

Page 27: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

А именно, рибосома перекодирует РНК в 4х-буквен-

ном алфавите нуклеотидов {A,C,U,G} в слово в 20ти

буквенном алфавите

(буквы которого называются «аминокислотами»)

в соответствии с кодовой ТАБЛИЦЕЙ, единой для

всего живого (почти).

А именно, соседние тройки нуклеотидов (называе-

мые «кодонами») заменяются одной аминокислотой

согласно следующей Таблицы:

Page 28: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Кодирование:

от кодона

к амино-

кислоте:

Page 29: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

БЕЛОК (последовательность в 20ти буквенном алф-

авите) образуется из мРНК с помощью рибосомы:

Page 30: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Сдвиг рамки считывания существенно меняет

кодируемый белок.

Внутри рамки считывания обычно отсутствуют стоп-кодоны

– UAG, UGA, UAA. (Хотя у микоплазм только два стоп-

кодона: UAG и UAA.)

Сдвиг рамки считывания может возникать после заверше-

ния транскрипции (сплайсинг или редактирование РНК).

Сдвиг рамки считывания возможен в ходе транскрипции как

двукратное чтение одного нуклеотида на ДНК (эксперимен-

тально установлено у спирохеты Treponema pallidum).

Page 31: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

«СУТЬ текущей ЖИЗНИ» состоит в «перекодирова-

нии»: ДНК РНК (а иногда в) Белок!

Зачем эти ДВА ПЕРЕКОДИРОВАНИЯ?

ДНК с помощью закодированных в ней особых

белков («белковых ферментов») и особых РНК

(«рибозим») управляет химическими реакциями в

клетке, т.е. всей химической жизнью клетки, а

следовательно и всего организма, и всей жизни..

Page 32: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

S1 S2 S3

F1 F2 F3

S0

FP

Субстраты S, …, S превращаются в продукт

FP с помощью

цепи (конвейера) ферментов F, …, F

Page 33: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Обычно ферментом – катализатором химической реак-

ции служит белок. Например, гены trpA и trpB кодируют

две субъединицы одного фермента, катализирующего

синтез триптофана (Trp) – одной из 20 аминокислот.

Эти два гена обычно расположены на ДНК друг за

другом.

Page 34: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного
Page 35: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

в РНК скрыт ещё один важный аспект

– её ВТОРИЧНАЯ СТРУКТУРА:

Page 36: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Снизу показан участок РНК: жёлтая часть

называется «левым плечом», голубая часть

– «правым плечом»; между ними, – «петля».

Справа показано, как такой участок

сворачивается в форму «СПИРАЛИ».

Сотни, тысячи подобных спиралей образуют

геометрию РНК – ВТОРИЧНУЮ СТРУКТУРУ

РНК.

Итак, РНК – короткая последовательность

(=слово) вместе с богатой вторичной

структурой на ней.

Page 37: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Примеры простых вторичных структур

Page 38: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного
Page 39: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного
Page 40: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Пример: 3 гена и 4 промотора

Взаиморасположение генов и промоторов (и других

сигналов) может быть очень разнообразным.

В этом одна из трудностей

математического изучения транскрипции –

геометрия бывает очень разной

Page 41: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Еще пример: 10 генов и 4 промотора

Page 42: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Митохондриальный геном человека:

Page 43: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Митохондриальный геном лягушки:

Page 44: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Митохондриальный геном крысы:

Page 45: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

РНК-полимераза ползёт по ДНК из неё выходит РНК:

Page 46: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Рибосома

ползёт по

мРНК и из

неё

выходит

белок:

Page 47: Весенний семестр 2017/2018 учебного года …lpcs.math.msu.su/~lyubetsky/mfk2017/mfk17-18_1.pdf · Весенний семестр 2017/2018 учебного

Взаимодействие молекул в клетке: