sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
SP1 at swissprot
EGR1 at swissprot
Вывод
bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания
bull Мы нашли такое локальное выравнивание которое
соответствует возможному структурному выравниванию
bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity
Bl2Seq at NCBI
Bl2seq results
Bl2seq оценка
bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд
bull Expected-score (E) ndash Вероятность
случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
SP1 at swissprot
EGR1 at swissprot
Вывод
bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания
bull Мы нашли такое локальное выравнивание которое
соответствует возможному структурному выравниванию
bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity
Bl2Seq at NCBI
Bl2seq results
Bl2seq оценка
bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд
bull Expected-score (E) ndash Вероятность
случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
EGR1 at swissprot
Вывод
bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания
bull Мы нашли такое локальное выравнивание которое
соответствует возможному структурному выравниванию
bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity
Bl2Seq at NCBI
Bl2seq results
Bl2seq оценка
bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд
bull Expected-score (E) ndash Вероятность
случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Вывод
bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания
bull Мы нашли такое локальное выравнивание которое
соответствует возможному структурному выравниванию
bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity
Bl2Seq at NCBI
Bl2seq results
Bl2seq оценка
bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд
bull Expected-score (E) ndash Вероятность
случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Bl2Seq at NCBI
Bl2seq results
Bl2seq оценка
bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд
bull Expected-score (E) ndash Вероятность
случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Bl2seq results
Bl2seq оценка
bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд
bull Expected-score (E) ndash Вероятность
случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Bl2seq оценка
bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд
bull Expected-score (E) ndash Вероятность
случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Оптимизация времени вычислений при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных затрат времени
k ndash длина диагоналей
b ndash фактор отступа от диагонали
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
bull Basic Local Alignment Search Tool
bull Чувствителен также как FastA но намного быстрее
bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words
Алгоритм BLAST
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
1 Поиск идентичныхпохожих участков
2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)
В результате High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Попытка соединить соседние HSPs путем выравнивания последовательностей между ними
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Blastbull Blast ndash это семейство программ BlastN BlastP
BlastX tBlastN
bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК
Query ДНК Белок
Database ДНК Белок
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Поиск гомологов
По ДНК или по белку
Какой поиск предпочтительней
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ДНК или белок
Какая последовательность более постоянна в эволюционном плане
UCAUAC
Or
Serine -Tyrosine
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ДНК
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
OO=P-O O
Фосфатная группаФосфатная группа
NАзотистое основаниеАзотистое основание
(A G C or T)(A G C or T)
CH2
O
C1C4
C3 C2
5
СахарСахар(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ДНК
ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно
ADENINEADENINE ndash ndash THYMINETHYMINE
CYTOSINECYTOSINE - - GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
23
4
5
5
3
3
5
P
P
PO
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ДНК дальнейшая упаковка
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ДНК
Функции ДНК mdash наследственность и изменчивость
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Репликация ДНК
Репликация ДНК
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)
bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной
Ser-Tyrhellip
UCAUAC UCUUAC UCGUAC Uhelliphellip
Поиск гомологов
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит
Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5
Поиск гомологов
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Матрицы для сравнения белков более чувствительны чем матрицы для ДНК
Базы данных ДНК намного больше белковых rarr будут случайные совпадения
Поиск гомологов
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Основные предположения
bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo
bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Например
bull Гистоны небольшие белки присутствуют у всех эукариот
Демонстрируют выраженное постоянство последовательности в MSA
Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Почему множественное выравнивание
Позволяет дать характеристику семействам белков найти общие участки гомологов
Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей
bull Одинаковые активные центры
bull Общие участка последовательности
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев
bull База для филогенеза ndash данные молекулярной биологии или морфологические данные
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Подходы в MSA
2 разных подходаndash 1D sequence based ndash сравнение
последовательностейndash 2D-3D based ndash выравнивание базирующееся на
структуре
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
MSA algorithm
bull Попарное выравнивание всех последовательностей (pairwise alignment)
bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)
bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание следуя древу из п 1
successive alignments
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Комментарии
bull Парное выравнивание - оптимальный алгоритм
bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания
bull Редакторы выравниваний могут быть полезны для корректировки
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCG
Pileup глобальный MSA
pileup [list of sequence names]
pileup hemoglobin_list
1 The sign means that the file contains a list of names
2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCGПример входного файла
swhbb_human
swhbb_rat
swhbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax the file starts with ldquordquo
Sequences from the databases
Sequences from the userrsquos directory
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment
1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa
What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )
This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )
Determining pairwise similarity scores
1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309
Aligning
Total sequences 4 Alignment length 338 CPU time 0021
Output filedatausersracheliothersracheliipnsmsf
Regular GCG syntaxDefault parametersoutput file etc
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil
Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631
Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100
1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output filemsf format
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCG
Prettybox генерирует графический файл из файла MSA
prettybox [MSA file]
prettybox hemoglobinsmsf
1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file
2 Can also calculate the consensus sequence
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCG
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ClustalWbull Очень известная и широко распространённая
программа UNIX Internet Windows
bull Выполняет MSA может строить филогенетические деревья
bull Входной файл ndash формат multi-fasta
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ClustalW
bull tofasta list
gtIPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
gtIPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input fileMulti-fasta
Making the file in unix
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ClustalWCLUSTAL W (17) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
Выходной файл aln format
httpwwwebiacukhelpformatshtml
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Consensus Sequence
Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминовhelliphellip
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Профиль (Profile)
Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 067 0 0
T 0 033 1 1
C 0 0 0 0
G 0 0 0 0
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Profile vs Consensus
Consensus каждая позиция отражает наиболее часто встречающийся символ
Profile каждая позиция отражает частоту символа в данной позиции
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Profile vs Consensus
Данный MSA будет иметь одинаковый consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Profile vs Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 066 1 0 0
T 0 0 0 1
C 033 0 066 0
G 0 0 033 0
1 2 3 4 5 6
A 1 1 0 0
T 0 0 0 1
C 0 0 1 0
G 0 0 0 0
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Psi Blast (NCBI)
Position Specific Iterated ndash автоматизированный поиск по профилю
Regular blast
Construct profile from blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Psi-Blast вывод
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Проблема формулировки выводов при использовании МSA
1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности
2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ФилогенезЭволюция ndash случайный процесс с неслучайным результатом
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Цели филогенетического исследования
bull Реконструкция корректных генеалогических связей
между биологическими объектами
bull Оценка времени расхождения организмов
bull Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Формат Newick
((A(BC))(DE))
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Типы данных
Molecular (DNA RNA proteins)
Morphological (soft tissue hard tissue extant extinct)
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Преимущества молекулярных данных
bull Наследуемость
bull Недвусмысленность в описании молекулярных характеристик
bull Поддаются количественному анализу
bull Оценка гомологии легче чем морфологические исследования
bull Данных много
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи
между видами (видообразование)bull Древо генов
Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536
Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Ортологи и паралоги
bull Гены-паралоги ndash событие дупликация (and
bull Гены-ортологи ndash событие видообразования (in the two species and in the two species
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Шаги реконструирования филогенетического
древа
1 Выбор последовательностей и поиск гомологов
2 MSA3 Матрица белков4 Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Филогенетическое дерево
Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Зачем нужны филогенетические деревья
Биологические задачи
сравнение 3-х и более объектов (кто на кого более похож )
реконструкция эволюции (кто от кого как и когда произошелhellip)
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Какие бывают деревья
Бинарное (разрешённое)(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое) (может ли в один момент времени
произойти два события )
Время
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Какие бывают деревья
Укорененное дерево (rooted tree)отражает направление эволюции
Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами
Время
Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)
Существует (2n-5) разных бескорневых деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Rooting
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
A C B B C AA B C
3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев
A
B
C
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
D
C
A
B
4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев
D
B
A
C C
B
A
D
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
4 OTUs
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Количество Количество Количество
OTU укорененных неукорененных
2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075
Количество возможных деревьев
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Рутинная процедура или как строят деревья
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы
Визуализация и редактура дерева
(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C
Шаг 3 Перевод количества расхождений в индексы замен
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Distance Matrix
Units количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Шаг 4 построение филогенетического дерева
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86
Rice 00 118 122 122
Mosquito 00 55 51
Monkey 00 3
Human 00
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются
Dist[Spinach MonHum] = (Dist[Spinach Monkey] +
Dist[Spinach Human])2 = (91 + 86)2 = 885
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885
Rice 00 118 122
Mosquito 00 53
Mon-Hum 00
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Как выбирать последовательности для дерева
Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (lt 50 последовательностей)
Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов
Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Самое главное ndash хорошее выравнивание
Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию
Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Основные алгоритмы построения филогенетических деревьев
Методы основанные на оценке
расстояний (матричные методы)
bull UPGMA (кластеризация)
bull Neighbor-joining
bull Минимальная эволюция
Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости)
maximal parsimony MP Выбирается дерево с минимальным количеством
мутаций необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Пример матрицы расстояний
1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1
000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3
000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5
000 1053 2955 BOVIN 6 000 2500 PIG 7
000 CHICK 8
Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Как понимать расстояние между объектами
bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)
Но время непосредственно измерить невозможно
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)
За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов
принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева
Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
UPGMAUnweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)
Реальное дерево UPGMA
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Метод ближайших соседей (Neighbor-joining NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Метод Neighbor-joining
Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев
Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других
листьев
1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины
Mij ndash ui ndashuj
те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Метод ближайших соседей (Neighbor-joining NJ)
2 Кластер (i j) ndash новый узел дерева
Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин
3 Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk ndash Mij 2
5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Input MSA для n последовательностей одна последовательность для каждого вида
AAAAATC
AAAAAAG
CCCCCCG
AAAAATCAAAAAAG
CCCCCCG
Длинная ветвь ndash непохоже на правду
Длинная ветвь -Похоже на правду
Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Как изобразить дерево Топология дерева
Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3Bacterium 2
Eukaryote 1
Eukaryote 4Eukaryote 3
Eukaryote 2
Филограммы ndash длины ветвей
пропорциональны
эволюционному расстоянию
Кладограммы и филограммы
Кладограммы ndash только
топологя Длины ветвей не
учитываются
6
31
2
46
24
53
Как можно нарисовать построенное дерево
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Какие on-line программы строят деревья
ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps
Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например
httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
MEGA филогенетический анализ последовательностей
httpwwwmegasoftwarenet
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Эволюция ndash исторический процесс
Из 8200794532637891559375 деревьев для 20 OTUs 1
является верным и 8200794532637891559374
неверны
Truth is one falsehoods are many
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Какое из 8200794532637891559375
деревьев истинно
Мы не знаем Можно применить иные критетии
Например ldquoпохожесть=родствоraquo
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
GCGbull Строковый поиск простой текстовый
поиск по локальной базе данных
bull Поиск в определениях или в аннотациях
bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата
Top Related