1
Filogenetin analiz
2
Filogenetin analiz
Klausimai:
Kas tai yra?
Kokie duomenys yra naudojami?
Kokie daniausiai naudojami metodai?
Kaip vertinti patikimum?
2
3
Kas tai yra?
Filogenez bendru protviu grindiamas organizm evoliucinis sryis
Filogenetika tyrinjim sritis, kurios tikslas aptikti ri evoliucinius sryius
(Graikikai: phylon = ris and genetic = gimimas)
4
Susijusios sritys
Filogenetika tiria evoliucinius sryius tarp populiacij
Filogenomika filogenetini metod taikymas pilnai sekvenuot genom analizei
Filogeografija tiria populiacijos evoliucijos proces (reikalingi isams populiaciniai duomenys)
Delsuc F, Brinkmann H, Philippe H.
Phylogenomics and the reconstruction of the tree of life. Nat Rev Genet. 2005 6(5):361-75.
Brito, P.H., Edwards, S.V.,
Multilocus phylogeography and phylogenetics using sequence-based markers. Genetica. 2008.
3
5
Filogenetika kas tai?
Evoliucin biologija
Graf teorija
Kompiuteriniai algoritmai
Filogenetika
6
Filogenetika, kur tai taikoma?
Galima iskirti dvi filogenetikos ris:
Klasikin lygina fizines ir morfologines savybes
Molekulin naudoja informacij gaut tiriant DNR ir baltymus
Molekulin filogenetika taikoma:
Iekant panaumo tarp tiriam genetini sek
Iekant bendros struktros
Iekant bendros funkcijos
Iekant susijusi genetini sek ar poseki
Iekant bendro protvio
Iekant informatyvi sek element
Tiriant iraiking genetini sek pasikartojim danius
Tiriant evoliucijos konservatyvum
4
7
Filogenetinis medis
Orangutan Gorilla Chimpanzee Human
From the Tree of the Life Website,
University of Arizona
Did the Florida Dentist infect his patients with HIV?
DENTIST
DENTIST
Patient D
Patient F
Patient C
Patient A
Patient G
Patient B
Patient E
Patient A
Local control 2
Local control 3
Local control 9
Local control 35
Local control 3
Yes: The HIV sequences from
these patients fall within
the clade of HIV sequences
found in the dentist.
No
No
From Ou et al. (1992) and Page & Holmes (1998)
Phylogenetic tree
of HIV sequences
from the DENTIST,
his Patients, & Local
HIV-infected People:
5
9
Datos nustatymas (angl. dating)
akn turintis filogenetinis medis yra tiktinas genetini pokyi chronologijos variantas
Vienoje pokyiai vienoje evoliucijos akoj (angl. clade) vaizduojami ariau medio lap yra vyk vliau nei esantys ariau aknies
10
Filogenetiniai mediai
Mediai esybi ryiams vaizduoti
Intuityvus, patrauklus vaizdavimas
Naudojamas daugelyje disciplin
6
11
Filogenetiniai mediai svokos
12
Filogenetiniai mediai svokos
7
13
Filogenetiniai mediai svokos
14
Filogenetiniai mediai galimi variantai
n = duomen skaiius
Medi skaiius turini aknis for n = 3.
akn turini medi NR = (2n-3)!/2n-2(n-2)!
aknies neturini medi NU = (2n-5)!/2n-3(n-3)!
1 1 3
2 3 2
3 -> ((1, 2), 3) 2 -> ((1, 3), 2) 1 -> ((3, 2), 1)
Newicko formatas
n NR NU
2 1 1
3 3 1
5 105 15
10 34x106 2x106
15 213x1012 7x1012
20 8x1021 0.2x1021
8
15
Filogenetins analizs ingsniai
Galima iskirti iuos filogenetins analizs ingsnius:
Duomen sek filogenetinei analizei parinkimas
Duomen sek sulygiavimas (angl. multiple sequence alignment)
Medio konstravimas
Medio vertinimas
Jonathan Pevsner Bioinformatics and Functional Genomics 2003
16
Duomen sek filogenetinei analizei
parinkimas
Filogenetinei analizei parenkamos homologins sekos:
Nukleotidins sekos
Baltym sekos
Baltym sek analiz informatyvesn tiriant labiau nutolusius objektus
Nukleotid sek analiz informatyvesn tiriant labiau susijusius objektus
9
17
Duomen sek filogenetinei analizei
parinkimas
Baltym sekose:
Yra 20 galim bsen (aminorgi)
Nukleotidini sekose:
Sinonimins ir nesinonimins pakaitos
Nekoduojanios sritys
Pseudogenai
Galima vertinti vairi pakait danius (pvz.: tranzicijos vs transversijos)
18
Duomen sek sulygiavimas
Prie atliekant palyginamj analiz sekos turi bti sulygiuojamos
Maksimizuojant sutampanias lygiuojamas bazes (panaumo metodas)
Minimizuojant nesutampanias lygiuojamas bazes (atstumo metodas)
Tarpai atsirandantys dl ikrit ar intarp, kur sekos nesutampa minimizuojami
10
19
Duomen sek sulygiavimas,
panaumo matai Paprasiausi panaumo matai:
Hemingo (angl. Hamming) atstumas skaiius pozicij, kuriose sekos skiriasi (tinka tik vienodo ilgio sekoms)
Leventeino (angl. Levenshtein) arba redagavimo (angl. edit) atstumas skaiius redagavimo operacij vienoje sekoje, kad sekos tapt lygiom (tinka ir skirtingo ilgio sekoms)
Pvz.:
20
Duomen sek sulygiavimas,
panaumo matai Sek palyginimas
11
21
Duomen sek sulygiavimas,
panaumo matai
Sudtingesni modeliai leidia atsivelgti daugiau vairi kriterij, pavyzdiui, kad kintant nukleotid sekoms tranzicijos yra danesns negu transversijos:
Amino rgi sekoms pakait matricos gali bti sudaromas vertinant pakait danius (Pvz.: Dayhoff, BLOSUM matricos)
Arthur M. Lesk Introduction to Bioinformatics 2 ed. 2005.
22
Sulygiavimo su ClustaW pavyzdys
12
23
Filogenetinio medio formavimas
24
Genetiniai atstumai
Genetinis atstumas tai statistika leidianti vertinti, kaip populiacijos ar atskiros molekuls yra susij tarpusavyje.
Taip pat tai atstumas genolapyje
apibriamas rekombinacij daniu ir matuojamas santimorganomis (cM)
13
25
Genetiniai atstumai
Kuo didesnis evoliucinis atstumas tarp populiacij
ar molekuli, tuo didesn genetinio atstumo
statistikos reikm
Genetinio atstumo statistikos veriai leidia
pasakyti ne tik, kad C ir D yra kil i ankstesnio
protvio nei A ir B, bet kad j protvis yra,
pavyzdiui, dvigubai senesnis
Pagal genetinius atstumus galima sudarinti
filogenetinius medius
26
Genetiniai atstumai tarp sulygiuot sek
Hemingo atstumas
Juke-Cantor atstumas
Kimura atstumas
skaiius srii kuriose tiriamos sekos skiriasi
tiriam nukleotid ar amino rgi sek ilgis
)3
41ln(
4
3HJC DD
N
nDH
)21
1ln(
4
1)
21
1ln(
2
180
QQPDK
N
nQ
josTransverti
N
nP
sTranzicijo
14
27
Genetiniai atstumai tarp sulygiuot sek
1. AGGCC ATGAA TTAAG AATAA
2. AGCCC ATGTA TAAAG AGTAA
2,020
4HD
23,0)10
2
3
41ln(
4
3JCD
23,0)
20
321
1ln(
4
1)
20
3
20
121
1ln(
2
180
KD
28
Genetiniai atstumai tarp populiacij
Paprasiausias genetinio atstumo matas tarp dviej populiacij X ir Y, yra suma pasirinktos genetins srities (angl. locus) aleli dani skirtum
io mato trkumas, kad daniams esant arti 0% arba 100% yra suteikiamas
nepakankamas svoris.
2)(
i
ii yxdxi, yi i-tojo alelio danis
atitinkamai populiacijoje X ir Y
15
29
Genetiniai atstumai tarp populiacij
)1( pp
VF
p
ST
Danai naudojami klasikiniai genetinio atstumo matai yra FST ir D
)ln(22
i
ii
i
ii
yx
yx
D
Vp gen dani populiacijose dispersija
p gen dani populiacijose vidurkis
xi, yi i-tojo alelio danis atitinkamai
populiacijoje X ir Y
30
Populiacijos ir molekulinius genetinius
atstumus skaiiuojanti programin ranga
* Mark Jobling, Matthew Hurles, Chris Tyler-Smith
Human Evolutionary Genetics: Origins, Peoples and Disease 2003
16
31
Filogenetiniai mediai metodai
Filogenetiniai metodai yra klasifikuojami
Pagal tiriam duomen tip
Medio konstravimo bd
Tiriami duomenys yra dviej klasi
Atstum
Element (angl. characters)
Skiriamos dvi medi konstravimo metod klass
Blokini sudarymo (angl. clustering) metodai
Paiekos metodai
32
Filogenetiniai metodai UPGMA
Paingsninis blokini sudarymo metodas
Privalumas
Patogus pateikimas iuo metu egzistuojani takson
Trkumas
Yra vadovaujamasi prielaida, kad evoliucijos
procesas visus taksonus veikia vienodai
Nepasvert por-grupi metodas su aritmetiniu vidurkiu (UPGMA)
Algoritmo pavyzd galima rasti: http://www.icp.be/~opperd/private/upgma.html
17
33
Filogenetiniai metodai UPGMA Jonathan Pevsner
Bioinformatics and Functional Genomics
2003
34
Filogenetiniai metodai UPGMA
1. Pasirenkama maiausia Dij reikm
2. Maiausi atstum turinios reikms sujungiamos ir atstumai iki bendro
protvio priskiriami lygs Dij/2
Dij Lokys Meknas ebenktis Ruonis
Lokys - 0.26 0.34 0.29
Meknas - 0.42 0.44
ebenktis - 0.44
Ruonis -
Lokys Meknas
0.13 0.13
18
35
Filogenetiniai metodai UPGMA
3. Suskaiiuoti nauj bendro tako atstum iki kit ri. Imant aritmetin vidurki vis bendr tak sudarani element atstum iki kit ri.
Lokys Meknas
0.13 0.13
365.02
44.029.0
2
38.02
42.034.0
2
)(
)(
RMRLLMR
ML
LM
DDD
DDD
Dij Lokys Meknas ebenktis Ruonis
Lokys - 0.26 0.34 0.29
Meknas - 0.42 0.44
ebenktis - 0.44
Ruonis -
36
Filogenetiniai metodai UPGMA
Pradedame algoritm i pradi ir tsiame kol visi elementai bus sujungti:
Pasirenkama maiausia Dij reikm
Maiausi atstum turinios reikms sujungiamos ir atstumai iki bendro
protvio priskiriami lygs Dij/2
Dij
Lokys /
Meknas ebenktis Ruonis
Lokys /
Meknas - 0.38 0.365
ebenktis - 0.44
Ruonis -
Lokys Meknas Ruonis 0.13
0.1825 0.1825
19
37
Filogenetiniai metodai UPGMA Dij Lokys /
Meknas ebenktis Ruonis
Lokys /
Meknas - 0.38 0.365
ebenktis - 0.44
Ruonis -
Lokys Meknas Ruonis 0.13
0.1825 0.1825
205.02
44.038.0
2)(
RLMLMR
DDD
Dij LMR ebenktis
LMR - 0.41
ebenktis -
Lokys Meknas Ruonis 0.13
0.1825
0.205
0.205
ebenktis
38
20
39
40
21
41
Udavinys
Duotos 5 skirtingos sekos:
1: G G G A G G A T C A
2: G G G A G T A T C A
3: G G A T A G A C A T
4: G A T C A T G T A T
5: G T T C A T A T C T
Sudarykite atstum matric ir nubraiykite UPGMA filogenetin med.
42
Filogenetiniai metodai UPGMA
2 3
4 1 1 4 3 2
Tikras medis UPGMA
Atgal prie trkum:
Metodas traktuoja, kad molekulinis laikrodis eina pastoviai (mutacijos gyjamos vienodu tempu)
iuo metodu sudaromi tik akn turintys mediai
22
43
Filogenetiniai metodai
Kaimyn-Jungimo (angl. Neighbor-Joining)
Blokini sudarymo metodas siekiantis rasti minimali ak ilgi sumos (S) reikm
Labai greitas paingsninis metodas
Pradedamas nuo vaigdinio medio
Visos galimos takson poros peririmos
Pora davusi maiausi S reikm sujungiama
Atstumas iki sujungto elemento yra vidurkis
atstum iki sudtinio elemento nari
44
Filogenetiniai metodai
Kaimyn-Jungimo (angl. Neighbor-Joining)
Pavyzdys
23
45
Kaimyn-Jungimo metodas: pavyzdys
Tarkime tiriamos rys vystsi, kaip pavaizduota evoliuciniame medyje ir atitinkama atstum matrica yra:
I atstum matricos matome, kad UPGMA metodas nra tinkamas, nes evoliucija skirtingose evoliucijos medio akose vyko skirtingais tempais, todl Kaimyn-Jungimo metodas turt duoti tikslesn rezultat
A B C D E
B 5
C 4 7
D 7 10 7
E 6 9 6 5
F 8 11 8 9 8
46
Kaimyn-Jungimo metodas: pavyzdys
Algoritmas:
1. Suskaiiuojami kiekvienos ries nuotolis nuo kit
dij A B C D E
B 5
C 4 7
D 7 10 7
E 6 9 6 5
F 8 11 8 9 8
j
iji drdij i-tosios ries
nuotolis nuo j-tosios
rA = 5+4+7+6+8=30
rB = 42
rC = 32
rD = 38
rE = 34
rF = 44
2. Suskaiiuojame nauj atstum matric pagal formul
2
N
rrdM
ji
ijij
Mij naujos atstum
matricos elementas
N ri (angl. taxa)
skaiius
24
47
Kaimyn-Jungimo metodas: pavyzdys
1326
42305
2
N
rrdM BAABAB
dij A B C D E
B 5
C 4 7
D 7 10 7
E 6 9 6 5
F 8 11 8 9 8
2. Suskaiiuojame nauj atstum matric pagal formul
2
N
rrdM
ji
ijij
rA = 30
rB = 42
rC = 32
rD = 38
rE = 34
rF = 44
Pavyzdiui
Mij A B C D E
B -13
C -11,5 -11,5
D -10 -10 -10,5
E -10 -10 -10,5 -13
F -10,5 -10,5 -11 -11,5 -11,5
48
Kaimyn-Jungimo metodas: pavyzdys
3. Suporuojame tuos du elementus, kuri tarpusavio atstumas maiausias (ms atveju A ir B arba D ir E) pasirinkime A ir B.
F A B
E C
D
Mij A B C D E
B -13
C -11,5 -11,5
D -10 -10 -10,5
E -10 -10 -10,5 -13
F -10,5 -10,5 -11 -11,5 -11,5
Dabar pradsime nuo vaigdinio medio
25
49
Kaimyn-Jungimo metodas: pavyzdys
3. Taip pat suskaiiuojame atstumus iki i element bendro protvio
dij A B C D E
B 5
C 4 7
D 7 10 7
E 6 9 6 5
F 8 11 8 9 8 1)2(22
N
rrdS BAABAU
rA = 30
rB = 42
rC = 32
rD = 38
rE = 34
rF = 44
4 AUABBU SdS
4. Suskaiiuojama vis element atstumus iki naujo elemento (jungianio A ir B)
32
ABBCACCUd
ddd Analogikai su likusiais elementais
dDU = 6
dEU = 5
dFU = 7
Suskaiiav naujus atstumus suraome juos nauj atstum matric
50
Kaimyn-Jungimo metodas: pavyzdys
Naujai suskaiiuota atstum matrica
Vis tai galime pavaizduoti mediu:
dij U C D E
C 3
D 6 7
E 5 6 5
F 7 8 9 8 D C
A
1
4
E F B
N = N 1
Ir vis procedr kartojame i pradi
26
51
Kaimyn-Jungimo metodas
Privalumai
Greitas, tinkamas dideliems duomen kiekiams ir kokybs vertinimui Bootstrap metodu
Toleruoja skirtingus akos ilgius vienoje genetinje linijoje
Trkumai
Sekos informacija neinaudojama
Grainamas tik vienas galimas medis
52
Kaimyn-Jungimo metodas - pavyzdys
Filogenetinis medis buvo sudarytas naudojant
Phylip programin rang
http://evolution.gs.washington.edu/phylip.html
Neighbor Joining (Kaimyn-Jungimo) Metodu
Medis pavaizduotas TreeView programine ranga
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
27
53
Elementais grindiami filogenetiniai
metodai maksimalaus yktumo metodas
Maksimaliai yktus (angl. parsimony) medis
Maiausias evoliucini pokyi skaiius paaikinantis duomenis
ak ilgis individuali evoliucijos ingsni toje akoje skaiius
Iekant maksimaliai yktaus medio yra peririmos visos galimos medi topologijos, todl is metodas nra tinkamas esant dideliems duomen
54
Elementais grindiami filogenetiniai
metodai maksimalaus yktumo metodas
Maksimalaus yktumo metodas gali naudoti informacij apie skirting mutacij danius:
Transversijos vyksta reiau nei tranzicijos
inomos daniausiai kintanios (angl. hypermutable) sritys
28
55
Elementais grindiami filogenetiniai
metodai maksimalaus yktumo metodas
Maksimalaus yktumo metodas yra jautrus nevienodiems evoliucijos daniams
56
Maksimalaus yktumo metodas: pavyzdys
Tarkime, turime homologines
sekas
Galim aknies neturini medi skaiius yra 3
Taigi perrenkame juos tirdami,
kuris i j reikalauja maiausiai evoliucini ingsni
Seka Sritis
1 2 3 4 5 6 7 8 9
1 A A G A G T G C A
2 A G C C G T G C G
3 A G A T A T C C A
4 A G A G A T C C G
29
57
Maksimalaus yktumo metodas: pavyzdys
Labiausiai yktus medis
58
Maksimalaus yktumo metodas
Privalumai:
Nesumaina sekos informacijos iki vieno skaiiaus
Bandoma apibrti ir protvi sekas
vertinami skirtingi mediai
Trkumai:
Palyginus su atstum matricom grindiamais metodais yra ltas
Nenaudoja visos sek informacijos, tik informatyvias sritis
Neatsivelgiama grtamsias mutacijas
Nepateikia informacijos apie medio ak ilgius
30
59
Elementais grindiami filogenetiniai
metodai maksimalaus yktumo metodas
Maksimaliai ykt med galima sivaizduoti, kaip hipotez siekiani paaikinti duomenis
Alternatyvs mediai = alternatyvius hipotezs
Hipotezs tikrinamos naudojant tiktinumus
Fiksuojamas evoliucijos modelis
Vertiname tikimybes, kad tikrinamas modelis
sugeneruos tiriamus duomenis
60
Programin ranga filogenetinei analizei
Joe Felsenstein, University of Washington
http://evolution.genetics.washington.edu/phylip/software.html
31
61
Filogenezs patikimumo vertinimas
Patikimumas dar gali bti vertintas naudojant Bootstrap metod
Idja jei duomenys stipriai atitinka med, tai atsitiktinai pasirinktas j poaibis turi irgi atitikti tiriam med
Naujo medio sudarymui duomenys atsitiktinai paimami i turim
duomen tai kartojama daug kart
Turimas duomen rinkinys
Naujas duomen rinkinys
Gavus naujus
duomenis yra vl sudaromas
filogenetinis medis ir
po daugelio
simuliacij irima kiek kart, kuri medio aka pasikartojo
62
Bootstrap metodo taikymo pavyzdys
Tarkime tiriamos sekos
Suskaiiuojame atstum matric ir nubraiome filogenetin med
32
63
Bootstrap metodo taikymo pavyzdys
Patikrinsime savo medio tiktinum Bootstrap metodu
Atsitiktinai sugeneruosime tris duomen rinkinius
Jiems sudarysime filogenetinius medius
vertinsime kiek kart atliekant simuliacijas pasirod virni deriniai
64
Bootstrap metodo taikymo pavyzdys
Pradins sekos
Sugeneruotos sekos
33
65
Bootstrap metodo taikymo pavyzdys
Pradins sekos
Sugeneruotos sekos
Rezultatas
66
Viso genomo analiz
Delsuc F, Brinkmann H, Philippe H. Phylogenomics and the reconstruction of the tree of life. Nat Rev Genet. 2005