Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski...

35
FILOGENETYKA Bioinformatyka, wyk Bioinformatyka, wyk ł ł ad ad 8 8 c.d. c.d. ( ( 7 7 .X .X II II .20 .20 1 1 0) 0) [email protected] [email protected]

Transcript of Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski...

Page 1: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

FILOGENETYKA

Bioinformatyka, wykBioinformatyka, wykłład ad 8 8 ––

c.d.c.d. ((77.X.XIIII.20.20110)0)

[email protected][email protected]

Page 2: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Filogenetyka

Cel

rekonstrukcja historii ewolucji wszystkich organizmów.

Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań

cech morfologicznych i fizjologicznych

badanych organizmów.

Page 3: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

zadaniem filogenetyki molekularnej

jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami

sekwencje przodka mutujsekwencje przodka mutująą w sekwencje potomkw sekwencje potomkóóww

podobne gatunki spodobne gatunki sąą genetycznie blisko spokrewnionegenetycznie blisko spokrewnione

••

podstawowe zapodstawowe załłoożżenia w filogenetyce molekularnej:enia w filogenetyce molekularnej:

wyrazem analiz filogenetycznych są drzewa filogenetyczne

Page 4: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr
Page 5: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Tree of life (Darwin)

Page 6: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

eukarionty

archea

bakterie

Tree of life (dziś)

Page 7: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

kręgowce grzyby

rośliny

Page 8: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Tree of life?

Biology Direct 2009, 4:33

Page 9: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Genome Biology 2006, 7:116

Page 10: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Taksony mono- i polifiletyczne

Page 11: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

gatunek Agatunek A

gatunek Bgatunek B

gatunek Cgatunek C

gatunek Dgatunek D

gatunek Egatunek E

gagałąźłąź

wwęęzezełł

korzekorzeńń

przykładowe nieukorzenione drzewo filogenetyczne

przykładowe ukorzenione drzewo filogenetyczne

GaGałąźłąź

--

obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi.

DDłługougośćść

gagałęłęzi zi --

zazwyczaj reprezentuje liczbę

zmian, które się

zdarzyły w danej linii ewolucyjnej.

KorzeKorzeńń

--

wspólny przodek dla wszystkich taksonów.

ddłługougośćść

gagałęłęzizi

LiLiśćść

--

reprezentuje aktualnie analizowaną

jednostkę

taksonomiczną. WWęęzezełł

--

reprezentuje jednostkę

taksonomiczną

(populację, organizm, gen). Może przedstawiać

współcześnie istniejący takson, jak i jego przodka.

gatunek Agatunek A

gatunek Bgatunek B

gatunek Cgatunek C

wwęęzezełł

gagałąźłąź

ddłługougośćść

gagałęłęzizi

liliśćśćliliśćść

Page 12: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Mechanizmy ewolucji

-

Mutacje w genach. Mutacje są

rozprzestrzeniane w populacji

poprzez dryf genetyczny lub/i

selekcję

naturalną

-

Duplikacja i rekombinacja genów.

Page 13: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Etapy analizy filogenetycznej

Dobór i dopasowane sekwencji

Wybór modelu substytucji

Wybór metody oceny odległości ewolucyjnej

Konstrukcja drzewka

Ocena i analiza skonstruowanego drzewka

Page 14: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

16S 16S rRNArRNA

Dopasowanie wielu sekwencji Dopasowanie wielu sekwencji ––MMultiple

sequence alignment (MSA)

E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGATh. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA

B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGAAncyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA

Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGAmatch ** *** * ** ** * **

Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA

Page 15: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Grupa sekwencji homologicznych

Dopasowanie wielu sekwencji

Silne podobieństwo

sekwencji?

Metoda maksymalnej parsymoni

-

MP

Rozpoznawalne podobieństwo

sekwencji?

Metody oparte na

odległościach (dystansowe)

Metoda maksymalnej wiarygodności

-ML

Sprawdzanie poprawności rekonstrukcji

taktak

nienie

taktak

nienie

Metody tworzenia drzewek filogenetycznych

Page 16: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Metoda maksymalnej Metoda maksymalnej parsymoniiparsymonii

--

MPMP

Drzewko filogenetyczne skonstruowane

metodą

MP

to takie, które wymaga

najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych

sekwencjach

Page 17: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Metoda Metoda MPMP

Seq1Seq1 AA A G A G A G A G TT G G CC AA

Seq2Seq2 AA G C C G G C C G TT G G CC GG

Seq3Seq3 AA G A T A G A T A TT C C CC AA

Seq4Seq4 AA G A G A G A G A TT C C CC GG

11 11 1122

22

22

33

33

3344 44 44

Miejsce „informatywne”

dla sekwencji nukleotydowych to takie, w którym obserwuje się

przynajmniej dwa różne nukleotydy i są

one

prezentowane przynajmniej w dwóch sekwencjach.

Page 18: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

1 21 2

3 43 4

1 31 3

2 4 2 4

1 21 2

4 3 4 3

Position 2Position 2

Position 3Position 3

Position 4Position 4

Position 5Position 5

Position 7Position 7

Position 8Position 8

Seq1Seq1 AA A G A G A G A G TT G G CC AA

Seq2Seq2 AA G C C G G C C G TT G G CC GG

Seq3Seq3 AA G A T A G A T A TT C C CC AA

Seq4Seq4 AA G A G A G A G A TT C C CC GG

Sum Sum 11 11 10 10 1212

Position of Position of sequences on the sequences on the treetree

mutacja

Page 19: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Metoda maksymalnej wiarygodności –

Maksimum likelihood

(ML)

Drzewko filogenetyczne skonstruowane metodą

ML

to takie,

które z największym prawdopodobieństwem odtwarza obserwowane dane

Page 20: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Maximum

likelihood

method

(ML)1. Wyliczana jest wiarygodność

(prawdopodobieństwo -

L) dla każdego informatywnego

miejsca

2. Następnie sumowane są wszystkie wartości L dla

każdego możliwego drzewa

3. Porównywane są

ze sobą

wartości L dla

każdego możliwego drzewa i wybierane jest to, które ma najwyższą

wartość

L -

całościoweczyliWybierane jest to drzewo, które przy danym modelu najbardziej pasuje do analizowanych danych

Page 21: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Sekwencja 1: ACGCGTTGGG

Sekwencja 2: ACGCGTTGGG

Sekwencja 3: ACGCAATGAA

Sekwencja 4: AGACAGGGAA

1 2 3 4 T T A G

? ATGC ? ATGC

? ATGC

T T A G

T G

T

Rekonstrukcja drzewa metodRekonstrukcja drzewa metodąą MLML

Analizujemy kolumnę

Proponujemy układ drzewa

Proponujemy układ nukleotydów

Przydzielenie nukleotydów

Prawd = P(T) * P(T

G) * P(G A) = 0.25*10-6*10-6

Likelihood

konkretnej pozycji jest sumą

prawdopodobieństw wszystkich możliwych rekonstrukcji przodków dla wybranego modelu .

Page 22: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

p–dystans

* * * * * * ** ** **Taxa i: AGGGCTGGTTCGGAGTCGTTAAG-GGAT--AAATaxa j: AAGG-TGGCTCTGAATTGTTCGG-GCTT-CGAA

123456789......................33Taxa a: AgggCTggTTCGgAGTCgTTAAg-ggAT--AAATaxa b: AAgg-TggCTCTgAATTgTTCgg-gCTT-CgAATaxa b: AAggCTgACTTTgAATTgTTCAgCgCTTACgAgTaxa b: AAgg-TTgCTCTgAACTgTTCggCgCTTACgAA

Długość

dopasowania: n = 33Całkowita liczba różnic: nd = 12

Dij

= = 0.3636...ndn

zaobserwowane

1233

=

Page 23: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

1 2 3 41 -2 -3 -4 -

3/20 = 0,153/20 = 0,15 7/20 = 0,357/20 = 0,35 8/20 = 0,48/20 = 0,4

6/20 = 0,36/20 = 0,3 7/20 = 0,357/20 = 0,35

3/20 = 0,153/20 = 0,15

2020

11

22

33

44

a = 0,1a = 0,1

b = 0,05

b = 0,05

d = 0,1d = 0,1

c = 0,

05

c = 0,

05

e = 0,2e = 0,2

seksek..11

A A G G DD

A A E E R R G G K K K K L L F F E E S S R R A A A A Q Q CC

SS

AA

seksek..22

A A G G D D A A E E RR

GG

KK

KK

LL

FF

E E SS

S S A A A A RR

C C S S CC

seksek..33

A A G G D D A A NN

RR

GG

K K II

II

M EM E

S S R R AA

N N RR

CC

SS

CC

seksek..44

A A GG

N N A A NN

RR

GG

K K II

L ML M

EE

SS

R R SS

NN

RR

CC

SS

CC

Page 24: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął

od momentu gdy oba

gatunki miały wspólnego przodka.

Hipoteza zegara molekularnego (MC)Hipoteza zegara molekularnego (MC)Zaproponowana przez Zuckerkandla

i Paulinga

w

roku 1962.

Opiera się

na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej

jest w

przybliżeniu stałe.

Page 25: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

•• momożżliwoliwośćść

wystwystąąpienia wielokrotnych podstawiepienia wielokrotnych podstawieńń

•• rewersjarewersja

••

rzadko obserwuje sirzadko obserwuje sięę

podstawienia mipodstawienia mięędzy adzy aminokwasami peminokwasami pełłniniąącymi cymi waważżne role w biane role w białłkach, jakkach, jak: : cysteinacysteina

(C)(C)

czy czy tryptofantryptofan

(W)(W)

••

czczęśęściej obserwuje siciej obserwuje sięę

podstawienia mipodstawienia mięędzy adzy aminokwasami podobnymi do minokwasami podobnymi do siebie, ze wzglsiebie, ze wzglęędu na swoje wdu na swoje włłaaśściwociwośści biochemiczne, ci biochemiczne, biofizyczne biofizyczne np.np.::

izoleucyna izoleucyna (I)(I) leucyna leucyna (L),(L),valinavalina (V)(V) izoleucyna izoleucyna (I),(I),kwas asparaginowy kwas asparaginowy (D)(D) kwas glutaminowy kwas glutaminowy ((E),E),

••

rzadko obserwuje sirzadko obserwuje sięę

podstawienia mipodstawienia mięędzy aminokwasami bardzo dzy aminokwasami bardzo rróóżżniniąącymi sicymi sięę

swoimi wswoimi włłasnoasnośściamiciami

tryptofan tryptofan (W)(W) izoleucyna izoleucyna (I)(I)

••

niektniektóóre aminokwasy, takie jak: re aminokwasy, takie jak: asparagina asparagina (N)(N), kwas asparaginowy , kwas asparaginowy (D)(D), , seryna seryna (S)(S)

mutujmutująą

czczęśęściej niciej niżż

inneinne

•• czczęśęściej obserwuje siciej obserwuje sięę

podstawienia typu podstawienia typu tranzycjitranzycji

niniżż

transwersjitranswersji

•• czczęśęściej obserwuje siciej obserwuje sięę

podstawienia w III pozycjach kodonpodstawienia w III pozycjach kodonóóww

•• tempo mutacji zaletempo mutacji zależży od regionu w genomie, genie, rodzaju genu, y od regionu w genomie, genie, rodzaju genu,

Page 26: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Protein Rate (mean replacements per siteper 10 9 years)

Fibrinopeptides 8.3Insulin C 2.4Ribonuclease 2.1Haemoglobins 1.0Cytochrome C 0.3Histone H4 0.01

Page 27: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

przodek

rzeczywista liczba podstawierzeczywista liczba podstawieńń

zaobserwowana zaobserwowana liczba rliczba róóżżnicnic

MELSKLTGDPARQKELSMLWKLSKLTGDRAPFVYRVLKRL

MELSKLTGDPARQKELSMLMKLSKLTGDPAPFVYRVGKRL

MELSKTTGDPARQKELSMLMKLSKLTGDPAPFYYRVGKRL

MELSKTTGDPARRKELSMLMKLSKLTGDPAPFVYRVGKRL

MELSKTTGDPARRKELKMLMELSKLTGDPAPFVYRVLKRL

MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL

potomek

3 zmiany

3 zmiany

2 zmiany

2 zmiana

2 zmiany

= 12 zmian

2 zmiany w stosunku do przodka

5 zmian w stosunku do przodka

6 zmian w stosunku do przodka

4 zmian w stosunku do przodka

5 zmian w stosunku do przodka

czas ewolucjiczas ewolucji

rr óóżż n

ice

mi

nice

mi ęę

dzy

sekw

encj

ami

dzy

sekw

encj

ami

niedoszacowanieniedoszacowanie

Page 28: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

tranzycje

i transwersje

Page 29: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Juckes-CantorK80

(Kimura)

TN93 –

rozróżnia tranzycje

i transwersje,

oraz typ tranzycji:

czy zaszła ona między purynami czy pirymidynami

TN93

(Tamura-Nei, 93)

Macierze Macierze substutucjisubstutucji

nukleotydnukleotydóóww

Page 30: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr ValA R N D C Q E G H I L K M F P S T W Y V

Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1Asn N 4 1 9822 36 0 4 6 6 21 3 1 13 0 1 2 20 9 1 4 1Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1Cys C 1 1 0 0 9973 0 0 0 1 1 0 0 0 0 1 5 1 0 3 2Gln Q 3 9 4 5 0 9876 27 1 23 1 3 6 4 0 6 2 2 0 0 1Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2Gly G 21 1 12 11 1 3 7 9935 1 0 1 2 1 1 3 21 3 0 0 5His H 1 8 18 3 1 20 1 0 9912 0 1 1 0 2 3 1 1 1 4 1Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15Lys K 2 37 25 6 0 12 7 2 2 4 1 9926 20 0 3 8 11 0 1 1Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 1 9926 12 4 0 0 2Ser S 28 11 34 7 11 4 6 16 2 2 1 7 4 3 17 9840 38 5 2 2Thr T 22 2 13 4 1 3 2 2 1 11 2 8 6 1 5 32 9871 0 2 9Trp W 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 9976 1 0Tyr T 1 0 3 0 3 0 1 0 4 1 1 0 0 21 0 1 1 2 9945 1Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 2 9901

Elementy pomnożone zostały przez 10 000

Percent

Accepted

Mutation

PAM1 -

M. M. DayhoffDayhoff

1978r.1978r.

element MIJ

tej macierzy reprezentuje prawdopodobieństwo z jakim aminokwas w kolumnie

j

zostanie podstawiony przez

aminokwas z wiersza

i

w czasie ewolucyjnym 1 PAM

element diagonalny Mii określa prawdopodobieństwo, że dany aminokwas nie ulegnie substytucji w tym czasie

Page 31: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

JEDNOSTKA PAMJEDNOSTKA PAM

((PPercentercent

AAcceptedccepted

MMutationutation) ) ––

miara odlegmiara odległłoośści ewolucyjnej mici ewolucyjnej mięędzy sekwencjamidzy sekwencjami..

M. M. DayhoffDayhoff

i wspi wspóółłpracownicy pracownicy ––

1978r.1978r.

1 PAM1 PAM

––

odpowiada takiemu czasowi ewolucyjnemu, odpowiada takiemu czasowi ewolucyjnemu, podczas ktpodczas któórego, w porrego, w poróównywanych sekwencjach, wnywanych sekwencjach, zmianie ulegnie 1 aminokwas na 100 (ok. 1 zmianie ulegnie 1 aminokwas na 100 (ok. 1 mlnmln

lat)lat)

MELSKLTGDPAPFVYRVLKR ..... SKLTGDPAP ..... KVVFRISESPMIFKAYPLDI ..... MELSKLTGDPA ... REKELKMLMELSKLTGDPAPFVYRVLKRL ..... LDIVLSSLIHEREKELKML

MELSKLTDDPAPFVYRYLKR ..... SKLTQDPAP ..... KVVFRISRSPWIFKAVPLDI ..... MELSKTTGDPA ... REKELDMLMELSKLTGDPAPFVYRVFKRL ..... LDIVLSSLIHERRKELKML

1000 aminokwasów

10

zmienionych aminokwasów

Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1%

Page 32: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Ewolucyjna macierz PAMEwolucyjna macierz PAM

Macierz PAM Macierz PAM --

PercentPercent

AcceptedAccepted

MutationsMutations

((DayhoffDayhoff

i i wspwspóółłprpr. 1978). 1978)

Utworzona przez porUtworzona przez poróównanie blisko spokrewnionych sekwencji biawnanie blisko spokrewnionych sekwencji białłek (ponad ek (ponad 85% identyczno85% identycznośści) o znanych powici) o znanych powiąązaniach filogenetycznych; naliczenie 1572 zaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcjzmian zaakceptowanych (przez selekcjęę) w 71 grupach bia) w 71 grupach białłek.ek.

UwzglUwzglęędnia dnia mutabilnomutabilnośścici

poszczegposzczegóólnych aminokwaslnych aminokwasóóww

MWTMWTVVSALVSALVGGQQ

MWTMWTAASALVSALVGGQQ

MWTMWTVVSALVSALVLLQQ

MWTMWTVVSALVSALVGGQQ MWTMWTAASALVSALVGGQQ MWTMWTVVSALVSALVLLQQ

VV --> > AA GG --> > LL

Page 33: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Macierz PAM Macierz PAM ––

log log oddsodds

jejeżżelieli

log log oddsodds << 00::

dana substytucja zachodzi rzadziej nidana substytucja zachodzi rzadziej niżż

nalenależżaałło sio sięę

spodziewaspodziewaććjejeżżelieli

log log oddsodds >> 00::

dana substytucja zachodzi czdana substytucja zachodzi częśęściej niciej niżż

nalenależżaałło sio sięę

spodziewaspodziewaćć(np. +1 oznacza, (np. +1 oznacza, żże dana substytucja jest obserwowana 10 razy cze dana substytucja jest obserwowana 10 razy częśęściej niciej niżż

nalenależżaałło sio sięę

spodziewaspodziewaćć))jejeżżelieli

log log oddsodds == 00::

dana substytucja zachodzi z takdana substytucja zachodzi z takąą

samsamąą

czczęęstostośściciąą

jak w sekwencji jak w sekwencji losowejlosowej

Wyliczenie wartoWyliczenie wartośści log ci log oddsodds::

PPoo ––

obserwowana czobserwowana częęstotliwostotliwośćść

wystwystęępowania mutacji powania mutacji

PPee ––

oczekiwana czoczekiwana częęstotliwostotliwośćść

wystwystęępowania mutacji powania mutacji (losow(losowaa))

log log oddsodds = log (P= log (Po/o/PPee))

Page 34: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

A R N D C Q E G H I L K M F P S T W Y VA R N D C Q E G H I L K M F P S T W Y V

A A 2 2

R R --2 6 2 6

N 0 0 2 N 0 0 2

D 0 D 0 --1 2 4 1 2 4

C C --2 2 --4 4 --4 4 --5 12 5 12

Q 0 1 1 2 Q 0 1 1 2 --5 4 5 4

E 0 E 0 --1 1 3 1 1 3 --5 2 4 5 2 4

G 1 G 1 --3 0 1 3 0 1 --3 3 --1 0 5 1 0 5

H H --1 2 2 1 1 2 2 1 --3 3 1 3 3 1 --2 6 2 6

I I --1 1 --2 2 --2 2 --2 2 --2 2 --2 2 --2 2 --3 3 --2 5 2 5

L L --2 2 --3 3 --3 3 --4 4 --6 6 --2 2 --3 3 --4 4 --2 2 62 2 6

K K --1 3 1 0 1 3 1 0 --5 1 0 5 1 0 --2 0 2 0 --2 2 --3 53 5

M M --1 0 1 0 --2 2 --3 3 --5 5 --1 1 --2 2 --3 3 --2 2 4 0 62 2 4 0 6

F F --4 4 --4 4 --4 4 --6 6 --4 4 --5 5 --5 5 --5 5 --2 1 2 2 1 2 --5 0 95 0 9

P 1 0 P 1 0 --1 1 --1 1 --3 0 3 0 --1 1 --1 0 1 0 --2 2 --3 3 --1 1 --2 2 --5 65 6

S 1 0 1 0 0 S 1 0 1 0 0 --1 0 1 1 0 1 --1 1 --1 1 --3 0 3 0 --2 2 --3 1 23 1 2

T 1 T 1 --1 0 0 1 0 0 --2 2 --1 0 0 1 0 0 --1 0 1 0 --2 0 2 0 --1 1 --3 0 1 3 3 0 1 3

W W --6 2 6 2 --4 4 --7 7 --8 8 --5 5 --7 7 --7 7 --3 3 --5 5 --2 2 --3 3 --4 0 4 0 --6 6 --2 2 --5 17 5 17

Y Y --3 3 --4 4 --2 2 --4 0 4 0 --4 4 --4 4 --5 0 5 0 --1 1 --1 1 --4 4 --2 7 2 7 --5 5 --3 3 --3 0 10 3 0 10

V 0 V 0 --2 2 --2 2 --2 2 --2 2 --2 2 --2 2 --1 1 --2 4 2 2 4 2 --2 2 2 2 --1 1 --1 1 --1 0 1 0 --66 --2 4 2 4

Rzadkie aminokwasy majRzadkie aminokwasy mająą

dudużże wagie wagi

PospolitePospolite

aminokwasy majaminokwasy mająą

mamałłe wagie wagi

Ujemne wartoUjemne wartośści dla rzadkich ci dla rzadkich podstawiepodstawieńń

Dodatnie wartoDodatnie wartośści dla czci dla częęstszych stszych podstawiepodstawieńń

Page 35: Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

Ewolucyjna macierz PAMEwolucyjna macierz PAM

Ekstrapolowanie czEkstrapolowanie częęstostośści ci podstawiepodstawieńń

zaobserwowanych na krzaobserwowanych na króótkich tkich dystansach na ddystansach na dłłuużższe dystansy ewolucyjne sze dystansy ewolucyjne ––

mnomnożżenie macierzy przez siebie enie macierzy przez siebie ––

uzyskanie serii tablic PAM:uzyskanie serii tablic PAM:

PAM1 PAM1 --> PAM60, PAM80, PAM120, > PAM60, PAM80, PAM120, PAM250PAM250PodobiePodobieńństwo: stwo: 99%99%

60%60%

50%50%

40%40%

20%20%

Liczba podstawieLiczba podstawieńń

na miejsce:na miejsce: 0.010.01

0.60.6

0.80.8

1.21.2

2.52.5