Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle...

46
1 1 Phylogenie Phylogenie III III WS 2007/2008 Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik Bernhard Lieb & Tom Hankeln Molekulare Molekulare 2 Charakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML)

Transcript of Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle...

Page 1: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

1

1

Phylogenie Phylogenie IIIIII

WS 2007/2008

Genomforschung und Sequenzanalyse

Einführung in Methoden der Bioinformatik

Bernhard Lieb &Tom Hankeln

MolekulareMolekulare

2

Charakter-orientierte Methoden

1. Maximum Parsimony (MP)

2. Maximum Likelihood (ML)

����

Page 2: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

2

3

Maximum Likelihood

Zum ‘ersten’ mal von Cavalli-Sforza and Edwards (1967) für ‘gene frequency data’ benutzt, später (1981) von Felsenstein für DNA Sequenzen

L = P(D|H)

Wahrscheinlichkeit der Daten, gegeben eine Hypothese

Die Hypothee ist eine Baumtopologie, dessen Astlängen und ein Evolutionsmodell unter dessen

‘Präsenz’ die Daten evolvierten

““The explanation that makes the observed outcome the most likely”The explanation that makes the observed outcome the most likely”

4

Probability and likelihood

Die Wahrscheinlichkeit Wahrscheinlichkeit liegt immer zwischenNIE (0) NIE (0) und SICHER (1).SICHER (1).

Die bedingtebedingte WahrscheinlichkeitWahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses A, gegeben das

Ereignis B: P(A|B)P(A|B).

“...if “probabilityprobability” allows us to predict unknown outcomes based on known parameters P(H|D)P(H|D), then

“likelihoodlikelihood” allows us to determine unknown parameters based on known outcomes P(D|H)P(D|H)…”.

Page 3: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

3

5

Probability and likelihood

0,5 0,5

0,25

0,25

0,5

0,5

0,5

0,5

P(ZZ|pZ=0,5)=0,25

L(pZ|ZZ)=0,25

6

Likelihood

Daten: KKZKZKKZZZ

• Ereignisse sind unabhängig

• Alle ‚Kopfwürfe‘ besitzen gleiche ‚unbekannte‘ Kopfwahrscheinlichkeit p

Hypothese

=> Likelihood L(D|H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p)

keine Verteilung, Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese)

alles wird getestet (gerechnet)

=> Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten?

L = P(L = P(DatenDaten | | Hypothese Hypothese ))

0,0 0,2 0,4 0,6 0,8 1,0[p]

Like

lihood

Page 4: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

4

7

Maximum Likelihood

L = P(data|hypothesis)

• Wahrscheinlichkeit der beobachteten Daten(Sequenzen!) im Lichte der Hypothese(Stammbaum).

• d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.

Evolutions-

modell

8

Maximum Likelihood

• benötigt ein explizites Evolutionsmodell• Parameter werden aus Daten + Modell errechnet.

• Explizite Verbindung Daten + Modell + Stammbaum.

• aber: schlechtes Modell => schlechter Stammbaum

• Alternative Stammbäume lassen sich testen

=> keine Methode extrahiert mehr Information aus den Daten; aber: sehr rechenintensiv

Page 5: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

5

9

Maximum Likelihood

Evolutionsmodelle

Für DNA-Sequenzen:=> JC, K2P, F81, HKY, REV

Für Protein-Sequenzen:=> PAM, BLOSUM, JTT, WAG ...

10

Maximum Likelihood

Seq1 CGAGAC

Seq2 AGCGAC

Seq3 AGATTA

Seq4 GGATAG

Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen ModellModell verantwortlich ist?

1

2

3

4

A

Page 6: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

6

11

Maximum Likelihood

OTU 1 CGAGA C

OTU 2 AGCGA C

OTU 3 AGATT A

OTU 4 GGATA A

j

ACGT??

C

C

A

A

ACGT

4 x 4 Möglichkeiten

Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell.

1

2

3

4

12

ML – Beispiel (vereinfacht):

C

C

A

A

Daten: Modell (nicht realistisch):

A T C G

A 1 0,1 0,1 0,1

T 1 0,1 0,1

C 1 0,1

G 1

OTU 1

OTU 2

OTU 3

OTU 4

Page 7: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

7

13

ML - Beispiel:

C

C

A

A

Stammbaum A:

X YX,Y = A, T, G, oder C

ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten

1

2

3

4

14

ML - Beispiel:

Stammbaum A1:

C

C

A

A

C T

C

C

A

A

C A

1 x 1 x 0,1 x 1 x 1 = 0,1 1 x 1 x 0,1 x 0,1 x 0,1 = 0,001

usw...

Summe aus 16 möglichen Stammbäumen!

Stammbaum A2:1. Topologie, immer gleich für unterschiedliche Knoten!

1

2

3

4

Page 8: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

8

15

ML - Beispiel:

Stammbaum B1:C

A

C

A

C T

C

A

C

A

C A

0,1 x 0,1 x 1 x 0,1 x 1 = 0,001 1 x 0,1 x 0,1 x 0,1 x 0,1 = 0,0001

usw... usw..usw…

Summe aus 16 möglichen Stammbäumen!

Stammbaum B2:2. Topologie (andere Topologie) ! Aber immer gleich für unterschiedliche Knoten!

1

2

3

4

1 2

3 4

16

ML - Beispiel:

Stammbaum A:

C

C

A

A

Gesamt"wahrscheinlichkeit":

= 0,12427=> logL = -0,90563

C

A

C

A

Gesamt"wahrscheinlichkeit":

= 0,02302=> logL = -1,6379

Stammbaum B:

Page 9: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

9

17

Wahrscheinlichkeit des Stammbaums A ist das Produktaller Wahrscheinlichkeiten für jede Position: ML-Stammbaum = Stammbaum mit größter "Likelihood".

Maximum Likelihood

1 CGAGAC

2 AGCGAC

3 AGATTA

4 GGATAG

i . . . .z

1

2

3

4

A

18

X,Y = A, T, G, oder C

A T C G

A 1,0 0,1 0,2 0,4

T 1,0 0,3 0,6

C 1,0 0,1

G 1,0

Sequence 1 CGAGAA

Sequence 2 AGCGAA

Sequence 3 AGATTT

Sequence 4 GGATAT

1x1x1x0,1x0,1=0,01

Sequence 1 CGAGAA

Sequence 2 AGCGAA

Sequence 3 AGATTT

Sequence 4 GGATAT

CGAGAA

AGCGAA

AGATTT

GGATAT

Likelihood einer vorgegebenen Topologie ist das Produkt allerWahrscheinlichkeiten jeder

Position

Berechnen aller Möglichkeiten für eine Topologie und eine

Position

Maximum Likelihood

Page 10: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

10

19

A T C G

A 1,0 0,1 0,2 0,4

T 1,0 0,3 0,6

C 1,0 0,1

G 1,0

Sequence 1 CGAGAA

Sequence 2 AGCGAA

Sequence 3 AGATTT

Sequence 4 GGATAT

Sequence 1 CGAGAA

Sequence 2 AGCGAA

Sequence 3 AGATTT

Sequence 4 GGATAT

CGAGAA

AGCGAA

AGATTT

GGATAT

Maximum Likelihood

Likelihood für alle anderen Topologienund

Vergleich der Likelihoods

L = P(data|hypothesis)

Für n=50 Sequenzen gibt es 2,84x10Für n=50 Sequenzen gibt es 2,84x107676 mögliche Bäume <mögliche Bäume <--> Atome im Universum: ~10> Atome im Universum: ~108080

20

Maximum Likelihood - Vorteile

� Mathematisch gut definiert� Funktioniert gut in Simulationsexperimenten � Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen)

� "Realistische" Annahmen zur Evolution� Verschiedene Modelle und Stammbäume lassen sich testen

Page 11: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

11

21

Maximum Likelihood - Nachteile

� Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief:Wie gut stimmt mein Modell

mit den Daten überein?

22

Maximum Likelihood – Lokale Maxima

„Bauminsel“

Page 12: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

12

23

Maximum Likelihood

� Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar

� Lösung: "Intelligente Algorithmen"- Quartet puzzling- Bayessche Methode + MCMCMC

für n=50 Sequenzen gibt es 2,84x10für n=50 Sequenzen gibt es 2,84x107676 mögliche Bäumemögliche Bäume

24

Was „können“ oder „kennen“ wir !?

Alignment

Distanz matrix

Evolutions-modelle

Neigbor JoiningMax.Parsimony

Max. Likelihood UPGMA

Stammbaum

Page 13: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

13

25

� Viele Methoden sind Computer-technisch nicht zu lösen, insbesondere bei vielen Taxa

� d.h., nicht alle (möglichen) Stammbäume berechenbar

Die Machbarkeit !?

L = P(data|hypothesis)

=5,5

26

� „Intelligente Algorithmen“

- Quartet puzzling

- Bayes´sche Methode + MCMCMC

Die Machbarkeit !?

Page 14: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

14

27

Quartet puzzling

� Wie löst man ein großes Problem?

=> Man zerlegt es in viele kleine Teilprobleme.

� Wenn es aber zu viele kleine Teilprobleme sind?

=> Man rechnet von der Lösung einiger Teilprobleme auf die Lösung des Gesamtproblems hoch.

� Quartet puzzling: Errechnung eines Gesamtstammbaums aus vielen Einzelstammbäumen mit jeweils vier Taxa => Quartetten!

� Programm: Tree-Puzzle (Strimmer & van Haeseler, 1996) http://www.tree-puzzle.de/

28

The „shell“

Page 15: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

15

29

Treepuzzle

Max Likelihood

Quartet-puzzle

Majority rule consensus3.)

1.)

2.)

Drei Schritte

30

Quartet puzzling

OTU 1

OTU 1 OTU 2

OTU 1 OTU 2

OTU 3

OTU 1

OTU 4

OTU 2

OTU 3

OTU 1

OTU 3

OTU 2

OTU 4

OTU 1

OTU 2

OTU 3

OTU 4

3.)

4.)1.)

2.)

=> Quartett ist die minimale Einheit zur Lösung eines phylogenetischen Problems.

Page 16: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

16

31

• Summe der „Likelihoods“ (eine Position, alle Möglichkeiten)

• Produkt aller „Likelihoods“(alle Positionen)

Berechnung: wie bei ML

Wahrscheinlichkeit für einen Stammbaum

∑∑∑∑====

n

1i)i(LlnlnL=

Berechnung der Einzelwahrscheinlichkeiten

32

Berechnung der Einzelwahrscheinlichkeiten

OTU 1

OTU 4

OTU 2

OTU 3

OTU 1

OTU 3

OTU 2

OTU 4

L1

L2

L3

voteand puzzle

Größte

Likelihood

OTU 1

OTU 2

OTU 3

OTU 4

Page 17: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

17

33

ABCDE

ML Quartette

ABCDE, ABCDE, ABCDE, ABCDE

Puzzling step (für 5. Taxon)

34

Puzzling step für 5 Taxa

Page 18: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

18

35

Hinzufügen der restlichen Sequenzen an den besten Vierer-Baum über „Nachbarbeziehungen“

� viele viele viele intermediäre Bäume Schon wieder nicht möglich => häufige Wiederholung der „Puzzling steps“ mit verschiedenen Ausgangstopologien

Puzzling step

36

Quartet puzzling

.....

Scorpion

Vogelspinne

Tausendfüsser

Doppelfüsser

Hummer

Flohkrebs

Drosophila

Heuschrecke

44

90

66

88

95

"Puzzling" = Bastelneines kompletten Stammbaums.

= Wie häufig stehen die OTUs in Quartetten zusammen?Je höher dieser Wert ist, desto besser ist die entsprechende Topologie (alles, was rechts des Knotenpunkts steht) abgesichert (~ "Bootstrap"-Unterstützung).

Page 19: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

19

37

Quartet puzzling

Vorteile:• Relativ schnelle Methode um ML-Stammbaum zu konstruieren. • Phylogenetischer Informationsgehalt der Sequenzen lässt sich einfach bestimmen => "Likelihood mapping".

Nachteile:• Wenn Anzahl der OTUs groß, werden nicht alle möglichen Quartette berechnet, sondern aus einem Teil der Daten der komplette Stammbaum konstruiert.

• Quartette nicht immer aufgelöst, d.h. Topologie nicht immer eindeutig

• Unterstützungswerte wahrscheinlichkeitstheoretisch nicht eindeutig definiert.

38

"Wahrscheinlichkeit" (Likelihood) der Sequenzdaten, gegeben die Topologie des Stammbaums und ein Evolutionsmodell.

Maximum Likelihood

Sequenz 5

Sequenz 3

Sequenz 2

Sequenz 4

Sequenz 1 Seq1 KIADKNFTYRHHNQLV

Seq2 KVAEKNMTFRRFNDII

Seq3 KIADKDFTYRHW-QLV

Seq4 KVADKNFSYRHHNNVV

Seq5 KLADKQFTFRHH-QLV

+ Modell(PAM, BLOSUM...)

Anders formuliert:Welcher Stammbaum (und welches Evolutionsmodell) Welcher Stammbaum (und welches Evolutionsmodell)

erklärt am besten meine Sequenzdaten?erklärt am besten meine Sequenzdaten?

L = P(data|tree)

Page 20: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

20

39

Wahrscheinlichkeit nach Bayes

• Reverend Thomas Bayes (1702-1761)(presbyterianischer Pfarrer)

• Wahrscheinlichkeitsrechnungen nach Bayeserst seit ein paar Jahren in der Statistik akzeptiert.

• Seit den 90er Jahren auch Anwendung in der molekularen Phylogenie.

40

Die Wahrscheinlichkeit ("posterior propability") beruht auf einem anfänglichen Evolutionsmodell und neuen Erkenntnissen nach einem Experiment.

Wahrscheinlichkeit nach Bayes

posterior propability P(H|D)

prior propability P(H)

Page 21: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

21

41

BayesBayes´sche Statistik beruht auf dem Satz von Bayes.

AA ist die Hypothese. BB ist das beobachtete Ereignis. P(A)P(A) ist die A-Priori-Wahrscheinlichkeit von A. P(B | A)P(B | A) ist die bedingte Wahrscheinlichkeit von B, unter der Bedingung dass die Hypothese A wahr ist (als Funktion von A nennt man sie die Likelihood-Funktion):

P(B)P(B) ist die unbedingte Wahrscheinlichkeit von B.P(A | B)P(A | B) ist die A-Posteriori-Wahrscheinlichkeit von A gegeben B.

An Essay towards solving a Problem in the Doctrine of Chances. By the late Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, M. A. and F. R. S.

42

Bayes

Page 22: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

22

43

Wahrscheinlichkeit nach Bayes

××××====

)(

)()()(

dataPtreePtreedataP

datatreeP

Die Wahrscheinlichkeit eines Stammbaums, gegeben die Sequenzdaten, enspricht dem Produkt aus der Wahrscheinlichkeit der Daten gegeben den Stammbaum (likelihood) und der Wahrscheinlichkeit

des Stammbaums (prior probability), geteilt durch die Wahrscheinlichkeit der Daten (Randbedingungen).

Posteriore Wahrscheinlichkeit für ein Ereignis A (tree) unter der

Bedingung, dass B (alignment) auftritt.

A-Priori-Wahrscheinlichkeit für ein Ereignis A

(tree)

A-Priori-Wahrscheinlichkeit für ein Ereignis B (alignment)

Die Wahrscheinlichkeit für ein Ereignis B (alignment)unter der Bedingung, dass

A (tree) auftritt (Likelihood)

44

Randbedingungen

(((( )))) )A(P)A|B(PBPB

××××==== ∑∑∑∑)...A(P)A|B(P)A(P)A|B(P 2211 ++++====

sind die Randbedingungen der Daten. D.h., es werden ALLE möglichen Werte von B berechnet. Sie geben, ebenso wie , das "Vorabwissen" an, welches man berücksichtigt.

)B(P

)A(P

)()()|(

)|(BP

APABPBAP

××××====

Page 23: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

23

45

Bayes

46

Beispiel: Ist mein Würfel gezinkt?

90 ungezinkte Würfel 10 gezinkte WürfelWurf ungezinkt gezinkt

)A(PWie gross ist die Wahrscheinlichkeit, dass ich einen gezinkten Würfel ziehe (also )? => 1/10

Page 24: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

24

47

Beispiel: Ist mein Würfel gezinkt?

Nun ziehe ich einen Würfel und würfle damit zweimal.Das Ergebnis ist:

Frage: Ist mein Würfel gezinkt?

48

-> prior-> likelihood

Wurf ungezinkt gezinkt

-> alle Möglichkeiten

Beispiel: Ist mein Würfel gezinkt?

Bayes:

2137,0≈≈≈≈) |gezinkt(P

prior posterior

0,1 0,2137

9/10ungezinkt)|(1/10gezinkt)|(

1/10gezinkt)|()|gezinkt(

×+×

×=

PP

PP

Page 25: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

25

49

Mehr Daten: Ist mein Würfel gezinkt?

Wurf Häufigkeit

979,0)D|gezinkt(P ====

021,0)D|ungezinkt(P ====

Bayes:

Nun ziehe ich einen Würfel und würfle damit 20x. Das Ergebnis ist:

2137,0≈≈≈≈) |gezinkt(P

prior posterior

0,1 0,2137

vorher:

50

Randbedingungen

(((( )))) )A(P)A|B(PBPB

××××==== ∑∑∑∑)...A(P)A|B(P)A(P)A|B(P 2211 ++++====

sind die Randbedingungen der Daten. D.h., es werden ALLE möglichen Werte von B berechnet. Sie geben, ebenso wie , das "Vorabwissen" an, welches man berücksichtigt.

)B(P

)A(P

)()()|(

)|(BP

APABPBAP

××××====

Page 26: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

26

51

Wahrscheinlichkeit nach Bayes

Bayes sucht die Bäume mit den höchsten posterior probabilities.posterior probabilities.

(((( )))) )A(P)A|B(PBPB

××××==== ∑∑∑∑)...A(P)A|B(P)A(P)A|B(P 2211 ++++====

)()()|(

)|(BP

APABPBAP

××××====

Nenner: Summation über alle denkbaren Hypothesen (Bäume)

=> MCMCMCMCMCMC „Metropolis-Coupled Markov Chain Monte Carlo“

52

Monte CarloMetropolis-Coupled Markov Chain

Wahrscheinlichkeit nach Bayes

Zufällige Stichprobe aus der posterior probability Verteilungposterior probability Verteilung ziehenStichprobe muss groß (genug) sein

Prozentsatz mit dem ‚Clade‘ bei den Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist

MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“

Page 27: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

27

53

Andrey (Andrei) Andreyevich MarkovRussischer Mathematiker (1856 – 1922)

Ein stochastischer Prozess besitzt die sogenannte Markov Eigenschaft, wenn:

Die bedingte Wahrscheinlichkeitsverteilung zukünftiger Zustände, bei gegebenen momentanten Status und allen vergangenen Ereignissen NUR von dem momentanen Status abhängt und NICHT von den vergangenen

54

Wahrscheinlichkeit nach Bayes

MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“

Zufällige Stichprobe aus der ‚posterior probability‘-Verteilung ziehenStichprobe muss groß (genug) sein

Prozentsatz mit dem eine Gruppierung (‚Clade‘) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist

Im Falle einer Markow-Kette erster Ordnung wird hierfür sogar nur Kenntnis über den momentanenmomentanen Zustand benötigt (Gedächtnislosigkeit).

Markov Chain

Ziel ist es, Wahrscheinlichkeiten für das Eintreten zukünftiger Ereignisse anzugeben

Auf lange Sicht pendelt sich Wahrscheinlichkeit auf einen Wert ein => Prozentsatz mit dem ‚Clade‘ in den Bäumen auftritt

Page 28: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

28

55

Wahrscheinlichkeit nach Bayes

MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“

Markov Chain Monte Carlo

Zufallselement - die Bank gewinnt auf lange Sicht immer

Die Masse machts - Wahrscheinlichkeit falscher Rückschlüsse sinkt mit zunehmender Generationszahl

Kurz gesagt, was bedeutet MCMC?

Viele Zufallsproben aus der posterioren Wahrsscheinlichkeitsverteilung (Bäume) nehmen und Rückschlüsse ziehen

Zufällige Stichprobe aus der ‚posterior probability‘-Verteilung ziehenStichprobe muss groß (genug) sein

Prozentsatz mit dem eine Gruppierung (‚Clade‘) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist

56

Wahrscheinlichkeit nach Bayes

Akzeptieren oder Verwerfen?

MetropolisMetropolis--HastingsHastings--GreenGreen--AlgorithmusAlgorithmus

Vorgegebener (Zufalls-)Baum Ti mit Topologie, Astlängen und Evolutionsmodell

Neuer Baum, neue Parameter

)()|()()|(

)()()|(

)()()|(

jj

ii

jj

ii

iesprobabilitposteriorTPTBPTPTBP

DPTPTBP

DPTPTBP

Q××××

××××====

××××

××××

====

XX

1Q ≥≥≥≥ Neuen Baum akzeptieren!

1Q <<<< Generation einer Zufallszahl (0-1) Z< Q, neuen Baum akzeptieren, sonst alter Baum

MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“

Page 29: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

29

57

„1“

Wahrscheinlichkeit nach Bayes

MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“

Metropolis-Hastings-Green-Algorithmus

)()|(

)()|(

jj

iiiesprobabilitposterior

TPTBPTPTBP

Q××××

××××====

priorslikelihoods

shape parameter, Astlängen..

DAS PROBLEM

),,,|()|( shapeonsubstitutilengthtreeBPTBP −−−−==== αααα

„Lösung“

)|()|(ji

ij

TTPTTP

x

Änderungsvorschläge

58

Wahrscheinlichkeit nach Bayes

MetropolisMetropolis--HastingsHastings--GreenGreen--AlgorithmusAlgorithmus

1Q ≥≥≥≥ Neuen Baum akzeptieren!

1Q <<<< Generation einer Zufallszahl (0-1) Z< Q, neuen Baum akzeptieren, sonst alter Baum

MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“

2,05,0

1,0Q

51,0

5,0Q

iesprobabilitposterior

iesprobabilitposterior

========

========

behalten

neue Zufallszahl

0,1

0,3 neuer Baum

Im Gegensatz zur ‚Maximum likelihood‘ kann hier ‚likelihood‘ � und �

neuen Baum akzeptieren

Page 30: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

30

59

Problem: Wir erwarten keine diskrete Wahrscheinlichkeit, sondern eine Wahrscheinlichkeitsdichte!

Beispiel: Man werfe eine Münze 100x. Es ist unwahrscheinlich, dass genau jeweils 50x "Kopf" und 50x "Zahl" herauskommen.

z.B. Ergebnis von 100 x 100 Münzwürfen. Darstellung z.B. für Ergebnis "Zahl".

90

100x1000

MCMC (Markov Chain Monte Carlo)Wahrscheinlichkeitsdichte

60

MCMC (Markov Chain Monte Carlo)

Problem: Wie ermittelt man die Verteilung der Wahrscheinlichkeiten mit einer endlichen Anzahl von Versuchen? Lösung: Ermittlung der

Wahrscheinlichkeitsdichte mittels MCMC (Markov Chain Monte Carlo) Simulation=> nur einige Wahrscheinlichkeiten werden wirklich ermittelt, die Verteilung der Wahrscheinlichkeiten wird hochgerechnet.

Page 31: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

31

61

Maximum Likelihood – Lokale Maxima

62

MCMC (Markov Chain Monte Carlo)

Page 32: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

32

63

„Start, sample and burnin“

wird verworfen

Man startet mit einen beliebigen Stammbaumdurch "burnin" werden "frühe" Ergebnisse (Stammbäume) verworfen, und über alle anderen gesamplet. => Wie gut stimmen die jeweiligen Bäume überein?Entspricht ~ Bootstrapping (kommt noch).

MrBayes

64

How to get up and get over?

??

Page 33: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

33

65

Wahrscheinlichkeit nach Bayes

Metropolis-Coupled

=> mehrere MCMC laufen parallel und ‚kommunizieren‘

MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“

Zufällige Stichprobe aus der ‚posterior probability‘-Verteilung ziehenStichprobe muss groß (genug) sein

Prozentsatz mit dem eine Gruppierung (‚Clade‘) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist

66

MCMCMC (Metropolis coupled Markov Chain Monte Carlo)

Landschaft aus Sicht der "cold chain".

Landschaft aus Sicht der "heated chains".

Page 34: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

34

67

MCMCMC (Metropolis coupled Markov Chain Monte Carlo)

• MC3 läßt mehrere "chains" suchen• Die "cold chain" zählt, die anderen sind "heated chains"

Landschaft wird für heated chain "geebnet" => Übergang zu einem anderen Optimum ist leichter möglich.

68

Wahrscheinlichkeit nach Bayes

Vorteile:

� Vorabinformation wird berücksichtigt.� Sehr schnelle ‚Lösung‘ komplexer phylogenetischer Probleme möglich!

� Diskrete Wahrscheinlichkeitswerte werden für jeden Ast gegeben.

Nachteile:

� Vorabinformation wird berücksichtigt. � Wahrscheinlichkeitstheoretisch umstritten.

Page 35: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

35

69

Past and next

� Molekularphylogenetische Methoden:- Quartet puzzling- Bayesian approach

� Test von Stammbäumen- Bootstrapping - Likelihood tests…

70

Statistische Auswertung

….oder….

Wie gut ist mein Stammbaum ?

häufigste Methode ist „Bootstrapping“…

Page 36: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

36

71

Bayes FaktorBayes FaktorBayes Faktor

(nach Kass & Raftery (1995) entspricht LRTLRT)� Vergleich zweier Modelle Mi und Mj :

� Kriterien nach Kass and Raftery (1995):� Bij < 1, negative (support for Mj)� 1 < Bij < 3, barely worth mentioning� 3 < Bij < 12, positive� 12 < Bij < 150, strong and� Bij > 150, very strong.

Vorteil:� ‚Nested‘ und ‚non-nested data‘ kann verglichen

werden

)|(

)|(

j

iij

MDPMDP

B ====

72

BootstrappingZiehen MITMITZurücklegen

Page 37: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

37

73

D

Bootstrapping

Position

Sequence 1 2 3 4 5 6 7 8 9

A A A A A G T G C A

B A G C C G T G C G

C A G A T A T C C A

D A G A G A T C C G

OrginalsequenzenPosition

Sequence 1 2 2 4 5 5 7 8 8

A A A A A G G G C C

B A G G C G G C C C

C A G G T A A C C C

D A G G G A A C C C

Pseudosample 1

z.B. 100 WiederholungenPosition

Sequence 1 1 1 4 4 6 7 7 7

A A A A A A T G G G

B A A A C C T G G G

C A A A T T T C C C

D A A A G G T C C C

Pseudosample 2

A

D

BC

A

B

C

…100 Stammbäume

74

Bootstrapping

123456789 Freq

-----------------

.**...... 100.00

...**.... 100.00

.....**.. 100.00

...****.. 100.00

...****** 96.00

.......** 84.00

...****.* 13.00

...*****. 5.00

.*******. 3.00

.**....*. 1.00

.**.....* 1.00

Majority-rule consensus tree

Taxon 1

Taxon 3

Taxon 8

Taxon 9

Taxon 4

Taxon 6

Taxon 7

100

96

84

100

100

100

Taxon 2

Taxon 5

Page 38: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

38

75

BootstrappingSTRICT CONSENSUS -> MAJORITY-RULE CONSENSUS TREE

Taxon 1

Taxon 3

Taxon 8

Taxon 9

Taxon 4

Taxon 6

Taxon 7

100

84

100

100

100

Taxon 2

Taxon 540/65 Taxon 8

Taxon 9

Taxon 4

Taxon 6

Taxon 7

Taxon 5

Taxon 8

Taxon 9

Taxon 4

Taxon 6

Taxon 7

Taxon 5

ein replicate – zwei Topologien

FWR: FREQUENCY IN REPLICATES (geringere Gewichtung, Einbeziehung aller Bäume)

76

Jackknife

• Prinzip gleich zu „bootstrap“ allerdings werden zufällig Daten gelöscht

• Unterstützungswerte ensprechen sich aber nicht

• Bootstrap-Wert in % entspricht ‚jacknife‘-Wert bei ca. 40 % gelöschte Daten

Page 39: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

39

770.1

NpH

Plaxip

Calloc

Nuttal

Lepitoc

Nuttall64

Lorica

Stenos

Lepido

Lorice

Onitho

Tonici60

62

58

AfH

Notopl

Crypto66

61

Likelhood mapping� …Berechnung der posterior probability (Pi) aller Bäume� Pi summiert sich auf 1 (irgendeine Topologie muss sein)� 3 Ecken repräsentieren die 3 Topologien� Je näher P an einer der Ecke desto stärker wird dieser

Baum favorisiert

28

33 30

78

Split Tree

Page 40: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

40

79

Schwarzspitzenhai

Phylogenetic methodsEvolutionary relationships among unique mtDNAhaplotypes were reconstructed using the maximummaximum--parsimonyparsimony (MP)(MP) optimality criterion with allmutations weighted equally and indels treated as afifth state. A two-nucleotide indel at positions 1045and 1046 was treated as one event by omitting thesecond nucleotide from analyses. HeuristicHeuristic treetreesearchessearches were performed for all MP analyses with1000 random-addition replications, saving amaximum of 1000 trees per replicate, and treetree--bisectionbisection––reconnectionreconnection (TBR) branch swapping.Statistical support for nodes was determined via1000 nonparametric bootstrapbootstrap replicatesreplicates(Felsenstein 1985) with 10 random-additionsequences per replicate, saving a maximum of 1000trees per replicate, and nearestnearest neighbourneighbourinterchangeinterchange (NNI) branch swapping. Haplotypetrees were initially rooted using blacktip reef shark( C. melanopterus ) and Australian blacktip shark, C.tilstoni , sequences as outgroups. Although therelationships of species within the genusCarcharhinus are not fully resolved (Lavery 1992;Naylor 1992), C. melanopterus and C. tilstoni werethe closest relatives to C. limbatus for which tissuesamples were available. C. melanopterus was used asthe sole outgroup after C. limbatus was found to beparaphyletic to C. tilstoni in the MP analyses.

80

Methoden im Vergleich

maximal support

nach: Gene und Stammbäume, Knoop und Müller

(Raubbeutler)

Allg Trend: support MP/NJ < ML, Bayes

Page 41: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

41

81

Die "Molekulare Uhr"

Relativer Ratentest:

X

A

B

C = Außengruppe

Molecular clock-Hypothese: XA = XB

Außengruppe C als Bezug

AC – BC ~ 0

AC/BC ~ 1

82

800 700 600 500 400 300 200 100 0 million years

520

420

480

220

343

370736

fossil records

Vetigastropoda

Protobranchia

Octobrachia

Decabrachia

Tetrabranchiata

Die "Molekulare Uhr"

Page 42: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

42

83

Bedeutung der molekularen Phylogenie für die Systematik

� Frühere Vorstellungen zur Evolution und zu den Verwandtschaftsverhältnissen der Organismen beruhten auf morphologischen Kriterienmorphologischen Kriterien

� Die molekulare Phylogeniemolekulare Phylogenie hat viele der früheren Vorstellungen in den letzten ~10 Jahren über den Haufen geworfen, aber die meisten Hypothesen meisten Hypothesen bestätigtbestätigt.

� Am interessantesten sind natürlich die "revolutionären" Vorstellungen, z.B.:- Ecdysozoa - Lophotrochozoa- Afrotheria ...

84

Page 43: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

43

85

Ecdysozoa - Lophotrochozoa

86

Ecdysozoa - Lophotrochozoa

Glenner et al., 2005 Curr Biol

Page 44: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

44

87

88

Afrotheria

RüsselRüssel--springerspringer

ElefantenElefanten

SeeküheSeekühe

ErdferkelErdferkel

SchlieferSchliefer

BorstenigelBorstenigel

MicrogaleMicrogale longicaudatalongicaudata

Page 45: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

45

89

Afrotheria

Afrotheria vor > 100 Mio Jahren in Afrika entstanden!

Auseinanderbrechen des südlichen Gondwana (Kreide)

90

Konvergente Entwicklung!?

snail-like ?

Page 46: Genomforschung und Sequenzanalyse Einführung in Methoden ... III_08.pdf · •Relativ schnelle Methode um ML-Stammbaum zu konstruieren. •Phylogenetischer Informationsgehalt der

46

91