Einführung in die Phylogenie (lat.: phylum = Stamm)
description
Transcript of Einführung in die Phylogenie (lat.: phylum = Stamm)
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-1Einführung in die Phylogenie
Einführung in die PhylogenieEinführung in die Phylogenie
(lat.: phylum = Stamm)(lat.: phylum = Stamm)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-2Einführung in die Phylogenie
Phylogenetische BäumePhylogenetische Bäume
Stammbaum (Phylogenetic Tree)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-3Einführung in die Phylogenie
Stammbäume versus KlassifikationStammbäume versus Klassifikation
Zuerst war die Klassifikation- Carl Linnaeus, ca. 1740: Systema
Naturae- Annahme: Arten verändern sich
nicht (Prä-Darwin)- Einteilung der Lebewesen in
• Kingdoms -classes–orders–families–genera-species
• SKOFGA (Stamm, Klasse, Ordnung, Familie, Gattung, Art)
- Innere Knoten einer Klassifikation sind abstrakt
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-4Einführung in die Phylogenie
Tree of LifeTree of Life
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-5Einführung in die Phylogenie
KlassifikationKlassifikation
Eukaryoten Tiere diverse Zwischenstufen Chraniata (Schädelknochen) Vertebraten (Wirbeltier) Viele Zwischenstufen Mammals(Säugetiere) Eutheria(Plazentatiere/Höhere Säuger) Primaten (Affen) Catarrhini (Altweltaffen) Hominidae(Mensch, Schimpanse, Orang-
Utan, Gorilla) Homo (erectus, sapiens ...) Homo Sapiens
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-6Einführung in die Phylogenie
StammbäumeStammbäume
Charles Darwin: „The origin of species“ (1859)- Arten sind nicht unveränderlich, sondern
unterliegen im Laufe der Zeit einem Wandel- „Survivalof the fittest“- Damals noch unklar, was sich eigentlich
wandelt Stammbäume(Abstammungsbäume)
- Ergeben sich aus der Annahme der Evolution
- Auch Stammbäume wurden lange aus morphologischen Eigenschaften abgeleitet
- Jeder Knoten in einem Stammbaum hat einmal als Art existiert–Knoten im Baum (also Spezies) heißen taxa
Was definiert eine Spezies?
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-7Einführung in die Phylogenie
„„Homo floresiensis“ (Hobbit?)Homo floresiensis“ (Hobbit?)
Entdeckung 2003 Lebte vermutlich vor 95000 bis
vor 12000 Jahren auf der indonesischen Insel Flores
Körperhöhe nur ca. 100 cm Gehirnvolumen nur 380 cm3
- Homo erectus: 600-1200, h. sapiens: 1400
Rückentwicklung? Vorläufer?
Quelle: Brown, P. et al. Nature431, 1055-1061 (2004).
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-8Einführung in die Phylogenie
Evolutionsgeschichte neu geschriebenEvolutionsgeschichte neu geschrieben
Stammbaum –welche Art geht aus welcher hervor?
Evolutionsgeschichte neu geschrieben
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-9Einführung in die Phylogenie
Computer-AbstammungComputer-Abstammung
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-10Einführung in die Phylogenie
Moderne StammbaumberechnungModerne Stammbaumberechnung
Molecular phylogeny Mendel + Darwin: Das Erbgut unterliegt dem Wandel Berechnung von Stammbäumen aus molekularen Daten
- Zuckerkandl und Pauling, 1965 Berechnung aufgrund von DNA
oder Proteinsequenzen Annahme: Evolution verläuft
in kleinen Schritten Wenn sich Sequenzen ähnlich
sind, sind die Speziesevolutionär eng verwandt- Denn zufällige Ähnlichkeit ist
zu unwahrscheinlich
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-11Einführung in die Phylogenie
Arten von StammbäumenArten von Stammbäumen
Individuelle Abstammung- Stammbäume, Ahnentafeln- Natürlich kein Baum: Zwei Eltern- Rekombination
Speziesstammbäume- Ein Baum, wenn Spezies nicht
verschmelzen können- Sprachen verschmelzen
Gene Trees- Geschichte eines
Sequenzabschnitts- Nicht leicht zu definieren- Baumförmig, wenn Gene nicht
verschmelzen- Aber: 2 Allele jedes Gens vorhanden
(Besser: HaplotypTree)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-12Einführung in die Phylogenie
Wozu?Wozu?
Aufklärung der evolutionären Verhältnisse Aufklärung von familiären Verhältnissen
- Wenn genügend Sequenzen vorhanden Aufklärung von Infektionswegen
- Bei schnell mutierenden Viren (z.B. HIV)- Varianten werden in verschiedenen Personen gefunden- Herausrechnen des Verbreitungsweges anhand der
Abstammungsverhältnisse Phylogenetic Inference
- Wenn alle nahe verwandten Spezies ein bestimmtes Gen haben, dann sollte ich das auch haben
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-13Einführung in die Phylogenie
EvolutionsmodellEvolutionsmodell
Lebewesen vermehren sich durch Kopieren Kopieren mit kleinen Fehlern (Mutationen)
- Führen (manchmal) zu veränderter „Funktion“ Selektion – „Survival of the fittest“
- Fatale Mutationen lassen Nachkommen gar nicht erst entstehen- Einschränkungen der Überlebensfähigkeit führen zur schnellen
Ausrottung Speziation
- Unterschiedliche Mutationen sind in unterschiedlichen Lebensräumen unterschiedlich vorteilhaft
- Anpassungan ökologische Nischen- Führt zur Akkumulation von Änderungen- Schließlich geht die gemeinsame Fortpflanzungsfähigkeit verloren
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-14Einführung in die Phylogenie
ArtenbildungArtenbildung
Arten entstehen durch Veränderungen aus einer anderen Art
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-15Einführung in die Phylogenie
MutationsfrequenzenMutationsfrequenzen
Treten Mutationen in gleicher Frequenz auf?- Sind alle Mutationen gleich wahrscheinlich?- Substitutionsmatrizen- Gibt es Zeiten erhöhter Mutationshäufigkeit?
• Sonneneruptionen, …
- Gibt es Zeiten erhöhten Selektionsdrucks?• Meteoriteneinschlag, Klimaverschiebungen, …
- Gibt es Teilbäume, die schneller mutieren?• Abhängig vom Anpassungsdruck oder der Güte der Reparaturmechanismen
- Gibt es Sequenzabschnitte, die unterschiedlich schnell mutieren?• Codingversus non-coding Regions, House-Keeping genes, …
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-16Einführung in die Phylogenie
Molecular ClockMolecular Clock
Häufige Annahme: Molecular Clock- Mutationen setzen sich bzgl. der Zeit immer mit gleicher Häufigkeit
durch- Unabhängig von Teilbaum, Zeitpunkt, Ort und Art der Mutation- Anzahl der beobachteten Mutationen proportional zur vergangenen
Zeit Die ist manchmal hilfreich, aber falsch
- Unterschiedliche Zeiten erzeugen unterschiedlichen Selektionsdruck- Unterschiedliche Sequenzabschnitte unterliegen unterschiedlichem
Selektionsdruck- Unterschiedliche Spezies unterliegen unterschiedlicher Frequenz
erfolgreicher Mutationen- …
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-17Einführung in die Phylogenie
DatenDaten
Messen kann man nur die DNA existierender Arten Zwei mögliche Ziele
- Rekonstruktion des wahrscheinlichsten Stammbaums der Arten- Rekonstruktion der wahrscheinlichsten Ur-DNA und aller
Zwischenstufen Den tatsächlichen Stammbaum kann man nicht berechnen
- Man kennt die ausgestorbenen Arten nicht- Man kann ausgestorbene Mutationen nicht erkennen- Man kann Doppelmutationen nicht erkennen
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-18Einführung in die Phylogenie
BäumeBäume
Knoten = Arten Blätter = Lebende Arten Kanten
- Länge kann (aber muss nicht) mitzeitlicher Entfernung korrelieren
- Scaledtrees Jeder Knoten hat exakt
einen Vater Eine Wurzel Binäre Bäume
- Reihenfolge der Kinder ist egal Viele Visualisierungsvarianten
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-19Einführung in die Phylogenie
Distanzbasierte PhylogenieDistanzbasierte Phylogenie An innere Knoten eines Stammbaum kann man den
Speziationzeitpunkt schreiben („branchpoints“) Wenn die Molecular Clock Theory gilt
- Ist die Menge an Veränderungen auf einer Kante proportional zu der verstrichenen Zeit
- Damit proportional zur Länge der Kante- Damit ist der Editabstand zweier Knoten (=Evolution dazwischen)
proportional zur Summe der Editabstände beider Knoten zum kleinsten gemeinsamen Vater
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-20Einführung in die Phylogenie
UltrametrikenUltrametriken
Wenn man den Baum und die Zeitpunkte weiß, dann gilt- Alle Zahlen auf einem Pfad von der Wurzel zu einem beliebigen Blatt
nehmen strikt ab- Der Zeitpunkt der Aufspaltung ist ein Abstandsmaß für zwei Arten
• Für Blätter X, Y sei d(X,Y) das Label des kleinsten gemeinsamen Vorfahren• Im Beispiel: d(A,B)=80, d(B,C)=100, d(A,D)=80
- Das ist eine Metrik• d(X,X)=0, d(X,Y)>0, d(X,Y)=d(Y,X), und d(X,Y)≤d(X,Z)+d(Z,Y)
- Es ist sogar eine Ultrametrik(gleich)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-21Einführung in die Phylogenie
Ultrametrische BäumeUltrametrische Bäume
DefinitionSei T ein Baum und D eine symmetrische Matrix mit nZeilen und n Spalten. T heißt ultrametrischer Baum für Dwenn gilt:- T hat n Blätter, beschriftet mit den Zeilen von D- Jeder innere Knoten von T hat zwei Kinder und ist mit einem Wert aus
D beschriftet- Auf jedem Pfad von der Wurzel zu einem Blatt in T sind die Zahlen
strikt abnehmend- Für alle Blätter i,j mit i≠j gilt: der kleinste gemeinsame Vorfahr von i
und j ist mit D(i,j) beschriftet Bemerkung
- Jeder Stammbaum ist ultrametrisch für die Abstandsmatrix mit den Aufsplittzeitpunkten als Abstandsmaß
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-22Einführung in die Phylogenie
BeispielBeispiel
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-23Einführung in die Phylogenie
ÜberlegungenÜberlegungen
Das kann auch nicht immer gehen- Matrix hat (n2-n)/2 relevante Zellen- Baum hat nur n-1 innere Knoten- Eine Matrix, zu der man einen ultrametrischen Baum konstruieren
kann, muss also Duplikate enthalten Definition
Eine symmetrische Matrix D mit n Spalten und Zeilen istultrametrisch, wenn für beliebige Zeilen i, j, k gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) genau zweimal vorkommt
Es gilt also• D(i,j)=D(j,k) und D(i,j)>D(i,k) oder• D(i,j)=D(i,k) und D(i,j)>D(j,k) oder• D(j,k)=D(i,k) und D(j,k)>D(i,j)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-24Einführung in die Phylogenie
UltrametrikUltrametrik
Definition Ultrametrik
Eine Ultrametrik ist eine Metrik für die gilt:
d(a,c) ≤ max( d(a,b), d(b,c) )
Bemerkung Metrik
Für Metriken muss nur gelten:
d(a,c) ≤d(a,b)+d(b,c)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-25Einführung in die Phylogenie
UltrametrikUltrametrik
Theorem
Eine symmetrische Matrix D hat einen ultrametrischen Baum gdw. D selber ultrametrisch ist
Beweis- Nehmen wir erst an, dass zu D ein ultrametrischer Baum T existiert- Nehmen wir an, dass i, j, k wie folgt liegen (alle anderen Knoten
können wir ignorieren)- Dann gilt offensichtlich D(i,k)=D(j,k)=Y und D(i,k)>D(i,j)=X- Dito kann man für die zwei anderen Varianten der möglichen Lage
von i, j, k verfahren- Das gilt für alle Tripel von Knoten- Also ist D ultrametrisch
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-26Einführung in die Phylogenie
Distanzbasierte AlgorithmenDistanzbasierte Algorithmen
Konstruktion des ultrametrischen Baumes basiert rein auf Distanzmassen- Einen ultrametrischen Baum gibt es nicht für alle Matrizen- Es gibt weniger empfindliche Verfahren
Die Geschichte einzelner „Sites“ wird nicht berücksichtigt Solche Algorithmen zur Berechnung von Stammbäumen
nennt man distanzbasiert
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-27Einführung in die Phylogenie
UPGMA -Hierarchisches ClusteringUPGMA -Hierarchisches Clustering
UPGMA- „Unweighted pair group method with arithmetic mean“- Anderer Name: Hierarchisches Clustering
Sehr einfaches und allgemeines Verfahren, kann bei allen möglichen Problemen angewandt werden
Wenn eine Matrix ultrametrisch ist, dann findet UPGMA den dazugehörenden ultrametrischen Baum- UPGMA nimmt die Molecular Clock an – alle Pfade von einem Blatt
zur Wurzel haben am Ende die selbe Länge Achtung: UPGMA konstruiert immer einen Baum
- Auch wenn die Matrix nicht ultrametrisch ist
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-28Einführung in die Phylogenie
UPGMA VerfahrenUPGMA Verfahren
Gegeben: Distanzmatrix D Erzeuge ein „Baumgerüst“ mit n Blättern Wähle den kleinsten D(i,j) Wert der Matrix und verbinde die
Knoten i und j durch einen neuen Knoten (ij) mit Beschriftung D(i,j) und Kanten zu i und zu j- Anfangs sind i und j Blätter, später können es auch innere Knoten
sein Lösche Zeilen und Spalten i und j aus D Füge in D eine Zeile und eine Spalte (ij) hinzu mit D(ij,k) =
(D(i,k)+D(j,k))/2 Wiederhole, bis D leer ist
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-29Einführung in die Phylogenie
Beispiel: Distanzbaum (I)Beispiel: Distanzbaum (I)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-30Einführung in die Phylogenie
Beispiel: Distanzbaum (II)Beispiel: Distanzbaum (II)
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-31Einführung in die Phylogenie
AnwendungsbeispielAnwendungsbeispiel
Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen
Ergebnis: mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-32Einführung in die Phylogenie
Distanz versus ZeichenDistanz versus Zeichen
Distanzbasierte Algorithmen abstrahieren von einzelnen Zeichen und basieren auf dem Abstand von Taxa
Character-basierte Verfahren betrachten die Entwicklung jedes einzelnen „Characters“- Nuklein- oder Aminosäure- Morphologische Eigenschaften- Vorhandensein / Abwesenheit bestimmter Gene/Funktionen- ...
Character sollten in einem Abstammungsverhältnis stehen- Sequenzen müssen homolog sein
Wahl der Character beeinflusst das Ergebnis erheblich- Eine „korrekte“ Wahl gibt es nicht –erheblicher Freiraum
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-33Einführung in die Phylogenie
Mögliche Probleme Genetischer Distanz Mögliche Probleme Genetischer Distanz
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-34Einführung in die Phylogenie
Beispiel für Zeichen/Character-MatrixBeispiel für Zeichen/Character-Matrix
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-35Einführung in die Phylogenie
Abgeleiteter Phylogenetischer BaumAbgeleiteter Phylogenetischer Baum
Gesucht: Der Baum mit den wenigsten Änderungen
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-36Einführung in die Phylogenie
Idee der Perfekten PhylogenyIdee der Perfekten Phylogeny
Für Sequenzen unrealistisch, für komplexe Eigensch. nicht Definition
- Sei D eine binäre Matrix aus n Zeilen (Arten) und m Spalten (Character). D(i,j)=1 gdw Art i Eigenschaft j hat
- T ist ein (perfekt-) phylogenetischer Baum für D, wenn gilt• T hat n Blätter, beschriftet mit den Zeilen von D• Jeder Character, der in mindestens einer Art vorhanden ist, steht an genau einer
Kante von T• Für jede Art i gilt, dass die Beschriftungen der Kanten auf dem Pfad von der Wurzel
zu i genau die Character sind, die i hat
Bemerkungen- Nicht an jeder Kante von T muss ein Character stehen, aber jeder
Character muss an genau einer Kante stehen
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-37Einführung in die Phylogenie
Beispiel Beispiel
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-38Einführung in die Phylogenie
ZusammenfassungZusammenfassung
Phylogenie als Konzept zur Analyse der Evolutionärer Mechanismen- Gilt nur bei einfachen
Evolutionsmodellen- Güte hängt von den
Eigenschaften der Daten ab Distanzbasierte Methoden
- Am ungenauesten, dafür schnell- Brauchen numerische
Abstandsmasse Zeichen-basierte Methoden:
Besser, aber aufwendig zu berechnen- Scoring aller möglichen Baum-
Topologien
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-39Einführung in die Phylogenie
Werkzeuge zur phylogenetischen Werkzeuge zur phylogenetischen SequenzanalyseSequenzanalyse
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-40Einführung in die Phylogenie
Paarweises AlignmentPaarweises Alignment
Distanzberechnung basierend auf Alignement- Sequenzabständen- Strukturalignement
Proportionalität zwischen Sequenz- und evolutionärer Abstand
Vergleich der Entwicklung von homologen Genen
Verschiedenen Spezies haben Struktur und Funktionsgleiche Proteine- „Housekeeping“ Proteine- z.B. „alcohol dehydrogenase“
Enzym im Glykolyse-Stoffwechsel
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-41Einführung in die Phylogenie
BeispielBeispiel
Enzym: Alkoholdehydrogenase (ADH)- An alcohol + NAD+ = an aldehyde or ketone + NADH
Spezies- Human- Chimpanzee- Mouse- Dog- Frog- Zebrafish- Fruit flig- Rice- E. coli
Quelle: KEGG http://www.genome.jp
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-42Einführung in die Phylogenie
Proteinsequenzen ADHProteinsequenzen ADH
KEGG: 330 Gene über mehrere Spezies zu ADH
http://www.genome.jp/dbget-bin/www_bget?ko:K00001
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-43Einführung in die Phylogenie
SequenzextraktionSequenzextraktion
>HumanMSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTPLPVIL
GHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNPQGTLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQNLSMNPMLLLTGRTWKGAILGGFKSKECVPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTILMF
>ChimpanzeeMSTAGKVIKCKAAVLWEVKKPFSIEDVEVAPPKAYEVRIKMVAVGICRTDDHVVSGNLVTPLPAIL
HEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRVCKNPESNYCLKNDLGNPRGTLQDGTRRFTCRGKPIHHFLGTSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAVMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPASQNLSINPMLLLTGRTWKGAVYGGFKSKEGIPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTVLTF
>Fruit flyMSRKNVLGLINTIVANSCKCPAHSHNYGSAAPTASQTGRMEYAFEMSASTVRFGPGVSAEVGADLR
NLGARKVCLVTDKNVVQLPSVKVALDSLARNGINYEVYDETRVEPTDGSMWHAVEFARGKEFDAFLAIGGGSAMDTAKAANLFSSDANAEFLDYVNCPIGRGKEISVKLKPLIAMPTTSGTGSETTGVAIFDYKKLHAKTGISSKFLKPTLAVIDPLHTLSQPQRVMAFAGFDVFCHALESFTAVDYRERGLAPSDPSLRPTYQGRNPVSDVWARFALETIRKNFVNAIYQPDNLEARSQMHLASTMAGVGFGNAGVHLCHGLSYPISGNVRDYKPKGYSADHALIPHGLSVVISAPAVFEFTAPACPDRHLEAAQLLGAEVRGVEKADAGRLLADTVRGFMQRAGIENGLRELGFSSSDIPALVEGTLPQERITKLAPRAQTQENLSQLFEKSMEVY
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-44Einführung in die Phylogenie
Multiples Alignement ClustalW Multiples Alignement ClustalW
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-45Einführung in die Phylogenie
ClustalW SequenzeingabeClustalW Sequenzeingabe
Ulf
Les
er: A
lgor
ithm
isch
e B
ioin
form
atik
, Win
ters
emes
ter
2005
/200
6
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-46Einführung in die Phylogenie
ClustalW Resultat: AlignmentClustalW Resultat: Alignment