Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer [email protected].

67
Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer [email protected]

Transcript of Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer [email protected].

Page 1: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Seminar: Aktuelle Themen der Bioinformatik

Thema:

Genome Rearrangement

Ceyhun Tamer

[email protected]

Page 2: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 2 -

Übersicht

Einleitung in das Thema Genome Rearrangement

Multiple genome rearrangement: a general

approach via the evolutionary genome graph

(Dmitry Korkin, Lev Goldfarb; 2002)

Multiple genome rearrangement

(David Sankoff, Mathieu Blanchette;1998)

Page 3: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 3 -

Grundlagen Genome Rearrangement

Möglichkeiten der Evolution auf DNA-Ebene:

Änderungen in der Sequenzabfolge der Basen in Genen:

Änderungen in der Anordnung der Gene:

Page 4: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 4 -

Grundlagen Genome Rearrangement

Page 5: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 5 -

Grundlagen Genome Rearrangement

Möglichkeiten der Evolution auf DNA-Ebene:

Änderungen in der Sequenzabfolge der Basen in Genen:

Änderungen in der Anordnung der Gene:

Page 6: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 6 -

Grundlagen Genome Rearrangement

(Weißkohl)

(Weißrübe)

Page 7: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 7 -

Grundlagen Genome Rearrangement

Entdeckung des Genome Rearrangement

Ende 1980er Jahren von Jeffrey Palmer und seinen Kollegen

entdeckt

mitochondriale Gene von Weißkohl und der Weißrübe zu 99%

identisch

mitochondriale Genome unterscheiden sich stark in der Gen-

Reihenfolge

Page 8: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 8 -

Grundlagen Genome Rearrangement

Wozu Genome Rearrangement??

Traditionell Rekonstruktion phylogenetischer Bäume anhand von

Punktmutationen in einzelnen oder wenigen Genen

≠ für den Fall Weißkohl vs. Weißrübe keine gute Wahl

Herpesviren evolvieren sehr schnell

Betrachtung 7 konservierter Blöcke; Veränderungen in deren

Reihenfolge ist wesentlich langsamer

Optimal wäre es die Vorteile von Gen- und Genom-Vergleichen in

einem Algorithmus zu vereinen

Page 9: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Dmitry Korkin und Lev Goldfarb

Page 10: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 10 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Motivation:

Es existiert kein vereinheitlichter Rahmen, um

Fragestellungen aus diesem Bereich zu behandeln

Ziel: einen solchen „Rahmen“ bereitstellen

Und z.B. die Ähnlichkeit zweier Genome über den

jüngsten gemeinsamen Vorfahren berechnen

Einführung des EG-Graphen (evolutionary genome

graph)

Page 11: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 11 -

Grundlegende Definitionen

∑0 = {A,C,G,T} ist unser Alphabet

Ein Gen ist definiert als ein Element aus einer Menge von Strings

Ein Genom G ist definiert als eine Sequenz von Genen

G = (s1, s2,…,sn), sk є S, 1≤ k ≤ n

daraus resultiert die Genomsequenz G = s1° s2 °… ° sn

|G| ist die Länge der Genomsequenz

Multiple genome rearrangement: a general approach via the evolutionary genome graph

0S

Page 12: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 12 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Subsequenz: ∑ = {a,b,…,z}

a = s1, s2,…, sn , si є ∑, 1 ≤ i ≤ n

b = si1, si2,…, sik , 1 ≤ ij ≤ n, 1 ≤ j ≤ k

Page 13: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 13 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

MLCS (multiple longest subsequence): ∑ = {a,b,…,z}

S = {a1, a2,…,ad} eine Menge von Sequenzen

|a1| = n1 , |a2| = n2 ,…, |ad| = nd

• b ist der MLCS dann wenn:

• b ist eine Subsequenz von ai für 1 ≤ i ≤ d

• b ist die Längste Sequenz auf, die die vorige Bedingung zutrifft

Wenn d=2 so wird der MLCS nur LCS (longest common

subsequence) genannt

Page 14: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 14 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

A = (a1, a2,…, an) , B = (b1, b2,…, bn)

p: {1,2,…,n} {1,2,…,n}, so daß bi = ap(i) oder bi = a‘p(i)

Abbildungsfunktion f: Γ Γ, f(A) = B

wird gene order transformation (gor-transformation) für Genom A

genannt

die Menge aller gor-Transformationen wird mit Φgor bezeichnet

Page 15: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 15 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

genome rearrangement: ein Rearrangement von Genom G nach

Genom Gm ist eine Sequenz (f1, f2,…, fm), m ≥ 1, fi є Φgor

G1 = f1(G) , G2 = f2(G1) , Gi = fi(Gi-1) , 1 ≤ i ≤ m

(Weißkohl)

(Weißrübe)

f1

f2

f3

Page 16: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 16 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

gor-Transformationen: Inversionen Transpositionen

ins-Transformation (Insertions-Transformation)

Page 17: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 17 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Inversionen:

A = (a1, a2,…, an), B = (b1, b2,…, bn)

f є Φgor ist eine Inversion einer Subsequenz

A1 = (ak, ak+1,…, ak+m), wenn:

bi = ai , 1 ≤ i ≤ k-1 oder k+m+1 ≤ i ≤ n

bk+i = a‘k+(m-i) , 0 ≤ i ≤ m

a1,…,ak-1, ak,ak+1,…,ak+m, ak+m+1,…,an

a1,…,ak-1, a’k+m,a’k+m-1,…,a’k, ak+m+1,…,an

Genom A:

Genom B:

Page 18: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 18 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Transpositionen:

A = (a1, a2,…, an), B = (b1, b2,…, bn)

f є Φgor ist eine Transposition einer Subsequenz

A1 = (ak, ak+1,…, ak+m), wenn:

bi = ai , 1 ≤ i ≤ min(k,j) oder max(k,j)+m+1 ≤ i ≤ n

bj+i = ak+i , 1 ≤ i ≤ m

a1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,…,an

a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,an

Genom A:

Genom B:

Page 19: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 19 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

bi+m = ai , j+1 ≤ i ≤ k (Achtung nur für j ≤ k )

a1,…,aj, aj+1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,.. an

a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,ak, ak+m+1,…,an

Genom A:

Genom B:

Page 20: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 20 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Insertions-Transformation:

ändert die Länge eines Genoms

A = (a1,a2,…,an), B = (b1,b2,…,bn+m) für m > 0

Abbildungsfunktion f: Γ Γ , f(A) = B

wird ins-Transformation einer Sequenz A1 = (c1,c2,…,cm)

genannt, wenn ein k existiert mit 1 ≤ k ≤ n: bi = ai , 1 ≤ i ≤ k

bk+i = ci , 1 ≤ i ≤ m

bi+k+m = ai+k , 1 ≤ i ≤ n-k

a1,…, ak, ak+1,…, an

a1,…,ak, c1,c2,,…,cm, ak+1,…,an

A:

B:

Page 21: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 21 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Menge der ins-Transformationen wird mit Φins bezeichnet

Menge der ins- und gor-Transformationen ist Φ Eine Entwicklung von Genom G zu Genom Gm ist eine

Folge (f1,f2,…,fm), m ≥ 1, fi є Φ

G1 = f1(G), G2 = f2(G1), Gi = fi(Gi-1), mit fi є Φ

Page 22: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 22 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Genom C ist gemeinsamer Vorfahre für Γ1:

für alle G є Γ1: G = C oder C G existiert

Γ1A ist die Menge aller gemeinsamen Vorfahren von Γ1

Γ1 = {1,2,…,7}

Γ1A = {7,8}

Page 23: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 23 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Genom C ist jüngster gemeinsamer Vorfahre von Γ1

wenn es zur Menge gehört, so daß

für alle G є Γ1A mit G є Γ1C ein C‘ є Γ1C und G C‘ existiert

AC 11

Γ1 = {1,2,…,7}

Γ1A = {7,8}

Γ1C = {7}

Page 24: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 24 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

EG-Graph und Problemstellung

EG-Graph für Γ1: gerichtet, zusammenhängend

DG = (V,E) mit lV: V Γ, lE: E Φ

sink node: O source node: O

es existiert genau ein source node V0, V0 є V

lV ist injektiv und

wenn G0 = lV(V0), dann ist G0 = C von Γ1

Problem: Wege sind nicht eindeutig

)(1 VlV

Page 25: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 25 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph EG-Graph und Problemstellung

Ähnlichkeitsbegriff:

um 2 Genome unter Einbeziehung von Transformationen

vergleichen zu können µDG: lV(V) x lV(V) R

Problemstellung:

gegeben Γ1 = {G1, G2,…, Gn} und ein Ähnlichkeitsmaß µDG konstruiere EG-Graph DG, DG = (V,E), so daß

und pDG( Γ1) = minimal unter

allen EG-Graphen

)(1 VlV

+

1,

/),(ji GG

ji nGGµDG

Page 26: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 26 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

EG-Graph: S = {g1,g2,…,gn), Γ = {G|G = {gi1,gi2,…,gik)

es ist , f ist eine Inversion oder Insertion

und für VS die Menge der sink nodes ist lV(VS) = Γ1

Beschränkungen für den EG-Graphen: kein Genom in Γ enthält doppelte Gene ein Gen g є S darf nicht zweimal invertiert werden keine Transpositionen alle Genome bestehen aus denselben Genen

)(Elf E

Page 27: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 27 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Lemma:

durch die Beschränkungen ist DG = (V,E) ein azyklischer Graph Transpositionen sind nicht erlaubt ein Genom kann niemals zu einer Vorstufe zurückkehren

durch Beschränkung der Anzahl an Insertionen ist die Erstellung

aller möglichen Genome endlich

Transformation f einer Sequenz von Genen X

= fX

Page 28: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 28 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Lemma:

A,B є Γ und C der jüngste gemeinsame Vorfahre wenn B = fX(A), für fX eine Transposition, dann

A = fX‘(C) und B = fX‘‘(C)

wenn B = f(A), für f eine Inversion, dann ist

A = C (bzw. umgekehrt im symmetrischen Fall)

Page 29: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 29 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

weighting scheme:

Gewichtung für Inversionen und Insertionen für eine Transformation fA ist das Gewicht

w(fA) = |A|

Bestimmung der Ähnlichkeit von A und B: EG-Graph mit A,B є Γ und C gegeben

A = fn° fn-1°…f1(C)

B = gm° gm-1°…g1(C)

µDG(A,B) =

n

i

m

iii gwfw

1 1

)()(

Page 30: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 30 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Was wurde dadurch erreicht?

ein Maß für Verwandtschaft es ist nun möglich einer Verwandtschaftsbeziehung einen reellen Wert zuzuweisen

je geringer µDG(A,B) , desto verwandter sind die beiden Genome

Page 31: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 31 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

kontextsensitive Gen-Transformationen:

Sinn: Prozess des Genome Rearrangement von der Struktur des

Genoms abhängig abhängig von bestimmter Region: lokaler Kontext abhängig von weit entfernten Regionen: globaler Kontext

globaler Kontext ist sehr komplex wird hier nicht behandelt

außerdem Beschränkung auf Inversionen und Insertionen

Page 32: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 32 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung

Definition:

gegeben Γ1 und eine Transformation fX (Inversion/Insertion)

lokaler Kontext ist (C1,C2), C1,C2 є ∑* fX eine Inversion von X nach X‘, B = fX(A)

A = A1 ○ C1 ○ X ○ C2 ○ A2

B = B1 ○ C1 ○ X‘ ○ C2 ○ B2

fX eine Insertion, B = fX(A) A = A1○ C1○ C2 ○ A2

B = B1○ C1○ X ○ C2 ○ B2

wobei A1, A2, B1, B2, C1, C2 є ∑* wenn C1 und C2 Null-String fX ist kontextfrei

Page 33: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 33 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Wozu kontextsensitive Transformationen?

cs-Transformation ist diskriminierender

cf-Transformation erstellt Genome, die „weiter“ entfernt sind

biologisch plausibler

cs-Transformationen sollten bevorzugt werden

Page 34: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 34 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

weighting scheme update:

wcs(fX) =

wenn C1 und C2 leer sind ist wcs (fx) = wcf (fx)

wenn C1 und C2 groß geringeres Gewicht spezifischere Transformation

kontextsensitive Transformation ist bevorzugt

21 CCX

Xwcf

Page 35: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 35 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Was haben wir gewonnen?

Transformationen können reelle Werte zugewiesen werden Möglichkeit Verwandtschaftsbeziehungen zu berechnen Verwandtschaftsbeziehungen vergleichen Miteinbeziehung eines möglichen lokalen Kontexts

Was fehlt? Transpositionen globaler Kontext Unterscheidung zwischen Insertion und Inversion

Page 36: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 36 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Implementierung: nur mit Transpositionen

Was wird gemacht:

Erstellen eines EG-Graphen aus Γ es werden nur Insertionen betrachtet die Idee des MLCS wird verwendet (dominant-points) Beschränkung auf , so daß jedes Genom in ein

anderes durch endlich viele Operationen überführt werden kann Beschränkung, daß jedes Genom aus Δ, aus denselben

Genen in S besteht es wird ein möglicher EG-Graph ausgegeben

Page 37: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 37 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Algorithmus Input: Γ1, | Γ1| = N

Output: DG = (V,E), mit V = {v1,v2,…,vK} ist die Menge der Knoten und

E = {e1,e2,…,eM} ist die Menge der Kanten

Page 38: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 38 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Page 39: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 39 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Zeitkomplexität

Ο(s * d (T + L))

|Γ1| = d, |S| = s, O(T) Komplexität für MLCS, L = max{|G1|,…,|Gd|}

O(T) = O(n * s * d + |D| * s * d * (logd-3 * n + logd-2 * s))

|D| ist die Größe der Menge aller dominanten Positionen

Page 40: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 40 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Ergebnisse

G1 = D A B E C F G H;

G2 = A D G B C F H E;

G3 = A G B D C F E H;

G4 = G A B D C F E H;

G5 = E G C A F D B H;

G6 = C E A F B G H D.

Page 41: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 41 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Ergebnisse

Page 42: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 42 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Fazit

Einführung des EG-Graphen, der die Entwicklung mehrerer

Genome repräsentiert

Es ist möglich gleich mehrere Genome untereinander zu

vergleichen

Aber es gibt noch viel zu tun, da bisher viele Einschränkungen

vorhanden sind

Page 43: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Multiple genome rearrangement

David Sankoff und Mathieu Blanchette

Page 44: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 44 -

Multiple genome rearrangement

Motivation:

Multiples Alignment von Sequenzen betrachtet nur lokale Insertion,

Deletion und Substitution

Ziel: Multiples Alignment für Gensequenzen mit Inversionen und

Transpositionen

Page 45: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 45 -

Multiple genome rearrangement

Worum wird es gehen:

gesucht: Belegung der inneren Knoten (Vorfahren)

bisher selten genutzt

Page 46: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 46 -

Multiple genome rearrangement

Breakpoint Analyse:

A = (a1 ,a2 ,…,an) und B = (b1 ,b2 ,…,bn) mit ai ,bi є S

ai und ai+1 sind adjazent in A

aber nicht in B, so bilden sie einen Breakpoint

Φ(A,B) ist die Anzahl Breakpoints in A

A: g1, g2, g3, g4, g5, g6 BP: (g1,g2), (g2, g3), (g3, g4)

B: g2, g1, g4, g5, g6, g3 BP: (g2,g1), (g1, g4), (g6, g3)

Page 47: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 47 -

Multiple genome rearrangement

Orientierte Genome:

Miteinbeziehung einer Polarität der Gene

Orientierung gibt die Richtung der Transkription an

Modifizierung des Begriffs: Breakpoint

keine Breakpoints:

g h -h -g

Breakpoints:

h g -g -h g -h

-g h h -g -h g

Page 48: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 48 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Definition: S = {g1,g2,…,gn} eine Menge von Genen

T = (V,E) ein ungewurzelter Baum mit N ≥ 3 Blättern

, die Blätter des Baumes

, N+1 ≤ L ≤ 2N-2 , die inneren Knoten

minimiere:

)(},...,{ 1 TVVV n

},...,{ 1 LN VV

)(

),(TEVV

ji

ji

GG

Page 49: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 49 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Aufgabe:

minimiere:

finde eine Belegung der inneren Knoten, so daß die Anzahl der Breakpoints minimal ist

)(

),(TEVV

ji

ji

GG

Page 50: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 50 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils

n Genen ohne Orientierung

S = {g1, g2 , g3} , N = 3 , n = 3

G1 = g2 g1 g3

G2 = g3 g2 g1

G3 = g1 g3 g2

Page 51: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 51 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars): Γ ist der vollständige Graph

die Knoten sind Element aus S

für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der g und h adjazent sind

g1

g3

g2

Page 52: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 52 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars):

G1 = g2 g1 g3 (g2g1), (g1g3)

G2 = g3 g2 g1 (g3g2), (g2g1)

G3 = g1 g3 g2 (g1g3), (g3g2)

u(g2g1) = 2, u(g1g3) = 2

u(g3g2) = 2, u(g1g2) = 0

u(g2g3) = 0, u(g3g1) = 0

Page 53: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 53 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars): w(gh) ist das Gewicht der Kante gh mit

w(gh) = N - u(gh)

w(g2g1) = 1, w(g1g3) = 1, w(g3g2) = 1, w(g1g2) = 3

w(g2g3) = 3, w(g3g1) = 3

das TSP wird auf (Γ,w) angewendet

Page 54: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 54 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars):

mögliche Lösungen (Mediane): g1 g3 g2 Kosten: 3 g2 g1 g3 g3 g2 g1

G1 = g2 g1 g3

G2 = g3 g2 g1

G3 = g1 g3 g2

g1

g3

g2

1

1

1

3

3

3

Page 55: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 55 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils

n Genen mit Orientierung

S = {-g1, g1, -g2 , g2 , -g3, g3} , N = 3 , n = 3

G1 = -g2 g1 g3

G2 = g3 -g1 -g2

G3 = g1 g2 g3

Page 56: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 56 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Γ ist der vollständige Graph

die Knoten sind Element aus S

für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der -g und h adjazent sind w(gh) = N - u(gh)

wenn g = -h w(gh) = -Z

g1 g3g2

-g1 -g2 -g3

G1 = g1 g2 g3 G1 = g1 -g1 | g2 -g2 | g3 -g3

G2 = g1 g2 -g3 G2 = g1 -g1 | g2 -g2 | -g3 g3

Page 57: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 57 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars):

G1 = -g2 g1 g3, G2 = g3 -g1 -g2, G3 = g1 g2 g3

u(g2g1) = 1, u(-g1g3) = 1, u(-g3-g1) = 1, u(g1-g2) = 1,

u(-g1g2) = 1, u(-g2g3) = 1

w(g2g1) = 2, w(-g1g3) = 2, w(-g3-g1) = 2, w(g1-g2) = 2,

w(-g1g2) = 2, w(-g2g3) = 2

Page 58: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 58 -

Multiple genome rearrangement

Page 59: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 59 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Lösungen:

g1 -g1 g2 -g2 g3-g3 Kosten: -3 * Z + 4 g2 -g2 g3 -g3 -g1 g1

-g2 g2 g1 -g1 g3 -g3

g3 -g3 -g1 g1 -g2 g2

Mediane: g1 g2 g3 : 4 Inversionen Abstand g2 g3 -g1 : 7 Inversionen Abstand -g2 g1 g3 : 5 Inversionen Abstand g3 -g1 -g2 : 5 Inversionen Abstand

Page 60: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 60 -

Multiple genome rearrangement

Wie gut sind die Lösungen?

Page 61: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 61 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

binäre Bäume (completely resolved): |V(T)| = 2N - 2

alle nicht-terminalen Knoten haben Grad 3

Beginn mit einem „Start-Baum“

inneren Knoten werden Genome zugeordnet

Zerlegung des Gesamtproblems in Teile von 3-Stars

Page 62: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 62 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

binäre Bäume (completely resolved): initiale Belegung der inneren Knoten:

eine feste Permutation zufällige Permutationen eine Permutation aus nächster „Verwandtschaft“ Consensus von drei Permutationen aus nächster

„Verwandtschaft“ Initiales TSP für jeden inneren Knoten, Kantengewichte

über dynamische Programmierung Initiales TSP für jeden inneren Knoten, Kantengewichte

sind gemittelt über drei benachbarte Knoten

Page 63: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 63 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Der Algorithmus:

algorithm optimizetree

input G1,…,GN

initialize each of GN+1,…,G2N-2 to some Genome

cost := ∞

routine iteratemedian

output GN+1,…,G2N-2

Page 64: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 64 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

routine iteratemedian

while C = < cost,

cost := C

do for i = N+1,…,2N-2,

G* := median(Gh, Gj, Gk)

if

Gi := G*

end if

enddo

endwhile

},,{ },,{

* ),(),(kjhI kjhI

IiI GGGG

)(

),(TEVV

ji

ji

GG

Page 65: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 65 -

Multiple genome rearrangement

Wie gut sind die Ergebnisse:

Page 66: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 66 -

Multiple genome rearrangement

Fazit

Multiples Alignment von Genomen mit Hilfe von Stars und binären

Bäumen

Aussagen über die Genauigkeit der Lösung

Beschränkung der Genome auf dieselbe Genmenge ist

unrealistisch

Page 67: Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer actamer@aol.com.

Ceyhun Tamer, 6.Semester Bioinformatik - 67 -

Multiple genome rearrangement