Phylogenetische Bäume & ihre Konstruktion

Proseminar “Algorithmen und Datenstrukturen” im WS 02/03 Phylogenetische Bäume & ihre Konstruktion referiert von Marc Bachstein und Youssef Ben cheikh

1. UPGMA (Greedy-Ansatz)  Ultra-Metriken 2. Neighbour Joining Gliederung 1. Was ist Phylogenie? 2. Aufbau von phylogenetischen Bäumen 3. Konstruktion von phylogenetischen Bäumen 4. Zusammenfassung

Baumartige Darstellung der Verwandschaftsgrade Klassifizierung hier unter morphologischen Gesichtspunkten wie z.B. Fell, Federn 1. Was ist Phylogenie? Phylogenie beschäftigt sich mit der Verwandtschaft zwischen „Spezies“ ( Darwins Evolutionstheorie)

2. Aufbau von phylogenetischen Bäumen Nun Differenzierung über die verschiedenen DNAs Zur Erinnerung: DNA – Sequenz ist eine Folge von Buchstaben (bzw. Basen) aus dem Alphabet A = {A,G,C,T} z. B. S = ATCGAATACAGATTCGGT Doch wie sehen diese Bäume nun aus?

S1, ..., S8 sind DNA-Sequenzen S2 S3 S6 S7 S5 S8 S1 S1 S3 S5 S2 S4 Zeit S4 Phylogenetischer Baum mit „Urvater“ Phylogenetischer Baum ohne „Urvater“ Bei phylogenetischen Bäumen gibt es 2 verschiedene Darstellungen: • Bei beiden gilt: • Kanten sind gewichtet ( Kantenlänge gibt zeitlichen Abstand zwischen zwei Sequenzen an) • Es ist ein natürliches Distanzmaß D(Si,Sj) zwischen zwei Sequenzen Si und Sj gegeben

S1 S3 S5 S2 S4 Zeit Definition: Ein phylogenetischer Baum T auf einer Sequenzfamilie S ist ein Baum dessen Blätter mit den Elementen von S markiert sind. S1, ..., S5 sind DNA-Sequenzen Sequenzfamilie S = {S1, ..., S5} Ein (phylogenetisches) Alignment für T ist eine Markierung der inneren Knoten von T. (Die Struktur des Baumes wird dabei nicht verändert!) Dieses Alignment heißt intern (pseudo-lifted) wenn alle Markierungen aus S stammen, und streng intern (lifted), wenn jeder Elter-Knoten die Markierung eines seiner Kind-Knoten übernimmt.

Beispiel: s1 = AGCACGAT s2 = ATCACACT DH(s1,s2) = 3 Betrachten wir noch einmal das Kostenmaß zwischen zwei Sequenzen: Zwei Sequenzen si und sj stehen in einer (zeitlichen) Distanz D(si,sj) zueinander. Für jede dieser Distanzen gilt die Eigenschaft der Metrik: Die Funktion D: S2 R+ heißt Metrik, wenn (M1)  s1,s2 S: D(s1,s2) = 0  s1 = s2 (Definitheit), (M2)  s1,s2  S: D(s1,s2) = D(s2,s1) (Symmetrie), (M3)  s1, s2, s3  S: D(s1,s3)  D(s1,s2) + D(s2,s3) (Dreiecksungleichung) Im folgenden werden alle Distanzen zwischen den Sequenzen als vorgegeben vorausgesetzt. Sie können aber auch anhand von Algorithmen (1. Vortrag) im Vorfeld berechnet werden. In unseren Beispielen gehen wir von der einfachsten Form, der Hamming-Distanz DH aus.

v s Demnach ist dopt = min ( d(Wurzel,s)). s  S ... ... ... ... ... Gegeben sei nun ein Baum T. Wir suchen ein optimales Alignment, welches die kleinsten Gesamtkosten (Summe aller Kantenkosten) in einem Baum verursacht.  NP-hartes Problem Problem wird auf optimales internes Alignment beschränkt (s  S) (Approximationsalgorithmus)  Hier Lösung in O(|S|3) durch dynamische Programmierung d(v,s) bezeichnet die Summe aller Kantenkosten des Baumes mit der Wurzel v und mit der Markierung s an v. Wir probieren also an der Wurzel alle s  S aus und wählen dann das s, welches die geringsten Gesamtkosten verursacht.

d(v,s) =  D(si,s) alle Blätter xi mit Markierung si d(v,s) = min [[D(s,si) + d(wi,si)]] s1,..., sr 1 i r d(v,s) =  min [D(s,si) + d(wi,si)] si 1 i r d(v,s) = [  min [D(s,si) + d(wi,si)]]+ d(wj,s) 1 i r, ij S Blatt im j-ten Teilbaum Wie berechnen wir d(v,s)? Angenommen v habe nur Blätter: v habe nun auch Teilbäume mit Wurzeln w1, w2, ..., wr (|S|r verschiedene Möglichkeiten) Da Wahlen der si unabhängig voneinander: Bei streng internem Alignment noch weniger zu berechnen:

Also: Dopt(lifted Alignment)  2  D(opt Aligmnet) s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s10 := Kosten >0 := Kosten 0 s1 s5 s8 s4 s10 s3 s10 s4 s4 Wir werden nun zeigen, dass ein Baum mit optimalem lifted Alignment höchstens doppelt so große Gesamtkosten hat wie ein Baum mit optimalem Alignment: Beim lifted Alignment existieren Kanten mit Kosten 0 und > 0 Beispiel für phylogenetischen Baum TL mit lifted Alignment

s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s10 s1 s5 s8 s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s4 TL (optimales lifted Alignment) s10 s3 s10 s4 Sv* SvL s4 SwL TL T* T* (optimales Alignment) Vergleich der Kosten von TL und T* Bevor wir die Kosten der Bäume miteinander vergleichen können, benötigen wir aber zunächst einen Zwischenschritt, in welchem wir zeigen werden, dass: D(SvL,SwL) 2 D(SwL,Sv*)

Z.z.: D(SvL,SwL) 2 D(SwL,Sv*) SvL SwL TL T* SqL = Sv* SqL D(SvL,SwL)  D(SvL,Sv*) + D(Sv*,SwL) Unter den Kindern von vwählen wir ein Kind q aus, das den Wert D(SqL,Sv*) minimiert. = D(SqL,Sv*) + D(Sv*,SwL)  D(SwL,Sv*) + D(Sv*,SwL) = 2  D(SwL,Sv*) Als Markierung von vL wählen wir SqL.

Z.z.: D(SvL,SwL) 2 D(SwL,Sv*) SqL = SvL Sv* SqL SwL TL T* =  Kosten der durch Si verursachten Kante i  S Nun können wir die Kosten der Bäume miteinander vergleichen: Kosten(T*)  Kosten(TL) =  Kantenkosten  0 = 2  Kosten (T*)

 (D(i,j) - d(i,j))2 (i,j) 3. Konstruktion von phylogenetischen Bäumen In der Praxis handelt es sich bei phylogenetischen Bäumen stets um binäre Bäume! Unser Ziel bei der Konstruktion von phylogenetischen Bäumen ist es möglichst nah am optimalen Baum zu bleiben. D.h. wir wollen die „Fehler“ zum optimalen Baum möglichst gering halten, also folgenden Ausdruck minimieren: D(i,j) = vorgegebene Distanz d(i,j)= im Baum abgelesene Distanz  NP-hartes Problem Eine effiziente Alternative dazu bietet z.B. der Greedy-Ansatz UPGMA

Idee: Wir gruppieren die Sequenzen in Cluster (Mengen), berechnen die Distanzen der Cluster zueinander, und gruppieren erneut... d(p,q) Dij = d(Ci,Cj) :=  |Ci|  |Cj| pCi, qCj 3.1 UPGMA (unweighted pair groups methods with arithmetic mean) s1 s2 s3 s4 Die Distanz zwischen zwei Clustern ergibt sich durch: Ci und Cj sind Cluster (Mengen)

 d(p,q) = (|Ci| + |Cj|)  |Ck| p CiUCj, qCk ( ) 1 =  d(p,q)  d(p,q) |Ci| + |Cj| + |Ck| |Ck| pCi, qCk pCj, qCk ( ) 1  d(p,q)  d(p,q) = |Ci| + |Cj| |Ci| + |Cj| |Ci|  |Ck| |Cj|  |Ck| pCi, qCk pCj, qCk 1 ( ) = |Ci|  dik + |Cj|  djk |Ci| + |Cj| Die Distanz zwischen zwei bereits vereinigten Clustern (i,j) und einem neuen Cluster k: d((i,j),k) = d(Ci UCj, Ck) Die Distanz ist also in O(1) berechenbar.

dij • Bilde Knoten für Ck mit Kindern Ci und Cj und Höhe 2 s1 s2 s3 s4 Cluster: C1 = {s1}, C2 = {s2}, C3 = {s3}, C4 = {s4} s1 s2 s3 s4 Cluster: C1 = {s1}, C2 = {s2}, C3 = {s3}, C4 = {s4} dij 2 s1 s2 s3 s4 Der Algorithmus von UPGMA: • Initialisierung: Bilde aus jeder Sequenz ein Cluster der Größe 1 und der Höhe 0. • Wähle 2 Cluster Ci und Cj mit minimaler Distanz. • Bilde neues Cluster Ck = Ci U Cj, streiche Ci, Cj, berechne alle dkl Also: Cluster: C1 = {s1}, C5 = {s2,s3}, C4 = {s4}

In einer Ultra-Metrik gilt für 3 Werte a,b,c entweder • a = b = c • oder (sei c o.B.d.A. der kleinste der 3 Werte) a = b> c a b c a b c dab = dac = dbc dac = dbc> dab Ultra-Metriken: Übertragen auf die Distanzen bedeutet dies: Besitzen die Distanzen der Eingabe-Sequenzen zueinander nicht die Ultrametrik-Eigenschaft, dann kann es bei dem durch UPGMA konstruierten Baum zu falschen Ergebnissen kommen.

Behauptung: Wenn die Distanzen eine Ultra-Metrik bilden, bekommen wir duch den UPGMA-Algorithmus einen vernünftigen Baum. (d.h. Höhe Eltern ≥ Höhe Kinder) 1 dkl = (dil |Ci| + djl  |Cj|) p |Ci| + |Cj| k l i j 1 ( ) Also: |Ci|  dil + |Cj|  djl < dij |Ci| + |Cj| Nach der Ultrametrik-Eigenschaft gilt: dil = djl ≥ dij => i und j durften gar nicht verbunden werden, weil dij nicht kleinste Distanz war. (Widerspruch) UPGMA mit Ultra-Metrik Beweis (durch Widerspruch): Annahme: Höhe(p) < Höhe(k) (also k kein Blatt, da Blätter Höhe 0 haben) = 2  Höhe(p) < 2  Höhe(k) =dij (nach Annahme) => |Ci|  dil + |Cj|  djl < dij |Ci| + dij |Cj| => dil < dij und djl < dij

A: ATCGAATACAGATTCGGT D: AGTGCATCCAGTTTCAGT B: AACGAATACAGATTCGGT E: AGAGCATCCAGTTTCCGT C: ACCGTATGCAGCTTCGGT A B C D E A B C D E 0,5 A B C D E Beispiel: Wir haben 5 unterschiedliche Sequenzen: Bestimmen des Minimus:d(A,B) = 1 => neues Cluster = {{A},{B}} Berechnung der Kantenlänge bis zum Knoten: => d(A,B)/2 = 0,5 Distanzmatrix M

1 ( ) d((i,j),k) = |Ci|  dik + |Cj|  djk |Ci| + |Cj| A B C D E {A,B} C D E A {A,B} B C C D D E E Die Distanz zwischen zwei Clustern Ci,j und Ck berechnet man (wie schon gezeigt) mit folgender Formel: Man erhält somit folgende neue Distanzmatrix: neue Distanzmatrix M’ alte Distanzmatrix M

{A,B} C D E {A,B} C D E {A,B} C {D,E} 1 {A,B} 0,5 A B C D E C {D,E} Mit der neuen Matrix M’ fahren wir nun genauso fort: Bestimmen des Minimus:d(D,E) = 2 => neues Cluster = {{D},{E}} Berechnung der Kantenlänge bis zum Knoten: => d(D,E)/2 = 1 Distanzmatrix M’ neue Distanzmatrix M’’

{A,B} C {D,E} {A,B} C {D,E} {A,B,C} {D,E} 1,5 {A,B,C} 1 {D,E} 0,5 A B C D E Analog geht es weiter mit der Matrix M’’: Bestimmen des Minimus:d((A,B),C) = 4 => neues Cluster = {{A,B},{C}} Berechnung der Kantenlänge bis zum Knoten: => d((A,B),C)/2 = 2 Distanzmatrix M’’ neue Distanzmatrix M’’’

{A,B,C} {D,E} {A,B,C} {D,E} 1 2 Unser fertiger UPGMA-Baum! 1,5 1 0,5 A B C D E Als letztes wird die Matrix M’’’ bearbeitet: Bestimmen des Minimus:d((A,B,C),(D,E)) = 6 => neues Cluster = {{A,B,C},{D,E}} Berechnung der Kantenlänge bis zum Knoten: => d((A,B,C),(D,E))/2 = 3 Distanzmatrix M’’’

Bei dem UPGMA-Verfahren entstehen immer Bäume mit Urvater, wobei zwei Sequenzen als benachbart angesehen werden, deren Abstand minimal ist. Bei dem nächsten Algorithmus entstehen Bäume ohne Urvater. Es werden Distanzen gebildet, die die mittlere Distanz zu allen anderen Sequenzen abziehen. Es können hier Kanten zwischen Sequenzen entstehen, die nicht die minimale Distanz zueinander haben. Es wird ein ungewurzelter, additiver Baum konstruiert. Es handelt sich um den Neighbour –Joining-Algorithmus.

Zur Erinnerung: Unser Ziel bei der Konstruktion von phylogenetischen Bäumen ist es möglichst nah am optimalen Baum zu bleiben. D.h. wir wollen die „Fehler“ zum optimalen Baum möglichst gering halten, also folgenden Ausdruck minimieren: D(i,j) = vorgegebene Distanz d(i,j)= im Baum abgelesene Distanz  (D(i,j) - d(i,j))2 (i,j)  NP-hartes Problem 3.2 Neighbour-Joining Algorithmus Wie der UPGMA-Algorithmus bietet der Neighbour-Joining eine effiziente Alternative mit einer Laufzeit von O(N3).

m dim = dik + dkm 2 dkm = dim– dik + djm- djk k = (i,j) djm = djk + dkm = dim + djm- dij (wegen dij = dik + djk) i j dij+(rj-ri) djk = dij+(ri-rj) dim + djm - dij dik = 2 Also: dkm = 2 2 1 ∑m≠i ri := dim n-2 Distanz von einem neuen Elterknoten k zu allen anderen Knoten Gegeben sind dim, dij, djm. Wir haben also zwei Knoten i und j miteinander verbunden, erhalten dabei den Knoten k, und berechnen die Distanzen von k zu allen anderen Knoten. Doch es bleibt die Frage, welche Knoten i und j man verbinden soll. Dazu definieren wir eine sog. “Kunstdistanz” K: Kij := dij – (ri +rj) ri ist der durchschnittliche Abstand zu allen anderen Knoten Wir definieren dik und djk:

Zusammgefasst: Distanz von neuem Knoten k zu allen anderen Knoten k = (i,j) dim + djm - dij dkm = m 2 ri ist der durchschnittliche Abstand zu allen anderen Knoten dij+(rj-ri) Wir haben eine “Kunstdistanz” K definiert, um i und j zu wählen: djk = dij+(ri-rj) dik = 2 Kij := dij – (ri +rj) 2 i j Die Kantenlängen dki und dkj: 1 ∑k≠i ri := dik n-2 Wir haben nun alle Formeln, mit denen der Neighbour-Joining Algorithmus arbeitet: Es folgt jetzt der Algorithmus.

3) Erzeuge den neuen Knoten k=(i,j) und Kanten (i,(i,j)) und (j,(i,j)) mit den dim + djm - dij dkm = Längen: 2 dij+(rj-ri) djk = dij+(ri-rj) dik = 2 2 4) Berechne für m {i,j} 5) Die neue Blättermenge B’ ergibt sich aus der alten Blättermenge B durch B’ = (B – {i,j}) U {k} Algorithmus: Neighbour Joining 1) Berechne alle ri und alle Kij. 2) Wähle i und j mit minimalem Kij. Dann ist zwar dik≠ djk, aber dij ist richtig widergegeben. Alle Schritte werden iteriert, bis alle Blätter im Baum durchlaufen sind, also (n-1)-mal.

A B C D A B rA = ½ (8+7+12)=13,5 C rB = ½ (8+9+14)=15,5 rC = ½ (7+9+11)=13,5 D rD = ½ (12+14+11)=18,5 B C k1 A D 8 +(13,5-15,5) 8 +(15,5-13,5) dA,k = = 3 dB,k = = 5 1 2 1 2 Beispiel: B= {A,B,C,D} Gegeben seien 4 Sequenzen, die sich in der folgenden Distanzmatrix darstellen lassen. 5) B’ ={C,D,k1} 1) Alle ri werden berechnet: -21 -20 -20 -20 -20 -21 Alle Kunstdistanzen Kij werden berechnet: KAB = dAB – (rA +rB) Distanzmatrix M = 8 – (13,5 +15,5) = -21 2) Wähle i und j mit minimalem Kij. 5 => KAB oder KCD 3 Wir wählen die Knoten A und B 3) Bestimmung der Kantenlänge: 4)  nächste Seite

A B C D K1 C D A K1 B C C D D Hierbei ist: dAC + dBC - dAB dk C = = 4 1 2 dAD + dBD - dAB dk D = = 9 1 2 4) Distanzen von k1 werden neu ermittelt. Es entsteht eine neue Distanzmatrix. -21 -20 -20 -20 -20 -21 alte Distanzmatrix M neue Distanzmatrix M’ Mit dieser Distanzmatrix wird analog verfahren.

rK = ½ (4+9)=6,5 1 rC = ½ (4+11)=7,5 K1 C D rD = ½ (9+11)=10 K1 2) Wähle i und j mit minimalem Kij. C Wir wählen die Knoten K1 und C D 4+(6,5-7,5) 4 +(7,5-6,5) dk , k = = 1,5 dC,k = = 2,5 1 2 2 2 2 B 4) Da wir nur noch 2 Knoten verbinden müssen, 5 k1 k2 berechnen wir keine neue Distanzmatrix,sondern verbinden sie direkt. 3 A Hieraus ergibt sich dk D = 8,5. 2 1) Alle ri werden berechnet: B ={C,D,k1} 5) B’ ={D,k2} Alle Kunstdistanzen Kij werden berechnet: -10 -7,5 -6,5 3) Bestimmung der Kantenlänge: Distanzmatrix M’ C 2,5 1,5 8,5 Es bleibt nur noch die Kantenlänge von k2 zu D zu berechnen. D Aus der vorgegebenen Distanzmatrix entnehmen wir die Distanz dCD = 11.

1. Schritt: Berechnung ri: O(n2) Berechnung Kij: O(n2) 2. Schritt: Minimales Kij wählen: O(n2) 3. Schritt: Neuer Knoten mit Längen: O(1) 4. Schritt: Neue Distanzmatrix erstellen: O(n) 5. Schritt: Neue Blättermenge erstellen: O(n) 1. Schritt: Berechnung ri: O(n) Berechnung Kij: O(n) 3.- 5. Schritt: Zusammen in O(n2) Zur Laufzeitanalyse von Neighbour Joining: In der ersten Runde ergibt sich Für die weiteren Durchläufe gilt: Damit hat der Algorithmus eine Gesamtlaufzeit von O(n3)

4. Zusammenfassung

Phylogenetische Bäume & ihre Konstruktion