1 / 83

V3 - Multiples Sequenz Alignment und Phylogenie

Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk. V3 - Multiples Sequenz Alignment und Phylogenie. Definition von “Homologie”. Homologie : Ähnlichkeit , die durch Abstammung von einem gemeinsamen Ursprungsgen herrührt –

valin
Download Presentation

V3 - Multiples Sequenz Alignment und Phylogenie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk V3 - Multiples Sequenz Alignment und Phylogenie Softwarewerkzeuge der Bioinformatik

  2. Definition von “Homologie” • Homologie: Ähnlichkeit, die durch Abstammung von einem gemeinsamen Ursprungsgen herrührt – die Identifizierung und Analyse von Homologien ist eine zentrale Aufgabe der Phylogenie. • Ein Alignment ist eine Hypothese für die positionelle Homologie zwischen Basenpaaren bzw. Aminosäuren. Softwarewerkzeuge der Bioinformatik http://www.cellsignal.com

  3. Alignments können einfach oder schwer sein GCGGCCCA TCAGGTACTT GGTGG GCGGCCCA TCAGGTAGTT GGTGG GCGTTCCA TCAGCTGGTT GGTGG GCGTCCCA TCAGCTAGTT GGTGG GCGGCGCA TTAGCTAGTT GGTGA ******** ********** ***** TTGACATG CCGGGG---A AACCG TTGACATG CCGGTG--GT AAGCC TTGACATG -CTAGG---A ACGCG TTGACATG -CTAGGGAAC ACGCG TTGACATC -CTCTG---A ACGCG ******** ?????????? ***** Einfach Schwierig wegen Insertionen und Deletionen (indels) Kann man beweisen, dass ein Alignment korrekt ist? Softwarewerkzeuge der Bioinformatik

  4. Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden Gaps eines Alignments sollten vorwiegend in Loops liegen, nicht in Sekundär- struktur- elementen. Escherichia coli DjlA protein Homo sapiens DjlA protein nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist. Beweisen im strikten Sinne kann man dies nie. Softwarewerkzeuge der Bioinformatik

  5. Farbe Aminosäuretyp Aminosäuren gelb klein, wenig polar Gly, Ala, Ser, Thr grün hydrophob Cys, Val, Ile, Leu Pro, Phe, Tyr, Met, Trp violett polar Asn, Gln, His rot negativ geladen Asp, Glu blau positiv geladen Lys, Arg MSA für Thioredoxin-Familie Softwarewerkzeuge der Bioinformatik

  6. Infos aus MSA von Thioredoxin-Familie Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt, das auf beiden Seiten von alpha-Helices flankiert ist. gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen Softwarewerkzeuge der Bioinformatik

  7. Infos aus MSA von Thioredoxin-Familie 1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem aktiven Zentrum. Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem konservierten WCGPC[K oder R] Motiv. Andere konservierte Sequenzabschnitte, z.B. Pro76Thr77 und Gly92Gly93 sind an der Substratbindung beteiligt. Softwarewerkzeuge der Bioinformatik

  8. Infos aus MSA von Thioredoxin-Familie 2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder Pro lässt auf eine Wendung der Kette (‚turn‘) schließen. Softwarewerkzeuge der Bioinformatik

  9. Infos aus MSA von Thioredoxin-Familie 3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h., an jeder zweiten Position), bei dem die dazwischenliegenden Bausteine vielfältiger sind und auch hydrophil sein können, läßt auf ein -Faltblatt an der Moleküloberfläche schließen. Softwarewerkzeuge der Bioinformatik

  10. Infos aus MSA von Thioredoxin-Familie 4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand von ungefähr 4 läßt auf eine -Helix schließen. Softwarewerkzeuge der Bioinformatik

  11. Infos aus MSA von Thioredoxin-Familie Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte homologe Protein gehören, z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei der DNA-Synthese) Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch falsch gefalteter Disulfidbrücken) Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen) Glutathion-S-Transferasen (Proteine der chemischen Abwehr). Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit Muster, die man zur Identifizierung dieser entfernteren Verwandten nutzen kann. Softwarewerkzeuge der Bioinformatik

  12. Multiples Sequenz-Alignment- Methoden Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen: (1) Manuell ein manuelles Alignment bietet sich an falls • Alignment einfach ist. • es zusätzliche (strukturelle) Information gibt • automatische Alignment –Methoden in lokalen Minima feststecken. • ein automatisch erzeugtes Alignment manuell “verbessert” werden kann. (2) Automatisch (3) Kombiniert Softwarewerkzeuge der Bioinformatik

  13. Automatisches multiples Sequenzalignment Hier gibt es vor allem folgende 2 wichtigen Methoden: • DynamischeProgrammierung • liefert garantiert das optimale Alignment! • aber: betrache 2 Proteinsequenzen von 100 Aminosäuren Länge. wenn es 1002Sekunden dauert, diese beiden Sequenzen erschöpfend zu alignieren, dann wird es 1003Sekunden dauern um 3 Sequenzen zu alignieren, 1004Sekunden für 4 Sequenzen und 1.90258x1034Jahre für 20 Sequenzen. • Progressives Alignment Softwarewerkzeuge der Bioinformatik

  14. dynamische Programmierung mit MSA Programm berechne zunächst paarweise Alignments für 3 Sequenzen wird Würfel aufgespannt: D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3 mit den Sequenzlängen n1, n2, n3. Sehr aufwändig! Versuche, Suchraum einzuschränken und nur einen kleinen Teil des Würfels abzusuchen. Softwarewerkzeuge der Bioinformatik

  15. Progressives Alignment • wurde von Feng & Doolittle 1987 vorgestellt • ist eine heuristische Methode. Daher ist nicht garantiert, das “optimale” Alignment zu finden. • benötigt(n-1) + (n-2) + (n-3) ... (n-n+1)paarweise Sequenzalignments als Ausgangspunkt. • weitverbreitete Implementation in Clustal(Des Higgins) • ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und Programm Gewichte (weights) zugeteilt werden. Softwarewerkzeuge der Bioinformatik

  16. ClustalW- Paarweise Alignments • Berechne alle möglichen paarweisen Alignments von Sequenzpaaren. Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten. • Berechne aus diesen isolierten paarweisen Alignments den “Abstand” zwischen jedem Sequenzpaar. • Erstelle eine Abstandsmatrix. • aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt • Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment ausgeführt werden wird. Softwarewerkzeuge der Bioinformatik

  17. Überblick der ClustalW Prozedur Hbb_Human 1 - CLUSTAL W Hbb_Horse 2 .17 - Hba_Human 3 .59 .60 - Hba_Horse 4 .59 .59 .13 - Schnelle paarweise Alignments: berechne Matrix der Abstände Myg_Whale 5 .77 .77 .75 .75 - Hbb_Human 4 2 3 Hbb_Horse Hba_Human 1 Nachbar-Verbindungs- Baumdiagramm Hba_Horse Myg_Whale alpha-helices 1 PEEKSAVTALWGKVN--VDEVGG 2 3 4 2 GEEKAAVLALWDKVN--EEEVGG progressive Alignments entsprechend dem Baumdiagramm 3 PADKTNVKAAWGKVGAHAGEYGA 1 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Softwarewerkzeuge der Bioinformatik

  18. Multiples Alignment- Erstes Paar • aligniere die beiden ähnlichsten Sequenzen zuerst. • dieses Alignment ist dann “fest” und wird nicht mehr angetastet. Falls später ein GAP eingeführt werden muss, wird er in beiden Sequenzen an der gleichen Stelle eingeführt. • Deren relatives Alignment bleibt unverändert. Softwarewerkzeuge der Bioinformatik

  19. Clustal W – Zeit der Entscheidung Ziehe den Baum heran um festzulegen, welches Alignment als nächstes durchgeführt werden soll: • aligniere eine dritte Sequenz zu den ersten beiden oder • aligniere zwei total verschiedene Sequenzen miteinander. Option 1 Option 2 Softwarewerkzeuge der Bioinformatik

  20. ClustalW- 2 Alternativen Wenn beim Alignment einer dritten Sequenz mit den ersten beiden eine Lücke eingefügt werden muss um das Alignment zu verbessern, werden beide als Einzelsequenzen betrachtet. Falls, andererseits, zwei getrennte Sequenzen aligniertwerden müssen, werden diese zunächst miteinander aligniert. + + Softwarewerkzeuge der Bioinformatik

  21. Progressives Alignment – 1. Schritt gctcgatacgatacgatgactagcta gctcgatacaagacgatgacagcta gctcgatacacgatgactagcta gctcgatacacgatgacgagcga ctcgaacgatacgatgactagct gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta Softwarewerkzeuge der Bioinformatik

  22. Progressives Alignment – 2. Schritt gctcgatacgatacgatgactagcta gctcgatacaagacgatgacagcta gctcgatacacgatgactagcta gctcgatacacgatgacgagcga ctcgaacgatacgatgactagct gctcgatacacgatgactagcta gctcgatacacgatgacgagcga Softwarewerkzeuge der Bioinformatik

  23. Progressives Alignment – 3. Schritt gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta + gctcgatacacgatgactagcta gctcgatacacgatgacgagcga gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga Softwarewerkzeuge der Bioinformatik

  24. Progressives Alignment – letzter Schritt gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga + ctcgaacgatacgatgactagct gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga -ctcga-acgatacgatgactagct- Softwarewerkzeuge der Bioinformatik

  25. ClustalW- Vor- und Nachteile Vorteil: • Geschwindigkeit. Nachteile: • keine objektive Funktion. • Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist (vgl. E-value für BLAST) • Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist Mögliche Probleme: • Prozedur kann in ein lokales Minimum geraten. D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut wird, kann dieser später nicht mehr korrigiert werden. • ZufälligesAlignment. Softwarewerkzeuge der Bioinformatik

  26. Genauigkeit des Alignments verbessern • Sollen all Sequenzen gleich behandelt werden? Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind? • Sollen alle Positionen der Sequenzen gleich behandelt werden? Obwohl sie unterschiedliche Funktionen und Positionen in der dreidimensionalen Strukturen haben können? Softwarewerkzeuge der Bioinformatik

  27. ClustalW- Besonderheiten • Sequenzgewichtung • Variable Substitutionsmatrizen • Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in Loops anstatt im Proteinkern. • Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu bevorzugen Softwarewerkzeuge der Bioinformatik

  28. ClustalW- vom Benutzer festzulegende Parameter • Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte sich bewusst sein, dass diese abgeändert werden können): • Die GOP- Gap Opening Penaltyist aufzubringen um eine Lücke in einem Alignment zu erzeugen • Die GEP- Gap Extension Penaltyist aufzubringen um diese Lücke um eine Position zu verlängern. Softwarewerkzeuge der Bioinformatik

  29. Positions-spezifische Gap penalties • Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs erstellt für jede Position der beiden Sequenzen. • Die GOP werden positions-spezifisch behandelt und können über die Sequenzlänge variieren. • Falls ein GAP an einer Position existiert, werden die GOP und GEP penalties herabgesetzt – und alle anderen Regeln treffen nicht zu. • Daher wird die Bildung von Gaps an Positionen wahrscheinlicher, an denen bereits Gaps existieren. Softwarewerkzeuge der Bioinformatik

  30. Vermeide zu viele Gaps • Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position innerhalb von 8 Residuen von einem bestehenden Gap liegt. • Dadurch werden Gaps vermieden, die zu eng beieinander liegen. • An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird GOP herabgesetzt, da diese gewöhnlich in Loop-Regionen von Proteinstrukturen liegen. • Eine Reihe von 5 hydrophilen Residuen gilt als hydrophiler stretch. • Die üblichen hydrophilen Residuen sind: D Asp K Lys P Pro E Glu N Asn R Arg G Gly Q Gln S Ser Dies kann durch den Benutzer geändert werden. Softwarewerkzeuge der Bioinformatik

  31. Tips für progressives Alignment • Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig von der biologischen Realität abläuft. • Es kann eine sehr gute Abschätzung sein. • Es kann eine unglaublich schlechte Abschätzung sein. • Erfordert Input und Erfahrung des Benutzers. • Sollte mit Vorsicht verwendet werden. • Kann (gewöhnlich) manuell verbessert werden. • Es hilft oft, farbliche Darstellungen zu wählen. • Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen Regionen des Alignments zu beurteilen. • Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden, für die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt. Softwarewerkzeuge der Bioinformatik

  32. Alignment von Protein-kodierenden DNS-Sequenzen • Es macht wenig Sinn, proteinkodierende DNS-Abschnitte zu alignieren! ATGCTGTTAGGG ATGCTCGTAGGG ATGCT-GTTAGGG ATGCTCGT-AGGG Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem biologischen Prozess. Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden sind. Softwarewerkzeuge der Bioinformatik

  33. Zusammenfassung Progressive Alignments sind die am weitesten verbreitete Methode für multiple Sequenzalignments. Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer) Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann in Einzelfällen das Alignment verbessern. Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und –funktionen. Softwarewerkzeuge der Bioinformatik

  34. Prediction of Phylogenies based on single genes Material of this lecture taken from - chapter 6, DW Mount „Bioinformatics“ and from Julian Felsenstein‘s book. A phylogenetic analysis of a family of related nucleic acid or protein sequences is a determination of how the family might have been derived during evolution. Placing the sequences as outer branches on a tree, the evolutionary relationships among the sequences are depicted. Phylogenies, or evolutionary trees, are the basic structures to describe differences between species, and to analyze them statistically. They have been around for over 140 years. Statistical, computational, and algorithmic work on them is ca. 40 years old. Softwarewerkzeuge der Bioinformatik

  35. 3 main approaches in single-gene phylogeny - maximum parsimony - distance matrix - maximum likelihood (not covered here) Popular programs: PHYLIP (phylogenetic inference package – J Felsenstein) PAUP (phylogenetic analysis using parsimony – Sinauer Assoc Softwarewerkzeuge der Bioinformatik

  36. Parsimony methods Edwards & Cavalli-Sforza (1963): that evolutionary tree is to be preferred that involves „the minimum net amount of evolution“.  seek that phylogeny on which, when we reconstruct the evolutionary events leading to our data, there are as few events as possible. (1) We must be able to make a reconstruction of events, involving as few events as possible, for any proposed phylogeny. (2) We must be able to search among all possible phylogenies for the one or ones that minimize the number of events. Softwarewerkzeuge der Bioinformatik

  37. A simple example Suppose that we have 5 species, each of which has been scored for 6 characters (0,1) We will allow changes 0  1 and 1  0. The initial state at the root of a tree may be either state 0 or state 1. Softwarewerkzeuge der Bioinformatik

  38. Evaluating a particular tree To find the most parsimonious tree, we must have a way of calculating how many changes of state are needed on a given tree. This tree represents the phylogeny of character 1. Reconstruct phylogeny of character 1 on this tree. Softwarewerkzeuge der Bioinformatik

  39. Evaluating a particular tree There are 2 equally good reconstructions, each involving just one change of character state. They differ in which state they assume at the root of the tree, and they differ in which branch they place the single change. Softwarewerkzeuge der Bioinformatik

  40. Evaluating a particular tree 3 equally good reconstructions for character 2, which needs two changes of state. Softwarewerkzeuge der Bioinformatik

  41. Evaluating a particular tree A single reconstruction for character 3, involving one change of state. Softwarewerkzeuge der Bioinformatik

  42. Evaluating a particular tree on the right: 2 reconstructions for character 4 and 5 because these characters have identical patterns. single reconstruction for character 6, one change of state. Softwarewerkzeuge der Bioinformatik

  43. Evaluating a particular tree The total number of changes of character state needed on this tree is 1 + 2 + 1 + 2 + 2 + 1 = 9 Reconstruction of the changes in state on this tree Softwarewerkzeuge der Bioinformatik

  44. Evaluating a particular tree Alternative tree with only 8 changes of state. The minimum number of changes of state would be 6, as there are 6 characters that can each have 2 states. Thus, we have two „extra“ changes  called „homoplasmy“. Softwarewerkzeuge der Bioinformatik

  45. Finding the best tree by heuristic search The obvious method for searching for the most parsimonious tree is to consider ALL trees and evaluate each one. Unfortunately, generally the number of possible trees is too large.  use heuristic search methods that attempt to find the best trees without looking at all possible trees. (1) Make an initial estimate of the tree and make small rearrangements of it = find „neighboring“ trees. (2) If any of these neighbors are better, consider them and continue search. Softwarewerkzeuge der Bioinformatik

  46. Counting evolutionary changes 2 related dynamic programming algorithms: Fitch (1971) and Sankoff (1975) - evaluate a phylogeny character by character - for each character, consider it as rooted tree, placing the root wherever seems appropriate. - update some information down a tree; when we reach the bottom, the number of changes of state is available. Do not actually locate changes or reconstruct interior states at the nodes of the tree. Softwarewerkzeuge der Bioinformatik

  47. Sankoff algorithm If we can compute these values for all nodes, we can also compute them for the bottom node in the tree. Simply choose the minimum of these values which is the desired total cost we seek, the minimum cost of evolution for this character. At the tips of the tree, the S(i) are easy to compute. The cost is 0 if the observed state is state i, and infinite otherwise. If we have observed an ambigous state, the cost is 0 for all states that it could be, and infinite for the rest. Now we just need an algorithm to calculate the S(i) for the immediate common ancestor of two nodes. Softwarewerkzeuge der Bioinformatik

  48. Sankoff algorithm Suppose that the two descendant nodes are called l and r (for „left“ and „right“). For their immediate common ancestor, node a, we compute The smallest possible cost given that node a is in state i is the cost cijof going from state i to state j in the left descendant lineage, plus the cost Sl(j) of events further up in the subtree gien that node l is in state j. Select value of j that minimizes that sum. Same calculation for right descendant lineage  sum of these two minima is the smallest possible cost for the subtree above node a, given that node a is in state i. Apply equation successively to each node in the tree, working downwards. Finally compute all S0(i) and use previous eq. to find minimum cost for whole tree. Softwarewerkzeuge der Bioinformatik

  49. Sankoff algorithm The array (6,6,7,8) at the bottom of the tree has a minimum value of 6 = minimum total cost of the tree for this site. Softwarewerkzeuge der Bioinformatik

  50. Distance matrix methods introduced by Cavalli-Sforza & Edwards (1967) and by Fitch & Margoliash (1967) general idea „seems as if it would not work very well“ (Felsenstein): - calculate a measure of the distance between each pair of species - find a tree that predicts the observed set of distances as closely as possible. All information from higher-order combinations of character states is left out. But computer simulation studies show that the amount of lost information is remarkably small. Best way to think about distance matrix methods: consider distances as estimates of the branch length separating that pair of species. Softwarewerkzeuge der Bioinformatik

More Related