1 / 89

Vorhersage von RNA-Sekundärstrukturen

Aktuelle Themen der Bioinformatik. Vorhersage von RNA-Sekundärstrukturen. drei verschiedene Methoden zur Vorhersage von Pseudoknoten der RNA Natalie Jäger. Vorhersage von Pseudoknoten. Grundlagen – Aufbau der RNA 3 Methoden für RNA Secondary Structure Prediction:

Download Presentation

Vorhersage von RNA-Sekundärstrukturen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aktuelle Themen der Bioinformatik Vorhersage von RNA-Sekundärstrukturen drei verschiedene Methoden zur Vorhersage von Pseudoknoten der RNA Natalie Jäger Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  2. Vorhersage von Pseudoknoten • Grundlagen – Aufbau der RNA 3 Methoden für RNA Secondary Structure Prediction: • Stochastisches Modellieren durch parallele Grammatiken • Graph-theoretischer Ansatz • „Iterated Loop Matching“ Algorithmus Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  3. Vorhersage von Pseudoknoten • Stochastic modeling of RNA pseudoknotted structures: a grammatical approach; Cai, Russell, Wu; 2003 • A graph theoretical approach to predict common RNA secondary sructure motifs including pseudoknots in unaligned sequences;  Yongmei, Stormo, Xing; 2004 • An iterated loop matching approach to the prediction of RNA secondary structures with pseudoknots; Ruan, Stormo, Zhang; 2004 Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  4. Biologische Aspekte der RNA • -besteht Zuckerphosphat-Rückgrat, sowie einer Abfolge von 4 möglichen Basen (A, U, G, C) • Unterschied zur DNA: Zucker ist die Ribose, und eine der vier Basen, nämlich T (Thymin) ist ersetzt durch U (Uracil) • Jeweils drei Nukleotide bilden ein Codon, mit dessen Hilfe sich eine spezifische Aminosäure, eindeutig bestimmen lässt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  5. Funktion der RNA • im Gegensatz zur doppelsträngigen DNA - einsträngige Polynukleotide • dieser Unterschied erhöht die katalytische Funktion der RNA und erlaubt ihr chemische Reaktionen, die der DNA nicht möglich sind • mRNA, Boten-RNA: kopiert die in einem Gen auf der DNA liegende Information und trägt sie zum Ribosom, wo mit Hilfe dieser Information die Proteinbiosynthese stattfinden kann Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  6. tRNA, Transfer-RNA: kodiert keine genetische Information, sondern dient als Hilfsmolekül bei der Proteinbiosynthese, indem sie eine einzelne Aminosäure aus dem Cytoplasma aufnimmt und zum Ribosom transportiert • Paarungen konjugierender Basen über Wasserstoff-brücken kleeblattartige Struktur Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  7. rRNA, ribosomale RNA: trägt ähnlich wie die tRNA keine genetische Information, sondern ist am Aufbau des Ribosoms beteiligt und erfüllt dort auch Stoffwechselfunktion • snRNA, small nuclear-RNA: im Zellkern von Eukaryoten, verantwortlich für die enzymatische Spaltung der RNA(Splicing) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  8. RNA-Sekundärstrukturen • werden durch Interaktionen zwischen komplementären Nucleotid-Paaren festgelegt (über H-Brücken), die nah oder weit voneinander im Molekül entfernt sind • genau diese Interaktionen falten die RNA in solche Formen wie Stem Loops oder die komplizierteren Pseudoknoten • Sekundärstruktur hängt mit der Funktion der RNA zusammen  daher versucht man Sekundärstruktur der RNA vorherzusagen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  9. Stem Loops (Haarnadelstruktur) - Doppelhelixbereich, der durch Basenpaarung zwischen benachbarten, komplementären Sequenzen innerhalb eines RNA-Stranges entsteht Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  10. Pseudoknoten  Pseudoknoten wegen c und c`, die zusammen eine Base-Paired-Region sind, also eine Doppelhelix bilden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  11. Definition Pseudoknoten: • In der RNA-Sequenz s beinhaltet die Teilsequenz t eine potential region,wenn eine Base-Region zu einer Helix beiträgt in s, aber nicht zu einer Helix in t  c und c´ sind potential regions • Die Teilsequenz t ist eine P-Structure, wenn sie eine potential region enthält. t ist nicht-triviale P-Structure, wenn die potential regionzwischen zwei base-paired regions liegt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  12. 3. s ist eine RNA-Sequenz. s ist eine pseudo-geknotete Struktur, wenn sie zwei nicht-überlappende P-Strukturen enthält, wobei eine davon nicht-trivial ist (hier: t1), und beide potential regions bilden eine Doppelhelix so können alle RNA-Pseudoknoten definiert werden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  13. Vorhersage von RNA-Sekundärstrukturen • Grammatiken nach Chomsky sind ideal um zum Modellieren von Interaktionen zwischen Nucleotiden ( Stems sind palindromartig) • Stem Loops kann man mit stochastischen kontextfreien Grammatiken (SCFG) modellieren • Pseudoknoten sind aber komplexer als Stem Loops und würden formal eine kontextsensitive Grammatik erfordern, was aber Komplexität stark erhöht Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  14. Parallele Grammatiken • zum Vorhersagen von Pseudoknoten werden hier parallel communicating grammar systems (PCGS) benutzt • PCGS besteht aus einer Anzahl an Chomsky Grammatiken - den Components Gi • eine Component kann Sequenzen anfragen, die von anderen Grammatiken erzeugt wurden • mehrere Components können gleichzeitig anfragen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  15. Parallele Grammatiken • so kann eine kontextsensitive Struktur, wie ein Pseudoknoten, durch eine kontextfreie Grammatik synchronisiert mit einer Vielzahl an regulären Grammatiken generiert werden • Stochastische Version von PCGS wird dadurch so einfach wie bei SCFG • die (eine) CFG beinhaltet spezielle query symbols als Nichtterminale für potentielle base-pairing regions, welche die für Pseudoknoten typische Doppelhelix formen (einziger Unterschied zu SCFG) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  16. PCGS • ein PCGS G besteht aus mehr als einer Chomsky Grammatik G0, G1,..., Gk– den Components • Grammatik G0 wird Master genannt • Grammatiken teilen sich Alphabet (Terminale; hier: a, c, g, u) und Variablen (Nonterminale) • es gibt zusätzlich spezielle Nonterminale: Query Symbols – diese sorgen für die Kommunikation zwischen den Grammatiken Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  17. PCGS • die Ableitung des Systems ist das Umschreiben jeder Grammatik (Components) • Synchronisierung zwischen dem Umschreiben der Components erhält man durch die Query Symbols Qi • die Sprache, die durch das PCGS schließlich erzeugt wird, ist eine Menge von Strings, welche die Master-Grammatik G0 erzeugt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  18. PCGS Beispiel • zeigt die 3 regulären (Hilfs-)Grammatiken G1, G2 , G3 • Synchronisierung zwischen G1 und G2 erhält man durch die Produktion S1 Q2 , weil dadurch in G2 zuerst abgeleitet wird Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  19. PCGS Beispiel • Beispiel für das parallele Ableiten von den zwei base-paired Regionen acg und cgu Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  20. PCGS Beispiel • zeigt die kontextfreie Master-Grammatik G0 • G0 beschreibt zwei nicht-überlappende P-Structures; eine davon ist nicht-trivial Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  21. PCGS Beispiel -Ableitungsbaum des PCGS, so dass eine pseudo-geknotete Struktur entsteht Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  22. PCGS: Stochastische Version • Wahrscheinlichkeiten mit den Produktionsregeln jeder Component (Grammatik) der PCGS assoziieren • am einfachsten durch Definieren einer Wahrscheinlichkeits-Verteilung für jede Component als unabhängige SCFG • die Wahrscheinlichkeit für einen parallen Ableitungsschritt muss aber die bedingten Wahrscheinlichkeiten berücksichtigen, die durch die Kommunikation zwischen Grammatiken entstehen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  23. PCGS: Stochastische Version • die Wahrscheinlichkeit für einen Pseudoknoten lässt sich durch die Master-CFG G0 berechnen, wenn die Wahrscheinlichkeiten für Crossing Helices (Q1, Q2), die durch Hilfsgrammatiken generiert werden, bekannt sind: • Sei S = {a, u, c, g}, G eine PCGS mit m Components. Dann ist LG die Menge aller pseudogeknoteten Strukturen die G generiert Es gilt: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  24. PCGS: Stochastische Version • die Wahrscheinlichkeit für die Ableitung S0* s1r1s2r2s3 • weil die Generierung von r1 und r2 (potential regions) synchron ist Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  25. PCGS: Stochastische Version • der Produktterm ist die Wahrscheinlichkeit für das komplementäre Alignment zwischen r1 und r2 • die stochastische Version des PCGS ist somit nur die stochastische Version der kontextfreien Master-Grammatik G0 • einziger Unterschied zu sonstigen SCFG: die Query Symbols, die als Nonterminale dazu dienen Pseudoknoten (Crossing Helices) zu spezifizieren Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  26. Automatisierter Algorithmus für Pseudoknoten-Vorhersage • Resultat aus PCGS: ein System, das automatisch einen „Pseudoknoten-Vorhersage-Algorithmus“ für jede pseudogeknotete Struktur generiert • zum Modellieren von Crossing Helices, repräsentiert durch die Query Symbols, benötigt man eine 5x5 probabilistische Matrix • diese Matrix beschreibt die Wahrscheinlichkeits-Verteilung (der 4 Basen + gap für bulges) in den Crossing Helices Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  27. Automatisierter Algorithmus für Pseudoknoten-Vorhersage • basiert auf Dynamischem Programmieren, ähnlich dem CYK-Algorithmus • für die Eingabe-Sequenz x[1..n] (eine SCFG in CNF) berechnet der Algorithmus für jedes Nonterminal X die maximale Wahrscheinlichkeit für jede Teilsequenz x[i..j] • der Algorithmus unterscheidet 3 Kategorien von Teilsequenzen: stem-loops, Pseudoknoten und P-Structures Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  28. Automatisierter Algorithmus für Pseudoknoten-Vorhersage 1.Berechnung für stem-loops folgt dem CYK-Algorithmus 2. Berechnung von Pseudoknoten erfolgt über eine Hilfsfunktion H, welche für jedes Paar an Teilsequenzen die maximale Wahrscheinlichkeit angibt, eine Crossing Helix zu bilden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  29. Exkurs: CYK-Algorithmus Der Cocke-Younger-Kasami-Algorithmus (CYK-Algorithmus) ist ein Algorithmus, der das Wortproblem für gegebene kontextfreie Sprachen effizient löst. Die Sprache muss dazu in Form einer Grammatik in CNF vorliegen. Laufzeit O(n³) • Anstatt sofort zu berechnen, ob sich das Wort w der Länge m aus dem Startsymbol ableiten lässt, wird zuerst ermittelt, aus welchen Variablen sich einstellige Teilworte von w ableiten lassen. Danach wird für alle zweistelligen Teilworte berechnet, aus welchen Variablen sie sich ableiten lassen. Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  30. Automatisierter Algorithmus für Pseudoknoten-Vorhersage • für das Nonterminal X wird die maximale Wahrscheinlichkeit, aus X einen Pseudoknoten x[i..j] abzuleiten, so berechnet: - wobei Y und Z Teilsequenzen sind, die potentielle base-pairing regions x[h..l] und x[u..v] enthalten Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  31. Automatisierter Algorithmus für Pseudoknoten-Vorhersage Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  32. Automatisierter Algorithmus für Pseudoknoten-Vorhersage 3. die maximale Wahrscheinlichkeit, für das Nonterminal X eine P-Structure x[k..l] aus der Teilsequenz x[i..j] abzuleiten, ist so definiert: • bzw. rekursiv: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  33. Automatisierter Algorithmus für Pseudoknoten-Vorhersage Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  34. Implementierung und Tests • Laufzeit im worst case: O(n6) für CPU-Zeit / O(n4) für Speicher (RAM) • die Eingabe besteht aus der SCFG G0(inklusive query symbols), die in CNF vorliegen muss, und einer 5x5 probabilistischen Matrix, welche die Wahrscheinlichkeiten für das Base-Pairing enthält • getestet wurden 36 tmRNA Sequenzen (alle Pseudoknoten vorab bekannt): in 34 Sequenzen wurde ein Pseudoknoten vorausgesagt, wenn auch nur in 7 Sequenzen absolut korrekt  (7+18)/36=69% Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  35. Zusammenfassung • stochastisches Modellieren von RNA-Pseudoknoten durch Parallel Communicating Grammar Systems (PCGS) • eine kontextfreie Grammatik synchronisiert mit einer Anzahl an regulären Grammatiken – kontextsensitive Regeln vermieden • dieses Modell erlaubt die automatische Generierung eines Pseudoknoten-Vorhersage-Algorithmus für jede spezifische pseudogeknotete Struktur Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  36. Zusammenfassung • Algorithmus (ähnlich CYK): • Für jedes X der SCFG wird maximale Ws. für • stem loop • Pseudoknoten • P-Structure berechnet SCFG G0 in CNF und 5x5 Matrix via PCGS RNA-Primär- sequenz Ausgabe: RNA-Sekundärstruktur mit maximaler Wahrscheinlichkeit Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  37. Graph-theoretischer Ansatz • um RNA-Sekundärstrukturen in einer Menge von funktionell oder evolutionär verwandten Sequenzen vorherzusagen • Methode basiert auf dem Vergleich von Stem-Loops zwischen Sequenzen • Algorithmus findet Menge von stabilen Stem-Loops, die in mehreren Sequenzen konserviert vorliegen – daraus lässt sich Konsensus-Sekundärstruktur formen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  38. Graph-theoretischer Ansatz Das generelle Schema dieser Methode: • Finden aller möglichen stabilen Stems in jeder Sequenz und diese vergleichen mit denen aller anderen Sequenzen • Finden aller potentiell konservierten Stems, die in Teilmengen der Sequenzen gemeinsam vorliegen • Zusammenfügen der besten Mengen von konservierten Stems um eine Konsensus-Sekundärstruktur zu konstruieren Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  39. Graph-theoretischer Ansatz Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  40. a) Finden aller stabilen Stems • Definition stem: palindromische Helix in einer Sequenz, welche die Basenpaare AU oder GC (oder wobble:GU) umfasst; mit minimaler Länge von L Basenpaaren • um Suchraum zu reduzieren werden nur stabile stems betrachtet • Evaluieren der Stabilität eines stems durch seine Stacking-Energie (nach Turner)  nur stems mit Stacking-Energie niedriger als cutoff E (Default:-5kcal) gelten als stabil • Auflisten aller mögliche stems durch einen branch-and-bound Algorithmus (Programm dotplot) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  41. b) Vergleichen von Stems über mehrere Sequenzen • globales Alignieren von 2 Sequenzen nach Needleman-Wunsch-Algorithmus, um große Sequenzähnlichkeit auszunutzen • im Alignment sucht man nun highly conserved regions  Region ist 10 nt oder länger, mit mindestens 80% Sequenzidentität • highly conserved regions dienen als Anker für stem-Vergleiche Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  42. Vergleichen von Stems über mehrere Sequenzen • zwei stems von 2 Sequenzen können nur verglichen werden, wenn die dazu gehörenden 5‘ oder 3‘ half-stems in der gleichen Anker oder Nicht-Anker Region liegen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  43. Vergleichen von Stems über mehrere Sequenzen • zudem dürfen die 5‘ oder 3‘ half-stems in der Anker Region um maximal 10 nt versetzt sein (in Nicht-Anker Region keine Constraints) • wenn nach Alignieren die Ähnlichkeit zwischen 2 Sequenzen nicht groß ist (keine highly conserved regions ), gilt die ganze Sequenz als Nicht-Anker Region und somit wird jeder stem der beiden Sequenzen miteinander verglichen ( erhöht Laufzeit) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  44. Vergleichen von Stems über mehrere Sequenzen • die Funktion S(ix, jy) misst die Ähnlichkeit zwischen zwei stems i und j aus den Sequenzen x und y • Ähnlichkeit zwischen zwei Stems anhand von 5 Eigenschaften messbar: 1. Helix-Länge 2. Helix-Sequenz 3. Loop-Sequenz (abgeschlossen durch stem) 4. Stem-Stabilität 5. Relative Positionen des Starts und Ende des stems Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  45. Vergleichen von Stems über mehrere Sequenzen • S(ix, jy) ist definiert als die gewichtete Summe dieser 5 Ähnlichkeits-Scores, geteilt durch die Summe des Stabilitäts-Scores der beiden stems (skaliert wurde mit stability adjusting factor f): Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  46. Vergleichen von Stems über mehrere Sequenzen • wobei sl(ix, jy) der Ähnlichkeits-Score zwischen den stems ix, jy ist, bezogen auf eine (aus den 5 möglichen) spezielle Eigenschaft l • so berechnet man sl(ix, jy) (außer für Helix oder Loop Sequenz): sl(ix, jy) = min{sl(ix), sl(jy)}/max{sl(ix), sl(jy)} • wlist das Gewicht für jede Eigenschaft l und liegt zwischen 0 und 1 (alle 5 Gewichte aufsummiert ergibt 1) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  47. Vergleichen von Stems über mehrere Sequenzen • Werte von r liegen zwischen 0 und 1 – je stabiler ein stem, desto niedriger der r-Wertrx(i)= (ei-e`)/(e``-e`) • der Wert von S(ix, jy) liegt zwischen 0 und 1 – je höher der Wert um so wahrscheinlicher, dass 2 stems Instanzen eines konservierten stems sind • nur die Paare an stems werden als potentiell eingestuft, für die gilt S(ix, jy) >= S (für einen Schwellwert S) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  48. conserved stems • Setzen eines Signifikanz-Levels p (0< p <=1), welches der minimale prozentuale Anteil aller n Sequenzen ist, die eine gemeinsame Struktur besitzen • es gilt, die konservierten stems zu finden, die in mindestens k Sequenzen vorkommen (k = [p * n] ) • das wird erreicht durch n-partite ungerichtete gewichtete Graphen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  49. n-partite Graphen • jeder Koten des Graphen repräsentiert einen stem • der Graph ist unterteilt in n Teile; jeder Teil umfasst die Anzahl an stems einer Sequenz • nur Knoten von verschieden Teilen können verbunden werden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

  50. c) n-partite Graphen • potentiell gleiche stems aus verschiedenen Sequenzen, die einen Ähnlichkeits-Score größer S aufweisen, werden verbunden und gewichtet • in der Graphen-Theorie repräsentiert eine Clique einen vollständigen Teilgraphen, in dem jeder Knoten mit allen anderen verbunden ist • eine Clique ist maximal, wenn sie nicht in einer größeren Clique enthalten ist  ist Maximierungsproblem und ist NP-vollständig Johann-Wolfgang-Goethe Universität, Frankfurt am Main

More Related