Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“

Übersicht • Einleitung • Der Algorithmus von Rivas/Eddy • Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten • Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

„simple“ Elemente der RNA-Sekundärstruktur • gehorchen allesamt der • „nesting convention“: • Zwei Basenpaare i, j und k, l • (wobei i<j, k<l, i<k) zeigen • eine der folgenden • Konstellationen: • i<k<l<j • i<j<k<l Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Pseudoknoten • Pseudoknoten sind all jene Basenpaar-Strukturen, die die nesting convention verletzen, z.B.: Pseudoknoten sind zwar im Vergleich zu anderen Sekundärstrukturen selten, dafür aber entscheidend für die 3-dimensionale Struktur einfachster Pseudoknoten Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Wo kommen Pseudoknoten vor? Beispiele des Vorkommens: • ribosomale RNA • selbstsplicende Gruppe- I -Introns • 3´-Ende einiger Pflanzenviren-RNAs (Mimik) • RNase P (processing des 5´-Endes von pre-tRNAs) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Pseudoknoten und Berechnungskomplexität • Die vorhersagen beliebiger Pseudoknoten-Strukturen ist NP-vollständig, also wahrscheinlich nicht effizient lösbar • Aktuelle Ansätze zur Vorhersage von Pseudoknoten machen daher Einschränkungen, um Laufzeit und Platzbedarf in polynomieller Größenordnung zu halten, sind also nicht universell • frühere Vorhersage-Algorithmen (Nussinov, Zuker) konnten keinerlei Pseudoknoten vorhersagen und blenden diese völlig aus Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy • Basiert auf dynamischem Programmieren und experimentell bestimmten thermodynamischen Daten (Turner), ähnelt daher durchaus dem Zuker-Algorithmus • Laufzeit: O(n6) Speicherbedarf: O(n4) • Ermittelt die thermodynamisch günstigste Sekundärstruktur (es wird ΔG berechnet wie bei Zuker) • Zur didaktischen Vermittlung und vor allem auch als Entwurfshilfe wird auf Feynman-Diagramme zur Visualisierung zurückgegriffen Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Feynman-Diagramme Sekundästruktur-Interaktion (H-Brücke) Backbone (Sequenz) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zuker-Algorithmus in Diagramm-Repräsentation • befüllt im wesentlich die beiden NxN-Matrizen wx und vx • vx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j, bei der i und j ein Basenpaar bilden (nur ≠ +∞, falls i und j überhaupt Basenpaar bilden können) • wx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j; dabei müssen i und j nicht zwangsläufig ein Basenpaar bilden • vx wird benötigt, um die Werte für wx zu errechnen Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zuker-Algorithmus in Diagramm-Repräsentation • Rekursion für vx: Erste Einschränkung • diagrammatische Repräsentation: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zuker-Algorithmus in Diagramm-Repräsentation • Rekursion für wx: • diagrammatische Repräsentation: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Erweiterung durch Pseudoknoten • Der Algorithmus von Rivas/Eddy erweitert den Zuker-Algorithmus um die Berechnung von Pseudoknoten • Dazu werden zusätzlich zu wx und vx dievier Gap-Matrizen whx, vhx, yhx, zhx eingeführt. (Es handelt sich um NxNxNxN-Matrizen, woraus auch der Speicherbedarf von O(n4) des Verfahrens resultiert.) Diagramme: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy • Die Gap-Matrizen dienen der Berechnung von Pseudoknoten, indem zwei Gapmatrizen mit „komplementären“ Gaps zusammengefügt werden: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy zweite Einschränkung Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Erste Einschränkung • Die erste Einschränkung hat nichts mit der NP-Vollständigkeit des Pseudoknotenproblems zu tun, sonder begrenzt lediglich die Komplexität des Zuker-Algorithmus auf O(n3): Alle Multiloops werden energetisch gleich bewertet, egal wie viele Stems von ihnen abgehen. Es wird nicht überprüft, ob eine Struktur mit mehr als 3 Stems existiert. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zweite Einschränkung • Die zweite, eben vorgestellte Einschränkung des Algorithmus dient dazu, die Berechnungskomplexität von exponentiellem auf polynomielles Niveau zu begrenzen. Dadurch kann der Algorithmus allerdings nicht jeden beliebigen Pseudoknoten berechnen. (Es können aber alle zur Zeit des Entwurfs bekannten Pseudoknoten vorhergesagt werden!) Es werden niemals mehr als zwei Gap-Matrizen auf einmal miteinander kombiniert. In der Berechnung von wx und vx sind je nur zwei Gap-Matrizen pro Rekursion berücksichtigt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zweite Einschränkung Das funktioniert: (2 „parallele β-sheets“, einfache copy-language) eine Matrix durch 2 aufgelöst  Das nicht: (mehr als 2 „parallele β-sheets“) eine Matrix durch 4 aufgelöst  Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von vhx: 6 verschachtelte Laufvariable --> O(n6) (gilt auch für anderen 3 Gap-Matrizen) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von yhx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von zhx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von whx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy • grober Aufbau: Was dient zur Berechnung von was innerhalb einer Rekursion? zhx vhx whx wx vx yhx Zeit innerhalb einer Rekursion Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy • Aufbau: Was dient zur Berechnung von was? Wert aus aktueller Rekusion zhx Wert aus älterer Rekusion vhx whx wx vx yhx Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy • Zusätzlich zu der Erweiterung des Zuker-Algorithmus um Pseudoknoten wurde noch thermodynamische Parameter für Dangles und Coaxial-Stacking (Walter et al.) hinzugefügt (keine zusätzliche Verschlechterung in Asymptotiken). Diese werden in die Berechnungen aller 6 Matrizen eingebunden. Dangles: Ungepaarte Basen in direkter Nachbarschaft zu gepaarten Coaxiales Stacking: Zwei oder mehr überlagerte Stems Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Erweiterung duch Stacking und Dangles • Exemplarisch für wx: Dangles Stacking Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Ergebnisse des Algorithmus von Rivas/Eddy  • Mit dem Algorithmus können potentiell alle bisher bekannten Pseudoknoten vorhergesagt werden • Obwohl der Suchraum entscheidend vergrößert wird, faltet der Algorithmus auch relativ lange Sequenzen und solche ohne Pseudoknoten mit hoher Zuverlässigkeit (er tendiert also nicht zum Einfügen falsch-positiver Pseudoknoten). • Ergebnisse bei Strukturen ohne Pseudoknoten sehr ähnlich zu denen von MFOLD (basierend auf Zuker-Algorithmus)  • Auf Grund der hohen Berechnungskomplexität können nur Sequenzen bis zu einer Länge von ca. 140 untersucht werden! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Ergebnisse des Algorithmus von Rivas/Eddy • tRNA´s: - RE: 15 von 24 völlig korrekt, die restlichen 9 zumindest in Kleeblatt-Struktur - MFOLD: 14 von 24 völlig korrekt, nur 5 der restlichen 10 in Kleeblatt-Struktur  Verbesserung gegenüber MFOLD durch Integration von Stacking • Virale RNAs: - 6 von 7 getesteten Pseudoknoten in t-RNA-ähnlichen Valinrezeptoren der 3´-Region korrekt vorhergesagt - In einem Ribozym des Hepatitis Delta Virus wurde der Pseudoknoten korrekt lokalisiert, es fehlte allerdings ein kleiner 2-Stem-Hairpin Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Übersicht • Einleitung • Der Algorithmus von Rivas/Eddy • Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4. Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik • Der vorgestellte Algorithmus sagt Pseudoknoten voraus, liefert aber kein komplettesModell zur vollständigen Beschreibung von Pseudoknoten. • Stochastische Grammatiken dagegen sind vollständige Wahrscheinlichkeits-Modelle (ähnlich zu HMMs) • Sie erlauben es, Ausgaben mit Wahrscheinlichkeiten zu versehen, und damit auch z.B. verlässlichere suboptimale Ergebnisse zu produzieren. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik • Die zuvor beschriebenen „simplen“ RNA-Sekundärstrukturen sind durch kontextfreie Grammatiken (CFG) vollständig beschreibbar, da sie der „nesting convention“ gehorchen. (Interaktionen zwischen Basenpositionen kreuzen nicht.) • Pseudoknoten sind nicht durch normale CFGs beschreibbar, da sie kreuzende Korrelationen bedingen. Diese werden erst durch kontextsensitive Grammatiken (CSG) modelliert. • Leider ist das generelle Parsen (also das Nachvollziehen der Entstehungsgeschichte eines Wortes durch eine Grammatik) von CSGs NP-vollständig Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik • Problem: Wir haben ein Problem, das eigentlich eine CSG benötigen würde, um es vollständig zu erfassen. Damit können wir es aber von der Berechnungskomplexität her nicht mehr effizient behandeln. • Lösung: Eine erweiterte CFG, die zusätzliche Nichtterminale und Regeln zur Reorganisation beinhaltet Bemerkung: Es handelt sich damit formal weder um eine CFG noch um eine CSG! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik • Eine normale CFG formal: G = (V, Σ, P, S) • Die erweiterte CFG formal: G = (V, Σ, P, S, I, R) wobei - Σ* neben dem normalen leeren Wort ε noch ein zusätzliches leeres „Lückenwort“ (‚hole‘-string) ^ enthält. ^ wird bei der Reorganisation zur Trennung von Teilstrings benötigt, nach der Reorganisation wird es wie ε ignoriert. - I eine endliche Menge von zusätzlichen Nichtterminalen ist - R eine endliche Menge von Reorganisationsregeln ist. Diese werden erst nach der vollständigen Produktion des Wortes angewendet Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Einfaches Beispiel – die copy-language • Zum besseren Verständnis des Ansatzes zunächst ein einfacheres Beispiel: Die einfache copy-language enthält Wörter über einem Alphabet, die aus zwei identischen Teilwörter bestehen, die direkt miteinander konkateniert sind, z.B.: AA, ABAB, AAABAAAABA, 0110201102, … Formal: L = {ε, w ^ w | w є Σ*} Diese Sprache kann nicht von einer CFG erzeugt werden und verlangt eigentlich nach einer CSG. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Einfaches Beispiel – die copy-language • Eine erweiterte CFG, die die copy-language beschreibt: V = {W, WH} Σ = {a, b} P = { W → WW | (WHx WH) | ε, WH → a ^ a | b ^ b | (WHx WH) | ^ } S = W I = { ) , ( , x } R = { (m1^m1´ x m2^m2´) m1m2^m1´m2´ } Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Einfaches Beispiel – die copy-language W → (WH x WH) → ((WH x WH) x (WH x WH)) → ((a ^ a x b ^ b) x (b ^ b x a ^ a))  (ab ^ ab x ba ^ ba)  abba ^ abba Produktionen Reorganisation Das erzeugte Wort: abbaabba Mit der vorgestellten Grammatik für die einfache copy-language erzeugt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Formalismen von generellen erweiterten CFGs • P = { A → α | A є V, α є (V(IV)* U Σ)*} z.B.: WxWxWaWaWxW • R = {(σ)  m | σ є (Σ U I)*, m є Σ*} z.B.: (b^b x a^a)  ba^ba Bemerkung: Die Produktionen ähneln sehr der Form einer CFG (es wird nur von einem Nonterminal abgeleitet). Ist I = Ø, dann ist α є (V U Σ)* und wir haben eine CFG. Für uneingeschränkte Ableitungen A → α mit α є (V(IV)* U Σ)* ist das Parsen sehr komplex und wahrscheinlich NP-vollständig (wie bei CSGs, was wir ja gerade mit der Einführung dieser erweiterten CFGs vermeiden wollten). Was haben wir also gewonnen? Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Einschränkung der erweiterten CFGs Man muss (wieder einmal) den generellen Fall einschränken, um ein akzeptables Laufzeitniveau zu erreichen. Der Schlüssel dazu ist folgende Beobachtung: ∞ (V(IV)* U Σ)* = Un=0 (V(IV)nU Σ)* Für n = 0 haben wir wieder eine normale CFG. Wenn man n sinnvoll begrenzen, haben wir eine eingeschränkte erweiterte CFG, mit der wir überkreuzende Beziehungen bis zu einem der Beschränkung entsprechenden Grad modellieren können. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Einschränkung der erweiterten CFGs Genau so ist es bei der vorgestellten copy-language realisiert, welche n bis 1 laufen läst, also: α є (V U Σ)* U (VIV U Σ)* Mit der selben Einschränkung (nur maximal ein Sonder-Nonterminal aus I pro Ableitungsschritt zuzulassen), läst sich eine Großzahl vorstellbarer Pseudoknoten-Interaktionen modellieren (genauer: alle bis dahin bekannten und von Rivas/Eddy vorhersagbaren). Diese Einschränkung der Grammatik ist also die 1:1-Korrespondenz zu der Einschränkung des Algorithmus von Rivas/Eddy, in einer Rekursion nur die Kombination zweier Gap-Matrizen zu erlauben. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy • V = { W, WB, Vab, WH, VHabcd, IS1, IS2 } • Σ = { a, c, g, u } • S = W • I = { x, xL, xR, ), (, כ } • R = { (m1^m1´ x m2^m2´)  m1m2 ^ m1´m2´ , (m1^m1´ xL m2^m2´)  m2m1m2´ ^ m1´ , (m1^m1´ xR m2^m2´)  m1 ^ m2m1´m2´ , (m1^m1´ כ m2^m2´)  m1m2 ^ m2´m1´ } für mi , mi´є Σ* Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy P = { Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy IS1 → ε | s1 | s1 s2 | … | s1...smaxloop. , IS2 → ^ | s1...sk ^ | ^ s1...sk | s1...si-1 ^ si...sk } für si є {a, c, g, u}, 1 ≤ i ≤ k, 1 ≤ k ≤ maxloop Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Beispiel W → WH x WH → (g IS2 cכc^g) x (a IS2 u כaû) → (gcaguuûacugc כc^g) x (auuuggâgaaau כaû) u a a a u  gcaguu c^g uacugc x auuugg aû agaaau u a u c g g u g a g  gcaguucauuugga^guacugcuagaaau u u a g c a a u c g u g c Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy • Die vorgestellte Grammatik ist mehrdeutig, kann also zu einer gegebenen Sequenz mehrer Entstehungsgeschichten beschreiben Dadurch können mehrere alternative Sekundärstrukturen in Betracht gezogen werden. • Mit dieser Grammatik ist ein vollständiges probabilistisches Modell (sobald man sie in eine probabilistische Grammatik üüberführt) für die Klasse der durch sie modellierbaren Pseudoknoten und aller „simplen“ Sekundärstrukturen gegeben. Das Parsen durch den zuvor vorgestellten Algorithmus ist in polynomieller Zeit möglich. • Durch sie werden vergleichende Analysen, strukturelle Homologie-Erkennung und Datenbankensuchen möglich. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Reeder/Giegerich • Der Algorithmus von Reeder/Giegerich (RG) basiert wie der zuvor Vorgestellte von Rivas/Eddy (RE) auf dynamischem Programmieren und thermodynamischen Berechnungen. • Verbesserung der Laufzeitkomplexität im Vergleich zu RE: O(n6) O(n4) • Verbesserung des Speicherplatzbedarfs: O(n4) O(n2) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Presentation Transcript

Folien zu “Data Mining” von I. H. Witten und E. Frank übersetzt von N. Fuhr

Opplegg for forelesningene

Antimaterie

Die stärksten bisher aufgetretenen Vulkanausbrüche

mittenmang-mobil Freiwilligen-Engagement für Menschen mit und ohne Behinderungen

Høyfrekvente ord, 1-5

WohnQuartier 4 Gelsenkirchen, 08.03.2012

Klimamodelle

Otto Cars, Strama: Inledning

test wyboru Ewolucja Wszechświata

Predicting RNA Secondary Structures

Vorhersage von Moleküleigenschaften (I)

Products

Oto dlaczego lepiej być m ężczyzną …

Physik bei hohem Q 2 und die Suche nach neuen Phänomenen bei HERA

Heilpädagogische Diagnostik

test 1

Kunnskapsdepartementet

Göteborgs universitet förnyas

Karl Popper (1902-1994)

Høyfrekvente ord 11

Heilpädagogische Diagnostik