R n a
This presentation is the property of its rightful owner.
Sponsored Links
1 / 89

R N A PowerPoint PPT Presentation


  • 48 Views
  • Uploaded on
  • Presentation posted in: General

R N A. Falten & Finden. Übersicht:. RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage  Auswertung Probability Profiling Accessibility Plots

Download Presentation

R N A

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


R n a

R N A

Falten & Finden


Bersicht

Übersicht:

  • RNA falten

    • Sekundärstrukturen und Funktion

    • Algorithmus zur RNA-Faltung von Ding und Lawrence

      • Grundidee

      • Vorgehen Schritt 1

      • Vorgehen Schritt 2

    • Beispiele

      • Leptomonas collosoma

      • Bakteriophage 

      • Auswertung

    • Probability Profiling

    • Accessibility Plots

    • Samplegröße

    • Sfold

  • RNA finden

Volker Hähnke: RNA - Falten & Finden


Bersicht1

Übersicht:

  • RNA falten

    • Sekundärstrukturen und Funktion

    • Algorithmus zur RNA-Faltung von Ding und Lawrence

      • Grundidee

      • Vorgehen Schritt 1

      • Vorgehen Schritt 2

    • Beispiele

      • Leptomonas collosoma

      • Bakteriophage 

      • Auswertung

    • Probability Profiling

    • Accessibility Plots

    • Samplegröße

    • Sfold

  • RNA finden

Volker Hähnke: RNA - Falten & Finden


Sekund rstrukturen und deren funktion

Sekundärstrukturen und deren Funktion

  • Ständig wiederkehrende Motive in RNA-Struktur erkennbar

  • RNA besteht hauptsächlich aus Kombinationen dieser Motive

  • Achtung: keine Pseudoknoten berücksichtigt

Volker Hähnke: RNA - Falten & Finden


Sekund rstrukturen und deren funktion1

Sekundärstrukturen und deren Funktion

  • RNA-Sekundärstrukturen wichtig für:

    • Katalyse (Ribozyme)

    • RNA-Splicing

    • Regulation der Translation

    • Interaktionen zwischen Nucleinsäuren

  • Sekundärstrukturen bestimmen auch die Tertiärstruktur

     korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur

     korrekte Sekundärstruktur wichtig für korrekte Funktion

  • Strukturbestimmung experimentell schwierig

    • Besonders für langkettige Nucleinsäuren

       rechnergestützte Strukturvorhersage extrem wichtig

Volker Hähnke: RNA - Falten & Finden


Bersicht2

Übersicht:

  • RNA falten

    • Sekundärstrukturen und Funktion

    • Algorithmus zur RNA-Faltung von Ding und Lawrence

      • Grundidee

      • Vorgehen Schritt 1

      • Vorgehen Schritt 2

    • Beispiele

      • Leptomonas collosoma

      • Bakteriophage 

      • Auswertung

    • Probability Profiling

    • Accessibility Plots

    • Samplegröße

    • Sfold

  • RNA finden

Volker Hähnke: RNA - Falten & Finden


Algorithmus grundidee

Algorithmus - Grundidee

  • Annahme: Faltung nur in bestimmte Sekundärstrukturelemente

  • Ansatz verfolgt Minimierung der freien Energie

    • Energie (U):

      • Nimmt ab, wenn z.B. Bindungen ausgebildet werden

    • Entropie (S):

      • Maß für die „Unordnung“ eines Systems

      • Nimmt nach 2. Hauptsatz der Thermodynamik zu

    • Freie Energie (Helmholtz Energie, F): F = U – T*S

      • Setzt Entropie und Energie in Beziehung

Volker Hähnke: RNA - Falten & Finden


Algorithmus grundidee1

Algorithmus - Grundidee

  • Algorithmus arbeitet in 2 Schritten:

    • Schritt 1:

      • Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie)

      • Errechnet „Zustandssummen“ für Teilsequenzen

    • Schritt 2:

      • Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen

      • Wählt zufällige Kombination von Sekundärstrukturen aus

1)

2)

*********************************

--______------_----_--_-_----

„Teilergebnisse“

Sammlung von Basenpaaren

Sekundärstruktur

Volker Hähnke: RNA - Falten & Finden


Algorithmus grundidee probleme

Algorithmus - Grundidee - Probleme

  • freien Energie für Sekundärstrukturen nur approximiert

     durch Änderungen andere Faltungen wahrscheinlicher

  • Tertiärstruktur (und Effekte) unberücksichtigt

  • Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein

     Realität suboptimal

    Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus

Volker Hähnke: RNA - Falten & Finden


Bersicht3

Übersicht:

  • RNA falten

    • Sekundärstrukturen und Funktion

    • Algorithmus zur RNA-Faltung von Ding und Lawrence

      • Grundidee

      • Vorgehen Schritt 1

      • Vorgehen Schritt 2

    • Beispiele

      • Leptomonas collosoma

      • Bakteriophage 

      • Auswertung

    • Probability Profiling

    • Accessibility Plots

    • Samplegröße

    • Sfold

  • RNA finden

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen i

Algorithmus – Vorgehen (I)

  • Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einer

    Sekundärstruktur I

    für eine gegebene Sequenz S

    nach

  • E(S, I): freie Energie der Sekundärstruktur für diese Sequenz

  • R: Gaskonstante

  • U: Zustandssumme aller zulässigen Sekundärstrukturen für S

  • Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen i defs

Algorithmus – Vorgehen (I) – Defs.

Rij

3‘

5‘

…..

…..

1… i ….. j… n

  • n: Anzahl an Ribonukleotiden

  • Rij: Teilsequenz von Nukleotid i bis Nukleotid j1 ≤ i,j ≤ n

  • rk: Nukleotid an Position k, rk{A, C, G, U} i ≤ k ≤ j

  • Iij: Sekundärstruktur für Rij, ri und rj paaren eventuell

  • IPij: Sekundärstruktur für Rij, ri und rj paaren miteinander

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen i1

Algorithmus – Vorgehen (I)

Benötigt in:

Erinnerung:

Teilsequenz

  • Zustandssummen für Rij:

    mit Sekundärstruktur Iij:

    mit Sekundärstruktur IPij:

    (i und j gepaart)

  • E(Rij, x):freie Energie der Sekundärstruktur x für Rij

  • R: Gaskonstante

  • T: 310,15 K

  • Rekursive Berechnung durch Algo vom McCaskill

Sek.-Strt.

Sek.-Strt.

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen i2

Algorithmus – Vorgehen (I)

  • Berechnung der u(i, j) bzw. up(i, j)…..

  • Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I1n für R1n berechnet werden

Sek.-Strt.

= S (Gesamtsequenz)

Genutzt in Schritt 2

Volker Hähnke: RNA - Falten & Finden


Bersicht4

Übersicht:

  • RNA falten

    • Sekundärstrukturen und Funktion

    • Algorithmus zur RNA-Faltung von Ding und Lawrence

      • Grundidee

      • Vorgehen Schritt 1

      • Vorgehen Schritt 2

    • Beispiele

      • Leptomonas collosoma

      • Bakteriophage 

      • Auswertung

    • Probability Profiling

    • Accessibility Plots

    • Samplegröße

    • Sfold

  • RNA finden

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii

Algorithmus – Vorgehen (II)

Rij

3‘

  • Rij kann 5 verschiedene Zustände annehmen:

5‘

…..

…..

1… i ….. j… n

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii n tige variablen 1

Algorithmus – Vorgehen (II) – nötige Variablen(1)

  • Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob ri und rj paaren):

Strafe für Paarung AC bzw. GU

freie Energie für dangling 5‘

freie Energie für dangling 3‘

Array mit zuvor berechneten Variablen

Zuerst h variieren, dann zu den Positionen von h l verändern

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii n tige variablen 2

Algorithmus – Vorgehen (II) – nötige Variablen(2)

  • Bekannt, dass ri und rj paaren  Ws für die 5 möglichen Strukturen:

freie Energie eines Hairpin geschlossen von ri und rj

freie Energie des Stacking-Bp ri und rj

freie Energie eines Bulge bzw. Interior Loop

Möglichkeiten, zwischen h und l einen Bulge bzw. Interior Loop zu sampeln

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii1

Algorithmus – Vorgehen (II)

  • Sampeln:

    • berechne die Struktur-Ws für Rij (mit den u(i,j) aus Schritt 1)

    • wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine Möglichkeit

  • Benutzt zwei Stacks

    • A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück)

      • Sequenz von Nukleotid i bis j

      • I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren

    • B:

      • Wird durch Algorithmus gefüllt

      • sammelt Basenpaare und ungepaarte Basen

         enthält nötige Informationen für Sekundärstruktur

  • Startzustand:

    • A enthält (1, n, 0)

0

1

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii2

Algorithmus – Vorgehen (II)

Erinnerung:

A: ungefaltete Bereiche

B: Bindungsbeziehungen

I = 0

1)Start mit R1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt bilde die P0, Pij, {Phi}, {Pil}, {Ps1h} für i = 1, j = n; wähle eine Möglichkeit

Mögliche Ergebnisse:

Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein

(1, n, 1) in Stack A einfügen

(h, n, 1) in Stack A einfügen

ungepaarte Basen 1 bis (h-1) in Stack B einfügen

(1, l, 1) & (l+1, n, 0) in Stack A einfügen

(h, l, 1) & (l+1, n, 0) in Stack A einfügen

Ungepaarte Basen von 1 bis (h-1) in Stack B einfügen

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii3

Algorithmus – Vorgehen (II)

Erinnerung:

A: ungefaltete Bereiche

B: Bindungsbeziehungen

2)Nimm nächstes Tupel (i, j, I) für Rij von Stack A

a) I = 0: verfahre wie im letzten Schritt: berechne die P--

b) I = 1: i und j paaren, betrachte die QijH, QijS, QijBI, QijM

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii4

Algorithmus – Vorgehen (II)

1) Sampel das erste innere Basenpaar

(bilde die P--, wähle Möglichkeit, verfahre entsprechend)

…..

…..

2) Sampel das nächste Basenpaar

…..

…..

3) Wiederhole 2, bis alle abgearbeitet

Nimm neues Tupel von Stack A

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii5

Algorithmus – Vorgehen(II)

Stack A

Stack B

Für jedes Basenpaar

innerhalb des MB-Loop

  • Sampling im Überblick:

Schritt 1

nimm (i, j, I) von A

Stack A leer?

I = 0

Sampel

Basenpaar

Möglichkeiten der Paarbildung bestimmt

I = 1

Sampel

Loop

Struktur bestimmt, zu der Basenpaar zugehörig ist

Volker Hähnke: RNA - Falten & Finden


Algorithmus vorgehen ii6

Algorithmus – Vorgehen(II)

  • Samling-Schritt arbeitet, bis Stack A leer ist

  • Stack B enthält Angaben über Paarungen der n Basen in R1n

     1 Sekundärstruktur

    Wahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier Energie ab (bedingt durch Boltzmann-Verteilung):

    • Mit hoher Wahrscheinlichkeit: optimale MFE

    • Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE

    • Mit geringer Wahrscheinlichkeit: schlechte MFE

  • Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen

    statistisch repräsentatives Ergebnis

    „Konsensus“-Struktur

  • Volker Hähnke: RNA - Falten & Finden


    Bersicht5

    Übersicht:

    • RNA falten

      • Sekundärstrukturen und Funktion

      • Algorithmus zur RNA-Faltung von Ding und Lawrence

        • Grundidee

        • Vorgehen Schritt 1

        • Vorgehen Schritt 2

      • Beispiele

        • Leptomonas collosoma

        • Bakteriophage 

        • Auswertung

      • Probability Profiling

      • Accessibility Plots

      • Samplegröße

      • Sfold

    • RNA finden

    Volker Hähnke: RNA - Falten & Finden


    Beispiele leptomonas collosoma

    Beispiele – Leptomonas collosoma

    • Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma

      • 56 nt lang

      • 2 Sekundärstrukturen identifiziert (Funktion unbekannt)

    • Vorgehen:

      • Mit Schritt 1 die Ws der Substrukturen berechnet

      • 1000 mal gesampelt

      • Entstandene Sekundärstrukturen verglichen

    • Ergebnis:

      • 2 generelle Klassen

      • Klasse 1 mit 3 Unterklassen (A, B, C)

      • Klasse 2 mit 2 Unterklassen (A, B)

    Volker Hähnke: RNA - Falten & Finden


    Beispiele leptomonas collosoma1

    Beispiele – Leptomonas collosoma

    • Klasse 1: Alle Unterklassen mit 2 identischen Helices

      • 1:

      • 2:

    Weitere 2 Helices gemeinsam

    Unterschied in Hairpin

    Quadratgröße = Häufigkeit der Basenpaare in Samples

    mfold(3.1)-Struktur

     MFE-Struktur

    Volker Hähnke: RNA - Falten & Finden


    Beispiele leptomonas collosoma2

    Beispiele – Leptomonas collosoma

    • Klasse 2: Unterklassen erneut mit 2 identischen Helices

      • Unterklasse B mit zusätzlichem Stem am 5‘-Ende

    Quadratgröße = Häufigkeit der Basenpaare in Samples

    Volker Hähnke: RNA - Falten & Finden


    Beispiele leptomonas collosoma3

    Beispiele – Leptomonas collosoma

    • Repräsentanten der Klasse 1:

    identisch

    mfold(3.1)-Struktur

     MFE-Struktur

    Bis auf Fehlen der kurzen Helix mit mfold-Struktur identisch

    Experimentell bestimmte Faltungsart 1

    Volker Hähnke: RNA - Falten & Finden


    Beispiele leptomonas collosoma4

    Beispiele – Leptomonas collosoma

    • Repräsentanten der Klasse 2:

    identisch

    Experimentell bestimmte Faltungsart 2

    Volker Hähnke: RNA - Falten & Finden


    Beispiele leptomonas collosoma5

    Beispiele – Leptomonas collosoma

    • Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten

    • Tatsächliche Faltungsart 1

    • mfold-Struktur (MFE)

    • Leicht veränderte mfold-Struktur (suboptimale MFE)

    • Tatsächliche Faltungsart 2

     Tatsächliche Strukturen mit geringer Ws

    Volker Hähnke: RNA - Falten & Finden


    Bersicht6

    Übersicht:

    • RNA falten

      • Sekundärstrukturen und Funktion

      • Algorithmus zur RNA-Faltung von Ding und Lawrence

        • Grundidee

        • Vorgehen Schritt 1

        • Vorgehen Schritt 2

      • Beispiele

        • Leptomonas collosoma

        • Bakteriophage 

        • Auswertung

      • Probability Profiling

      • Accessibility Plots

      • Samplegröße

      • Sfold

    • RNA finden

    Volker Hähnke: RNA - Falten & Finden


    Beispiele bakteriophage

    Beispiele – Bakteriophage 

    • Zwischen-Ergebnis aus Tests mit L. collosoma:Algo erzeugt viele alternative Strukturen

    • Weitere Untersuchung mit Vorhersage von mRNA-Strukturen

    • Charakteristische Bereiche der cIII-mRNA des Bakteriophagen :

      • das Startcodon (AUG)(0 bis 3)

      • die Shine-Dalgarno-Sequenz (-13 bis -7)nötig zur Translationsinitiierung

    • Kommt in 2 Konformationen vor

    • Vorgehen:

      • Sampling-Schritt 100 mal wiederholt

      • Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert

    Volker Hähnke: RNA - Falten & Finden


    Beispiele bakteriophage1

    Beispiele – Bakteriophage 

    • Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturenkeine Translation

    • Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich Translation möglich

    leftmost

    stem

    middle

    stem

    rightmost

    stem

    Volker Hähnke: RNA - Falten & Finden


    Beispiele bakteriophage2

    Beispiele – Bakteriophage 

    • Ergebnis des Samplings:

      • 89/100 Strukturen leichte Variationen von Struktur A

        • leftmost-Stem in 67/89 exakt vorhergesagt

        • rightmost-Stem in 72/89 nahezu exakt vorhergesagt (gelegentlich 2 zusätzliche Paare)

      • 3/100 Strukturen Variationen von Struktur B

        zusätzliche Helix in SD-Sequenz enthalten

      • 8 Strukturen, die weder an A noch an B erinnern

    leftmost

    stem

    middle

    stem

    rightmost

    stem

    Volker Hähnke: RNA - Falten & Finden


    Bersicht7

    Übersicht:

    • RNA falten

      • Sekundärstrukturen und Funktion

      • Algorithmus zur RNA-Faltung von Ding und Lawrence

        • Grundidee

        • Vorgehen Schritt 1

        • Vorgehen Schritt 2

      • Beispiele

        • Leptomonas collosoma

        • Bakteriophage 

        • Auswertung

      • Probability Profiling

      • Accessibility Plots

      • Samplegröße

      • Sfold

    • RNA finden

    Volker Hähnke: RNA - Falten & Finden


    Beispiele auswertung

    Beispiele - Auswertung

    • Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen

    • ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung

    • Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für Stabilität

    • Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader)

    Volker Hähnke: RNA - Falten & Finden


    Bersicht8

    Übersicht:

    • RNA falten

      • Sekundärstrukturen und Funktion

      • Algorithmus zur RNA-Faltung von Ding und Lawrence

        • Grundidee

        • Vorgehen Schritt 1

        • Vorgehen Schritt 2

      • Beispiele

        • Leptomonas collosoma

        • Bakteriophage 

        • Auswertung

      • Probability Profiling

      • Accessibility Plots

      • Samplegröße

      • Sfold

    • RNA finden

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling

    Probability Profiling

    • Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit

      • DNA

      • RNA

      • Proteinen (z.B. in Translation)

    • Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus

      • Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden)

      • An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind(ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik))

      • Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i ungepaart war

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling beispiel

    Probability Profiling - Beispiel

    • mRNA Homo sapiens-Glutamyl-Hydrolase

      • Nukleotide 0 – 60

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling beispiel1

    Probability Profiling - Beispiel

    • mRNA Homo sapiens-Glutamyl-Hydrolase

      • Nukleotide 1261 – 1322

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling ergebnis

    Probability Profiling - Ergebnis

    • MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise

      • Da nur 1 Struktur die MFE-Struktur ist

      • Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht

    • ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende

    • Probability Profile: verlässlichste Aussage der 3 Möglichkeiten

      • da Ws der nachfolgenden Paarungen berücksichtigt

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling f r loops

    Probability Profiling für Loops

    • Bisher nur berücksichtig ob gepaart oder ungepaart

    • Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind

       Probability Profiling für bestimmte Loops möglich

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling f r loops1

    Probability Profiling für Loops

    • Loop-Probability-Profiles für Escherichia coli Alanin-tRNA

    Hairpin

    External

    Bulge

    Internal

    Multi

    Multi

    „dangling“-3‘-Ende aus Nukleotiden

    Kleeblattstruktur der tRNA

    Enthält keine Bulges oder Internal Loops

     dort keine Peaks

    16% der gesampelten Strukturen haben einen einzelsträngigen Bereich,

    der zwei gefaltete Domänen vebrindet

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling f r loops2

    Probability Profiling für Loops

    • Weitere Bedeutung des Hairpin-Loop-Profiles:

      • Höchster Peak  konserviertester Loop

      • HPlot-Ws der Basen des Anticodon-Loops:

        • G34:0,968

        • G35:0,961

        • C36:0,962

           Selbst wenn sich die restliches Strukturnicht zum Kleeblatt faltet, bleibt diese„accessible site“ erhalten

    • Untersuchung weiterer tRNAs interessant, aber schwierig, da modifizierte Basen vorhanden

    Volker Hähnke: RNA - Falten & Finden


    Bersicht9

    Übersicht:

    • RNA falten

      • Sekundärstrukturen und Funktion

      • Algorithmus zur RNA-Faltung von Ding und Lawrence

        • Grundidee

        • Vorgehen Schritt 1

        • Vorgehen Schritt 2

      • Beispiele

        • Leptomonas collosoma

        • Bakteriophage 

        • Auswertung

      • Probability Profiling

      • Accessibility Plots

      • Samplegröße

      • Sfold

    • RNA finden

    Volker Hähnke: RNA - Falten & Finden


    Probability profiling f r accessibility plots

    Probability Profiling für Accessibility Plots

    • Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig

    • Nucleinsäuren müssen einzelsträngig sein, um zu interagieren

    • Probability Profiles überlagern, um Interaktion vorherzusagen

    • Target: Homo sapiens-Glutamyl-Hydrolase mRNA

    • Antisense: insgesamt 1233 nt

    • Gute Zugänglichkeit zwischen 730 und 750 (target)

    • Zugängliche Bereiche müssen nicht an gleichen Stellen liegen

    • Sollten aber gleich lang sein

    Volker Hähnke: RNA - Falten & Finden


    Bersicht10

    Übersicht:

    • RNA falten

      • Sekundärstrukturen und Funktion

      • Algorithmus zur RNA-Faltung von Ding und Lawrence

        • Grundidee

        • Vorgehen Schritt 1

        • Vorgehen Schritt 2

      • Beispiele

        • Leptomonas collosoma

        • Bakteriophage 

        • Auswertung

      • Probability Profiling

      • Accessibility Plots

      • Samplegröße

      • Sfold

    • RNA finden

    Volker Hähnke: RNA - Falten & Finden


    Sampelgr e

    Sampelgröße

    • Standardgröße: 1000 – repräsentativ!

    • Beispiel: Homo sapiens -Glutamyl-Hydrolase mRNA

      • 1187 nt  ~10303 Sekundärstrukturen (Vergleich: ~1080 Atome im Universum)

      • 2 Sammlungen von 1000 Samples erstellt

      • Für jede Sammlung ein Histogramm erstelltHistogramme sind identisch

      • Probability Profiles erstellt:nahezu deckungsgleich

      • Aber: keine einzige Struktur kommt doppelt vor

    Volker Hähnke: RNA - Falten & Finden


    Samplegr e histogramme

    Samplegröße - Histogramme

    Volker Hähnke: RNA - Falten & Finden


    Samplegr e probability profiles

    Samplegröße - Probability Profiles

    Volker Hähnke: RNA - Falten & Finden


    Bersicht11

    Übersicht:

    • RNA falten

      • Sekundärstrukturen und Funktion

      • Algorithmus zur RNA-Faltung von Ding und Lawrence

        • Grundidee

        • Vorgehen Schritt 1

        • Vorgehen Schritt 2

      • Beispiele

        • Leptomonas collosoma

        • Bakteriophage 

        • Auswertung

      • Probability Profiling

      • Accessibility Plots

      • Samplegröße

      • Sfold

    • RNA finden

    Volker Hähnke: RNA - Falten & Finden


    Sfold

    Sfold

    • Algorithmus integriert in Paket Sfold

    • Erhältlich z.B. über sfold.wadsworth.org

    • Laufzeit des Algo: O(n³)

      • Vergleich: Eddy/Rivas:O(n6)

        Reeder/Giegerich:O(n4)

        Aber dafür mit Pseudoknoten

    Vergleich von Rechenzeit und Speicherverbrauch beim Berechnen der Zustandssummen und anschließendem Sampeln von 1000 Strukturen

    Volker Hähnke: RNA - Falten & Finden


    Bersicht12

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Verbesserungen

    Volker Hähnke: RNA - Falten & Finden


    Bersicht13

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Verbesserungen

    Volker Hähnke: RNA - Falten & Finden


    Motivation ans tze

    Motivation & Ansätze

    • Gefaltete RNA funktionell bedeutsam

      • Steuerung der eigenen Translation

      • Funktion als tRNA

      • Ribozyme

    • Nicht alle RNA wird wie mRNA translatiert

    • Nicht alle Gene auf DNA codieren für Proteine

    • Einige kodieren auch für funktionelle nicht kodierende RNA (ncRNA)

    • Ziel: Gene auf DNA erkennen, die für ncRNA kodieren

    • Problem: entsprechende Gene bisher nicht einheitlich charakterisierbar

    Volker Hähnke: RNA - Falten & Finden


    Motivation ans tze1

    Motivation & Ansätze

    • Maizel 1988:

      • Sekundärstruktur bestimmt Funktion

      • Funktionelle RNA muss also stabile Sekundärstruktur haben

      • Stabil = Minimum der freien Energie

      • Ergebnis Faltungsvorhersage weniger divers

      • Ergebnisse enttäuschend

    • Badger & Olsen 1999:

      • Anderes Gebiet: Identifizierung von codierenden Regionen in Bakterien

      • Arbeitet mit Alignments von Sequenzen

      • Nutzen BLASTN um Sequenzidentität zwischen 2 Species zu bestimmen

      • Programm CRITICA untersucht Mutationsmuster der gaplosen Bereiche

        • Mutationen, die AS nicht verändern (synonym): + Score

        • Mutationen, die AS verändern:- Score

    Volker Hähnke: RNA - Falten & Finden


    Motivation ans tze2

    Motivation & Ansätze

    • Rivas & Eddy 2001:

      • Aufbauend auf Idee von Badger & Olsen

      • Erweiterungen:Probabilistisches Modell (Aussage mit Ws)

        dritter zusätzlicher Zustand (funktionelle RNA)

        Alignments mit Gaps zugelassen

        Alignment nur teilweise relevant (irrelevante Flanken möglich)

      • Ziel: gegebene Sequenz klassifizieren in

        • Kodierend für Proteine

        • kodierend für ncRNA

        • Andere Bereiche

      • Ansatz findet ncRNA mit konservierter Struktur – Probleme:

        • Manche bekannte ncRNA-Gene nicht konserviert

        • Manche konservierte Bereiche nicht ncRNA-Gene

        • „ncRNA-Gen“ beschreibt Bereich mit konservierter Struktur, Funktionalität muss untersucht werden

    Volker Hähnke: RNA - Falten & Finden


    Motivation ans tze3

    Motivation & Ansätze

    • Eingabe eines Alignments zweier verwandter Genome (DNA-Sequenzen)

    • Analyse der beobachteten Mutationen

      • Kodierend: Synonyme Mutationen (gleiche AS kodiert)

      • Funktionell: kompensierend, Struktur erhalten

      • Keins: zufällige Mutation

    • Analyse:

      • Jeder Fall 1 Modell, das entsprechende Sequenzen baut

      • „Nachbau“ des Alignments mit den 3 Modellen

      • Ausgabe der Ws, dass Alignment einem Modell enstpringt

      • Modell mit höchster Ws gewinnt

    AGTGCTAGCT

    GATGCTAGCT

    ncRNA?

    Volker Hähnke: RNA - Falten & Finden


    Bersicht14

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Verbesserungen

    Volker Hähnke: RNA - Falten & Finden


    Modelle prinzip

    Modelle - Prinzip

    • OTH (weder kodierend noch funktionell)

      • pair-HMM

      • 16 verschiedene Parameter:pOTH(a,b) = Ws(a in Seq X, b in Seq Y)

      • Wahrscheinlichkeit des Alignments:Produkt der Ws der alignierten Positionen

    HMM

    pair-HMM

    GTTAACTGAGTAACG

    GTTAACTGAGTAACG

    | x x | x | | | | | | x | | |

    GCAAGCTGAGTTACG

    Volker Hähnke: RNA - Falten & Finden


    Modelle prinzip1

    Modelle - Prinzip

    • COD (Gen kodierend für Proteine)

      • pair-HMM

      • Alignierte Sequenzen sollten für gleiches Protein kodieren

      • Synonyme Mutationen, AS-Sequenz unverändert

      • 64 * 64 Parameter:pCOD(a1a2a3, b1b2b3)

        • Emission erfolgt Codon für Codon

        • Gleichzeitig:a1a2a3 in Sequenz X

          b1b2b3 in Sequenz Y

      • Ws des Alignments für einen Reading-Frame: Produkt der Doppel-Codon-Ws

      • Richtiger Reading-Frame nicht bekannt

      • Ws des Alignments:

    1 Ereignis

    Sequenz X

    GGT……

    GGA……

    Sequenz Y

    G

    f = Frame; P(f|COD) = 1/6

    Volker Hähnke: RNA - Falten & Finden


    Modelle prinzip2

    Modelle - Prinzip

    • RNA (Gen kodierend für ncRNA)

      • pair Stochastic Context Free Grammar (pSCFG)

      • Mutation ändert Sekundärstruktur nicht

      • Von gleichen Positionen zu gleichen Positionen Watson-Crick-Paarung möglich

      • Abschnitte in Sek-Struktur:16 * 16 ParameterpRNA(aLaR, bLbR)

        • Ws (Emission eines Basenpaars in X, homologes Basenpaar in Y)

      • Ungepaarte Abschnitte:4 * 4 ParameterpRNA(a, b)

        • Analog zu OTH-Modell

      • Ws für ein Alignment mit Struktur s: Produkt aus

        • pRNA(xixj, yiyj)für gepaarten Positionen i,j

        • pRNA(xk, yk)für einzelsträngige Positionen k

      • Richtige Struktur nicht bekannt

      • Ws des Alignments:

    p

    u

    v

    TTGTTCGAAAGAACG

    TTGACCGAAAGGTCG

    s = Sekundärstruktur

    Volker Hähnke: RNA - Falten & Finden


    Modelle prinzip3

    Modelle - Prinzip

    • Problem bei RNA-Modell

      • In COD-Modell alle Frames gleich wahrscheinlich

      • Gilt nicht für Sek-Strukturen in RNA-Modell

      • P(s|RNA) muss für jedes s berechnet werden

      • Gelöst durch früheren Algorithmus von Rivas und Eddy

    • Viertes Modell (IID) :

      • Erzeugt unabhängige Sequenzen

      • 8 Parameter:pX(a)pY(b)

    • Klassifikation durch Likelihoods:

      • Wahrscheinlichkeit des Modells gegeben die Daten

      • Bayes‘sche-Posteriori-Ws berechnet: a priori alle 3 Modelle gleich wahrscheinlich

      • Hohe RNA-posteriori-Ws: Alignment Kandidat für ncRNA-Gene

    • Beurteilung der Güte der Aussage durch log-odds-Score

    Volker Hähnke: RNA - Falten & Finden


    Bersicht15

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Verbesserungen

    Volker Hähnke: RNA - Falten & Finden


    Modelle parametersch tzung

    Modelle - Parameterschätzung

    • 4392 Emission-Ws zu bestimmen

      • Ideal: Trainings-Sets aus Alignments von

        • Real existierenden RNAs

        • Kodierende Genomregionen

        • Konservierte nicht kodierende Regionen

      • Keine genügend großen Trainings-Sets verfügbar

      • Mit zufällig erzeugten Sequenzen:

        • Sequenzen erzeugen

        • Mit Werten aus AS-Substitutionsmatrizen (BLOSUM62) Codon-Ws errechnen (pCOD)

        • Daraus Nucleotid-Substitutions-Ws des OTH-Modells errechnen

        • OTH-Ws mit Basenpaarhäufigkeiten kombinieren  RNA-Ws

    • 48 Transitions-Ws

      • „von Hand“ erzeugt: Modelle generieren Sequenzen, mit realen verglichen

      • Suboptimale Methode, bisher aber keine Alternative

    Volker Hähnke: RNA - Falten & Finden


    Bersicht16

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Verbesserungen

    Volker Hähnke: RNA - Falten & Finden


    Modelle piktogramme

    Modelle - Piktogramme

    • IID-Modell: erzeugt 2 unabhängige Sequenzen

    X

    Emittiert in Seq. X

    F

    S

    K

    T

    Y

    Emittiert in Seq. Y

    Volker Hähnke: RNA - Falten & Finden


    Modelle piktogramme1

    Modelle - Piktogramme

    • OTH-Modell: erlaubt lokale Alignments zwischen 2 Sequenzen

    X

    X: emittiert in X, Gap in Y

    XY: emittiert in X und Y

    Y: emittiert in Y, Gap in X

    FL

    FR

    B

    XY

    E

    Y

    F: „Flanking States“

    FJ

    O

    Volker Hähnke: RNA - Falten & Finden


    Modelle piktogramme2

    Modelle - Piktogramme

    • COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche

    • Neuer Typ von Zuständen: COD

      • Ermöglichen „indels“ (Insertionen oder Deletionen)

      • Kompensieren Verlust durch Shotgun-Sequenzierung & BLASTN (positions-unabhängig)

      • Emission von ungleichen (und überzähligen) AS-Anzahlen

      • Exemplarische Angabe der entsprechenden Ws:

    Alle Möglichkeiten:p,(a1…a,b1…b)

    ,  {0,2,3,4}; a,b {A,C,G,U}

    Volker Hähnke: RNA - Falten & Finden


    Modelle piktogramme3

    Modelle - Piktogramme

    • COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche

    C(3,0)

    OB

    B

    E

    OE

    C(0,3)

    OJ

    Volker Hähnke: RNA - Falten & Finden


    Modelle piktogramme4

    Modelle - Piktogramme

    • RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche

    • Grammatik hat 3 verschiedene Zustände (nicht-Terminale):

      • V:Sequenzfragment, dessen Enden sicher gepaart sind

      • W:Sequenzfragment, dessen Enden eventuell gepaart sind

      • WB:wie W, wird nur benutzt, um Multi-Loops zu starten

    • 2 Arten von Emissionswahrscheinlichkeiten:

    aL………………….aR

    bL………………….bR

    WB: identisch

    Emission ja/nein

    Emission von gepaarten Nukleotiden in beide Sequenzen

    Nukleotid-Vektor

    Emission von ungepaarten Nukleotiden

    Erzeugen Gaps im Alignment

    Volker Hähnke: RNA - Falten & Finden


    Modelle piktogramme5

    Modelle - Piktogramme

    • RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche

    RNA

    OB

    OE

    OJ

    Volker Hähnke: RNA - Falten & Finden


    Bersicht17

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Verbesserungen

    Volker Hähnke: RNA - Falten & Finden


    Algorithmus vorgehen

    Algorithmus - Vorgehen

    • Eingabe: paarweises Sequenz-Alignment von L alignierten Paaren

    • Scoring des Alignments:

      • OTH, COD (HMM): Viterbi/ForwardSpeicher: O(L)Zeit: O(L)

      • RNA (SCFG): CYK/InsideSpeicher: O(L²)Zeit O(L³)

      • Für jedes Modell: Ws, dass Alignment von Modell generiert wurde

    • Alignment Klassifizieren (Bayes‘sche-Posteriori-Ws):

      • Annahme: P(Modeli) sind gleich

    Ws der Klasse bei gegebenem Alignment

    Ws des Alignments bei verwendetem Modell

    Ws des Modells

    Ws des Alignments

    Volker Hähnke: RNA - Falten & Finden


    Algorithmus ergebnis

    Algorithmus - Ergebnis

    • Bilden von log-odds-Score zur Gütebeurteilung:

      • ld ( beobachtet / erwartet )

      • Aussage darüber, wie nahe Erwartung an beobachtetem Ereignis ist

      • Annahme: weder für Proteine noch ncRNA kodierend

      • Log-odds-Score von COD und RNA zu OTH bilden

      • 2 Werte, als Koordinaten in Diagramm

      • Diagramm-Repräsentation der Information(„Phase Diagram“)

      • 3 verschiedene Fälle:

        • y > xy > 0RNA

        • x > yx > 0COD

        • x < 0y < 0OTH

    Volker Hähnke: RNA - Falten & Finden


    Bersicht18

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Verbesserungen

    Volker Hähnke: RNA - Falten & Finden


    Tests und ergebnisse

    Tests und Ergebnisse

    • Tests mit simulierten Daten:

      • Sinn: Daten im Voraus eindeutig klassifiziert, Leistungsfähigkeit beurteilbar

      • Jedes der 3 Modelle (OTH, RNA, COD) generiert 1000 200nt lange Alignments

      • Alle 300 Alignments durch Algorithmus bewertet und klassifiziert

      • Klassifizierung soll auf Mutationsmuster beruhen, nicht auf Sequenzidentität oder Gap-Häufigkeit

        • Spalten der Alignments zufällig neu zusammengesetzt

        • Sequenzidentität und Anzahl der Gaps beibehaltenMutationsmuster, das Veränderung erklärt hat, zerstört

      • Darstellung in „Phase-Diagrams“

    Volker Hähnke: RNA - Falten & Finden


    Tests und ergebnisse1

    Tests und Ergebnisse

    • Phase-Diagram der durch COD-erzeugten Alignments:

    RNA

    OTH

    COD

    blau= Klassifizierung der original Alignments

    rot = Klassifizierung nach Shuffling

    Volker Hähnke: RNA - Falten & Finden


    Tests und ergebnisse2

    Tests und Ergebnisse

    • Phase-Diagramm der durch RNA erzeugten Alignments

    RNA

    OTH

    COD

    blau= Klassifizierung der original Alignments

    rot = Klassifizierung nach Shuffling

    Volker Hähnke: RNA - Falten & Finden


    Tests und ergebnisse3

    Tests und Ergebnisse

    • Phase-Diagramm der durch OTH erzeugten Alignments:

    RNA

    OTH

    COD

    blau= Klassifizierung der original Alignments

    rot = Klassifizierung nach Shuffling

    Volker Hähnke: RNA - Falten & Finden


    Tests und ergebnisse4

    Tests und Ergebnisse

    • Tests an simulierten Genomen:

      • Sinn: Untersuchen der Tendenz zu „false Positives“, wenn COD und OTH dominieren

      • Erzeugen von 2 Pseudobakteriengenomen ohne funktionelle RNA:

        • Länge:2 Megabasen

        • Länge kodierender Regionen:normalverteilt um 900nt

        • Länge nichtkodierender Regionen:normalverteilt um 100nt

        • ~ 90% kodierend

        • GC-Gehalt:1) 38,90%

          2) 47,25%

          3) 57,70%

      • Anzahl der false Positives:

        • 1) 8

        • 2) 14

        • 3) 21

      • Erneute Analyse von Genomsatz 3 mit neuem Parametersatz: 1 false Positive

      • Sensitivität sinkt mit steigendem GC-Gehalt, kann angepasst werden

    Volker Hähnke: RNA - Falten & Finden


    Tests und ergebnisse5

    Tests und Ergebnisse

    • Tests an realen Genomen

      • Sinn: Test unter realistischen Bedingungen

      • Analyse der Genome von Escherichia coli und Salmonella typhi (eng verwandt)

      • Bekannt:115 RNA-Gene (22 rRNAs, 86 tRNAs, 7 andere)4290 kodierende Gene

      • Genom aufgeteilt in 3 Bereiche:115 RNA-Features (1% des Genoms)4290 ORF-Features (88% des Genoms)2367 intergene Sequenzen (11% des Genoms)

      • Jede der 3 „Sammlungen“ gegen Salmonella typhi aligniert, bewertet

    Volker Hähnke: RNA - Falten & Finden


    Tests und ergebnisse6

    Tests und Ergebnisse

    • Problem: Blast lieferte nicht ausreichend viele signifikante Alignments

    • Von alignierten Sequenzen Großteil erkannt

    Volker Hähnke: RNA - Falten & Finden


    Bersicht19

    Übersicht:

    • RNA falten

    • RNA finden

      • Motivation und Ansätze

      • Modelle

        • Prinzip

        • Parameterschätzung

        • Piktogramme

      • Algorithmus

      • Tests und Ergebnisse

      • Einsatz und Verbesserung

    Volker Hähnke: RNA - Falten & Finden


    Einsatz verbesserung

    Einsatz & Verbesserung

    • Anwendungsgebiete:

      • Erkennen von Kandidaten für ncRNA; positiv identifizierte Regionen weiter untersuchen

      • Erkennen von für Proteine kodierende Regionen

    • Fehlerquellen und Verbesserungen:

      • Modelle für fixe evolutionäre Distanz (BLOSUM 62) passt nicht auf alle eingegebenen Daten

      • BLASTN zum Alignieren von positionsunabhängig evolvierten SequenzenAlignment mit Sankoff-Algorithmus sehr teuer: Zeit O(L6), Speicher O(L4)

      • Training mit zufällig erzeugten Daten nicht optimaltrainiertes System scheint RNA-Modell zu favorisieren

      • Verfahren sucht nach konservierter Sekundärstrukturkann keine ncRNA erkennen, die nur sehr wenige Sekundärstrukturen ausbildet

      • Fehlklassifizierung von mRNA mit stark ausgebildeter Sekundärstrukturz.B. zur Translationskontrolle

    Volker Hähnke: RNA - Falten & Finden


    Bersicht20

    Übersicht:

    • RNA falten

    • RNA finden

    • Quellen

    Volker Hähnke: RNA - Falten & Finden


    Quellen

    Quellen

    • A statistical sampling algorithm for RNA secondary structure prediction; Nucleic Acids Research 31(24) S.7280-7301; Ding, Ye,Lawrence, Charles E.; 2003

    • Noncoding RNA gene detection using comparative sequence analysis; BMC Bioinformatics 2(8) Eddy, Sean R.,Rivas, Elena; 2001

    Volker Hähnke: RNA - Falten & Finden


    R n a

    ?

    Volker Hähnke: RNA - Falten & Finden


  • Login