r n a
Download
Skip this Video
Download Presentation
R N A

Loading in 2 Seconds...

play fullscreen
1 / 89

R N A - PowerPoint PPT Presentation


  • 82 Views
  • Uploaded on

R N A. Falten & Finden. Übersicht:. RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage  Auswertung Probability Profiling Accessibility Plots

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' R N A' - ghazi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
r n a

R N A

Falten & Finden

bersicht
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

bersicht1
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

sekund rstrukturen und deren funktion
Sekundärstrukturen und deren Funktion
  • Ständig wiederkehrende Motive in RNA-Struktur erkennbar
  • RNA besteht hauptsächlich aus Kombinationen dieser Motive
  • Achtung: keine Pseudoknoten berücksichtigt

Volker Hähnke: RNA - Falten & Finden

sekund rstrukturen und deren funktion1
Sekundärstrukturen und deren Funktion
  • RNA-Sekundärstrukturen wichtig für:
    • Katalyse (Ribozyme)
    • RNA-Splicing
    • Regulation der Translation
    • Interaktionen zwischen Nucleinsäuren
  • Sekundärstrukturen bestimmen auch die Tertiärstruktur

 korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur

 korrekte Sekundärstruktur wichtig für korrekte Funktion

  • Strukturbestimmung experimentell schwierig
    • Besonders für langkettige Nucleinsäuren

 rechnergestützte Strukturvorhersage extrem wichtig

Volker Hähnke: RNA - Falten & Finden

bersicht2
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

algorithmus grundidee
Algorithmus - Grundidee
  • Annahme: Faltung nur in bestimmte Sekundärstrukturelemente
  • Ansatz verfolgt Minimierung der freien Energie
    • Energie (U):
      • Nimmt ab, wenn z.B. Bindungen ausgebildet werden
    • Entropie (S):
      • Maß für die „Unordnung“ eines Systems
      • Nimmt nach 2. Hauptsatz der Thermodynamik zu
    • Freie Energie (Helmholtz Energie, F): F = U – T*S
      • Setzt Entropie und Energie in Beziehung

Volker Hähnke: RNA - Falten & Finden

algorithmus grundidee1
Algorithmus - Grundidee
  • Algorithmus arbeitet in 2 Schritten:
    • Schritt 1:
      • Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie)
      • Errechnet „Zustandssummen“ für Teilsequenzen
    • Schritt 2:
      • Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen
      • Wählt zufällige Kombination von Sekundärstrukturen aus

1)

2)

*********************************

--______------_----_--_-_----

„Teilergebnisse“

Sammlung von Basenpaaren

Sekundärstruktur

Volker Hähnke: RNA - Falten & Finden

algorithmus grundidee probleme
Algorithmus - Grundidee - Probleme
  • freien Energie für Sekundärstrukturen nur approximiert

 durch Änderungen andere Faltungen wahrscheinlicher

  • Tertiärstruktur (und Effekte) unberücksichtigt
  • Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein

 Realität suboptimal

Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus

Volker Hähnke: RNA - Falten & Finden

bersicht3
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen i
Algorithmus – Vorgehen (I)
  • Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einer

Sekundärstruktur I

für eine gegebene Sequenz S

nach

  • E(S, I): freie Energie der Sekundärstruktur für diese Sequenz
  • R: Gaskonstante
  • U: Zustandssumme aller zulässigen Sekundärstrukturen für S
  • Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen i defs
Algorithmus – Vorgehen (I) – Defs.

Rij

3‘

5‘

…..

…..

1… i ….. j… n

  • n: Anzahl an Ribonukleotiden
  • Rij: Teilsequenz von Nukleotid i bis Nukleotid j 1 ≤ i,j ≤ n
  • rk: Nukleotid an Position k, rk{A, C, G, U} i ≤ k ≤ j
  • Iij: Sekundärstruktur für Rij, ri und rj paaren eventuell
  • IPij: Sekundärstruktur für Rij, ri und rj paaren miteinander

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen i1
Algorithmus – Vorgehen (I)

Benötigt in:

Erinnerung:

Teilsequenz

  • Zustandssummen für Rij:

mit Sekundärstruktur Iij:

mit Sekundärstruktur IPij:

(i und j gepaart)

  • E(Rij, x): freie Energie der Sekundärstruktur x für Rij
  • R: Gaskonstante
  • T: 310,15 K
  • Rekursive Berechnung durch Algo vom McCaskill

Sek.-Strt.

Sek.-Strt.

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen i2
Algorithmus – Vorgehen (I)
  • Berechnung der u(i, j) bzw. up(i, j)…..
  • Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I1n für R1n berechnet werden

Sek.-Strt.

= S (Gesamtsequenz)

Genutzt in Schritt 2

Volker Hähnke: RNA - Falten & Finden

bersicht4
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii
Algorithmus – Vorgehen (II)

Rij

3‘

  • Rij kann 5 verschiedene Zustände annehmen:

5‘

…..

…..

1… i ….. j… n

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii n tige variablen 1
Algorithmus – Vorgehen (II) – nötige Variablen(1)
  • Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob ri und rj paaren):

Strafe für Paarung AC bzw. GU

freie Energie für dangling 5‘

freie Energie für dangling 3‘

Array mit zuvor berechneten Variablen

Zuerst h variieren, dann zu den Positionen von h l verändern

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii n tige variablen 2
Algorithmus – Vorgehen (II) – nötige Variablen(2)
  • Bekannt, dass ri und rj paaren  Ws für die 5 möglichen Strukturen:

freie Energie eines Hairpin geschlossen von ri und rj

freie Energie des Stacking-Bp ri und rj

freie Energie eines Bulge bzw. Interior Loop

Möglichkeiten, zwischen h und l einen Bulge bzw. Interior Loop zu sampeln

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii1
Algorithmus – Vorgehen (II)
  • Sampeln:
    • berechne die Struktur-Ws für Rij (mit den u(i,j) aus Schritt 1)
    • wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine Möglichkeit
  • Benutzt zwei Stacks
    • A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück)
      • Sequenz von Nukleotid i bis j
      • I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren
    • B:
      • Wird durch Algorithmus gefüllt
      • sammelt Basenpaare und ungepaarte Basen

 enthält nötige Informationen für Sekundärstruktur

  • Startzustand:
    • A enthält (1, n, 0)

0

1

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii2
Algorithmus – Vorgehen (II)

Erinnerung:

A: ungefaltete Bereiche

B: Bindungsbeziehungen

I = 0

1) Start mit R1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt bilde die P0, Pij, {Phi}, {Pil}, {Ps1h} für i = 1, j = n; wähle eine Möglichkeit

Mögliche Ergebnisse:

Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein

(1, n, 1) in Stack A einfügen

(h, n, 1) in Stack A einfügen

ungepaarte Basen 1 bis (h-1) in Stack B einfügen

(1, l, 1) & (l+1, n, 0) in Stack A einfügen

(h, l, 1) & (l+1, n, 0) in Stack A einfügen

Ungepaarte Basen von 1 bis (h-1) in Stack B einfügen

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii3
Algorithmus – Vorgehen (II)

Erinnerung:

A: ungefaltete Bereiche

B: Bindungsbeziehungen

2) Nimm nächstes Tupel (i, j, I) für Rij von Stack A

a) I = 0: verfahre wie im letzten Schritt: berechne die P--

b) I = 1: i und j paaren, betrachte die QijH, QijS, QijBI, QijM

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii4
Algorithmus – Vorgehen (II)

1) Sampel das erste innere Basenpaar

(bilde die P--, wähle Möglichkeit, verfahre entsprechend)

…..

…..

2) Sampel das nächste Basenpaar

…..

…..

3) Wiederhole 2, bis alle abgearbeitet

Nimm neues Tupel von Stack A

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii5
Algorithmus – Vorgehen(II)

Stack A

Stack B

Für jedes Basenpaar

innerhalb des MB-Loop

  • Sampling im Überblick:

Schritt 1

nimm (i, j, I) von A

Stack A leer?

I = 0

Sampel

Basenpaar

Möglichkeiten der Paarbildung bestimmt

I = 1

Sampel

Loop

Struktur bestimmt, zu der Basenpaar zugehörig ist

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen ii6
Algorithmus – Vorgehen(II)
  • Samling-Schritt arbeitet, bis Stack A leer ist
  • Stack B enthält Angaben über Paarungen der n Basen in R1n

 1 Sekundärstruktur

Wahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier Energie ab (bedingt durch Boltzmann-Verteilung):

        • Mit hoher Wahrscheinlichkeit: optimale MFE
        • Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE
        • Mit geringer Wahrscheinlichkeit: schlechte MFE
  • Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen

 statistisch repräsentatives Ergebnis

„Konsensus“-Struktur

Volker Hähnke: RNA - Falten & Finden

bersicht5
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

beispiele leptomonas collosoma
Beispiele – Leptomonas collosoma
  • Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma
    • 56 nt lang
    • 2 Sekundärstrukturen identifiziert (Funktion unbekannt)
  • Vorgehen:
    • Mit Schritt 1 die Ws der Substrukturen berechnet
    • 1000 mal gesampelt
    • Entstandene Sekundärstrukturen verglichen
  • Ergebnis:
    • 2 generelle Klassen
    • Klasse 1 mit 3 Unterklassen (A, B, C)
    • Klasse 2 mit 2 Unterklassen (A, B)

Volker Hähnke: RNA - Falten & Finden

beispiele leptomonas collosoma1
Beispiele – Leptomonas collosoma
  • Klasse 1: Alle Unterklassen mit 2 identischen Helices
    • 1:
    • 2:

Weitere 2 Helices gemeinsam

Unterschied in Hairpin

Quadratgröße = Häufigkeit der Basenpaare in Samples

mfold(3.1)-Struktur

 MFE-Struktur

Volker Hähnke: RNA - Falten & Finden

beispiele leptomonas collosoma2
Beispiele – Leptomonas collosoma
  • Klasse 2: Unterklassen erneut mit 2 identischen Helices
    • Unterklasse B mit zusätzlichem Stem am 5‘-Ende

Quadratgröße = Häufigkeit der Basenpaare in Samples

Volker Hähnke: RNA - Falten & Finden

beispiele leptomonas collosoma3
Beispiele – Leptomonas collosoma
  • Repräsentanten der Klasse 1:

identisch

mfold(3.1)-Struktur

 MFE-Struktur

Bis auf Fehlen der kurzen Helix mit mfold-Struktur identisch

Experimentell bestimmte Faltungsart 1

Volker Hähnke: RNA - Falten & Finden

beispiele leptomonas collosoma4
Beispiele – Leptomonas collosoma
  • Repräsentanten der Klasse 2:

identisch

Experimentell bestimmte Faltungsart 2

Volker Hähnke: RNA - Falten & Finden

beispiele leptomonas collosoma5
Beispiele – Leptomonas collosoma
  • Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten
  • Tatsächliche Faltungsart 1
  • mfold-Struktur (MFE)
  • Leicht veränderte mfold-Struktur (suboptimale MFE)
  • Tatsächliche Faltungsart 2

 Tatsächliche Strukturen mit geringer Ws

Volker Hähnke: RNA - Falten & Finden

bersicht6
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

beispiele bakteriophage
Beispiele – Bakteriophage 
  • Zwischen-Ergebnis aus Tests mit L. collosoma:Algo erzeugt viele alternative Strukturen
  • Weitere Untersuchung mit Vorhersage von mRNA-Strukturen
  • Charakteristische Bereiche der cIII-mRNA des Bakteriophagen :
    • das Startcodon (AUG) (0 bis 3)
    • die Shine-Dalgarno-Sequenz (-13 bis -7) nötig zur Translationsinitiierung
  • Kommt in 2 Konformationen vor
  • Vorgehen:
    • Sampling-Schritt 100 mal wiederholt
    • Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert

Volker Hähnke: RNA - Falten & Finden

beispiele bakteriophage1
Beispiele – Bakteriophage 
  • Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturen keine Translation
  • Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich Translation möglich

leftmost

stem

middle

stem

rightmost

stem

Volker Hähnke: RNA - Falten & Finden

beispiele bakteriophage2
Beispiele – Bakteriophage 
  • Ergebnis des Samplings:
    • 89/100 Strukturen leichte Variationen von Struktur A
      • leftmost-Stem in 67/89 exakt vorhergesagt
      • rightmost-Stem in 72/89 nahezu exakt vorhergesagt (gelegentlich 2 zusätzliche Paare)
    • 3/100 Strukturen Variationen von Struktur B

zusätzliche Helix in SD-Sequenz enthalten

    • 8 Strukturen, die weder an A noch an B erinnern

leftmost

stem

middle

stem

rightmost

stem

Volker Hähnke: RNA - Falten & Finden

bersicht7
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

beispiele auswertung
Beispiele - Auswertung
  • Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen
  • ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung
  • Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für Stabilität
  • Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader)

Volker Hähnke: RNA - Falten & Finden

bersicht8
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

probability profiling
Probability Profiling
  • Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit
    • DNA
    • RNA
    • Proteinen (z.B. in Translation)
  • Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus
    • Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden)
    • An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind(ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik))
    • Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i ungepaart war

Volker Hähnke: RNA - Falten & Finden

probability profiling beispiel
Probability Profiling - Beispiel
  • mRNA Homo sapiens-Glutamyl-Hydrolase
    • Nukleotide 0 – 60

Volker Hähnke: RNA - Falten & Finden

probability profiling beispiel1
Probability Profiling - Beispiel
  • mRNA Homo sapiens-Glutamyl-Hydrolase
    • Nukleotide 1261 – 1322

Volker Hähnke: RNA - Falten & Finden

probability profiling ergebnis
Probability Profiling - Ergebnis
  • MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise
    • Da nur 1 Struktur die MFE-Struktur ist
    • Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht
  • ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende
  • Probability Profile: verlässlichste Aussage der 3 Möglichkeiten
    • da Ws der nachfolgenden Paarungen berücksichtigt

Volker Hähnke: RNA - Falten & Finden

probability profiling f r loops
Probability Profiling für Loops
  • Bisher nur berücksichtig ob gepaart oder ungepaart
  • Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind

 Probability Profiling für bestimmte Loops möglich

Volker Hähnke: RNA - Falten & Finden

probability profiling f r loops1
Probability Profiling für Loops
  • Loop-Probability-Profiles für Escherichia coli Alanin-tRNA

Hairpin

External

Bulge

Internal

Multi

Multi

„dangling“-3‘-Ende aus Nukleotiden

Kleeblattstruktur der tRNA

Enthält keine Bulges oder Internal Loops

 dort keine Peaks

16% der gesampelten Strukturen haben einen einzelsträngigen Bereich,

der zwei gefaltete Domänen vebrindet

Volker Hähnke: RNA - Falten & Finden

probability profiling f r loops2
Probability Profiling für Loops
  • Weitere Bedeutung des Hairpin-Loop-Profiles:
    • Höchster Peak  konserviertester Loop
    • HPlot-Ws der Basen des Anticodon-Loops:
      • G34: 0,968
      • G35: 0,961
      • C36: 0,962

 Selbst wenn sich die restliches Strukturnicht zum Kleeblatt faltet, bleibt diese„accessible site“ erhalten

  • Untersuchung weiterer tRNAs interessant, aber schwierig, da modifizierte Basen vorhanden

Volker Hähnke: RNA - Falten & Finden

bersicht9
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

probability profiling f r accessibility plots
Probability Profiling für Accessibility Plots
  • Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig
  • Nucleinsäuren müssen einzelsträngig sein, um zu interagieren
  • Probability Profiles überlagern, um Interaktion vorherzusagen
  • Target: Homo sapiens-Glutamyl-Hydrolase mRNA
  • Antisense: insgesamt 1233 nt
  • Gute Zugänglichkeit zwischen 730 und 750 (target)
  • Zugängliche Bereiche müssen nicht an gleichen Stellen liegen
  • Sollten aber gleich lang sein

Volker Hähnke: RNA - Falten & Finden

bersicht10
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

sampelgr e
Sampelgröße
  • Standardgröße: 1000 – repräsentativ!
  • Beispiel: Homo sapiens -Glutamyl-Hydrolase mRNA
    • 1187 nt  ~10303 Sekundärstrukturen (Vergleich: ~1080 Atome im Universum)
    • 2 Sammlungen von 1000 Samples erstellt
    • Für jede Sammlung ein Histogramm erstelltHistogramme sind identisch
    • Probability Profiles erstellt:nahezu deckungsgleich
    • Aber: keine einzige Struktur kommt doppelt vor

Volker Hähnke: RNA - Falten & Finden

samplegr e histogramme
Samplegröße - Histogramme

Volker Hähnke: RNA - Falten & Finden

samplegr e probability profiles
Samplegröße - Probability Profiles

Volker Hähnke: RNA - Falten & Finden

bersicht11
Übersicht:
  • RNA falten
    • Sekundärstrukturen und Funktion
    • Algorithmus zur RNA-Faltung von Ding und Lawrence
      • Grundidee
      • Vorgehen Schritt 1
      • Vorgehen Schritt 2
    • Beispiele
      • Leptomonas collosoma
      • Bakteriophage 
      • Auswertung
    • Probability Profiling
    • Accessibility Plots
    • Samplegröße
    • Sfold
  • RNA finden

Volker Hähnke: RNA - Falten & Finden

sfold
Sfold
  • Algorithmus integriert in Paket Sfold
  • Erhältlich z.B. über sfold.wadsworth.org
  • Laufzeit des Algo: O(n³)
    • Vergleich: Eddy/Rivas: O(n6)

Reeder/Giegerich: O(n4)

Aber dafür mit Pseudoknoten

Vergleich von Rechenzeit und Speicherverbrauch beim Berechnen der Zustandssummen und anschließendem Sampeln von 1000 Strukturen

Volker Hähnke: RNA - Falten & Finden

bersicht12
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Verbesserungen

Volker Hähnke: RNA - Falten & Finden

bersicht13
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Verbesserungen

Volker Hähnke: RNA - Falten & Finden

motivation ans tze
Motivation & Ansätze
  • Gefaltete RNA funktionell bedeutsam
    • Steuerung der eigenen Translation
    • Funktion als tRNA
    • Ribozyme
  • Nicht alle RNA wird wie mRNA translatiert
  • Nicht alle Gene auf DNA codieren für Proteine
  • Einige kodieren auch für funktionelle nicht kodierende RNA (ncRNA)
  • Ziel: Gene auf DNA erkennen, die für ncRNA kodieren
  • Problem: entsprechende Gene bisher nicht einheitlich charakterisierbar

Volker Hähnke: RNA - Falten & Finden

motivation ans tze1
Motivation & Ansätze
  • Maizel 1988:
    • Sekundärstruktur bestimmt Funktion
    • Funktionelle RNA muss also stabile Sekundärstruktur haben
    • Stabil = Minimum der freien Energie
    • Ergebnis Faltungsvorhersage weniger divers
    • Ergebnisse enttäuschend
  • Badger & Olsen 1999:
    • Anderes Gebiet: Identifizierung von codierenden Regionen in Bakterien
    • Arbeitet mit Alignments von Sequenzen
    • Nutzen BLASTN um Sequenzidentität zwischen 2 Species zu bestimmen
    • Programm CRITICA untersucht Mutationsmuster der gaplosen Bereiche
      • Mutationen, die AS nicht verändern (synonym): + Score
      • Mutationen, die AS verändern: - Score

Volker Hähnke: RNA - Falten & Finden

motivation ans tze2
Motivation & Ansätze
  • Rivas & Eddy 2001:
    • Aufbauend auf Idee von Badger & Olsen
    • Erweiterungen: Probabilistisches Modell (Aussage mit Ws)

dritter zusätzlicher Zustand (funktionelle RNA)

Alignments mit Gaps zugelassen

Alignment nur teilweise relevant (irrelevante Flanken möglich)

    • Ziel: gegebene Sequenz klassifizieren in
      • Kodierend für Proteine
      • kodierend für ncRNA
      • Andere Bereiche
    • Ansatz findet ncRNA mit konservierter Struktur – Probleme:
      • Manche bekannte ncRNA-Gene nicht konserviert
      • Manche konservierte Bereiche nicht ncRNA-Gene
      • „ncRNA-Gen“ beschreibt Bereich mit konservierter Struktur, Funktionalität muss untersucht werden

Volker Hähnke: RNA - Falten & Finden

motivation ans tze3
Motivation & Ansätze
  • Eingabe eines Alignments zweier verwandter Genome (DNA-Sequenzen)
  • Analyse der beobachteten Mutationen
    • Kodierend: Synonyme Mutationen (gleiche AS kodiert)
    • Funktionell: kompensierend, Struktur erhalten
    • Keins: zufällige Mutation
  • Analyse:
    • Jeder Fall 1 Modell, das entsprechende Sequenzen baut
    • „Nachbau“ des Alignments mit den 3 Modellen
    • Ausgabe der Ws, dass Alignment einem Modell enstpringt
    • Modell mit höchster Ws gewinnt

AGTGCTAGCT

GATGCTAGCT

ncRNA?

Volker Hähnke: RNA - Falten & Finden

bersicht14
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Verbesserungen

Volker Hähnke: RNA - Falten & Finden

modelle prinzip
Modelle - Prinzip
  • OTH (weder kodierend noch funktionell)
    • pair-HMM
    • 16 verschiedene Parameter: pOTH(a,b) = Ws(a in Seq X, b in Seq Y)
    • Wahrscheinlichkeit des Alignments: Produkt der Ws der alignierten Positionen

HMM

pair-HMM

GTTAACTGAGTAACG

GTTAACTGAGTAACG

| x x | x | | | | | | x | | |

GCAAGCTGAGTTACG

Volker Hähnke: RNA - Falten & Finden

modelle prinzip1
Modelle - Prinzip
  • COD (Gen kodierend für Proteine)
    • pair-HMM
    • Alignierte Sequenzen sollten für gleiches Protein kodieren
    • Synonyme Mutationen, AS-Sequenz unverändert
    • 64 * 64 Parameter: pCOD(a1a2a3, b1b2b3)
      • Emission erfolgt Codon für Codon
      • Gleichzeitig: a1a2a3 in Sequenz X

b1b2b3 in Sequenz Y

    • Ws des Alignments für einen Reading-Frame: Produkt der Doppel-Codon-Ws
    • Richtiger Reading-Frame nicht bekannt
    • Ws des Alignments:

1 Ereignis

Sequenz X

GGT……

GGA……

Sequenz Y

G

f = Frame; P(f|COD) = 1/6

Volker Hähnke: RNA - Falten & Finden

modelle prinzip2
Modelle - Prinzip
  • RNA (Gen kodierend für ncRNA)
    • pair Stochastic Context Free Grammar (pSCFG)
    • Mutation ändert Sekundärstruktur nicht
    • Von gleichen Positionen zu gleichen Positionen Watson-Crick-Paarung möglich
    • Abschnitte in Sek-Struktur: 16 * 16 Parameter pRNA(aLaR, bLbR)
      • Ws (Emission eines Basenpaars in X, homologes Basenpaar in Y)
    • Ungepaarte Abschnitte: 4 * 4 Parameter pRNA(a, b)
      • Analog zu OTH-Modell
    • Ws für ein Alignment mit Struktur s: Produkt aus
      • pRNA(xixj, yiyj) für gepaarten Positionen i,j
      • pRNA(xk, yk) für einzelsträngige Positionen k
    • Richtige Struktur nicht bekannt
    • Ws des Alignments:

p

u

v

TTGTTCGAAAGAACG

TTGACCGAAAGGTCG

s = Sekundärstruktur

Volker Hähnke: RNA - Falten & Finden

modelle prinzip3
Modelle - Prinzip
  • Problem bei RNA-Modell
    • In COD-Modell alle Frames gleich wahrscheinlich
    • Gilt nicht für Sek-Strukturen in RNA-Modell
    • P(s|RNA) muss für jedes s berechnet werden
    • Gelöst durch früheren Algorithmus von Rivas und Eddy
  • Viertes Modell (IID) :
    • Erzeugt unabhängige Sequenzen
    • 8 Parameter: pX(a) pY(b)
  • Klassifikation durch Likelihoods:
    • Wahrscheinlichkeit des Modells gegeben die Daten
    • Bayes‘sche-Posteriori-Ws berechnet: a priori alle 3 Modelle gleich wahrscheinlich
    • Hohe RNA-posteriori-Ws: Alignment Kandidat für ncRNA-Gene
  • Beurteilung der Güte der Aussage durch log-odds-Score

Volker Hähnke: RNA - Falten & Finden

bersicht15
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Verbesserungen

Volker Hähnke: RNA - Falten & Finden

modelle parametersch tzung
Modelle - Parameterschätzung
  • 4392 Emission-Ws zu bestimmen
    • Ideal: Trainings-Sets aus Alignments von
      • Real existierenden RNAs
      • Kodierende Genomregionen
      • Konservierte nicht kodierende Regionen
    • Keine genügend großen Trainings-Sets verfügbar
    • Mit zufällig erzeugten Sequenzen:
      • Sequenzen erzeugen
      • Mit Werten aus AS-Substitutionsmatrizen (BLOSUM62) Codon-Ws errechnen (pCOD)
      • Daraus Nucleotid-Substitutions-Ws des OTH-Modells errechnen
      • OTH-Ws mit Basenpaarhäufigkeiten kombinieren  RNA-Ws
  • 48 Transitions-Ws
    • „von Hand“ erzeugt: Modelle generieren Sequenzen, mit realen verglichen
    • Suboptimale Methode, bisher aber keine Alternative

Volker Hähnke: RNA - Falten & Finden

bersicht16
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Verbesserungen

Volker Hähnke: RNA - Falten & Finden

modelle piktogramme
Modelle - Piktogramme
  • IID-Modell: erzeugt 2 unabhängige Sequenzen

X

Emittiert in Seq. X

F

S

K

T

Y

Emittiert in Seq. Y

Volker Hähnke: RNA - Falten & Finden

modelle piktogramme1
Modelle - Piktogramme
  • OTH-Modell: erlaubt lokale Alignments zwischen 2 Sequenzen

X

X: emittiert in X, Gap in Y

XY: emittiert in X und Y

Y: emittiert in Y, Gap in X

FL

FR

B

XY

E

Y

F: „Flanking States“

FJ

O

Volker Hähnke: RNA - Falten & Finden

modelle piktogramme2
Modelle - Piktogramme
  • COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche
  • Neuer Typ von Zuständen: COD
    • Ermöglichen „indels“ (Insertionen oder Deletionen)
    • Kompensieren Verlust durch Shotgun-Sequenzierung & BLASTN (positions-unabhängig)
    • Emission von ungleichen (und überzähligen) AS-Anzahlen
    • Exemplarische Angabe der entsprechenden Ws:

Alle Möglichkeiten: p,(a1…a,b1…b)

,  {0,2,3,4}; a,b {A,C,G,U}

Volker Hähnke: RNA - Falten & Finden

modelle piktogramme3
Modelle - Piktogramme
  • COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche

C(3,0)

OB

B

E

OE

C(0,3)

OJ

Volker Hähnke: RNA - Falten & Finden

modelle piktogramme4
Modelle - Piktogramme
  • RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche
  • Grammatik hat 3 verschiedene Zustände (nicht-Terminale):
    • V: Sequenzfragment, dessen Enden sicher gepaart sind
    • W : Sequenzfragment, dessen Enden eventuell gepaart sind
    • WB: wie W, wird nur benutzt, um Multi-Loops zu starten
  • 2 Arten von Emissionswahrscheinlichkeiten:

aL………………….aR

bL………………….bR

WB: identisch

Emission ja/nein

Emission von gepaarten Nukleotiden in beide Sequenzen

Nukleotid-Vektor

Emission von ungepaarten Nukleotiden

Erzeugen Gaps im Alignment

Volker Hähnke: RNA - Falten & Finden

modelle piktogramme5
Modelle - Piktogramme
  • RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche

RNA

OB

OE

OJ

Volker Hähnke: RNA - Falten & Finden

bersicht17
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Verbesserungen

Volker Hähnke: RNA - Falten & Finden

algorithmus vorgehen
Algorithmus - Vorgehen
  • Eingabe: paarweises Sequenz-Alignment von L alignierten Paaren
  • Scoring des Alignments:
    • OTH, COD (HMM): Viterbi/Forward Speicher: O(L) Zeit: O(L)
    • RNA (SCFG): CYK/Inside Speicher: O(L²) Zeit O(L³)
    • Für jedes Modell: Ws, dass Alignment von Modell generiert wurde
  • Alignment Klassifizieren (Bayes‘sche-Posteriori-Ws):
    • Annahme: P(Modeli) sind gleich

Ws der Klasse bei gegebenem Alignment

Ws des Alignments bei verwendetem Modell

Ws des Modells

Ws des Alignments

Volker Hähnke: RNA - Falten & Finden

algorithmus ergebnis
Algorithmus - Ergebnis
  • Bilden von log-odds-Score zur Gütebeurteilung:
    • ld ( beobachtet / erwartet )
    • Aussage darüber, wie nahe Erwartung an beobachtetem Ereignis ist
    • Annahme: weder für Proteine noch ncRNA kodierend
    • Log-odds-Score von COD und RNA zu OTH bilden
    • 2 Werte, als Koordinaten in Diagramm
    • Diagramm-Repräsentation der Information(„Phase Diagram“)
    • 3 verschiedene Fälle:
      • y > x y > 0  RNA
      • x > y x > 0  COD
      • x < 0 y < 0  OTH

Volker Hähnke: RNA - Falten & Finden

bersicht18
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Verbesserungen

Volker Hähnke: RNA - Falten & Finden

tests und ergebnisse
Tests und Ergebnisse
  • Tests mit simulierten Daten:
    • Sinn: Daten im Voraus eindeutig klassifiziert, Leistungsfähigkeit beurteilbar
    • Jedes der 3 Modelle (OTH, RNA, COD) generiert 1000 200nt lange Alignments
    • Alle 300 Alignments durch Algorithmus bewertet und klassifiziert
    • Klassifizierung soll auf Mutationsmuster beruhen, nicht auf Sequenzidentität oder Gap-Häufigkeit
      • Spalten der Alignments zufällig neu zusammengesetzt
      • Sequenzidentität und Anzahl der Gaps beibehaltenMutationsmuster, das Veränderung erklärt hat, zerstört
    • Darstellung in „Phase-Diagrams“

Volker Hähnke: RNA - Falten & Finden

tests und ergebnisse1
Tests und Ergebnisse
  • Phase-Diagram der durch COD-erzeugten Alignments:

RNA

OTH

COD

blau = Klassifizierung der original Alignments

rot = Klassifizierung nach Shuffling

Volker Hähnke: RNA - Falten & Finden

tests und ergebnisse2
Tests und Ergebnisse
  • Phase-Diagramm der durch RNA erzeugten Alignments

RNA

OTH

COD

blau = Klassifizierung der original Alignments

rot = Klassifizierung nach Shuffling

Volker Hähnke: RNA - Falten & Finden

tests und ergebnisse3
Tests und Ergebnisse
  • Phase-Diagramm der durch OTH erzeugten Alignments:

RNA

OTH

COD

blau = Klassifizierung der original Alignments

rot = Klassifizierung nach Shuffling

Volker Hähnke: RNA - Falten & Finden

tests und ergebnisse4
Tests und Ergebnisse
  • Tests an simulierten Genomen:
    • Sinn: Untersuchen der Tendenz zu „false Positives“, wenn COD und OTH dominieren
    • Erzeugen von 2 Pseudobakteriengenomen ohne funktionelle RNA:
      • Länge: 2 Megabasen
      • Länge kodierender Regionen: normalverteilt um 900nt
      • Länge nichtkodierender Regionen: normalverteilt um 100nt
      • ~ 90% kodierend
      • GC-Gehalt: 1) 38,90%

2) 47,25%

3) 57,70%

    • Anzahl der false Positives:
      • 1) 8
      • 2) 14
      • 3) 21
    • Erneute Analyse von Genomsatz 3 mit neuem Parametersatz: 1 false Positive
    • Sensitivität sinkt mit steigendem GC-Gehalt, kann angepasst werden

Volker Hähnke: RNA - Falten & Finden

tests und ergebnisse5
Tests und Ergebnisse
  • Tests an realen Genomen
    • Sinn: Test unter realistischen Bedingungen
    • Analyse der Genome von Escherichia coli und Salmonella typhi (eng verwandt)
    • Bekannt: 115 RNA-Gene (22 rRNAs, 86 tRNAs, 7 andere) 4290 kodierende Gene
    • Genom aufgeteilt in 3 Bereiche: 115 RNA-Features (1% des Genoms) 4290 ORF-Features (88% des Genoms) 2367 intergene Sequenzen (11% des Genoms)
    • Jede der 3 „Sammlungen“ gegen Salmonella typhi aligniert, bewertet

Volker Hähnke: RNA - Falten & Finden

tests und ergebnisse6
Tests und Ergebnisse
  • Problem: Blast lieferte nicht ausreichend viele signifikante Alignments
  • Von alignierten Sequenzen Großteil erkannt

Volker Hähnke: RNA - Falten & Finden

bersicht19
Übersicht:
  • RNA falten
  • RNA finden
    • Motivation und Ansätze
    • Modelle
      • Prinzip
      • Parameterschätzung
      • Piktogramme
    • Algorithmus
    • Tests und Ergebnisse
    • Einsatz und Verbesserung

Volker Hähnke: RNA - Falten & Finden

einsatz verbesserung
Einsatz & Verbesserung
  • Anwendungsgebiete:
    • Erkennen von Kandidaten für ncRNA; positiv identifizierte Regionen weiter untersuchen
    • Erkennen von für Proteine kodierende Regionen
  • Fehlerquellen und Verbesserungen:
    • Modelle für fixe evolutionäre Distanz (BLOSUM 62) passt nicht auf alle eingegebenen Daten
    • BLASTN zum Alignieren von positionsunabhängig evolvierten SequenzenAlignment mit Sankoff-Algorithmus sehr teuer: Zeit O(L6), Speicher O(L4)
    • Training mit zufällig erzeugten Daten nicht optimaltrainiertes System scheint RNA-Modell zu favorisieren
    • Verfahren sucht nach konservierter Sekundärstrukturkann keine ncRNA erkennen, die nur sehr wenige Sekundärstrukturen ausbildet
    • Fehlklassifizierung von mRNA mit stark ausgebildeter Sekundärstrukturz.B. zur Translationskontrolle

Volker Hähnke: RNA - Falten & Finden

bersicht20
Übersicht:
  • RNA falten
  • RNA finden
  • Quellen

Volker Hähnke: RNA - Falten & Finden

quellen
Quellen
  • A statistical sampling algorithm for RNA secondary structure prediction; Nucleic Acids Research 31(24) S.7280-7301; Ding, Ye,Lawrence, Charles E.; 2003
  • Noncoding RNA gene detection using comparative sequence analysis; BMC Bioinformatics 2(8) Eddy, Sean R.,Rivas, Elena; 2001

Volker Hähnke: RNA - Falten & Finden

slide89

?

Volker Hähnke: RNA - Falten & Finden

ad