1 / 25

Spezialvorlesung Suchalgorithmen

Spezialvorlesung Suchalgorithmen. Thema: Sequenzenalignierung Stefan Edelkamp. Struktur des Buchs. Überblick. Das Editierdistanzproblem Das Sequenzenalignierungsproblem Grundlegende Algorithmen IDDP Externalisierung Allgemein Externalisierung der IDDP Erste Ergebnisse.

kerem
Download Presentation

Spezialvorlesung Suchalgorithmen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SpezialvorlesungSuchalgorithmen Thema: Sequenzenalignierung Stefan Edelkamp

  2. Struktur des Buchs

  3. Überblick • Das Editierdistanzproblem • Das Sequenzenalignierungsproblem • Grundlegende Algorithmen • IDDP • Externalisierung Allgemein • Externalisierung der IDDP • Erste Ergebnisse

  4. Editierdistanzproblem Editierdistanz zwischen SPORT und SORT in Dynamischer Programmierungstabelle berechnet

  5. MSA Das Sequenzalignierungsproblem in der Algorithmischen Biologie fordert die Passung mehrerer Sequenzen, z.B. verwandter Genen von verschiedenen Organismen, um Ähnlichkeiten und Verschiedenheiten in einer Gruppe zu studieren Enweder: DNA wird direkt verglichen, und das unterliegende Alphabet besteht aus der Menge {C,G,A,T} der 4 Standartnukleotidenbasen Cytosin, Guanin, Adenin und Thymin Oder: wir vergleichen Proteine, die in dem Fall aus 20 Aminosäuren zusammengesetzt sind

  6. MSA in 3D:ABCB, BCD, DB

  7. Modelle Einfach:0 (match), 1 (mismatch), 2 (gap) Gewichtet: PAM Matrix (more relevant) Affine: Zusätzliche Lückenöffnungskosten Sum-of-pairs

  8. Affine Gap-Kosten:Öffnen mit Kosten 4

  9. Hirschberg-Algorithmus(„Linear-Space“ BFS)

  10. Reduzierung des Speichers in „Sparse-Memory Graph Search“

  11. Mögliche Reopenings

  12. State-of-the-Art: IDDP

  13. IDDP – Beispiel Global: Untere Schranke: 2; Obere Schranke: 5 Iteration: Schranke: 2; nächste Schranke: 3 Global: Untere Schranke: 2; Obere Schranke: 5 Iteration: Schranke: 3; nächste Schranke: 4 Global: Untere Schranke: 2; Obere Schranke: 5 Iteration: Schranke: 4; nächste Schranke: 5 Global: Untere Schranke: 2; Obere Schranke: 5 Iteration: Schranke: 2; nächste Schranke: 5 Gefundene Lösung: ACTTCGATT-ACG AC-TCGATTAACG

  14. Pseudo-Code

  15. Entwicklung einer Kante

  16. Externalisierung (Motivation) • Swapping, wenn zu großer Hauptspeicherbedarf • Standardvariante: Least Recently Used • eventuell ineffizient • wenn etwas über Verlauf des Algorithmus bekannt ist, besser selbst auslagern • Auslagerung der Elemente, die zukünftig am längsten nicht mehr verwendet werden • noch besser: Verwendung von Puffern

  17. Externalisierung der IDDP (einfach) Schreiben einer Schicht nach ihrer Expansion Lesen, wann immer gebraucht  viele zufällige Plattenzugriffe → sehr ineffizient Kanten stark verzeigert; Zeiger für • Heap-Struktur, Adjazenzlisten, Verweise auf Vorgänger, …  Speicherung der Knoten und Koordinaten • Zeiger der Knoten auf Kanten direkt als Speicheradresse abgespeichert

  18. Externalisierung der IDDP (gepuffert) (#Sequenzen + 1) viele Puffer Knoten einer Schicht in einem Puffer schreiben, wenn Puffer voll Knoten in Puffer sortiert (nach Koordinaten), bevor diese expandiert wird (eliminiert Duplikate) lesen in Puffer vor Expansion, alle Knotenexpandiert nächste Knoten lesen Expansion eingehender Kanten nach Reihenfolge der Knoten

  19. Externalisierung der IDDP (gepuffert) Differenz der Koordinaten (u1, …, uk) und (v1, …, vk) einer Kante u → v jeweils ≤ 1 • Kodierung der Kanten: • Speicherung von Vorgänger durch selbe Kodierung, statt Zeiger • Kanten können als Liste an Knoten mit geschrieben werden

  20. Externalisierung der IDDP (gepuffert) Kompaktierung durch Trie • Identischer Präfix muss nicht gespeichert werden • Erst bei gepufferter Variante möglich, da keine zufälligen Zugriffe in Dateien liefert: statt: 1 2 1 1 2 1 3 1 1 3 1 3 1 3 3 2 1 2 2 1 2 3 2 1 3 4 2 1 4

  21. Externalisierung der IDDP (gepuffert) Möglichkeiten der gepufferten Variante: Zeitkritisch:Großer Puffer→ wenige Plattenzugriffe, moderater Speicherbedarf Platzkritisch: Kleiner Puffer → viele Plattenzugriffe, damit hoher Zeitbedarf, aber sehr geringer Speicherbedarf (fast nur noch Heuristik im Speicher)

  22. Erste Ergebnisse • Verwendung von BAliBASE • enthält 82 Protein-Sequenzen • 75 mit IDDPgelöst • 68 von einfacher Externalisierung in ≤ 24h gelöst • 74 mit gepufferter Externalisierung gelöst (weitere Experimente laufen)

  23. Ergebnisse (kleine Probleme)

  24. Ergebnisse (mittlere Probleme)

  25. Ergebnisse (schwere Probleme)

More Related