1 / 29

Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von

Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von Oliver Arnold & Jan Hendrik Nielsen. Gliederung. Erster Teil : Einführung in DNA-Chip Design Einleitung DNA-Chips Aufbau von cDNA-Chips Aufbau von Oligo-Chips Beobachtung der Genexpression

vilina
Download Presentation

Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von Oliver Arnold & Jan Hendrik Nielsen

  2. Gliederung Erster Teil: Einführung in DNA-Chip Design • Einleitung • DNA-Chips • Aufbau von cDNA-Chips • Aufbau von Oligo-Chips • Beobachtung der Genexpression • Synthese der Oligonukleotide • Merkmale der Oligo-Chips • Kriterien für optimale Oligos • Anwendungsgebiete Zweiter Teil: Algorithmen zur Konstruktion von Oligos • später ... Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  3. DNA-Chips • werden allgemein benutzt um zu ermitteln ob Gene exprimiert sind (kodieren für Proteine) • hauptsächlich 2 Arten von Chips: • cDNA Microarrays (Incyte Inc.) • Oligonucleotide Microarrays (Affymetrix) • Spots auf dem Chip müssen einzigartig für ein Gen sein (Spezifität) • Spots müssen dieses Gen entdecken (Sensitivität) • alle Spots sollten unter den gleichen Bedingungen funktionieren, z.B. Temperatur (Einheitlichkeit) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  4. Aufbau von cDNA-Chips • 10000 Gene auf einem Chip • Oberfläche ist aus beschichtetem Glas • hohe Sensitivität, wegen langer Probe-Sequenzen • aber niedrige Spezifität, wegen vieler Fehl-Hybridisierungen • Probes können nicht zwischen ähnlichen oder gleichen Subsequenzen unterscheiden • dadurch auch nicht zwischen Gen-Familien • mehrere cDNAs für ein Gen (Fehl-Hybridisierung!) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  5. Aufbau von Oligo-Chips • 9000 Gene auf einem Chip • Oberfläche für Oligos ist aus beschichtetem Glas oder Silizium • Oligos sind in Arrays angeordnet (65000-500000 auf einem Chip) • jedes Array (Spot) "erkennt" ein Gen • extrahierte Gene (targets) lagern sich an Oligos (probes) an  Hybridisierung [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  6. Beobachtung der Genexpression (1) • Extrahieren der Gene (mRNA) aus einem Referenz- und einem Mutationstyp • Reverse Transkription um cDNAs zu erzeugen • Vervielfältigung der cDNAs durch PCR • Markierung der Gene mit unterschiedlich fluoreszierenden Farbstoffen (z.B. rot und grün) • "Fluten" des Chips mit markierten cDNAs [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  7. Beobachtung der Genexpression (2) • Temperatur-Erhöhung um Fehl-Hybridisierungen zu denaturieren • Waschen des Chips  Beseitigung von ungebundener cDNA • Auswertung der Daten, bzw. Messen der Intensität der Farbstoffe [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  8. Synthese der Oligonukleotide • benutzte Methode: Photolitographie • Oligos können parallel erzeugt werden • Maske mit Löchern wird benutzt • ultraviolettes Licht tritt nur durch die Löcher • beschienene Oligos werden "aktiviert" • Basen/Nukleotide können sich anlagern • Chip wird mit Nukleotiden einer Art "geflutet" • ungebundene Basen werden abgewaschen • nächste Maske wird benutzt • Wiederholung der einzelnen Schritte (ca. 70 mal) [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  9. Merkmale der Oligo-Chips (1) • Oligos werden nur durch bekannte Sequenz-Informationen produziert • jedes Oligo wird mit einem Mismatch-Oligo gepaart, unterscheiden sich nur im Zentrum (durch eine Base) • typischerweise werden 20 Paare von Oligonukleotiden zur Erkennung eines Gens verwendet (ein Spot) • Fehl-Hybridisierungen können erkannt werden • Oligos, die weniger (oder gleich) hybridisieren als Mismatch-Oligos, implizieren geringe Spezifität Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  10. Merkmale der Oligo-Chips (2) • es gibt zwei Typen von Oligo-Chips • short Oligo-Chips (Länge: 20-25 bp) • long Oligo-Chips (Länge: 50-70 bp) • oft wird nur ein Oligonukleotide gebraucht, um ein Gen zu erkennen • weniger Fehl-Hybridisierungen • mögliche sich wiederholende oder ähnliche Sequenzen vermeidbar • dadurch höhere Spezifität • Chips noch relativ teuer • gute Methoden/Algorithmen werden benötigt, um Oligos zu erzeugen Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  11. Kriterien für optimale Oligos • 6 Kriterien • Base Composition Limit: keine der Basen sollte 50% eines Oligos ausmachen • Base Distribution Limit: Folge eines Basentypes sollte nicht 25% eines Oligos überschreiten • GC-Content: sollte zwischen 30% und 70% liegen • Sekundärstruktur: Oligos sollten keine Dimers oder Hairpins ausbilden • Länge eines zusammenhängenden, komplementären Match zu non-targets sollte kleiner als 15 bp sein • Anteil der komplementären Nukleotide im Verhältnis zu non-targets sollte kleiner als 75% sein • Kriterien 1, 2 und 4 sind implizit in den anderen Bedingungen enthalten Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  12. Anwendungsgebiete (1) • Erkennen von SNP‘s (Single Nucleotide Polymorphism) • die zusammenhängende Gensequenz wird durch sich überschneidene Oligos der Länge 25 bp repräsentiert • drei Permutationen von jedem Oligo werden mit auf den Chip gepackt • unterscheiden sich bloß im zentralen Nukleotid • dadurch können alle SNP‘s eines Gens durch den Chip erkannt werden Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  13. Anwendungsgebiete (2) • Beobachtung der Effekte, Effizienz und Metabolismus von Medikamenten • Leber = Hauptwirkungsstätte bei der Umwandlung von Medikamenten und Hormonen • Untersuchung der Gene aus dem Leber-Gewebe daher repräsentativ für den ganzen Organismus • Vergleiche der Genexpressionen können helfen die Wirkung von Medikamenten festzustellen • Verstehen von Krankheitsverläufen • Bestimmen, welche Gene verschiedene Gewebe- und Zell-Typen exprimieren Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  14. Es geht weiter ... Zweiter Teil: Algorithmen zur Konstruktion von Oligos • Einleitung • Worum geht es? • Methoden der DNA-Array-Synthese • SADP – Synchronous Array Design Problem • der Epitaxial-Algorithmus • der Row-Epitaxial-AlgorithmusMatching • AADP – Asynchronous Array Design Problem • Algorithmen für „in-place Optimierung“: • Batched Greedy, Chessboard & der Sequential Algorithmus Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  15. Einleitung - Worum geht es? (1) • Oligodesignproblem (siehe vorheriger Teil) • Heute 500.000 Proben pro Chip (Tendenz steigend) • Prozess der Beleuchtung zur Verkettung von Nukleotiden fehleranfällig • optische Effekte (Beugung, Brechung, etc.) können unbeabsichtigte Beleuchtung verursachen • als Folge: unvorhergesehene Synthese (und vieles mehr…) • Lösung: Auswahl der Platzierung von Nukleotiden • Border Minimization Problem (BMP) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  16. Einleitung - Worum geht es? (2) • Border: Grenze zwischen zwei benachbarten Proben • maskiert / unmaskiert • Anzahl wird als conflicts bezeichnet • Minimization: Verteilung der Proben mit möglichst kleiner Border Length (Summe der Border über alle Masken) [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  17. Methoden der DNA-Array-Synthese (1) • Synchrone Synthese: • Jede Periode der Supersequenz S (= ACGT) synthetisiert ein einzelnes Nukleotid • Asynchrone Synthese: • Erlaubt willkürliches Einsetzen der Nukleotide [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  18. Methoden der DNA-Array-Synthese (2) • Synchrones, sowie asynchrones Array-Design kann durch Angabe einer mutmaßlichen unteren Grenze errechnet werden. Basierend auf: • dem Hammingabstand bei synchroner Synthese • dem LCS bei asynchroner Synthese • Aber: • sehr langsam • exakt • deshalb nur Verwendung zum Vergleich der später vorgestellten Heuristiken Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  19. SADP – Synchronous Array Design Problem • Ursprüngliche Vorgehensweise: • Berechnung der Konflikt-Distanz: d(p, p‘) = 2h(p, p‘), wobei p ≡ Proben und 2h ≡ zweifacher Hammingabstand • danach TSP-Heuristik, um die Nukleotide mit minimiertem Hammingabstand auf einer Site anzuordnen (Hannenhalli et al., 2002; erstes Arraydesign bei Affymetrix) • Aber: es geht "besser" (dieser Ansatz optimiert nur etwa die Hälfte der benachbarten Paare) … Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  20. SADP Der "epitaxial placement approach": • Ursprung in der VLSI (Very Large Scale Integration) • Idee: Zweidimensionale Anordnung von Proben um einen einzelnen (zufällig gewählten und zentralen) Startpunkt (seed) • Epitaxial-Algorithmus ist nur bis zu einer Chipgröße von 300 x 300 Proben praktikabel • daher: Skalierung durch Aufteilung in K Subsets (chunks) • Nachteil: • begrenzte Platzierungsmöglichkeit; Probe kann nicht überall auf dem Array angelegt werden (nur in ihrem Subset) • keine Optimierung der Grenzen zwischen den chunks Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  21. SADP Der Epitaxial-Algorithmus [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  22. SADP Verbesserung (Kahng et al.): row-epitaxial-algorithm • Drei Haupteigenschaften: • Umstrukturierung einer vorab optimierten, bestehenden Anordnung - erste Platzierung kann durch verschiedene Algorithmen erfolgen (z.B. Gray Code) • muss sehr schnell sein - TSP (Hannenhalli et al.) braucht zu lange • gute initial-Anordnung: lexikographische Sortierung der Proben (radix sort) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  23. SADP • Auffüllung der leeren Flächen mit Proben, in einer vordefinierten Reihenfolge (von links nach rechts, Reihe für Reihe) • die Proben werden aus den nächsten k0 Reihen gewählt • k0 = Lookahead beim Algorithmus • dadurch Geschwindigkeit des Algorithmus erhöht • je größer k0,desto besser ist das Ergebnis • jedoch schlechtere Laufzeit Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  24. SADP Vergleich der bisher vorgestellten Algorithmen [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  25. AADP – Asynchronous Array Design Problem Algorithmen für "in-place Optimierung" • Der Batched Greedy Algorithmus: • sucht die Probe mit höchstem "Gewinn" nach Umsetzung und aktualisiert seine "Gewinnliste" [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  26. AADP • Die Chessboard Optimization • Idee: Maximiere Anzahl unabhängiger Nukleotide • Ein Nukleotid ist unabhängig, wenn das Vertauschen Eines die optimale Einbettung des Anderen nicht beeinflusst. • Zweifärben der Array-site (Schachbrett); alle weißen/schwarzen Felder können untereinander neu angeordnet werden [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  27. AADP • Der Sequential Algorithmus • ermöglicht optimale Umsortierung der Nukleotide • geht Array Reihe für Reihe durch • Nachteil von Batched Greedy, Chessboard: • nur unabhängige Nukleotide werden vertauscht • Auswirkungen verbreiten sich langsam • Das wird durch die sequentielle Abarbeitung gelöst [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  28. AADP [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

  29. Quellenangabe Paper: • [1]Scalable Heuristics for Design of DNA Probe Arrays - Andrew B. Kahng, Ion I. Măndoiu, Pavel A. Pevzner, Sherief Reda and Alexander Z. Zelikovsky • DNA chips: promising toys have become powerful tools - David Gerhold, Thomas Rushmore and C. Thomas Caskey • Picky: oligo microarray design for large genomes - Hui-Hsien Chou, An-Ping Hsia, Denise L. Mooney and Patrick S. Schnable Links: • [2]http://www.affymetrix.com • http://www.charite.de/molbiol/bioinf/tumbiol/Microarrayanalysis/Introduction/ • http://www.math.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec11/node11.html • http://www.stat.berkeley.edu/users/terry/Classes/s260.1998/Week9b/week9b/node1.html • http://www.lshtm.ac.uk/itd/grf/microarrayoverview.htm • http://www.hhmi.org/biointeractive/genomics/microarray.html Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme

More Related