1 / 21

Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010

Wyszukiwanie k onsensus ów w sekwencjach DNA. Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010. Cel. Znalezienie potencjalnych miejsc wiązań zarówno HSF1 (Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy.

cleo
Download Presentation

Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wyszukiwanie konsensusóww sekwencjach DNA Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010

  2. Cel • Znalezienie potencjalnych miejsc wiązań zarówno HSF1 (Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy. • W celu weryfikacji w „obrębie” znalezionych miejsc należy znaleźć również consensus KOZAK, consensus TATA

  3. Konsensus • Sekwencja konsensusu powstaje z macierzy dopasowań stworzonej podczas dopasowania wielosekwencyjnego. Jest sposobem reprezentacji wyników, pokazującym, które z nukleotydów są najbardziej konserwatywne w dopasowaniu na każdej pozycji Oś y – Ilość informacji na każdej pozycji w sekwencji, mierzona w bitach. Oś x – pozycja w sekwencji Sequence logo

  4. Obliczanie wysokości (logo) • Informacja (y-axis) na i-tej pozycji zadana jest: • Dla aminokwasów, Ri = log2(20) − (Hi + en) • Dla nukleotydów Ri = 2 − (Hi + en) • gdzie Hi jest wielkością entropii na itej pozycji: • Gdzie fa,i jest częstością wystąpienia nukleotydu/aminokwasu na i tej pozycji • Wysokośc = fa,i * Ri • Dodatkowo jest wykorzystywana korekcja en, zadana wzorem:

  5. Tworzenie konsesnusu

  6. Frequency matrix -> position-specific scoring matrix • w = log2 ( ( f + sqrt(N) * p ) / ( N + sqrt(N) ) / p ) w = waga na każdej z pozycji f   = liczebność N = łączna liczebność ( suma w kolumnie ) p = prawdopodobieństwo, że wystąpi któryś nukleotyd ( p = 1/4 jedna z 4 możliwości, stale dla zadanego alfabetu ACGT) • FM -> PSSM A [ 2  3  4  ] A [ -0,668  -0,2497 0,0744  ]C [ 11 4  5  ] C [ 1,3428  0,07448  0,339 ]G [ 1  2  3  ] G [ -1,2613  -0,6686 -0,249 ]T  [ 1  6  3  ] T [ -1,2613  0,5625  -0,2492 ]

  7. Consensus TATA FREQUENCY MATRIX A [ 61 16 352 3 354 268 360 222 155 56 83 82 82 68 77 ] C [145 46 0 10 0 0 3 2 44 135 147 127 118 107 101 ] G [152 18 2 2 5 0 20 44 157 150 128 128 128 139 140 ] T [ 31 309 35 374 30 121 6 121 33 48 31 52 61 75 71 ] Źródło: JASPAR CORE database

  8. Consensus NFKB1  FREQUENCY MATRIX A [ 0 0 0 2 11 5 0 0 0 0 1 ] C [ 0 0 0 0 1 0 5 13 17 18 15 ] G [18 18 18 16 6 2 2 0 0 0 1 ] T [ 0 0 0 0 0 11 11 5 1 0 1 ] Źródło: JASPAR CORE database

  9. Consensus KOZAK  FREQUENCY MATRIX Źródło: http://en.wikipedia.org/wiki/Kozak_consensus_sequence A [ 50 30 17 100 0 0 30 ] C [ 12 40 45 0 0 0 20 ] G [ 30 20 28 0 0 100 43 ] T [ 8 10 10 0 100 0 7 ] Obliczenia własne

  10. Consensus HSF  Źródło: The Role of Heat Shock Transcription Factor 1 in the Genome-wide Regulation of the Mammalian Heat Shock Response□D Nathan D. Trinklein, John I. Murray, Sara J. Hartman, David Botstein,† and Richard M. Myers‡ FREQUENCY MATRIX A [ 9 4 0 0 34 0 90 97 25 25 4 6 0 0 ] C [ 14 6 100 28 14 0 4 1 25 25 6 0 100 28 ] G [ 0 0 0 12 42 100 6 2 25 25 0 0 0 12 ] T [ 77 90 0 60 14 0 0 0 25 25 90 94 0 60 ] Obliczenia własne

  11. Genom referencyjny człowieka

  12. Tworzenie zapytań Interface graficzny w trakcie tworzenia Przykład 1 • profile.min.weight.percent=0.5 • profile.file=TATA,NFkB,HSF1,KOZAK,1000 Przykład 2 • profile.min.weight.percent= TATA,0.7 • profile.min.weight.percent= NFkB,0.4 • profile.min.weight.percent= 0.8 • profile.file=TATA,NFkB, 49 • profile.file=NFkB, KOZAK,1000 • profile.file=NFkB,HSF1,250

  13. Przetwanianie równoleg(parallel processing) • Wczytywanie danych po stronie klienta/servera • Wywoływanie zadań wyszukujących konsensus • Zbieranie wyników • Wyszukiwanie konsensusu

  14. Przetwarzanie rozproszone (distributed processing) • Client zarządca • Rozsyłanie zadań do listy serwerów • Zbieranie wyników JAVA Remote Method Invocation (RMI)

  15. FindConsensus Architektura • Dodawanie kolejnych zadań • interface Task • class TaskThread • class CallThread • class TaskMain

  16. Kontrolowanieprzetwarzania • Zmiana parametrów przetwarzania tylko po stronie klienta • maksymalna liczba zadań wysłana do serwera • maksymalna liczba wątków na które zadanie podzieli serwer

  17. Wyszukane miejsca Plik Cons. Pozycja Znaleziony konsensus Procent podobieńst. chr1.fa TATA 000000751185 CTATAAAAGGCTGGG 0.9181231365232926 chr1.fa NFkB 000000353757 GGGGGTTCCCC 0.9535948363631707 chr1.fa NFkB 000001133537 GGGGGTTCCCC 0.9535948363631707 chr1.fa NFkB 000001337194 GGGGATCCCCC 0.9403582823276164 chr1.fa NFkB 000001970465 GGGGATTTCCC 0.927060010250697 chr1.fa KOZAK 000001002722 ACCATGG 1.0 chr1.fa KOZAK 000001020889 ACCATGG 1.0 chr1.fa KOZAK 000001027846 ACCATGG 1.0 chr1.fa HSF1 000218913800 TTCTTGAAGGTTCT 0.925472561340041 Przykładowe wyniki:

  18. Wyszukane miejsca Przykładowe wyniki: HSF1 18521971 TTCTGGAACCTTCT 1,000 NFkB 18521469 GGGGAATTCCC 0,867 Odstęp między 502 pozycji NFkB 229269807 GGGGCTTCCCC 0,847 HSF1 229269412 TTCTAGAAACTTCT 0,985 Odstęp między 395 pozycji NFkB 33516367 GGGGATGCCCC 0,881 HSF1 33516006 TTCTGGAATTTTCC 0,946 Odstęp między 361 pozycji NFkB 224306741 GGGGATCTCCC 0,867 HSF1 224306625 TTCTGGAAAATTCC 0,946 Odstęp między 116 pozycji

  19. Wstępne porównanie czasów • Test przeprowdzony na danych: Chromosom 1 • Klient 2 rdzeniowy 1.66 • Serwer4 rdzeniowy 2.8

  20. Dalsze prace • Zaimplemtowanie zrównoleglonych algorytmów dla problemu wyszukiwania motywów (NP-zupełny) • Metody oparte o PSSM (alignment) • Gibbs Sampling • Expectation Maximization • Inne metody • HMMs • Bayesian methods • enumerative (combinatorial)

  21. Inni też szukają motywów

More Related