por wnywanie sekwencji bia kowych z wykorzystaniem metody ewolucyjno progresywnej n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej PowerPoint Presentation
Download Presentation
Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej

Loading in 2 Seconds...

play fullscreen
1 / 28

Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej - PowerPoint PPT Presentation


  • 216 Views
  • Uploaded on

Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej. Paweł Kupis Jacek Mańdziuk. Biologiczna geneza problemu. białko ( polipeptyd ) polimer liniowy aminokwasowy monomery – aminokwasy 20 rodzajów aminokwasów pierwszorzędowa struktura protein

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej' - wyndham


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
por wnywanie sekwencji bia kowych z wykorzystaniem metody ewolucyjno progresywnej

Porównywanie sekwencji białkowychz wykorzystaniem metodyewolucyjno-progresywnej

Paweł Kupis

Jacek Mańdziuk

biologiczna geneza problemu
Biologiczna geneza problemu
  • białko (polipeptyd)
    • polimer liniowy aminokwasowy
    • monomery – aminokwasy
      • 20 rodzajów aminokwasów
    • pierwszorzędowa struktura protein
      • sekwencjabiałkowa
      • kolejność aminokwasów
      • polaryzacja (kierunek czytania sekwencji)
biologiczna geneza problemu1
Biologiczna geneza problemu
  • przykład
    • HBA_HUMAN(prefix ludzkiej hemoblobiny)

VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

por wnywanie sekwencji
Porównywanie sekwencji
  • problem
    • trudno wyznaczyć kryterium porównywania
  • pomysł
    • ilość identycznych pozycji w sekwencjach o identycznej długości
  • rozwiązanie
    • uliniowienie sekwencji
uliniowienie sekwencji
Uliniowienie sekwencji
  • uliniowienie sekwencji (ang. sequence alignment)
  • warunki
    • n-ty wiersza po usunięciu znaków ‘-‘daje n-tą sekwencję
    • długość wszystkich wierszy uliniowienia jest jednakowa
    • żadna kolumna uliniowienia nie zawiera tylko znaków ‘-‘

CA-GCUUAUCGCUUAG

AAUGCAU-UGACG--G

uliniowienie wielu sekwencji
Uliniowienie wielu sekwencji
  • MSA (ang. multiple sequence alignment)
  • warunki
    • n-ty wiersza po usunięciu znaków ‘-‘daje n-tą sekwencję
    • długość wszystkich wierszy uliniowienia jest jednakowa
    • żadna kolumna uliniowienia nie zawiera tylko znaków ‘-‘
    • takie same jak dla uliniwienia dwóch sekwencji

LGB2_LUPLU VPQ--NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSK-GVADAHFPV

MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKG--HHEAELKPLAQS---HATKHKIPIKYLEF

GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMD--DTEKMSMKLRDLSGKHAKSFQVDPQYFKV

HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFATLSEL---HCDKLHVDPENFRL

HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLD--NLKGTFAALSEL---HCDKLHVDPENFRL

HBA_HUMAN -----GSAQVKGHGKKVADALTNAVAHVD--DMPNALSALSDL---HAHKLRVDPVNFKL

HBA_HORSE -----GSAQVKAHGKKVGDALTLAVGHLD--DLPGALSNLSDL---HAHKLRVDPVNFKL

. .:: *. : . * : * . : : .

metoda ewolucyjno progresywna
Metoda ewolucyjno-progresywna
  • metoda 2-etapowa
  • etap 1. - ewolucyjny
    • dopasowywanie kolumn całkowicie identycznych
    • znajdowanie optymalnego tzw. „wstępnego uliniowienia”
    • etap wykonywany rekurencyjnie
  • etap 2. - progresywny
    • uliniowienie obszarów między kolumnamizidentyfikowanymi w etapie 1.
etap ewolucyjny
Etap ewolucyjny

dopasowywanie kolumn całkowicie identycznych, przykład:

wszystkie możliwe kolumny zgodne

etap ewolucyjny1
Etap ewolucyjny

blok kolumn identycznych

  • kolumny tworzą blok jeśli we wszystkich wierszach różnica w indeksach wynosi jeden (większy indeks – mniejszy indeks)
  • blok może mieć dowolną długość
    • w szczególności pojedynczą kolumną również można traktować jako blok
etap ewolucyjny2
Etap ewolucyjny

wstępne uliniowienie

  • szereg bloków spełniający następujące warunki
    • dowolny indeks może wystąpić w wierszu tylko raz
    • w każdym wierszu indeksy są w porządku rosnącym
  • powyższe warunki gwarantują, że na podstawie wstępnego uliniowienia można zbudować pełne uliniowienie (zachowując ustalone kolumny identyczne)
etap ewolucyjny3
Etap ewolucyjny

kolumny szkodliwe

  • intuicyjnie możemy określić taką kolumnę jako łączącą „zbyt” odległe części różnych sekwencji
  • kolumna taka, uniemożliwia bardzo często lepsze dopasowanie innych kolumn identycznych
etap ewolucyjny4
Etap ewolucyjny
  • bliskie optymalnemu uliniowienie z wymuszeniem uzgodnienia kolumny symboli T
  • uliniowienie tych samych sekwencji bez uzgadnianie symboli T
etap ewolucyjny5
Etap ewolucyjny
  • zadania algorytmu ewolucyjnego
    • znalezienie optymalnego wstępnego uliniowienia
  • budowa populacji startowej
    • czas budowy musi być „kontrolowalny”
    • wprowadzenie to populacji startowej reprezentatywnego podzbioru możliwych kolumn identycznych
      • użycie wszystkich (z wszystkich części sekwencji) symboli z sekwencji
    • unikanie szkodliwych kolumn
      • ew. późniejsza ich eliminacja
budowa populacji startowej
Budowa populacji startowej
  • metodę charakteryzują dwa podstawowe parametry
    • cmax – górny limit (w przybliżeniu) ilości zidentyfikowanych kolumn identycznych
    • w% – szerokość tzw. „okna przeszukiwania”
      • symbole tworzące kolumnę identyczną nie mogą pochodzić z dowolnych części sekwencji
      • każdy symbol pochodzi z aktywnego okna przeszukiwania danej sekwencji
budowa populacji startowej1
Budowa populacji startowej
  • względna długość okna przeszukiwania (w stosunku do dł. sekwencji) jest taka sama dla wszystkich sekwencji
  • analogicznie względna pozycja środka okna (względem początku sekwencji)
  • z każdego okna, losowo, wybierany jest jeden symbol
  • jeśli wszystkie symbole są identyczne, tworzona jest kolumna identyczna
    • nie jest sprawdzana unikalność kolumny
  • czynność jest wykonywana razy dla każdego symbolu (okna szerokości jednego symbolu) wyróżnionej sekwencji
    • gdzie m – dł. wyróżnionej sekwencji (np. najkrótszej)
budowa populacji startowej2
Budowa populacji startowej
  • zbieranie informacji (tworzenie wstępnych uliniowień)

A – zbiór kolumn identycznych (porządek odnajdywania)

P – populacja startowa, początkowo pusta

cp – nominalny rozmiar populacji startowej

algorytm ewolucyjny
Algorytm ewolucyjny
  • populacja startowa (cmax=4000, w%=0.04)
    • cp = (ma * n) / 10, ma – śr. dł. sekwencji, n – ilość sekwencji
    • cp >= 100 oraz cp <= 400
  • tylko jeden operator genetyczny - krzyżowanie
algorytm ewolucyjny1
Algorytm ewolucyjny
  • krzyżowanie
    • jednopunktowe
    • losowe punkty cięcia (możliwe przed pierwszym i za ostatnim blokiem)
    • punkt cięcia nigdy nie rozdziela bloku
    • po wymianie informacji sprawdzana jest możliwość złączenia bloków sąsiadujących z punktem cięcia
    • „lepszy” z potomków musi być lepszy od obojga rodziców
    • domyślne prawdopodobieństwo krzyżowania = 0.4
algorytm ewolucyjny2
Algorytm ewolucyjny
  • funkcja przystosowaniacol(p) – ilość kolumn identycznych w osobniku plenmin(p) – minimalna długość uliniowienia powstałego na podstawie uliniowienia wstępnego reprezentowanego przez osobnika pα – wykładnik określający istotność karania na powstawanie nadmiernie długich uliniowień (=20)
algorytm ewolucyjny3
Algorytm ewolucyjny
  • jeśli i-ty blok wstępnego uliniowienia p oznaczymy jako bito funkcja lenmin(p) wyraża się wzorem
algorytm ewolucyjny4
Algorytm ewolucyjny
  • warunki stopu
    • przystosowanie najlepszego osobnika nie zmieniło się od 40 generacji
    • osiągnięto limit 1000 generacji
  • wywołania rekurencyjne dla obszarów między blokami (w najlepszym z osobników)
  • koniec rekurencji
    • alg. ewolucyjny nie znalazł żadnej kolumny identycznej
    • minimalna odległość między danymi blokami jest <= 20
algorytm progresywny
Algorytm progresywny
  • uruchamiany dla obszarów między blokami zidentyfikowanymi przez alg. ewolucyjny
  • implementacja zbliżona do ClustalW
    • drzewo filogenetyczne budowane metodą neighbor-joining (z ukorzenianiem metoda mid-point rooting)
algorytm progresywny1
Algorytm progresywny
  • uliniawianie par metodą Myersa-Millera
    • przystosowanie do uliniawiania uliniowień
    • przystosowanie do afinicznej kary za wprowadzane przerwy
      • kara k(w) = GOP + w*GEP, w – dł. Wprowadzonej przerwy
    • kary za wprowadzanie przerw zależne od pozycji w sekwencji (funkcyjny opis parametrów kary afinicznej)
    • stosowanie macierzy substytucji (automatyczny dobór w zależności do odległości sekwencji w drzewie filogenetycznym)
testy
Testy
  • Na podstawie referencyjnych baz BAliBASEbazy udostępniają zarówno testowe zestawy sekwencji, jak i gotowe uliniowienia tych zestawów
ocena uliniowienia
Ocena uliniowienia
  • miara SPS (Sum-of-Pair Score), N - ilość sekwencji, n - długość uliniowienia danej pary sekwencji, m - ilość przerw w uliniowieniu pary sekwencji
  • miara CS (Column Score)
    • ilość kolumn identycznych w stosunku do dł. uliniowienia
  • wszystkie wyniki podawane są jako średni stosunek miar w odniesieniu do rezultatów dla uliniowień z bazy referencyjnej
koniec
Koniec
  • Pytania?
  • Sugestie

Dziękuje za uwagę