230 likes | 370 Views
生命情報学入門 配列のつなぎ合わせと再編成. 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター. 講義予定. 5 月 24 日 : タンパク質立体構造予測法 5 月 31 日 : タンパク質立体構造予測演習 6 月 7 日 : 機械学習を用いたタンパク質の分類法 6 月 14 日 : タンパク質の分類法演習 6 月 21 日 : 配列のつなぎ合わせと再編成. 講義の内容. 配列のつなぎ合わせ 等長断片からの配列決定 最短共通拡大文字列 ゲノム再編成 逆位によるソーティング(符号なしの場合) 逆位によるソーティング(符号ありの場合).
E N D
生命情報学入門配列のつなぎ合わせと再編成 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
講義予定 • 5月24日:タンパク質立体構造予測法 • 5月31日:タンパク質立体構造予測演習 • 6月7日:機械学習を用いたタンパク質の分類法 • 6月14日:タンパク質の分類法演習 • 6月21日:配列のつなぎ合わせと再編成
講義の内容 • 配列のつなぎ合わせ • 等長断片からの配列決定 • 最短共通拡大文字列 • ゲノム再編成 • 逆位によるソーティング(符号なしの場合) • 逆位によるソーティング(符号ありの場合)
配列のつなぎあわせ • ゲノム配列の決定 • 32億文字を一度に決めるのは無理 • (制限酵素を使って)短く切って、つなぎ合わせる CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA 元の配列 酵素を使って切断 CTCACTCAAAGGCGGTAA GGTAATACGGTTATCCAC TATCCACAGAATCAGGGGATAA つなぎあわせ CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA
問題の定式化 データ: 同じ長さの配列断片 問題: それぞれの配列断片のみがちょうど1回づつ 出てくるような配列はあるか? ACA ACA ACT ACT ACACTG CAC CAC CTG CAG なし
一筆書きとオイラー • オイラーの定理(有向グラフ版) • 次のどちらかの条件を満たす時、一筆書きができる • (a) どの点についても • 入って来る矢印の数 = 出て行く矢印の数 • (b) 2点以外は上と同じで、残りの点は、それぞれ以下を満たす • 入って来る矢印の数 = 出て行く矢印の数-1 • 入って来る矢印の数-1 = 出て行く矢印の数 (a) (b)
オイラーパス問題への変換 • 最初の2文字に対応する点から、最後の2文字に対応する点に矢印を引く。 一筆書きできれば解あり、できなければ解なし AAC データ AAA, AAC, ACC, CAA, CAC, CCA, CCC AAA A A A C CAC ACC CAA C A C C CCC CCA CAAACCCAC
例題の解答 AC CA CT TG ACA ACA ACT ACT CAC CAC CAG CTG AC CA CT AG ただし、実際には誤りがあったり、断片の長さが同じではないので、 このままでは使えない。様々な工学的な工夫が必要
問題の定式化 データ: 配列断片 問題: それぞれの配列断片を(重なりありで)つなぎわせてできる一番短い文字列を見つけよ ACGTACAGTCAG 12文字 ACGT GTAC GTCAG CAGT 10文字で 最短 GTACGTCAGT
問題の解き方(1) 着目点:断片の並べ方を決めると(その順番での)最短拡大文字列が一意に決まる(なるべく左につめるようにつなげていく) ⇒ 並び方をみつければ良い pref(a,b): 断片 aの後に断片 bをつなげた時のaの中で bと重ならない部分の長さ ovlp(a,b):断片 aの後に断片 b をつなげた時の aと bの重なっている部分の長さ b = GTCAG a = CAGTC CAGTC ovlp(a,b)=3 GTCAG pref(a,b)=2
問題の解き方(2) 断片の並べ方(s1,s2,s3,…,sn)を決めた後の 最短拡大文字列の長さ = prefの総和 +ovlp(sn,s1) GTAC s1 pref(si,si+1) s2 ACGT ovlp(sn,s1) s3 GTCAG s4 CAGT GTAC s1 GTACGTCAGT
巡回セールスマン問題への変換 s2 ACGT 2 5 (=pref(GTCAG, ACGT)) 2 2 4 s1 GTAC GTCAG s3 4 4 4 2 2 3 4 (=pref(GTAC, CAGT)) CAGT s4 2+2+2+2+ovlp(CAGT,GTAC)=10 GTACGTCAGT
等長断片の場合との比較 等長断片の場合 ・オイラーパス(一筆書き)問題へ変換 ・すべての辺をちょうど1回通る ・効率良く計算可能 拡大最短共通文字列の場合 ・巡回セールスマン問題へ変換 ・すべての頂点をちょうど1回通る ・効率の良い計算は難しい(NP困難)
ゲノム再編成 • ゲノムの概要構造は染色体の融合・分裂や部分配列の大規模な逆位・転座・重複により進化 • 二種類の生物を比較して進化の過程を復元
逆位によるソーティング(符号なしの場合) • ゲノム構造: 1からnまでの数字の順列 • 逆位:連続した部分列を反転 • 問題:与えられた順列を (1,2,3,4,…,n) にするための最短の逆位系列を計算 2 3 6 4 1 5 5 5 6 6 1 1 4 2 3 3 2 4 2 3 1 4 6 5
逆位によるソーティング(符号ありの場合) • ゲノム構造: 1からnまでの数字の順列。ただし、各数字は符号(遺伝子の方向)がつく • 逆位:反転した場合、符号も反転 1 -5 4 -3 2 キャベツ 5 2 1 4 3 1 -5 4 -3 -2 1 -5 -4 -3 -2 カブ
逆位によるソーティング • 符号ありの場合 • 高速に計算可能 • でも、アルゴリズムはかなり複雑 • 符号なしの場合 • 高速な計算は難しい(NP困難) • 転座、重複などを許した様々なパターンの問題が研究されている
まとめ • 等長断片のつなぎ合わせ • ⇒ 一筆書きへの変換 • 拡大最短共通文字列 • ⇒ 巡回セールスマン問題への変換 • ゲノム再編成 • ⇒ 最小回数の逆位による順列の • 並び換え(ソーティング)