150 likes | 273 Views
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習. 情報科学科 4 年 81025G 蓬来祐一郎. 研究対象. 経験的なタンパク質の構造予測方法である タンパク質スレッディング. 特定のスコア関数で最適スレッディングを求める Branch-and-bound アルゴリズムの実装と改良 SVM によるスコア関数の学習. 研究の動機. タンパク質の構造決定はアミノ酸配列の決定より困難 遺伝子の機能の予測 抗生物質など薬剤の設計への期待. 研究の背景. タンパク質の構造には 1000 種類程度の
E N D
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎
研究対象 経験的なタンパク質の構造予測方法である タンパク質スレッディング • 特定のスコア関数で最適スレッディングを求めるBranch-and-boundアルゴリズムの実装と改良 • SVMによるスコア関数の学習
研究の動機 • タンパク質の構造決定はアミノ酸配列の決定より困難 • 遺伝子の機能の予測 • 抗生物質など薬剤の設計への期待
研究の背景 • タンパク質の構造には1000種類程度の 多様性しかないという予測[Chothia92] • タンパク質の構造データの蓄積(PDB)[Bernstein76] • タンパク質スレッディングのモデル • 最適スレッディングを求める効率的なBranch-and-bound Algorithm[Lathrop96,99] • 統計的スコア関数[Miyazawa85]
タンパク質スレッディング ×1 ×3 ×2 ×1 ×1 ×1 ×1 ×1 ×1 T A ? A ? A ? T ? A S D 相互作用 M S ? M ? S ? D ? T S A S A D A M コア1 コア2 K E T A A A K F E R Q H M D S S T S A A
×1 ×3 ×2 ×1 ×1 ×1 ×1 ×1 ×1 T A S D M T S A S A D A M スコア関数
学習データ アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY LDEIYDFMDLLVAQ コア部分の 実際の アミノ酸配列
サポートベクターマシン 超平面 最大マージン サポートベクター
スコア関数の評価 • アミノ酸配列をそれ自身の構造に割り当て最適スレッディングと実際のスレッディングを比較 • Branch-and-bound Algorithm • ギャップを許したタンパク質スレッディングで最適のアラインメントを求める問題は、NP困難 • 探索空間をスコアのlower boundを求めながら分割していき、最適解を探す
スレッディングエラー アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY LDEIYDFMDLLVAQ コア部分の 実際の アミノ酸配列
問題点 • 既存のスコア関数とあまり変わらない • 現在のモデルは単純すぎたかもしれない • 学習に使ったタンパク質のデータが少なかった • 二次計画問題を解くので、あまりデータを多くできない
今後の課題 • よりリアルなスレッディングモデル • より多くのタンパク質構造からの学習 • より高速なスレッダー