1 / 15

情報科学科 4 年 81025G 蓬来祐一郎

サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習. 情報科学科 4 年 81025G 蓬来祐一郎. 研究対象. 経験的なタンパク質の構造予測方法である タンパク質スレッディング. 特定のスコア関数で最適スレッディングを求める Branch-and-bound アルゴリズムの実装と改良 SVM によるスコア関数の学習. 研究の動機. タンパク質の構造決定はアミノ酸配列の決定より困難 遺伝子の機能の予測 抗生物質など薬剤の設計への期待. 研究の背景. タンパク質の構造には 1000 種類程度の

kueng
Download Presentation

情報科学科 4 年 81025G 蓬来祐一郎

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎

  2. 研究対象 経験的なタンパク質の構造予測方法である タンパク質スレッディング • 特定のスコア関数で最適スレッディングを求めるBranch-and-boundアルゴリズムの実装と改良 • SVMによるスコア関数の学習

  3. 研究の動機 • タンパク質の構造決定はアミノ酸配列の決定より困難 • 遺伝子の機能の予測 • 抗生物質など薬剤の設計への期待

  4. 研究の背景 • タンパク質の構造には1000種類程度の 多様性しかないという予測[Chothia92] • タンパク質の構造データの蓄積(PDB)[Bernstein76] • タンパク質スレッディングのモデル • 最適スレッディングを求める効率的なBranch-and-bound Algorithm[Lathrop96,99] • 統計的スコア関数[Miyazawa85]

  5. タンパク質スレッディング ×1 ×3 ×2 ×1 ×1 ×1 ×1 ×1 ×1 T A ? A ? A ? T ? A S D 相互作用 M S ? M ? S ? D ? T S A S A D A M コア1 コア2 K E T A A A K F E R Q H M D S S T S A A

  6. ×1 ×3 ×2 ×1 ×1 ×1 ×1 ×1 ×1 T A S D M T S A S A D A M スコア関数

  7. 学習データ アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY LDEIYDFMDLLVAQ コア部分の 実際の アミノ酸配列

  8. サポートベクターマシン 超平面 最大マージン サポートベクター

  9. スコア関数の評価 • アミノ酸配列をそれ自身の構造に割り当て最適スレッディングと実際のスレッディングを比較 • Branch-and-bound Algorithm • ギャップを許したタンパク質スレッディングで最適のアラインメントを求める問題は、NP困難 • 探索空間をスコアのlower boundを求めながら分割していき、最適解を探す

  10. スレッディングエラー アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY LDEIYDFMDLLVAQ コア部分の 実際の アミノ酸配列

  11. スコア関数の精度

  12. 特化スコア関数(1)

  13. 特化スコア関数(2)

  14. 問題点 • 既存のスコア関数とあまり変わらない • 現在のモデルは単純すぎたかもしれない • 学習に使ったタンパク質のデータが少なかった • 二次計画問題を解くので、あまりデータを多くできない

  15. 今後の課題 • よりリアルなスレッディングモデル • より多くのタンパク質構造からの学習 • より高速なスレッダー

More Related