380 likes | 822 Views
生命情報学入門 タンパク質立体構造予測法 20 11 年 5 月 24 日. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. 本日の内容. 構造予測に関連する基本事項 立体構造予測法の分類 スレッディング法 3 D-1D プロファイル ポテンシャル型スコア関数を用いたスレッディング CASP まとめ. タンパク質立体構造予測. アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 実験よりは、はるかに精度が悪い だいたいの形がわかれば良いのであれば、4~5割近くの予測率. アミノ酸とタンパク質.
E N D
生命情報学入門タンパク質立体構造予測法2011年5月24日生命情報学入門タンパク質立体構造予測法2011年5月24日 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
本日の内容 • 構造予測に関連する基本事項 • 立体構造予測法の分類 • スレッディング法 • 3D-1Dプロファイル • ポテンシャル型スコア関数を用いたスレッディング • CASP • まとめ
タンパク質立体構造予測 • アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 • 実験よりは、はるかに精度が悪い • だいたいの形がわかれば良いのであれば、4~5割近くの予測率
アミノ酸とタンパク質 • アミノ酸:20種類 • タンパク質:アミノ酸の鎖(短いものはペプチドと呼ばれる)
タンパク質の種類と高次構造 • タンパク質の分類 • 球状タンパク質 • 繊維状タンパク質 • 膜タンパク質 • 一次構造(アミノ酸配列) • 二次構造(α、β、それ以外(ループ、コイル)) • 三次構造(三次元構造、立体構造) • 四次構造(複数の鎖)
タンパク質立体構造の決定 • 主にX線結晶解析かNMR解析による • 一般にX線解析の方が精度が高い • しかし、結晶中の構造しかわからない • アミノ酸配列決定より困難 • 半年から1年くらいかかることも珍しく無い • 既知アミノ酸配列 >> 10万 • 既知立体構造 < 数万
タンパク質立体構造の特徴 • 基本的には鎖(ひも)状 • 二種類の特徴的な構造が頻繁に現れ、立体構造の骨格(コア)を作る • αへリックス(らせん状の部分) • βシート(ひも状の部分が並んだ部分)
構造とアミノ酸の種類の関係 • (球状)タンパク質 • 内側:疎水性アミノ酸 外側:親水性アミノ酸 • αへリックス • 内側:疎水性 外側:親水性 • βストランド • 疎水性と親水性が交互に現れる • ループ領域 • 親水性が高い
立体構造データベース • PDB(Protein Data Bank ) • タンパク質立体構造データベース • 2011年5月10日現在約73009データ(ただし重複あり) • SCOP • 立体構造分類データベース • FSSP/DALI • 立体構造アライメントデータベース/アライメントサーバー
タンパク質立体構造の分類 • 構造分類の必要性 • 立体構造と機能の間には密接な関係 • 配列が似ていなくても構造類似のタンパク質が多数存在 • SCOPによる階層的クラス分け • Class: 二次構造の組成(α、β、α+βなど)に基づく分類 • Fold: 構造の類似性← スレッディング法の対象 • Superfamily: 進化的類縁性 • Family: 明らかな進化的類縁性
立体構造予測法の分類 • 物理的原理に基づく方法 • ホモロジーモデリング • 格子モデル • 2次構造予測 • スレッディング
物理的原理に基づく方法 • エネルギー最小化、もしくは、微分方程式を(数値的に)解く、などの物理的原理に基づく方法 • 主として分子動力学法(Molecular Dynamics) • 数十残基程度であれば、実際のタンパク質やペプチドと似た構造を推定可能(なことがある) • 構造の最適化や安定性の解析には実用的 ⇒ ホモロジーモデリング 主鎖をアラインメントで計算した後に 側鎖構造などを最適化
格子モデル • 各残基が格子点にあると仮定 • 予測よりも、フォールディングの定性的な理解のために利用される
親水性アミノ酸 疎水性アミノ酸 スコア =-9 スコア =-5 配列 格子モデルに基づく研究 • 折れ畳み経路のシミュレーションによる定性的理解 →フォールディングファンネル • エネルギー最小の構造の計算法→NP困難
二次構造予測 • アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測 • でたらめに推定しても、33.3%の的中率 • 最も高精度なソフトを使えば、70%~80%の的中率 • ニューラルネット、HMM、サポートベクタマシンなどの利用
膜タンパク質の膜貫通領域予測 • 膜貫通領域 • αへリックス • 7~17残基程度の疎水性指標の平均値をプロット • 平均値が高い部分が膜貫通領域と推定
フォールド予測(Fold Recognition) • 精密な3次元構造ではなく、だいたいの形(fold)を予測 • 立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく
タンパク質スレッディング 立体構造(テンプレート)とアミノ酸配列の間のアライメント
スレディング法の分類 • プロファイルによるスレッディング • PSI-BLAST • 3D-1D法 • 構造アライメント結果に基づくスレッディング • 残基間ポテンシャルによるスレッディング • コンタクトポテンシャル • 距離依存ポテンシャル • その他のポテンシャル
プロファイル • アライメントにおけるスコア行列と類似 • スレッディングの場合、残基位置ごとにスコア(位置依存スコア)
プロファイルによるアライメント • 動的計画法(DP)により最適解を計算 • スコア行列のかわりにプロファイルを使う
3D-1Dプロファイル • 最初のversionはEisenbergらが1991年に提案 • 構造中の残基(位置)を18種類の環境に分類 • 二次構造(3種類) • 内外性+極性(6種類)
その他のプロファイル • 配列のマルチプルアライメントに基づくプロファイル • PSI-BLAST、HMM • 立体構造のマルチプルアライメントに基づくプロファイル作成 • 角度情報なども考慮したプロファイル • プロファイル vs プロファイルによるアライメント
ポテンシャル型スコア関数を用いたスレッディングポテンシャル型スコア関数を用いたスレッディング • 全体のポテンシャルエネルギーを最小化(Σfd(X,Y)が最小となるようなスレッディングを計算) • 精度向上が期待できる • でも計算時間が問題
プロファイル型スコア関数とポテンシャル型スコア関数プロファイル型スコア関数とポテンシャル型スコア関数 • プロファイル型スコア関数 (Eisenberg et al. 1991) • ポテンシャル型スコア関数 (Miyazawa, Sippl, . . .)
フラグメント・アセンブリ法 • Univ. Washington の Baker らが開発 • 現時点では最強の方法と考えられている 方法 • 数残基から十数残基の断片構造をプロファイル比較法などを用いて既知構造データベースから取得 => 各断片配列ごとにいくつかの候補を選ぶ • フラグメントをつなぎ合わせることにより全体構造を予測。つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う
立体構造予測におけるブレークスルー • スレッディング法の発明(Eisenberg et al., 1991) • 構造既知の配列と類似性が無い配列の構造予測 • PSI-BLASTの開発(Altschul et al, 1997) • プロファイルに基づくマルチプルアライメントの繰り返し実行によるスレッディング • David Baker による ab initio 予測(1997) • 統計情報+シミュレーション
立体構造予測コンテスト:CASP • CASP (Critical Assessment of Techniques for Protein Structure Prediction) • ブラインドテストにより予測法を評価 • 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開 • 参加者は予測結果を送付 • 構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表 • CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000), CASP5(2002), CASP6(2004), CASP7(2006), CASP8(2008), CASP9(2010) • CAFASP(1998,2000,2002,2004,2006) • 完全自動予測法の評価 • 結果の公表 • 会議 • ホームページ • http://predictioncenter.gc.ucdavis.edu/ • 学術専門誌(Proteins)
まとめ • 立体構造予測 • 正確な座標は予測できない • だいたいの形の予測であれば4~5割近く • タンパク質スレッディング法が有力 • 近年では、フラグメントアセンブリー法が有力 • 二次構造予測であれば、70%-80%程度
参考文献 • 阿久津達也:バイオインフォマティクスの数理とアルゴリズム、共立出版、2007. • 丸山修、阿久津達也:バイオインフォマティクス –配列データ解析と構造予測、朝倉書店、2007. • 藤博幸:タンパク質機能解析のためのバイオインフォマティクス、共立出版、2004.