290 likes | 376 Views
SVM を用いた生体分子への 金属結合部位予測手法の提案. 中澤昌美 ✝ 高田雅美 ✝ 横田恭宣 * 野口保 * 関嶋政和 * 城和貴 ✝ ✝奈良女子大学大学院人間文化研究科 * 産業技術総合研究所生命情報工学研究センター. 目次. 金属タンパク質 立体構造解析手法 Protein Data Bank (PDB) Support Vector Machine (SVM) 金属結合予測手法 実験 まとめ. 金属タンパク質. 金属タンパク質 = タンパク質 + 金属イオン 金属イオンの働き. フォールディング 補酵素. 1A0B.
E N D
SVMを用いた生体分子への金属結合部位予測手法の提案SVMを用いた生体分子への金属結合部位予測手法の提案 中澤昌美✝高田雅美✝ 横田恭宣* 野口保* 関嶋政和* 城和貴✝ ✝奈良女子大学大学院人間文化研究科 * 産業技術総合研究所生命情報工学研究センター
目次 • 金属タンパク質 • 立体構造解析手法 • Protein Data Bank (PDB) • Support Vector Machine (SVM) • 金属結合予測手法 • 実験 • まとめ
金属タンパク質 金属タンパク質 = タンパク質 + 金属イオン 金属イオンの働き • フォールディング • 補酵素 1A0B 1PPT 2AC3
Calmodulin Caイオンの濃度 低 高 • Caイオンを含む • 不活性酵素が結合し活性化 • Caイオンを含まない • 不活性酵素が結合しない Ca2+/calmodulin 構造変化 Caイオンと結合しない状態 (1DMO) Caイオンと結合した状態(3CLN)
タンパク質の解析手法 タンパク質の立体構造の解析手法 コンピュータによる解析 • NMR (Nuclear Magnetic Resonance) • X線結晶構造解析 莫大な費用と時間が必要 • 実験設定が容易 • ターンアラウンドタイムの短縮
コンピュータによる解析の問題点 タンパク質の立体構造が未決定 金属イオンのポテンシャル関数が不完全 コンピュータシミュレーションが困難 他のアプローチを用いたソフトウェアが必要
アプローチ 三次構造から一次構造へ PDPID: 1PPT ARG – CYS – THR – HIS – TYP – ALA – GLY – SER – PRO – GLN – GLN – LEU – CYS – ARG – PRO – MET – PRO – HIS – ARG – LEU – GLN – CYS – TYP – SER アミノ酸配列 (タンパク質の一次構造) タンパク質の立体構造
解析手法 • 三次元座標データ • アミノ酸配列 • 文献情報 • 熱揺らぎに関する情報 • 解像度 Protein Data Bank (PDB) • タンパク質と核酸の三次元立体構造データベース • 解析手法:NMR,X線結晶構造解析など • 登録数は指数関数的に増加 (現在約55,000) PDBファイルの情報
Support Vector Machine (SVM) • Vapnikらによって提案 • 2クラス分類を行う学習機械 • 線形分離不可能でも高い認識率 • ソフトマージン • 少しの誤りを許可 • カーネルトリック • 高次元空間に写像 分離超平面 マージン サポートベクター
金属結合の予測手法 • PDBから対象となるPDBファイルを抽出 • 学習データファイル作成 • 学習 → モデルファイル生成 • 予測 PDB file 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB(Protein Data Bank) Model file
金属結合の予測手法 • PDBから対象となるPDBファイルを抽出 • 学習データファイル作成 • 学習 → モデルファイル生成 • 予測 PDB file 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB(Protein Data Bank) Model file
PDBファイルの抽出条件 • モノマー • X線結晶構造解析 • 部位特異的変異なし • 天然アミノ酸のみで構成 • 金属イオンを含んで解析 野生型の立体構造に 与える影響のみを考慮 したPDBファイルが抽出 PDB file 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB(Protein Data Bank) Model file
金属結合の予測手法 • PDBから対象となるPDBファイルを抽出 • 学習データファイル作成 • 学習 → モデルファイル生成 • 予測 PDB file 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB(Protein Data Bank) Model file
金属 α炭素原子 distance 学習データファイル作成手法 • 「結合距離を満たすデータ」 • 金属との距離がある一定の距離以内にα炭素原子が存在する残基を結合すると仮定 • 「PDBの結合情報データ」 • PDBファイルのCONECT行にある結合情報を基にデータ作成
distance 結合距離による学習データファイル作成手法 (1/2) • 金属イオンとα炭素原子の座標を取得 • 金属イオン-α炭素原子間の距離を計算 • 結合条件距離を設定 Metal atom Alpha carbon atom (M_x, M_y, M_z) (Cα_x, Cα_y, Cα_z)
: 抽出する残基 : 抽出しない残基 結合距離による学習データファイル作成手法 (2/2) • 条件を満たす残基とその前後の数残基を抽出 • アミノ酸の種類ごとにカウント • アルファベット順に並べ替え (特徴ベクトル) • 学習データファイルに出力 ALA:0, ARG:2,・・・, GLX:0 HIS ARG CYS PHE GLN ARG SER MET 学習データファイル ALA 1:0 2:2 …21:0 22:0 1:0 2:1 …21:0 22:1 1:0 2:1 …21:0 22:0 PHE 金属イオン TRP TRP
結合情報による学習データファイル作成手法 • 金属イオンと結合原子のシリアルナンバーを取得 • 結合原子が含まれる残基の番号を取得 • 結合残基とその前後の数残基を抽出 • アミノ酸の種類ごとにカウント • アルファベット順に並べ替え • 学習データファイルに出力 学習データファイル 1:0 2:2 …21:0 22:0 1:0 2:1 …21:0 22:1 1:0 2:1 …21:0 22:0
金属結合の予測手法 • PDBから対象となるPDBファイルを抽出 • 学習データファイル作成 • 学習 → モデルファイル生成 • 予測 PDB file 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB(Protein Data Bank) Model file
金属結合の予測手法 • PDBから対象となるPDBファイルを抽出 • 学習データファイル作成 • 学習 → モデルファイル生成 • 予測 PDB file 抽出 予測 学習 Training data file SVM SVM 予測 結果 PDB(Protein Data Bank) Model file
実験の設定 • LIBSVM (A Library for Support Vector Machine) • Linらによって開発されたSVMのライブラリ • SVMの種類 • C-SVC (C-Support Vector Classification) • 金属結合性判定に使用 • ε-SVR (ε-Support Vector Regression) • 金属結合部位予測に使用 • Gaussian Kernel • パラメータ • Grid search と Cross Validation により決定
実験1:金属の結合判定(結合距離) • 結合距離の条件を変化 (4Å,5Å,6Å) • 抽出残基を変化 (7残基,9残基,11残基) 結合距離を用いた亜鉛結合予測精度(左) と 非結合予測精度(右)
考察:実験1 • 「結合距離条件」データを用いた結合判定予測 結合予測精度 亜鉛の結合(上)・非結合(下)予測精度 • 結合距離条件を変化 - 精度の変化なし • 抽出残基数を変化 - 多いほど精度向上 • アミノ酸の種類に特徴 • 特徴は広範囲に及ぶ
考察:実験1 • 「結合距離条件」データを用いた結合判定予測 非結合予測精度 表.結合・非結合予測精度 • 4Åのとき精度少し低い- データ数が少ない 学習が不十分
実験2:金属の結合判定(結合情報) • 抽出残基を変化 (7残基,9残基,11残基) • 亜鉛と鉄(II) 結合情報を用いた亜鉛結合予測(上) と 鉄(II)結合予測(下)
20以上:100 %に近い精度 • 10~19:精度はさまざま • 9以下 :10 %以下が多い 考察:実験2 • 「結合情報」データを用いた結合判定予測 結合情報データ • Fe(II)の予測精度が低い- データ数が少ない(Zn: 216,Fe(II): 11) 学習不足
:結合予測部位 実験3:結合部位予測 (1/2) • 「結合情報」を用いた学習データ (実験2) • ε-SVRにより予測値を取得 • 予測値:結合確率を表す値 (0 ~ 1で表現)1 に近いほど結合する確率が高い • 基準値を設定 (0.95 ~ 0.50 : 0.05刻み) • (予測値) > (基準値) 結合すると仮定 (予測値) > (基準値) (予測値) > (基準値)
実験3:結合部位予測 (2/2) • 亜鉛が結合する残基番号 • 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 (全11残基) • 基準値0.95 • 11残基中7残基が予測部位に属する • 予測した4部位すべて正解部位 1A1Fへの亜鉛結合部位予測結果 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85
考察:実験3 • 結合部位予測 • 基準値が設定できる金属 (Zn, Fe(II)など) • 結合部位に特徴あり • 基準値が低い (Pt、K など) • 結合部位に特徴なし 1A1Fへの亜鉛結合部位予測結果
まとめ • タンパク質への金属結合予測手法の提案 • 金属結合 ・ 結合部位の予測 • PDBからデータセットを抽出 • 2つの手法で学習データファイルを作成「結合距離」,「結合情報」 • SVMによる学習と予測 • 実験 • 結合判定予測:学習データ数20以上で高い精度 • 結合部位予測:金属により精度に差