1 / 24

生命科学基礎論 (第9回)

生命科学基礎論 (第9回). 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. 内容. 最尤法、ベイズ推定、 MAP 推定 隠れマルコフモデルによる推定 文脈自由文法による RNA 二次構造予測. バイオインフォマティクスにおける確率統計. 重要なのはデータからのモデル(もしくはパラメータ)の推定 最尤法 ベイズ推定 最大事後確率推定( MAP). 最尤推定. P ( D | θ ) ( 尤度) モデルパラメータ θ のもとでのデータ D  の出現確率 最尤法 P ( D | θ ) を最大化する θ を選ぶ 例

alyson
Download Presentation

生命科学基礎論 (第9回)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 生命科学基礎論(第9回) 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

  2. 内容 • 最尤法、ベイズ推定、MAP推定 • 隠れマルコフモデルによる推定 • 文脈自由文法によるRNA二次構造予測

  3. バイオインフォマティクスにおける確率統計 • 重要なのはデータからのモデル(もしくはパラメータ)の推定 • 最尤法 • ベイズ推定 • 最大事後確率推定(MAP)

  4. 最尤推定 • P(D|θ) (尤度) • モデルパラメータ θのもとでのデータ D の出現確率 • 最尤法 • P(D|θ)を最大化する θを選ぶ • 例 • コインを5回投げて、表が3回出た後、裏が2回出た • p(表)=a, p(裏)=1-aとするとP(D|θ)=a3(1-a)2 • a=3/5の時、 P(D|θ)は最大 • 一般に表が出る頻度を f とすると a=fで尤度は最大

  5. ベイズ推定とMAP推定 • ベイズ推定:尤度とモデル(パラメータ)の事前確率から、ベイズの定理により、事後確率を推定 • 最大事後確率(MAP)推定 • P(D|θ)P(θ)を最大化するθを計算 • P(θ)が一様分布なら最尤推定と同じ

  6. 不正サイコロのベイズ推定 • 公正サイコロと不正サイコロ • 公正:P(i|公正)=1/6 • 不正:P(6|不正)=1/2,P(i|不正)=1/10 for i≠6 • P(公正)=0.99, P(不正)=0.01 • 6が3回続けて出た場合の事後確率

  7. 隠れマルコフモデル(HMM) • HMM≒有限オートマトン+確率 • 定義 • 出力記号集合Σ • 状態集合    S={1,2,…n} • 遷移確率(k→l) akl • 出力確率 ek(b) • (開始状態= 終了状態= 0)

  8. HMMにおける基本アルゴリズム • Viterbiアルゴリズム • 出力記号列から状態列を推定 • Parsing(構文解析) • Baum-Welchアルゴリズム   (EMアルゴリズム) • 出力記号列からパラメータを推定 • Learning(学習)

  9. 時々いかさまをするカジノ • サイコロの出目だけが観測可能、どちらのサイコロを振っているかは観測不可能 • サイコロの出目から、どちらのサイコロを振っているかを推定 • 6,2,6,6,3,6,6,6, 4,6,5,3,6,6,1,2 →不正サイコロ • 6,1,5,3,2,4,6,3, 2,2,5,4,1,6,3,4 →公正サイコロ • 6,6,3,6,5,6,6,1, 5,4,2,3,6,1,5,2 →途中で公正サイ     コロに交換

  10. Viterbi アルゴリズム(1) • 観測列(出力配列データ) x=x1…xLと状態列π=π1…πLが与えられた時、その同時確率は P(x,π)=a0 π1Πeπi (xi)aπiπi+1 但し、πL+1=0 • xが与えられた時の、最も尤もらしい状態列は π*=argmaxπ P(x,π) • 例:どちらのサイコロがいつ使われたかを推定

  11. Viterbiアルゴリズム(2) • xから、π*=argmaxπ P(x,π) を計算 • そのためにはx1…xiを出力し状態kに至る確率最大の状態列の確率 vk(i) を計算 • vk(i)は以下の式に基づき動的計画法で計算

  12. Viterbiアルゴリズム(3)

  13. EM(Expectation Maximization)アルゴリズム • 「欠けているデータ」のある場合の最尤推定のための一般的アルゴリズム • 最大化は困難であるので、反復により尤度を単調増加させる(θtよりθt+1を計算) • HMMの場合、「欠けているデータ」は状態列

  14. EMアルゴリズムの導出

  15. EMアルゴリズムの一般形 • 初期パラメータΘ0を決定。t=0とする。 • Q(θ|θt)=∑P(y|x, θt) log P(x,y|θ) を計算。 • Q(θ|θt)を最大化するθ*を計算し、 θt+1 = θ* とする。t=t+1とする。 • Qが増大しなくなるまで、2,3を繰り返す。

  16. 前向きアルゴリズム • 配列xの生成確率 P(x)=∑P(x,π) を計算 • Viterbiアルゴリズムと類似 • fk(i)=P(x1…xi,πi=k)  をDPにより計算

  17. 後向きアルゴリズム • bk(i)= P(xi+1…xL|πi=k)  をDPにより計算 • P(πi=k|x) = fk(i)bk(i)/P(x)

  18. HMMに対するEMアルゴリズム(Baum-Welchアルゴリズム)HMMに対するEMアルゴリズム(Baum-Welchアルゴリズム)

  19. Baum-WelchのEMによる解釈

  20. 配列アライメント • 2個もしくは3個以上の配列の類似性の判定に利用 • 2個の場合:ペアワイズアライメント • 3個以上の場合:マルチプルアライメント • 文字間の最適な対応関係を求める(最適化問題) • 配列長を同じにするように、ギャップ記号(挿入、欠失に対応)を挿入 • 入力配列が定数個(実用上は3個まで)の場合は動的計画法で多項式時間で最適解を計算可能、それ以外の場合はNP困難

  21. プロファイルHMM(1) • 配列をアライメントするためのHMM • タンパク質配列分類やドメイン予測などに有用 • 例:ドメインの種類ごとにHMMを作る • PFAM(http://pfam.wustl.edu/) • 一致状態(M)、欠失状態(D)、挿入状態(I)を持つ

  22. プロファイルHMM(2) マルチプル アラインメント プロファイル HMM

  23. 参考文献 • 参考文献 • 阿久津、浅井、矢田 訳: バイオインフォマティクス -確率モデルによる遺伝子配列解析―、医学出版 (2000) • レポート課題のための参考WWWページ • アミノ酸配列データ取得 • ゲノムネット(http://www.genome.ad.jp/dbget/dbget.links.html) • アミノ酸配列データ: SwissProt • タンパク質立体構造データ: PDB • 構造予測 • CAFASP3参照(http://www.cs.bgu.ac.il/~dfischer/CAFASP3/) • GTOP(http://spock.genes.nig.ac.jp/~genome/gtop-j.html) • PHD(http://www.embl-heidelberg.de/predictprotein/predictprotein.html)

  24. レポート課題 • インターネット上で利用可能な立体構造予測ソフト(2次構造予測でも可)を2種類以上利用し、得られた結果について比較、考察せよ。ただし、各サーバーに負荷をかけすぎないようにテストデータ(アミノ酸配列)は3種類以下とすること。 • 提出先:10号館事務室のレポート提出BOX • 提出期限:6月20日(金)

More Related