slide1 l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析 PowerPoint Presentation
Download Presentation
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析

Loading in 2 Seconds...

play fullscreen
1 / 25

分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析 - PowerPoint PPT Presentation


  • 171 Views
  • Uploaded on

分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. 内容. 最尤法、ベイズ推定、 MAP 推定 隠れマルコフモデルによる推定 文脈自由文法による RNA 二次構造予測. バイオインフォマティクスにおける確率統計. 重要なのはデータからのモデル(もしくはパラメータ)の推定 最尤法 ベイズ推定 最大事後確率推定( MAP). 最尤推定. P ( D | θ ) ( 尤度) モデルパラメータ θ のもとでのデータ D  の出現確率 最尤法

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

分子生物情報学(3)確率モデル(隠れマルコフモデル)に基づく配列解析分子生物情報学(3)確率モデル(隠れマルコフモデル)に基づく配列解析

阿久津 達也

京都大学 化学研究所

バイオインフォマティクスセンター

slide2
内容
  • 最尤法、ベイズ推定、MAP推定
  • 隠れマルコフモデルによる推定
  • 文脈自由文法によるRNA二次構造予測
slide3
バイオインフォマティクスにおける確率統計
  • 重要なのはデータからのモデル(もしくはパラメータ)の推定
    • 最尤法
    • ベイズ推定
    • 最大事後確率推定(MAP)
slide4
最尤推定
  • P(D|θ) (尤度)
    • モデルパラメータ θのもとでのデータ D の出現確率
  • 最尤法
    • P(D|θ)を最大化する θを選ぶ
    • コインを5回投げて、表が3回出た後、裏が2回出た
    • p(表)=a, p(裏)=1-aとするとP(D|θ)=a3(1-a)2
    • a=3/5の時、 P(D|θ)は最大
    • 一般に表が出る頻度を f とすると a=fで尤度は最大
slide5
ベイズ推定とMAP推定
  • ベイズ推定:尤度とモデル(パラメータ)の事前確率から、ベイズの定理により、事後確率を推定
  • 最大事後確率(MAP)推定
    • P(D|θ)P(θ)を最大化するθを計算
    • P(θ)が一様分布なら最尤推定と同じ
slide6
不正サイコロのベイズ推定
  • 公正サイコロと不正サイコロ
    • 公正:P(i|公正)=1/6
    • 不正:P(6|不正)=1/2,P(i|不正)=1/10 for i≠6
    • P(公正)=0.99, P(不正)=0.01
  • 6が3回続けて出た場合の事後確率
slide7
隠れマルコフモデル(HMM)
  • HMM≒有限オートマトン+確率
  • 定義
    • 出力記号集合Σ
    • 状態集合

   S={1,2,…n}

    • 遷移確率(k→l)

akl

    • 出力確率

ek(b)

    • (開始状態=

終了状態= 0)

slide8
HMMにおける基本アルゴリズム
  • Viterbiアルゴリズム
    • 出力記号列から状態列を推定
    • Parsing(構文解析)
  • Baum-Welchアルゴリズム

  (EMアルゴリズム)

    • 出力記号列からパラメータを推定
    • Learning(学習)
slide9
時々いかさまをするカジノ
  • サイコロの出目だけが観測可能、どちらのサイコロを振っているかは観測不可能
  • サイコロの出目から、どちらのサイコロを振っているかを推定
  • 6,2,6,6,3,6,6,6,

4,6,5,3,6,6,1,2

→不正サイコロ

  • 6,1,5,3,2,4,6,3,

2,2,5,4,1,6,3,4

→公正サイコロ

  • 6,6,3,6,5,6,6,1,

5,4,2,3,6,1,5,2

→途中で公正サイ

    コロに交換

viterbi 1
Viterbi アルゴリズム(1)
  • 観測列(出力配列データ) x=x1…xLと状態列π=π1…πLが与えられた時、その同時確率は

P(x,π)=a0 π1Πeπi (xi)aπiπi+1 但し、πL+1=0

  • xが与えられた時の、最も尤もらしい状態列は π*=argmaxπ P(x,π)
  • 例:どちらのサイコロがいつ使われたかを推定
viterbi 2
Viterbiアルゴリズム(2)
  • xから、π*=argmaxπ P(x,π) を計算
  • そのためにはx1…xiを出力し状態kに至る確率最大の状態列の確率 vk(i) を計算
  • vk(i)は以下の式に基づき動的計画法で計算
em expectation maximization
EM(Expectation Maximization)アルゴリズム
  • 「欠けているデータ」のある場合の最尤推定のための一般的アルゴリズム
  • 最大化は困難であるので、反復により尤度を単調増加させる(θtよりθt+1を計算)
  • HMMの場合、「欠けているデータ」は状態列
slide15
EMアルゴリズムの一般形
  • 初期パラメータΘ0を決定。t=0とする。
  • Q(θ|θt)=∑P(y|x, θt) log P(x,y|θ) を計算。
  • Q(θ|θt)を最大化するθ*を計算し、 θt+1 = θ* とする。t=t+1とする。
  • Qが増大しなくなるまで、2,3を繰り返す。
slide16
前向きアルゴリズム
  • 配列xの生成確率 P(x)=∑P(x,π) を計算
  • Viterbiアルゴリズムと類似
  • fk(i)=P(x1…xi,πi=k)

 をDPにより計算

viterbi
Viterbi と前向きアルゴリズムの比較
  • Viterbiアルゴリズム
  • Forwardアルゴリズム
slide18
後向きアルゴリズム
  • bk(i)=

P(xi+1…xL|πi=k)

 をDPにより計算

  • P(πi=k|x) =

fk(i)bk(i)/P(x)

hmm em baum welch
HMMに対するEMアルゴリズム(Baum-Welchアルゴリズム)HMMに対するEMアルゴリズム(Baum-Welchアルゴリズム)
slide21
配列アライメント
  • 2個もしくは3個以上の配列の類似性の判定に利用
    • 2個の場合:ペアワイズアライメント
    • 3個以上の場合:マルチプルアライメント
  • 文字間の最適な対応関係を求める(最適化問題)
  • 配列長を同じにするように、ギャップ記号(挿入、欠失に対応)を挿入
  • 入力配列が定数個(実用上は3個まで)の場合は動的計画法で多項式時間で最適解を計算可能、それ以外の場合はNP困難
hmm 1
プロファイルHMM(1)
  • 配列をアライメントするためのHMM
  • タンパク質配列分類やドメイン予測などに有用
    • 例:ドメインの種類ごとにHMMを作る
      • PFAM(http://pfam.wustl.edu/)
  • 一致状態(M)、欠失状態(D)、挿入状態(I)を持つ
hmm 2
プロファイルHMM(2)

マルチプル

アラインメント

プロファイル

HMM

hmm 3
プロファイルHMM(3)
  • 各配列ファミリーごとに HMM を作成
  • スコア最大のHMMのファミリーに属すると予測
slide25
講義のまとめ(HMM)
  • HMMによる配列解析
    • 最尤推定、ベイズ推定、MAP推定
    • 隠れマルコフモデル(HMM)
    • Viterbiアルゴリズム
    • EMアルゴリズム
    • Baum-Welchアルゴリズム、
      • 前向きアルゴリズム、後向きアルゴリズム
    • プロファイルHMM
  • 参考文献
    • 阿久津、浅井、矢田 訳: バイオインフォマティクス -確率モデルによる遺伝子配列解析―、医学出版、2001