論理生命学第 7 回：潜在変数モデルと EM アルゴリズム

論理生命学第7回：潜在変数モデルとEMアルゴリズム論理生命学第7回：潜在変数モデルとEMアルゴリズム渡辺一帆

内容潜在変数モデルとは例）混合正規分布　　　　隠れマルコフモデル EM（ExpectationMaximization）法潜在変数モデルの最尤推定のためのアルゴリズム講義資料：http://hawaii.naist.jp/~wkazuho/index-j.html

混合正規分布（１） Gaussian Mixture Model （GMM）コンポーネント： M次元正規分布 . . . . . . . . . . . . 混合比: . . . . . . . . . . . . . . . . は確率ベクトルパラメータ: 応用）クラスタリング, 密度推定

混合正規分布（２） 潜在変数（隠れ変数、不観測変数）どれか一つの要素のみが 1. 周辺化

隠れマルコフモデル（１） Hidden Markov Model (HMM) データ系列 1 2 3 ：状態遷移確率状態iから状態jへ遷移する確率応用）文字列、時系列のモデリング：出力確率状態iにおいてmを出力する確率

隠れマルコフモデル（２） 1 2 3 簡単のため　　　　　　　　　　　　　（状態１からスタート） HMMの尤度周辺化

演習混合二項分布（　　　　　　　　　　　は既知）について（１）潜在変数を　　　　　　　　　　　　　　　　　　としてを表せ（２）ベイズの定理により　　　　　　　を表せ

最尤推定 学習データ: 潜在変数: 　混合分布の場合：各　　　は独立と仮定尤度関数: 最尤推定量: 潜在変数モデルでは EM（Expectation Maximization）法: 　　　　潜在変数モデルの最尤推定のための（効率的な）アルゴリズム

EMアルゴリズム • Q関数とする（密度関数ではない） EMアルゴリズム 1.　　　　に適当な初期値を与える 2.Eステップ：　　　　　　　　を計算 3.Mステップ：　　　　　　　　を最大にする　　　を　　　とする • 　　の対数尤度を計算し、収束しているか判定する • 　　収束していなければ、　　　　　　として2.に戻る

準備：カルバック情報量 • ２つの確率分布　　　と　　　　の間の擬距離 xが離散のとき xが連続のとき • 　　　　　　　　　　　等号は　　　　　　　　　のときのみ　 ∵ としてより（等号成立はt=1） ☆注意　データx上の確率分布間以外にも潜在変数y上やパラメータw上の確率分布間の距離を測る場合もあります

EMアルゴリズム（２） • EM法で尤度が増加する理由（言いたいこと　　　　　　　　　　）（∵ベイズの定理）両辺を　　　　　　　で期待値をとると

EMアルゴリズム（３） • EM法で尤度が増加する理由（続き）潜在変数の分布に関するカルバック情報量（∵カルバック情報量は非負）ととれば、（尤度が必ず増加）

混合正規分布の場合 完全尤度: 各データは独立潜在変数の事後分布 (＊)

混合正規分布の場合 Q関数とするとコンポーネントkからのデータ数コンポーネントkからのデータの平均 +(wに依存しない項) EM法： (＊)と(†)を繰り返す (†)

応用例）混合正規分布 (アルゴリズム) □：data（　　　　　） *　 Eステップ初期化 * * * * Mステップ終了 * * * 繰り返す *

まとめ 潜在変数モデルの実例　　　混合正規分布　　　隠れマルコフモデル潜在変数モデルの最尤推定法のためのEMアルゴリズム

演習（つづき） 混合二項分布（　　　　　　　　　　　は既知）について（１）潜在変数を　　　　　　　　　　　　　　　　　　としてを表せ（２）ベイズの定理により　　　　　　　を表せ（３）n個のデータ　　　　　　　　　が与えられたときの Q関数　　　　　　　を計算せよ（　　　　を用いて表せ）（４）EM法による尤度最大化のためのアルゴリズムを導け

ヒント • Qの最大化 +(wに依存しない項) はカルバック情報量なので非負（等号成立は　　　　　　　のとき）（等号成立は　　　　　　　のとき）

論理生命学第 7 回： 潜在変数モデルと EM アルゴリズム