1 / 17

文献紹介 III

文献紹介 III. 行動データ科学 B4  里村裕紀. 本日の文献. Tipping, M. E. and Bishop, C. M.(1999) Probabilistic principal component analysis. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 61 , 611-622. 注意. 普段と表記がちょっと違います(分野違いだから?). t n :d 次の観測変数ベクトル     : t n の算術平均

collin
Download Presentation

文献紹介 III

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文献紹介III 行動データ科学 B4  里村裕紀 文献紹介III

  2. 本日の文献 • Tipping, M. E. and Bishop, C. M.(1999) Probabilistic principal component analysis. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 61, 611-622. 文献紹介III

  3. 注意 • 普段と表記がちょっと違います(分野違いだから?) 文献紹介III

  4. tn:d次の観測変数ベクトル    : tnの算術平均 • wj:principal axes       W={w1, …,wq} Introduction • PCA - Principal component analysis :主成分分析 • 次元縮約の手法 • 応用:データ圧縮, 視覚化, 探索的データ解析, パターン認識… • その由来 • 分散を最大化する射影(Hotteling, 1933) • 補足的な性質 • xn (: 全ての直行射影) について、主成分射影は を最小化し、 となる 文献紹介III

  5. この論文の目的 • Probabilistic PCA (PPCA) を考えてみよう (今までのPCAには確率モデルとしての観点が欠けていたので) • PPCAイイ所 • 伝統的PCAの領域を拡張できる • 欠損値があっても対応できたり • 制約付きガウシアンモデルとして利用できる • 分類とか,novelty detection(?どういう意味?)に使える 文献紹介III

  6. Latent variable models, factor analysis and principal component analysis • 因子分析 • 何度目かになりますがもう一度 • tiはxが与えられた時の条件付独立な観測変数 • 潜在変数 : 観測変数間の相関を説明 誤差:観測変数にunique • t:d次の観測変数ベクトル (d×1) • x:q次の潜在変数ベクトル(q×1) • W:d×qの因子負荷行列 • μ:tの平均をゼロでなくする • ε:誤差 • x~N(0, I) • ε~N(0, Ψ) • t~N(μ, WW’+Ψ) 文献紹介III

  7. FAとPCAとのつながり • FAのW≠PCAのW • FAにおいて残差分散が等しいモデルでlinkしている • ψi=σ2(通常はこうではない。独自性は変数ごとに違うはず) • 最小二乗推定値=最尤推定値 • 固有値分解(特異値分解)から解が得られる 文献紹介III

  8. Probabilistic principal component analysis • 確率モデル • 対数尤度 S:tの標本分散共分散行列, • x:主成分得点の条件付分布 • とすると • ε~N(0, σ2I) • x ~N(0, I) Bayse の定理から 文献紹介III

  9. 最尤推定値の性質 • 対数尤度は以下でMaximize • Λq =diag{λ1…λq}(λi :Sの固有値, λ1≧…≧λq ≧ …) • Uq:Λqに対応する固有ベクトルを列に持つ • そうじゃない組み合わせの固有ベクトル:global maximaでない. • R :任意の直交回転行列 • 残差分散 • W=WMLで • In practice • 1.σ2を求める 2.Wを求める • もしくは EMアルゴリズム 文献紹介III

  10. 次元削減 • 代数的操作で得ることができる • 確率的観点からすると • 次元削減:潜在変数の条件付分布(観測変数所与) → より自然 • t(元データ)がgivenでx(主成分得点)がどうなるか考えることになるし • 分布の平均で要約 •                   だと WML <xn|tn> + μ : 直交射影 = 普通のPCA • けど実際は σ2> 0 WML <xn|tn> + μ: 非直交射影, 非最適解(reconstruction error式の) • なので 文献紹介III

  11. Examples • 2つのexample • 欠損値のある場合 • Mixuture caseへの拡張 • 欠損値 • Tobamovirusデータ(18次) • 欠損値を作成 • 全ての値を対象 • ランダムに20%の確率で取り除かれる • EMアルゴリズムによる • 結果 • 次スライドのFig.1. • 両者はほとんど変わらない 文献紹介III

  12. 文献紹介III

  13. 混合主成分分析モデル • そんな手法があるようです (Dony and Haykin, 1995 とか Bishop and Tipping, 1998 とか) • Tobamovirusデータ • Three-component mixutre modelでEMアルゴリズム • 結果 • 次スライドのFig. 2. • 理論上は以下のはず • 全ての点がどの図にも表れる • 3つの主軸はmixute中のそれぞれの成分と関連 • が、実際は、限られた点しか表れてない • →クラスタリングとデータの視覚化を同時に自動化 • Much powerful ! 文献紹介III

  14. 文献紹介III

  15. 自由度の統制 • PPCA:共分散モデルと見ることが出来る • dq + 1 - q(q – 1) /2 個の自由なパラメータに従う • モデルの複雑さ:qの選び方で調整できる • 次スライドTable.1. • Tobamovirusデータ • いくつかのモデルでの予測誤差(この場合負のlikelihoodの割合) • q=2 が誤差最小 文献紹介III

  16. 文献紹介III

  17. Discussion • まとめ • 確率モデルに基づく最尤PCAを得た • 基本的には固有値分解を行うだけでOK • EMアルゴリズムというテもアリ • Example4みたいな実例が出来た • PPCAとFAは似てるけど、やっぱりPCAですよね 文献紹介III

More Related