slide1
Download
Skip this Video
Download Presentation
文献紹介 I

Loading in 2 Seconds...

play fullscreen
1 / 21

文献紹介 I - PowerPoint PPT Presentation


  • 173 Views
  • Uploaded on

文献紹介 I. 行動データ科学研究分野  B4 里村 裕紀. 本日の文献. Gifi, A. 1990. Nonlinear multivariate analysis . 3.8: CATEGORICAL PCA:HOMALS. 106-120. Chichester:Wiley. (と、他章からも少々). 本題の前に. 軽く自己紹介(ミニ卒発表時に忘れてました) 大阪府箕面市出身 吹田キャンパスまでバイクで13分(実測) 一人暮らしをしてみたい (春なのに)卒論を目指してのピンチ度 10月に3週間の教育実習 9月に(9月ですよね?)院試

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 文献紹介 I' - elmer


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

文献紹介I

行動データ科学研究分野 B4

里村 裕紀

文献紹介I

slide2
本日の文献
  • Gifi, A. 1990. Nonlinear multivariate analysis.

3.8: CATEGORICAL PCA:HOMALS. 106-120.

Chichester:Wiley.

(と、他章からも少々)

文献紹介I

slide3
本題の前に
  • 軽く自己紹介(ミニ卒発表時に忘れてました)
    • 大阪府箕面市出身
    • 吹田キャンパスまでバイクで13分(実測)
    • 一人暮らしをしてみたい
  • (春なのに)卒論を目指してのピンチ度
    • 10月に3週間の教育実習
    • 9月に(9月ですよね?)院試
    • 夏休みは院試勉強
    • あれ…時間が…

文献紹介I

slide4
目次もどき
  • CATEGORICAL DATA
  • HOMALS
  • HOMALS Algorithm
  • Properties in terms of the SVD
  • Centering
  • Normalization
  • Contribution of variables : discrimination measures
  • 具体例
  • Geometrical properties

文献紹介I

categorical data
CATEGORICAL DATA

H : n(個体)×m(変数)

G : n(個体)×∑kj

  kj(j=1…m)は各変数のカテゴリ数

Gj:行が1と0の要素のみで 行和が1 

→ complete

C=G’G

D=diag C = diag (G’G)

Dの対角要素には各カテゴリの頻度

  (Gの列和)

G1

G2

文献紹介I

homals
HOMALS
  • カテゴリカルPCA
    • PCA:線形加重で次元縮約→等質性からのズレを最小に
      • 等質性:同じものを測定しているなら、値も似通ってくると
    • カテゴリカルで適用
  • 目的関数
    • σ(x;y)=m-1∑j SSQ(x-Gjyj)

    =m-1∑j tr(x-Gjyj)’(x-Gjyj)

(SSQ:要素の二乗和)

    • x,yの両方を求める
      • yはカテゴリカルな変数を数量化したものになる
    • 通常のPCAだと

σ(x;y)=m-1∑j SSQ(X-hjaj’)

     =m-1∑j tr(X-hjaj’)’(X-hjaj’)

文献紹介I

homals algorithm
HOMALS Algorithm
  • 交互最小二乗法(ALS:Alternating Least Squares)
    • G={G1,…,Gj,…,Gm} y’ = {y1’,…,yj’,…,ym’}

(1)

(2)

(3#)

(4)  収束判定

      • (1):要するにカテゴリの数量化から平均を求めている。x: n×1
      • (2):xのノルムをnに制約
      • (3):(1)と逆にxからyを求める。カテゴリに属しているスコアの平均
    • 目的関数をx, yで偏微分し,=0, と置いた等式は
      • x ∝ m-1∑j Gjyj ,   y ∝Dj-1Gj’x

G,yを用いると

      • x ∝ Gy /m,      y ∝D-1G’x

文献紹介I

properties in terms of the svd
Properties in terms of the SVD
  • PCAと言えば特異値分解
    • GD-1/2=VΨW’ と特異値分解する
    • 前記のアルゴリズムが収束すると
      • x*=v1
      • y*=Ψ1D-1/2w1
    • 目的関数の値そのもの
      • Djyj =Gjx (収束時の等式)

x’x=n (xの標準化) から

      • σ(x,y) = 1-m-1y’Dy

σ(x*,y*) = 1-{Ψ1 }^2 /m

    • Ψ1 は特異値 だから {Ψ1 }^2 は固有値

では何の固有値?

文献紹介I

properties in terms of the svd 2
Properties in terms of the SVD 2
  • 続き
    • GD-1/2=VΨW’ だったので

D-1/2G’GD-1/2 =WΨ2W’ となり

C = G’G を D-1/2でスケーリングしたものの固有値

    • CD-1/2W = D-1/2WΨ2と変形すると

 y* = Ψ1D-1/2w1 だから

Cy =Ψ2Dy という一般化固有値問題になる

      • 一般化固有値問題

変数を適宜変換すると、通常の固有値問題になる

※これだけだとどのyを選択すれば良いかわからない

 →目的関数の値から考えればよい

文献紹介I

properties in terms of the svd 3
Properties in terms of the SVD 3
  • 更に続き
    • x ∝ Gy /m, y ∝D-1G’だったので

x ∝ (GD-1G’ /m) xとなる

    • x は GD-1G’ /m の固有ベクトル
    • 固有値分解すると
      • GD-1G’ /m = V(Ψ2 /m )V’
      • ここで {Ψ1 }^2 /m はこの行列の最大固有値
  • 複数解(行列X, Y)を求めるのも同様
    • σ(X,Y) = p- m-1Σs ys’Dys
    • X* = VpY* = D-1/2WpΨpを用いて
      • (pはp番目までの特異値,特異ベクトルを含む行列ということ)
    • σ(X*,Y*) = p-Σs {Ψs}2 /m

文献紹介I

centering
Centering
  • 列平均をゼロにそろえる
    • S = G-uu’G/n : Gの列平均からの偏差得点行列
    • Cy =Ψ2Dy は y = uという解を持つ

がそれはデータとは無関係 →考察から除外

    • 他の解を ys とすると, 固有ベクトルの直交性から

u’Dys = 0

(一般化固有ベクトルの変数変換を考えてガリガリ計算)

で、これは ysはゼロ加重平均を持つということ

    • 右表のGvを考える

Gv :Σkj×m カテゴリと変数をつなぐ行列

G’vCys =Ψ2G’vDys    となる

a,b,cの3カテゴリ

変数1の列

文献紹介I

centering 2
Centering 2
  • 続き
    • Complete な Gなら

G’vCys = Ψ2G’vDys = 0 (0 < Ψ2 < m)

    • GGv = uu’ だから

SGv = GGv-uu’GGv/n = uu’-uu’ = 0

S : 列和 =0

→Sj: 行和= 0

rank S = Σkj - m = (自明で無いysの個数)

文献紹介I

centering 3
Centering 3
  • 続き
    • S’S = G’G- Duu’D / n であり (ガリガリ計算したらこうなる)

Ds’s = D- DGvG’vD / n とすると

Cy =Ψ2Dyから

S’Sy = Ψ2Ds’s y

⇔ (G’G- Duu’D / n ) y = Ψ2 (D- DGvG’vD / n ) y

が得られる。

これは Cy =Ψ2Dy と同じ解を持つ(u’Dys = 0, G’vDys = 0だから)

  • で、結局
    • 最初にデータを中心化しとけばOK
    • けど計算の誤差があるかもしれないから繰り返すのも良い

文献紹介I

normalization
Normalization
  • yを標準化するか, xを標準化するか
    • (a) yを標準化. y’Dy : 一定

x = Gy / m : カテゴリの数量化の平均

xを座標とみなすと, それは対応するカテゴリの重心

([a,p,v]という選択をした個体は[a][p][v]の重心に位置)

    • (b) xを標準化.

yj = D-1jG’jx :カテゴリに属しているスコアの平均

  同様に, yは個体の重心

  • 通常のHOMALSは以下の2点から(b)を用いている
    • x:慣れ親しんだ標準スコアの特徴を持つ
    • nがΣkjよりも,とても大きいことがよくある

→プロットしたとき x は色々な方向に広がる

→カテゴリの座標はその平均でプロットが見やすい

文献紹介I

normalization 2
Normalization 2
  • 続き
    • GD-1/2=VΨW’ だから
      • xs=√n vs
      • ys = √nΨsD-1/2ws
      • y’sDys = n {Ψs}2

→カテゴリの数量化は標準得点じゃない

    • けれど上界・下界が以下の範囲であることが示される

-[(n-d(j)r) / d(j)r]1/2≦y(j)rs≦ [(n-d(j)r) / d(j)r]1/2

      • ここで d(j)r はj番目の変数のr番目のカテゴリの周辺頻度

(要するにそのカテゴリ単体での頻度)

    • 頻度の高いカテゴリは範囲が広く

頻度の低いカテゴリは範囲が狭い

文献紹介I

contribution of variables discrimination measures
Contribution of variables : discrimination measures
  • Discrimination measures
    • {ηjs}2= y’(j)sDjy(j)s / n とする
      • ここで y(j)s :変数hjのs番目の数量化
    • y’sDys / n = {Ψs}2(変数について総和を取った)
      • 目的関数の値として報告される固有値は {Ψs}^2 /m

これはs番目の解における discrimination measures の平均値

    • この {ηjs}2は変数が全く寄与していないときにゼロを取る
      • {ηjs}2 = (xsと q(j)s = Gjy(j)s との相関係数の二乗)

であることから示される

文献紹介I

slide17
具体例
  • y’Dy = n, x = Gy/m
  • x’x = n, yj = Dj-1G’jx
  • の二通りの基準化
  • 以下のデータ(再掲)に対してHOMALSを適用

文献紹介I

slide18

具体例 2

  • (a) における結果

文献紹介I

slide19

具体例 3

  • (b) における結果

文献紹介I

geometrical properties
Geometrical properties
  • HOMALSにおいて解は包含関係にある
  • (b)における結果のプロットについての幾何的な側面
    • カテゴリ(y), オブジェクト(x)は共通の空間に表される
    • カテゴリの点は同じカテゴリを共有するオブジェクトの点の重心
    • カテゴリの点は離れて広がり、変数は区別される
    • オブジェクトの点とその平均(カテゴリの点)の距離の二乗和は relative loss と関係付けられる

文献紹介I

geometrical properties 2
Geometrical properties 2
  • 続き
    • カテゴリの点の広がりは、変数がどの程度 relative loss に寄与しているかを示す
    • 二つのオブジェクト間の距離は「類似度」と関係付けられる
    • 1つのオブジェクトだけがそのカテゴリを選択したのなら,カテゴリとオブジェクトは同一の点になる
    • 頻度の低いカテゴリは空間の周辺部に

頻度の高いカテゴリは中心部にプロットされる

    • 「平均的」なオブジェクトは中心部に

「ユニーク」なオブジェクトは周辺部にプロットされる

文献紹介I