文献紹介
This presentation is the property of its rightful owner.
Sponsored Links
1 / 21

文献紹介 I PowerPoint PPT Presentation


  • 139 Views
  • Uploaded on
  • Presentation posted in: General

文献紹介 I. 行動データ科学研究分野  B4 里村 裕紀. 本日の文献. Gifi, A. 1990. Nonlinear multivariate analysis . 3.8: CATEGORICAL PCA:HOMALS. 106-120. Chichester:Wiley. (と、他章からも少々). 本題の前に. 軽く自己紹介(ミニ卒発表時に忘れてました) 大阪府箕面市出身 吹田キャンパスまでバイクで13分(実測) 一人暮らしをしてみたい (春なのに)卒論を目指してのピンチ度 10月に3週間の教育実習 9月に(9月ですよね?)院試

Download Presentation

文献紹介 I

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


I

文献紹介I

行動データ科学研究分野 B4

里村 裕紀

文献紹介I


I

本日の文献

  • Gifi, A. 1990. Nonlinear multivariate analysis.

    3.8: CATEGORICAL PCA:HOMALS. 106-120.

    Chichester:Wiley.

    (と、他章からも少々)

文献紹介I


I

本題の前に

  • 軽く自己紹介(ミニ卒発表時に忘れてました)

    • 大阪府箕面市出身

    • 吹田キャンパスまでバイクで13分(実測)

    • 一人暮らしをしてみたい

  • (春なのに)卒論を目指してのピンチ度

    • 10月に3週間の教育実習

    • 9月に(9月ですよね?)院試

    • 夏休みは院試勉強

    • あれ…時間が…

文献紹介I


I

目次もどき

  • CATEGORICAL DATA

  • HOMALS

  • HOMALS Algorithm

  • Properties in terms of the SVD

  • Centering

  • Normalization

  • Contribution of variables : discrimination measures

  • 具体例

  • Geometrical properties

文献紹介I


Categorical data

CATEGORICAL DATA

H : n(個体)×m(変数)

G : n(個体)×∑kj

  kj(j=1…m)は各変数のカテゴリ数

Gj:行が1と0の要素のみで 行和が1 

→ complete

C=G’G

D=diag C = diag (G’G)

Dの対角要素には各カテゴリの頻度

  (Gの列和)

G1

G2

文献紹介I


Homals

HOMALS

  • カテゴリカルPCA

    • PCA:線形加重で次元縮約→等質性からのズレを最小に

      • 等質性:同じものを測定しているなら、値も似通ってくると

    • カテゴリカルで適用

  • 目的関数

    • σ(x;y)=m-1∑j SSQ(x-Gjyj)

          =m-1∑j tr(x-Gjyj)’(x-Gjyj)

      (SSQ:要素の二乗和)

    • x,yの両方を求める

      • yはカテゴリカルな変数を数量化したものになる

    • 通常のPCAだと

      σ(x;y)=m-1∑j SSQ(X-hjaj’)

           =m-1∑j tr(X-hjaj’)’(X-hjaj’)

文献紹介I


Homals algorithm

HOMALS Algorithm

  • 交互最小二乗法(ALS:Alternating Least Squares)

    • G={G1,…,Gj,…,Gm}y’ = {y1’,…,yj’,…,ym’}

      (1)

      (2)

      (3#)

      (4)  収束判定

      • (1):要するにカテゴリの数量化から平均を求めている。x: n×1

      • (2):xのノルムをnに制約

      • (3):(1)と逆にxからyを求める。カテゴリに属しているスコアの平均

    • 目的関数をx, yで偏微分し,=0, と置いた等式は

      • x ∝ m-1∑j Gjyj ,   y ∝Dj-1Gj’x

        G,yを用いると

      • x ∝ Gy /m,      y ∝D-1G’x

文献紹介I


Properties in terms of the svd

Properties in terms of the SVD

  • PCAと言えば特異値分解

    • GD-1/2=VΨW’ と特異値分解する

    • 前記のアルゴリズムが収束すると

      • x*=v1

      • y*=Ψ1D-1/2w1

    • 目的関数の値そのもの

      • Djyj =Gjx (収束時の等式)

        x’x=n (xの標準化)から

      • σ(x,y) = 1-m-1y’Dy

        σ(x*,y*) = 1-{Ψ1 }^2 /m

    • Ψ1 は特異値 だから {Ψ1 }^2 は固有値

      では何の固有値?

文献紹介I


Properties in terms of the svd 2

Properties in terms of the SVD 2

  • 続き

    • GD-1/2=VΨW’だったので

      D-1/2G’GD-1/2 =WΨ2W’となり

      C = G’G を D-1/2でスケーリングしたものの固有値

    • CD-1/2W = D-1/2WΨ2と変形すると

       y* = Ψ1D-1/2w1だから

      Cy =Ψ2Dyという一般化固有値問題になる

      • 一般化固有値問題

        変数を適宜変換すると、通常の固有値問題になる

        ※これだけだとどのyを選択すれば良いかわからない

         →目的関数の値から考えればよい

文献紹介I


Properties in terms of the svd 3

Properties in terms of the SVD 3

  • 更に続き

    • x ∝ Gy /m,y ∝D-1G’だったので

      x ∝ (GD-1G’ /m) xとなる

    • x は GD-1G’ /m の固有ベクトル

    • 固有値分解すると

      • GD-1G’ /m = V(Ψ2 /m )V’

      • ここで {Ψ1 }^2 /m はこの行列の最大固有値

  • 複数解(行列X, Y)を求めるのも同様

    • σ(X,Y) = p- m-1Σs ys’Dys

    • X* = VpY* = D-1/2WpΨpを用いて

      • (pはp番目までの特異値,特異ベクトルを含む行列ということ)

    • σ(X*,Y*) = p-Σs {Ψs}2 /m

文献紹介I


Centering

Centering

  • 列平均をゼロにそろえる

    • S = G-uu’G/n : Gの列平均からの偏差得点行列

    • Cy =Ψ2Dy は y = uという解を持つ

      がそれはデータとは無関係→考察から除外

    • 他の解を ys とすると, 固有ベクトルの直交性から

      u’Dys = 0

      (一般化固有ベクトルの変数変換を考えてガリガリ計算)

      で、これは ysはゼロ加重平均を持つということ

    • 右表のGvを考える

      Gv :Σkj×m カテゴリと変数をつなぐ行列

      G’vCys =Ψ2G’vDys    となる

a,b,cの3カテゴリ

変数1の列

文献紹介I


Centering 2

Centering 2

  • 続き

    • Complete な Gなら

      G’vCys = Ψ2G’vDys = 0(0 < Ψ2 < m)

    • GGv = uu’だから

      SGv = GGv-uu’GGv/n = uu’-uu’ = 0

      S : 列和 =0

      →Sj: 行和= 0

      rank S = Σkj - m = (自明で無いysの個数)

文献紹介I


Centering 3

Centering 3

  • 続き

    • S’S = G’G- Duu’D / nであり (ガリガリ計算したらこうなる)

      Ds’s = D- DGvG’vD / n とすると

      Cy =Ψ2Dyから

      S’Sy = Ψ2Ds’s y

      ⇔ (G’G- Duu’D / n ) y = Ψ2 (D- DGvG’vD / n ) y

      が得られる。

      これは Cy =Ψ2Dy と同じ解を持つ(u’Dys = 0, G’vDys = 0だから)

  • で、結局

    • 最初にデータを中心化しとけばOK

    • けど計算の誤差があるかもしれないから繰り返すのも良い

文献紹介I


Normalization

Normalization

  • yを標準化するか, xを標準化するか

    • (a) yを標準化. y’Dy : 一定

      x = Gy / m : カテゴリの数量化の平均

      xを座標とみなすと, それは対応するカテゴリの重心

      ([a,p,v]という選択をした個体は[a][p][v]の重心に位置)

    • (b) xを標準化.

      yj = D-1jG’jx :カテゴリに属しているスコアの平均

        同様に, yは個体の重心

  • 通常のHOMALSは以下の2点から(b)を用いている

    • x:慣れ親しんだ標準スコアの特徴を持つ

    • nがΣkjよりも,とても大きいことがよくある

      →プロットしたとき x は色々な方向に広がる

      →カテゴリの座標はその平均でプロットが見やすい

文献紹介I


Normalization 2

Normalization 2

  • 続き

    • GD-1/2=VΨW’だから

      • xs=√n vs

      • ys = √nΨsD-1/2ws

      • y’sDys = n {Ψs}2

        →カテゴリの数量化は標準得点じゃない

    • けれど上界・下界が以下の範囲であることが示される

      -[(n-d(j)r) / d(j)r]1/2≦y(j)rs≦ [(n-d(j)r) / d(j)r]1/2

      • ここで d(j)r はj番目の変数のr番目のカテゴリの周辺頻度

        (要するにそのカテゴリ単体での頻度)

    • 頻度の高いカテゴリは範囲が広く

      頻度の低いカテゴリは範囲が狭い

文献紹介I


Contribution of variables discrimination measures

Contribution of variables : discrimination measures

  • Discrimination measures

    • {ηjs}2= y’(j)sDjy(j)s / nとする

      • ここでy(j)s :変数hjのs番目の数量化

    • y’sDys / n = {Ψs}2(変数について総和を取った)

      • 目的関数の値として報告される固有値は {Ψs}^2 /m

        これはs番目の解における discrimination measures の平均値

    • この {ηjs}2は変数が全く寄与していないときにゼロを取る

      • {ηjs}2 = (xsと q(j)s = Gjy(j)s との相関係数の二乗)

        であることから示される

文献紹介I


I

具体例

  • y’Dy = n, x = Gy/m

  • x’x = n, yj = Dj-1G’jx

  • の二通りの基準化

  • 以下のデータ(再掲)に対してHOMALSを適用

文献紹介I


I

具体例 2

  • (a) における結果

文献紹介I


I

具体例 3

  • (b) における結果

文献紹介I


Geometrical properties

Geometrical properties

  • HOMALSにおいて解は包含関係にある

  • (b)における結果のプロットについての幾何的な側面

    • カテゴリ(y), オブジェクト(x)は共通の空間に表される

    • カテゴリの点は同じカテゴリを共有するオブジェクトの点の重心

    • カテゴリの点は離れて広がり、変数は区別される

    • オブジェクトの点とその平均(カテゴリの点)の距離の二乗和は relative loss と関係付けられる

文献紹介I


Geometrical properties 2

Geometrical properties 2

  • 続き

    • カテゴリの点の広がりは、変数がどの程度 relative loss に寄与しているかを示す

    • 二つのオブジェクト間の距離は「類似度」と関係付けられる

    • 1つのオブジェクトだけがそのカテゴリを選択したのなら,カテゴリとオブジェクトは同一の点になる

    • 頻度の低いカテゴリは空間の周辺部に

      頻度の高いカテゴリは中心部にプロットされる

    • 「平均的」なオブジェクトは中心部に

      「ユニーク」なオブジェクトは周辺部にプロットされる

文献紹介I


  • Login