多変量データ解析と時系列解析

多変量データ解析と時系列解析 吉田亮 (統計数理研究所; モデリング研究系) e-mail: yoshidar@ism.ac.jp スライドのダウンロード： http://daweb.ism.ac.jp/~yoshidar/index_j.htm

１日目：　記述統計、確率分布 ２日目：　推定・検定３日目：　回帰分析４日目：　多変量解析、時系列解析 10:00～11:10 　主成分分析 11:20～12:30 　判別分析 13:30～14:40 クラスタ分析 14:50～16:00　時系列解析 • 前日までの講義内容と比較して難易度はやや高めです。 • 統計学の実践をデモンストレーションすることで、統計学がどのように使われているかを実感して頂きたい。 • フォローしきれない人は、各々の要素技術をどのような局面で使うべきか、使うことでどのような情報抽出ができるか、最低限これらのイメージを持って帰って下さい。 • 解析ツールの単なるユーザーになるのでなく、ゆくゆくは解析的なメカニズムをきっちりと理解し、自由自在に統計学を操れるデータ解析スペシャリストに

サンプル（個体）が複数の変数（特徴変数）によって特徴付けられるデータサンプル（個体）が複数の変数（特徴変数）によって特徴付けられるデータ (例) 患者（個体）400人の約20,000個の遺伝子の発現量（変数）多変量データ解析の例 p=20,000 個の特徴変数 p 2 1 1 2 n= 400人の個体 n

多変量データの直観的理解は困難 • データファイルを開き、数万個の遺伝子の発現値を一つずつ眺めてみましょう。並はずれた根気強さを持つ人にしかできません。 • ちなみに古いエクセルでは、 65,536行、256列におさまるデータしか開けません。 • データをヒートマップ表示してみよう。変数: p=20,000 個体: n= 400 データ量が膨大で何も見えてこない個体と変数をそれぞれパターンに基づき分類して、データを並べ替える

多変量データ解析技術は実践で間違いなく役に立つ多変量データ解析技術は実践で間違いなく役に立つ • 人間の脳は多変量データを直観・統合的に理解することが苦手 • 多変量解析は、大規模データを処理する上で、脳の情報処理機能の代替として使う • そもそも、多くの局面において、目で見て直観的に理解できる「単変数」のデータに対して、わざわざ統計解析を行う必要がない？ • 本講義では「初等的な」多変量解析の手法を概観本講義で取り扱う多変量解析の手法データの特徴を捉える多変数データの関係を捉える • 主成分分析 • 判別分析（教師つき分類） • クラスタ分析（教師なし分類） • 多重回帰分析データを分類する

準備: 用語と記号 • 特徴変数ベクトル（ i番目のサンプルを特徴付ける p個の変数）転置記号 p個の特徴変数が並んでいる添え字iは個体番号を表す ※xi= ( 個体iの体脂肪率, 個体iの血糖値, 個体iの所得 ) • 変数の数は pで表す。 • 総サンプル数は nで表す。 • 　（サンプル）平均ベクトル（各変数の平均値を p個並べたもの）ベクトルの要素は各変数の平均値

　（サンプル）分散共分散行列 • p × p個の変数ペアの共分散（共変動性を表す尺度）と p 個の変数の分散（ばらつき尺度）を要素に持つ p × p の対称行列 • 単変数データの分散の概念を多変数に拡張したもの • 多変数データの変動特性を表す最も基本的な統計量準備: 用語と記号非対角要素 ( i, j) には変数 iと j の共分散対角要素には分散 p

分散共分散行列の直観的理解（2変数の場合）分散共分散行列の直観的理解（2変数の場合）変数1と2の間に正の相関がある場合変数1と2の間に負の相関がある場合

　（サンプル）相関行列 • p × p個の変数ペアの相関係数を要素に持つ p × p の対称行列 • 対角要素は1 準備: 用語と記号

主成分分析（ PCA: Principal Component Analysis ）

相関のある多変数データが保持する「情報」をできるだけ失うことなく、少数の変数（主成分）に要約することが目的 (データの次元圧縮、特徴抽出) 主成分分析が対象とする情報 = 分散や変数間の相関関係（共分散）主成分分析で何ができるか？ 4変数、150個体のデータ分布。 150個体は3種類のグループに分類されている。 PCAを適用して2次元の合成変数（主成分）に圧縮。元のデータの分布特性（グループ構造）が保存されている。

復元された100枚の手書きデータ 100枚の手書き文字画像：256変数(ピクセル) (例) 手書き文字画像データの特徴抽出次元圧縮復元 PCAを適用して20パターンの特徴を抽出（固有ベクトル）

数学 (x1,i) と英語 (x2,i) の50人 (n=50) の得点からなる2変数デ-タを重み係数 w =(w1, w2) を使って1変数に要約（射影）する。 • 2変数データを1変数（主成分）に変換 PCAの基本的な考え方 • 　重み係数 w= (w1, w2) をどのように決めるか？ • データの変動特性をできるだけ保存するように！

p 個の変数の場合も同様に PCAの設計原理 • PCAはyiの分散が最大になるような w を求める。

n個のデータ点を方向 wに射影する この例では、w’ に射影する方が得られる合成変数の分散が大きい。分散を最大にする射影の方向、直観的理解 • 元の２変数データのばらつきをより適切に反映できる変換。 • 相関の高い変数群を一つの合成変数にまとめる。

　計算手続きは、分散共分散行列の固有値問題を解くだけです。　計算手続きは、分散共分散行列の固有値問題を解くだけです。 • 　射影したデータ点、すなわち主成分の分散に対して行列表現を行います。 [ 主成分の分散 ] 主成分分析の定式化 ① (y の式を代入 ) (2次形式で表現) ※ データの分散共分散行列を方向 w に射影したもの ※相関行列を使っても構いませんここで、Sxは元のデータの分散共分散行列

分散の最大化 ベクトルの長さに対する拘束条件が必要主成分分析の定式化 ② ※ ここでは長さを1とするが、任意の値に設定しても良い。 ※ 拘束条件の必要性は Syの定義式に立ち返ればすぐに分かる。係数ベクトルに任意の定数 cを掛けることで、いくらでも分散が大きくすることができる。したがって、係数ベクトルの長さに対して適当な制約を課す必要がある。

最適化問題を解いて、係数ベクトルを求めてみよう。最適化問題を解いて、係数ベクトルを求めてみよう。主成分分析の定式化 ③ ラグランジェ未定乗数法を使います。ラグランジェ乗数ラグランジェアンの微分を計算すると次の固有方程式が得られる。 • 係数ベクトルはデータの分散共分散行列の固有ベクトルのいずれかになる。 • ラグランジェ乗数は固有値

係数ベクトルの「候補」として、m 個の固有ベクトルが得られました。それらの中でどれを選べば良いか？（分散を最大にするものは？）主成分分析の定式化 ④ (解の候補) (固有方程式を満たす) 固有ベクトル固有値 • 最大固有値に相当する固有ベクトルが、分散を最大にする係数ベクトル固有値の大きさ = 固有ベクトルで射影したデータの分散左から固有ベクトルを掛ける固有値射影したデータ点の分散

最大固有値の固有ベクトルは、分散を最大にする係数ベクトル 最大固有値の固有ベクトルは、分散を最大にする係数ベクトルこれに基づく合成変数を第1主成分と言います第1主成分、第2主成分、第3主成分 • 第１主成分だけでデータの変動特性を十分説明できないとき、第２主成分、第３主成分と順に合成変数を追加する。 • 大きさの順序が2番目以降の固有ベクトルを使って、第2主成分から第m主成分を求める。第2主成分第3主成分固有値(=分散)を降順に並べる第m主成分

は p次元空間の正規直交基底 つまり、元データの座標変換に相当する。第1主成分ベクトル第1主成分と第2主成分第2主成分ベクトル

一般に、p個の主成分スコアの大きいものから数個の変数を取り出し、各主成分にどのような変数が寄与しているか調べ、各々の科学的知識に基づき主成分を解釈する。一般に、p個の主成分スコアの大きいものから数個の変数を取り出し、各主成分にどのような変数が寄与しているか調べ、各々の科学的知識に基づき主成分を解釈する。係数の大きさ（主成分スコア）は各主成分に対する寄与率を表す各主成分の解釈の仕方第1主成分は国語の得点を反映第1主成分は数学の得点を反映第1主成分ベクトル第1主成分ベクトル

殺人　(Muder) • 暴行　(Assault) • 性犯罪　(Rape) • 都市部居住者人口の割合解析例：米国50州、居住者100,000人当たりの犯罪統計 • 変数間で数値データの単位（スケール）が異なることに注意 • このような場合、分散共分散に基づくPCAは不適切

分散共分散行列の固有ベクトル 各主成分は個々の変数の情報だけを反映 • 相関行列の固有ベクトル相関の高い変数ペアを合成することができた第１主成分：　Murder + Assault + Rape 第2主成分： UrbanPop + Murder

主成分寄与率: 各主成分はデータの全変動どのくらいの割合を占めるか • 第１主成分と第2主成分でおよそ87％の変動を説明できる • 残りの成分は、観測誤差と解釈することとする

低都市部への人口集中度高少多犯罪件数

理化学研究所の鎌谷直之グループディレクターは、遺伝子のわずかな個人差によって、日本人が二つの集団に大別できることを、理化学研究所が明らかにした。沖縄の人の大部分が含まれる「琉球クラスター（集団）」と、本土の人の大部分が属する「本土クラスター」があるという。２５日付の米国人類遺伝学会誌に発表した。理化学研究所の鎌谷直之グループディレクターは、遺伝子のわずかな個人差によって、日本人が二つの集団に大別できることを、理化学研究所が明らかにした。沖縄の人の大部分が含まれる「琉球クラスター（集団）」と、本土の人の大部分が属する「本土クラスター」があるという。２５日付の米国人類遺伝学会誌に発表した。 (毎日新聞　2008年9月26日　東京朝刊) 各主成分の解釈の仕方 ② 理化学研究所　ゲノム医科学研究センター鎌谷直之グループディレクター

多変数データの次元削減や特徴抽出、視覚的理解に活用できる統計技法多変数データの次元削減や特徴抽出、視覚的理解に活用できる統計技法 • 合成変数の分散（ばらつき）が大きくなるように変数に重みを与える（データの分布特性に関連する変数を自動的に同定することに相当） • 数万次元のデータでも、統計解析ソフトウェア（例えば R）を利用すれば簡単に計算できます。主成分分析のまとめ • 参考図書 • ※ 初学者向け • 中村永友 (著) 『多次元データ解析法 (Rで学ぶデータサイエンス 2) 』共立出版 • ※ 中級者以上 • 小西貞則 (著)『多変量解析入門―線形から非線形へ』岩波書店 • C. M. ビショップ (著)『パターン認識と機械学習上・下』シュプリンガー・ジャパン

分類の統計学 • 判別分析 + クラスタ分析

判別分析 ( Discriminant Analysis )

ある個体の特徴量（複数の観測値）から、その個体が、あらかじめ与えられたいくつかの群のどれに属するかを判断したい。例えば、ある個体の特徴量（複数の観測値）から、その個体が、あらかじめ与えられたいくつかの群のどれに属するかを判断したい。例えば、・血圧やバイオマーカーの検査値から、疾患・非疾患の診断を行う。・財務データから、企業がデフォルト起こすかどうかを判断する。判別分析とは？ＡさんＡさんのデータ甲薬効果有？無？ B さん Bさんのデータ甲薬効果有？無？

属性クラス p個の変数で特徴付けられた個体判別ルール・・・・・判別ルールを作る • 属性クラスデータx がこの領域に入ればG1に分類変数 x1 判別境界(ルール) 変数 x2

現在手元にあるデータを分割 未来のデータ訓練データテストデータ「訓練データ」を使って判別ルールを作り、「テストデータ」にもとづきルールの良さを評価する。 ③ 実運用 ① 「訓練データ」を使って判別ルールを設計 ② 性能評価用 ① 属性ラベルの分かっているデータから判別境界を学習 ② 属性ラベルの分からないデータのクラスを予測し、判別ルールの性能を評価グループ１　　グループ２　　グループ３

確率モデルにもとづく判別分析

データはある確率分布から生成されていると仮定する。データはある確率分布から生成されていると仮定する。属性ラベル yiがあたえられたもとでのデータxiの条件付き分布確率モデルを導入する属性ラベル yiの実現確率属性ラベルと特徴変数の同時分布ラベル yi=1 のデータ生成分布個体 iの属性ラベル p個の特徴変数を要素にもつベクトルラベルは確率的に決まるラベル yi=2 のデータ生成分布

ベイズの定理 にもとづき，データが各クラスに属する（事後）確率を計算する。「特徴 xi をもつ個体がラベル yi=kに属する確からしさ」事後確率にもとづく判別 (ラベルの事後確率) (例) P ( ラベル=企業の倒産 | 特徴=企業の財務データ ) 観測された財務データxiの事後確率を計算する倒産リスクは？

　事後確率が最も大きい属性に分類する判別方式を「ベイズルール」という。　事後確率が最も大きい属性に分類する判別方式を「ベイズルール」という。ベイズルール • 直観的で自然な判別方式 • 判別の平均的な誤り率（ベイズリスク）を最小にする判別方式 • 問題は　　　　　　に対してどうようなモデルをおくのか、また、仮定されたモデルを訓練データからどうやって推定するのか？このあと正規分布モデルを例に、実際の判別分析の手続きを導出します。

多変量正規分布にもとづく判別

１次元正規分布の確率密度関数 • 1次元の正規分布 : 分散平均多変量正規分布分散共分散行列平均ベクトル • 　多変量正規分布 : 2変量正規分布の確率密度関数高低相関

最尤法（さいゆうほう:maximum likelihood estimation) 確率分布　のパラメータをn個の標本から推定する際、最尤法は尤度と呼ばれる「標本の確率分布に対する適合度」を最大にするパラメータを推定値とする。最尤法によるパラメータの推定 (対数) 尤度尤度を最大にするパラメータを求めるのが最尤法 1次元正規分布の平均パラメータの推定（イメージ）高低の正規分布の正規分布尤度 100個の標本

多変量正規分布の最尤推定量は、 （標本平均）平均ベクトル多変量正規分布の最尤推定（標本分散共分散行列）分散共分散行列 • 最尤推定量の導出に関する参考資料： • 自然科学の統計学 (基礎統計学), 東京大学出版会

以下では、多変量正規分布を利用して、線形判別と2次判別を導く。以下では、多変量正規分布を利用して、線形判別と2次判別を導く。線形判別と非線形判別非線形判別－判別の識別面が非線形関数－線形判別－判別の識別面が１次関数－クラス1と判定クラス2と判定識別面が2次曲線になる場合を「2次判別」という

属性ラベルと特徴変数の生成過程として、多変量正規分布を仮定する。属性ラベルと特徴変数の生成過程として、多変量正規分布を仮定する。多変量正規分布を使った線形判別 (モデリング) ① ② K 面体のサイコロを振って属性 k を決定し、クラス k の正規分布からデータを生成する。 ①　各ラベルに属するデータの生成モデルとして正規分布を仮定する。 ※　ここで，分散共分散行列はクラス間で共通と仮定 ②　各属性の(事前)確率

　ベイズの定理から、各属性ラベルの事後分布は次のような形であたえられる。　ベイズの定理から、各属性ラベルの事後分布は次のような形であたえられる。線形判別の導出 ① マハラノビス距離あとは、事後分布が最も大きくなる属性 k に分類すればよい。「近い」クラスに分類クラス1の分布クラス２の分布

データ xiが二つの属性 k と h のどちらに属するかを判別するには，事後分布の対数比が０よりも大きいか，あるいは小さいかを評価すればよい．線形判別の導出 ② 識別面は1次関数で表される x1 • 分散共分散行列はクラス間で共通と仮定することで、線形の識別面が得られる。 • この仮定を外すと識別面は二次曲線になる。 x２

n個の「訓練データ」を使って最尤法でパラメータを推定する。n個の「訓練データ」を使って最尤法でパラメータを推定する。最尤推定量の計算そのあとで、推定したパラメータを事後分布の式にプラグインして判別を行う。混合比率（クラス k に属する個体の割合）（クラス k に属する個体の標本平均）平均分散共分散行列（クラスごとに計算した標本分散共分散行列をさらに平均化したもの）クラス k に属する個体数

多変量正規分布にもとづく2次判別

2次判別と線形判別 • 各属性の特徴変数の分布として「共通の分散共分散行列」をもつ多変量正規分布を仮定することで線形判別を導出した。 • 次に、「非共通の分散共分散行列」をもつ多変量正規分布を仮定することで2次判別関数を導出する。識別面は2次関数識別面は線形異なるマハラノビス距離クラス1と2の正規分布が構成する中心からのマハラノビス距離は同一と仮定

属性ラベルと特徴変数の生成過程として、多変量正規分布を仮定する。属性ラベルと特徴変数の生成過程として、多変量正規分布を仮定する。多変量正規分布を使った2次判別 (モデリング) ① ② ①　各ラベルに属するデータの生成モデルとして正規分布を仮定する。クラス間で異なる分散共分散行列を仮定する。線形判別との相違点はこの点のみ。 ②　各属性の(事前)確率

　ベイズの定理から、各属性ラベルの事後分布は次のような形であたえられる。　ベイズの定理から、各属性ラベルの事後分布は次のような形であたえられる。変更点はここ 2次判別の導出 ① マハラノビス距離あとは、事後分布が最も大きくなる属性 k に分類すればよい。「近い」クラスに分類クラス1の分布クラス２の分布

多変量データ解析と 時系列解析