230 likes | 506 Views
生物統計学・第 3 回 全体を眺める( 2 ) 主成分分析. 2013 年 10 月 21 日 生命 環境科学域 応用生命科学類 尾形 善之. まずは先週のリマインド. 全体を眺める ため の指標 代表値 算術 平均、 中央値、 最頻値 調和 平均 いろいろな グラフ 棒、 折れ線 ヒートマップ. いよいよ本格的な多変量解析. 代表格: 主成分分析 よく「 PCA 」と 呼ばれます 間違って「 PCA 解析」とも 呼ばれます P rincipal C omponent A nalysis 「主成分」って ? データ全体の特徴を表す指標 です
E N D
生物統計学・第3回全体を眺める(2)主成分分析生物統計学・第3回全体を眺める(2)主成分分析 2013年10月21日 生命環境科学域 応用生命科学類 尾形 善之
まずは先週のリマインド • 全体を眺めるための指標 • 代表値 • 算術平均、中央値、最頻値 • 調和平均 • いろいろなグラフ • 棒、折れ線 • ヒートマップ
いよいよ本格的な多変量解析 • 代表格:主成分分析 • よく「PCA」と呼ばれます • 間違って「PCA解析」とも呼ばれます • Principal Component Analysis • 「主成分」って? • データ全体の特徴を表す指標です • 多次元データ → 2次元グラフ • 四次元グラフ…… • 79次元グラフ……
教科書では… 地上部 種
目で見る主成分分析の原理 • 主成分(Z) • 実験条件の数だけ引ける • 優先順位がつく • 原理(ひとこと) • 軸を変えている! • できるだけばらしている! 実験2 第1主成分(Z1) 第2主成分(Z2) 実験1
チェックポイント・I • 主成分分析とは? • 主成分とは? • 主成分分析の原理?
生物データセット • シロイヌナズナのマイクロアレイデータ • 79実験条件 • 組織、発達段階 • 3反復 • 合計237実験
79実験条件 生物データセット (ちょっと改良) 遺伝子 At1g56650
実際の主成分分析 • Rを使います • Rって? • いろいろな統計解析ができるツールです • 特に生物統計学向きです • Rの回で詳しく話します • 自習用に今日の作業手順のファイルを置いておきます • http://www.plant.osakafu-u.ac.jp/plantbio/ • 「大阪府立大学 植物バイオサイエンス」で検索
主成分分析で使う3つのグラフ • 寄与率 • 負荷量(主成分負荷量) • 得点(主成分得点)
寄与率:どのくらい貢献しているか よくばらつきを表している 実験2 これなら第1主成分だけ見ればいいんじゃないか、というレベル 第1主成分(Z1) 棒グラフを足していって、 全体の95%までは見ていいよ、 という暗黙の了解 第2主成分(Z2) 分散(ばらつき) 実験1
負荷量:どの実験が効いているか それぞれの実験を表す 第2主成分 ひとつだけ離れている… 絶対値が大きい方に注目 第1主成分
得点:どの遺伝子に関わっているか それぞれの遺伝子を表す
得点:At1g56650は… 発現量が大きい遺伝子ほど、第一主成分は「負」になっている 第一主成分が「負」の大きい実験が多い 3.2 11.5 5.6 4.3 5.3 9.4 7.7 4.1 9.6 小 大 発現量 3.5 得点=負荷量×(平均発現量との差)
解釈の纏め • 今回の生物データセット • 第1主成分の得点(遺伝子) • 発現量大:負に大きい • 発現量小:正に大きい • 第1主成分の負荷量(実験) • 負に大きい実験群が多い • 負に大きい実験群では、 • 発現量の大きい遺伝子と発現量の小さい遺伝子はいつもほぼ決まっている
X73の正体は…… • At1g56650の遺伝子発現データ • 大体平均的な発現量 • 花粉で発現する遺伝子は少ない AtGE_73:花粉
主成分分析の長所と短所 • 長所だけ知ってもあまり役に立たない • 口コミとか • 長所 • ともかく全体を眺める(森を見る)のに便利 • ツールが充実している • みんなを納得させるのにも使える • 短所 • 主成分の意味が分かりにくいときがある • 実はあまり綺麗に分かれてこないことが多い
チェックポイント・II • 寄与率とは? • (主成分)負荷量とは? • (主成分)得点とは? • 主成分の意味はどうやって判断するのか?
今日の自習のポイント • 中央値を選んだデータセットを提供 • atgenx.txt • Rでの作業手順(これを辿ってみてください) • 131021pcastep.txt • そもそもRの使い方…… • Rの使い方.docx • ランダムデータ • atgenxrandom.txt
次回までの予習 • 次回は「各種クラスタリング」です • 教科書 • クラスター分析、階層的クラスター分析 • インターネット • 自己組織化マップ、ネットワーク解析 • ヒートマップ
本日の課題 • シロイヌナズナの79実験条件の遺伝子発現データを手に入れました。 • 79実験条件の全体を主成分分析で眺める方法を、「寄与率」「負荷量」「得点」を使って説明してください。 • 生物データセットに主成分分析を使ってみた印象(疑問に思うこと)を書いてください。