1 / 69

遺伝 統計学における 正単体の活用

遺伝 統計学における 正単体の活用. KBS 2012/10/09 京大 ( 医 ) 統計遺伝学 山田 亮. 今日の内容. 正単体とは 正単体の利用例x3 2値型多型が作る組合せアレル ( ハプロタイプ ) 集団 遺伝学・進化学 多次元分割表 代数 統計 木型グラフの次元縮約 グラフ理論. 正単体. 正単体のおもな特徴. N 次元空間に N+1 個の頂点 すべて の頂点は相互に対等 1頂点ベクトルは残りの頂点ベクトルの和と相殺する 角は cos (t) = -1/N. 正単体の利用例x3. 2 値型多型が作る組合せアレル ( ハプロタイプ )

luz
Download Presentation

遺伝 統計学における 正単体の活用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 遺伝統計学における正単体の活用 KBS 2012/10/09 京大(医)統計遺伝学 山田 亮

  2. 今日の内容 • 正単体とは • 正単体の利用例x3 • 2値型多型が作る組合せアレル(ハプロタイプ) • 集団遺伝学・進化学 • 多次元分割表 • 代数統計 • 木型グラフの次元縮約 • グラフ理論

  3. 正単体

  4. 正単体のおもな特徴 • N次元空間にN+1個の頂点 • すべての頂点は相互に対等 • 1頂点ベクトルは残りの頂点ベクトルの和と相殺する • 角はcos(t) = -1/N

  5. 正単体の利用例x3 • 2値型多型が作る組合せアレル(ハプロタイプ) • 多次元分割表 • 木型グラフの次元縮約

  6. 2値型多型が作る組合せアレル(ハプロタイプ)2値型多型が作る組合せアレル(ハプロタイプ) • DNA • 塩基 • 4種類 A T G C T A G C

  7. 2値型多型が作る組合せアレル(ハプロタイプ)2値型多型が作る組合せアレル(ハプロタイプ) • 塩基 • 4種類 A T G C • 多型 • 1塩基多型(SNP) • 2種類の塩基 • (T/C),…

  8. 2値型多型が作る組合せアレル(ハプロタイプ)2値型多型が作る組合せアレル(ハプロタイプ) • 2SNPが作る組合せアレル(ハプロタイプ) aB AB Ab A B a b ab

  9. 4ハプロタイプの関係 A B a b A b a B

  10. 4ハプロタイプの関係 A B aB AB a b Ab A b a B ab

  11. 4ハプロタイプの関係 • 交叉・組換えが起きなければ • (ABab)だけのまま • (AB,Ab,aB,ab)の4ハプロタイプの相互関係は完全に対等ではない

  12. V1 V1 V1 V1 E1 E5 V1 V2 E5 V4 E1 E5 E3 E4 E4 V2 E1 V4 E3 V4 E6 E5 E3 E5 E3 E1 V2 E4 E6 E2 E3 E2 E6 E2 E4 E2 V3 V4 V3 V3 E2 V2 E6 V3 V3 AB AB AB ab ab ab aB aB Ab aB Ab Ab

  13. 2SNP 4ハプロタイプの世界~集団遺伝学~ • 4ハプロタイプの頻度 • H=(h(AB),h(Ab),h(aB),h(ab)) • Hの頻度の状態は四面体上の1点に対応づけられる • Hは進化・人類史において変化(突然変異・適応・淘汰・組換え)するので、四面体上の動きとして表現される • 頂点:遺伝的多様性がない • 重心:遺伝的に最も多様 • 実際の位置:相対的な『辺境』 • k個のSNP: 2k個の頂点を持つ正単体 aB AB Ab ab

  14. たくさんの多型2k個の頂点を持つ正単体

  15. 正単体の利用例x3 • 2値型多型が作る組合せアレル(ハプロタイプ) • 多次元分割表 • 木型グラフの次元縮約

  16. 非負の空間 • N次元デカルト座標の「部分」 • (10,30,25) というデータに(10,30,25)という座標を与える • (10,30,26) というデータに(10,30,26)という座標を与える

  17. カテゴリ (T,0,0) • 『全部を併せて、T個』という制約 (0,0,T) 3次元空間にある 頂点数が3の正単体 この正単体は 2次元平面上にある (0,T,0)

  18. 自由度のこと (T,0,0) • N-カテゴリ→ N次元空間(非負部分) • 「N個の値の和」という制約を与える • N-カテゴリ→ N-1 正単体 • N個の値のベクトル→ N-1次元の点 • 次元を1つ落とす (0,0,T) (0,T,0)

  19. x x (1,0,0) z (0,0,1) y y 1 (0,1,0) rotation

  20. x x (1,0,0) z (0,0,1) y y 1 (0,1,0) Parallel to yz-plane rotation

  21. 正単体とカテゴリ • Nカテゴリ • 総数の制約があると • N次元空間上のN-1次元亜空間に納まる • 回転すると 1 次元分は定数のN-1次元空間にN個の頂点を持つ正単体の頂点座標ベクトルに対応づけられる rotation

  22. 分割表 • N x M 分割表 • 2次元分割表 • N-カテゴリ • M-カテゴリ

  23. N x M 分割表まったく制約がない場合 • N xM個の値に応じて(v(1),v(2),…,v(NxM))という座標を対応づける (N x M) x (N x M)

  24. N x M 分割表まったく制約がない場合 • N xM個の値に応じて(v(1),v(2),…,v(NxM))という座標を対応づける • Nカテゴリ・Mカテゴリに制約がないとき(回転前)の正単体頂点座標 M x M N x N <組み合わせる>

  25. N x N M x M <組み合わせる> (N x M) x (N x M)

  26. x x N x M 分割表 z • N次元制約空間(正単体)x M次元制約空間(正単体) • 座標の表現 y y • → • <組み合わせる> rotation rotation • → • <組み合わせる>

  27. 正単体の座標を都合よく決めれば決まる • → • <組み合わせる> rotation rotation • → • <組み合わせる>

  28. 正単体の座標を都合よく決めれば決まる クロネッカー積 • → • <組み合わせる> rotation rotation • → • <組み合わせる>

  29. 正単体の座標を都合よく決めれば決まる

  30. 多次元分割表に一般化

  31. dimension (k=) 2 (k=) 3 shape 2×3×4 2×3 shape vector The number of the cells R= 24 R= 6 R= multi-way table (k-dimensional table)

  32. 多次元化 正単体の座標を都合よく決めれば決まる クロネッカー積 (⊗ is the Kronecker product) X is matrix

  33. 利用 • 複数の遺伝的座位 • 複数の表現型 • 因子が寄与するモデルの設定 • 解析を幾何学的に取り扱うのが容易になる Lectures on Algebraic Statics ISBN-13: 978-3764389048

  34. 正単体の利用例x3 • 2値型多型が作る組合せアレル(ハプロタイプ) • 多次元分割表 • 木型グラフの次元縮約

  35. 最小全域木を用いた経路型データの線形空間化最小全域木を用いた経路型データの線形空間化

  36. 経路型データ • 例 • 個体の細胞の発生・分化 • 分岐木状 • 特に標本量が多い例として • リンパ球の分化

  37. 経路型データ • 発生・分化の段階に連れて、遺伝子発現パターンが変化する • マーカーは出現しては、消え、再出現したりする (1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)

  38. 経路型データ (1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)

  39. フローサイトメトリー (FACS: Fluorescence-activated cell sorting) 11 分子 10万個の細胞 300 人分 発現量測定(蛍光) 特徴付け 割合推定 http://en.wikipedia.org/wiki/Fluorescence-activated_cell_sorting

  40. 実験室では・・・目で見ながら『選んでいく』実験室では・・・目で見ながら『選んでいく』 CD27 Plasma cell? CD138

  41. 木にしてみよう

  42. 木にしてみよう • 最小全域木

  43. 観測点が作る多様体(様)最小全域木で代用してみようMinimum spanning tree 全域木(すべてのノードが連結であって、『木』の形) 「辺の長さの和が最小」であるもの

  44. CD138 特定の分子の多寡で色をつければ… CD27

  45. CD138 特定の分子の多寡で色をつければ… (1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0) CD27

  46. 経路型データ • 木になぞらえるのは悪くない

  47. 経路型データ • 木になぞらえるのは悪くない • 木 • ノード(標本)の数(N) と • N-1本のエッジの引き具合と • その長さ

  48. 経路型データ • 木になぞらえるのは悪くない • 木 • ノード(標本)の数(N) と • N-1本のエッジの引き具合と • その長さ • ずいぶんと情報が少なくできた

More Related