1 / 41

多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

多人数一括DNAプロファイリングのため の 確率計 算法に関する考察. 法数学勉強会 2011/09/10 京都 大学大学院医学研究科 統計遺伝学 分野 奈良原 舞子 山田 亮. 状況. 大災害が発生 多数の行方不明者 多数の身元不明遺体 外見や所持品などから身元が特定された遺体はすでに遺族に返還されている。 残っている遺体の手がかりは、主に遺伝情報. 使える データ. 遺体 ジェノタイプ 発見時の状況など 行方不明者 家系情報 家族のジェノタイプ. 個人の鑑定 簡単 に描くと. b1. 行方不明者  Missing.

wilmer
Download Presentation

多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 多人数一括DNAプロファイリングのための確率計算法に関する考察多人数一括DNAプロファイリングのための確率計算法に関する考察 法数学勉強会 2011/09/10 京都大学大学院医学研究科 統計遺伝学分野 奈良原舞子 山田 亮

  2. 状況 大災害が発生 多数の行方不明者 多数の身元不明遺体 外見や所持品などから身元が特定された遺体はすでに遺族に返還されている。 残っている遺体の手がかりは、主に遺伝情報

  3. 使えるデータ • 遺体 • ジェノタイプ • 発見時の状況など • 行方不明者 • 家系情報 • 家族のジェノタイプ

  4. 個人の鑑定簡単に描くと b1 行方不明者 Missing 身元不明者 found Body m1 集団の誰か

  5. 集団の鑑定 身元不明者 found Body 行方不明者 Missing m1 b1 b2 b3 bN m2 m3 .. .. .. .. .. .. mN

  6. 集団の鑑定 N人をN体に割り付ける • N! = N×(N-1) ×(N-2)×... ×2×1 通り • (m1,m2,...,mN)=(b(s1),b(s2),...,b(sN)) • 割り付け方:Si=(s1,s2,...,sN) がN!通り

  7. Si=(i1,i2,...,iN)という割り付け m1 = b(s1) m2 = b(s2) m1 = b(s2) ... ... mN = b(sN)

  8. Si=(i1,i2,...,iN)という割り付けを 観察する確率は? P(m2=b(s2)) P(m1=b(s1)) P(m3=b(s3)) × × m1 = b(s1) m2 = b(s2) m1 = b(s2) P(mN=b(sN)) × × × ... ... mN = b(sN)

  9. N!通りの確率 • P(S1),P(S2),...,...,...,...,P(SN!) • 最も大きなP(Si)となるSiは最尤推定割り付けがある • N!通りの割り付けのすべての確率を計算して、最大の場合を見つける?

  10. N!通りの確率 • P(S1),P(S2),...,...,...,...,P(SN!) • 計算する...? • 1!=1 • 2!=2 • 3!=6 • 4!=24 • 5!=120 • 6!=720 • 7!=5040 • 8!=40320 • 9!=362880 • 10!=3,628,800 • 3百万 • 11!=39,916,800 • 12!=479,001,600 • 4.8億 • 15!=1.3 x 1012 • 20!=2.4 x 1018

  11. 多すぎてN!通りを計算できない • N!通りを計算しないで、最尤割り付けがわかる? • 重みづけ最適化・重みづけマッチング • ハンガリアン・アルゴリズムなど

  12. 最尤推定割り付けがわかればそれが「答え」なのか?最尤推定割り付けがわかればそれが「答え」なのか? • P(Si) と P(Sj)とが第一位、第二位だとする • P(Si)とP(Sj)とが等しかったら… • P(Si)とP(Sj)とがほぼ等しかったら… • P(Si)とP(Sj)とが数倍の違いしかなかったら…

  13. 第1,2,…n位割り付けがわかればそれが「答え」なのか?第1,2,…n位割り付けがわかればそれが「答え」なのか? • 「僅差」の割り付けがあったら、結局、どうしたらよいのかわからない 尤度が高い割り付けパターンを探すだけでは、解決しないかも

  14. ある家族 • 「我が家の行方不明者mは、遺体b1,...,bNのうちのどれか1体だと言えますか?それとも、言いかねますか?」 • ある遺体を保管しているところ • 「この遺体bは、探されている行方不明者m1,...,mNのだれか1人だと言えますか?それとも、言いかねますか?」

  15. N=3で考える 6通りの割り付け N=3 の場合 確率行列 各仮説の尤度: 3つのペア全てでジェノタイプが一致する確率 3体の遺体と3人の不明者を割り付ける場合の数

  16. 仮説2 6通りの割り付け N=3 の場合 確率行列 この仮説の尤度=P(M1=B1)xP(M2=B3)xP(M3=B2)

  17. M1=B1,それ以外の割り付けはなんでもあり仮説1+2M1=B1,それ以外の割り付けはなんでもあり仮説1+2 6通りの割り付け N=3 の場合 確率行列 この仮説の尤度=P(M1=B1)xP(M2=B2)xP(M3=B3)

  18. M1=B1,それ以外の割り付けはなんでもあり仮説1+2M1=B1,それ以外の割り付けはなんでもあり仮説1+2 6通りの割り付け N=3 の場合 確率行列 この仮説の尤度=P(M1=B1)xP(M2=B3)xP(M3=B2)

  19. 行列式(Determinant) 割り付けの場合ごとに掛け算をする「加える」要素と「引く」要素がある Wikipedia

  20. パーマネント 割り付けの場合ごとに掛け算をする 全部を「加える」

  21. パーマネント • 行列式の計算は簡単で正確 • この6通りの確率の和が3次正方行列のパーマネント • パーマネントを求めるためのいくつかの方法がある • 正確 • 近似的 • 近似法を使うことでだいぶ速く計算できる。

  22. パーマネントの計算方法 • 今日は、割愛 • 気になる方は • Wikipedia http://en.wikipedia.org/wiki/Permanentから情報の入手は可能です

  23.  近似法は速い 計算にかかる時間 (sec) 正確法 近似法 (N: 行列サイズ)

  24. Fluctuation of estimation • もとがNxN行列なら2xN 個の L(All) が出る • 各列和・各行和 • そのL(All) は推定値なので、誤差がある • 最大値と最小値の差は0.102 注: scale 調整後

  25. パーマネント計算 近似法の精度 • 「真のパーマネント」を大きな行列で計算するのは非現実的なので、「真の精度」を評価するのは難しいのですが Approximating the Permanent with Belief Propagation, by Bert Huang and Tony Jebara @ http://www.cs.columbia.edu/~bert/permanentTR.pdf これは別なパーマネント近似法ですが…

  26. 尤度のNxN行列 • 「mi=bj、あとは何でもあり」に対応する(N-1)!仮説の確率を合算する • この行列の各行の和は、どの行も等しい • 各行の和は以下の和 • 「mi=b1、あとは何でもあり」 • 「mi=b2、あとは何でもあり」 • … • 「mi=bN、あとは何でもあり」 • これは「miも何でもあり、他も何でもあり」だから

  27. 尤度のNxN行列 • 「mi=bj、あとは何でもあり」に対応する(N-1)!仮説の確率を合算する • この行列の各列の和もやはり等しい • 各列の和は、各行の和とも等しい

  28. 行を列に入れ替えても同じこと家族が知りたいことにも、遺体保管者が知りたいことにも、答えられる行を列に入れ替えても同じこと家族が知りたいことにも、遺体保管者が知りたいことにも、答えられる • 行 • ある家族 • 「我が家の行方不明者mは、遺体b1,...,bNのうちのどれか1体だと言えますか?それとも、言いかねますか?」 • 列 • ある遺体を保管しているところ • 「この遺体bは、探されている行方不明者m1,...,mNのだれか1人だと言えますか?それとも、言いかねますか?」

  29. 尤度割合のNxN行列 • 尤度のNxN行列の各列の和、各行の和はすべて等しいので、その値で、尤度のNxN行列のすべての成分を割ってやる • それを「尤度割合のNxN行列」とする • 各行、各列の和は、すべて1

  30. 2つのNxN行列 • 確率行列 • P(mi = bj) の行列 • 尤度割合行列 • 「m1=b2、あとは何でもあり」に対応する(N-1)!仮説の確率を合算

  31. NxNの確率行列 • 割り付けの計算のために正方行列がほしい。 • 全ての遺体と行方不明者が1対1対応すると仮定 • 仮定できなければ、足りない分を一般集団で補う

  32. NxN尤度割合行列 • L(mi=bj)/ L(ALL) の NxN行列ができる • 基準 v を満たしたペアの割り付けが決定する • v = 0.99 としたら、

  33. 行を列に入れ替えても同じこと家族が知りたいことにも、遺体保管者が知りたいことにも、答えられる行を列に入れ替えても同じこと家族が知りたいことにも、遺体保管者が知りたいことにも、答えられる • 行 • ある家族 • 「我が家の行方不明者mは、遺体b1,...,bNのうちのどれか1体だと言えますか?それとも、言いかねますか?」 • 列 • ある遺体を保管しているところ • 「この遺体bは、探されている行方不明者m1,...,mNのだれか1人だと言えますか?それとも、言いかねますか?」

  34. 遺体引き取り と 遺体引き渡し • NxN尤度割合行列のセルの値を使って、「遺体引き取り」「遺体引き渡し」の判断ができるだろう • 閾値は…

  35. 処理フロー Missings 血縁関係情報 血縁者のDNA型 Bodies 遺体のDNA型 確率行列 パーマネント計算 尤度割合行列 引き取り・引き渡し判定

  36. simulation data • 想定した全体 • 全ての行方不明者:104人 • 100家系 + 重複4家系 • 重複:行方不明者が複数いる家系 • 手元のデータ • 100家系のうち68家系(incl. 重複3家系) • 本当は全部使う予定だったが時間の関係で途中まで計算したところで割り付けをしたので家系も足りない状況になった。 • 104人の不明者のうち、54人をランダムに選択 •  家系も遺体も足りない状況

  37. Simulation結果

  38. 正解のペア全:30ペア • v > 0.999 : 27 ペア ☆ • 全て正解 • v > 0.9 : 1 ペア ! • 正解 • 家系として0.999 を満たす • 1家系ー2遺体 が該当 • 正解 0.999で感度 27/30 ハズレなし

  39. permanent計算後の確率(尤度比)が0でなかったペアの値をsort してplot したもの 正解ペア はずれペア 同一家系の2人 正解ペア

  40. 尤度比の自然対数 vs1/(1-p) の自然対数 (p: 尤度割合)

  41. 可能性と課題 • 可能性 • 「事前確率」を取り込める • 性別・所持品等の情報を容易に取り込める • 「一般化」 • 個人鑑定を同じ枠組みで考えることが(おそらく)可能 • 課題 • 申請のない行方不明者と発見されていない遺体のとりあつかい • 1家系に複数の行方不明者がいる場合 • 非独立な確率・・・行列を使った計算が苦手

More Related