120 likes | 217 Views
確率論による検索モデル. 基本となる仮定 古典的確率論による検索モデル ベイジアンネットワークによる検索モデル 推論ネットワーク 信念ネットワーク ニューラルネットワーク. 基本となる仮定. タームの独立性 : 検索の対象となる文書においてタームの出現は独立。すなわち、ターム間に出現に関する依存性はない。 出現しないタームも考慮 : 文書に出現するタームだけではなく、出現しないタームも検索のモデルで考慮する。. 古典的な確率論による検索モデル その1. Jones(1976) の検索モデル
E N D
確率論による検索モデル • 基本となる仮定 • 古典的確率論による検索モデル • ベイジアンネットワークによる検索モデル • 推論ネットワーク • 信念ネットワーク • ニューラルネットワーク
基本となる仮定 • タームの独立性: 検索の対象となる文書においてタームの出現は独立。すなわち、ターム間に出現に関する依存性はない。 • 出現しないタームも考慮: 文書に出現するタームだけではなく、出現しないタームも検索のモデルで考慮する。
古典的な確率論による検索モデル その1 • Jones(1976)の検索モデル • タームi の文書j における重みwi,jと質問q における重みwi,qは0 か1 をとるとする。また、質問q に適合する文書の集合をR 、しない文書の集合をとする • 文書dj が質問q に適合する確率、 • 文書dj が質問q に適合しない確率 • q とdj の類似度は • Bayseの定理により • とは個々の文書には依存しないので、定数であるから考慮しなくてよい。、
古典的な確率論による検索モデル その2 • 文書dj にタームti が含まれる、すなわちwi;j = 1 である確率を • 含まれない Wi,j = 0 • ターム間の独立性を仮定しているので、 • まず であるから、 を求めればよい。つまり、検索結果として欲しい文献は質問 q に対して sim の大きい方から文献 dj を順に提示することである。 • しかし、質問q に対応する文書集合R は初めは分からない。(それが初めから分かっているなら、もう検索においてやることはない!!)そこで、以下のように近似と繰り返しによってこれらを求める。
古典的な確率論による検索モデル その3 • を繰り返し計算により求める方法 Step 1初期設定(第0次近似) ni = (ti を含む文書数); N =( 全文書数) Step 2 1 回目はstep 1 、2 回目以降はstep2 の結果の上位r 個の文書を適合文書集合V とする。ただし、r は予め決めておいた閾値。また、V にうちタームti を含む文書の集合をVi とする。これを用いて、以下のように計算する。 Step 3 Step 2 を繰り返す。ただし、適合文書かどうかは質問者が判断する。
古典的な確率論による検索モデル その4 • 上記の確率論によるモデルは結局、教師なし学習である。 • 質問者が適合文書かどうかを判断することによってP(ti|R)を決めていく こともできる。この場合は、確率論に基づく関連性フィードバックになる。
ベイジアン・ネットワーク・モデル • 確率論による基礎を生かしたネットワークモデル • ノードはXiという状態を持つ。 • ノードpからノードqが確率P(p|q)で導けるとpからqへのアークを持つy有向グラフ。また非循環。すなわち、DAG(DirectedAcyclic Graph) • この場合のX1,..,X5の結合確率は X1 X3 X2 X5 X4
推論ネットワーク その1 • 文書dj 、タームti 、質問q をノードとする d1 d2 t1 t2 t3 q • 文書dj が本質的確率変数であり、文書が観測されたということは、タームひいては質問によってサポートされるという考え方 • 全てのタームt 1 ,t 2, …..からなるターム空間における単位ベクトルをt= (w 1 ,w 2,…. )ただし、wi はタームti の重みで、0 か1 をとり、wi = 1 となるwi は1 個とする。
推論ネットワーク その2 • 質問q に対して文書dj が適合している度合は、確率P(q ^dj ) で表す • この確率をベイジアンネットを用いて計算するわけである。 • ベイジアンネットでは、P(dj ); P(ti | dj ); P(q j | ti) が分かっていることになっているから、それらによってP(q ^ dj ) を計算する。つまり • この式の第1項、第2項は、個々のタームの確率で表現すると
推論ネットワーク その3 • P(dj ):全ての文書が同じ確からしさで利用者に興味を持たれるなら、 • N = ( 全文書数) • もし、文書の含むターム数が少ないほど扱う分野が明確であり、興味の対象が絞られているなら、N の代わりにdjの含むターム数 • P(ti | dj ): 一番簡単なのは、 • P(ti | dj ) = 1 if dj がti を含む • =0 otherwise • あるいは、タームの出現回数が多いほど、この確率が高いと考えるなら、
推論ネットワーク その3 • P(q|ti): • 簡単なのは • P(q j ti) = 1if q がti を含む • = 0otherwise • あるいは、タームが希少価値を持つほど、この確率が高いと考えるなら、 • P(q | ti) = idfi if q がti を含む • = 0 otherwise
ニューラルネットワーク • 第1 層= 質問のターム、第2 層= ターム空間、第3 層= 文書空間、という3 層のモデルをニューラルネットワークで実現する • 質問ターム 全タームのなす空間 全文書のなす空間 t1 t1 d1 t2 d2 t3 : t2 t4 : : : : tk dN