170 likes | 279 Views
ベクトル空間法. 最良優先検索 タームの重み付けと類似度 パッセージ検索. 各タームを次元にし、質問と文書をベクトルで表現するベクトル空間. ターム:知識. 質問q:「 人工知能 と 知識 の関係について の論文」 人工知能=1.0 知識=1.0 論理プログラム=0. 文書 D :「第5世代の失敗」 ターム:知識=0.7 :人工知能=0 :論理プログラム =2.5. 1.0. 0.7. D とqのなす角=類似度. 1.0. 2.5. ターム:人工知能. ターム:論理プログラム. タームの重み その1ターム頻度.
E N D
ベクトル空間法 • 最良優先検索 • タームの重み付けと類似度 • パッセージ検索
各タームを次元にし、質問と文書をベクトルで表現するベクトル空間各タームを次元にし、質問と文書をベクトルで表現するベクトル空間 ターム:知識 質問q:「人工知能 と知識の関係について の論文」 人工知能=1.0 知識=1.0 論理プログラム=0 文書D:「第5世代の失敗」 ターム:知識=0.7 :人工知能=0 :論理プログラム =2.5 1.0 0.7 Dとqのなす角=類似度 1.0 2.5 ターム:人工知能 ターム:論理プログラム
タームの重み その1ターム頻度 • ターム頻度(Term Frequency: tf ) • freq(i; j) = 文書Dj におけるタームt i の出現頻度。 • 変形版tf
タームの重み その2 文書頻度 • 文書頻度 Document frequency • ただし、Dfreq(i)はタームtiが出現する文書数 • 実際はその逆数 を使う • 文書総数Nによる正規化
IDF • ベクトル空間モデルではidf をヒューリスィックとして導入したが、ターム分布から理論的に導くこともできる。ある文書D が関連性があるR かない¬R かの対数尤度比L(D) を考える。
ベイズの定理により 3 、4 項は、関連性のある文書とない文書の比なので文書集合における定数であるから考慮しなくてよいので無視する。
質問Qに関連する文書としてD があるとし、Q はタームwi(i = 1,2,..) からなるとする。さらにXi = 1 ならD 中にwi が出現し、Xi = 0なら出現しないとすると次式になる。 P(Xi|R)=pi, P(Xi|¬R)=qi と書くと
P(Xi|R)=pi, P(Xi|¬R)=qi と書くと 第3項は常数なので無視
ここで、pi , qiを求めたいが直接に求めるこ とは難しい。そこで以下のように近似をして いく。まず、piはタームi の出現確率なので 非常に小さく、かつ質問に現れるようなター ムについては一定と仮定すると、第1 項は、 cΣiXiということになり、質問と文書におい て同時に現れたターム数に比例するものにな る。
qi = P(Xi = 1|¬R)だが、タームiが現れる文書の大多数はタームi に関連性がないと仮定すると、 qi =dfi/N (<<1) とすると、 log(1-x)/x ~–log x により タームi のidf=log(N/df) となり、結局次ぎのようになる。 ベクトル空間法において類似度計算に用いられる重みの重要な因子であるidfの理論的根拠が関連文書と関連しない文書の対数尤度比に比例的であるという結論が得られた。
ResidualIDF • idfとポアソン分布から予測されるdocument frequecy の差として次式で定義される。 • RIDF =–log(df/N)– log(1–p(0;cf/N)) • 第2項はPoisson分布で、タームt が少なくとも1回は現れる文書のポアソン分布における確率である。ポアソン分布は文書の意味内容に直接係わらないnon content なタームの分布をよく近似する。idfは全てのタームについてのidf だから、non content なタームの分を差し引くと意味内容を表すタームcontent wordを特徴付ける量が得られると考える
タームの重み その3 tf ·idf • 文書Djに現れるタームtiの重みwijは、Djには数多く現れ、他の文書にはあまり現れないという性質をもつべき。つまり、文書Djをよく特徴つけることが大切。そこで、前記のtfとidfをかけたものがよい。つまり、 tf ·idf
文書ベクトルと質問ベクトルとそれらの類似度 その1文書ベクトルと質問ベクトルとそれらの類似度 その1 • このようにしてタームtiの重みが決まったので、文書Djのベクトルは、各タームを次元に割り当てた多次元空間におけるベクトルとして表現できる。つまり、 • 一方質問qもタームtiを含めば1、含まなければ0という値にしてベクトルで表現できる。つまり • ただし、mは文書集合における全ての異なりターム数
文書ベクトルと質問ベクトルとそれらの類似度 その2文書ベクトルと質問ベクトルとそれらの類似度 その2 • さて、情報検索とは、質問qに対して類似度の高い文書Djを探すことなので、類似度simを以下に定義する。これは、ベクトル空間におけるqとDjのなす角θが0に近いほど類似度が高いと考える方法。 • sim の大きい順に検索結果をに並べて質問者に提示する。
標準的な検索エンジン • Okapi(Robertson)のBM25 • 原理的には,検索質問q と文書ベクトルdi が与えられときに,その文書が検索質問に適合している確率P(Rjq; di) を推計する • まずベクトル空間法におけるタームtのidf相当の部分w(t) • N:総文書数、nt:tの該当文書での出現回数
文書と質問qの類似度:Sim(d,q) tf:文書d中のタームtの出現回数 qtf:質問q中のタームtの出現回数 dl:文書長 Avdl:平均文書長 k1=1.2, k3=1000,b=0.75
パッセージ検索 • 文書の内容を特徴付けるのは文書全体よりはむしろ特定の部分 • ベクトル空間モデルを文書ではなく、文書の小さな部分、例えば段落、に適用。この小さな部分をパッセ―ジという。つまり、文書Dの代わりにパッセ―ジPkを使って、パッセ―ジ重みwikを計算し、ベクトル空間法を適用 • パッセ―ジの候補としては、 1 固定長に分割したテキストの部分 2 形式段落 3 形式的な節、章