2008-11-14 （金）奈良先端大　 D2 　小町守

EMNLP 2008 読み会KatrinErk and Sebastian Pado. “A Structured Vector Space Model for Word Meaning in Context” 2008-11-14（金）奈良先端大　D2　小町守

どのように単語の意味をモデル化するか • 単語の意味のモデル化→意味空間 • 高次元のベクトルで単語の意味を表現 • 各ベクトルは1つの見出し語→多義性の問題 • 単語の意味は文脈によって違う • Catch a ball （grab; ボールをつかむ） • Catch a disease （contract; 病気にかかる） • Attend a ball （a dancing event; ダンスパーティに出る） • →既存手法はこの違いをうまく表現できない

本論文のポイント Vector space model 単語をVSMで表現する既存手法の問題点 • 統語関係が無視されている • フレーズは1つのベクトルで表現しきれない • 統語関係を考慮に入れたVSMの提案→structured vector space model (SVS) • SVS は単語類似度・言い換えタスクでの state-of-the-art と同程度かそれ以上の性能

関連研究

言語構造を用いず文脈を使う • Schuetze (CL 1998) • 1次ベクトル→いわゆる共起ベクトル • 2次ベクトル • ウィンドウ幅の中での単語の1次ベクトルの和 • 語義クラスタを形成 • McDonald and Brew (ACL 2004) • Wiの期待値はw1…wi-1の1次ベクトルの和 • Wiの期待値とwiの1次ベクトルは人間の読み取り時間と相関がある

述語項構造を用いる（述語と項のペアをモデル化する）述語項構造を用いる（述語と項のペアをモデル化する） • Kintsch (Cognitive Science 2001) • ベクトル化されたpとaを用いて(p,a)のペアに似たペアを探す • →クラスタの意味は各(p,a)ベクトルのセントロイド • Mitchell and Lapata (ACL 2008) • p + a の組c = f(p,a,R,K) • Rはpとaの間の関係・Kは追加知識 • 実際はRもKも使っていない→関係は無視

テンソル積に基づく手法 • Smolensky (Artificial Intelligence 1990) • ベクトルaとbの結合 • 構造をエンコードできるが……→次元の呪い • Jones and Mewhort(Psychological review 2007) • Circular convolution を用いてn-gram の共起情報を固定された次元に落とし込む→上述の問題を回避 • 統語構造は用いていない

カーネル法とVSMの違い • カーネルとVSMとの共通点 • 文脈が与えられたときの言い換え可能性の尺度に用いることができる • 類似性の効率的な計算に implicit な素性空間を用いることができる • カーネルとVSMとの相違→用いる情報の力点 • 木カーネルでは統語構造の類似性のスムージングに意味情報を用いる (Moschitti and Quarteroni, ACL 2008) • VSM では単語の意味の相互作用に焦点がある

文脈を考慮に入れた語義モデル

Catch と ball の「意味」

Structured Vector Space Model • 見出し語wの意味→ベクトルvと（逆）選択選好を表現する関係ラベルR、R-1の三つ組み • ある単語aの意味を別の単語bの文脈で計算←→単語bの意味を単語bの文脈で計算 • Mitchell & Lapata (2008) の枠組みで表現可能なんらかの演算（ベクトルの足し算もしくは要素ごとのかけ算）

Catch と ball の語義の計算

実験

類似度を予測する • データ: Mitchell and Lapata (2008) のデータセット（M&L） • 120個の項目（15動詞・4名詞・2landmark） • →3,600事例 • 入力は文これを当てる（1-7まで）

共起の取り方 • Bag-of-words • ウィンドウサイズ10単語 • BNC から計算、頻度上位から2,000次元を素性に • Dependency-based • Dependency graph でのパスを共起とカウント • BNC をMinipar (Lin 1993) で処理したものを使用 • 共起尺度は頻度そのものとpointwise mutual information を使ったものと比較

提案モデル • 単語bと関係rの選択選好ベクトルの計算 • パラメータθとnはheldoutデータセットで最適化

ベースライン • Target only • Landmark と動詞のベクトルを比較 • Selpref only • 名詞の subj-1の選択選好と比較

評価項目 • Mitchell & Lapata (2008) に準拠 • High: 関係性が高い landmark についての（cosine）類似度の平均 • Low: 関連性が低い landmark についての（cosine）類似度の平均 • Spearman のρ • 人手の判断との相関（高いほどよい） • M&L によるとこのデータでの upper bound は 0.4 の3つの尺度で評価

SELPREF-POWはBOWのノイズ削減に役立っている

依存構造は人手との相関が高い

M&Lや先行研究のように直接共起ベクトルを用いるのとどう違うのか？M&Lや先行研究のように直接共起ベクトルを用いるのとどう違うのか？ • Subj-1と提案モデルの（cosine）類似度の平均を調べてみた • 相関はほとんどない（にも関わらず）人手との相関が高い→M&Lとは違った予測をしている

言い換えのランキング • データ: SemEval-1 lexical substitution データセット（の一部）このランキングを当てる（置換不可能なものは下位になるようにランク）

逆選択選好のモデル化は言い換えタスクに有効逆選択選好のモデル化は言い換えタスクに有効 • データを Subj-1, obj-1, objに分割して評価 • ただし i:=インスタンス（|I|はインスタンス数） M:=モデルの言い換えトップ10 G:=人手でつけた正解の言い換え f(s,i):=iをsに言い換えた頻度

結論と今後の課題

選択選好を考慮した一般的なモデル • 文脈を考慮した語義モデルを提案 • 選択選好を表現するベクトルも保持している • 類似度・言い換えタスクで Mitchell & Lapata 2008 を上回る性能（統計的には有意でない）今後の課題 • 複数の関係を同時に考慮するモデル • 推論にいかに組み込んでいくか

2008-11-14 （金）奈良先端大　 D2 　小町守