Foundations of Statistical Natural Language Processing 5. Collocations

Foundations of Statistical Natural Language Processing5. Collocations 米澤研究室M1 増山隆 tak@yl.is.s.u-tokyo.ac.jp

概要 • Collocationとは • Collocationを統計的に見つけ出す方法 • Frequency • Mean and Variance • Hypothesis testing(仮説検定) • The t test • Hypothesis testing of difference(using the t test) • Pearson’s chi-square test • Likelihood ratios

Collocationとは

Collocation(連語) • 複数の単語が慣習的に結びついてひとつの表現になったもの(例 New York) • Compositional(部分から全体の意味が分かる)とは限らない例kick the bucket (死ぬ) • 「結びつきやすさ」がある例strong tea / powerful tea

Firth vs. Saussure & Chomsky • Saussure & Chomsky • Collocationは無視されていた • 文、節の構造を重視 • Firth (Contextual Theory of Meaning) • Contextを重視 • 社会設定 • 会話の流れ • Collocation

Collocationを統計的に見つけ出す方法

5.1 Frequency • 2語が続いて現れる回数を数える • 素朴 • そのまま行うと of the, in theのような興味のない結果が得られる(Table 5.1)

Frequency + POS filter(Justeson and Katz 1995) • 句になりそうなPOSのパターンを与えておいて、そのパターンに合うものを抽出 cf. Table 5.2, 5.3 例　Strong tea and powerful tea • New York Timesには現れなかった • Webでの実験では799(strong)と19(powerful)であった • strong,powerfulどちらにも使える語に対してはより洗練された分析が必要

5.2 Mean and Variance(1/2)(Smadja 1993) • 2語が同時に出現するときの距離を分析例　knock on his doorでのknockに対するdoorの距離は3 • 距離の平均と分散を算出 • 分散が小さいほうがよい

Mean and Variance(2/2) • 結果はTable 5.2,5.4 • Window size 9 • 分散が小さいとき平均距離は0に近い（興味のないcollocation) • Smadjaは急激なピークのみをとりだした • だいたい80%の出来 • Collocationよりももっと緩い関係がわかる　例　knock と　door

5.3 Hypothesis Testing(仮説検定) • ある2語が偶然隣り合うのか決まって隣り合うのかを調べたい • New companiesはnewもcompaniesも出現頻度が高いならば隣り合う確率も高い • H0 null hypothesis (帰無仮説) • 統計的に正しいか調べたい命題 • ここでは、「ある2語w1w2が偶然隣り合う」 P(w1w2) = P(w1)P(w2) .. 独立性で仮定

The t test • 平均に関する検定によく使う • 信頼区間α: 棄却、採択の基準%(ここでは0.05) • w1w2が偶然隣り合うか?を検定 • 手順1.)　以下の式でt scoreを計算

The t test 手順2) t分布表を見る　ｔの値が表の値より大ならばH0を棄却積分値がαである点

T testの計算例 • New companies • C(New) = 15828 • C(companies) = 4675 • N =14307668 (語の総数) • s2=p(1-p)～pを使用 (cf. 2.1.9) • t = 0.999932 • α=0.005の時の基準値は2.576(表を見る) • H0は棄却できない　⇒New companiesは偶然並んだ

The t testの結果と特徴 • 結果は表5.6 • 20回出現した2語のcollocation • 5.6はstop wordを含むほとんどのbigramでH0(独立性の仮説)を棄却できた ⇒言語は予測できないことはほとんどおきない。 word sence disambiguationや確率的パーズの能力の裏付け • 信頼区間　αはそれほど重要ではない • Collocationのランク付けもできる

Hypothesis testing of differences • 微妙に異なるcollocationの発見に使う　例) strongとpowerfulの違いを見るためにそれらの直後によく出現する語を見る • 二標本t検定　以下のWelchの近似を使う

仮説とt score • 帰無仮説H0は「両者に違いがない」こと。 • μ1-μ0=0 • 標本数は共通でN (Bernoulli試行をN回) • 以上を考慮してtを語数で表す

Hypothesis testing of differencesの結果と応用 • 結果はTable 5.7 • Church & Hanks(1989) 内的性質と外的性質 • strong: 実際には力を持たないかもしれない。内的 • powerful: 実際に力をもつ。外的 • 文化的な側面のような微妙なところがある　例) strong tea, powerful drugはtea,drugの差 • 応用: 辞書作成 • 単語の微妙なニュアンスをつかむ

Pearson’s chi-square test • ばらつき(分散)の検定 • t検定よりも適用範囲が広い • t検定.. サンプルが標準正規分布にしたがっていることを仮定観測で得た表と独立性を仮定した表がマッチするか?

χ2値と検定手順 • 式と見る表以外はt検定と同様 5.7式の導出は http://www10.u-page.so-net.ne.jp/dk9/mamewo/5.7.ps　参照 • new companiesはH0を棄却できない

χ2検定の性質と応用 • t検定よりも適用範囲が広い • 応用1: ある単語の翻訳語を見つける(Church & Gale 1991) 例) vache(フランス語) と cow(英語) H0を棄却できれば、翻訳語だといえる • 応用2: 2コーパスの類似性の尺度(Kilgarriff & Rose 1998)

Likelihood ratios(最尤比検定) • 直感に合う(?)方法 • 「現実の標本は確率最大のものが実現したものだ」と仮定(最尤原理) • 仮説 w1w2というbigramについて • H1 P(w2|w1) = p = P(w2|￢w1) • H2 P(w2|w1)=p1≠p2=P(w2|￢w1) H1は独立性の仮説

Likelihoodのイメージ 真の確率pに近いほどlikelihood(最尤度)は高い

Likelihoodの計算(1/2) • p,p1,p2を得られたデータから計算 • 二項分布を仮定(Bernoulli分布) • この値が当てはまりのよさを示す

Likelihoodの計算(2/2) • ただし • -2logλは漸近的にχ2分布に従う(らしい)

likelihood ratiosの結果と特徴 • 結果はTable 5.12 • 結果の解釈は直感的に出来る e0.5*(-2logλ)の値をみて、どれくらいの確からしさで棄却されたかが分かる • 出現回数が少ないbigramにも適用可能

Relative frequency ratios • コーパスを特徴づけるcollocationを他のコ　ーパスたちと比較して見つける • 例 1990年、1989年のNew York Times cf. Table 5.131989年に頻出　1990年に2回 1989年の出来事、1990年に終わったコラム • ある特定分野向けのcollocationを見つける • 普通の文章と特定分野の文章を比較

参考文献 • 基礎統計学I　統計学入門 • 自然科学の統計学(p155に5.7式の導出) • 東京大学教養学部統計学教室編 • 雑なメモ http://www10.u-page.so-net.ne.jp/dk9/mamewo/natural_language.html

Foundations of Statistical Natural Language Processing 5. Collocations

Foundations of Statistical Natural Language Processing 5. Collocations

Presentation Transcript

Statistical Natural Language Processing

Natural Language Processing

CS 388: Natural Language Processing: Statistical Parsing

Natural Language Processing

Natural Language Processing

Natural Language Processing

Natural Language Processing

Statistical Natural Language Processing

Statistical Natural Language Processing

Natural Language Processing

Statistical Natural Language Processing

Natural Language Processing

Natural Language Processing

Natural Language Processing

Natural Language Processing

Natural Language Processing

CS 294-5: Statistical Natural Language Processing

Natural Language Processing COLLOCATIONS

Statistical Natural Language Processing

Natural Language Processing Statistical Inference: n-grams

Statistical Learning Methods in Natural Language Processing

Statistical Natural Language Processing