280 likes | 732 Views
Foundations of Statistical Natural Language Processing 5. Collocations. 米澤研究室 M1 増山隆 tak@yl.is.s.u-tokyo.ac.jp. 概要. Collocation とは Collocation を統計的に見つけ出す方法 Frequency Mean and Variance Hypothesis testing( 仮説検定 ) The t test Hypothesis testing of difference(using the t test)
E N D
Foundations of Statistical Natural Language Processing5. Collocations 米澤研究室M1 増山隆 tak@yl.is.s.u-tokyo.ac.jp
概要 • Collocationとは • Collocationを統計的に見つけ出す方法 • Frequency • Mean and Variance • Hypothesis testing(仮説検定) • The t test • Hypothesis testing of difference(using the t test) • Pearson’s chi-square test • Likelihood ratios
Collocation(連語) • 複数の単語が慣習的に結びついてひとつの表現になったもの(例 New York) • Compositional(部分から全体の意味が分かる)とは限らない 例kick the bucket (死ぬ) • 「結びつきやすさ」がある 例strong tea / powerful tea
Firth vs. Saussure & Chomsky • Saussure & Chomsky • Collocationは無視されていた • 文、節の構造を重視 • Firth (Contextual Theory of Meaning) • Contextを重視 • 社会設定 • 会話の流れ • Collocation
5.1 Frequency • 2語が続いて現れる回数を数える • 素朴 • そのまま行うと of the, in theのような興味のない結果が得られる(Table 5.1)
Frequency + POS filter(Justeson and Katz 1995) • 句になりそうなPOSのパターンを与えておいて、そのパターンに合うものを抽出 cf. Table 5.2, 5.3 例 Strong tea and powerful tea • New York Timesには現れなかった • Webでの実験では799(strong)と19(powerful)であった • strong,powerfulどちらにも使える語に対してはより洗練された分析が必要
5.2 Mean and Variance(1/2)(Smadja 1993) • 2語が同時に出現するときの距離を分析 例 knock on his doorでのknockに対するdoorの距離は3 • 距離の平均と分散を算出 • 分散が小さいほうがよい
Mean and Variance(2/2) • 結果はTable 5.2,5.4 • Window size 9 • 分散が小さいとき平均距離は0に近い (興味のないcollocation) • Smadjaは急激なピークのみをとりだした • だいたい80%の出来 • Collocationよりももっと緩い関係がわかる 例 knock と door
5.3 Hypothesis Testing(仮説検定) • ある2語が偶然隣り合うのか決まって隣り合うのかを調べたい • New companiesはnewもcompaniesも出現頻度が高いならば隣り合う確率も高い • H0 null hypothesis (帰無仮説) • 統計的に正しいか調べたい命題 • ここでは、「ある2語w1w2が偶然隣り合う」 P(w1w2) = P(w1)P(w2) .. 独立性で仮定
The t test • 平均に関する検定によく使う • 信頼区間α: 棄却、採択の基準%(ここでは0.05) • w1w2が偶然隣り合うか?を検定 • 手順1.) 以下の式でt scoreを計算
The t test 手順2) t分布表を見る tの値が表の値より大ならばH0を棄却 積分値がαである点
T testの計算例 • New companies • C(New) = 15828 • C(companies) = 4675 • N =14307668 (語の総数) • s2=p(1-p)~pを使用 (cf. 2.1.9) • t = 0.999932 • α=0.005の時の基準値は2.576(表を見る) • H0は棄却できない ⇒New companiesは偶然並んだ
The t testの結果と特徴 • 結果は表5.6 • 20回出現した2語のcollocation • 5.6はstop wordを含む ほとんどのbigramでH0(独立性の仮説)を棄却できた ⇒言語は予測できないことはほとんどおきない。 word sence disambiguationや確率的パーズの能力の裏付け • 信頼区間 αはそれほど重要ではない • Collocationのランク付けもできる
Hypothesis testing of differences • 微妙に異なるcollocationの発見に使う 例) strongとpowerfulの違いを見るためにそれらの直後によく出現する語を見る • 二標本t検定 以下のWelchの近似を使う
仮説とt score • 帰無仮説H0は「両者に違いがない」こと。 • μ1-μ0=0 • 標本数は共通でN (Bernoulli試行をN回) • 以上を考慮してtを語数で表す
Hypothesis testing of differencesの結果と応用 • 結果はTable 5.7 • Church & Hanks(1989) 内的性質と外的性質 • strong: 実際には力を持たないかもしれない。内的 • powerful: 実際に力をもつ。外的 • 文化的な側面のような微妙なところがある 例) strong tea, powerful drugはtea,drugの差 • 応用: 辞書作成 • 単語の微妙なニュアンスをつかむ
Pearson’s chi-square test • ばらつき(分散)の検定 • t検定よりも適用範囲が広い • t検定.. サンプルが標準正規分布にしたがっていることを仮定 観測で得た表と 独立性を仮定した 表がマッチするか?
χ2値と検定手順 • 式と見る表以外はt検定と同様 5.7式の導出は http://www10.u-page.so-net.ne.jp/dk9/mamewo/5.7.ps 参照 • new companiesはH0を棄却できない
χ2検定の性質と応用 • t検定よりも適用範囲が広い • 応用1: ある単語の翻訳語を見つける(Church & Gale 1991) 例) vache(フランス語) と cow(英語) H0を棄却できれば、翻訳語だといえる • 応用2: 2コーパスの類似性の尺度(Kilgarriff & Rose 1998)
Likelihood ratios(最尤比検定) • 直感に合う(?)方法 • 「現実の標本は確率最大のものが実現したものだ」と仮定(最尤原理) • 仮説 w1w2というbigramについて • H1 P(w2|w1) = p = P(w2|¬w1) • H2 P(w2|w1)=p1≠p2=P(w2|¬w1) H1は独立性の仮説
Likelihoodのイメージ 真の確率pに近いほどlikelihood(最尤度)は高い
Likelihoodの計算(1/2) • p,p1,p2を得られたデータから計算 • 二項分布を仮定(Bernoulli分布) • この値が当てはまりのよさを示す
Likelihoodの計算(2/2) • ただし • -2logλは漸近的にχ2分布に従う(らしい)
likelihood ratiosの結果と特徴 • 結果はTable 5.12 • 結果の解釈は直感的に出来る e0.5*(-2logλ)の値をみて、どれくらいの確からしさで棄却されたかが分かる • 出現回数が少ないbigramにも適用可能
Relative frequency ratios • コーパスを特徴づけるcollocationを他のコ ーパスたちと比較して見つける • 例 1990年、1989年のNew York Times cf. Table 5.131989年に頻出 1990年に2回 1989年の出来事、1990年に終わったコラム • ある特定分野向けのcollocationを見つける • 普通の文章と特定分野の文章を比較
参考文献 • 基礎統計学I 統計学入門 • 自然科学の統計学(p155に5.7式の導出) • 東京大学教養学部統計学教室編 • 雑なメモ http://www10.u-page.so-net.ne.jp/dk9/mamewo/natural_language.html