220 likes | 336 Views
超大規模ウェブコーパスを用いた 分布類似度計算. 09/03/05 京都大学 柴田 知秀 黒橋 禎夫. 背景. 大規模コーパスを利用することにより言語処理の精度が向上 スペル訂正 (100 億語 ) [Lin and R.Curran 06] 言語モデルの 機械翻訳での利用 (2 兆語 ) [ Brants et al. 07 ] 分布類似度計算で大規模コーパスの利用 6,400 万語 [Lin98] 20 億語 [Curran04] 4,000 万 Web ページ [ 相澤 08] 本研究では ウェブ 1 億ページ (250 億語 ) を利用.
E N D
超大規模ウェブコーパスを用いた分布類似度計算超大規模ウェブコーパスを用いた分布類似度計算 09/03/05 京都大学 柴田 知秀 黒橋 禎夫
背景 • 大規模コーパスを利用することにより言語処理の精度が向上 • スペル訂正(100億語)[Lin and R.Curran 06] • 言語モデルの機械翻訳での利用 (2兆語) [Brants et al. 07] • 分布類似度計算で大規模コーパスの利用 • 6,400万語 [Lin98] • 20億語 [Curran04] • 4,000万Webページ [相澤08] • 本研究ではウェブ1億ページ(250億語)を利用
概要 • 大規模コーパスを利用することによって分布類似度計算の精度が向上するか • どれくらいの規模があれば十分か • 曖昧性のある係り受けを除外することによる効果 • 複合名詞の類似度計算 • どのコンテキストが有効か
目次 • 分布類似度 • コンテキスト抽出 • 分布類似度計算 • 実験 • 類似度尺度 • 曖昧性のある係り受けの除外 • 複合名詞の類似時計算 • どのコンテキストが有効か
目次 • 分布類似度 • コンテキスト抽出 • 分布類似度計算 • 実験 • 類似度尺度 • 曖昧性のある係り受けの除外 • 複合名詞の類似時計算 • どのコンテキストが有効か
分布類似度 • 意味の似た語は似たコンテキストで出現 [Firth57] 「医師」の類義語 0.382
コンテキスト抽出 • 3つ組(w, r, w’)を抽出 • ある語wが他の語w’と関係rで出現している • 関係rとして係り受け関係がもっともよい[Lin98], [Curran04] • 例: 医者が診察する → (医者, ガ, 診察) • (r,w’)の組を語wの共起要素と呼ぶ • rとして以下の格要素を考える • ガ, ヲ, ニ, カラ, ト, ヘ, マデ, ヨリ, ノ
曖昧性のある係り受けを除外 • 格フレーム構築時に曖昧性のある係り受けを除外[Kawahara and Kurohashi 01] パンを焼いたけれども、… ? パンを焼いた余熱を利用して、…
語wの単位 • 多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04] • 人手によるシソーラスの25%は複合名詞 • 複合名詞の分布類似度を計算したが精度が低下[Ingram and Curran07] • 語wの単位として単名詞と複合名詞を考える • 複合名詞は文節内で最長のもの • 例: 携帯電話を購入した • 単名詞: 電話 • 複合名詞: 携帯電話
分布類似度計算 • 以下の二つのfunctionに分解 [Curran04] • Weight function • Measure function
目次 • 分布類似度 • コンテキスト抽出 • 分布類似度計算 • 実験 • 類似度尺度 • 曖昧性のある係り受けの除外 • 複合名詞の類似時計算 • どのコンテキストが有効か
実験 • 日本語1億ページ[Shinzato et al. 08] • 60億文をuniqした16億文(250億語)を利用 • 以下の5つのコーパスサイズ(文数)で実験 • 6.3M, 25M, 100M, 400M, 1.6G • 形態素解析・構文解析: 150CPUで1週間 • 3つのコンテキストベクトルを作成 (1日弱) • (i) 単名詞, 曖昧性のある係り受け あり • (ii) 単名詞, 曖昧性のある係り受け なし • (iii) 複合名詞, 曖昧性のある係り受け なし
評価セット [相澤08] タスクI × ○ エイズや肝炎などの病気 寄与 (A) (B) (C) (D) ○ (A)とシソーラスのカテゴリが異なり、Webでの頻度が同程度 タスクII ○ × タスクI ○ プリンターや複写機などの消耗品 サボテン × × タスクII タスク I News: 685表現, Web: 25,740表現 タスクII News: 876表現, Web: 2,019表現
類似度尺度評価 • 閾値を0.01から0.4まで0.01刻みで動かしてF-measureの最大値を求めた ※β=2とした
語の単位:単名詞と複合名詞(Web) 改善例: 正解: ○ 神経衰弱 ゲーム 正解:× ゴルフコース 大学
誤り分析 • タスクIは自動生成したデータなので、類義語でないものを含む • 銀行や空港(などの場所) • 記憶や学習(などの脳機能) • 多義語 • 豚 マウス • ヘリウム ネオン • 形態素解析誤り • もみすり → もみ(動詞)すり(動詞) • つくばい → つく(動詞)ばい(名詞) ~に注射 ~の胎児 ‥ ~でドラッグ ~のホイール ~の原子 ~に変わる ‥ ~を消灯 ~が誘惑
まとめ • 超大規模コーパスを用いた分布類似度計算 • コーパスサイズを増やすことによって精度が向上することを確認 • 実験で用いたコーパスサイズでほぼ十分 • 曖昧性のある係り受けを除外 • 複合名詞の分布類似度 • 今後の予定 • 曖昧性解消の導入 • 動詞の類似度計算 • 計算済み類似度データベースを公開予定 • 分布類似度を用いて構築した格フレームを公開予定