1 / 22

超大規模ウェブコーパスを用いた 分布類似度計算

超大規模ウェブコーパスを用いた 分布類似度計算. 09/03/05 京都大学 柴田 知秀  黒橋 禎夫. 背景. 大規模コーパスを利用することにより言語処理の精度が向上 スペル訂正 (100 億語 ) [Lin and R.Curran 06] 言語モデルの 機械翻訳での利用 (2 兆語 ) [ Brants et al. 07 ] 分布類似度計算で大規模コーパスの利用 6,400 万語 [Lin98] 20 億語 [Curran04] 4,000 万 Web ページ [ 相澤 08] 本研究では ウェブ 1 億ページ (250 億語 ) を利用.

zelig
Download Presentation

超大規模ウェブコーパスを用いた 分布類似度計算

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 超大規模ウェブコーパスを用いた分布類似度計算超大規模ウェブコーパスを用いた分布類似度計算 09/03/05 京都大学 柴田 知秀 黒橋 禎夫

  2. 背景 • 大規模コーパスを利用することにより言語処理の精度が向上 • スペル訂正(100億語)[Lin and R.Curran 06] • 言語モデルの機械翻訳での利用 (2兆語) [Brants et al. 07] • 分布類似度計算で大規模コーパスの利用 • 6,400万語 [Lin98] • 20億語 [Curran04] • 4,000万Webページ [相澤08] • 本研究ではウェブ1億ページ(250億語)を利用

  3. 概要 • 大規模コーパスを利用することによって分布類似度計算の精度が向上するか • どれくらいの規模があれば十分か • 曖昧性のある係り受けを除外することによる効果 • 複合名詞の類似度計算 • どのコンテキストが有効か

  4. 目次 • 分布類似度 • コンテキスト抽出 • 分布類似度計算 • 実験 • 類似度尺度 • 曖昧性のある係り受けの除外 • 複合名詞の類似時計算 • どのコンテキストが有効か

  5. 目次 • 分布類似度 • コンテキスト抽出 • 分布類似度計算 • 実験 • 類似度尺度 • 曖昧性のある係り受けの除外 • 複合名詞の類似時計算 • どのコンテキストが有効か

  6. 分布類似度 • 意味の似た語は似たコンテキストで出現 [Firth57] 「医師」の類義語 0.382

  7. コンテキスト抽出 • 3つ組(w, r, w’)を抽出 • ある語wが他の語w’と関係rで出現している • 関係rとして係り受け関係がもっともよい[Lin98], [Curran04] • 例: 医者が診察する → (医者, ガ, 診察) • (r,w’)の組を語wの共起要素と呼ぶ • rとして以下の格要素を考える • ガ, ヲ, ニ, カラ, ト, ヘ, マデ, ヨリ, ノ

  8. 曖昧性のある係り受けを除外 • 格フレーム構築時に曖昧性のある係り受けを除外[Kawahara and Kurohashi 01] パンを焼いたけれども、… ? パンを焼いた余熱を利用して、…

  9. 語wの単位 • 多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04] • 人手によるシソーラスの25%は複合名詞 • 複合名詞の分布類似度を計算したが精度が低下[Ingram and Curran07] • 語wの単位として単名詞と複合名詞を考える • 複合名詞は文節内で最長のもの • 例: 携帯電話を購入した • 単名詞: 電話 • 複合名詞: 携帯電話

  10. 分布類似度計算 • 以下の二つのfunctionに分解 [Curran04] • Weight function • Measure function

  11. Weight function (wgt)

  12. Measure function

  13. 目次 • 分布類似度 • コンテキスト抽出 • 分布類似度計算 • 実験 • 類似度尺度 • 曖昧性のある係り受けの除外 • 複合名詞の類似時計算 • どのコンテキストが有効か

  14. 実験 • 日本語1億ページ[Shinzato et al. 08] • 60億文をuniqした16億文(250億語)を利用 • 以下の5つのコーパスサイズ(文数)で実験 • 6.3M, 25M, 100M, 400M, 1.6G • 形態素解析・構文解析: 150CPUで1週間 • 3つのコンテキストベクトルを作成 (1日弱) • (i) 単名詞, 曖昧性のある係り受け あり • (ii) 単名詞, 曖昧性のある係り受け なし • (iii) 複合名詞, 曖昧性のある係り受け なし

  15. 評価セット [相澤08] タスクI × ○ エイズや肝炎などの病気 寄与 (A) (B) (C) (D) ○ (A)とシソーラスのカテゴリが異なり、Webでの頻度が同程度 タスクII ○ × タスクI ○ プリンターや複写機などの消耗品 サボテン × × タスクII タスク I News: 685表現, Web: 25,740表現 タスクII News: 876表現, Web: 2,019表現

  16. 類似度尺度評価 • 閾値を0.01から0.4まで0.01刻みで動かしてF-measureの最大値を求めた ※β=2とした

  17. コーパスサイズと精度の関係(タスクI: Web)

  18. 曖昧性のある係り受けの有無 (Web)

  19. 語の単位:単名詞と複合名詞(Web) 改善例: 正解: ○ 神経衰弱  ゲーム 正解:× ゴルフコース 大学

  20. コンテキストの有効性評価

  21. 誤り分析 • タスクIは自動生成したデータなので、類義語でないものを含む • 銀行や空港(などの場所) • 記憶や学習(などの脳機能) • 多義語 • 豚 マウス • ヘリウム ネオン • 形態素解析誤り • もみすり → もみ(動詞)すり(動詞) • つくばい → つく(動詞)ばい(名詞) ~に注射 ~の胎児 ‥ ~でドラッグ ~のホイール ~の原子 ~に変わる ‥ ~を消灯 ~が誘惑

  22. まとめ • 超大規模コーパスを用いた分布類似度計算 • コーパスサイズを増やすことによって精度が向上することを確認 • 実験で用いたコーパスサイズでほぼ十分 • 曖昧性のある係り受けを除外 • 複合名詞の分布類似度 • 今後の予定 • 曖昧性解消の導入 • 動詞の類似度計算 • 計算済み類似度データベースを公開予定 • 分布類似度を用いて構築した格フレームを公開予定

More Related