形態素周辺確率を用いた分かち書きの一般化とその応用

形態素周辺確率を用いた分かち書きの一般化とその応用形態素周辺確率を用いた分かち書きの一般化とその応用 NTT コミュニケーション科学基礎研究所工藤拓

0.1 0.3 0.9 0.5 0.5 0.7 果物　　野菜 … 果物　　野菜 … 前置き • ハードクラスタリングソフトクラスタリング • 従来の分かち書き手法提案手法 → ハード分かち書き　　　 → ソフト分かち書き?? (分割方法を一意に定義) (分割方法を確率的な分布として定義)

背景 • 形態素解析 = 言語処理の基礎ツール • テキストを単語の頻度付き集合 (bag-of-words) に変換する目的で使われることが多い • 全文検索のインデックス作成 • テキスト間類似度 • テキスト分類 • テキストマイニング • bag-of-words の新しい作り方を提案

動機付け • 単語の単位の曖昧性、ズレ • 本質的に曖昧 • 本 / 部長 vs. 本部 / 長 • 複合名詞の認定単位の曖昧性 • 横浜 / 市役所 vs. 横浜市 / 役所 vs. 横浜 / 市 / 役所 • 関西国際空港会社/ 連絡橋 vs.関西国際空港/会社/連絡橋.. • 辞書の不整合から生じる曖昧性 (ipadic) • 成田空港 (一語) • 宮崎 / 空港 (二語)

動機付け cont’d • 「ズレ」がもたらす問題 • 全文検索 • 「成田」で検索しても「成田空港」は見つからない • テキスト間類似度 • 「京都大学」と「京大」のコサイン類似度は 0.0 • 最適な単位とは? • 応用に強く依存 • 工学的に万能な単位を定義することは不可能

文字単位の処理 • １文字＝１単語 • 形態素解析はあえて使わない • 単位定義の泥沼を避ける • 利点 • 検索漏れの低減 (再現率の向上) • 欠点 • 検索ノイズ　　「京都」で検索して「東京都」が見つかる「パン」で検索して「ルパン」が見つかる

形態素解析 高精度検索漏れ文字単位高再現率検索ノイズ提案手法パラメータθによって無段階に変更提案手法 = 形態素解析 + 文字単位解析 • 形態素解析: 高精度, 　　検索漏れ • 文字単位: 高再現率, 検索ノイズ • ２つの立場を融合, 単一化できないか? • 応用によって２つの立場を無段階に選択する

動作例 形態素解析高精度検索漏れ文字単位高再現率検索ノイズ入力　「京都大学」

提案手法の詳細

従来法 一意の分割方法 bag-of-words 入力テキスト従来法の形態素解析器 /京都大学/ F = (0, 0, 1, 0, 0… ) 京都大学提案法確率付きの全分割方法 bag-of-words 入力テキスト提案法の形態素解析器 F = (0, 0, 1, 0, 0… ) /京都大学/ 0.8 京都大学 /京都/大学/ 0.1 F = (0, 1, 0, 1, 0… ) 期待値 /京都/大/学/ 0.04 F = (0, 1, 0, 0, 1… ) F = (1, 0, 0, 1, 0… ) /京/都/大学/ 0.03 … … F = (0.03, 0.14, 0.8, 0.1, 0.04… ) 基本的なアイデア

基本的なアイデア cont’d • 複数の候補を考慮, ロバスト • 議論のポイント • 確率をどのように定義するか? • 期待値をどのように計算するか? (分割候補数は入力に対して指数的に増える) bag-of-words 確率付きの全分割方法入力テキスト F = (0, 0, 1, 0, 0… ) /京都大学/ 0.8 提案法の形態素解析器京都大学 /京都/大学/ 0.1 F = (0, 1, 0, 1, 0… ) 期待値 /京都/大/学/ 0.04 F = (0, 1, 0, 0, 1… ) F = (0.03, 0.14, 0.8, 0.1, 0.04… )

10 30 20 10 20 0 10 20 20 10 5 5 5 5 10 10 5 10 20 5 30 連接コスト: つながりやすさのコスト生起コスト: 出現しやすさのコスト最小コスト法京都 [名詞] に [助詞] 東 [名詞] 京 [名詞] 都 [接尾辞] 住む [動詞] BOS EOS に [動詞] 東京 [名詞] • コストの和が最小になるような系列を選択する • Viterbi Algorithm: O(n) で計算可能 (n:文長) • コストの定義: 人手, HMM, CRF (本手法はコスト定義に依存しない)

確率の定義 京都 [名詞] に [助詞] 東 [名詞] 京 [名詞] 都 [接尾辞] 住む [動詞] BOS EOS に [動詞] 東京 [名詞] 上記例だと x=「東京都に住む」 |Y(x)| = 6 逆温度パラメータ分布の鋭さ

α’ α m α’ m m α’ BOS EOS m α m β 期待値計算 • 動的計画法 (Forward-Backward) の変種, O(n) 期待値をとったときの入力 x 中の単語 w の出現頻度 (bow ベクトルの値)

提案手法の性質 bag-of-words 確率付きの全分割方法 • 全候補の列挙 • 可能な全ての分割方法を考慮 • 検索漏れが発生しにくい • 頻度の一般化 • 期待値をとった bow ベクトルの要素は単語の　確率的な出現頻度 • 単語頻度を用いる手法(tf/idf等)にそのまま適用可能入力テキスト F = (0, 0, 1, 0, 0… ) /京都大学/ 0.8 提案法の形態素解析器京都大学 /京都/大学/ 0.1 F = (0, 1, 0, 1, 0… ) 期待値 /京都/大/学/ 0.04 F = (0, 1, 0, 0, 1… ) F = (0.03, 0.14, 0.8, 0.1, 0.04… )

提案手法の性質 cont’d • コストを考慮した頻度付与 • bowベクトルはコスト(単語生起/連接コスト)を反映 • 「東京都」の中の「京都」の頻度は自然に低く設定 • 　　による制御 • :形態素解析の結果に漸近 • :文字単位に近づく (文字単位は候補数が多い) • ２つを無段階に接続逆温度パラメータ分布の鋭さ

動作例 形態素文字

実験要約文 – 要約元文対応テキスト分類

要約文 – 要約元文対応 • 人手で作成された要約文と要約元文候補集合の対応付け　(テキスト全部検索と同一設定) • TCS2 の複数要約文データセット • どの要約元文から要約文が作成されたかの情報が付与 • 要約文をクエリとし, 要約元文集合のそれぞれとの文を bag-of-words + cosine類似度でソート • 評価 • 1位の候補が要約元文となる割合　　　正解率 • 要約元文が何位にランク付けられるか平均順位 • 465要約文, １要約文あたり平均 96要約候補文

θ=0.04が良い 実験結果形態素 • θにピーク • 双方の「いいとこどり」の効果文字

まとめと今後の課題 • 形態素解析と文字単位分割を単一化 • ソフトな分かち書き • 応用によって二つの立場を無段階に選択 • bag-of-words を用いるあらゆる応用に適用可能 • 異質テキストの対応付けに有効 (おそらく) • 今後の課題 • 　の自動設定 • 単語分割を含めたテキスト生成モデル • bow 作成 = 任意の部分文字列への重み付け • 複合名詞辞書 [浅原他01] の作成支援

テキスト分類 形態素文字分類器: ナイーブベイズ

入力文 分割方法 bag-of-words ボルツマン分布 bow kernel 周辺化 Kernel • 周辺化された bow ベクトルの内積 = 周辺化 Kernel [津田 00] の特殊系入力隠れクラス隠れクラス-入力のペア帰属確率任意の Kernel 言語処理全般に使える kernel スムージングの効果

形態素周辺確率を用いた 分かち書きの一般化とその応用