昔の機械翻訳統計的機械翻訳翻訳の評価

機械翻訳 昔の機械翻訳統計的機械翻訳翻訳の評価

昔の機械翻訳 • 入力文：私はりんごを食べた。 • 形態素解析構文解析 • noun verb noun  subj predicate object • 意味解析 • (action=食べる, agent=私, target=りんご, time=past) • 英語の語彙に変換（つまり意味表現のレベルないしはそれに近い深さで変換　　対訳辞書利用 • (action=eat, agent=I, target=an apple, time=past) • 構文および形態素の生成（語順の変換）して翻訳出力を得る。 対訳辞書利用 • noun=I, verb（past)=ate, noun=an apple • 出力文： I ate an apple.

昔の機械翻訳 • 意味のレベルで精密に日英が同一であることが前提だった。 • また、形態素解析、構文解析、意味解析が正確に動作すると想定している。 • しかし、なかなかそうとも言い切れない • 意味レベルでの概念が一致しない例 • 湯　 hot water、　 • もったいない? 、 • checkという習慣が日本にない！

対訳辞書 • 日本語意味 • りんご  APPLE • 意味英語 • ALLPE if bear noun or singular: apple if plural: apples • 単数の場合には an apple,複数なら applesを選ぶのは、構文および形態素のレベル

少し前の機械翻訳：example based machine translation • 翻訳対の例文が類似検索可能な形でデータベース化 • 例：私はみかんを食べた。 I ate an orange. • 入力文：私はりんごを食べた。 • 翻訳対データベースから類似した日本語例文を検索 • 私はみかんを食べた。 • 違っている部分みかんをりんごに置き換え • さらに日英辞書でりんごをan appleに置き換え • 結果出力：I ate an apple. • 当然ながら、冠詞の選択などは文法規則によって行う。つまり、相当程度に従来の構文規則や、形態素解析技術と共同することになる。

少し前の機械翻訳：example based translation • 類似検索の部分が重要。ここで構文解析を使うことも可能だが、だんだん古典的な機械翻訳に近づく。 • 翻訳対を集めれれば集めるほどが翻訳の質があがる。 • この収集作業は機械的にできる。

統計的機械翻訳Statistic Machine Translation (SMT) • 言語的知識を全く使わずに対訳を得る。アンチ言語学理論 • 2言語並行コーパスが蓄積 • 文どうしの対応付けされた aligned corpus • これを使って単語や句どうしの対応付け、すなわち対訳を自動的に抽出 • 文同士の対応はあるが、単語列同士の対応は不明 • 探索空間が膨大 • IBMの Peter Brown，S. Della Pietra, V. Della Pietra, Robert Mercerらの1993年のComputational Lingusiticsの超有名かつ超難解な論文“The Mathematics of Statistical Machine Translation:Parameter Estimation”を中心に解説

Bayesの定理 • Canadian Hansard : French-English Bilingual corpus • フランス語の単語列:fに対して妥当な英語の単語列:eを求める • なお、以下ではf,eは単語あるいは句、f,eは文。 • Given French string:f,find e^=arg maxePr(e|f) • 種々のfに対応しそうなeはやたらと多い！！ • then

なぜPr(e|f)ではなく、Pr(f|e)×Pr(e)か？ • 対訳コーパスの対訳文はやはり少数 • 無尽蔵に多くあるフランス語の文（文字列）　f　に対して、対応すべき正しい英語を求めるのが目的 • Pr(e|f)直接では、正しい英文eに高い確率が割り当てられる可能性が低い。 • 正しい英文という要因を直接考慮するためにPr(e)を別個の情報源から得て利用する。

Alignmentとは？ • The1 poor2 don’t3 have4 any5 money6 • Les1 pauvres2 sont3 demunis4 (Les pauvres sont demunis | The(1) poor(2) don’t(3,4) have(3,4) any(3,4) money(3,4)) =A(e,f)=a

さて、いよいよ難解な論文の説明のさわり • フランス語vs英語の対訳コーパスを用いて英単語列eがフランス語単語列fに翻訳される確率t(f|e)を対訳コーパスから評価する方法

フランス語単語列fが英単語列eに 翻訳される確率t(f|e)を求める。 • t(f|e)の初期値を適当に決める • 対訳コーパス中のS個の対訳文f(s),e(s) ：1=<s =<S各々の組(f(s),e(s)), に対して、efの翻訳回数の期待値　　を計算する。 ccorpus(f|e; f(s),e(s)) の値は f,eがf(s),e(s)の対訳の組に出現したときだけ０でない。また、ei (i=1,..,l)は対訳英文の各単語、lは対訳文に含まれる英単語の語彙数

フランス語単語列fが英単語列eに 翻訳される確率t(f|e)を求める。ーつづき • もうひとつの重要な式　　　　を　　　すると左辺が１になるので、このλeの値を用いてt(f|e)の新たな値を推定する。 • t(f|e)が収束するまで2,3を繰り返す。このような繰り返し方法で未知の確率を推定する方法を Expectation and Maximization(EM)algorithmと言い、情報科学の基本のひとつ。

もう少し本格的に説明まず記法 • Alignmentも考慮したPr(f,a|e) • 以後はPr(f,a,|e)を評価する方法

IBM Model 1 • このモデルでは、英、仏文の単語の出現順序には相関がないとしている。－（1） • また対訳は個々の単語にだけ依存する－（2）

Model 1 • このモデルでは、Alignmentajは０から m の任意の値をとる。ラグランジュ未定乗数法によってPr(f|e)を最大化する。この項を2種類の方法で書き換えて等しく置くとことがミソ

ミソ　その１ • c(…)　とは翻訳(f|e)において、英単語eがフランス語単語fに翻訳される回数。２番目の∑はあるalignment a においてf,eの接続回数。

t(f|e)を求めるまではもう一工夫 ミソ　その２ • は、単項式だから • 例 • これによると

ミソ　その２　（１２）式を使ってh(t,λ）の第1項を書き換えた！ミソ　その２　（１２）式を使ってh(t,λ）の第1項を書き換えた！ • そこで、またラグランジュ未定乗数法で

（１６）式の　　　　　　　　　　　　　　　の部分は（１２）式からfとeの接続回数になることが分かる。（alignment aがないのでこの式）下図参照。 f= f1, f2(=f), f3, ..,f7(=f), …. Fm e1(=e) * * e2 e= : e8(=e) * * : el • 教師データとしてS個の翻訳 (f(s)|e(s)) s=1,…,Sがコーパスから知られているので、以下の式を使う。

いよいよEMでt(f|e)を推定－１ • t(f|e)の初期値を適当に決める • 各(f(s),e(s)), 1=<s =<Sに対して、　　を利用してc(f|e; f(s),e(s))を計算する。　　この値は f,eがf(s),e(s)の要素のときだけ０でない。

いよいよEMでt(f|e)を推定－２ • を　　　すると左辺が１になるので、このλeの値を用いてt(f|e)の新たな値を推定する。（ただし、 λeをλePr(f|e)と置き換えた）。 • t(f|e)が収束するまで2,3を繰り返す。

Model 2 • Alignmentが位置に依存する。つまり、

ラグランジュ未定乗数法でhを微分し計算するとラグランジュ未定乗数法でhを微分し計算すると

Model 1と同じように計算し • Model 1 では(l+1)-1　だったa(i|j,m,l)をModel 2 では変数と見ているので、 • 後は同じくEMアルゴリズムでt(f|e)を求める • 初期値にはModel 1の結果を用いる。

Model 3 • １単語がｎ単語に翻訳　not => ne … pas • ｎ＝０（翻訳されない）　冠詞は日本語にはない。 • 対応する単語の出現場所がねじれる • 日英での語順の差 • こういった現象に対応するモデル

繁殖確率 n(φ|e): 英語単語eがφ個のフランス語単語に接続される確率 • 翻訳確率t(f|e):英語単語eがフランス語単語fに翻訳される確率 • 歪確率d(j|i,m,l):英文長さl,フランス文長さm,英文の単語位置iがフランス文の単語位置jに接続される確率 • 空の英単語の繁殖数＝φ0

空でない英単語から生成されたフランス語単語の後に空から生成されたφ0個の単語が確率p1で挿入されるとすると、空でない英単語から生成されたフランス語単語の後に空から生成されたφ0個の単語が確率p1で挿入されるとすると、

以上の準備の下

(３２)式を用いて、n,t,d,p0,1に関する各々の総和＝１の確率による条件をつけてラグランジュ未定乗数法で Pr(e|f) を最大化すればよい。 • しかし、model1,2と異なり和積の交換ができないので、直接計算する。 • 組み合わせの数が多いので、ビタビ法で近似計算する。

機械翻訳評価尺度についての議論 • 近年、ＭＴの評価尺度として頻繁に使用されているＢＬＥＵが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている。 • 例えば、ＳＹＳＴＲＡＮのようなルールベースＭＴの結果のＢＬＥＵ値は悪いが、人間が見ると悪くない、という場合もある。 • もう一つの問題としてＳＭＴが良い訳文を生成しているのか、という問題がある。

代表的なＭＴ評価尺度（１） • ＢＬＥＵ • WER(word error rate) • 機械翻訳文と参照訳との編集距離を正規化した値

代表的なＭＴ評価尺度（２） • PER(position independent WER) • GTM(General Text Matcher) • 機械翻訳文と参照訳との最長一致単語列の集合:MMS

評価尺度とＭＴ方式の関係 • この議論を整理すると、評価尺度とＭＴ方式の関係を分析する必要性も浮かび上がる

特許文に対するＳＭＴの評価 • 利用データ：ＪＡＰＩＯ提供の公開特許公報要約／ＰＡＪ対訳データ(1993年から2004年までの12年分。Ｇ０６分野７７万文で学習、1000文でパラメータ調整、500文で評価 • フレーズベースＳＭＴ • 入力文をフレーズ（翻訳する上で固定的に扱える単位）に分割SMTは短い表現の翻訳に強い • 各フレーズを統計翻訳 • フレーズ順序を統計的に調節

動作例 個々のフレーズは統計翻訳で求める TommrowIwill goto the conferencein Japan 明日　　　　　　　Φ　　　　　　日本の　　　　　会議に　　　　　　行きます機械翻訳のＭＴ評価尺度による評価 MT2006(ＮＩＳＴ主催）でのBestなＢＬＥＵは0.35。　よって、特許翻訳ではフレーズベースSMTはかなり期待できる。

レポート課題　１　 • NHKのニュースサイト　http://www.nhk.or.jp/ に行くと、その日のニュースとその英語版ニュース　http://www.nhk.or.jp/nhkworld/ が掲載されています。 • 一方、Google翻訳では、日英翻訳ができます。これは、統計ベースの翻訳。IBMモデルとかかぎらないかもしれない。 • また、Yahooでも翻訳サービス　http://honyaku.yahoo.co.jp/ があります。 • 日本語NHKニュースの英語翻訳結果を参照訳として、Google翻訳の結果とYahoo翻訳の結果のBLUE値を計算してください。そして、BLUE値と、実際の読みやすさ、理解しやすさを検討して、レポートしてください。 • BLUE値の計算は手計算でけっこうですが、大変ですから短いニュースを対象にしてもらってよいです。 • もし、機械的に処理できる方は、長いニュースにトライしてください。

レポート課題　２ • Statistical Machine Translation に関するIBM model1-5を提案した論文　Peter E. Brown; Stephen A. Della Pietra; Vincent J. Della Pietra; Robert L. MercerThe Mathematics of Statistical Machine Translation: Parameter Estimation（Computational Linguistics, Volume 19, Number 2, June 1993）を読み、 • (1)model2 • (2)model 3 • (3)model4 の各々について説明せよ。論文は下記のURLからダウンロードできる。 • http://www.aclweb.org/anthology-new/J/J93/J93-2003.pdf

自然言語処理の歴史的変遷 参考：辻井潤一「ことばとコンピュータ」月間言語に２０００年に連載

Top down vs Bottom up合理主義vs 経験主義 • 陥りがちなことは、 • 現実のデータを見ない理論(TopDown) • 理論的方向性のないデータ集積(BottomUp) • 機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう。

Bottom Up 旧世代：構造主義 • 思弁的だった言語学を科学にしようとした試み • 収集した言語データを主観を排して？？観察し、言語の本質的要素を明らかにする。 • 動詞の接尾辞「て」vs「で」 • 同じ「て」だが、鼻音の動詞「死んで」の後では「で」になる。 • 鼻音 vs　非鼻音　という相補分布でなければいけない。 • 最小対(minimal pair)の考え方： • しかし、「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか。

合理主義 • 出発点：言語から独立した計算のモデルを想定 • できるだけ単純なモデルが見通しがよい。 • 言語を実世界から切り離したソシュール的アイデア • 最初はパフォーマンスが悪いが、いずれはBottomUpシステムを上回る。BTは現実のデータしか見ないから、予測能力が低いのだ。 • しかし、最初のモデルが外れだったら？ • チョムスキーの個別言語に依存しない言語理論（普遍文法）に依拠 • 言語だけを相手にしたとき、自立した言語のモデルは構文論が最適

移行派原理主義：transfer fundamentalist • 下図のどこかのレベルで言語Aから言語Bに移行する。 • 移行するレベルにおいては、言語Aと言語Bの表現の間で変換対応表を作れる（という信念） • たとえ対応表が膨大でも言語独立な表現（＝意味？？）深層格表現（動作主、経験者etc) 構文構造表現句構造表現単語列言語Aの文言語Bの文

移行派原理主義の問題点 • レベルが上がるにつれて構造が大きくなる。それでも言語AからBへ移行できるのは、 • 部分の意味は一度決まると、それを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだが…… • 言語A,B間で単語の対応は一意的でない。 • 湯、水　 water • 一方の言語にしか存在しない文法的性質や機能語あり • 冠詞、名詞の性 • それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 • 最も深刻なのは • 意味の文脈依存性 • 名詞の単数、複数の区別のない言語Aからある言語Bへ変換するには、文脈情報が必要。しかも文脈の数は無限。 • デフォールトを単数に変換し、文脈で証拠が出れば複数と変換。 • 「けっこうです」”thank you” or “no thank you” • デフォールトでは解けない！？

記号について-- 少し視野を広げ人工知能の視点から-- • 記号と公理系から閉じた知識体系を作る（前記ヴィトゲンシュタイン) • 記号はそれ自体でひとつの存在。記号を用いた推論は、想定する集合上での操作として定義できる（外延的論理） • 80年代までの人口知能はこの路線だった。なにしろ、入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし、限定目的の貧弱なシステムしか作れなかった。（エキスパートシステム）しかし、限定目的の貧弱なシステムしか作れなかった。（エキスパートシステム） • 80年代後半から外界とのインタラクションが重視されるようになった。 • ロボットにおける subsumption architecture • 分散知能 • エージェント（これは現在ではソフトウェア工学） • 文脈情報を考慮した記号処理への動き

文脈情報を考慮した記号処理への動き • 記号は、 • a. コアになる意味 • b. 文脈に依存した、つまり言語使用における意味 • からなる。 • そこで、b.を考慮するために事例を大量に集めて事例ベース翻訳が考案された。 • 翻訳事例 • 「太郎は小説を読んだ」 vs “Taro read a novel” • には太郎＝人間、小説＝文字メディア、という文脈によって「読む」を規定する力あり。 • しかし、それにしても個々の単語のコアな意味は予め与えないと動かない。

単語の意味 • 単語の意味を要素に分解して表現する方法（80年代） • Kill = cause (someone (alive  death)) • 何を基本要素におけば十分なのか？ • 90年代以降の主流は • その単語が使われた文脈に共起する単語で意味の曖昧さを解消する。 • 大規模コーパス（２０ヶ月分のNYタイムス）で、 capital の資本、首都の意味の曖昧さ解消などが９０％の精度でできた。 • 未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている。

経験主義あるいはデータ主義 • 文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義 • IBMの統計的機械翻訳（90年代初頭） • 人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法（統計的機械学習）で発見した。 • EM, ビタビ探索など • 大量のメモリと高速な計算機 • 大量の質のよい翻訳文の対(教師データ） • これがなかなか簡単に入手できない

昔の機械翻訳 統計的機械翻訳 翻訳の評価