日本語動詞の自動分類
This presentation is the property of its rightful owner.
Sponsored Links
1 / 15

日本語動詞の自動分類 PowerPoint PPT Presentation


  • 80 Views
  • Uploaded on
  • Presentation posted in: General

日本語動詞の自動分類. Bernard Lamers May 1, 2002. 先週の復習: vector template. Vector template: [verb name, TRANS, PASS, VBN, CAUS, ANIM, class] 例: [opened, .69, .09, .21, .16, .36, unaccusative]. 先週の復習: TRANS. Transitive use: The door was opened. They flooded the rice fields. Non-transitive use:

Download Presentation

日本語動詞の自動分類

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Bernard lamers may 1 2002

日本語動詞の自動分類

Bernard Lamers

May 1, 2002


Vector template

先週の復習:vector template

  • Vector template:

    • [verb name, TRANS, PASS, VBN, CAUS, ANIM, class]

  • 例:

    • [opened, .69, .09, .21, .16, .36, unaccusative]


Trans

先週の復習:TRANS

  • Transitive use:

    • The door was opened.

    • They flooded the rice fields.

  • Non-transitive use:

    • The door opened.

    • His mailbox flooded with love letters.

transitive use

TRANS=

transitive use + non-transitive use


Bernard lamers may 1 2002

先週の復習:PASS

  • VBD-tag: main verbactive

  • VBN-tag:

    • The door was painted recentlypassive

    • He has painted his houseactive

passive use

PASS

passive use + active use


Bernard lamers may 1 2002

先週の復習:VBN

動詞αのVBNタグの数

VBN=

動詞αのVBNタグの数+VBDタグの数


Bernard lamers may 1 2002

先週の復習:CAUS

  • 主語のmulti-set (bag):

    • {a, a, a, b}cardinality: 4

  • 目的語のmulti-set

    • {a}cardinality: 1

  • overlap: {a, a, a}cardinality: 3

overlapのcardinality

CAUS=

主語のcardinality+目的語のcardinality


Bernard lamers may 1 2002

先週の復習:ANIM

  • I, you, he, she, theyなどの代名詞が常に生物の実体を指していることを仮定

  • ANIMの設定にはWordNetなどの単語データベースが使われていない。

動詞αの代名詞である主語の数

ANIM=

動詞αのすべての主語の数


Bernard lamers may 1 2002

データの分析(ページ7、表4)

  • 予測した結果

    • Unergative: TRANSが一番低い。Unaccusative, object-dropの順番で上がる。

    • Unaccusative: ANIMが一番低い、CAUSが一番高い。

  • 予測しなかった結果:

    • Object-drop: CAUS ≠ 0

    • UnaccのPASS, VBN ≒Object-dropのPASS,VBN


Bernard lamers may 1 2002

実験(1)

  • 目的:動詞αのTRANS, PASS, VBN, CAUSとANIMが与えられたとき、動詞αのクラスを返すシステム

  • システムのトレーニングはC5.0を使って行われる。

  • Semantic featuresが一ずつどの程度classificationに貢献するかを検査

    1) 10-fold cross 2) single hold out


Bernard lamers may 1 2002

実験(2)

  • 実験のbaseline (chance performance): 20/59 ≒33.9%

  • 実験のmaximum accuracy:

    • Theory: 100%

    • Practice: 86.5% (分類タスクを専門家に任せたときの精度)


10 fold cross validation

10-fold cross validation

  • ランダムに54個の動詞を選び、そのvectorを計算し、classifierを訓練させる。

  • 残りの5個の動詞を自動分類。

  • 以上のプロセスを50回繰り返す。

  • 結果は表8と9。


Single hold out validation

Single hold-out validation

  • テストセットの大きさはN。

  • for (n = 1; n <= N; n++){

    • n番目の動詞を取って、保留する。残りの動詞でclassifierを訓練させる。

    • 保留された動詞を自動分類。

      }

  • 結果は表11と12。


Bernard lamers may 1 2002

結論

  • 分類の全体的な精度は69.8%。Baseline: 33,9%, 専門家の成績86.5%。

  • ひとつだけのfeatureを使うときの精度とfeatureの組み合わせを使うときの精度の直接の関係がない。

  • PASSを使わなくても、精度が変わらない。


Bernard lamers may 1 2002

日本語への適用(1)

  • 日本語の場合でも動詞が属するクラスを知ることが極めて有利な情報である(Miyagawa 1989などを参考)

  • 英語では目的語があるかどうかを確かめるのは難しい。日本語の場合、もっと簡単(を)

    TRANSの精度が上がる可能性がある。

  • 日本語の受身形(-られ-)が認識しやすい。しかし、日本語は自動詞でも受身形になりうる。


Bernard lamers may 1 2002

日本語への適用(2)

  • 英語の自動詞/他動詞ペアは形がいっしょ。日本語では「起きる/起こす」「焼ける/焼く」などのペアが多い  形が違うので、CAUSをもっと高い精度で取れるかもしれない。

  • 日本語では代名詞が頻繁に使われていない。ANIMを計算するために、辞典等を使う。


  • Login