勉強会8月9日
This presentation is the property of its rightful owner.
Sponsored Links
1 / 13

勉強会8月9日 PowerPoint PPT Presentation


  • 106 Views
  • Uploaded on
  • Presentation posted in: General

勉強会8月9日. Bernard Lamers. 今日取り上げる論文. Schulte im Walde, Sabine and Brew, Chris. 2002. Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information. Proceedings ACL. Inducing German Semantic Verb Classes. 概要: 対象はドイツ語 動詞を格フレームの確率分布に基づいて clustering

Download Presentation

勉強会8月9日

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


3081268

勉強会8月9日

Bernard Lamers


3081268

今日取り上げる論文

  • Schulte im Walde, Sabine and Brew, Chris. 2002. Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information. Proceedings ACL.


Inducing german semantic verb classes

Inducing German Semantic Verb Classes

  • 概要:

    • 対象はドイツ語

    • 動詞を格フレームの確率分布に基づいてclustering

    • 格フレームは2500万語のコーパスから自動取得、clusteringはk-means方法で行う。

    • 結果を手で製作された動詞分類と比較し、評価する。


3081268

ドイツ語の動詞クラス

  • 格フレームは多くとも三つのargumentを取る。可能なargument: nominative(n), dative(d), accusative(a), reflexives(r), prepositional phrases(p), expletive es(x), non-finite clauses(i) etc.

  • フレームはnaiなどで表す。ドイツ語には38種類のフレームが存在する。


3081268

格フレームの確率分布の例

  • glauben(思う、信じる)


3081268

動詞のクラスの例

  • 実験後の結果を分析するため、前もって人が作ったクラスを用意する。

  • 57個の動詞を14個のクラスに。例:

    • Announcement: ankundigen(知らせる),bekanntgeben(告知する),eroffnen(打ち明ける),verkunden(布告する)

    • Manner of motion: fahren(運転する),fliegen(飛ぶ),rudern(漕ぐ),segeln(帆走する)


Clustering

Clustering方法

  • K-meansアルゴリズム:n個のデータオブジェクトをちょうどk個のクラスタに割り当てる教師なしのclustering方法

    • 1:各動詞が一番近いクラスタに割り当てられる。

    • 2:クラスタの新しいcentroidが計算され、ステップ1にいく。

    • 動詞がすべて別のクラスタに割り当てられなくなる次第、終了


K means starting clusters

K-meansの弱点:starting clustersに依存

  • Starting clustersの選択:

    • Random

    • Agglomerative hierarchical clustering:

      • 最初は各動詞にクラスタを割り当てる

      • 一番近い二つのクラスタをmergeする

      • k個のクラスタが残るまで繰り返す

      • Merge方法:single-linkage, complete-linkage, average verb distance, distance between cluster centroids and Ward’s method


3081268

距離をいかに測るか

  • 距離:cosine、ユークリッド距離、Kullback-Leibler divergence (relative entropy)

  • KL-divergenceを利用:

    • Information radius: d(v1, v2) = D(p || (p+q)/2 ) + D(q || (p+q)/2)

    • Skew divergence: d(v1 , v2) = D(p || w*q + (1-w)*p)

  • 以上のものは確率分布qの中でzero valueがあっても問題ない。


Clustering evaluation mi a b

Clustering evaluation: MI(A, B)

  • 個別のclusterの質をcluster purity ABijで表す。ABijは同一のクラスBjに写像されるクラスAiのメンバーの数。

  • 全体的なclusteringの評価:式(4)

  • MI(A, B)にはありがたくない性質もある別の評価方法としてAPPを導入する。


Clustering evaluation app

Clustering evaluation: APP

  • APP: adjusted pairwise precision。

    • 個別のclusterの場合:式(5)

    • 全体的なclusteringの場合:式(6)。

  • MIの範囲:0.229-0.493

  • APPの範囲:0.017-0.291


Clustering1

実際のclustering

  • 結果は表1と2

  • 実際の得られたclusteringの例:6節

  • その例の評価のとき、どのフレームはclusteringにどう影響するかを検討。


3081268

結論

  • 自動的に得られた動詞分類は直感的に存在するクラスと一致。

    • ドイツ語の場合はsyntaxだけで意味の要素をとることが可能である。

  • これからの道:

    • selectional restrictionsを利用する。


  • Login