1 / 5

アノテーションガイドラインの管理を行う アノテーションシステムの提案

アノテーションガイドラインの管理を行う アノテーションシステムの提案. 東京大学 辻井 研究室  D3 大内田賢太. 人手によるアノテーション. 人手によるテキストアノテーション 定義 テキストデータに対して、人間の言語知識を用いたラベルをつけていく作業 目的 アノテーションされたコーパスから機械学習で言語知識を得ることができる 得られた言語知識がアノテーションの影響を受けやすいため、できるだけ人の言語知識がうまく取り込められたアノテーションを行いたい テキストアノテーションにおける問題点 人手によるアノテーションにおける問題点 時間がかかる・多くの人数が必要

floyd
Download Presentation

アノテーションガイドラインの管理を行う アノテーションシステムの提案

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. アノテーションガイドラインの管理を行うアノテーションシステムの提案 東京大学 辻井研究室 D3 大内田賢太

  2. 人手によるアノテーション • 人手によるテキストアノテーション • 定義 • テキストデータに対して、人間の言語知識を用いたラベルをつけていく作業 • 目的 • アノテーションされたコーパスから機械学習で言語知識を得ることができる • 得られた言語知識がアノテーションの影響を受けやすいため、できるだけ人の言語知識がうまく取り込められたアノテーションを行いたい • テキストアノテーションにおける問題点 • 人手によるアノテーションにおける問題点 • 時間がかかる・多くの人数が必要 • 巨大なテキストデータを、同じ基準でアノテーションするのは困難 • 一貫性の無いアノテーションになってしまう問題点 • 複数のアノテーターによる、一貫性の喪失 (inter-annotator discrepancy) • 同一のアノテーターによる、一貫性の喪失 (intra-annotator discrepancy).

  3. アノテーションの具体例(1/2) • 例として、4つの単語列“IκBα,” “IL2R,” “IκB,” “serum”のうちProteinの固有表現を選ぶアノテーションを考えよう • いくつかの単語列(ここでは、 “IκBα,” “serum”)は、容易にアノテーションできる • しかし、いくつかの単語列(ここでは、 “IL2R,” “IκB,” )は、Proteinの定義があいまいなために、容易にアノテーションすることができない。 protein IκBα protein IκBα IL2R IκB ? serum ? IL2R IκB serum “IL2R” と“IκB”は、同じ特性をもったプロテインの集合を示す単語列

  4. アノテーションの具体例(2/2) • アノテーションが困難な単語列に対しては、アノテーターがどのようにアノテーションするか決定しなければならない 例えば、“IL2R”はプロテインの固有表現ではないと決定したとする 決定の後、プロテインの固有表現へのアノテーションにおいて、プロテインの集合に対してどのような決定を行うべきか、ガイドラインを作ることができる。 ガイドラインに従って、類似の単語列である“IκB”に対してもアノテーションを行わないという判断ができる。 protein protein protein IκBα IκBα IκBα IκB IκB IκB IL2R IL2R IL2R ? ? ? serum serum serum

  5. アノテーションガイドライン • 定義 • 判断が難しい場合に手助けとなるガイドライン • 一般的には、いくつかの例を列挙したリストになっている • 目的 • アノテーターに偏ったアノテーションを防ぎ、一貫性の高いアノテーションを行えるようになる • 問題点 • アノテーションを行う前から、アノテーション上のすべての問題を想定することは困難 アノテーション作業を行いながら、同時にアノテーション・ガイドラインの管理する手法を提案する

More Related