50 likes | 188 Views
アノテーションガイドラインの管理を行う アノテーションシステムの提案. 東京大学 辻井 研究室 D3 大内田賢太. 人手によるアノテーション. 人手によるテキストアノテーション 定義 テキストデータに対して、人間の言語知識を用いたラベルをつけていく作業 目的 アノテーションされたコーパスから機械学習で言語知識を得ることができる 得られた言語知識がアノテーションの影響を受けやすいため、できるだけ人の言語知識がうまく取り込められたアノテーションを行いたい テキストアノテーションにおける問題点 人手によるアノテーションにおける問題点 時間がかかる・多くの人数が必要
E N D
アノテーションガイドラインの管理を行うアノテーションシステムの提案 東京大学 辻井研究室 D3 大内田賢太
人手によるアノテーション • 人手によるテキストアノテーション • 定義 • テキストデータに対して、人間の言語知識を用いたラベルをつけていく作業 • 目的 • アノテーションされたコーパスから機械学習で言語知識を得ることができる • 得られた言語知識がアノテーションの影響を受けやすいため、できるだけ人の言語知識がうまく取り込められたアノテーションを行いたい • テキストアノテーションにおける問題点 • 人手によるアノテーションにおける問題点 • 時間がかかる・多くの人数が必要 • 巨大なテキストデータを、同じ基準でアノテーションするのは困難 • 一貫性の無いアノテーションになってしまう問題点 • 複数のアノテーターによる、一貫性の喪失 (inter-annotator discrepancy) • 同一のアノテーターによる、一貫性の喪失 (intra-annotator discrepancy).
アノテーションの具体例(1/2) • 例として、4つの単語列“IκBα,” “IL2R,” “IκB,” “serum”のうちProteinの固有表現を選ぶアノテーションを考えよう • いくつかの単語列(ここでは、 “IκBα,” “serum”)は、容易にアノテーションできる • しかし、いくつかの単語列(ここでは、 “IL2R,” “IκB,” )は、Proteinの定義があいまいなために、容易にアノテーションすることができない。 protein IκBα protein IκBα IL2R IκB ? serum ? IL2R IκB serum “IL2R” と“IκB”は、同じ特性をもったプロテインの集合を示す単語列
アノテーションの具体例(2/2) • アノテーションが困難な単語列に対しては、アノテーターがどのようにアノテーションするか決定しなければならない 例えば、“IL2R”はプロテインの固有表現ではないと決定したとする 決定の後、プロテインの固有表現へのアノテーションにおいて、プロテインの集合に対してどのような決定を行うべきか、ガイドラインを作ることができる。 ガイドラインに従って、類似の単語列である“IκB”に対してもアノテーションを行わないという判断ができる。 protein protein protein IκBα IκBα IκBα IκB IκB IκB IL2R IL2R IL2R ? ? ? serum serum serum
アノテーションガイドライン • 定義 • 判断が難しい場合に手助けとなるガイドライン • 一般的には、いくつかの例を列挙したリストになっている • 目的 • アノテーターに偏ったアノテーションを防ぎ、一貫性の高いアノテーションを行えるようになる • 問題点 • アノテーションを行う前から、アノテーション上のすべての問題を想定することは困難 アノテーション作業を行いながら、同時にアノテーション・ガイドラインの管理する手法を提案する