An Analysis of Active Learning Strategies for Sequence Labeling Tasks

An Analysis of Active Learning Strategies for Sequence Labeling Tasks Burr Settles and Mark Craven In EMNLP 2008, pages 1069-1078 読み手: 岡崎直観（東大・辻井研）

この論文について • 系列ラベリングとして定式化されるタスクに，種々の能動学習（active learning）戦略を適用 • 試した能動学習戦略は全部で15種類 • Expected Gradient Length (EGL) と Information Density (ID) は著者らの提案手法 • 能動学習を概観するカタログとしても有用 • 評価に用いたコーパスは全部で８種類 • Information Density (ID) とSequence Vote Entropy (SVE) の性能が良さそうだが，突出して優れている手法は無かった • 論文の著者はバイオNLPの研究者 • A Biomedical Named Entity Recognizer (ABNER) は有名 • EGLは2007年のNIPSで発表している

能動学習 (active learning) • 能動学習 • データ中のどのサンプルから学習を行うか，学習器自体がコントロールできる枠組み • 本研究では，学習器は少ない訓練例Lを基に，ラベル付けされていないサンプル集合U から，ある戦略（基準）に基づいて，学習に有用と思われる事例（クエリ事例）を選ぶラベル付け学習選択スパムメールの学習データ大量のメール（スパムかどうかは不明）分類器

系列ラベリングにおける能動学習 • 系列ラベリングに能動学習を適用する先行研究 • Uncertainty sampling (Scheffer et al., CAIDA-2001; Culotta and McCallum, AAAI-2005; Kim et al., HLT-NAACL-2006) • Query-by-committee (Dagan and Engelson, ICML-1995) • これらの従来研究は，外れ値（outliers）に弱いと言われている (Roy and McCallum, ICML-2001; Zhu et al., ICML-2003WS) • 本論文は，ラベル付けされていないサンプル集合の分布を考慮した能動学習戦略を提案する • 種々のコーパスを用い，能動学習の先行研究や提案手法を比較・解析する

この論文で紹介する能動学習戦略 • Uncertainty sampling • Least Confidence (LC); Margin (M) • Token Entropy (TE); Total Token Entropy (TTE) • Sequence Entropy (SE); N-best Sequence Entropy (NSE) • Query-by-committee (QBC) • Vote Entropy (VE); Total Vote Entropy (TVE) • Kullback-Leibler (KL); Total Kullback-Leibler (TKL) • Sequence Vote Entropy (SVE) • Sequence Kullback-Leibler (SKL) • その他 • Expected Gradient Length (EGL) • Information Density (ID) • Fisher Information Ratio (FIR)

条件付き確率場（CRF）

条件付き確率場（CRF） • 定式化 (Lafferty et al., ICML-2001) • x = x1, …, xT: 入力トークン系列 • y = y1, …, yT: 出力ラベル系列 • 本研究では線形連鎖CRFを例に取り上げる • 事後確率最大化によるパラメータ推定素性の重み素性関数

ビタビ・アルゴリズム max operation

前向き・後ろ向きアルゴリズム (= Z) (= Z)

周辺確率

能動学習アルゴリズム

能動学習アルゴリズム ラベル付けをすべき事例に高いスコアを与える評価関数人手でラベル付け

Uncertainty Sampling ラベル付けの確信度が低い事例を選ぶ

Least confidence (LC) • 現在のモデルが事例 x∈Uをビタビ・アルゴリズムでラベル付けするとき，その確信度（確率推定値）が低いものを選ぶ (Culotta and McCallum, AAAI-2005) • CRFでは，条件付き確率は前向き・後ろ向きアルゴリズムと，ビタビ・アルゴリズムで計算される推定された確率

Margin (M) • 現在のモデルが事例 x∈Uをラベル付けするとき，第１位と第２位のラベルの確信度の差が小さいものを選ぶ (Scheffer et al., CAIDA-2001) • 第２位の確率は，ビームサーチを用いたn-bestアルゴリズムで求める (Schwartz and Chow, 1990) 第１位の確率第２位の確率

Token entropy (TE) • 現在のモデルが事例 x∈Uをラベル付けするとき，各位置 tにおけるラベル付け ytの曖昧さを，エントロピーで計る • 周辺確率は前向き・後ろ向きアルゴリズムから求まる xの長さラベルの数位置 t のラベル ytが mである確率（周辺確率）トークンあたりのエントロピーを求める

Total token entropy (TTE) • Token entropy (TE) では，長い事例が過度に選ばれないように，Tに関して平均を取ったが，長い事例は，そもそもラベル付けが難しい (Baldridge and Osborne, EMNLP-2004; Hwa, CL-2004) 平均を打ち消す（平均を取らない）

Sequence entropy (SE) • Token entropy (TE) はトークンに関するエントロピーを計っているが，系列に関するエントロピーを計った方がよいのではないか？ • エッジの周辺確率が計算されていれば，系列全体の和を取ることなく，条件付きエントロピーの和で計算できる (前向き・後ろ向きアルゴリズムの適用後は，x に依存しないと考えて良い) (連鎖律) (マルコフ性)

N-best sequence entropy (NSE) • N-bestラベル付け系列に関するエントロピーを計る (Kim et al., HLT-NAACL-2006) • こちらは，単純にn-best系列に基づいてエントロピーを計算する

Query-By-Committee (QBC) 複数の分類器を作り，ラベル付けが一致するかどうか調べる

Query-By-Committee (QBC) • Query-by-committee (Seung et al., CoNLL-1992) • C個のモデル C = {θ(1), …, θ(C)}があるとき，これらのモデルが異なるラベル付けを行う事例をアノテートする • Query-by-bagging (Abe and Mamitsuka, ICML-1998) L回サンプリングラベル付け L (1) θ(1) L (2) θ(2) L x ∈U 学習ラベル付きデータ … … ラベル無しデータ L (C) θ(C) （サンプリングするときに重複する事例を選んでも構わない）このラベル付けが揺れるものを選ぶ

Vote entropy (VE) • C 個のモデルが事例 x∈Uをラベル付けするとき，各位置 tにおけるラベル付け ytのばらつき具合を，エントロピーで計る • 各モデルはビタビ・アルゴリズムでラベル付けを行う xの長さラベルの数位置 t のラベル ytを mと予測したモデルの数トークンあたりのエントロピーを求める各モデルが位置 t のラベル ytを mであると投票した確率

Kullback-Leibler (KL) • C 個のモデルが事例 x∈Uをラベル付けするとき，各位置 tにおけるラベル付け ytのばらつき具合を，平均的なラベル付けからのKLダイバージェンスで計る位置 tにおけるラベル付けの，平均からのばらつき具合 ytのラベル付けに関する全モデルCと θ(c) の距離全モデルCがytを mとラベル付けする確率

Sequence vote entropy (SVE) • C 個のモデルがそれぞれ，事例 x∈Uをn-best解でラベル付けするとき，得られたラベル系列 yの確率分布のばらつき具合（エントロピー）全モデルを使ったとき，事例 xが yとラベル付けされる確率各モデルにn-best系列を出力させ，その和集合をとったもの

Sequence Kullback-Leibler (SKL) • C 個のモデルがそれぞれ，事例 x∈Uをn-best解でラベル付けするとき，得られたラベル系列 yの確率分布のばらつき具合（KLダイバージェンス）全モデルを使ったとき，事例 xが yとラベル付けされる確率各モデルにn-best系列を出力させ，その和集合をとったもの

その他の能動学習戦略

Expected gradient length (EGL) • 現在のモデルが事例 x∈Uのラベル yを知ったとき，モデルを大きく修正する必要があるものを選ぶ (Settles et al., NIPS-2008) • 実際にはラベル yは未知なので，n-best解による期待値で近似 • 勾配の計算には，CRFの学習の実装を再利用すればよい対数尤度の勾配尤度は対数尤度で，各事例は独立学習データに対する対数尤度は0になっているはず

Uncertainty samplingが上手くいかない例 • ラベル無しサンプルAは分離境界面上にある • ラベル付けの確信度が最も低いと考えられる • 他のラベル無しサンプルの分布を見ると，AよりもBをアノテートすべき • Bの周辺にはラベル付けされた事例や，ラベル無しサンプルがたくさん分布している ○: ラベル無しサンプル □: 正例 ▲: 負例

Information density (ID) • Sequence entropyを，中心性尺度で重み付け重み付けの重要度 xのUにおける中心性 KL距離やユークリッド距離も試したが，コサイン距離とほとんど変わらなかった系列中の各点の素性値の和を xのベクトルとする素性数 Kを次元とするベクトル

Fisher information ratio (FIR) • 事例 x∈Uを学習データに加えたとき，対数尤度の期待値ができるだけ大きくなる事例を選ぶ (Zhang and Oles, ICML-2000) • Cramer-Raoの不等式により，これはモデルのパラメータの分散をできるだけ下げることと等価対数尤度の期待値 Fisher information matrix

Fisher information matrixの計算 xに関するFisher Information matrix 対角要素のみで近似 (Nyffenegger et al., 2006) 確率として正規化されていることから導かれる定理 yをn-best解で近似

FIRの別の解釈 • 以下の式を最小化する • xをn-best解でラベル付けしたとき，モデルの対数尤度の θiに関する勾配は大きい方がよい • モデルを大きく変更する可能性がある • xをn-best解でラベル付けしたとき，モデルの対数尤度の勾配は，すべてのラベル無しサンプルをn-best解でラベル付けしたときの勾配に近い方がよい • 外れ値のラベル付けはしないほうがよい

比較・評価

実験に用いたデータ • CoNLL-03 (Sang and DeMeulder, 2003) • Newswire記事の固有表現抽出（PER, ORG, LOC, MISC） • NLPBA (Kim et al., 2004) • 生命・医学文献の固有表現抽出（protein, RNA, cell-type） • BioCreative (Yeh et al., 2005) • 生命・医学文献の固有表現抽出（gene mention） • FlySlip (Vlachos, 2007) • 生命・医学文献の固有表現抽出（gene mention） • CORA (Peng and McCallum, 2004) • 論文のヘッダーからタイトル，著者名，所属情報を抽出 • 論文の参考文献から，BibTeXのフィールドを抽出 • Sig+Reply (Carvalho and Cohen, 2004) • メールからシグニチャと引用を認識 • SigIE • メールからアドレス帳の情報（名前，メール，電話番号）を抽出

実験に用いたデータの統計情報 ※ラベルはすべてIOB表記

実験設定 • CRFの素性は平均的なもの • 単語素性，綴り素性（文字種など），品詞，… • 能動学習のベースライン • ランダムにサンプルを選択する (Random) • 系列が長いサンプルから選択する (Long) • 実験設定 • N-best近似は N = 15 • QBC手法におけるデータ分割数 C = 3 • Information densityにおける重み付け β = 1 • 教師有りデータはランダムに選んだ5事例からスタート • １回の能動学習ループにおける追加事例数 B = 5

評価結果（学習曲線の面積） • トークンベースよりも系列ベースの戦略のほうが良い • 系列長の平均は要らない • 長い系列は難しいと考えるべき • EGLやFIRは，理論的にはしっかりしているが，近似（N-bestや対角化）のためか，性能があまり良くない • 明確な勝者はなし • Information density (ID) が良い • Sequence entropy (SE) をほぼ改善 • 大きいコーパスでは効果あり • Sequence vote entropy (SVE) も良さそう • Uncertainty samplingでは，least confidence(LC) と sequence entropy (SE) が良さそう

学習曲線

実行時間に関する議論 • Uncertainty sampling戦略が一番速い • トークンベースの戦略が系列ベースの戦略よりも若干速い • Query-by-committee (QBC) 戦略は，複数のモデルを訓練しなければならないので，時間がかかる • ５個のクエリを見つけるのに３～４分 • EGLとFIRがもっとも遅い • １個のクエリを見つけるのに８～10分 • 素性の数 K に関して，処理時間が線形に増加してしまう • Information density (ID)← 著者らのお薦め • サンプルの中心性を事前に計算すれば，実行時間はSEと同じ • 中心性の計算を行うのに，30分から２時間くらいかかる

An Analysis of Active Learning Strategies for Sequence Labeling Tasks

An Analysis of Active Learning Strategies for Sequence Labeling Tasks

Presentation Transcript

Active Learning Strategies and Techniques

Sequence Labeling

Analysis of greedy active learning

Active Learning Strategies

Active Learning Strategies

An Active Learning Platform

Active learning Query Strategies

Active Learning Strategies

ACTIVE LEARNING STRATEGIES

Active Learning for Active Citizenship

Active Teaching for Active Learning

Social Studies Active Learning Strategies

Classroom Strategies for Active Learning

Sequence analysis – an overview

Active Learning by Labeling Features

Active Learning Strategies for Compound Screening

Alphabet Sequence Tasks

Lecture III – Theories and Strategies for Active Learning

Active Learning Strategies for Large Geoscience Classes

Active Learning Strategies

Active Teaching and Active Learning: Techniques and Strategies for Instructors