410 likes | 588 Views
An Analysis of Active Learning Strategies for Sequence Labeling Tasks. Burr Settles and Mark Craven In EMNLP 2008, pages 1069-1078 読み手 : 岡崎直観(東大・辻井研). この論文について. 系列ラベリングとして定式化されるタスクに,種々の能動学習( active learning )戦略を適用 試した能動学習戦略は全部で 15 種類
E N D
An Analysis of Active Learning Strategies for Sequence Labeling Tasks Burr Settles and Mark Craven In EMNLP 2008, pages 1069-1078 読み手: 岡崎直観(東大・辻井研)
この論文について • 系列ラベリングとして定式化されるタスクに,種々の能動学習(active learning)戦略を適用 • 試した能動学習戦略は全部で15種類 • Expected Gradient Length (EGL) と Information Density (ID) は著者らの提案手法 • 能動学習を概観するカタログとしても有用 • 評価に用いたコーパスは全部で8種類 • Information Density (ID) とSequence Vote Entropy (SVE) の性能が良さそうだが,突出して優れている手法は無かった • 論文の著者はバイオNLPの研究者 • A Biomedical Named Entity Recognizer (ABNER) は有名 • EGLは2007年のNIPSで発表している
能動学習 (active learning) • 能動学習 • データ中のどのサンプルから学習を行うか,学習器自体がコントロールできる枠組み • 本研究では,学習器は少ない訓練例Lを基に,ラベル付けされていないサンプル集合U から,ある戦略(基準)に基づいて,学習に有用と思われる事例(クエリ事例)を選ぶ ラベル付け 学習 選択 スパムメールの学習データ 大量のメール (スパムかどうかは不明) 分類器
系列ラベリングにおける能動学習 • 系列ラベリングに能動学習を適用する先行研究 • Uncertainty sampling (Scheffer et al., CAIDA-2001; Culotta and McCallum, AAAI-2005; Kim et al., HLT-NAACL-2006) • Query-by-committee (Dagan and Engelson, ICML-1995) • これらの従来研究は,外れ値(outliers)に弱いと言われている (Roy and McCallum, ICML-2001; Zhu et al., ICML-2003WS) • 本論文は,ラベル付けされていないサンプル集合の分布を考慮した能動学習戦略を提案する • 種々のコーパスを用い,能動学習の先行研究や提案手法を比較・解析する
この論文で紹介する能動学習戦略 • Uncertainty sampling • Least Confidence (LC); Margin (M) • Token Entropy (TE); Total Token Entropy (TTE) • Sequence Entropy (SE); N-best Sequence Entropy (NSE) • Query-by-committee (QBC) • Vote Entropy (VE); Total Vote Entropy (TVE) • Kullback-Leibler (KL); Total Kullback-Leibler (TKL) • Sequence Vote Entropy (SVE) • Sequence Kullback-Leibler (SKL) • その他 • Expected Gradient Length (EGL) • Information Density (ID) • Fisher Information Ratio (FIR)
条件付き確率場(CRF) • 定式化 (Lafferty et al., ICML-2001) • x = x1, …, xT: 入力トークン系列 • y = y1, …, yT: 出力ラベル系列 • 本研究では線形連鎖CRFを例に取り上げる • 事後確率最大化によるパラメータ推定 素性の重み 素性関数
ビタビ・アルゴリズム max operation
前向き・後ろ向きアルゴリズム (= Z) (= Z)
能動学習アルゴリズム ラベル付けをすべき事例に高いスコアを与える評価関数 人手でラベル付け
Uncertainty Sampling ラベル付けの確信度が 低い事例を選ぶ
Least confidence (LC) • 現在のモデルが事例 x∈Uをビタビ・アルゴリズムでラベル付けするとき,その確信度(確率推定値)が低いものを選ぶ (Culotta and McCallum, AAAI-2005) • CRFでは,条件付き確率は前向き・後ろ向きアルゴリズムと,ビタビ・アルゴリズムで計算される 推定された確率
Margin (M) • 現在のモデルが事例 x∈Uをラベル付けするとき,第1位と第2位のラベルの確信度の差が小さいものを選ぶ (Scheffer et al., CAIDA-2001) • 第2位の確率は,ビームサーチを用いたn-bestアルゴリズムで求める (Schwartz and Chow, 1990) 第1位の確率 第2位の確率
Token entropy (TE) • 現在のモデルが事例 x∈Uをラベル付けするとき,各位置 tにおけるラベル付け ytの曖昧さを,エントロピーで計る • 周辺確率は前向き・後ろ向きアルゴリズムから求まる xの長さ ラベルの数 位置 t のラベル ytが mである確率(周辺確率) トークンあたりのエントロピーを求める
Total token entropy (TTE) • Token entropy (TE) では,長い事例が過度に選ばれないように,Tに関して平均を取ったが,長い事例は,そもそもラベル付けが難しい (Baldridge and Osborne, EMNLP-2004; Hwa, CL-2004) 平均を打ち消す (平均を取らない)
Sequence entropy (SE) • Token entropy (TE) はトークンに関するエントロピーを計っているが,系列に関するエントロピーを計った方がよいのではないか? • エッジの周辺確率が計算されていれば,系列全体の和を取ることなく,条件付きエントロピーの和で計算できる (前向き・後ろ向きアルゴリズムの適用後は,x に依存しないと考えて良い) (連鎖律) (マルコフ性)
N-best sequence entropy (NSE) • N-bestラベル付け系列に関するエントロピーを計る (Kim et al., HLT-NAACL-2006) • こちらは,単純にn-best系列に基づいてエントロピーを計算する
Query-By-Committee (QBC) 複数の分類器を作り,ラベル付けが一致するかどうか調べる
Query-By-Committee (QBC) • Query-by-committee (Seung et al., CoNLL-1992) • C個のモデル C = {θ(1), …, θ(C)}があるとき,これらのモデルが異なるラベル付けを行う事例をアノテートする • Query-by-bagging (Abe and Mamitsuka, ICML-1998) L回サンプリング ラベル付け L (1) θ(1) L (2) θ(2) L x ∈U 学習 ラベル付きデータ … … ラベル無しデータ L (C) θ(C) (サンプリングするときに重複する事例を選んでも構わない) このラベル付けが揺れるものを選ぶ
Vote entropy (VE) • C 個のモデルが事例 x∈Uをラベル付けするとき,各位置 tにおけるラベル付け ytのばらつき具合を,エントロピーで計る • 各モデルはビタビ・アルゴリズムでラベル付けを行う xの長さ ラベルの数 位置 t のラベル ytを mと予測したモデルの数 トークンあたりのエントロピーを求める 各モデルが位置 t のラベル ytを mであると投票した確率
Kullback-Leibler (KL) • C 個のモデルが事例 x∈Uをラベル付けするとき,各位置 tにおけるラベル付け ytのばらつき具合を,平均的なラベル付けからのKLダイバージェンスで計る 位置 tにおけるラベル付けの,平均からのばらつき具合 ytのラベル付けに関する全モデルCと θ(c) の距離 全モデルCがytを mとラベル付けする確率
Sequence vote entropy (SVE) • C 個のモデルがそれぞれ,事例 x∈Uをn-best解でラベル付けするとき,得られたラベル系列 yの確率分布のばらつき具合(エントロピー) 全モデルを使ったとき,事例 xが yとラベル付けされる確率 各モデルにn-best系列を出力させ,その和集合をとったもの
Sequence Kullback-Leibler (SKL) • C 個のモデルがそれぞれ,事例 x∈Uをn-best解でラベル付けするとき,得られたラベル系列 yの確率分布のばらつき具合(KLダイバージェンス) 全モデルを使ったとき,事例 xが yとラベル付けされる確率 各モデルにn-best系列を出力させ,その和集合をとったもの
Expected gradient length (EGL) • 現在のモデルが事例 x∈Uのラベル yを知ったとき,モデルを大きく修正する必要があるものを選ぶ (Settles et al., NIPS-2008) • 実際にはラベル yは未知なので,n-best解による期待値で近似 • 勾配の計算には,CRFの学習の実装を再利用すればよい 対数尤度の勾配 尤度は対数尤度で, 各事例は独立 学習データに対する対数尤度は0になっているはず
Uncertainty samplingが上手くいかない例 • ラベル無しサンプルAは分離境界面上にある • ラベル付けの確信度が最も低いと考えられる • 他のラベル無しサンプルの分布を見ると,AよりもBをアノテートすべき • Bの周辺にはラベル付けされた事例や,ラベル無しサンプルがたくさん分布している ○: ラベル無しサンプル □: 正例 ▲: 負例
Information density (ID) • Sequence entropyを,中心性尺度で重み付け 重み付けの重要度 xのUにおける中心性 KL距離やユークリッド距離も試したが,コサイン距離とほとんど変わらなかった 系列中の各点の素性値の和を xのベクトルとする 素性数 Kを次元とするベクトル
Fisher information ratio (FIR) • 事例 x∈Uを学習データに加えたとき,対数尤度の期待値ができるだけ大きくなる事例を選ぶ (Zhang and Oles, ICML-2000) • Cramer-Raoの不等式により,これはモデルのパラメータの分散をできるだけ下げることと等価 対数尤度の期待値 Fisher information matrix
Fisher information matrixの計算 xに関するFisher Information matrix 対角要素のみで近似 (Nyffenegger et al., 2006) 確率として正規化されていることから導かれる定理 yをn-best解で近似
FIRの別の解釈 • 以下の式を最小化する • xをn-best解でラベル付けしたとき,モデルの対数尤度の θiに関する勾配は大きい方がよい • モデルを大きく変更する可能性がある • xをn-best解でラベル付けしたとき,モデルの対数尤度の勾配は,すべてのラベル無しサンプルをn-best解でラベル付けしたときの勾配に近い方がよい • 外れ値のラベル付けはしないほうがよい
実験に用いたデータ • CoNLL-03 (Sang and DeMeulder, 2003) • Newswire記事の固有表現抽出(PER, ORG, LOC, MISC) • NLPBA (Kim et al., 2004) • 生命・医学文献の固有表現抽出(protein, RNA, cell-type) • BioCreative (Yeh et al., 2005) • 生命・医学文献の固有表現抽出(gene mention) • FlySlip (Vlachos, 2007) • 生命・医学文献の固有表現抽出(gene mention) • CORA (Peng and McCallum, 2004) • 論文のヘッダーからタイトル,著者名,所属情報を抽出 • 論文の参考文献から,BibTeXのフィールドを抽出 • Sig+Reply (Carvalho and Cohen, 2004) • メールからシグニチャと引用を認識 • SigIE • メールからアドレス帳の情報(名前,メール,電話番号)を抽出
実験に用いたデータの統計情報 ※ラベルはすべてIOB表記
実験設定 • CRFの素性は平均的なもの • 単語素性,綴り素性(文字種など),品詞,… • 能動学習のベースライン • ランダムにサンプルを選択する (Random) • 系列が長いサンプルから選択する (Long) • 実験設定 • N-best近似は N = 15 • QBC手法におけるデータ分割数 C = 3 • Information densityにおける重み付け β = 1 • 教師有りデータはランダムに選んだ5事例からスタート • 1回の能動学習ループにおける追加事例数 B = 5
評価結果(学習曲線の面積) • トークンベースよりも系列ベースの戦略のほうが良い • 系列長の平均は要らない • 長い系列は難しいと考えるべき • EGLやFIRは,理論的にはしっかりしているが,近似(N-bestや対角化)のためか,性能があまり良くない • 明確な勝者はなし • Information density (ID) が良い • Sequence entropy (SE) をほぼ改善 • 大きいコーパスでは効果あり • Sequence vote entropy (SVE) も良さそう • Uncertainty samplingでは,least confidence(LC) と sequence entropy (SE) が良さそう
実行時間に関する議論 • Uncertainty sampling戦略が一番速い • トークンベースの戦略が系列ベースの戦略よりも若干速い • Query-by-committee (QBC) 戦略は,複数のモデルを訓練しなければならないので,時間がかかる • 5個のクエリを見つけるのに3~4分 • EGLとFIRがもっとも遅い • 1個のクエリを見つけるのに8~10分 • 素性の数 K に関して,処理時間が線形に増加してしまう • Information density (ID)← 著者らのお薦め • サンプルの中心性を事前に計算すれば,実行時間はSEと同じ • 中心性の計算を行うのに,30分から2時間くらいかかる