1 / 41

IIR 輪講復習 #8 Evaluation in information retrieval

IIR 輪講復習 #8 Evaluation in information retrieval. お知らせ. たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR 復習資料おきば http://bloghackers.net/~naoya/iir/ppt/. 参考. http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライドからの引用あり. 8 章のテーマ.

ursala
Download Presentation

IIR 輪講復習 #8 Evaluation in information retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. IIR輪講復習#8 Evaluation in information retrieval

  2. お知らせ • たつをさんによる補足情報 • http://chalow.net/clsearch.cgi?cat=IIR • 復習資料おきば • http://bloghackers.net/~naoya/iir/ppt/

  3. 参考 • http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html • 本資料は書籍の輪読会に向けたサマリ • 本資料内で一部上記ドキュメント, スライドからの引用あり

  4. 8章のテーマ • 検索結果の妥当性評価 • テストの方法 • 定量的な評価指標 • フォーマルな指標とユーザー有用性のギャップ

  5. テストの方法

  6. テストに必要なもの • 文書のコレクション • クエリ群 (情報ニーズ) • 適合性 (relevance) 判定の集合 • r(qi, dj) = 0 or 1

  7. 情報ニーズ • 適合性はクエリではなく情報ニーズと比較して評価されるべき • クエリだけでは適合かどうかは不明 • 「心臓発作の危険を減らすためには白ワインより赤ワインってほんと?」 • → wine red white heart attack effective • ∴ 人力による適合性判定データが必要

  8. 標準的なテストコレクション ※ 最近は Wikipedia のアーカイブも良く利用されるとか。

  9. 検索結果の評価

  10. サマリ • ランク付けなしの検索結果の評価 • 基本 Precision と Recall • P と R のトレードオフ指標 → F値 • ランク付けされた検索結果の評価 • Presicion - Recall 曲線 • 補完適合率 • 曲線を調べる統計手法 ... 11 point interpolated average precision • → より良い統計指標に MAP • MAP では判断しづらい物 (Web検索 etc) → Precision-top K → R-Precision • ほか • ROC曲線 • NDCG • 情報ニーズに対する適合性の評価 • kappa statistic

  11. ランク付けなしの検索結果の評価

  12. Precision と Recall • Precision ... 適合率 • Recall ... 再現率

  13. Precision • 検索結果にゴミが入ってない率

  14. Recall • 検索して適合した文書を適合文書全体からどれだけ拾えたか率

  15. 比喩 • チョコと酢昆布をまとめて取れるクレーンゲームでチョコが欲しい! • Precision ... 取って来たものがチョコばかりだったら嬉しい 「酢昆布とかいらねーし」 • Recall ... ゲーム台にあるチョコ全部取れたら嬉しい 「チョコ全部欲しいし」 • チョコ ... relevant な検索結果 • 酢昆布 ... non-relevant な検索結果

  16. 分割表と P, R

  17. Accuracy は適切でない • 情報ニーズに対して 99%が non relevant • 全部 non relevant にすると Accuracy が高くなってしまう

  18. Precision と Recall のトレードオフ • 全ドキュメントを返すと R = 1 • ゲーム台にあるの全部の景品を取る ... チョコは全部手に入る。「チョコ全部欲しいし」→ OK! • 「酢昆布いらねーし」な人は超不満 Precision → 0

  19. F値 (F measure) • P と R のトレードオフの指標 • 加重調和平均 • αは P と R の重み • P も R も同価値なら α = 0.5 → β = 1

  20. F値考察 • P ≦ 1, R ≦ 1 → F ≦ 1 • なぜ調和平均? • 相加平均は不適切 ... R か P を 100% にするとどんなに極端でも 50% は稼げてしまう • 調和平均なら ok。トレードオフを表現するのに適切。

  21. Recall 70% での各指標グラフ

  22. ランク付けありの検索結果の評価

  23. ランクありの検索結果 • Precision, Recall, F値は集合ベースの方法 → ランクありでは拡張する必要あり • 検索された文書の集合 = top K の検索結果

  24. Precision - Recall 曲線 • top K に対する Precision - Recall 曲線 Interpolated Precision (Pinterp)

  25. 11 point interpolated average precision • recall を 0.0 → 1.0 まで 0.1 刻み • 情報ニーズごとに、各 recall level の Pinterp の平均

  26. 8.2 → 11point... の結果グラフ ※ グラフを見て妙な特異点がないかなどを調査する

  27. MAP • Mean Average Precision • 複数の情報ニーズへの評価を一つの値にまとめる指標 • "Average precision" を各情報ニーズに付いて算出 → それを全情報ニーズについて平均したもの

  28. MAP式 • Q 情報ニーズの集合 • mj 適合文書の数 • R set of ranked retrieval results

  29. MAP の特徴 • 適合文書が全くない = 0 • 一つの情報ニーズに対して Average Precision は Precision - Recall 曲線に近似 • MAP は Precision - Recall 曲線の平均エリアを表現する • IRシステム毎に MAP を求めて比較する

  30. MAPで判断できないケース • MAPは全 recall level に渡る指標 • Web 検索では top 10 から 30 の precision が重要 • → precision at K, R-Precision

  31. R-Precision • set of relevant document of size ... |Rel| として top Rel 個の Precision を調べる。Precision at K より○ • 完璧なシステムでは... • 例: 100ドキュメントに 8 つの適合文書、検索結果 top 20 • 完璧なシステムなら r = 8 • Precision at K ... r / K → 8 / 20 = 0.4 • R-Precision ... |Rel| = 8 → r / |Rel| = 8/8 = 1

  32. R-Precision の考察 • R-Precision は precision - recall 曲線に渡る有効性ではない → あくまで曲線の一点 • 曲線の最高点 → F 値 • R-Precision は損益分岐点 • P = R = r / |Rel|

  33. その他の指標

  34. ROC曲線 • 縦軸を recall、横軸を false-positive 率 ( fp / (fp + tn) ) ... "見えたゴミ率" • ゴミが見えるのをどの程度許容できたら recall が上がるか

  35. NDCG • "marginal" な適合性判断を加味した指標 • 機械学習による適合性判断をした場合などに使われる

  36. 情報ニーズに対する適合性の評価

  37. 適合性の評価 • そもそも適合とは • 主観的な判断 • そのテストデータが真に適合かどうか → 統計指標でその品質を算出

  38. kappa 統計 • 社会学 • 判断の一致率 • カテゴリの判断のために設計された • "偶然の一致" を補正する統計指標 • Kappa = P(A) – P(E) / 1 – P(E) • 0 ... 偶然の一致 • 1 ... 完全に一致

  39. Kappa Measure: Example (from lecture08...ppt)

  40. Kappa Example (from lecture08...ppt) • P(A) = 370/400 = 0.925 • P(nonrelevant) = (10+20+70+70)/800 = 0.2125 • P(relevant) = (10+20+300+300)/800 = 0.7878 • P(E) = 0.2125^2 + 0.7878^2 = 0.665 • Kappa = (0.925 – 0.665)/(1-0.665) = 0.776 • Kappa > 0.8 = good agreement • 0.67 < Kappa < 0.8 -> “tentative conclusions” (Carletta ’96) • Depends on purpose of study • For >2 judges: average pairwise kappas

  41. 8章 その他の話題 (読み物的) • 検索結果のフォーマルな指標以外に、ユーザーが快適度を判断する軸 • 検索スピード、ユーザビリティ、etc • 二値判断でなく "marginal" な判断をどう加味するか • 定量的な評価 vs 人間の主観による評価 • A/B testing • Snnipets • 静的 / 動的

More Related