Searching behavior & evaluation of IR

Searching behavior & evaluation of IR 鍾季倫 anadem_chung[at]yahoo.com.tw Oct. 27, 2003 This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.

大綱一、資訊行為、資訊尋求行為、與資訊檢索行為模式二、資訊檢索系統評估方法三、資訊檢索系統評估實驗

一、資訊行為、資訊尋求行為、與資訊檢索行為模式一、資訊行為、資訊尋求行為、與資訊檢索行為模式

資訊行為、資訊尋求行為、與資訊檢索行為模式資訊行為、資訊尋求行為、與資訊檢索行為模式 • 資訊行為模式 • Wilson 之資訊行為模式 • 資訊尋求行為模式 • Ellis 之資訊尋求行為模式 • Kuhlthau 之資訊尋求行為模式 • Marchionini 之資訊尋求行為模式 • 資訊檢索行為模式 • Saracevic 之資訊檢索互動分層模式 • Spink 之互動檢索過程模式 • Choo、Detlor 和 Turnbull之網路資源檢索行為 • Navarro-Prieto、Scaife 和 Rogers 之網路資源檢索行為模式 • Holscher 和 Strube 之網路資源檢索行為模式

資訊行為、資訊尋求行為與資訊檢索行為界說 資訊行為資訊尋求行為資訊檢索行為資料來源：Wilson (1999)

資訊需求 活動機制阻礙因素活動機制資訊尋求行為使用者壓力/處理理論危險/獎賞理論心理的消極注意人口統計學的消極檢索社會學習理論角色相關或人際關係積極檢索自我學習進行中檢索環境的資料來源特色資訊處理和使用 Wilson 之資訊行為模式資料來源：Wilson (1997)

Ellis 之資訊尋求行為模式 瀏覽開始串連區分擷取查核結束監視資料來源：Wilson (1999)

Kuhlthau 之資訊尋求行為模式 資料來源：Kuhlthau (1991)

考慮\反覆\終止 確認或接受定義問題選擇系統形成檢索問題執行檢索檢視結果擷取資訊 Marchionini 之資訊尋求行為模式預設路逕高可能性路逕低可能性路逕資料來源：Marchionini (1995)

環境任務… 情感意圖… 認知知識結構… 面使層用檢索問題特徵適動者表面層應互介面用使訊處理軟體、演算法… 電應資腦內容資訊來源、文本呈現... Saracevic 之資訊檢索互動分層模式適 • 工程硬體、能力資料來源：Saracevic (1997)

檢索過程 …檢索策略… 循環… 循環互動回饋迴圈檢索技巧或行動檢索技巧或行動檢索技巧或行動… 檢索技巧或行動使用者的判斷使用者的判斷使用者的判斷使用者的判斷… 使用者的判斷 Spink 之互動檢索過程模式資料來源：Spink (1997)

Choo、Detlor 和 Turnbull之網路資源檢索行為 資料來源：Choo, Detlor, & Turnbull (1999)

規劃檢索 分類的使用主題瀏覽式的分類目錄判斷問題結構分散的探索型判斷任務的目標由上而下事實型混合策略由下而上由上而下 Navarro-Prieto、Scaife 和 Rogers 之網路資源檢索行為模式 ( I ) [ 網路使用經驗豐富者 ] 資料來源：Navarro-Prieto, Scaife, & Rogers (1999)

Navarro-Prieto、Scaife 和 Rogers 之網路資源檢索行為模式 ( II ) 由主題瀏覽式的分類目錄、或直接鍵入提供給他們的字詞來開始檢索受系統的回饋影響他們的檢索行為 [ 網路使用經驗貧乏者 ] 資料來源：Navarro-Prieto, Scaife, & Rogers (1999)

Holscher 和 Strube 之網路資源檢索行為模式 ( I ) 資訊需求 .19 [.05] .81 .31 .64 直接到(熟悉的)網站與網路資源檢索工具互動 .59 .30 .27 .04 .01 獲取文件檢視 .39 .07 .15 瀏覽網站 .23 .06 .03 .10 失敗成功 .72 資料來源：Holscher & Strube (2000)

.08 [進階查詢] 選擇 +到達網路資源檢索工具 .08 雅虎的主題目錄 .15 .68 形成+ 選擇檢索詞彙陳述檢索問題 .21 .05 1.00 .02 .27 送出檢索問題/獲得檢索結果瀏覽 .12 1.00 .42 檢視檢索結果 .03 .30 .53 從檢索結果中選出文件檢視文件 .23 Holscher 和 Strube 之網路資源檢索行為模式 ( II ) .43 資料來源：Holscher & Strube (2000)

二、資訊檢索系統評估方法

資訊檢索系統評估方法 • 相關派 • 效用派 • 評估標準

Entire document collection (not relevant & not retrieved) Relevant documents Retrieved documents a c b d 評估方法 ─ 相關派檢準率 (Precision) = 檢全率 ( Recall ) = 雜訊比 ( Fallout ) = [ 找到垃圾的比例愈高，檢準率愈低 ] 系統評估不僅考慮到拒絕不相關文獻的能力 (檢準率) ，同時也測量系統找到所有相關文獻的能力 (檢全率)。(黃慕萱，民85)

Precision 0 Recall 檢全率與檢準率之關係小蝶老師：『此事古難全』檢全率和檢準率間存在一種反比關係。也就是說，在檢索中，如果要提高檢全率，必定會降低檢準率，反之亦然。

檢全率與檢準率之限制 • 相關 (relevance) 的定義莫衷一是。 • 『相關』的判斷，相當主觀。 • 相關文獻 (c) 在資料庫中難以計算。 • 是否相關的主觀判斷因素，不只受文件內容之影響，也會受使用者在檢索時，自身的知識狀態所影響。參考書目：卜小蝶(民89)；Chowdhury (1999) p. 208

何謂相關 (Relevance) • 相關概念可說是目前評估IR系統的最主要依據，其判斷主要包括以系統為主 (客觀相關)，以使用者為主 (主觀相關) 。 • 較知名的定義： • 主題相關 (subject relevance)：檢索詞彙與索引詞彙間的吻合程度 • 邏輯相關 (logical relevance)：William Cooper 1971年提出 • 情境相關 (situation relevance)：考慮個人的認知狀態、興趣和喜好 (Patrick Wilson提出) • 心理相關 (psychological relevance)：能改變認知或知識狀態、或產生文字關聯效果(contextual effect)的資訊才能視為相關 (Steven Harter 1992 年提出) 參考書目：卜小蝶(民89)

評估方法 ─ 效用派 (Utility) • Cooper認為，任何一篇文章皆有其報酬 (rewards) 和懲罰 (penalties) • 報酬可能來字文章的資訊本身或其休閒娛樂價值等； • 懲罰則源自於閱讀困難或其他自文件資訊所產生的不愉快經驗等。 • 因此，當書目資料或文章呈現在使用者眼前時，使用者可以根據該篇文章之報酬和懲罰來衡量其價值。 • 換句話說，使用者可以自由心證地決定他願意花多少錢來購買此一文件，也就是主觀認定該篇文件之效用。參考書目：黃慕萱(民85)

效用派之限制 • 缺乏簡單明確的量化公式。 • 未考慮到未被檢索到之相關文獻的可能效益。 (但使用者也不可能知道未檢索到文獻的影響) • 使用者對與檢索主題無關但引發興趣之文章，可能給予高度效用評分。 • 金錢的價值因人而異，無法成為評估效用之一致性標準。參考書目：卜小蝶(民89)；黃慕萱(民85)

資訊檢索系統評估標準 資料來源：Salton & McGill (1983) as cited in Chowdhury (1999) p.204

三、資訊檢索系統評估實驗

資訊檢索系統評估實驗 • Cranfield 研究 • SMART 實驗 • STAIRS 計畫 • 文件檢索會議 (TREC)

Cranfield 研究 ─ 背景陳述 • 始於1950年代末期，結束於1960年代中期。 • Cranfield 研究可分為前後二期，皆由Cleverdon 完成。 • 一般將早期的研究稱為 Cranfield I ；而後期的研究稱為 Cranfield II 。 • 前後二期 Cranfield 計畫的目的，都是為了找出較佳的索引語言 (索引語言在此包括分類系統和檢索系統)。參考書目：黃慕萱(民85)，頁117

Cranfield I • 第一期的 Cranfield 研究報告在1960年發表。 • 根據 Case Western Reserve University圖書館中1,100多篇有關冶金學的文章，以檢全率和檢準率來評估四種索引語言之優劣： • 國際十進分類法 (UDC) 、 • 層面分類法 (Facet Classification) 、 • 按字母順排列之主題索引 (alphabetical subject catalog) 、 • 單詞組合索引法 (uniterm system of coordinate indexing) • 結果發現這四種索引語言的表現難分軒輊；也就是說，利用這四種索引語言來組織資訊，所得的檢索效益大體上是一致的。參考書目：黃慕萱(民85)，頁118

Cranfield II ( I ) • 根據第一次的失敗經驗，Cleverdon將索引語言大致分為三種： • 單一詞彙語言 (single term language) 、 • 簡單概念索引語言 (simple concept index language) 、 • 控制詞彙索引 (controlled term index) • 然後再將各種能提高檢全率和檢準率的方法附加於各索引語言之下 (例如切截、同義詞、或類同義詞等 )，總共產生了三十三種不同的索引方式。第二期 Cranfield計畫即在比較這三十三種索引方式之檢索效益。參考書目：黃慕萱(民85)，頁118

Cranfield II ( II ) • 大致而言，其研究結果發現『單一詞彙語言』(使用的是後組合系統, post-coordinate system) 的總體表現最好，其次是『控制詞彙索引』，表現最差的則為『簡單概念索引語言』(使用的是前組合系統, pre-coordinate system) 。 • Cleverdon 的研究推翻控制詞彙較自然語言為佳的說法，意謂圖書資訊人員在整理組織資訊上雖投入大量時間和人力，但其檢索效益仍無法超越自動索引，實為人力資源上的極大浪費。參考書目：黃慕萱(民85)，頁120

SMART 實驗 ( I ) • Salton 於1960 年代初期開始，當時所使用的測試資料庫 (即SMART系統)，是以Cleverdon 在 Cranfield II 計畫中所蒐集的實驗性館藏為本。 • 其原始構想是想證明圖書館界長期使用的文獻分析或內容分析的方法，應比一般關鍵詞檢索能達到更好的檢索效果。 • 但在1965年，初期研究結果推翻其原先的預測和假設，加權關鍵詞加上切截後的表現相當突出。參考書目：黃慕萱(民85)，頁125

SMART 實驗 ( II ) • 1973年，Salton 比較關鍵詞自動索引和MEDLARS 人工索引在檢索效益上的差異，結果發現自動索引的表現不會比人工索引遜色。 • 1983年，SMART 系統已超越 Cleverdon 的實驗性館藏，由一仟筆資料成長至五萬筆資料。 • Salton已相當肯定關鍵詞自動索引 (或單一詞彙) 的檢索效益。參考書目：黃慕萱(民85)，頁126

STAIRS (STorage And Information Retrieval System) 計畫 • 1985 年由Blair 和 Maron 所進行。他們在 STARIS 中儲存了四萬多篇文章，約是三十五萬頁的全文資料。 • 使用的檢索方法是未經加權的關鍵詞和布林邏輯結合檢索，結果得到平均檢準率為79%，而平均檢全率為20%。 • Blair 和 Maron對此檢索結果相當滿意。不過，79%的檢準率雖是不錯，但20%的檢全率則顯得過低。又事實上，大部分的檢索者根本未意識到低檢全率的現象。參考書目：黃慕萱(民85)，頁126

小結 • Salton 認為，圖書館界一再排斥類似的研究結果，是因其嚴重損及館員的專業地位，如果自動索引和館員人工分析資料的結果一樣好，那館員的工作是否還有存在的價值？ • 三十多年來，不同的檢索系統、不同的檢索問題、不同的相關判斷，所得的研究結果卻大致相同。換言之，一再重複的實驗結果只是不斷提醒人們圖書館界慣用的整理組織資訊的方式必須重新檢討。參考書目：黃慕萱(民85)，頁128

文件檢索會議 (TREC) 簡介 • 為了促進資訊檢索的研究與應用的發展，美國國防部高等研究計劃局（Defense Advanced Research Projects Agency，簡稱DARPA）與美國國家標準暨技術局（National Institute of Standards and Technology，簡稱NIST）共同舉辦了『文件檢索會議』（Text REtrieval Conference，簡稱TREC） • 透過所發展出的大型測試集，制定各種測試項目、測試程序及測量準則、組合成一評估檢索系統的機制。 • TREC在1992年舉辦了第一屆，其後持續在每年年底舉辦會議，至今 (2002年11月) 已進行了十一屆。參考書目：江玉婷、陳光華(民88)

TREC 測試集 ( I ) • TREC的評估機制基本上是依據Cranfield研究的概念擴展而來，因此其測試集亦包含文件集、主題及相關判斷三個主要部分。 • 文件集（Document Set） TREC文件集所收錄的主要是新聞性文件及雜誌期刊，文件的異質性亦為一大特色。 • 主題（Topics） TREC不同於一般的測試集採用傳統的查詢問句作測試，而是模擬使用者的資訊需求，以各種形式、各種角度陳述出來，並以結構化的欄位來呈現，稱之為主題（Topics）。鼓勵了研究者探討如何分析資訊需求，選擇、結合主題中各欄位，並從中擷取有意義的資訊。參考書目：江玉婷、陳光華(民88)

TREC 測試集 ( II ) • 相關判斷 TREC的相關判斷主要是根據主題的Nar-rative欄位進行。對相關與否的判斷原則，是只要文件部分與主題相關即可（即使只是數句），並不要求文件的每個部分均與主題相關。TREC採用了pooling的方式進行，亦即針對每個主題，從各系統所送回的測試結果中，抽取出一定數量的文件（通常為100篇），合併形成一個pool，將之視為該主題可能的相關文件集合。將此pool中重覆的文件去除後，再給該主題的原始建構者進行相關判斷。參考書目：江玉婷、陳光華(民88)

TREC對於文件檢索的影響 • 在測試集方面：TREC測試集至TREC-6有5GB的文件集，以及350個具有相關判斷的主題，並已被整個文件檢索的研究社群所廣泛採用。有些未能真正參加TREC的團體，亦使用此測試集來發展其檢索策略。 • 在測試項目方面：TREC持續地致力於研究發展許多新的測試項目，使得不同的檢索技術均能在一致的測試環境中進行評估，也將傳統的文件檢索研究擴展至新的領域。如中文、西班牙文、跨語檢索等項目。 • 在會議及論壇方面：TREC的舉行使得研究者能透過系統測試以及相互間的觀摩切磋，使系統的檢索技術得到改良，並獲致更高的檢索效益。參考書目：江玉婷、陳光華(民88)

參考書目 ( I ) • 卜小蝶(民89)。資訊檢索課程講義。(未出版)。 • 江玉婷、陳光華(民88)。TREC現況及其對資訊檢索研究之影響。圖書與資訊學刊，29期，頁36-59。Also available at http://www.lib.nccu.edu.tw/mag/admin/29/p36.html • 黃慕萱(民85)。資訊檢索中『相關』概念之研究。臺北市：臺灣學生。 • Chowdhury, G.G. (1999). Introduction to Modern Information Retrieval. London: Library Association Publishing.

參考書目 ( II ) • Choo, C. W., Detlor, B., & Turnbull, D. (1999). Information seeking on the web ─ an integrated model of browsing and searching. Proceedings of the 62nd ASIS Annual Meeting, 36, 3-16. • Holscher, C. & Strube, G. (2000). Web search behavior of Internet experts and newbies. In Proceedings of the Ninth International World Wide Web Conference, p. 337-346. Retrieved Sept. 1, 2002 from http://www9.org/w9cdrom/81/81.html • Kuhlthau, C. C. (1991). Inside the search process: information seeking form the user’s perspective. Journal of the American Society for Information Science, 42(5), 361-371.

參考書目 ( III ) • Marchionini, G. (1995). Information seeking in electronic environments. New York: Cambridge University Press. • Navarro-Prieto, R., Scaife, M., & Rogers, Y. (1999). Cognitive Strategies in Web Searching. Retrieved Sept. 2, 2002 from http://zing.ncsl.nist.gov/hfweb/proceedings/navarro-prieto/index.html • Salton, G., & McGill, M.J.(1983). Introduction to Modern Information Retrieval. Auckland: McGraw-Hill as cited in Chowdhury, G.G.(1999). Introduction to Modern Information Retrieval. London: Library Association Publishing.

參考書目 ( IV ) • Saracevic, T. (1997).The Stratified Model of Information Retrieval Interaction: Extension and Applications. Retrieved Oct. 19, 2002 from http://www.scils.rutgers.edu/~tefko/ProcASIS1997.doc • Spink, A. (1997). Study of interactive feedback during mediated information retrieval. Journal of the American Society for Information Science, 48(5), 382-394. • Wilson, T. D. (1997). Information behaviour: a interdisciplinary perspective. Information Processing and Management, 33(4), 551-572. • Wilson, T. D. (1999). Models in information behaviour research. Journal of Documentation, 55(3), 249-270

P.S. • 此投影片是碩一上卜小蝶老師的「資訊檢索研究」課程時整理的。 • 內容如有錯誤，敬請不吝指正。 • my email: anadem_chung[at]yahoo.com.tw Thank you

Searching behavior & evaluation of IR