620 likes | 957 Views
資訊檢索之策略與技巧. 邱子恆 2007.04.02-04.09. Outline. 資訊檢索之基本概念 檢索策略 檢索技巧. I. 資訊檢索之基本概念. IS&R 自然語言 vs. 控制字彙 precision vs. recall 布林邏輯運算元 切截 相近運算元 Known item search vs. subject search. 資訊儲存與檢索 (IS&R Model ). 索引作業. 檢索作業. 資料. 需求. 分析內容. 分析需求. 選擇關鍵詞. 選擇關鍵詞. 索引典. 轉譯. 轉譯. 資料庫. 系統關鍵詞.
E N D
資訊檢索之策略與技巧 邱子恆 2007.04.02-04.09
Outline • 資訊檢索之基本概念 • 檢索策略 • 檢索技巧
I. 資訊檢索之基本概念 • IS&R • 自然語言 vs.控制字彙 • precision vs. recall • 布林邏輯運算元 • 切截 • 相近運算元 • Known item search vs. subject search
索引作業 檢索作業 資料 需求 分析內容 分析需求 選擇關鍵詞 選擇關鍵詞 索引典 轉譯 轉譯 資料庫 系統關鍵詞 系統關鍵詞 檢索結果 關鍵詞比對
自然語言 • 自然語言是相對於人工語言的一種人類語言,也是最合乎人類教談行為的溝通方式,它依循著人類自然進化而發展,成為人和人之間溝通的最基本工具,如中文、英文、日文等都是自然語言。
控制字彙 • Maintenance UF Preventive maintenance Upkeep • Preventive maintenance use Maintenance Upkeep use Maintenance
相關 不相關 檢索到 a b 未檢索到 c d 總數 a+c b+d 回收率&精確率 • Recall(回收率/查全率) & Precision(精確率/查準率)
查全率=a/(a+c) 查準率=a/(a+b) 相關 無關 c d a b
布林邏輯(AND、OR、NOT) A AND B A AND B AND C A OR B A OR B NOT C
切截 (truncation) • Library, libraries, librarian, librarians, librarianship --> lib* (單複數, 詞性不同, 使用 右切截) • Woman, Women --> Wom#n (單複數, 使用中間切截) • Color, Colour --> Colo#r (美式/英式拚音, 使用中間切截)
相近運算元 (adjacent/near) • ANALOG* ADJ1 DIGITAL* 482(1999) • ANALOG* NEAR1 DIGITAL* 506(1999)
Known item search • 已知書目之檢索, 即精確檢索 • 用已知的書目資料來檢索, 包括: 作者, 題名, 期刊名, 出版商, 出版年… etc.
Subject search • 主題檢索 • 想檢索一下到底有那些關於某主題的文獻存在
II. 檢索策略 • 針對一檢索問題之通盤考量或全面性規劃 • 分區組合檢索法 (Block Building) • 引用文獻滾雪球法 (Citation Pearl Growing) • 簡易檢索 (Brief search) • 主題層面連續檢索 (successive facet strategies) • 主題層面配對檢索 (pairwise facets strategies)
分區組合檢索法 • 1. 選擇資料庫 • 2. 確定問題之主要概念及其布林邏輯關係 • 3. 依序找出代表每個概念之所有詞彙 • 4. 將各概念下所有詞彙以“OR”連結 • 5. 將步驟4所得結果以步驟2所決定之布林邏輯關係進行結合 • 6. 依步驟1至步驟5 規劃檢索敘述 • 7. 輸入檢索敘述 • 8. 評估檢索成果
引用文獻滾雪球法 • 事先掌握一篇或數篇相關文章, 利用這些相關文章找尋更多相關的文章, 如此相關文章就像雪球一樣越滾越大. • 在資訊檢索上的應用: 以相關文章的關鍵字或敘述語繼續檢索. • 是由precision反向追求recall的方法 • 通常必須進行多次檢索, 才能找到足夠的相關文章.
簡易檢索 • 最常見的檢索 • 通常用簡單的幾個關鍵字, 加上布林邏輯的組合 • 快速, 同時檢索到的文章不多, recall低 • 適用情形: • 檢索者只闓想閱讀“幾篇”相關文章 • 執行已知書目檢索時 • 檢索概念相當專指 (specific) 時
主題層面連續檢索 • 在決定檢索問題的主題層面之後, 必須確認各主題層面的優先順序. • 在最專指概念或是可能產生最少資料的概念輸入系統後, 如果產生太多資料, 再輸入其他次要概念與之結合. • 直到檢索者認為檢索筆數可以接受為止.
主題層面連續檢索 • 適用情形: • 當所有主題層面以布林運算元結合, 可能產生零筆資料時 • 當檢索問題中有一至二個主題層面涵義相當模糊時 • 當檢索問題具備其他非主題之檢索條件時 (如: 資料類型, 語文, 出版年代), 可將此非主題檢索條件視為第一個檢索概念
主題層面連續檢索 • 適用情形: (續) • 當檢索者寧願忍受誤引, 而不願失去相關文章時 • 當加入其他主題層面所花費的時間和金錢, 可能會超過直接列出檢索結果, 每筆一一審視時 • 當相關文獻過少, 檢索者願意檢視一些相關度較低的文章時
主題層面配對檢索 • 是先將主題層面兩兩配對, 並取其交集 • 也就是取任意二主題層面的交集而後聯集之 • 適用情形: • 當所有主題層面都同樣重要時 • 當主題層面之專指性或模糊性相差不大時 • 當將所有主題層面結合可能導致零筆資料時
III. 檢索技巧 • 為完成特性目的所採取的行動 • 當檢索所得資料筆數過多時(通常指誤引太多) • 當檢索所得資料筆數過少時(包括零筆資料) • 當檢索者想提高 recall 時 • 當檢索者想提高 precision 時
當檢索所得資料筆數過多時 • 是否過份簡化問題? • 是否需要重新釐清檢索概念? • 是否使用了正確的布林邏輯運算元? • 是否使用過份含混或一般性之名詞? • 是否應考慮使用控制字彙? • 是否相近運算元限制過鬆? • 是否切截應用過鬆?
當檢索所得資料筆數過少時 • 是否將問題過份複雜化? • 是否真有文獻探討該主題? • 是否每個概念都使用足夠的檢索詞彙來表達? • 是否相近運算元限制過緊? • 是否使用了正確的布林邏輯運算元? • 是否有語法或拼字上的錯誤? • 是否該改用自然語言進行檢索? • 是否考慮使用切截?
當檢索者想提高 recall 時 • 增加同義詞和類同義詞的數目 • 使用較廣義的檢索詞彙 • 以自然語言檢索代替控制字彙檢索 • 檢索其他主題欄位 • 刪除布林邏輯運算元“AND”及“NOT” • 增加切截的範圍 • 使用較鬆的相近運算元 • 刪除一些非主題之檢索限制(如:年代, 資料類型) • 刪除一主題層面
當檢索者想提高 precision 時 • 刪除部份類同義詞或是詞意含糊的檢索詞彙 • 使用專指性較高的詞彙進行檢索 • 當有適當的控制字彙工具時, 盡量使用其來代替自然語言 • 增加一主題層面 • 使用“ NOT” 除去不相關文章 • 減弱切截的範圍 • 加上非主題之檢索限制 (如年代,資料類型)
網路資源之檢索 • 分類目錄(directory) • 搜尋引擎(search engine) • 進階檢索 • 整合性搜尋引擎(meta-search engine)
Meta search engine • Meta-Search Engines本身不是一種搜尋引擎,而是將使用者輸入的關鍵字轉送給各大搜尋服務網站,由這些搜尋引擎去做檢索的工作。之後其會將這些搜尋引擎所傳回的網頁,依據關鍵字和網頁相關性的大小,將這些網頁整合在一起,合併這些搜尋引擎的搜尋結果,並加以排序,將搜尋結果整理,最後傳送給使用者。如此,使用者便能藉由Meta-Search Engines的合併排序,輕易找到他想要的相關網頁,而不再需要像以往那樣為了能找到資料,需要於不同的搜尋引擎中重覆輸入關鍵字,做重覆查詢篩選的動作。
Google之學術性資源 • Google Book Search • http://books.google.com/ • Google Scholar • http://scholar.google.com.tw/schhp?hl=zh-TW
Google Book Search • Google Library是Google於2002年起,首先與美國密西根大學研議,企圖將圖書館館藏數位化的一項計畫,該計畫打算將圖書館的圖書內容全文掃描,再經文字辨識處理之後,將圖書之內容數位化,做成線上圖書全文檢索系統。Google投資了兩億美元,目前合作的對象包括:史丹福大學、密西根大學、哈佛大學、牛津大學、以及紐約公共圖書館等五大圖書館,希望將參與圖書館之館藏圖書數位化,讓全球各地讀者能夠在線上搜尋到圖書的內容。
Google Book Search • Google Book Search收錄的圖書相當廣泛,舉凡小說、非小說、參考工具書、學術性資料、教科書、兒童書、科學、醫學、專業、教育等等領域都有。而隨著參與計畫的五大圖書館之館藏逐漸被數位化,絕版書、罕見書(rare books)、公共領域(public domain)的書籍都將包括其中
Google Book Search • 當使用者找到喜歡的圖書之後,可以選擇從「Buy this book」的聯結串連至網路書店購買;若該書為某一圖書館的館藏,則可以選擇「Find it in a Library」的聯結,系統會自動與OCLC的聯合目錄WorldCat串連,在美國地區的使用者只要輸入郵遞區號,系統即會告知該區域中有哪些圖書館擁有這本圖書,使用者可以進一步到圖書館借閱。
看見圖書的封面,目次,索引,封底;並可以做該書內文的全文檢索看見圖書的封面,目次,索引,封底;並可以做該書內文的全文檢索