1 / 52

資訊檢索

資訊檢索. 黃慕萱 國立台灣大學圖書資訊學系教授兼系主任 mhhuang@ccms.ntu.edu.tw 中華民國九十一年五月二十七日. 前 言. 資訊科技的發展 網際網路的普及 資訊大量增加 資訊需求的滿足 資訊社會的問題 資訊爆炸 (Information Explosion) 資訊焦慮 (Information Anxiety) 資訊超載 (Information Overload) 知識代溝 (Knowledge Gap). 輸入 1 : 人們的問題及 需求. 輸入 2 : 資訊及其實體. 資訊系統. 輸出:使用者得 到所需資訊.

abner
Download Presentation

資訊檢索

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 資訊檢索 黃慕萱 國立台灣大學圖書資訊學系教授兼系主任 mhhuang@ccms.ntu.edu.tw 中華民國九十一年五月二十七日

  2. 前 言 • 資訊科技的發展 • 網際網路的普及 • 資訊大量增加 • 資訊需求的滿足 • 資訊社會的問題 • 資訊爆炸 (Information Explosion) • 資訊焦慮(Information Anxiety) • 資訊超載(Information Overload) • 知識代溝(Knowledge Gap) 黃慕萱

  3. 輸入1: 人們的問題及 需求 輸入2: 資訊及其實體 資訊系統 輸出:使用者得 到所需資訊 資訊檢索系統 黃慕萱

  4. 選擇徵集 資訊總體 輸入部分 概念分析 索引法 詞彙轉換 系統 採用 詞彙 代表文獻主題詞彙 (索引用語)的資料庫 儲存原始文獻 的資料庫 詞彙轉換 擬定檢索策略 概念分析 檢索問題 資訊使用者 輸出部分 資訊檢索系統(續) 黃慕萱

  5. 資訊檢索系統(續) • 輸入 • 選擇徵集 • 資料的概念分析 • 詞彙轉換 • 製作資料庫 黃慕萱

  6. 資訊檢索系統(續) • 輸出 • 讀者提出檢索問題 • 使用者需求概念分析 • 詞彙轉換 • 資料庫檢索 黃慕萱

  7. 資訊檢索系統(續) • 概念 • 詞彙 • 自然語言 • 控制語言 黃慕萱

  8. 自然語言與控制語言 • 自然語言 • 意義 • 問題 • 語意不明確 • 語法不確定 黃慕萱

  9. 自然語言與控制語言(續) • 自然語言(續) • 優點 • 不需使用控制詞彙 • 避免索引人員產生的人為錯誤 • 索引成本較低 • 不必應付索引典老化所帶來的問題 • 字義的表達較為自由 黃慕萱

  10. 自然語言與控制語言(續) • 自然語言(續) • 缺點 • 容易有遺漏 • 檢索者負擔大 • 文獻內涵易被遺漏 • 回現率較低 • 語意混淆,缺乏統一標準 • 不易檢索有層次附屬關係的概念 黃慕萱

  11. 自然語言與控制語言(續) • 控制語言 • 意義 • 功能 • 控制同義字 • 控制類同義字 • 控制同型異義字 • 控制語意上的相關詞彙 • 控制階層附屬關係 黃慕萱

  12. 自然語言與控制語言(續) • 控制語言(續) • 工具 • 分類表 • LCC (Library of Congress Classification) • 標題表 • LCSH (Library of Congress Subject Headings) • 索引典 • STIC科技索引典 (49270) 黃慕萱

  13. 自然語言與控制語言(續) • 控制語言(續) • 優點 • 可解決同義字、類同義字與同形異義字的問題 • 前組合可解決概念錯誤連結的問題 • 結構良好,使用時可選擇最適當的用語 • 易從事有附屬關係的檢索 • 用語明確一致 • 可利用參互見,得知相關詞彙 • 檢索者負擔輕 黃慕萱

  14. 自然語言與控制語言(續) • 控制語言(續) • 缺點 • 必須由專業人員編製索引,成本較高 • 品質較難控制 • 容易因為誤解而產生錯誤或不一致 • 必須隨時更新 • 索引人員必須具備學科背景與訓練,故製作較慢 • 使用者必須經過訓練 • 檢索詞受限於索引典,較無彈性 黃慕萱

  15. 網路資源 • 網路資源特性 • 大量 • 分散 • 多元 • 即時 • 易變 • 品質差 • 缺乏結構 • 大部分免費 • …... 黃慕萱

  16. Editors Index Space Users Authors Document Space User Space 網路資源檢索系統模式 (卜小蝶) 黃慕萱

  17. 使用者(User Space) • 檢索詞彙短(Short query) • 檢索結構單純(Simple structure) • 檢索歷程少(Search session is few) • 瀏覽少數網頁(View few result pages) • 20/80 Pareto’s law 黃慕萱

  18. 文件內容(Document Space) • 大量(Large amounts) • 非結構化(Less structured) • 內含聯結資訊(Embedded with link structure) • 關心權威及熱門(Authority and popularity) 黃慕萱

  19. 索引(Index Space) • 強調品質(Quality) • 不符成本效益(Cost-ineffective) 黃慕萱

  20. In link萬夫所指 Out link指揮萬軍 偉大(Authority or Popularity) 重要(Hub) 又偉大,又重要, 如Yahoo 網頁聯結 (link) 的特性 (卜小蝶) 黃慕萱

  21. 網路資源搜尋工具的種類 • 瀏覽為主(Browsing –based)-分類目錄Yahoo • 查詢為主(Searching-based)-搜尋引擎Open find 、Google 黃慕萱

  22. 搜尋引擎 • 意義 • 網路資源的搜尋工具,又稱為「索引式查詢工具」 • 提供使用者尋找網路資源的服務 • 可搜尋到符合檢索條件的網頁、網站或群組 • 可進行全文的檢索 黃慕萱

  23. 搜尋引擎(續) • 查詢方式 • 關鍵字搜尋 • 使用者自行決定所有的關鍵字或片語 • 與系統資料庫的關鍵字索引進行比對 • 概念式搜尋 • 搜尋引擎先將資料庫中的文件分類 • 根據使用者輸入的關鍵字搜尋相關之概念,以決定搜尋範圍 • 所查詢是的字義而非字形 黃慕萱

  24. 搜尋引擎(續) • 重要搜尋引擎 • Google—http://www.google.com 黃慕萱

  25. 搜尋引擎(續) • 重要搜尋引擎(續) • Alta vista—http://www.altavista.com 黃慕萱

  26. 分類目錄 • 意義 • 以人工方式將網站分類,並由人工撰寫或自動摘要方式提供網站說明 • 由於有人工的過濾與檢視,故資訊的品質較搜尋引擎為高 黃慕萱

  27. 分類目錄(續) • 查詢方式 • 瀏覽 • 當使用者對某主題的資訊有興趣,或並無確切的資訊需求時,可以瀏覽主題目錄的方式,查詢網路資源 黃慕萱

  28. 分類目錄(續) • 重要分類目錄 • 蕃薯藤—http://www.yam.com.tw 黃慕萱

  29. 分類目錄(續) • 重要分類目錄 • Yahoo—http://www.yahoo.com 黃慕萱

  30. 適用時機 • 主題廣泛(broad):蕃薯藤、Yahoo • 主題專指(specific):Openfind、Google • 提高正確性(accuracy):檢索策略、進階檢索功能的運用 • 提高相關性(relevancy):Google 黃慕萱

  31. 圖書館中的資訊搜尋 • Card catalog use • OPAC use • Online system use 黃慕萱

  32. Two Types of Catalog Use (1) known item search (2) subject search • 73% patrons are looking for known items (actually, 56%) • OPAC後,主題檢索越來越多 27% to 49% 黃慕萱

  33. 題名檢索和作者檢索的比較 (1) title通常較為正確 (2) title檢索通常較容易成功 (3) title檢索通常較為迅速 →還是較多使用者選擇以作者為首要選擇 黃慕萱

  34. 最小省力原則 →是讀者認知上的least effort, 不是實際上的least effort 黃慕萱

  35. 常見的錯誤 (1) 輸入冠詞 (2) author's name in reverse order (3) misspelling (4) 書籍印刷上的錯誤(typographical error) (5) punctuation mark or call number (6) searches made in the wrong mode 黃慕萱

  36. 不使用標題檢索的原因 (1) 不知道控制語言的功能和用法 (2) 不懂得XX,X(1986年以前) SA、BT、NT、RT (3) not located next to online terminal 黃慕萱

  37. 中文標題檢索困難的原因 • 查詢方式過於僵化 • 不知如何擴大檢索 • 檢出不相關資料 • 不了解標題結構 • 讀者不知如何進行主題分析 • 圖書館主題分析層次不夠專指 • 系統之操作說明不足 黃慕萱

  38. 檢索策略 • 策略(strategy) • 針對一檢索問題之通盤考量或全面性規劃 • 技巧(heuristics) • 為完成特定目的而採取的行動 黃慕萱

  39. 檢索策略(續) • 重要檢索策略 • 簡易檢索 • 最常見的檢索 • 所用詞彙不多 • 只用簡單的布林邏輯運算元結合詞彙 • 系統之間的互動很少 黃慕萱

  40. 檢索策略(續) • 重要檢索策略(續) • 分區組合檢索(Blocking Building) • 將檢索問題分解為數個(通常是3至4個)主題層面(Facets),再確定這些主題層面間的關係 • AND • OR • NOT 黃慕萱

  41. 檢索策略(續) • 重要檢索策略(續) • 分區組合檢索(續) • Harter所列分區組合檢索的8大步驟 1.選擇資料庫 2.確定問題之主要概念(主題層面)及其布林邏輯關係 3.依序找出代表每個概念(主題層面)之所有詞彙 4.將各概念下的所有詞彙以“OR”連結 5.將步驟4所得結果以步驟2所決定之布林關係進行結合 6.依步驟1至步驟5規劃檢索敘述 7.輸入檢索敘述 8.評估檢索結果 黃慕萱

  42. 檢索策略(續) • 重要檢索策略(續) • 引用文獻滾雪球(Citation Pearl Growing) • 事先掌握一篇或數篇相關文章,利用這些相關文章尋找更多相關的文章 • 相關文章就像珍珠或雪球一樣愈滾愈大(多) • 由精確率反向追求回收率 黃慕萱

  43. 檢索策略(續) • 重要檢索策略(續) • 引用文獻滾雪球(續) • 引用文獻滾雪球的步驟 1.掌握數篇相關文獻書目 2.針對這些書目進行已知書目檢索(Known Item Search) 3.從相關書目之敘述語和識別語等控制語彙欄位及題名和摘要等自然語言欄位中找尋相關詞彙 4.將相關詞彙輸入資料庫中進行檢索 5.直到資訊需求者對相關文章篇數感到滿意或是無法找到新的相關詞彙為止 黃慕萱

  44. 實例:利用電腦輔助教學學習外國語言 黃慕萱

  45. 檢索策略(續) • 重要檢索策略(續) • 主題層面連續檢索 • 又稱最少筆數優先法、最專指概念優先法 • 與分區組合檢索類似,但分區組合檢索通常會使用所有的主題層面,而主題層面連續檢索則設法動用最少的主題層面 • 主題層面連續檢索的步驟 1.決定檢索問題的主題層面 2.確認各主題層面的優先順序 3.將最專指概念或是可能產生最少資料的概念輸入系統 4.若產生的資料筆數過多,則輸入其他次要概念與之結合 5.直到檢索者認為檢索筆數可以接受為止 黃慕萱

  46. 第一主題層 檢索結果一 檢索結果二 (視需要產生) 檢索結果三 第二主題層 (視情形加入) (視需要產生) 第三主題層 (視情形加入) 檢索策略(續) • 重要檢索策略(續) • 主題層面連續檢索(續) • 策略模式 黃慕萱

  47. 實例:用Suzuki方法學小提琴 小孩的心智發展 • 專指程度或預期資料筆數排出優先順序 • Suzuki • 小提琴 • 小孩 • 生理、心理、智能 黃慕萱

  48. 檢索策略(續) • 重要檢索策略(續) • 主題層面配對檢索 • 將主題層面兩兩配對並取其交集 • 通常應用在所有主題層面都同樣重要、所有主題層面之專指性或模糊性相差不大,或將所有主題層面結合可能導致零筆資料時 黃慕萱

  49. 關鍵字查詢 片語查詢 布林邏輯 近似自然語言查詢 過濾字串 相關詞彙 容錯 切截 同音字查詢 …… 檢索技巧舉例 黃慕萱

  50. 布林邏輯 重要性排序 模糊搜尋 相關回饋 個人化服務 資訊過濾 語音檢索 對話式查詢 自然語言檢索 檢索模式的進展 黃慕萱

More Related