280 likes | 492 Views
資訊檢索技術. 參考資料: 林秋燕 曾元顯 卜小蝶, Chap. 1 、 3 Chowdhury , Chap.9. 資訊檢索技術簡介. 目的 利用電腦儲存與計算能力,協助使用者從大量缺乏結構化( Non-structural )資料中,快速擷取所需 分析使用者資訊檢索需求意涵,嘗試提供解決方案 涵蓋各種類型資料之處理 文字、表格、圖片、文件 結構化 v.s. 非結構化 包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知. 發展歷程 人工分類 關鍵詞技術 KWIC KWOC 全文檢索 索引搜尋 快速比對
E N D
資訊檢索技術 參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
資訊檢索技術簡介 • 目的 • 利用電腦儲存與計算能力,協助使用者從大量缺乏結構化(Non-structural)資料中,快速擷取所需 • 分析使用者資訊檢索需求意涵,嘗試提供解決方案 • 涵蓋各種類型資料之處理 • 文字、表格、圖片、文件 • 結構化 v.s. 非結構化 • 包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知
發展歷程 人工分類 關鍵詞技術 KWIC KWOC 全文檢索 索引搜尋 快速比對 高品質全文檢索 各種技術標準問世 MARC SGML HTML Z39.50 XML 兩大發展族群 System-centred models User-centred or cognitive models 資訊檢索技術的發展—1/2
系統導向之資訊檢索技術模組 • Boolean model(布林邏輯查詢) • Cluster-Based Model(串聯基礎模式) • Vector-Space Model(向量模式) • Probabilistic Model(機率模式) • Best match searching model(最佳化查詢模式) • Relevance feedback model(相關回饋模式) • Natural language processing model(自然語言處理模式) • Hypertext model(超文件模式)
Boolean model • 提供檢索詞彙間AND、OR、NOT的組合 • 製作簡單、檢索速度快 • 可用不同欄位資料來限定檢索範圍,對主題明確的檢索(如明確的作者名稱、標題名稱)非常有效 • 但一般使用者比較難以利用此種模式表達較為複雜的查詢
Cluster-Based Model • 理論基礎 • 假設相似的文件,應能符合類似的資訊需求 • 以串聯技術分析文件中所使用的詞彙(Term),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個串聯(Cluster)。 • 利用此種自動歸類(Automatic Clustering)方式,便能將內容相近的文件歸成一類,除能藉由此關連找出未包含檢索詞彙的相關文件,更能提供進一步的歸納、摘要,與主題辨識。
Vector-Space Model • 將檢索系統所有的文件視為一個文件向量空間 • 每一篇文件則為這個空間內的一個點(一個向量) • 使用者的查詢問句(query)亦視為文件向量空間的一個點 • 計算代表文件的向量與代表查詢問句的向量的相似性 • 系統依照文件與查詢問句相似性的大小,排列系統認為相關的文件
Probabilistic Model • 以文件(document)機率的大小決定該文件是否與使用者之查詢問句(query)相關 • 使用者之查詢問句為已知條件,依據該查詢問句計算文件之機率 • P(d|q)=P(d,q)/P(q) • 超過一定機率的文件則被檢索系統認為符合使用者的檢索需求 • 機率的大小則為文件排序的依據
Best match searching model • 採用Ranking理念 (重要性排序) • 檢索結果按符合程度排序,以加快檢索結果的檢視整理與利用,此為布林邏輯模式難以達到的重要功能 • 排序方式 • Term weighting • 將查詢字串或文獻內的索引詞彙,依重要性分別給予加權比數。呈現檢索結果時,權重高的詞彙排序在前面。 • Document Ranking • 利用詞彙權重評比,來判斷文獻和檢索詞彙的相似度,可節省瀏覽無關資料的時間
Relevance feedback model • 使用者根據系統對檢索條件的回應,將相關資料或條件回饋給系統,以導引系統搜尋的方向,逐步獲取自己所要的資料 • 執行初次檢索後,使用者根據系統回應,指出哪些文件或相關詞跟他的檢索主題相關或完全不相關,並將此訊息回饋給系統,系統便據此訊息,再作進一步的搜尋 • 相關回饋表現出來的檢索方式,常成為漸進式查詢(progressive query)或範例查詢(query by example)的模式。
Natural language processing model • 允許使用者以不限定的自然詞語、句法與系統溝通,因此使用者的負擔更輕,但系統的介面部份必須具備相當程度的人工智慧能力,以瞭解自然語言的意義。 • 三種處理層次 • Syntactic analysis(語句結構分析) • Semantic analysis(語意分析) • Pragmatic analysis(實際意涵分析)
Hypertext model • 採用互動導覽方式,允許使用者瀏覽文件中個別不同內容,或同一文獻集中的不同文件。 • 跳脫原有線性循序閱讀方式 • 惟仍受限於設計者的思維模式
改善檢索品質的使用者查詢模式 • Information filtering • Personalized service • Query by voice • Query by dialog • Fuzzy search • Intelligent search agent • Information Mining
Information filtering (資訊過濾) • 此種模式與使用者主動查詢資料而系統被動反應相反。 • 使用者向系統登錄自己的資訊需求、興趣或檢索條件後,由系統主動、持續的為使用者蒐集相關的資料,再定時或不定時傳給使用者,使用者只需被動接受檢索與過濾後的結果即可。因此,在一段期間內,使用者只需做一次檢索,即可獲得持續的檢索結果。
Personalized service (個人化服務) • Adaptive Information Retrieval • 檢索系統記錄個別使用者的資訊需求,或是把相同需求的使用者的記錄組合運用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時,系統提供較符合個人興趣的回應,做到個別化的服務
Query by voice (語音檢索) • Conversational Information Retrieval • 由文字介面轉變為較為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運用。 • Speech recognition voice-to-text • Speech synthesis text-to-voice
Query by dialog (對話式查詢) • 系統以文字或語音為介面同使用者對話,從對話中透露使用者的資訊需求與意圖,系統再據以檢索。 • 此種模式強調的是使用者端運用較為精緻的人機介面技術,因此與檢索技術的實際運作原理可以較無關係。
Fuzzy search (模糊搜尋) • 即容錯式、全文式、非控制字彙、近似字串 (proximity)、允許利用近似自然語言的方式表達檢索字串與條件的檢索模式。 • 此種模式大大降低資訊檢索的複雜度,對不明確自己檢索主題的使用者幫助尤其顯著。 • 尋易(CSmart)智慧型中文文件檢索系統http://www.sinica.edu.tw/csmart/index.html
Intelligent search agent (智慧型檢索精靈) • 使用者將自己的資訊需求交代檢索精靈程式,由此精靈代替使用者到各個相關資料庫檢索資料,再回報回使用者。 • 此種模式是以上各種模式與人機介面技術的綜合運用,使得資訊檢索可以達到時空無礙、虛擬實境的境界。
Information Mining(資訊探勘) • 發掘隱沒在大量文件內的訊息,協助使用者發現知識、蒐集情報。 • Data Mining(資料探勘) • 從結構化資料中,找出資料的相關性 • Document Mining(文本探勘) • 從非結構化的資料中,找出資料的相關性
使用者導向資訊檢索模式 • Ingwersen’s model • 使用者的認知因其工作或興趣而不同,也造成其資訊需求和資訊行為的差異 • 社會和組織環境也會影響之 • Belkin’s model • Scanning to searching、Goal of interaction、Mode of retrieval、Resource condisered • Saracevic’s model • Cognitive、Affective、Situational