300 likes | 624 Views
索引典與資訊檢索. 參考資料: 黃慕萱, Chap.8 蔡明月, Chap. 10 黃惠株 。「淺談索引典」。 佛教圖書館館訊 第五期(民 85 年 3 月) < http://www.gaya.org.tw/journal/m5/5-main1.htm >(2004 年 5 月 10 日 ) 。 張嘉彬。 「索引典及其於資訊檢索上之探討」。 書苑季刊 36 期( 民 87 年 4 月) < http://public1.ntl.gov.tw/publish/suyan/36/text_46.html >(2005 年 5 月 23 日 ) 。. 簡介.
E N D
索引典與資訊檢索 參考資料: 黃慕萱,Chap.8 蔡明月,Chap. 10 黃惠株 。「淺談索引典」。佛教圖書館館訊第五期(民85年 3月)<http://www.gaya.org.tw/journal/m5/5-main1.htm>(2004年5月10日) 。 張嘉彬。 「索引典及其於資訊檢索上之探討」。書苑季刊36期( 民87年4月)<http://public1.ntl.gov.tw/publish/suyan/36/text_46.html>(2005年5月23日) 。
簡介 • 分類法v.s.索引典 • Thesaurus其希臘與拉丁的字源本義為「寶典」( A treasury) • 1947年到1950年間 • Mooers提出描述語、資訊檢索與資訊檢索系統等專門術語 • 1957年 • Brownson第一次正式使用索引典這個術語,他認為解決資訊檢索問題的最佳答案,是應用機械化的索引典
國際標準的定義 • 國際標準組織(ISO 2788) • 一種受控標引語言詞彙,從編製形式上明確顯示概念間的先顯關係(如:廣義和狹義關係)。 • 美國國家標準(ANSI Z39.19-1980) • 索引典就是將詞與詞組依照同義關係、層級關係及其他關係與附註規定編輯起來,其功能是提供一部標準化的詞彙,供資訊貯存與檢索之用。 • 聯合國科教文組織全球科技資訊系統(UNISIST, UNESCO) • 索引典可以其功能或結構定義之。 • 就功能而言,索引典是一種控制詞彙的工具,其用途是將文獻、標引人員或系統使用者所用的自然語言,轉譯成更為規範的「系統語言」(文獻工作語言,資訊語言)。 • 就結構而言,索引典是一部含有特定知識領域的詞彙,詞彙間有語義或從屬上的關係,且詞彙是控制的、動態的。
學術界不同階段的定義 • 索引典的主要功能是將詞彙依字母順序排列 • 索引典編纂詞彙並顯示詞彙間之同義關係、階層關係或其他關係,藉以提供資訊儲存與檢索一套標準詞彙。 • 索引典應該依據詞彙的意義排列,而不是像字典一樣依據字母順序排列‧‧‧索引典的主要功能是列舉可表達同一概念所有詞彙,藉以協助使用者找出最適合貼切的詞彙來表達他們心中的概念。 • 索引典可以當成人類思路歷程的類比‧‧‧索引典的構造最好和人類大腦的構造一樣,當有一概念產生時,人們可以在自己的思路中尋找最適合的詞彙來表達。
綜合各家定義 • 收集足以表示知識概念的字或詞,以特定結構加以排列 • 控制同義詞,區別同形異義詞,顯現各相關詞彙間階層及語意互屬上的各種關係 • 做為索引者在分析處理資料及讀者在檢索資料時能選用一致的、經過控制的詞彙 • 提供資訊儲存與檢索標準化的用語
索引典之目的 • 在特定的知識領域,提供概念之間的關係指引,幫助標引人員(indexer)及檢索人員(searcher)了解該學科的知識架構。使用者並可藉著詞間關係,由已了解的知識概念來了解新概念的涵義。 • 在特定的知識領域,提供標引人員一套標準化詞彙,確保資料標引的一致性。 • 為了確保資料處理的一致性,索引典為一概念一詞,而其他同義詞則以用代關係指 引。 • 詞與詞之間有明確的詞間關係存在,這些關係能區分各詞在語義網架構中的功能,可作為使用者選擇正確詞彙的指引。 • 當查出的資料太多或太少時,索引典的層級結構可幫助使用者擴大或縮小檢索主題的詞彙範圍。 • 最好能成為該學科的標準用語。
索引典之功能 • 資訊的儲存與檢索提供標準化的語彙,以確保對同一主題,分析及檢索資料時所用的語彙一致 • Dagobert Soergel認為: • 索引典的概念結構(conceptual structure)在標引及檢索時能將主題概念表現的恰到好處 • 索引典將同義詞聚集亦有詞彙控制(terminological control)的功能
索引典編製基本程序 • 準備工作 • 詞彙蒐集 • 定詞 • 建立詞間關係 • 編排與展示 • 測試與修正 • 維護與更新
準備工作 • 學科範圍確定 • 資料量及類型 • 詳盡性(exhaustivity)與專指性(speci-ficity) • 作業表格內容設計
詞彙蒐集 • 經驗法(empirical approach) • 蒐集該學科的百科全書、字(辭)典、刊物及其他權威性出版品,將出現的詞記錄於作業表格,而後再進行屬性劃分。 • 亦稱"石筍式法"(stalagmitic) • 小組匯編法(committee approach) • 匯編法則是聚集一群學科專家,進行腦力激盪,列出相關詞彙,確定族首詞(top term),再行分族編排。 • 又稱為“鐘乳石法”(stalactitic)
定詞—1/2 • 按字面排列,將重複詞的所有資料合併於一張卡片,刪除字面重複的詞;但同形異義詞要保留並需以限定語加以說明。 • 採用組面分析方法,將同一概念的詞聚在一起,選出一個常用或正式用法的詞當作選用詞(preferred term),亦稱描述語(descriptor),其他同義詞或類同義詞則當非選用詞(non-preferred term),亦稱非描述語(non-descriptor),以此法消除概念重複的詞,完成定詞工作
選詞原則 採用名詞 複合名詞 形容詞 名詞的單數與複數 單數特定過程、特性及唯一或不可數的事與物,如painting 、conductivity、earth、water 複數具實體可數的事與物,如starts、teeth、records 若單複數意義不同又必須同時存在,則於其後加上限定語(qualifiers) ,如painting (entity) 、 painting (process) 選擇直接款目或間接款目 Radar antenna v.s. antenna, radar 統一特殊符號 Gamma rays v.s. r rays. 控制敘述語的縮寫或頭字語 COM v.s Computer Output Microform 釐定敘述語的不同拼法 Theater v.s. theatre 定詞—2/2
建立詞間關係—1/3 • 等同關係 • 又稱用代關係,參照符號是「USE」及「UF」 • 同義(synonyms)指意義完全相同,可互相取代的詞 • 準同義(near-synonyms)指意義相近 • 意義不同但為了標引目的視為同義的詞 • 組代關係標引時以數詞組合代表另一概念 • 描述詞 V.S.非描述詞 • 範圍註與解說註 • 例如 • Storage batteries UF Secondary batteries • Secondary batteries USE Storage batteries
層級關係 又稱屬分、上下或等級關係,參照符號是「BT」及「NT」 類別 屬種(genus-species) 集元(set-element) 整部(whole-part) 多層級(polyhierarchical) 判定公式 屬種關係 "一些(鳥類)是(鸚鵡)","所有(鸚鵡)全都是(鳥類)" 整部關係 (台灣)的一部分是(台北)","(台北)是(台灣)的一部分" 集元關係 "有的(河流)是(長江、黃河…)","(長江、黃河 …)一定是(河流) 建立詞間關係—2/3
建立詞間關係—3/3 • 聯想關係 • 又稱親緣、類緣或相關關係,參照符號是「RT」 • 判定參考原則 • 同一範疇:屬性涵義有部分重疊但非同義的詞可互為「RT」,如「ships」和「boats」 。 • 不同範疇:兩詞雖分屬不同的概念體系,但彼此間卻有強烈的提示關係,如學科及對象(林學和森林) 。
編排與展示 • 依字順排序 • 依分類排序 • 依層級排序 • 依敘述語交替式排序 • 依圖形排序
測試與修正 • 從最近出版的相關刊物上隨機取樣 • 列一雙欄平行的標引工作單,一欄列由隨機取樣文獻中取出之主題詞,另一欄則是由主題詞轉為索引典中最貼切的描述詞 • 標引人員和編製人員根據前述工作單的資料,評斷索引典的詳盡度及專指度,並依此修正 • 檢測詞群架構及詞間關係
維護與更新 • 索引及檢索人員須記錄詞彙使用頻率,利用作業表格記錄新詞彙或舊詞的詞間結構變動情形,然後定期討論,依記錄的資料增(刪)詞或修改詞間關係
利用索引典檢索資料之過程-- 1/2 • 檢索晤談 • 對提問進行分析,確定讀者的真正需求 • 分析的結果轉成索引典詞彙 • 提問主題分析 • 將概念轉換成索引典中的描述語進行檢索 • 組配 • 廣義詞檢索 • 狹義詞檢索 • 近義詞檢索
利用索引典檢索資料之過程-- 2/2 • 目的recall ratio v.s. precision ratio • 利用索引典的詞間關係檢索 • 擴檢(Broader Term Search,即廣義詞檢索) • 縮檢(Narrower Term Search,即狹義詞檢索) • 聯檢(Related Term Search,即關係詞檢索) • 族檢(Term Family Search) • 群檢(Narrower Block Search) • 邏輯運算
索引典應用於資訊檢索上之優點 • 使用標準的控制詞彙,可以解決同義詞、類同義詞及同形異義詞的問題。 • 促成索引用語與檢索用語的一致性,使得索引作業及檢索作業能以標準詞彙代表各同義詞,避免資料分散與不易查詢。 • 採用前組合的方式編製索引,解決概念錯誤的連結的問題。 • 控制詞彙有良好的結構,使用時可選擇最適當的用語,以提高檢索求全率(recall ratio)與求準率(precision ratio)。 • 容易從事有階層附屬關係的檢索。 • 用語明確一致、清楚固定。 • 可利用參互見結構,得知相關的詞彙。 • 採用控制詞彙方式編製索引,款目較自然語言索引法來得少,故具有高度密集的特性。 • 檢索者負擔輕,不必研究作者可能使用的詞彙,尤其是同義詞的使用。
索引典應用於資訊檢索上之缺點 • 必須由專業人員製作索引,花費較大。 • 必須隨時檢查索引的品質及錯誤。 • 索引人員可能因誤解而導致錯誤的索引,且易因索引者的不一致性產生問題。 • 使用的標準詞彙易於過時,必須隨時更新,維護經費較高。 • 無法隨時增添新的或複雜的概念,更新較困難。 • 索引人員須具備相當的學科背景與訓練,故製作速度較慢。 • 使用者亦必須經過訓練,方會使用。 • 用語受限於索引典,有時稍嫌僵化,不具彈性。 • 用語的表示受到極大的限制。 • 較不具詳盡性。
利用索引典檢索資料之評估 • 結構評價 • 詞彙涵蓋的範圍、顯示方式、易用性、結構的設計、整體結構的嚴密性、功能的成本效益等 • 詞彙評價 • 詞量多寡、詞組規模(Size of term groups)、等同率(Equivalence ratio)等 • 使用上的評價 • 求全率與求準率
主題範圍 資料類型 資料量 資訊系統類型 誰是系統使用者 系統使用人數及頻率 問題類型 詞彙組合方式 資訊系統的資源 考慮資訊檢索效率 以索引典為主的系統設計考慮要素
應用於資訊檢索上之發展趨勢—1/2 • 索引典編製標準化 • 第一個具有權威性的標準 • 1970年UNESCO編製<單語科技索引典編製與發展準則> • ISO 2788:1974<單語索引典編製和發展準則的基礎> • ISO 2788:1986 Documentation -- Guidelines for the establishment and development of monolingual thesauri • 中國大陸 • 1979年<漢語主題詞表> • GB13190-91<漢語敘詞表編製規則> • GB/T3680-1995<漢語敘詞標引規則> • 台灣 • 82年6月25日公布<西文單一語文索引典編製標準>(CNS 13224) • 分類主題一體化語言 • Hyper-thesaurus
應用於資訊檢索上之發展趨勢—2/2 • 個人化之索引典(personalized thesaurus)=讀者自建索引典(user-constructed thesaurus) • 將Fuzzy的觀念加入索引典的檢索中 • Relevance Feedback • Ranking • 將人工智慧概念應用於索引典的檢索中
中文索引典實例 • 立法資訊系統主題索引典 • http://lis.ly.gov.tw/lghtml/alldbhelp/ttsthes.htm • 農委會農業科學資訊服務中心農業科技術語資料庫 • http://www.asic.gov.tw/index/index.htm • 慈濟文化中心新聞全文資料庫索引典 • http://taipei.tzuchi.org.tw/databank/rule/rule.htm • 心經索引典 • http://www.gaya.org.tw/indexbook/index.asp • 淡新檔案索引典 • http://lips.lis.ntu.edu.tw/ross/danhsin/
西文索引典 • LC Thesaurus for Graphic Materials I: Subject Terms (TGM I) • http://www.loc.gov/rr/print/tgm1/ • MeSH • http://www.nlm.nih.gov/mesh/meshhome.html • NAL Agricultural Thesaurus • http://agclass.nal.usda.gov/agt/agt.htm • The Astronomy Thesaurus • http://msowww.anu.edu.au/library/thesaurus/ • ERIC Thesaurus • 從輔大所訂閱的資料庫進入