slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
索引典與資訊檢索 PowerPoint Presentation
Download Presentation
索引典與資訊檢索

Loading in 2 Seconds...

play fullscreen
1 / 28

索引典與資訊檢索 - PowerPoint PPT Presentation


  • 142 Views
  • Uploaded on

索引典與資訊檢索. 參考資料: 黃慕萱, Chap.8 蔡明月, Chap. 10 黃惠株 。「淺談索引典」。 佛教圖書館館訊 第五期(民 85 年 3 月) < http://www.gaya.org.tw/journal/m5/5-main1.htm >(2004 年 5 月 10 日 ) 。 張嘉彬。 「索引典及其於資訊檢索上之探討」。 書苑季刊 36 期( 民 87 年 4 月) < http://public1.ntl.gov.tw/publish/suyan/36/text_46.html >(2005 年 5 月 23 日 ) 。. 簡介.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '索引典與資訊檢索' - dacey


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

索引典與資訊檢索

參考資料:

黃慕萱,Chap.8

蔡明月,Chap. 10

黃惠株 。「淺談索引典」。佛教圖書館館訊第五期(民85年 3月)<http://www.gaya.org.tw/journal/m5/5-main1.htm>(2004年5月10日) 。

張嘉彬。 「索引典及其於資訊檢索上之探討」。書苑季刊36期( 民87年4月)<http://public1.ntl.gov.tw/publish/suyan/36/text_46.html>(2005年5月23日) 。

slide2
簡介
  • 分類法v.s.索引典
  • Thesaurus其希臘與拉丁的字源本義為「寶典」( A treasury)
  • 1947年到1950年間
    • Mooers提出描述語、資訊檢索與資訊檢索系統等專門術語
  • 1957年
    • Brownson第一次正式使用索引典這個術語,他認為解決資訊檢索問題的最佳答案,是應用機械化的索引典
slide3
國際標準的定義
  • 國際標準組織(ISO 2788)
    • 一種受控標引語言詞彙,從編製形式上明確顯示概念間的先顯關係(如:廣義和狹義關係)。
  • 美國國家標準(ANSI Z39.19-1980)
    • 索引典就是將詞與詞組依照同義關係、層級關係及其他關係與附註規定編輯起來,其功能是提供一部標準化的詞彙,供資訊貯存與檢索之用。
  • 聯合國科教文組織全球科技資訊系統(UNISIST, UNESCO)
    • 索引典可以其功能或結構定義之。
    • 就功能而言,索引典是一種控制詞彙的工具,其用途是將文獻、標引人員或系統使用者所用的自然語言,轉譯成更為規範的「系統語言」(文獻工作語言,資訊語言)。
    • 就結構而言,索引典是一部含有特定知識領域的詞彙,詞彙間有語義或從屬上的關係,且詞彙是控制的、動態的。
slide4
學術界不同階段的定義
  • 索引典的主要功能是將詞彙依字母順序排列
  • 索引典編纂詞彙並顯示詞彙間之同義關係、階層關係或其他關係,藉以提供資訊儲存與檢索一套標準詞彙。
  • 索引典應該依據詞彙的意義排列,而不是像字典一樣依據字母順序排列‧‧‧索引典的主要功能是列舉可表達同一概念所有詞彙,藉以協助使用者找出最適合貼切的詞彙來表達他們心中的概念。
  • 索引典可以當成人類思路歷程的類比‧‧‧索引典的構造最好和人類大腦的構造一樣,當有一概念產生時,人們可以在自己的思路中尋找最適合的詞彙來表達。
slide5
綜合各家定義
  • 收集足以表示知識概念的字或詞,以特定結構加以排列
  • 控制同義詞,區別同形異義詞,顯現各相關詞彙間階層及語意互屬上的各種關係
  • 做為索引者在分析處理資料及讀者在檢索資料時能選用一致的、經過控制的詞彙
  • 提供資訊儲存與檢索標準化的用語
slide6
索引典之目的
  • 在特定的知識領域,提供概念之間的關係指引,幫助標引人員(indexer)及檢索人員(searcher)了解該學科的知識架構。使用者並可藉著詞間關係,由已了解的知識概念來了解新概念的涵義。
  • 在特定的知識領域,提供標引人員一套標準化詞彙,確保資料標引的一致性。
  • 為了確保資料處理的一致性,索引典為一概念一詞,而其他同義詞則以用代關係指 引。
  • 詞與詞之間有明確的詞間關係存在,這些關係能區分各詞在語義網架構中的功能,可作為使用者選擇正確詞彙的指引。
  • 當查出的資料太多或太少時,索引典的層級結構可幫助使用者擴大或縮小檢索主題的詞彙範圍。
  • 最好能成為該學科的標準用語。
slide7
索引典之功能
  • 資訊的儲存與檢索提供標準化的語彙,以確保對同一主題,分析及檢索資料時所用的語彙一致
  • Dagobert Soergel認為:
    • 索引典的概念結構(conceptual structure)在標引及檢索時能將主題概念表現的恰到好處
    • 索引典將同義詞聚集亦有詞彙控制(terminological control)的功能
slide8
索引典編製基本程序
  • 準備工作
  • 詞彙蒐集
  • 定詞
  • 建立詞間關係
  • 編排與展示
  • 測試與修正
  • 維護與更新
slide9
準備工作
  • 學科範圍確定
  • 資料量及類型
  • 詳盡性(exhaustivity)與專指性(speci-ficity)
  • 作業表格內容設計
slide10
詞彙蒐集
  • 經驗法(empirical approach)
    • 蒐集該學科的百科全書、字(辭)典、刊物及其他權威性出版品,將出現的詞記錄於作業表格,而後再進行屬性劃分。
    • 亦稱"石筍式法"(stalagmitic)
  • 小組匯編法(committee approach)
    • 匯編法則是聚集一群學科專家,進行腦力激盪,列出相關詞彙,確定族首詞(top term),再行分族編排。
    • 又稱為“鐘乳石法”(stalactitic)
slide11
定詞—1/2
  • 按字面排列,將重複詞的所有資料合併於一張卡片,刪除字面重複的詞;但同形異義詞要保留並需以限定語加以說明。
  • 採用組面分析方法,將同一概念的詞聚在一起,選出一個常用或正式用法的詞當作選用詞(preferred term),亦稱描述語(descriptor),其他同義詞或類同義詞則當非選用詞(non-preferred term),亦稱非描述語(non-descriptor),以此法消除概念重複的詞,完成定詞工作
slide12
選詞原則

採用名詞

複合名詞

形容詞

名詞的單數與複數

單數特定過程、特性及唯一或不可數的事與物,如painting 、conductivity、earth、water

複數具實體可數的事與物,如starts、teeth、records

若單複數意義不同又必須同時存在,則於其後加上限定語(qualifiers) ,如painting (entity) 、 painting (process)

選擇直接款目或間接款目

Radar antenna v.s. antenna, radar

統一特殊符號

Gamma rays v.s. r rays.

控制敘述語的縮寫或頭字語

COM v.s Computer Output Microform

釐定敘述語的不同拼法

Theater v.s. theatre

定詞—2/2
slide13
建立詞間關係—1/3
  • 等同關係
    • 又稱用代關係,參照符號是「USE」及「UF」
    • 同義(synonyms)指意義完全相同,可互相取代的詞
    • 準同義(near-synonyms)指意義相近
    • 意義不同但為了標引目的視為同義的詞
    • 組代關係標引時以數詞組合代表另一概念
    • 描述詞 V.S.非描述詞
    • 範圍註與解說註
    • 例如
      • Storage batteries UF Secondary batteries
      • Secondary batteries USE Storage batteries
slide14
層級關係

又稱屬分、上下或等級關係,參照符號是「BT」及「NT」

類別

屬種(genus-species)

集元(set-element)

整部(whole-part)

多層級(polyhierarchical)

判定公式

屬種關係

"一些(鳥類)是(鸚鵡)","所有(鸚鵡)全都是(鳥類)"

整部關係

(台灣)的一部分是(台北)","(台北)是(台灣)的一部分"

集元關係

"有的(河流)是(長江、黃河…)","(長江、黃河 …)一定是(河流)

建立詞間關係—2/3
slide15
建立詞間關係—3/3
  • 聯想關係
    • 又稱親緣、類緣或相關關係,參照符號是「RT」
    • 判定參考原則
      • 同一範疇:屬性涵義有部分重疊但非同義的詞可互為「RT」,如「ships」和「boats」 。
      • 不同範疇:兩詞雖分屬不同的概念體系,但彼此間卻有強烈的提示關係,如學科及對象(林學和森林) 。
slide16
編排與展示
  • 依字順排序
  • 依分類排序
  • 依層級排序
  • 依敘述語交替式排序
  • 依圖形排序
slide17
測試與修正
  • 從最近出版的相關刊物上隨機取樣
  • 列一雙欄平行的標引工作單,一欄列由隨機取樣文獻中取出之主題詞,另一欄則是由主題詞轉為索引典中最貼切的描述詞
  • 標引人員和編製人員根據前述工作單的資料,評斷索引典的詳盡度及專指度,並依此修正
  • 檢測詞群架構及詞間關係
slide18
維護與更新
  • 索引及檢索人員須記錄詞彙使用頻率,利用作業表格記錄新詞彙或舊詞的詞間結構變動情形,然後定期討論,依記錄的資料增(刪)詞或修改詞間關係
slide19
利用索引典檢索資料之過程-- 1/2
  • 檢索晤談
    • 對提問進行分析,確定讀者的真正需求
    • 分析的結果轉成索引典詞彙
  • 提問主題分析
  • 將概念轉換成索引典中的描述語進行檢索
    • 組配
    • 廣義詞檢索
    • 狹義詞檢索
    • 近義詞檢索
slide20
利用索引典檢索資料之過程-- 2/2
  • 目的recall ratio v.s. precision ratio
  • 利用索引典的詞間關係檢索
    • 擴檢(Broader Term Search,即廣義詞檢索)
    • 縮檢(Narrower Term Search,即狹義詞檢索)
    • 聯檢(Related Term Search,即關係詞檢索)
    • 族檢(Term Family Search)
    • 群檢(Narrower Block Search)
  • 邏輯運算
slide21
索引典應用於資訊檢索上之優點
  • 使用標準的控制詞彙,可以解決同義詞、類同義詞及同形異義詞的問題。
  • 促成索引用語與檢索用語的一致性,使得索引作業及檢索作業能以標準詞彙代表各同義詞,避免資料分散與不易查詢。
  • 採用前組合的方式編製索引,解決概念錯誤的連結的問題。
  • 控制詞彙有良好的結構,使用時可選擇最適當的用語,以提高檢索求全率(recall ratio)與求準率(precision ratio)。
  • 容易從事有階層附屬關係的檢索。
  • 用語明確一致、清楚固定。
  • 可利用參互見結構,得知相關的詞彙。
  • 採用控制詞彙方式編製索引,款目較自然語言索引法來得少,故具有高度密集的特性。
  • 檢索者負擔輕,不必研究作者可能使用的詞彙,尤其是同義詞的使用。
slide22
索引典應用於資訊檢索上之缺點
  • 必須由專業人員製作索引,花費較大。
  • 必須隨時檢查索引的品質及錯誤。
  • 索引人員可能因誤解而導致錯誤的索引,且易因索引者的不一致性產生問題。
  • 使用的標準詞彙易於過時,必須隨時更新,維護經費較高。
  • 無法隨時增添新的或複雜的概念,更新較困難。
  • 索引人員須具備相當的學科背景與訓練,故製作速度較慢。
  • 使用者亦必須經過訓練,方會使用。
  • 用語受限於索引典,有時稍嫌僵化,不具彈性。
  • 用語的表示受到極大的限制。
  • 較不具詳盡性。
slide23
利用索引典檢索資料之評估
  • 結構評價
    • 詞彙涵蓋的範圍、顯示方式、易用性、結構的設計、整體結構的嚴密性、功能的成本效益等
  • 詞彙評價
    • 詞量多寡、詞組規模(Size of term groups)、等同率(Equivalence ratio)等
  • 使用上的評價
    • 求全率與求準率
slide24
主題範圍

資料類型

資料量

資訊系統類型

誰是系統使用者

系統使用人數及頻率

問題類型

詞彙組合方式

資訊系統的資源

考慮資訊檢索效率

以索引典為主的系統設計考慮要素
slide25
應用於資訊檢索上之發展趨勢—1/2
  • 索引典編製標準化
    • 第一個具有權威性的標準
      • 1970年UNESCO編製<單語科技索引典編製與發展準則>
      • ISO 2788:1974<單語索引典編製和發展準則的基礎>
      • ISO 2788:1986 Documentation -- Guidelines for the establishment and development of monolingual thesauri
    • 中國大陸
      • 1979年<漢語主題詞表>
      • GB13190-91<漢語敘詞表編製規則>
      • GB/T3680-1995<漢語敘詞標引規則>
    • 台灣
      • 82年6月25日公布<西文單一語文索引典編製標準>(CNS 13224)
  • 分類主題一體化語言
  • Hyper-thesaurus
slide26
應用於資訊檢索上之發展趨勢—2/2
  • 個人化之索引典(personalized thesaurus)=讀者自建索引典(user-constructed thesaurus)
  • 將Fuzzy的觀念加入索引典的檢索中
    • Relevance Feedback
    • Ranking
  • 將人工智慧概念應用於索引典的檢索中
slide27
中文索引典實例
  • 立法資訊系統主題索引典
    • http://lis.ly.gov.tw/lghtml/alldbhelp/ttsthes.htm
  • 農委會農業科學資訊服務中心農業科技術語資料庫
    • http://www.asic.gov.tw/index/index.htm
  • 慈濟文化中心新聞全文資料庫索引典
    • http://taipei.tzuchi.org.tw/databank/rule/rule.htm
  • 心經索引典
    • http://www.gaya.org.tw/indexbook/index.asp
  • 淡新檔案索引典
    • http://lips.lis.ntu.edu.tw/ross/danhsin/
slide28
西文索引典
  • LC Thesaurus for Graphic Materials I: Subject Terms (TGM I)
    • http://www.loc.gov/rr/print/tgm1/
  • MeSH
    • http://www.nlm.nih.gov/mesh/meshhome.html
  • NAL Agricultural Thesaurus
    • http://agclass.nal.usda.gov/agt/agt.htm
  • The Astronomy Thesaurus
    • http://msowww.anu.edu.au/library/thesaurus/
  • ERIC Thesaurus
    • 從輔大所訂閱的資料庫進入