1 / 43

中 英 雙 語 知 識 本 體 與 領 域 檢 索 簡 介 Academia Sinica Bilingual Ontological WordNet

中 英 雙 語 知 識 本 體 與 領 域 檢 索 簡 介 Academia Sinica Bilingual Ontological WordNet. 黃居仁 中央研究院語言學研究所 92 年 9 月 10 日 「語言座標」研習營. 中英雙語知識本體與領域檢索介面雛型 http://ckip.iis.sinica.edu.tw/CKIP/ontology/ ( 舊 ) http://bow.sinica.edu.tw/ ( 新 ). 資料來源 1. 中研院遠見中英對譯資料庫 2. WordNet 1.7

lilly
Download Presentation

中 英 雙 語 知 識 本 體 與 領 域 檢 索 簡 介 Academia Sinica Bilingual Ontological WordNet

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 中 英 雙 語 知 識 本 體 與 領 域 檢 索 簡 介Academia SinicaBilingual Ontological WordNet 黃居仁 中央研究院語言學研究所 92年9月10日 「語言座標」研習營

  2. 中英雙語知識本體與領域檢索介面雛型http://ckip.iis.sinica.edu.tw/CKIP/ontology/(舊)http://bow.sinica.edu.tw/(新)中英雙語知識本體與領域檢索介面雛型http://ckip.iis.sinica.edu.tw/CKIP/ontology/(舊)http://bow.sinica.edu.tw/(新) • 資料來源1.中研院遠見中英對譯資料庫2.WordNet 1.7 http://www.cogsci.princeton.edu/~wn/3.中研院詞庫小組 http://ckip.iis.sinica.edu.tw/CKIP/4. SUMO ontology http://ontology.teknowledge.com

  3. 2. 檢索 ‘Fish’(英查中功能)

  4. 英查中 English-Chinese Lookup • 檢索詞(Keyword):fish • 與其他資源比對情況 • 知識本體(Ontology) • 詞類(POS) • 參考詞彙(Reference word) • 詞義(Sense) 1: 釣魚遊戲 • 詞義(Sense) 2: 釣魚 • 詞義(Sense) 3: 沽名釣譽 • 詞義(Sense) 4: 魚兒 • 詞義(Sense) 5: 魚肉 • 詞義(Sense) 6: 蠢貨

  5. 3. 查看詞義4

  6. 4. 查看詞義4的 「下位詞」 • 詞義(Sense) 4: 魚兒 • 領域(Domain)一般(General) • 詞類(POS)名詞(Noun) • 解釋(Explanation) • 翻譯(Translation) • 同義詞集(Synset) • (整體)部件詞(Part meronym) • 上位詞(Hypernym) • 下位詞(Hyponym) • (成員)群體詞(Member holonym) • SUMO:魚類(fish)

  7. 檢索結果:魚類分類和名稱 • 下位詞(Hyponym) • food_fish • 下位詞(Hyponym) snapper sole panfish shad sardine trout tuna sea_bass groundfish herring salmon whitefish • game_fish • rough_fish • chondrichthian • bony_fish • mouthbreeder

  8. 4.查看詞義4的 「(整體)部件詞」 • 詞義(Sense) 4: 魚兒 • 領域(Domain)一般(General) • 詞類(POS)名詞(Noun) • 解釋(Explanation) • 翻譯(Translation) • 同義詞集(Synset) • (整體)部件詞(Part meronym) • 上位詞(Hypernym) • 下位詞(Hyponym) • (成員)群體詞(Member holonym) • SUMO魚類(fish)

  9. 檢索結果:魚類部分和器官名稱 • (整體)部件詞(Hyponym) • milt • tail_fin • fishbone • fish_scale • fin • roe • lateral_line_organ

  10. 5.查看詞義5的 「下位詞」 • 詞義(Sense) 5: 魚肉 • 領域(Domain)一般(General) • 詞類(POS)名詞(Noun) • 解釋(Explanation) the flesh of fish used asfood • 翻譯(Translation) • 同義詞集(Synset) • 上位詞(Hypernym) • 下位詞(Hyponym) • SUMO:肉類(meat)

  11. 檢索結果:食用魚名稱 • 下位詞(Hyponym) • anchovy • panfish • haddock • shad • trout • hake • stockfish • eel • salmon

  12. 6.檢索’seafood’

  13. 查看’seafood’的「下位詞」 • 詞義(Sense) 1: 海產食品 • 領域(Domain)一般(General) • 詞類(POS)名詞(Noun) • 解釋(Explanation) • 翻譯(Translation) • 同義詞集(Synset) • 上位詞(Hypernym) • 下位詞(Hyponym) • SUMO肉類(meat)

  14. 檢索結果:海鮮名稱 • 下位詞(Hyponym) • shellfish • octopus • roe • squid • shrimp • saltwater_fish • freshwater_fish • whitefish

  15. 「語言座標」提供-語言資訊與概念架構(知識本體)的連結「語言座標」提供-語言資訊與概念架構(知識本體)的連結 • 連結到SUMO這個上層共用知識本體。 • SUMO: Suggested Upper Merged Ontology • 可以由每個詞查到該詞在概念架構上的歸屬。 • 利用知識本體架構作知識內容分類,與簡單推理 • 如哺乳動物為溫血

  16. 知識本體(Ontology) • 對任一網頁/資源知識內容及資訊架構的描述與定義 • 以RDF(或類似語言)寫成的文件,清楚定義概念間的關係和推理的邏輯規則 ─請注意資訊學中把ONTOLOGY當成知識/訊息的基底架構;與哲學中本體論的原定義大不相同

  17. SUMO: Suggested Upper Merged Ontology • An Upper Ontology created under IEEE Standard Upper Ontology Working Group. • Maintained and Accessible on web at http://ontology.teknowledge.com • Provides interface to English words through WordNet, as well as inference in 5 languages

  18. Upper Ontology vs. Domain Ontology • (Upper) Ontology: 各領域,各典藏通用的知識架構,是跨領域/跨典藏知識內容交換與處理的基礎 E.g. SUMO • Domain Ontology: 個別領域特有的知識結構,E.g. SUMO virus domain ontology

  19. 知識本體Ontology與典藏的知識架構 • 左圖是魚類Ontology • 我們從魚類ontology上的鰓(gill)來舉例說明知識的延伸... • 「器官」「內部器官」「呼吸器官」「鰓」。 • 對此我們可利用以下兩種資源來進行知識的延伸: • SUMO( Suggested Upper Merged Ontology) • WordNet

  20. A SUMO Perspective • 由於SUMO是最上層的概念集合,因此前頁的例子中的四個節點,都是屬於SUMO 內的「器官」概念 • 從SUMO,我們瞭解「器官」在所有的知識概念裡是屬於哪一層,也可得知「器官」上層任一節點的概念知識 • 以上資訊可在SUMO本體架構網站上查詢得到http://virtual.cvut.cz/kifb-test/cnt/

  21. 知識本體中的知識分類訊息 • 另外,我們也能得到「器官」在SUMO上的子節點(Subclass)以及兄弟節點(Coordinate terms) 等資訊

  22. 如何呈現語言的知識本體? 詞彙網路WordNet是最直接的語言本體表徵 詞彙網路的構成元素: ─某個語言內所有的詞彙(任一個詞形lemma與詞義sense的獨特配對定義為一個詞彙) ─該語言表達的所有概念(即所有詞義sense) ─一組基本的詞彙語意關係

  23. 詞彙網路的架構 • 以詞義為基準,把有相同詞義的所有詞彙放在一個同義詞集(SynSet) 同義詞集即是表達相同概念的所有詞的集合 • 以定義過的詞彙語意關係,連結所有的同義詞集 即是建立所有概念間的語意關係 除同義,反義,近義外,更重要的有上位,下位,及功能等關係

  24. 詞彙網路提供的知識基本架構 • Synset:詞彙驅動的概念(知識)單位 • Semantic Relation: 概念連結與知識衍生的基本關係 專家(such as reference librarian)用什麼方法找keyword找不到的資料?

  25. 詞彙網路與知識運籌 知識運籌的兩個挑戰 • 知識如何計量 (How to Itemize Knowledge?) • 知識如何編目 (How to Catalogue Knowledge?)

  26. 詞彙網路與(圖書館學中的)索引典 • 「索引典」建立在 equivalence class 的概念上,原則上只標記同義關係(synonymy) 可以很快找到預先設定的固定類別

  27. 問題: 分類定義 因 時/地置宜 • 「蕃薯,本地」 「芋頭,外來」 • <響尾蛇,飯匙倩> • <桌子,table/desk>

  28. Equivalence Classes vs. Relational Classes --下載, 拷貝,錄製 --數位檔案, 電子檔,機讀檔, 程式 --音樂…. --相片… --小說… --貝多芬,李玟,Stephen King, Steve Martin, Harry Potter (How about 閱讀,欣賞,買…)

  29. 詞義關係 antonymy  反義關係 hypernymy  上位關係hyponymy  下位關係 holonymy  整體-部份關係meronymy  部份-整體關係metonymy  轉指關係 near-synonymy 近義關係synonymy 同義關係troponymy  方式關係

  30. antonym /antonymy 【反義詞】 /反義關係 man- N ANTONYM woman-N ‘to sell’ and ‘to buy’ 例一:「胖」與「瘦」 例二:「買」與「賣」

  31. hypernym /hypernymy 【上位詞】泛稱詞 / 上位關係 • car N HAS_HYPERONYM vehicle N • 佛教 宗教 • 禪宗 佛教

  32. holonym /holonymy 整體詞 /整體-部份關係 • ‘door’ and ‘room’ • ‘finger’ and ‘hand’ • 「筆劃」與「字」

  33. meronym /meronymy 部份詞 /部份-整體關係 • 09 部件_整體詞_為 HAS_HOLO_PART • 10 部件_部份詞_為 HAS_MERO_PART 整體及其組成單元,例如,「桌腳」與「桌子」: • 11 成員_整體詞_為 HAS_HOLO_MEMBER • 12 成員_部份詞_為 HAS_MERO_MEMBER 集合及成員,例如,「球員」與「球隊」, 「內政部」與「內閣」

  34. meronym /meronymy 部份詞 /部份-整體關係 • 13 單位_整體詞_為 HAS_HOLO_PORTION • 14 單位_部份詞_為 HAS_MERO_PORTION 「飯」與「飯粒」 • 15 成份_整體詞_為 HAS_HOLO_MADEOF • 16 成份_部份詞_為 HAS_MERO_MADEOF 實體及其構成材料,例如,「紙張」與「書籍」 • 17 區域_整體詞_為 HAS_HOLO_LOCATION • 18 區域_部份詞_為 HAS_MERO_LOCATION 綠洲是沙漠的一部份

  35. metonym /metonymy 轉指詞 /轉指關係 • 思科(宣布裁員) • 台北(主辦COLING2002)

  36. troponym/troponymy:方式詞/方式關係 • move  walk, run, jog • 煮 煎,炒,炸,燉

  37. Involved 涉入 • 19 導致 CAUSES • 20 肇因於 IS_CAUSED_BY Example (1): ‘to kill’ and ‘to die’ Example (2): ‘murder’ and ‘death’ 例一:「筆誤」(N)與「錯字」(N) • 21 (角色)涉入 ROLE • 22 涉入角色_有 INVOLVED • 23 施事者_角色 ROLE_AGENT • 24 涉入_施事者 INVOLVED_AGENT • 25 經歷者_角色 ROLE_PATIENT • 26 涉入_經歷者 INVOLVED_PATIENT

  38. WordNet 1.5. 詞彙網路 (Princeton的原始英文詞網)Since 1990 www.cogsci.princeton.edu/~wn/ Monolingual: English

  39. EuroWorNet (EWN) 歐語詞網 Since 1996 http://www.hum.uva.nl/~ewn/ Multilingual: Basque, Catalan, Czech, Dutch, French, English, Estonian, French, German, Italian, Spanish, (Swedish, Norway, Danish, Greek, Portuguese, Romanian, Lithuan, Russian, Bulgarian, Slovenic)

  40. HowNet 知網(董振東的中文語意網路) Since 1995(?) http://www.keenage.com Bilingual: EC, CE (pre-set ontology)

More Related