1 / 26

報告者:蕭國宏 指導 教授:楊東麟老師

Using Ontology and Data Mining to Develop a Literature Recommender System – A Case Study on Nutrition Literature 使用本體論和資料探勘開發一個文獻推薦系統 - 以營養學術文獻為例. 報告者:蕭國宏 指導 教授:楊東麟老師. 大綱. 前言 相關研究 系統設計 預計實驗 研究挑戰 與 困難 結論 參考文獻. 前言. 資訊科技發達、資料快速成長 截至 2012 年止,全世界每天產生最少 2.5 EB (1EB = 1 百萬 TB) 的資料量 [1]

brandy
Download Presentation

報告者:蕭國宏 指導 教授:楊東麟老師

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Using Ontology and Data Mining to Develop a Literature Recommender System – A Case Study on Nutrition Literature使用本體論和資料探勘開發一個文獻推薦系統 - 以營養學術文獻為例 報告者:蕭國宏 指導教授:楊東麟老師

  2. 大綱 • 前言 • 相關研究 • 系統設計 • 預計實驗 • 研究挑戰與困難 • 結論 • 參考文獻

  3. 前言 • 資訊科技發達、資料快速成長 • 截至2012年止,全世界每天產生最少2.5 EB (1EB = 1百萬 TB)的資料量[1] • 需要一個有效存取資料的手段 • 搜尋引擎 • 推薦系統

  4. 前言 • 現今推薦系統已能滿足大部分人的需求,但是在專業的領域還有所不足。 • 問題 • 資淺人員或學生的經驗不足 • 無法善用關鍵字搜尋 • 系統需要一個專業領域的背景知識輔助

  5. 前言 • 以營養學術領域為例 • 建置一個專業文獻推薦系統 • 提高資淺營養師、研究人員、學生的學習能力 • 提供更全面、完整的知識給使用者 • 提供使用者回饋機制維護系統準確率

  6. 相關研究 • 本體論[2,3]又稱知識本體(Ontology) • Concept • Individual • Property

  7. 相關研究 • 查詢擴展[4](Query Expansion, QE) • 同義詞 Ex. Cell Phone, Cellular phone, Mobile Phone • 型態 Ex. Phone, Phones Example. Query = Cell Phone QE = {Cell Phone, Cellular phone, Mobile Phone, Cell Phones, Cellular phones, Mobile Phones}

  8. 相關研究 • W. Tang等人的研究[5] • 本體論輔助查詢擴展 • 以證據理論(Evidential Reasoning)計算文件的Ranking Score • 缺點 • 需事先建好完整的本體論 • 額外的運算負擔 • G. Semeraro等人的研究[6] • 以大眾分類法(Folksonomy)輔助推薦

  9. 系統實作 • 文獻收集目標與範圍 • PubMed截至2013年止有超過2千3百萬篇關於生命科學及醫學的文獻、書籍被納入資料庫[7,8] • 限縮範圍至單一疾病 - 糖尿病 • 利用PubMed 提供的API[9]建置Parser • 標題、作者、文獻來源、發布日期 • 摘要、關鍵字、PMID、DOI • 其他延伸欄位

  10. 系統實作 • 用Protégé[10]建立營養本體論雛形

  11. 系統實作 • 系統架構圖

  12. 系統實作 • 文獻資料前處理 – 分類 • 臨床實驗 • 動物實驗 • 細胞實驗 • Term Frequency

  13. 系統實作 • 文獻資料前處理 – 被引用次數查詢 • Web of Science • Google Scholar • Scopus • PubMed

  14. 系統實作 • Query Expansion • 同義詞 & 型態 • 相關的詞彙 Example. Query = Hyperlipidemia(高血脂) QE = { Hyperlipidemia, Diabetes Mellitus, Omega-3 acids, EPA, DHA }

  15. 系統實作 • Ranking Score 因素 • 相關度分數 • Vector Space Model(VSM)[11] • 年分分數 • 被引用分數 • 使用者偏好(因素的權重) • Ex. { 相關度權重=0.7, 年分權重=0, 被引用權重=0.3}

  16. 系統實作 • 計算 Ranking Score • 正規化 • 公式

  17. 系統實作 • 計算 Ranking Score 範例 • 從範例中看出Da的推薦優先順序高於Db

  18. 系統實作 • 推薦結果呈現方式 • Y. Kammerer等人的研究[12]提出,條列式的呈現方式讓結果呈現低信任度的狀態 • 以方格式的呈現能提高選擇正確率 • Example.

  19. 系統實作 • 推薦結果呈現方式 –Proposed Method

  20. 系統實作 • 利用User Feedback維護本體論

  21. 預計實驗 • 資料集 • PubMed關於糖尿病的文獻約12000篇 • 實驗對象 • 營養系學生 • 實驗方法 • 請User使用系統後回饋資訊,計算Precision跟Recall • 問卷詢問滿意度

  22. 研究挑戰與困難 • 文獻來源的限制 • 全文分析 • 異質資料庫的整合 • 每個文獻資料庫的存取格式不統一

  23. 結論 • 預計結果 • 讓使用者更快找到想要找的文獻 • 讓使用者進行更全面性的學習 • 提高使用者學習的效率

  24. 結論 • 研究價值 • 有別一般文獻檢索系統的推薦呈現方式 • 維護一個營養本體論供其他研究使用 • 將文獻推薦系統套用至其他領域

  25. 參考文獻 • [1] Wikipedia, "Big data," http://en.wikipedia.org/wiki/Big_data. • [2] B. Chandrasekaran, J. R. Josephson, and V. R. Benjamins, "What are ontologies, and why do we need them?," Intelligent Systems and their Applications, IEEE, vol. 14, pp. 20-26, 1999. • [3] A. Maedche and S. Staab, "Ontology learning for the Semantic Web," Intelligent Systems, IEEE, vol. 16, pp. 72-79, 2001. • [4] R. Navigli and P. Velardi, "An analysis of ontology-based query expansion strategies," presented at the Workshop on Adaptive Text Extraction and Mining, Cavtat Dubrovnik, Croatia, Sept 23, 2003. • [5] W. Tang, Z. Yang, Q. H. Wu, and L. Yan, "Improved document ranking in ontology-based document search engine using evidential reasoning," IET Software, vol. 8, pp. 33-41, 2014. • [6] G. Semeraro, P. Lops, M. De Gemmis, C. Musto, and F. Narducci, "A folksonomy-based recommender system for personalized access to digital artworks," Journal on Computing and Cultural Heritage, vol. 5, pp. 1-22, 2012.

  26. 參考文獻 • [7] "PubMed," http://www.ncbi.nlm.nih.gov/pubmed. • [8] "The Journal of Nutritional Biochemistry," http://www.jnutbio.com/. • [9] "PubMed," http://en.wikipedia.org/wiki/PubMed. • [10] Stanford, "Protégé," http://protege.stanford.edu/. • [11] G. Salton, A. Wong, and C. S. Yang, "A vector space model for automatic indexing," Commun. ACM, vol. 18, pp. 613-620, 1975. • [12] Y. Kammerer and P. Gerjets, "The Role of Search Result Position and Source Trustworthiness in the Selection of Web Search Results When Using a List or a Grid Interface," International Journal of Human-Computer Interaction, vol. 30, pp. 177-191, 2014/03/04 2013.

More Related