260 likes | 447 Views
Using Ontology and Data Mining to Develop a Literature Recommender System – A Case Study on Nutrition Literature 使用本體論和資料探勘開發一個文獻推薦系統 - 以營養學術文獻為例. 報告者:蕭國宏 指導 教授:楊東麟老師. 大綱. 前言 相關研究 系統設計 預計實驗 研究挑戰 與 困難 結論 參考文獻. 前言. 資訊科技發達、資料快速成長 截至 2012 年止,全世界每天產生最少 2.5 EB (1EB = 1 百萬 TB) 的資料量 [1]
E N D
Using Ontology and Data Mining to Develop a Literature Recommender System – A Case Study on Nutrition Literature使用本體論和資料探勘開發一個文獻推薦系統 - 以營養學術文獻為例 報告者:蕭國宏 指導教授:楊東麟老師
大綱 • 前言 • 相關研究 • 系統設計 • 預計實驗 • 研究挑戰與困難 • 結論 • 參考文獻
前言 • 資訊科技發達、資料快速成長 • 截至2012年止,全世界每天產生最少2.5 EB (1EB = 1百萬 TB)的資料量[1] • 需要一個有效存取資料的手段 • 搜尋引擎 • 推薦系統
前言 • 現今推薦系統已能滿足大部分人的需求,但是在專業的領域還有所不足。 • 問題 • 資淺人員或學生的經驗不足 • 無法善用關鍵字搜尋 • 系統需要一個專業領域的背景知識輔助
前言 • 以營養學術領域為例 • 建置一個專業文獻推薦系統 • 提高資淺營養師、研究人員、學生的學習能力 • 提供更全面、完整的知識給使用者 • 提供使用者回饋機制維護系統準確率
相關研究 • 本體論[2,3]又稱知識本體(Ontology) • Concept • Individual • Property
相關研究 • 查詢擴展[4](Query Expansion, QE) • 同義詞 Ex. Cell Phone, Cellular phone, Mobile Phone • 型態 Ex. Phone, Phones Example. Query = Cell Phone QE = {Cell Phone, Cellular phone, Mobile Phone, Cell Phones, Cellular phones, Mobile Phones}
相關研究 • W. Tang等人的研究[5] • 本體論輔助查詢擴展 • 以證據理論(Evidential Reasoning)計算文件的Ranking Score • 缺點 • 需事先建好完整的本體論 • 額外的運算負擔 • G. Semeraro等人的研究[6] • 以大眾分類法(Folksonomy)輔助推薦
系統實作 • 文獻收集目標與範圍 • PubMed截至2013年止有超過2千3百萬篇關於生命科學及醫學的文獻、書籍被納入資料庫[7,8] • 限縮範圍至單一疾病 - 糖尿病 • 利用PubMed 提供的API[9]建置Parser • 標題、作者、文獻來源、發布日期 • 摘要、關鍵字、PMID、DOI • 其他延伸欄位
系統實作 • 用Protégé[10]建立營養本體論雛形
系統實作 • 系統架構圖
系統實作 • 文獻資料前處理 – 分類 • 臨床實驗 • 動物實驗 • 細胞實驗 • Term Frequency
系統實作 • 文獻資料前處理 – 被引用次數查詢 • Web of Science • Google Scholar • Scopus • PubMed
系統實作 • Query Expansion • 同義詞 & 型態 • 相關的詞彙 Example. Query = Hyperlipidemia(高血脂) QE = { Hyperlipidemia, Diabetes Mellitus, Omega-3 acids, EPA, DHA }
系統實作 • Ranking Score 因素 • 相關度分數 • Vector Space Model(VSM)[11] • 年分分數 • 被引用分數 • 使用者偏好(因素的權重) • Ex. { 相關度權重=0.7, 年分權重=0, 被引用權重=0.3}
系統實作 • 計算 Ranking Score • 正規化 • 公式
系統實作 • 計算 Ranking Score 範例 • 從範例中看出Da的推薦優先順序高於Db
系統實作 • 推薦結果呈現方式 • Y. Kammerer等人的研究[12]提出,條列式的呈現方式讓結果呈現低信任度的狀態 • 以方格式的呈現能提高選擇正確率 • Example.
系統實作 • 推薦結果呈現方式 –Proposed Method
系統實作 • 利用User Feedback維護本體論
預計實驗 • 資料集 • PubMed關於糖尿病的文獻約12000篇 • 實驗對象 • 營養系學生 • 實驗方法 • 請User使用系統後回饋資訊,計算Precision跟Recall • 問卷詢問滿意度
研究挑戰與困難 • 文獻來源的限制 • 全文分析 • 異質資料庫的整合 • 每個文獻資料庫的存取格式不統一
結論 • 預計結果 • 讓使用者更快找到想要找的文獻 • 讓使用者進行更全面性的學習 • 提高使用者學習的效率
結論 • 研究價值 • 有別一般文獻檢索系統的推薦呈現方式 • 維護一個營養本體論供其他研究使用 • 將文獻推薦系統套用至其他領域
參考文獻 • [1] Wikipedia, "Big data," http://en.wikipedia.org/wiki/Big_data. • [2] B. Chandrasekaran, J. R. Josephson, and V. R. Benjamins, "What are ontologies, and why do we need them?," Intelligent Systems and their Applications, IEEE, vol. 14, pp. 20-26, 1999. • [3] A. Maedche and S. Staab, "Ontology learning for the Semantic Web," Intelligent Systems, IEEE, vol. 16, pp. 72-79, 2001. • [4] R. Navigli and P. Velardi, "An analysis of ontology-based query expansion strategies," presented at the Workshop on Adaptive Text Extraction and Mining, Cavtat Dubrovnik, Croatia, Sept 23, 2003. • [5] W. Tang, Z. Yang, Q. H. Wu, and L. Yan, "Improved document ranking in ontology-based document search engine using evidential reasoning," IET Software, vol. 8, pp. 33-41, 2014. • [6] G. Semeraro, P. Lops, M. De Gemmis, C. Musto, and F. Narducci, "A folksonomy-based recommender system for personalized access to digital artworks," Journal on Computing and Cultural Heritage, vol. 5, pp. 1-22, 2012.
參考文獻 • [7] "PubMed," http://www.ncbi.nlm.nih.gov/pubmed. • [8] "The Journal of Nutritional Biochemistry," http://www.jnutbio.com/. • [9] "PubMed," http://en.wikipedia.org/wiki/PubMed. • [10] Stanford, "Protégé," http://protege.stanford.edu/. • [11] G. Salton, A. Wong, and C. S. Yang, "A vector space model for automatic indexing," Commun. ACM, vol. 18, pp. 613-620, 1975. • [12] Y. Kammerer and P. Gerjets, "The Role of Search Result Position and Source Trustworthiness in the Selection of Web Search Results When Using a List or a Grid Interface," International Journal of Human-Computer Interaction, vol. 30, pp. 177-191, 2014/03/04 2013.