1 / 25

資料搜尋系統視覺化與多維度分析之設計: 以 資訊工程研究論文檢索系統為例

資料搜尋系統視覺化與多維度分析之設計: 以 資訊工程研究論文檢索系統為例. 學校 : 中央大學 作者: 潘立人. 報告人:王孝民 學號: 102598013. Outline. 摘要 介紹 系統架構 研究方法 結果分析. 摘要.

Download Presentation

資料搜尋系統視覺化與多維度分析之設計: 以 資訊工程研究論文檢索系統為例

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 資料搜尋系統視覺化與多維度分析之設計: 以資訊工程研究論文檢索系統為例 學校:中央大學 作者:潘立人 報告人:王孝民 學號:102598013

  2. Outline 摘要 介紹 系統架構 研究方法 結果分析

  3. 摘要 為使搜尋結果能讓使用者更易於接受,本論文針對電腦科學論文開發一套搜尋系統,整合現行熱門且具權威性的學術網站資訊,配合資訊擷取技術,及視覺化與OLAP互動分析概念,提出一套新穎的論文搜尋系統。由於論文研究方法、技術及應用領域、環境的異同之處,常常是該篇論文有所貢獻或獨到見解之所在,為讓使用者能掌握研究論文的精髓與精要,本篇論文針對論文標題,透過機器學習方式建立學習模組進行該篇論文可能的運用層面/ 環境( Application/Environment, AE ) 及使用方法/ 技術(Method/Technique, MT)的擷取,再藉由與使用者互動方式探尋其有興趣或欲研讀的論文集。

  4. 介紹-何謂視覺化 城市霍亂病原分佈

  5. 介紹-Aisee Aisee是一個視覺化工具軟體,可經匯入使用者需求量身訂作的GDL (Graph Description Language)程式碼來產出對應視覺化圖形的應用程式。

  6. 介紹- Web Crawling 在網站中爬文搜尋感興趣的資訊,也可藉由網站中的超連結延伸出去搜尋。

  7. 系統架構

  8. 研究方法-網頁原始資料取得 資料來源為ACM Digital Library,預設擷取與Query關聯最大的前100 篇論文。 因受限ACM 預設一次僅能提供20 篇論文,於是必須設計一組迴圈程式區分5 次來擷取100 篇論文資料。 我的疑問,迴圈跑五次,query又一樣,100篇不就等於5個重復的20篇,那要100篇幹嘛?

  9. 研究方法-搜尋結果擷取(Search Result Extraction)

  10. 研究方法-搜尋結果擷取

  11. 研究方法-研究論文多維度分析模組

  12. 研究方法-機器學習模組流程

  13. 研究方法-CRF Features   我們自ACM Digital Library 內擷取500 篇高相關的論文資訊作為訓練論文集,而在機器學習的演算法部份,我們選擇了CRF++作為學習工具,經過反覆探討研究論文標題的特性,此論文設計了15 項特徵。

  14. 研究方法-CRF Features

  15. 研究方法-AE(Application/Environment)/MT(Method/Technique) 聚合 我們先行檢視標示情況,以採取「結合同類標示」原則,產生完整的AE/MT 單位字詞(AE/MT Unit Term),原則說明與範例如下: 1.字串N 的標示為AEB,當第N+1 字串為MTB 或O 時, 則N 即為AE 單位字詞(AE Unit Term)。 2.字串N 標示為AEB,且第N+1 字串為AEI…而字串M 為MTB 或O 時, 則(字串N + 字串 N+1…+字串M-1)即為AE 單位字詞(AE Unit Term)。 3.MT 單位字詞(MT Unit Term)結合方式同於AE。

  16. 研究方法-AE(Application/Environment)/MT(Method/Technique) 聚合  以推薦系統(Recommender system)為例,100 篇論文標題中,其AE 單位字詞就高達107 組,為了要有效收斂,此研究律定一組聚集、收斂的簡單原則來達到前述效果,即「對某一單位字詞A 而言,如經比對發現詞語B∈ A,且Length(B) ≤ Length(A),B取代A則作為聚合代表字詞」,而同樣以前述推薦系統為例,在依據聚合原則施行後,AE 單位字詞自107組有效降低為34 組。

  17. 研究方法-系統介面設計

  18. 研究方法- AE Graph以data mining為例 • 六角形部份代表是AE Issue • 紅色方塊代表是100 篇研究論文集的ID 資訊 • 暗紅色連接線為AE/MT Issue 與研究論文之間的隸屬關係 • 藍色連接線:各論文與參考論文的關係 (1)標題名稱(2)發表年份(3)ACM 引用次數

  19. 研究方法-MT Graph 這論文竟然沒有demo MT Graph的按鈕!!!

  20. 結果分析 此研究共對data mining, Information Retrieval, Recommender System,WebMining,以及Search Engine 等五組技術名詞作為查詢字詞(Query),並針對每一個查詢字詞,自ACM Digital Library 網站擷取100 篇高相關的論文資訊作為實驗論文集,所以總實驗文件數量共計500 篇。

  21. 結果分析 測試類別:主要區分為標示符合(Label Match)與單位字集符合(Unit Term Match)等二項。

  22. 結果分析-LabelMatch

  23. 結果分析-Unit Term Match

  24. 結果分析-Unit Term Match 發現機器學習的效能明顯高於人工學習模組,而在系統採用的機器學習方式,在透過400 篇訓練文件學習後,對未見的100 篇測試文件進行預測後,AE 擷取的準確率與召回率分別是73%及71%,可見AE 的擷取成效相當顯著;相對的,MT 擷取的準確率及召回率分別為50%及85%,針對此一現象,我們認為MT 具有不易於標題呈現及特徵較不明確等特性,故造成不易學習或經由觀察來制定人工規則等現象。

  25. 謝謝聆聽!

More Related