260 likes | 365 Views
資料搜尋系統視覺化與多維度分析之設計: 以 資訊工程研究論文檢索系統為例. 學校 : 中央大學 作者: 潘立人. 報告人:王孝民 學號: 102598013. Outline. 摘要 介紹 系統架構 研究方法 結果分析. 摘要.
E N D
資料搜尋系統視覺化與多維度分析之設計: 以資訊工程研究論文檢索系統為例 學校:中央大學 作者:潘立人 報告人:王孝民 學號:102598013
Outline 摘要 介紹 系統架構 研究方法 結果分析
摘要 為使搜尋結果能讓使用者更易於接受,本論文針對電腦科學論文開發一套搜尋系統,整合現行熱門且具權威性的學術網站資訊,配合資訊擷取技術,及視覺化與OLAP互動分析概念,提出一套新穎的論文搜尋系統。由於論文研究方法、技術及應用領域、環境的異同之處,常常是該篇論文有所貢獻或獨到見解之所在,為讓使用者能掌握研究論文的精髓與精要,本篇論文針對論文標題,透過機器學習方式建立學習模組進行該篇論文可能的運用層面/ 環境( Application/Environment, AE ) 及使用方法/ 技術(Method/Technique, MT)的擷取,再藉由與使用者互動方式探尋其有興趣或欲研讀的論文集。
介紹-何謂視覺化 城市霍亂病原分佈
介紹-Aisee Aisee是一個視覺化工具軟體,可經匯入使用者需求量身訂作的GDL (Graph Description Language)程式碼來產出對應視覺化圖形的應用程式。
介紹- Web Crawling 在網站中爬文搜尋感興趣的資訊,也可藉由網站中的超連結延伸出去搜尋。
研究方法-網頁原始資料取得 資料來源為ACM Digital Library,預設擷取與Query關聯最大的前100 篇論文。 因受限ACM 預設一次僅能提供20 篇論文,於是必須設計一組迴圈程式區分5 次來擷取100 篇論文資料。 我的疑問,迴圈跑五次,query又一樣,100篇不就等於5個重復的20篇,那要100篇幹嘛?
研究方法-CRF Features 我們自ACM Digital Library 內擷取500 篇高相關的論文資訊作為訓練論文集,而在機器學習的演算法部份,我們選擇了CRF++作為學習工具,經過反覆探討研究論文標題的特性,此論文設計了15 項特徵。
研究方法-AE(Application/Environment)/MT(Method/Technique) 聚合 我們先行檢視標示情況,以採取「結合同類標示」原則,產生完整的AE/MT 單位字詞(AE/MT Unit Term),原則說明與範例如下: 1.字串N 的標示為AEB,當第N+1 字串為MTB 或O 時, 則N 即為AE 單位字詞(AE Unit Term)。 2.字串N 標示為AEB,且第N+1 字串為AEI…而字串M 為MTB 或O 時, 則(字串N + 字串 N+1…+字串M-1)即為AE 單位字詞(AE Unit Term)。 3.MT 單位字詞(MT Unit Term)結合方式同於AE。
研究方法-AE(Application/Environment)/MT(Method/Technique) 聚合 以推薦系統(Recommender system)為例,100 篇論文標題中,其AE 單位字詞就高達107 組,為了要有效收斂,此研究律定一組聚集、收斂的簡單原則來達到前述效果,即「對某一單位字詞A 而言,如經比對發現詞語B∈ A,且Length(B) ≤ Length(A),B取代A則作為聚合代表字詞」,而同樣以前述推薦系統為例,在依據聚合原則施行後,AE 單位字詞自107組有效降低為34 組。
研究方法- AE Graph以data mining為例 • 六角形部份代表是AE Issue • 紅色方塊代表是100 篇研究論文集的ID 資訊 • 暗紅色連接線為AE/MT Issue 與研究論文之間的隸屬關係 • 藍色連接線:各論文與參考論文的關係 (1)標題名稱(2)發表年份(3)ACM 引用次數
研究方法-MT Graph 這論文竟然沒有demo MT Graph的按鈕!!!
結果分析 此研究共對data mining, Information Retrieval, Recommender System,WebMining,以及Search Engine 等五組技術名詞作為查詢字詞(Query),並針對每一個查詢字詞,自ACM Digital Library 網站擷取100 篇高相關的論文資訊作為實驗論文集,所以總實驗文件數量共計500 篇。
結果分析 測試類別:主要區分為標示符合(Label Match)與單位字集符合(Unit Term Match)等二項。
結果分析-Unit Term Match 發現機器學習的效能明顯高於人工學習模組,而在系統採用的機器學習方式,在透過400 篇訓練文件學習後,對未見的100 篇測試文件進行預測後,AE 擷取的準確率與召回率分別是73%及71%,可見AE 的擷取成效相當顯著;相對的,MT 擷取的準確率及召回率分別為50%及85%,針對此一現象,我們認為MT 具有不易於標題呈現及特徵較不明確等特性,故造成不易學習或經由觀察來制定人工規則等現象。