270 likes | 395 Views
資料探勘與知識發現 期末專案報告. 指導老師 : 黃三益教授 M954020009 徐慎宜 D954020004 林皇吉 D954020008 唐 筠. 議程. 簡介 背景 動機與目的 研究流程 資料探勘程序 結論 研究限制 未來展望. 簡介 背景. 文字探勘是資料探勘的一環,透過文字探勘的理論與技術,可對非結構化的資料進行深入挖掘資訊,洞察文件的潛在價值,提供決策者評估與實行依據 一般文字探勘應用大量的文件資料庫,提供資訊蒐集、訊息過濾、事件相關、趨勢預測、犯罪分析、案例追蹤、知識管理、知識萃取與決策輔助等多種相關應用.
E N D
資料探勘與知識發現 期末專案報告 指導老師 : 黃三益教授 M954020009 徐慎宜 D954020004 林皇吉 D954020008 唐 筠
議程 • 簡介 • 背景 • 動機與目的 • 研究流程 • 資料探勘程序 • 結論 • 研究限制 • 未來展望
簡介 背景 • 文字探勘是資料探勘的一環,透過文字探勘的理論與技術,可對非結構化的資料進行深入挖掘資訊,洞察文件的潛在價值,提供決策者評估與實行依據 • 一般文字探勘應用大量的文件資料庫,提供資訊蒐集、訊息過濾、事件相關、趨勢預測、犯罪分析、案例追蹤、知識管理、知識萃取與決策輔助等多種相關應用
簡介 動機與目的 • 本研究希望透過分析此該基金會所贊助的計畫摘要的內容,並透過摘要的分析,得知該基金會所贊助的計畫案類型比例的分部,分析目前的研究計畫領域趨勢,進而做為提供調整經費預算的比重等重要依據 • 說明: • 美國國家科學基金會( National Science Foundation, NSF ) 為一獨立的美國政府機構,依據經修正之1950年國家科學基金法案( the National Science Foundation Act of 1950 ) 所設置
簡介 研究流程 確立研究目標 資料蒐集與確定 資料前置處理 資料整合 資料清理 資料轉換 資料精簡 模型建立與組成 數據分析與探討 結論
資料探勘程序 1.轉換企業問題成為資料探勘問題資料探勘程序 1.轉換企業問題成為資料探勘問題 • 為了瞭解美國國家科學基金會所贊助的計畫比例,讓基金會對於所贊助的計畫在領域部門的比例有所了解,因此轉換此問題為資料探勘的問題即是經由分析摘要文件後,摘要內容文字所出現重要文字的頻率比較,可以得知目前或是該年度的研究趨勢與領域方向,除了可以作為未來研究趨勢的導引,也可以做為將來調整經費贊助比例的依據
資料探勘程序 2.選擇合適的資料 • 資料來源 • UC Irvine Machine Learning Repository 網站的NSF Research Award Abstracts 1990-2003的資料集 • 網址為http://archive.ics.uci.edu/ml/datasets/NSF+Research+Award+Abstracts+1990-2003 • 該網站為熱門且實用的資料集提供網站,除了提供資料集也接受研究者提供與分享自己的資料集,並有格式規範提供研究者參考,因此選用該網站資料做研究,在公信力上是有一定的水平
資料探勘程序 3.瞭解選擇的資料 1/2 表1文件摘要重要欄位屬性說明資訊
資料探勘程序 3.瞭解選擇的資料 2/2 表2文件摘要重要欄位屬性說明資訊
資料探勘程序 4.建立模式集 • 本研究將由doctitle.txt此檔案為主要分析來源 • 配合其他檔案為輔助進行模是建立與資料分析 • 資料探勘工具 • Wordstat 5.1做為分析工具 • 加入Simstat模組輔助分析過程進行 • 摘要文件內容在領域分類上使用Wordstat工具內所附加的字典進行文字比對與分類 • 使用的資料筆數為32108筆資料
資料探勘程序 5.整理收集的資料為適合探勘問題的資料資料探勘程序 5.整理收集的資料為適合探勘問題的資料 • 資料整合 • 消除資料不一致中的綱目不一致( schema conflict ) 的情況 • 本計畫由網站所提供的資料集均為文字檔案,且並無定義資料庫綱要,因此,在此步驟,由人工方是手動一一將資料整理與定義資料庫綱要,並且留意資料整合在此遇到的問題,例如:Docid 和 DOC ID 這兩者不同的問題 • 資料清理: • 主要目的是確認資料的完整性 • 由於資料中某些屬性有遺缺的情況,為了不影響探勘的結果,本計畫以「直接忽略法」為資料清理的原則
資料探勘程序 6.轉換資料 1/3 • 對於文字探勘而言,資料的前置處理是非常重要的,由其是轉換資料的部分,需要特別小心與謹慎,因為不同演算法有其適合的資料型態 • 本計畫使用Classification Model,並以關聯法則為分析方式,因此在資料轉換的部分,需要將資料轉換為符合此規則的型態
資料探勘程序 6. 資料精簡 2/3 • 研究將摘要文件中的獨特屬性刪除 • 例如贊助者( Sponsor ) 、程序參考( Program Ref )等 • 以將資料的維度降低,以利於探勘進行
資料探勘程序 6. 資料轉換 3/3 • 資料經過轉換後,以Multiple Response 中的Inter-rater進行分析,並以Nominal measure的Cohen’s Kappa與Ordinal measure的Kippendorff’s r 做為檢驗兩相鄰的觀測值,經過分析,如圖,表示期望和觀察是幾乎相近的
資料探勘程序 7.建立模式1/2 • 運用內容分析法建立分析模式,並以探勘工具中的字典做為字詞比對依據,字典中可分為外觀( APPARENCE ) 、藝術( ARTS )、通訊( COMMUNICATION )、教育( EDUCATION )、家庭( FAMILY )、財務( FINANCE )、情緒( HUMOR )等常見的字詞分類,如圖。並透過建立應對的關聯法則,進行第八步驟,關聯法則說明如表
資料探勘程序 7.建立模式2/2 表3 關聯法則建立- 以通訊類別為例
資料探勘程序 7.對模式進行評估1/2 • 由2000年到2003年之間 • 研究者申請贊助計畫的摘要文件所提出的內容,以教育類別為最多,占了39.8% • 工作類別數量為第二所提出的文件內容,其比例為31.7% • 通訊類別 ( 涵蓋一般的溝通 )則為12.6%,位居第三
資料探勘程序 7.對模式進行評估2/2 • 教育、工作、通訊與其他所佔有的比例圖
資料探勘程序 9.對結果進行評估1/4 • 進行Clustering的部分 • 以之前已經預定的關鍵字目錄為分群標準 • 並以發生在相同案例作為基準 • 索引部分,以Jaccard’s coffident ( occurrence ) 與Cosin theta ( frequency ) 為主要方式 Jaccard’s coffident -分群後的Dendrogram
資料探勘程序 9.對結果進行評估2/4 • Jaccard’s coffident -分群後類別之間的相似矩陣
資料探勘程序 9.對結果進行評估3/4 • Cosin theta ( frequency ) - 分群後的Dendrogram
資料探勘程序 9.對結果進行評估4/4 • Cosin theta ( frequency ) - 分群後類別之間的相似矩陣
資料探勘程序 結論 • 經由上述的分析,可以清楚的知道關於美國國家科學基金會的贊助於2000年到2003年在不同領域中的比例 • 透過如此的分析也可以知道過去當時其學術領域所探討的領域趨勢 • 而教育的部分,由研究結果可以得知,幾乎是一個值得發展的領域,因此當獲得這些資訊的時候,可以提供決策者在經費預算與學門領導方向可以有更多的思考空間與決策依據
資料探勘程序 研究限制 • 工具 • 使用的試用版 • 在使用多變量分析的部分,因為有許多分析需要有事先的描述程式,所以如果不是事先撰寫script語法,就必須使用該公司的檔案 • 在這一方面,分析上受到許多限制 • 資料集 • 對於網站做了部分斷詞的前置處理檔案而言,並不一定就能符合研究立即可以使用分析的部分 • 例如:對於摘要內容雖然有提供一個資料夾檔案的字詞頻率分析,但是,對於想要以摘要文件內容的其他欄位處理,會是一件浩大的前置作業工程 • 研究者必須再先行使用斷詞與斷字的軟體對每一年份的每一資料夾中的每一個贊助摘要文件處理
資料探勘程序 未來展望1/2 • 研究趨勢預測 • 在研究趨勢的預測部分,不單是以過往資料作為預測未來趨勢的基準,也要同時以過往資料作為淘汰過時或是不適合的研究議題或是領域,如此才能在研究領域中找出創新的切入點與良好的洞察力 • 對於一般支援贊助相關計畫或是研究的單位,這會是一個非常良好的決策依據 • 主題發展 • 在主題發展的部分,一則是結合研究趨勢的預測,二則是對於雖然非當時其大部份的研究相關計畫,但是卻是具有前瞻的領導發展探究,以特定的主題方式進行分析,對於前瞻領導計劃的推導具有一定的依據說明 • 因此,運用本研究的方式進行更大量與更加深入的探討,訂定不同的特定主題,應該可以找出這樣的決策依據
資料探勘程序 未來展望2/2 • 預算編列與控制 • 透過前述研究趨勢預測與主題發展,可以提供決策者在預算編列與控制上,有更好的分配方式與依據 • 不至於讓經費侷限在某些領域或是某些計畫提案 • 如此更能促進在每個部門皆有均衡的經費使用與發展