580 likes | 705 Views
利用資料倉儲與資料探勘技術於招生策略與學生特質分析之研究. 組員:劉姿听 魏銘宏 朱政宏. 大綱. 研究動機與目的 研究方法 資料分析與研究結果 結論. 一、研究動機與目的. 研究動機 : 提升學校及系所的競爭力 吸引高素質的學生就讀 以發掘知識、運用策略,致力於學校課務及學務上的發展 資料倉儲目的 : 整合異質性的資料,解決資料庫分散各處的問題 提供穩固的平台,以整合性的架構將系統進行整合,有效規劃歷史資料的管理. 二、研究方法. 研究架構圖 資料前處理 招生資料倉儲建置 開放式訪談 敘述性統計 OLAP 規劃 決策樹分析. 研究架構.
E N D
利用資料倉儲與資料探勘技術於招生策略與學生特質分析之研究利用資料倉儲與資料探勘技術於招生策略與學生特質分析之研究 組員:劉姿听 魏銘宏 朱政宏
大綱 • 研究動機與目的 • 研究方法 • 資料分析與研究結果 • 結論
一、研究動機與目的 • 研究動機: • 提升學校及系所的競爭力 • 吸引高素質的學生就讀 • 以發掘知識、運用策略,致力於學校課務及學務上的發展 • 資料倉儲目的: • 整合異質性的資料,解決資料庫分散各處的問題 • 提供穩固的平台,以整合性的架構將系統進行整合,有效規劃歷史資料的管理
二、研究方法 • 研究架構圖 • 資料前處理 • 招生資料倉儲建置 • 開放式訪談 • 敘述性統計 • OLAP規劃 • 決策樹分析
研究架構 學生成績資料 學生學籍資料 資料前處理 資料倉儲建置 OLAP分析學生特質: 入學身份與成績表現間關係。 畢業學校與成績表現間關係。 決策樹 結果評估 歸納學生特質分析及提出招生策略建議
資料前處理 • 資料淨化 • 資料整合 • 資料轉換 • 資料換算
資料淨化 • 對於成績資料的遺漏值處理,若為無法追溯部分,則比照學籍資料遺漏值處理,即刪除該生所有資料。對於雜質資料和不一致的資料,為避免影響資料之處理,則一律給予刪除。
資料整合 • 學期成績平均資料表和學生學籍資料表將依學號欄位進行資料整合,在整合過程若遭遇同學號出現兩筆資料情形,則以人工判斷其正確性,若無法判斷則予以刪除。
資料轉換 • 為縮短各學院學生平均成績的差距,先將個別的成績加以正規化,再新增欄位「學期成績優劣度」。優劣度的定義為跨越不同學年、科系別及不一致的評分標準,將學生學期成績以標準值取代,如此則能以相同的標準判讀學生的學期成績表現。 • 學期成績優劣度之公式:
資料換算 • 將資料量減少,但對所需分析的工作資訊不會產生遺漏的作法,進行的方式可以透過資料彙總、維度的減少、資料編碼將資料縮減及資料採樣等方式,由於所需分析的學生資料結構較單純,因此不需要進行資料換算。
招生資料倉儲之建置 • 資料倉儲建置架構 • 資料倉儲建置步驟 • 星狀架構
資料倉儲的建制架構 • 招生資料倉儲的建置架構以最常被採用且維護、操作簡易的三層式架構來建立,主要分為三個部分: • 資料的取得 • 資料的儲存 • 資訊的萃取
資料倉儲的建置步驟 • 分析資訊系統架構 • 建立需求確認書 • 概念層級設計 • 工作確認,設計架構確認 • 邏輯架構的設計 • 實體架構的設計
開放式訪談 • 開放式訪談是以經過組織後的問題為架構,讓受訪者以他們自己的詞彙,盡情表達他們本身對訪談主題的了解及看法,其目的在於讓受訪者以最自然、不拘限的方式讓受訪者暢談有關經驗、感受、意見和知識。
敘述性統計 • 採用敘述性統計分析,利用次數分配、百分比與平均數瞭解研究對象資料,以及資料在「學期」與「學院」之成績表現,包括平均成績與標準差。
OLAP分析 • 由維度與量值所組成的Cube將可以是一維、二維及多維 性別 性別 入學年 畢業學校 畢業學校
OLAP分析目標 • 於不同入學年度,各入學身份的人數分佈。 • 於不同入學年度,各畢業學校的人數分佈。 • 於不同入學年度,不同入學身份別之整體成績表現、各學院成績表現及各系成績表現。 • 於不同入學年度,不同畢業學校之整體成績表現、各學院成績表現及各系成績表現。 • 不同入學身份別之大一至大四成績表現。 • 不同畢業學校之大一至大四成績表現。 • 在地高中成績表現。
決策樹分析 • 訓練與測試資料的分配 • 規則萃取 • 評估指標
訓練與測試資料的分配 • 該論文將訓練資料與測試資料的分配比例設定為7:3,即透過隨機抽樣將分析資料總數的70%做為訓練資料,30%做為測試資料。
規則萃取 • 決策樹所產生的規則並非全部都是好的根據[Michael J. A. Berry,1997]所提出的三種方法,衡量決策樹的有效程度: • 進入該節點之資料數,設定為至少30筆。 • 若是葉部節點,將觀察資料分類的方式。 • 該節點將資料正確分類的比率,設定為至少達50%。
評估指標 • 為評估決策樹的分類效益,採用錯誤率與分類結果矩陣表呈現分類結果,對於不良的決策樹結果,將進行樹的深度、節點純度及節點記錄數的調整,重新訓練樹,直到萃取出有意義的規則。
三、資料分析與研究結果 • 敘述性統計分析 • OLAP分析 • 決策樹分析
敘述性統計分析 • 該論文針對中原大學入學年界於86年至90年間,且入學身份為聯招、申請入學與推薦甄試三種入學方式之完整母體資料進行分析。
基本資料統計分析 性別資料 入學身份資料
基本資料統計分析 畢業學校分類資料
基本資料統計分析 居住地區資料
基本資料統計分析 系別資料
基本資料統計分析 • 由以上資料可得知,資料具有下列幾項特性: • 男生資料約為女生資料的兩倍。 • 不同的入學身份中,以聯招資料最多,次為推薦甄試資料,再者為申請入學資料。 • 畢業學校的分類中,以其他的比例最大,其次為夥伴高中。 • 居住地區中來自北部的學生最多,其次為南部與中部學生。 • 系別資料中以工學院資料最多,其次分別為商學院、理學院、設計學院和人文學院。
成績資料統計分析 各學期成績統計資料
成績資料統計分析 各學院成績統計資料
OLAP分析 • 入學人數分佈概況 • 入學身份之成績表現分析 • 畢業學校之成績表現分析 • OLAP分析總結
入學人數分佈概況 入學身份成長表
OLAP分析總結 • 經由OLAP四種檢視方式,上拉、下拉、切片與切丁及轉軸的運用,將能有效滿足分析需求,即時檢視資料的變化情況。 • 在入學入數的分佈概況中,發現申請入學的人數有逐年增加的趨勢,而推薦甄試的人數有逐年減少的趨勢。而畢業於在地高中的學生中,發現申請入學的成績表現尚可,在推薦甄試上表現卻較差。
決策樹的分析 • 資料前處理 • 資料後處理 • 資料分析結果
決策樹分析 • 資料前處理 學期成績優劣度之資料分佈
資料前處理-學期成績優劣度之資料分佈 • 學期成績優劣度之資料分佈,以成績表現中等為最多佔75.23% ,其次為成績表現列等佔12.71% ,最後為優等佔12.06%。
決策樹分析 • 資料後處理Microsoft SQL Server 之決策樹模型 • 選擇資料表或是OLAP資料後,選取「決策樹」探勘技術。 • 接著選擇索引鍵資料行,即是可以單獨作為辨別資料的欄位。 • 將輸入欄位與輸出欄位分別輸入至「輸入資料行」與「可預測資料行」中。 • 命名並儲存採勘模型,選擇立即處立,即完成決策樹分析。
決策樹分析 • 資料分析結果決策樹之錯誤率指標有兩種,及各節點錯誤率及整顆決策樹的錯誤率。 資料總筆數 - 正確抵達節點筆數 各節點錯誤率 = 資料總筆數 錯誤分類筆數 = 資料總筆數 整顆決策樹的錯誤率 =Σ(每一個葉部節點錯誤率 x 資料正確抵達的資率)
Microsoft SQL Server決策樹規則 • Doc1.doc