370 likes | 586 Views
分類法在數學科學習成就上的應用與實作. 指導教授:鄭滄祥 學 生:陳貝逢 日 期: 99 年 1 月 9 日. 研究背景與動機. 數學課是大多數學生學習成就低落的一門學科,學習成就低落與學習態度、方法、環境之間必定有某種程度的關係。 好的學習成效必定有好的學習態度、方法及環境。缺了一項,就可能會造成之後學習上的瓶頸。與其事後進行補救,更好的方法是事先找出問題所在,以加強學習者的自我認知。. 研究背景與動機.
E N D
分類法在數學科學習成就上的應用與實作 指導教授:鄭滄祥 學 生:陳貝逢 日 期:99年1月9日
研究背景與動機 • 數學課是大多數學生學習成就低落的一門學科,學習成就低落與學習態度、方法、環境之間必定有某種程度的關係。 • 好的學習成效必定有好的學習態度、方法及環境。缺了一項,就可能會造成之後學習上的瓶頸。與其事後進行補救,更好的方法是事先找出問題所在,以加強學習者的自我認知。
研究背景與動機 • 本研究針對「安平國中一年級學生數學科學習態度自我評量」的問卷結果作分析,是利用資料探勘中的分類分析(Classification Analysis)方法,找出一組能夠描述資料集合特徵的模式,以期能預測學生從國小升上國中後的數學學習成效,能夠對於學生進行分類,加強教學成效,幫助學習。
研究目的 • 探討不同性別的學生在數學科目上的學習成效是否有顯著差異。 • 探討不同的學習態度、時間、環境在數學科目上的學習成效是否有顯著差異。 • 找出學習者的學習障礙與迷思。供教師在日後教學時,能針對個別或大部分的學生來進行補救教學。
研究流程 確定主題 文獻探討 資料蒐集 資料分析 資料輸出 結論
研究方法 • 本研究針對「安平國中數學科學習態度自我評量」的問卷結果作分析 • 問卷題目代表的變數及意義如下
研究方法 • 自1960 年代開始,已有許多學者使用樹狀結構來進行資料分析,包括AID、ID3、CHAID、FACT 等,其中,決策樹是應用廣泛的分類與預測工具。決策樹是以樹狀圖為基礎的方法,和類神經網路最大不同處,在於決策樹可產生出規則,讓使用者容易理解。目前最普遍使用的決策樹有兩種-C4.5(Quinlan, 1993)及CART(Breiman et al., 1984),主要的差別在於前者是多元樹,而後者是二元樹,亦即每一節點皆只有兩個分支。本研究視資料尺度類型,採C4.5 進行研究。
C4.5決策樹 • C4.5 決策樹歸納法是由其前身ID3 學習法(Quinlan, 1986)改進而來(Quinlan, 1979)。ID3 為一決策樹歸納技術,在構建決策樹過程中,ID3 以資訊獲利(Information Gain)為基準,選擇最佳的屬性當成決策樹的節點,使得所導致的決策樹為一最簡單(或接近最簡單)的決策樹。
實作 • 收集資料
資料轉檔.csv -> .arff 輸入java weka.core.converters.CSVLoader self-test.csv > self-test.arff 即可完成轉換。
Discretization 使用UltraEdit打開self-test.arff這時我們在UltraEdit中直接修改ARFF文件,把@attribute review hour numeric改為@attribute review hour {0,1,2,3}。
Classification via J48Select the "Classify" tab and click the "Choose" button to select the J48 classifier
Classification via J48 選擇10-fold cross-validation 來當評估方法以及設定J48的各種參數
Classification via J48 view this information in a separate window
Classification via J48 View in separate window" from the pop-up menu
Classification via J48 view a graphical rendition of the classification tree
Use our model to classify the new instances(self-test-new.csv)
在 “Test options” 中,按 “Supplied test set” 然後按“Set...” button.來打開要classify的檔案(self-test-new.arff),再根據分類器在這組實例上的預測 效果來做決策。
點選右鍵中的“Visualize classifier errors”,將彈出一個新視窗顯示一些有關預測誤差的散點圖
使用ultraEdit打開self-test-predicted.arff,會看到增加“Instance_number” and “predictedresults”兩個屬性,這個屬性上的值就是模型對每個實例的預測值。
預測模型 國小成績 國中數學 成績 有無兄長可指導 預測 補習與否 在家研讀數學時數 有無使用參考書 寫回家功課狀況
未來努力方向 • 國小成績部份應使用『新生入學考試』成績為依據,且試題應該有九年一貫能力指標為依據命題,且試卷成績可以建立常模方為有效試題,以提高研究之信效度。 • 國中成績部份應採用多次段考成績為依據且應經過標準化處理,例如將成績轉化為z分數,再決定成績等級。 • 問卷設計內容要謹慎小心,否則入寶山也挖不到金礦,也就是要小心『屬性』的良窳。 • 本次報告主要是希望透過實作來瞭解weka操作與DM的神奇,並非一份完善的研究報告,敬請見諒