430 likes | 601 Views
資料探勘期末報告 第 10 組. 組員姓名 : 黃順安、張駿凱、蘇麒文、陳汝建. 一 . 摘要:. 在以滿足市場需求為競爭關鍵的時代中,良好的銷售分析管理是企業提昇競爭力的重要關鍵。企業若能掌握住銷售關鍵必能帶來高額的獲利及減少損失。 本研究從 A 公司 2003 年銷售 6 萬 8 千多筆資料中運用資料探勘之相關技術:決策樹分析、貝氏機率分析、關聯規則分析、群集分析等四種技術。. 本次分析係以盈虧(最主要是分析盈餘)作為自變數輸出,因此新增一欄 「級距」
E N D
資料探勘期末報告第 10 組 組員姓名: 黃順安、張駿凱、蘇麒文、陳汝建
一.摘要: • 在以滿足市場需求為競爭關鍵的時代中,良好的銷售分析管理是企業提昇競爭力的重要關鍵。企業若能掌握住銷售關鍵必能帶來高額的獲利及減少損失。 • 本研究從 A 公司 2003 年銷售 6 萬 8 千多筆資料中運用資料探勘之相關技術:決策樹分析、貝氏機率分析、關聯規則分析、群集分析等四種技術。
本次分析係以盈虧(最主要是分析盈餘)作為自變數輸出,因此新增一欄「級距」本次分析係以盈虧(最主要是分析盈餘)作為自變數輸出,因此新增一欄「級距」 • 設定盈虧 <0 時為 0;盈虧大於等於零,小於等於 30000 時為 1;盈虧大於等於30001,小於等於 50000 時為 2;盈虧大於等於 50001,小於等於 70000 時為 3;盈虧大於等於 70001 時為 4,藉此條件來分析 A 公司 2003 年的銷售情況並發掘出有價值的知識,以供企業經營決策的參考。
使用之採礦技術: ㄧ. 決策樹 二. 單純貝氏分類器 三. 關聯規則 四. 集群分析
分析過程: • 資料篩選及取樣: • 將取得之數據進行異常值與離群值篩選,其中離群值部份則係將單價、全部商品成本 與 盈虧 三欄位,利用 Z 分數判定法 與 盒型圖判定法 進行篩選。如下圖所示。
單價 全部商品成本 盈虧 取得之原始數據
經由篩選後之資料數為 58951 筆,透過Integration Service 之百分比取樣,先隨機取樣 10% ,再將 10% 的取樣資料依3:7 比例再次取樣為訓練檔與測試檔,得出訓練檔 4618 組資料,測試檔 1162 組資料。
將資料匯入SQL中,形成訓練檔、測試檔兩資料表,並檢視其欄位資料形態是否正確。將資料匯入SQL中,形成訓練檔、測試檔兩資料表,並檢視其欄位資料形態是否正確。 • 進行決策樹、貝氏機率、關聯規則與群集採礦結構分析,並藉由系統建議設定商品成本、折扣總額、尺寸、數量、單價折扣及顏色作為因變數,並將輸出資料欄 「級距」之內容類型設為 Discrete。
分析方法: 一. 決策樹
決策樹之採礦圖例百分比於母體55.51%預測機率為99.87%決策樹之採礦圖例百分比於母體55.51%預測機率為99.87%
分析方法: 二. 貝氏機率分析
貝氏機率分析級距與商品成本關聯性最強其次為折扣總額貝氏機率分析級距與商品成本關聯性最強其次為折扣總額
貝氏機率之採礦圖例百分比於母體55.61%預測機率為99.38%貝氏機率之採礦圖例百分比於母體55.61%預測機率為99.38%
分析方法: 三. 關聯規則分析
採礦模型中之相依性網路, 當級距=1時與單價折扣<4有強關聯性
關聯規則之採礦圖例百分比於母體53.55%預測機率為89.77%關聯規則之採礦圖例百分比於母體53.55%預測機率為89.77%
分析方法: 四. 群集分析
群集之資料採礦增益圖於百分比於母體53.61%預測機率為98.37%群集之資料採礦增益圖於百分比於母體53.61%預測機率為98.37%
結論: • 從本研究發現商品成本與單價總額、單價折扣有密切關係而且最有可能影響商品盈虧,機率為最高,在市場上,相同的商品,當在制定單價並進行折扣行銷時,應該密切注意所取得的商品成本與銷售的數量,以確保基本利潤的獲得。由此得到之結果將有助於企業在於行銷策略銷售方面有更進一步幫助。掌握前者三者關係勢必可帶來更大的獲利並且也可降低虧損達到最大效果。
同時,本組將四種採礦分析之預測機率與分類矩陣整理成一覽表,並且嘗試在不經由取樣的過程而完整的分析整分資料,所得出之機率更高。同時,本組將四種採礦分析之預測機率與分類矩陣整理成一覽表,並且嘗試在不經由取樣的過程而完整的分析整分資料,所得出之機率更高。 • 透過一覽表,我們也發現,就此次研究而言,決策樹採礦分析所提供的數據最具準確性,也具有ㄧ定的參考價值。
數據提供者所提供的資料欄位如果有所缺失,將導致無法在探勘分析時獲知更進一步詳細的資料。數據提供者所提供的資料欄位如果有所缺失,將導致無法在探勘分析時獲知更進一步詳細的資料。 • 例如,資料欄位提供銷售分店的地區名稱或消費者的性別或年齡層,可藉此得知當地消費者習性,藉以調整進貨庫存的分析依據。 • 因此,資料的完整取得以及數據的正規化是影響分析結果相當重要的ㄧ環。