330 likes | 483 Views
連鎖便利商店資料探勘之研究. 中央大學資管系 陳彥良整理. 本研究出處. Market basket analysis in a multiple store environment, Decision Support Systems, Vol. 40, No. 2, pp. 339-354. ( SCI ). Data Mining 定義. 資料挖掘定義 就是從資料庫中發現知識,將隱含的、先前並不知道的、潛在有 用的資訊從資料庫中粹取出來的過程. Data Mining 為何興起 ?. 商品條碼之廣泛使用 企業界之電腦化 數以百萬計之資料庫正在使用
E N D
連鎖便利商店資料探勘之研究 中央大學資管系 陳彥良整理
本研究出處 • Market basket analysis in a multiple store environment, Decision Support Systems, Vol. 40, No. 2, pp. 339-354. (SCI)
Data Mining 定義 • 資料挖掘定義 就是從資料庫中發現知識,將隱含的、先前並不知道的、潛在有 用的資訊從資料庫中粹取出來的過程
Data Mining 為何興起? • 商品條碼之廣泛使用 • 企業界之電腦化 • 數以百萬計之資料庫正在使用 • 多年來累積了大量企業交易資料 Data Knowledge
主要功用 • 從資料庫中挖掘知識 • 了解使用者行為 • 幫助企業作決策 • 增進商機
Knowledge Discovery in Databases (KDD) Knowledge • Data mining: the core of KDD process. Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Data Cleaning Data Integration Databases
時間 • 店號 • 購買商品 • 購買數量 • 價格 • 總價 發票的資料內容
關聯規則 • Itemset : 商品集合 • Large itemset (frequent itemset): 經常被一齊購買的商品集合 • Minimum support 最小支持度門檻 • Minimum confidence最小信心門檻 • Association rule關聯規則 : 顧客若買了X之後,很有可能會再買Y • 從Large itemset我們可以推出關聯規則
Ex: minsup=20% • sup{1}=6/10=60% • sup{1,2}=4/10=40% • sup{1,2,3}=2/10=20% • 以上是large itemset • sup{3,5}=1/10=10% • sup{1,3,5}=1/10=10% • 以上不是large itemset
產生關聯規則:minconf=50% • {1}{2} 規則成立 sup(1)=60%, sup(1,2)=40%, conf:67.7% • {1}{2,3} 規則不成立 sup(1)=60%, sup(1,2,3)=20%, conf:33.3% • {1,2}3 規則成立 sup(1,2)=40%, sup(1,2,3)=20%, conf:50%
研究主題 • 加入購買數量的考量 • 加入時間地點考量 • 加入價格的考量
加入時間及地點考量 • 傳統關聯規則挖掘方式只侷限於單一店面 • 沒有考慮每個產品可能有不同的上架期間 • 以零售業來說,有能力導入資料挖掘的企業大多具有多家連鎖店,故傳統關聯規則方法並不適用 • 傳統關聯規則只能提供單店的資訊
以醫院附近的店為例 • 假設50家商店,每家店平均交易筆數為1000筆 • 商品A只在其中5家商店販售,共銷售2000筆 • 傳統方式算出之support:2000/50000=0.04 • 但實際上的support值應為:2000/5000=0.4
研究目的 • 以時間和地點為限制條件的關聯規則挖掘 • 不同商品計算support值時,必須以其上架時間及地點的交易筆數為基底 • 新挖掘方式能夠因應市場競爭及顧客需求,找出何地點的商店最適合在哪個時段販賣何種商品 • 在中午時段辦公大樓附近的便利商店,購買便當的顧客同時也會購買飲料
環境假設 • 一連鎖系列商店,共有n個店面 • 每個店面可以因應其特殊的環境而銷售不同的商品 • 為了因應市場的變化,不斷的調整銷售商品之組合 • 每個商品品項有不同的銷售時間及不同的銷售店面,甚至在不同的店面其銷售期間也都不同
交易資料庫 商店P1 商店P2
Item 1 Item 2 Items {1, 2}
Items {1, 2} |dVx|=45+12+16+42+34+10+42+12+39=252
真實支持度 • 在有效基準Vx為基底所計算出x之actual support值,以a-sup(x, dVx)來表示 • 計算方式為a-sup(x, dVx)=|W(x, dVx)| / |dVx| • 以有效基準Vxy為基底所計算出x之actual support 值,以a-sup(x, dVxy)來表示 ,公式為 a-sup(x, dVxy)=|W(x, dVxy)| / |dVxy|
真實支持度:範例 • |dVx|=252 • 假設|W(x, dVx)|=100 • a-sup(x, dVx)=100/252
規則信賴度 • 時間地點關聯規則的信賴度(confidence value),conf(xy),代表規則的預測強度,公式為 a-sup(xy, dVxy) / a-sup(x, dVxy) • 說明:即在X和Y都上架販售的情形下,當賣出X時,會有多少比例也會賣出Y
時間地點關聯規則 • 給定一個confidence threshold [0,1],若conf(xy) 的話,則我們稱xy為時間地點關聯規則,也就是該規則符合minimal confidence • 時間地點關聯規則包含如下 • xy • a-sup(xy, dVxy) • conf(xy) • 有效基準Vxy的時間地點集合
Support錯誤率 • 利用傳統關聯規則挖掘方式及多商店下的關聯規則方式,比較每一Frequent Itemset的support值差異 ex.傳統方式global support=40% 多商店下actual support=60% 該Frequent Itemset錯誤率 20%/60%=33.3%
規則數錯誤率 • 算出多商店下關聯規則能夠比傳統方式多找出的規則數佔多商店下關聯規則數的比率 傳統方式的規則數 250 300 多商店下的關聯規則數 傳統方式的Type C Error ex.傳統方式規則數250 多商店下規則數300 傳統方式的錯誤率 50/300=16.67%
Support誤差 vs 商店時間數 Support錯誤率
規則數誤差 vs 商店時間數 規則數錯誤率
Support誤差 vs 商店大小比例 Support錯誤率
規則數誤差 vs商店大小比例 規則數錯誤率
Support誤差 vs 商品下架率 Support錯誤率
規則數誤差 vs商品下架率 規則數錯誤率
結論 • 當連鎖店有越多商店、商品下架率越高、商店異質程度越高時,知識錯誤比率也越高。 • 在一個多商店環境下,如果我們使用傳統單店的關聯規則方法挖掘資料庫,可能會有相當的規則、支持度、信賴度是錯的