PART I Data Mining: 初探

PART IData Mining: 初探 Chapter 1

1.1 Data Mining: 定義

Data Mining • 自整個資料庫中運用一種或多種電腦技術以自動分析或擷取知識的過程 The process of employing one or more computer learning techniques to automatically analyze and extract knowledge from data.

歸納法學習(Induction-based Learning) • 自資料探勘所獲得知識通常是資料的模型或是歸納。 • 歸納法學習乃自概念明確、具體可知的例子中構造出通用的概念定義。 • See example on page 4. • 高爾夫球電視轉播贊助 • 饒舌音樂購買習慣 • 信用卡是使用模式

Knowledge Discovery in Databases (KDD) 知識挖掘(KDD) 是一種通常用以與資料探勘互相使用的術語。技術上，KDD是一種運用科學方法來作資料探勘的應用。 See flow chart in next slide The application of the scientific method to data mining. Data mining is one step of the KDD process.

知識挖掘流程

知識挖掘流程 • 選擇欲KDD的目標資料集合（Data Selection） • 探勘前的資料處理（Pre-processing）（如資料過濾Data Cleaning） • 資料轉換（Transformation）（含資料減量Data Reduction） • 進行資料探勘（Data Mining）（依欲KDD的目標及資料屬性形式選擇適合的資料探勘演算法，以尋找出資料關係的類型Pattern） • 探勘結果的釋意及所得關係類型的評估（Interpretation/Evaluation）（含知識的呈現Knowledge Presentation）等五階段

1.2 為甚麼電腦可以學習?資料探勘是一種學習

電腦學習的四個等級 • 事實(Facts) ：事實即是真相的簡單敘述 • 概念(Concepts) ：由一個或一群物件、特徵、或是事件的集合。 • 程序(Procedures) ：為達成目的所採行之步驟。 • 原則(Principles) ：其表現為最高次的學習，以真相為基礎所形成的通則與定律。 • 電腦擅長於概念學習，故DM產出概念結構。一般概念結構包括：樹狀、規則、網路圖、及數學方程式。知識為黑箱概念、推理法則、經驗資料

三個概念觀 • 概念可自不同明顯關係中被觀察出，吾輩可自三種概念觀加以應用至DM。 • 標準概觀(classical view) ：表示所有具有確定定義屬性的概念。標準概念觀對於概念的定義為明確且無令人誤解的空間。範例規則如下：若年收入  30,000 且目前職務的年資 5 且擁有自用住宅 = 是則優良信用風險 = 是符合此三條件

可能性概念觀(probabilistic view) • 可能式概觀可用以表達”哪些可能”可成為概念成員的屬性。 • 假設人類會儲存概念並回想，那麼人類即可自個別範例中觀察並得出歸納(經驗法則) 。 • 因此如上例，其表達方式為： • 持續按時繳納貸款者，平均收入是 30000 • 大部分擁有優良信用者，在同一家公司至少服務5年 • 大多數擁有信用者，擁有自己的住宅。 • 為優良信用者所呈現的普遍性的導引 • See also, on page 7.

範例概念觀 (exemplar view) • Exemplar view: 若一個給定例子與一個或多個已知概念範例相似，則此範例可為一個特別概念範例。 • 如上例，若申請者符合一個以上的候選條件，則申請人可被歸納為優良信用者。 • Example 1: 年收入 = 32,000 在同一家公司服務年資 = 6年持有房屋 • Example 2: 年收入 = 52,000 在同一家公司服務年資 = 16年目前租屋 See also example 3 On page 8

監督式學習法 (Supervised learning) • 自資料樣本中建立一個學習模型，利用此模型決定新型未知樣本的結論。 • 監督式學習的目的： • 使用監督式學習自包含正例與反例學習概念之資料集中建立分類模型。 • 一旦分類模型建立後，則該類模型可被用以決定哪些最近出現且未知其分類的範例。 • See next slide for example demonstration.

Diagnosis example (診斷範例) Inputs

決策樹 (Decision Tree) 決策樹是一種簡單監督式學習程式，可以將輸入範例資料經學習建立成決策樹。 A tree structure where non-terminal nodes represent tests on one or more attributes and terminal nodes reflect decision outcomes.

Tanagra 1.49 屬性樣本類別類別型資料含有兩種值 http://eric.univ-lyon2.fr/~ricco/tanagra/index.html

Tanagra 1.49 (C4.5)

決策樹訓練 • 用以建立決策樹模型(例子)的樣本稱為訓練資料(Training data) ；為了測試模型正確分類的資料稱為測試集(Test set) –都已分類過了。

吾輩可將決策數轉換成 IF-Then規則。 • 若前提條件 • 則結果 • 由圖1.1決策樹可產生三條規則： • 若淋巴腺腫脹=是 • 則診斷結果為練球菌性喉炎 • 若淋巴腺腫脹=否且發燒=是 • 則診斷結果為感冒 • 若淋巴腺腫脹=否且發燒=否 • 則診斷結果為過敏推論規則(Production Rules)

Unsupervised Clustering非監督式分群 勿需預先定義類別的一種資料探勘學習方法。 A data mining method that builds models from data without predefined classes.

非監督式分群 • 資料範例會根據群集系統所定義之相似性函數，歸納成數個群，藉由一種或以上的評估技術用以幫助吾輩了解所形成群組意涵。 • 表1.3假設資料(用以區分監督與非監督式分群方法之差別)

假設利用資料探勘技術用以挖掘股票經紀交易資料可能特徵或樣式，常問問題：假設利用資料探勘技術用以挖掘股票經紀交易資料可能特徵或樣式，常問問題：何以區分線上投資或交由經紀人進行投資者特性？(output: 交易別) 是否能找出在剛開始不是融資戶但未來可能成為融資戶的新顧客？(output: 融資戶) 是否能正確預測一個新投資者每月交易量模式？(output: 每月平均交易量) 男性與女性投資者間不同特徵？(output: 性別) The Acme Investors Dataset

切割問題 • Acme公司投資者是具有何種相同屬性值而集群？ • 顧客群是因何種屬性值的差異而可以被切割？ Notes: • 很多軟體需使用者提供一個初始最佳資料分群數，其餘則利用某種演算法找出最佳分群數目。 • See example in next slide.(三群)

50%資料符合第一群前提條件 20%的錯誤率

1.3 DM 是用以解決各種問題嗎?

可解決問題之決策基礎 • 問題可以清楚定義嗎？ • 有潛在意義存在嗎？ • 資料包含隱藏之事還是只能當作陳述用的事實資料？ • 處理資料過程所花費成本小於DM專案所得任何潛在資訊所可能帶來的利潤？

DM還是資料查詢 • 藉由四種知識類型可幫助我們決定適用何者工具 • 膚淺知識(Shallow knowledge) ：其本質上即為事實，吾輩可利用資料庫中儲存與操作。Such as SQL。 • 多維度知識(Multidimensional) ：資料儲存於多維度格式中。可利用線上分析工具(OLAP)處理之。 • 隱含知識(Hidden) ：此類資料不容易由SQL找出樣式或規則。此即可運用DM處理之。 • 深層知識(Deep) ：經由指定一些我們想要獲得知識方向，方可自資料庫中找到知識。目前DM無法解決之。

DM還是資料查詢 • SQL或OLAP需要切確需求物件或具體陳述。 • See page. 16 for examples. • DM可以做到甚麼？ • 找出ㄧ般信用卡顧客的檔案資料之樣型以利於信用卡顧客帳單上做一些促銷活動。 • 可區分哪些可能準時繳款顧客但卻有不良信用風險的人。 • … • See page 16

DM與資料查詢區別 - EXAMPLE • Use data query if you already almost know what you are looking for.(若你已大概知道要找甚麼，則利用資料查詢 – SQL) 。 • Use data mining to find regularities in data that are not obvious. (利用DM找出資料中不明顯的或不具有規則性解讀) • 找到假設: • See page. 17 for more explanations

1.4 需要專家系統或資料探勘？ • 一個擁有解決困難問題領域能力的人，可稱之為領域專家。將累積經驗儲存並利用規則庫表達或觸發問題案例用以推論出決策方案，稱為專家系統。故建構專家系統需要專家與知識工程師。 • 專家系統：A computer program that emulates the problem-solving skills of one or more human experts. • 知識工程師(Knowledge Engineer): A person trained to interact with an expert in order to capture their knowledge.

1.5 簡單的DM處理模式 • 步驟： • 組合並分析所蒐集資料 • 將此類資料置於DM應用軟體程式中 • 解釋結果 • 對新的問題或狀況推論或預測其結果

資料存取途徑 ERP CRM • 自資料倉儲(Data warehouse)存取資料 • 自關連資料庫中存取資料 • 自一般檔案或試算表中存取資料 OLAP Data Mining 資料倉儲

資料倉儲 • 一個資料集(Data set)即及合一個或以上的操作型資料庫。 • 操作型資料庫(Operational database)為交易式(Transaction)資料庫，其通常利用關聯式資料模型設計之。 • 若資料倉儲不存在則須以結構化查詢語言(SQL)寫出一個或多個查詢(Query)進行資料探勘。

探勘資料 • 將資料置於DM軟體程式前，有以下選擇： • 該運用監督式或非監督式學習方式？ • 哪些資料可做為建立模型資料樣本；哪些則可用以測試模型？ • 如何自可用屬性中挑出有用屬性？ • 資料探勘學習參數選擇獲取最佳模型

解釋結果與應用 • 探勘結果解釋乃去檢視DM軟體所輸出結果，並判斷其是否具有使用性(Actionable)價值。 • 若結果不是最佳，則可採用新的屬性以重複進行探勘步驟。 • 應用see page. 23, diaper and beer.

1.6 Why Not Simple Search? Nearest Neighbor Classifier (最近芳鄰分類法) Classification is performed by searching the training data for the instance closest in distance to the unknown instance. (利用訓練資料的搜尋而找出最接近資料點以達到分群目的) 缺點: see page. 23. K-nearest Neighbor Classifier (k個最最近芳鄰分類法) 以一個新的範例與他k個最近芳鄰點所形成一個共同類別) 。 See page. 24.

Nearest Neighbor Classifier Class 1 Class 2 分類器 Condensed Nearest Neighbor (CNN), Hart, 1968 : Class n VQ Nearest Neighbor (VQ-NN), Xie, 1993 : Adaptive VQ Nearest Neighbor (AVQ-NN), Yen et al., 2004 資料

Nearest Neighbor Classifier • Factors: • 準度 • 多少個雛形(prototypes)

資料探勘的應用 • 案例應用: visitwww.kdnuggest.com • 詐欺偵測: • AT&T運用資料探勘偵測國際電話詐騙。 • HNC所開發之FALCON詐欺評估系統用以顯示可能的信用卡交易詐騙行為。 • See more on page 25 and 26. • 健康諮詢: see page 26. • 企業金融:風險管理 and 交叉行銷 (Cross-selling). • 科學應用: see page 27. • 運動與娛樂: see page. 27.

顧客內含價值 • 顧客內含價值是根據類似對顧客價值之預測值。 • DM可用於建立顧客內含價值預測模型，一旦顧客內含價值決定後則可採取適當市場或行銷策略。

顧客內含價值   內含價值  真實價值

Question 5. • 有以下幾個可能. • 學期分數、總學分數、就學年數、每學期修課學分數,校園活動、是否就業或經驗。 • 標準概觀: 學期分數高於85、每學期平均修習12學分以上、專修課程成績優。 c. 可能性概念觀: 學期成績高於平均值、高於修課平均學分數、專修成績可。 d. 範例概念觀可列出優良或不佳學生作為範例用以判斷其他學生程度。可以以上範例作為判例。

Question 2 • Case #1 • 首先假設每一個產品是否被購買的屬性為”Yes” or “No” 。若一個顧客買某一產品則其屬性值為”Yes” ；反之為否。 • 非監督式分群演算法可協助於決定哪些產品通常一起購買的品項。 • Case #2 • 若產品別(項目)為輸出項，則吾輩可考量某些監督式分群方法以處理之。

Q3 • 一般醫學院學學生可經由觀察或協助住院醫生作業以學習外科手術程序 • 累積與結合觀察心得可將手術程序標準化，故此類學習為歸納法則。

Q6 • 將喉嚨痛至於最上階節點。其可能狀況為yes and no. 病人代號1, 3, 4, 8, 10 為yes，2, 5, 6, 7 & 9 為no. 路徑喉嚨痛= yes and no 皆有三種診斷結果(喉炎、過敏、感冒). • 藉由喉嚨痛= yes 路徑並選擇有頭痛跡象之病人，為 1,3,4, 8 & 10. 有頭痛者= yes 包括 1 (喉炎) ,8 (過敏), & 10 (感冒) 。無頭痛者= no 有 3 (感冒) and 4 (喉炎). • 接下來路徑頭痛= yes 及選擇充血(最後一個屬性) ，所有病人呈現充血= yes, 因此此決策樹無法辨別此三例。同樣地可從路徑頭痛= no繼續推演。因此此路徑喉嚨痛= yes無法明確辨別五例的任一例。選擇任一病症作為最上階捷點皆無法辨別。

PART I Data Mining: 初探