260 likes | 526 Views
13. Microsoft SQL Server 中的資料採礦模型. 貝氏機率分類演算法. 13-1 基本概念. 何謂 Naïve Bayes Classifer 單純貝氏分類器 (Naïve Bayes Classifier) 是一種簡單且實用的 分類 方法。 在某些領域的應用上,其分類效果優於類神經網路和決策樹 採用監督式的學習方式,分類前必須事先知道分類型態,透過訓練樣本的訓練學習,有效地處理未來欲分類的資料。. 13-1 基本概念. 何謂 Naïve Bayes Classifer 用於大型資料庫,可以得出準確高切有效率的分類結果
E N D
13 Microsoft SQL Server中的資料採礦模型 貝氏機率分類演算法
13-1 基本概念 • 何謂Naïve Bayes Classifer • 單純貝氏分類器 (Naïve Bayes Classifier) 是一種簡單且實用的分類方法。 • 在某些領域的應用上,其分類效果優於類神經網路和決策樹 • 採用監督式的學習方式,分類前必須事先知道分類型態,透過訓練樣本的訓練學習,有效地處理未來欲分類的資料。
13-1 基本概念 • 何謂Naïve Bayes Classifer • 用於大型資料庫,可以得出準確高切有效率的分類結果 • 單純貝氏分類器主要是根據貝氏定理 (Bayesian Theorem) ,來預測分類的結果。
13-1 基本概念 • 何謂Naïve Bayes Classifer • 主要的運作原理,是透過訓練樣本,學習記憶分類根據所使用屬性的關係,產生這些訓練樣本的中心概念,再用學習後的中心概念對未歸類的資料進行類別預測,以得到受測試資料物件的目標值。 • 每筆訓練樣本,一般含有分類相關連屬性的值,及分類結果 (又稱為目標值);一般而言,屬性可能出現兩種以上不同的值,而目標值則多半為兩元的相對狀態,如 ”是/否”,”好/壞”,”對/錯”,”上/下”。
13-1 基本概念 • 機率的概念 • 機率是衡量某一事件可能發生的程度(機會大小),並 針對此一不確定事件發生之可能賦予一量化的數值。 • 考試會錄取的機率、明天會下雨的機率
13-1 基本概念 • 聯合機率(joint probability) 表示A事件和B事件同時發生的機率=(A ∩ B) • 邊際機率(marginal probability) 在A和B的樣本空間中,只看A或B的機率,稱之邊際機率 • 條件機率(conditional probability) 在發生A的條件下,發生B的機率,稱為(B|A)
13-1 基本概念 • 乘法法則(Multiplicative rule) P(A∩B) P(B│A)= ───── P(A) P(A∩B)= P(B)×P(A│B) = P(A)×P(B│A) P(A∩B) P(A│B)= ───── P(B)
13-1 基本概念 • 獨立事件 設事件A和事件B滿足以下條件: • P(A)>0,P(B│A)=P(B) • P(B)>0,P(A│B)=P(A) • P(A∩B)=P(A)×P(B) 則稱A與B為『獨立事件』。
13-1 基本概念 • 貝氏定理 • P(Ai)表事前機率(Perior probability)。 • P(Ai│B)表事後機率(Posterior probability),事件Ai是一原因,B是一結果。 • Baye's rule 是一由已知結果求原因的機率。
13-1 基本概念 • 單純貝氏分類器主要是根據貝氏定理 (Bayesian Theorem) ,交換事前 (prior) 及事後 (posteriori) 機率,配合決定分類特性的各屬性彼此間是互相獨立的 (conditional independence) 的假設,來預測分類的結果。
13-1 基本概念 hMAP: 最大可能的假說 (Maximum APosteriori) D: 訓練樣本 V: 假說空間 (hypotheses space) P(D): 訓練樣本的事前機率,對於假說h而言,為一常數 P(h): 假說h事前機率 (尚未觀察訓練樣本時的機率) P(h|D): 在訓練樣本D集合下,假說h出現的條件機率
13-1 基本概念 • 單純貝氏分類器會根據訓練樣本,對於所給予測試物件的屬性值 (a1,a2,a3,…,an) 指派具有最高機率值的類別 (C表示類別的集合) 為目標結果。 • 其中,假設一共有n個學習概念的屬性A1, A2, …, An,a1為A1相對應的屬性值。
13-1 基本概念 1.計算各屬性的條件機率 P(C=cj | A1=a1,⋯,An=an) 貝氏定理: 屬性獨立: 2.預測推論新測試樣本所應歸屬的類別
13-1 基本概念 • 只要單純貝氏分類器所涉及學習概念的屬性,彼此間互相獨立的條件被滿足時,單純貝氏分類器的所得到的最大可能分類結果cNB,與貝氏定理的最大可能假說hMAP具有相同的功效
13-1 基本概念 • Microsoft 貝氏機率分類演算法是一個可快速建立的分類演算法,很適合預測模型。 • 此演算法僅支援分隔 (Discrete) 或分隔式 (Discretized) 屬性,如果有提供可預測屬性,它會視所有輸入屬性為獨立屬性。 • 計算最容易的演算法(條件機率) • 只能輸入類別變數
13-1 基本概念 • 貝氏決策定理 • 在A條件下發生B事件的條件機率等於AB同時發生的機率除以A發生的機率 • AB同時發生的機率為B發生的機率乘上在B條件中發生A的可能性 • A等於規則,B是我們要預測的事件 • 計算各種預測事件可能性,以貝氏機率最大者
13-2 操作示例 • 演算法參數 • Maximum_Input_Attributes • Maximum_Output_Attributes • Minimum_Dependency_Probability • Maximum_States
13-2 操作示例 • Maximum_Input_Attributes • 敘述: • 指定在叫用功能選項之前,演算法可以處理輸入屬性的最大數目。 • 將此值設定為 0,會停用輸入屬性的功能選項。 • Maximum_Output_Attributes • 敘述: • 指定在叫用功能選項之前,演算法可以處理輸出屬性的最大數目。 • 將此值設定為 0,會停用輸出屬性的功能選項。
13-2 操作示例 • Minimum_Dependency_Probability • 敘述: • 指定介於輸入和輸出屬性 (Attribute) 之間最小相依機率。 • 這個值會用來限制演算法所產生內容的大小。 • 這個屬性 (Property) 的設定可以從 0 到 1。 • 此值愈大,模型中屬性 (Attribute) 的數目就愈少。 • Maximum_States • 敘述: • 指定演算法所支援屬性狀態的最大數目。 • 如果屬性擁有的狀態數目大於狀態的最大數目,演算法會使用屬性最常用的狀態並將其餘的狀態視為遺漏。
13-2 操作示例 • 實例分析-以 三國資料 為例
13-2 操作示例 • 採礦模型檢視器則是呈現此相依性網路,對於資料的分佈進一步加以了解
13-2 操作示例 • 從「屬性設定檔」可以了解每個變數的特性分布狀況
13-2 操作示例 • 從屬性特性可以看出,不同群的基本特性機率
13-2 操作示例 • 在「屬性辨識」中,主要可以比較不同群體間的特性