1 / 26

Microsoft SQL Server 中的資料採礦模型

13. Microsoft SQL Server 中的資料採礦模型. 貝氏機率分類演算法. 13-1 基本概念. 何謂 Naïve Bayes Classifer 單純貝氏分類器 (Naïve Bayes Classifier) 是一種簡單且實用的 分類 方法。 在某些領域的應用上,其分類效果優於類神經網路和決策樹 採用監督式的學習方式,分類前必須事先知道分類型態,透過訓練樣本的訓練學習,有效地處理未來欲分類的資料。. 13-1 基本概念. 何謂 Naïve Bayes Classifer 用於大型資料庫,可以得出準確高切有效率的分類結果

primo
Download Presentation

Microsoft SQL Server 中的資料採礦模型

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 13 Microsoft SQL Server中的資料採礦模型 貝氏機率分類演算法

  2. 13-1 基本概念 • 何謂Naïve Bayes Classifer • 單純貝氏分類器 (Naïve Bayes Classifier) 是一種簡單且實用的分類方法。 • 在某些領域的應用上,其分類效果優於類神經網路和決策樹 • 採用監督式的學習方式,分類前必須事先知道分類型態,透過訓練樣本的訓練學習,有效地處理未來欲分類的資料。

  3. 13-1 基本概念 • 何謂Naïve Bayes Classifer • 用於大型資料庫,可以得出準確高切有效率的分類結果 • 單純貝氏分類器主要是根據貝氏定理 (Bayesian Theorem) ,來預測分類的結果。

  4. 13-1 基本概念 • 何謂Naïve Bayes Classifer • 主要的運作原理,是透過訓練樣本,學習記憶分類根據所使用屬性的關係,產生這些訓練樣本的中心概念,再用學習後的中心概念對未歸類的資料進行類別預測,以得到受測試資料物件的目標值。 • 每筆訓練樣本,一般含有分類相關連屬性的值,及分類結果 (又稱為目標值);一般而言,屬性可能出現兩種以上不同的值,而目標值則多半為兩元的相對狀態,如 ”是/否”,”好/壞”,”對/錯”,”上/下”。

  5. 13-1 基本概念 • 機率的概念 • 機率是衡量某一事件可能發生的程度(機會大小),並 針對此一不確定事件發生之可能賦予一量化的數值。 • 考試會錄取的機率、明天會下雨的機率

  6. 13-1 基本概念 • 聯合機率(joint probability) 表示A事件和B事件同時發生的機率=(A ∩ B) • 邊際機率(marginal probability) 在A和B的樣本空間中,只看A或B的機率,稱之邊際機率 • 條件機率(conditional probability) 在發生A的條件下,發生B的機率,稱為(B|A)

  7. 13-1 基本概念 • 乘法法則(Multiplicative rule)   P(A∩B) P(B│A)= ───── P(A) P(A∩B)= P(B)×P(A│B) = P(A)×P(B│A) P(A∩B) P(A│B)= ───── P(B)

  8. 13-1 基本概念 • 獨立事件 設事件A和事件B滿足以下條件: • P(A)>0,P(B│A)=P(B) • P(B)>0,P(A│B)=P(A) • P(A∩B)=P(A)×P(B) 則稱A與B為『獨立事件』。

  9. 13-1 基本概念 • 貝氏定理 • P(Ai)表事前機率(Perior probability)。 • P(Ai│B)表事後機率(Posterior probability),事件Ai是一原因,B是一結果。 • Baye's rule 是一由已知結果求原因的機率。

  10. 13-1 基本概念 • 單純貝氏分類器主要是根據貝氏定理 (Bayesian Theorem) ,交換事前 (prior) 及事後 (posteriori) 機率,配合決定分類特性的各屬性彼此間是互相獨立的 (conditional independence) 的假設,來預測分類的結果。

  11. 13-1 基本概念 hMAP: 最大可能的假說 (Maximum APosteriori) D: 訓練樣本 V: 假說空間 (hypotheses space) P(D): 訓練樣本的事前機率,對於假說h而言,為一常數 P(h): 假說h事前機率 (尚未觀察訓練樣本時的機率) P(h|D): 在訓練樣本D集合下,假說h出現的條件機率

  12. 13-1 基本概念 • 單純貝氏分類器會根據訓練樣本,對於所給予測試物件的屬性值 (a1,a2,a3,…,an) 指派具有最高機率值的類別 (C表示類別的集合) 為目標結果。 • 其中,假設一共有n個學習概念的屬性A1, A2, …, An,a1為A1相對應的屬性值。

  13. 13-1 基本概念 1.計算各屬性的條件機率 P(C=cj | A1=a1,⋯,An=an) 貝氏定理: 屬性獨立: 2.預測推論新測試樣本所應歸屬的類別

  14. 13-1 基本概念 • 只要單純貝氏分類器所涉及學習概念的屬性,彼此間互相獨立的條件被滿足時,單純貝氏分類器的所得到的最大可能分類結果cNB,與貝氏定理的最大可能假說hMAP具有相同的功效

  15. 13-1 基本概念 • Microsoft 貝氏機率分類演算法是一個可快速建立的分類演算法,很適合預測模型。 • 此演算法僅支援分隔 (Discrete) 或分隔式 (Discretized) 屬性,如果有提供可預測屬性,它會視所有輸入屬性為獨立屬性。 • 計算最容易的演算法(條件機率) • 只能輸入類別變數

  16. 13-1 基本概念 • 貝氏決策定理 • 在A條件下發生B事件的條件機率等於AB同時發生的機率除以A發生的機率 • AB同時發生的機率為B發生的機率乘上在B條件中發生A的可能性 • A等於規則,B是我們要預測的事件 • 計算各種預測事件可能性,以貝氏機率最大者

  17. 13-2 操作示例 • 演算法參數 • Maximum_Input_Attributes • Maximum_Output_Attributes • Minimum_Dependency_Probability • Maximum_States

  18. 13-2 操作示例 • Maximum_Input_Attributes • 敘述: • 指定在叫用功能選項之前,演算法可以處理輸入屬性的最大數目。 • 將此值設定為 0,會停用輸入屬性的功能選項。 • Maximum_Output_Attributes • 敘述: • 指定在叫用功能選項之前,演算法可以處理輸出屬性的最大數目。 • 將此值設定為 0,會停用輸出屬性的功能選項。

  19. 13-2 操作示例 • Minimum_Dependency_Probability • 敘述: • 指定介於輸入和輸出屬性 (Attribute) 之間最小相依機率。 • 這個值會用來限制演算法所產生內容的大小。 • 這個屬性 (Property) 的設定可以從 0 到 1。 • 此值愈大,模型中屬性 (Attribute) 的數目就愈少。 • Maximum_States • 敘述: • 指定演算法所支援屬性狀態的最大數目。 • 如果屬性擁有的狀態數目大於狀態的最大數目,演算法會使用屬性最常用的狀態並將其餘的狀態視為遺漏。

  20. 13-2 操作示例 • 實例分析-以 三國資料 為例

  21. 13-2 操作示例 • 採礦模型檢視器則是呈現此相依性網路,對於資料的分佈進一步加以了解

  22. 13-2 操作示例 • 從「屬性設定檔」可以了解每個變數的特性分布狀況

  23. 13-2 操作示例 • 從屬性特性可以看出,不同群的基本特性機率

  24. 13-2 操作示例 • 在「屬性辨識」中,主要可以比較不同群體間的特性

  25. 本章結束

More Related