1 / 45

聚类分析简介

模糊聚类分析及有效性指标. 聚类分析简介. 1.1 聚类矩阵. 假设要聚类的数据集包含 n 个数据对象,用 p 个变量(也称为度量或属性或特征向量)来表现 n 个对象。. 1.2 聚类统计量:距离. 欧氏距离 绝对距离 闵考夫斯基距离 马氏距离. 是随机变量的协方差矩阵. 1.3 聚类过程. 2. 基于目标函数的聚类. 基本思想 : 初始化分类,通过反复迭代运算,不 断形成新的分类,使目标函数达到最小。 基本的几个步骤如下: 初始选择一种把样本分成 k 类的方法; 计算这 k 类的聚类中心;

zahina
Download Presentation

聚类分析简介

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 模糊聚类分析及有效性指标 聚类分析简介

  2. 1.1 聚类矩阵 • 假设要聚类的数据集包含n个数据对象,用p个变量(也称为度量或属性或特征向量)来表现n个对象。

  3. 1.2 聚类统计量:距离 • 欧氏距离 • 绝对距离 • 闵考夫斯基距离 • 马氏距离 是随机变量的协方差矩阵

  4. 1.3聚类过程

  5. 2. 基于目标函数的聚类 基本思想:初始化分类,通过反复迭代运算,不 断形成新的分类,使目标函数达到最小。 基本的几个步骤如下: • 初始选择一种把样本分成k类的方法; • 计算这k类的聚类中心; • 通过把样本分配到离聚类中心最近的类,产生新的k类分法; • 重复第2,3步直到类里面所属成员在一定的范围内不再改变。 该方法与初始化的分类有关,初始分类不同,最终的聚类结果也可能不同

  6. 3. FCM聚类算法(1) • 目标函数定义为 • 迭代运算优化过程: 1、输入聚类数c,终止条件 ,模糊度指数w和距离函数 2、初始化聚类中心 3、计算U,通过计算 如果 (对于 ) 如果 如果存在k,

  7. 3.FCM聚类算法(1) 4.计算聚类中心: 5.如果 ,则转6,否则,令 ,且转3 6.输出聚类结果(C,U),其中C为聚类 中心,U为模糊划分矩阵。 7.停止。

  8. 4. 存在的问题 • 模糊聚类的有效性的研究:应该把数据集分成几类才是最好的,才能最佳的反映数据集的结构? • 对聚类原型c的研究 :如何较准确的初始化的聚类中心,以显著减少聚类所消耗的时间。 • 加权指数w的研究 :参数w又称为平滑因子,控制着模式在模糊类间的分享程度,因此,要实现模糊聚类就必须选定一个w,然而最佳w的选取目前尚缺乏理论指导。

  9. 4.1. 初始化方法 -REEDY BEGIN: M={m1} ; //m1为S中的一个随机点 For each //计算S中每个点到m1的距离; End For i=2 to k Begin //选择离mi最远的点作为聚类中心 Let For each End Return M; End S:点的集合;k:聚类中心数

  10. 4.2 模糊划分清晰化—到普通分类 • ,则将 归入第 类,其 是第 类的聚类中心。也就是说, 与哪一个聚类中心最接近,就将它归到哪一类。 • 在U的第k列中,若 ,则将 归入第 类。也就是说, 对哪一个类(X上的模糊子集)隶属度最大,就将它归到哪一类。

  11. 5.解决方案—模糊聚类的有效性研究 • 针对模数c-均值算法的最佳类别数c的确定 1、事先给定聚类数的范围[ , ],最佳聚类数在该范围中取得。 2、For c= to (或者 For c= to ) 2.1 初始化聚类中心(V) 2.2 应用FCM 算法更新模糊分类矩阵U和 聚类中心V。 2.3 判断收敛性,如果没有,转2.2 2.4通过有效性指标函数计算指标值 3、比较各有效性指标值,最大(或最小)指标值 所对应的 就是我们所求的最佳聚类数。

  12. 5.1 聚类有效性函数 • 按其定义方式可分为: 1、基于数据集的模糊划分 2、基于数据集的几何结构 3、基于数据集的统计信息

  13. 1、基于数据集的模糊划分 • 理论基础:好的聚类分析对应于数据集较“分明”的划分 (1)分离系数

  14. 基于数据集的模糊划分 (2)、分离熵(平均信息量)

  15. 和 的比较 和 是两个仅用到模糊划分矩阵的简单的有效性指标函数。对于 ,越大的值意味着越好的分类,当其值较大时,就趋向于1或0了,也就是说,该数据集的划分是较分明的。同理,对于 ,它是越小越好。 简单、运算量小,适用于本身已经较分明且数据量小的数据集 优点: 缺点: 与数据集的结构特征缺乏直接联系,对于类间有交迭的数据不能很好的处理。

  16. 2、基于数据集几何结构 • 理论基础:每个子类应当是紧凑的,而且子类间是尽可能分离的 (1)Xie-Beni 有效性(1991)

  17. (1)Xie-Beni 有效性(1991) 是类内紧凑度与类间分离度的比例 。 (1)函数 用来衡量类内的紧凑度,值越小越紧凑。 (2)函数 用来衡量类间的分离度,值越大,分离得越好 就是在类内紧凑度与类间分离度之间找一个平衡点,使其达到最小,以获得最好的聚类。

  18. (2)Fakuyame-Sugeno 有效性 (2)Fakuyame-Sugeno 有效性(1989) 其中

  19. (2)Fakuyame-Sugeno 有效性 它是类内紧凑度与类间分离度的差。 (1) 函数 用来衡量类内的紧凑度,值越小越紧凑。 (2)函数 用来衡量类间的分离度,值越大,分离得越好 最小的 对应于最好的聚类结果。

  20. (3)Rhee-Ho 有效性 Rhee-Ho 有效性 (1996): 其中

  21. (3)Rhee-Ho 有效性 是类内平均紧凑度与类间平均分离度的比例。 (1)函数 用来衡量类内的平均紧凑度,值越大越紧凑。 (2)函数 用来衡量类间的平均分离度,值越小,分离得越好。 综上,越大的 对应于越好的聚类结果。

  22. (3)Rhee-Ho 有效性 优点: 可以得到好的,准确的最终聚类数 缺点: 计算该指标的时间复杂度为 ,n为样本的数量,c为划分的类数,很难把它应用于实际。

  23. (4)Rezaee-Letlieveldt-Reiber 有效性 Rezaee-Letlieveldt-Reiber 有效性(1998) 其中: (1)

  24. (4) Rezaee-Letlieveldt-Reiber 有效性 (2) 这里 (P=1,2…S)

  25. (4) Rezaee-Letlieveldt-Reiber 有效性 (3) 这里

  26. (4) Rezaee-Letlieveldt-Reiber 有效性 表示类内的紧凑度,更小的 值意味着更紧凑 表示类间的分离度. 权重因子 ,用来补偿 和 的度量差别 最小的 对应最好的聚类。 本质上,它是一个关于类内紧凑度和类间分离度的线性组合: 问题在于如何确定 的比值, 与 ,或 以补偿它们之间的度量差别。

  27. (5)Sun.H-S.Wang-Q.Jiang有效性 Sun.H-S.Wang-Q.Jiang有效性 其中: 定义同上 (1)、 (2)、 这里 - -

  28. (5)Sun.H-S.Wang-Q.Jiang有效性 的一个改进, A、该有效性指标是上述 B、它可以有效的处理类与类间交迭的情况。 把类间分离度的度量缩放到与 C、通过 , 类内紧凑度 同个范围。 D、最小的 对应于最佳聚类数。

  29. 3、基于数据集统计信息 • 理论基础:最佳分类对应的数据结构提供的统计信息最好。 1、PFS聚类(Pseudo F-Statistic,伪F统计)有效性指标 模糊伪F统计比例: 其中,n为样本个数,c为类数,P代表样本的维数 为矩阵 的迹,且

  30. 1、PFS聚类有效性指标 • 模糊类间散布矩阵 • 模糊类内散布矩阵 • 模糊混合散布矩阵 之间有如下关系 最大的FPFS值对应于所寻求的最佳分类 优点: 与数据集分布密切相关 缺点: 依赖于统计假设与数据分布的一致性

  31. 综合数据集几何结构和模糊划分的方法 • 有性指标函数 i: 其中 它是一个类间分离度与类内紧凑度的比,故易知,越大 意味该分类越佳。 它考虑了数据集的几何结构

  32. 综合数据集几何结构和模糊划分的方法 ii: 这里 a) b) 其中 它考虑了数据集的模糊划分,其值越小,其分类法越佳。 对于 最大的SC对应于最佳分类数。

  33. 6.1 实验结果比较 实验结果的比较

  34. 6.2 实验结果比较 Data Set 3: 3 维 250 个 样本 最佳聚类数5

  35. 7.对聚类原型C的研究 • 一种新的基于FCM的聚类算法 前述算法中,对应于 与 之间的每种聚类数,运用FCM算法前,为了使算法运用的条件更一般,结果更可靠,必须每个阶段事先随机初始化模糊划分矩阵。可以想象,这样处理忽略了前阶段的计算结果,在大数据集情况下,将使计算效率低下。其实,我们可以把前阶段的计算结果充分利用起来,把前阶段结果作为启发,在它的基础上稍加改进,获得下一阶段的初始化模糊划分矩阵。

  36. 7.1 一种新的基于FCM的聚类算法 1. 启发式递减算法 (1)、选择 和 (2)、初始化 对应的 个聚类中心; (3)、For c= to 3.1、应用基本的FCM算法更新模糊划分矩阵(U)和聚类中心(V); 3.2、判断是否收敛,如果还没有,转3.1;否则,下一步; 3.3、计算有效性指标 3.4、通过评分函数S(i)为每个类评分,删除分数最小(或最大)的 类所对应的聚类中心。 (4)、比较有效性指标函数值,最大值(或最小值) 所对应的 即为佳分类数。

  37. 1. 启发式递减算法 • 它的思想就是标志“最坏”类,并当c递减时,把“最坏”类所对应的聚类中心删掉。 评分函数可根据不同需要作不同处理,比如,可定义为: 较大的S(i)意味着类i中的样本数比较少,是一个小类,很多其它的样本由于其对于该类的隶属度不够大,尚不满足归入该类的条件。也就是说,该类的位置不够好,其它的聚类中心更有“吸引力”。

  38. 1. 启发式递减算法 例如: 一个很小的类位于一个很大的类旁边,以致于大类中的成员它们有着不可忽略的对于小类的隶属度,但是,它们中很少是属于小类的。在这种情况下,最小的类将被视为“最坏的”,删去它对应的聚类中心,并把剩下的作为下一轮循环的初始聚类中心。 时调用一次随机初始化程序, 整个算法只需要为 大大提高了计算效率。

  39. 2. 启发式递增算法 (1)、选择 和 (2)、初始化 对应的 个聚类中心; (3)、For c= to 3.1、应用基本的FCM算法更新模糊划分矩阵(U)和聚类中心(V); 3.2、判断是否收敛,如果还没有,转3.1;否则,下一步; 3.3、计算有效性指标 3.4、通过评分函数S(i)为每个类评分,把分数最小(或最大)的 类所对应的聚类中心一分为二。 (4)、比较有效性指标函数值,最大值(或最小值) 所对应的 即为佳分类数。

  40. 7.2 两种算法的主要差别 1、对聚类数c测试的顺序; 2、最坏类的定义及对待“最坏”类的方法。 假设S(i)定义同上,最小的S(i)将对应于“最坏的”类。因为小的S(i)意 味着类i中可能包含很多的样本,但是它们的隶属度比较小,可以作为下一轮循环分割的对象。

  41. 8.实验结果比较 实验结果比较 • Data Set 1: 2 维 30 个 样本 最佳聚类数3

  42. 8. 实验结果比较 2、Data Set 2 (IRIS): 4 维 150 个 样本 最佳聚类数 3 类间有重叠

  43. 实验结果比较 实验结果比较 3、Data Set 3 (Real Data ): 22 维 10000 个 样本 测试范围2到10

  44. 程序演示

  45. 程序演示

More Related