聚类分析简介

模糊聚类分析及有效性指标 聚类分析简介

1.1 聚类矩阵 • 假设要聚类的数据集包含n个数据对象，用p个变量（也称为度量或属性或特征向量）来表现n个对象。

1.2 聚类统计量：距离 • 欧氏距离 • 绝对距离 • 闵考夫斯基距离 • 马氏距离是随机变量的协方差矩阵

1.3聚类过程

2. 基于目标函数的聚类 基本思想：初始化分类，通过反复迭代运算，不断形成新的分类，使目标函数达到最小。基本的几个步骤如下： • 初始选择一种把样本分成k类的方法； • 计算这k类的聚类中心； • 通过把样本分配到离聚类中心最近的类，产生新的k类分法； • 重复第2，3步直到类里面所属成员在一定的范围内不再改变。该方法与初始化的分类有关，初始分类不同，最终的聚类结果也可能不同

3. FCM聚类算法(1) • 目标函数定义为 • 迭代运算优化过程： 1、输入聚类数c，终止条件，模糊度指数w和距离函数 2、初始化聚类中心 3、计算U，通过计算如果 (对于 ) 如果如果存在k，

3.FCM聚类算法（1） 4．计算聚类中心： 5．如果，则转6，否则，令，且转3 6．输出聚类结果（C，U），其中C为聚类中心，U为模糊划分矩阵。 7．停止。

4. 存在的问题 • 模糊聚类的有效性的研究：应该把数据集分成几类才是最好的，才能最佳的反映数据集的结构？ • 对聚类原型c的研究：如何较准确的初始化的聚类中心，以显著减少聚类所消耗的时间。 • 加权指数w的研究：参数w又称为平滑因子，控制着模式在模糊类间的分享程度，因此，要实现模糊聚类就必须选定一个w，然而最佳w的选取目前尚缺乏理论指导。

4.1. 初始化方法－REEDY BEGIN: M={m1} ; //m1为S中的一个随机点 For each //计算S中每个点到m1的距离； End For i=2 to k Begin //选择离mi最远的点作为聚类中心 Let For each End Return M; End S:点的集合；k：聚类中心数

4.2 模糊划分清晰化—到普通分类 • ，则将归入第类，其是第类的聚类中心。也就是说，与哪一个聚类中心最接近，就将它归到哪一类。 • 在U的第k列中，若，则将归入第类。也就是说，对哪一个类（X上的模糊子集）隶属度最大，就将它归到哪一类。

5.解决方案—模糊聚类的有效性研究 • 针对模数c-均值算法的最佳类别数c的确定 1、事先给定聚类数的范围[ , ]，最佳聚类数在该范围中取得。 2、For c＝ to （或者 For c＝ to ） 2.1 初始化聚类中心（V） 2.2 应用FCM 算法更新模糊分类矩阵U和聚类中心V。 2.3 判断收敛性，如果没有，转2.2 2.4通过有效性指标函数计算指标值 3、比较各有效性指标值，最大（或最小）指标值所对应的就是我们所求的最佳聚类数。

5.1 聚类有效性函数 • 按其定义方式可分为： 1、基于数据集的模糊划分 2、基于数据集的几何结构 3、基于数据集的统计信息

1、基于数据集的模糊划分 • 理论基础：好的聚类分析对应于数据集较“分明”的划分（1）分离系数

基于数据集的模糊划分 （2）、分离熵（平均信息量）

和的比较 和是两个仅用到模糊划分矩阵的简单的有效性指标函数。对于，越大的值意味着越好的分类，当其值较大时，就趋向于1或0了，也就是说，该数据集的划分是较分明的。同理，对于，它是越小越好。简单、运算量小，适用于本身已经较分明且数据量小的数据集优点：缺点：与数据集的结构特征缺乏直接联系，对于类间有交迭的数据不能很好的处理。

2、基于数据集几何结构 • 理论基础：每个子类应当是紧凑的，而且子类间是尽可能分离的（1）Xie-Beni 有效性（1991）

（1）Xie-Beni 有效性（1991） 是类内紧凑度与类间分离度的比例。（1）函数用来衡量类内的紧凑度，值越小越紧凑。（2）函数用来衡量类间的分离度，值越大，分离得越好就是在类内紧凑度与类间分离度之间找一个平衡点，使其达到最小，以获得最好的聚类。

(2)Fakuyame-Sugeno 有效性 （2）Fakuyame-Sugeno 有效性（1989）其中

(2)Fakuyame-Sugeno 有效性 它是类内紧凑度与类间分离度的差。（1）函数用来衡量类内的紧凑度，值越小越紧凑。（2）函数用来衡量类间的分离度，值越大，分离得越好最小的对应于最好的聚类结果。

(3)Rhee-Ho 有效性 Rhee-Ho 有效性（1996）：其中

(3)Rhee-Ho 有效性 是类内平均紧凑度与类间平均分离度的比例。（1）函数用来衡量类内的平均紧凑度，值越大越紧凑。（2）函数用来衡量类间的平均分离度，值越小，分离得越好。综上，越大的对应于越好的聚类结果。

(3)Rhee-Ho 有效性 优点：可以得到好的，准确的最终聚类数缺点：计算该指标的时间复杂度为，n为样本的数量，c为划分的类数，很难把它应用于实际。

（4）Rezaee-Letlieveldt-Reiber 有效性 Rezaee-Letlieveldt-Reiber 有效性（1998）其中：（1）

（4） Rezaee-Letlieveldt-Reiber 有效性 （2）这里（P＝1，2…S）

（4） Rezaee-Letlieveldt-Reiber 有效性 （3）这里

（4） Rezaee-Letlieveldt-Reiber 有效性 表示类内的紧凑度，更小的值意味着更紧凑表示类间的分离度. 权重因子，用来补偿和的度量差别最小的对应最好的聚类。本质上，它是一个关于类内紧凑度和类间分离度的线性组合：问题在于如何确定的比值，与，或以补偿它们之间的度量差别。

（5）Sun.H-S.Wang-Q.Jiang有效性 Sun.H-S.Wang-Q.Jiang有效性其中：定义同上（1）、（2）、这里－－

（5）Sun.H-S.Wang-Q.Jiang有效性 的一个改进， A、该有效性指标是上述 B、它可以有效的处理类与类间交迭的情况。把类间分离度的度量缩放到与 C、通过，类内紧凑度同个范围。 D、最小的对应于最佳聚类数。

3、基于数据集统计信息 • 理论基础：最佳分类对应的数据结构提供的统计信息最好。 1、PFS聚类（Pseudo F-Statistic,伪F统计）有效性指标模糊伪F统计比例：其中，n为样本个数，c为类数，P代表样本的维数为矩阵的迹，且

1、PFS聚类有效性指标 • 模糊类间散布矩阵 • 模糊类内散布矩阵 • 模糊混合散布矩阵之间有如下关系最大的FPFS值对应于所寻求的最佳分类优点：与数据集分布密切相关缺点：依赖于统计假设与数据分布的一致性

综合数据集几何结构和模糊划分的方法 • 有性指标函数 i：其中它是一个类间分离度与类内紧凑度的比，故易知，越大意味该分类越佳。它考虑了数据集的几何结构

综合数据集几何结构和模糊划分的方法 ii: 这里 a) b) 其中它考虑了数据集的模糊划分，其值越小，其分类法越佳。对于最大的SC对应于最佳分类数。

6.1 实验结果比较 实验结果的比较

6.2 实验结果比较 Data Set 3: 3 维 250 个样本最佳聚类数5

7.对聚类原型C的研究 • 一种新的基于FCM的聚类算法前述算法中，对应于与之间的每种聚类数，运用FCM算法前，为了使算法运用的条件更一般，结果更可靠，必须每个阶段事先随机初始化模糊划分矩阵。可以想象，这样处理忽略了前阶段的计算结果，在大数据集情况下，将使计算效率低下。其实，我们可以把前阶段的计算结果充分利用起来，把前阶段结果作为启发，在它的基础上稍加改进，获得下一阶段的初始化模糊划分矩阵。

7.1 一种新的基于FCM的聚类算法 1. 启发式递减算法（1）、选择和（2）、初始化对应的个聚类中心；（3）、For c= to 3.1、应用基本的FCM算法更新模糊划分矩阵（U）和聚类中心（V）； 3.2、判断是否收敛，如果还没有，转3.1；否则，下一步； 3.3、计算有效性指标 3.4、通过评分函数S（i）为每个类评分，删除分数最小（或最大）的类所对应的聚类中心。（4）、比较有效性指标函数值，最大值（或最小值）所对应的即为佳分类数。

1. 启发式递减算法 • 它的思想就是标志“最坏”类，并当c递减时，把“最坏”类所对应的聚类中心删掉。评分函数可根据不同需要作不同处理，比如，可定义为：较大的S（i）意味着类i中的样本数比较少，是一个小类，很多其它的样本由于其对于该类的隶属度不够大，尚不满足归入该类的条件。也就是说，该类的位置不够好，其它的聚类中心更有“吸引力”。

1. 启发式递减算法 例如：一个很小的类位于一个很大的类旁边，以致于大类中的成员它们有着不可忽略的对于小类的隶属度，但是，它们中很少是属于小类的。在这种情况下，最小的类将被视为“最坏的”，删去它对应的聚类中心，并把剩下的作为下一轮循环的初始聚类中心。时调用一次随机初始化程序，整个算法只需要为大大提高了计算效率。

2. 启发式递增算法 （1）、选择和（2）、初始化对应的个聚类中心；（3）、For c= to 3.1、应用基本的FCM算法更新模糊划分矩阵（U）和聚类中心（V）； 3.2、判断是否收敛，如果还没有，转3.1；否则，下一步； 3.3、计算有效性指标 3.4、通过评分函数S（i）为每个类评分，把分数最小（或最大）的类所对应的聚类中心一分为二。（4）、比较有效性指标函数值，最大值（或最小值）所对应的即为佳分类数。

7.2 两种算法的主要差别 1、对聚类数c测试的顺序； 2、最坏类的定义及对待“最坏”类的方法。假设S（i）定义同上，最小的S（i）将对应于“最坏的”类。因为小的S（i）意味着类i中可能包含很多的样本，但是它们的隶属度比较小，可以作为下一轮循环分割的对象。

8.实验结果比较 实验结果比较 • Data Set 1: 2 维 30 个样本最佳聚类数3

8. 实验结果比较 2、Data Set 2 (IRIS): 4 维 150 个样本最佳聚类数 3 类间有重叠

实验结果比较 实验结果比较 3、Data Set 3 (Real Data ): 22 维 10000 个样本测试范围2到10

程序演示

聚类分析简介

聚类分析简介

Presentation Transcript