450 likes | 582 Views
模糊聚类分析及有效性指标. 聚类分析简介. 1.1 聚类矩阵. 假设要聚类的数据集包含 n 个数据对象,用 p 个变量(也称为度量或属性或特征向量)来表现 n 个对象。. 1.2 聚类统计量:距离. 欧氏距离 绝对距离 闵考夫斯基距离 马氏距离. 是随机变量的协方差矩阵. 1.3 聚类过程. 2. 基于目标函数的聚类. 基本思想 : 初始化分类,通过反复迭代运算,不 断形成新的分类,使目标函数达到最小。 基本的几个步骤如下: 初始选择一种把样本分成 k 类的方法; 计算这 k 类的聚类中心;
E N D
模糊聚类分析及有效性指标 聚类分析简介
1.1 聚类矩阵 • 假设要聚类的数据集包含n个数据对象,用p个变量(也称为度量或属性或特征向量)来表现n个对象。
1.2 聚类统计量:距离 • 欧氏距离 • 绝对距离 • 闵考夫斯基距离 • 马氏距离 是随机变量的协方差矩阵
2. 基于目标函数的聚类 基本思想:初始化分类,通过反复迭代运算,不 断形成新的分类,使目标函数达到最小。 基本的几个步骤如下: • 初始选择一种把样本分成k类的方法; • 计算这k类的聚类中心; • 通过把样本分配到离聚类中心最近的类,产生新的k类分法; • 重复第2,3步直到类里面所属成员在一定的范围内不再改变。 该方法与初始化的分类有关,初始分类不同,最终的聚类结果也可能不同
3. FCM聚类算法(1) • 目标函数定义为 • 迭代运算优化过程: 1、输入聚类数c,终止条件 ,模糊度指数w和距离函数 2、初始化聚类中心 3、计算U,通过计算 如果 (对于 ) 如果 如果存在k,
3.FCM聚类算法(1) 4.计算聚类中心: 5.如果 ,则转6,否则,令 ,且转3 6.输出聚类结果(C,U),其中C为聚类 中心,U为模糊划分矩阵。 7.停止。
4. 存在的问题 • 模糊聚类的有效性的研究:应该把数据集分成几类才是最好的,才能最佳的反映数据集的结构? • 对聚类原型c的研究 :如何较准确的初始化的聚类中心,以显著减少聚类所消耗的时间。 • 加权指数w的研究 :参数w又称为平滑因子,控制着模式在模糊类间的分享程度,因此,要实现模糊聚类就必须选定一个w,然而最佳w的选取目前尚缺乏理论指导。
4.1. 初始化方法 -REEDY BEGIN: M={m1} ; //m1为S中的一个随机点 For each //计算S中每个点到m1的距离; End For i=2 to k Begin //选择离mi最远的点作为聚类中心 Let For each End Return M; End S:点的集合;k:聚类中心数
4.2 模糊划分清晰化—到普通分类 • ,则将 归入第 类,其 是第 类的聚类中心。也就是说, 与哪一个聚类中心最接近,就将它归到哪一类。 • 在U的第k列中,若 ,则将 归入第 类。也就是说, 对哪一个类(X上的模糊子集)隶属度最大,就将它归到哪一类。
5.解决方案—模糊聚类的有效性研究 • 针对模数c-均值算法的最佳类别数c的确定 1、事先给定聚类数的范围[ , ],最佳聚类数在该范围中取得。 2、For c= to (或者 For c= to ) 2.1 初始化聚类中心(V) 2.2 应用FCM 算法更新模糊分类矩阵U和 聚类中心V。 2.3 判断收敛性,如果没有,转2.2 2.4通过有效性指标函数计算指标值 3、比较各有效性指标值,最大(或最小)指标值 所对应的 就是我们所求的最佳聚类数。
5.1 聚类有效性函数 • 按其定义方式可分为: 1、基于数据集的模糊划分 2、基于数据集的几何结构 3、基于数据集的统计信息
1、基于数据集的模糊划分 • 理论基础:好的聚类分析对应于数据集较“分明”的划分 (1)分离系数
基于数据集的模糊划分 (2)、分离熵(平均信息量)
和 的比较 和 是两个仅用到模糊划分矩阵的简单的有效性指标函数。对于 ,越大的值意味着越好的分类,当其值较大时,就趋向于1或0了,也就是说,该数据集的划分是较分明的。同理,对于 ,它是越小越好。 简单、运算量小,适用于本身已经较分明且数据量小的数据集 优点: 缺点: 与数据集的结构特征缺乏直接联系,对于类间有交迭的数据不能很好的处理。
2、基于数据集几何结构 • 理论基础:每个子类应当是紧凑的,而且子类间是尽可能分离的 (1)Xie-Beni 有效性(1991)
(1)Xie-Beni 有效性(1991) 是类内紧凑度与类间分离度的比例 。 (1)函数 用来衡量类内的紧凑度,值越小越紧凑。 (2)函数 用来衡量类间的分离度,值越大,分离得越好 就是在类内紧凑度与类间分离度之间找一个平衡点,使其达到最小,以获得最好的聚类。
(2)Fakuyame-Sugeno 有效性 (2)Fakuyame-Sugeno 有效性(1989) 其中
(2)Fakuyame-Sugeno 有效性 它是类内紧凑度与类间分离度的差。 (1) 函数 用来衡量类内的紧凑度,值越小越紧凑。 (2)函数 用来衡量类间的分离度,值越大,分离得越好 最小的 对应于最好的聚类结果。
(3)Rhee-Ho 有效性 Rhee-Ho 有效性 (1996): 其中
(3)Rhee-Ho 有效性 是类内平均紧凑度与类间平均分离度的比例。 (1)函数 用来衡量类内的平均紧凑度,值越大越紧凑。 (2)函数 用来衡量类间的平均分离度,值越小,分离得越好。 综上,越大的 对应于越好的聚类结果。
(3)Rhee-Ho 有效性 优点: 可以得到好的,准确的最终聚类数 缺点: 计算该指标的时间复杂度为 ,n为样本的数量,c为划分的类数,很难把它应用于实际。
(4)Rezaee-Letlieveldt-Reiber 有效性 Rezaee-Letlieveldt-Reiber 有效性(1998) 其中: (1)
(4) Rezaee-Letlieveldt-Reiber 有效性 (2) 这里 (P=1,2…S)
(4) Rezaee-Letlieveldt-Reiber 有效性 表示类内的紧凑度,更小的 值意味着更紧凑 表示类间的分离度. 权重因子 ,用来补偿 和 的度量差别 最小的 对应最好的聚类。 本质上,它是一个关于类内紧凑度和类间分离度的线性组合: 问题在于如何确定 的比值, 与 ,或 以补偿它们之间的度量差别。
(5)Sun.H-S.Wang-Q.Jiang有效性 Sun.H-S.Wang-Q.Jiang有效性 其中: 定义同上 (1)、 (2)、 这里 - -
(5)Sun.H-S.Wang-Q.Jiang有效性 的一个改进, A、该有效性指标是上述 B、它可以有效的处理类与类间交迭的情况。 把类间分离度的度量缩放到与 C、通过 , 类内紧凑度 同个范围。 D、最小的 对应于最佳聚类数。
3、基于数据集统计信息 • 理论基础:最佳分类对应的数据结构提供的统计信息最好。 1、PFS聚类(Pseudo F-Statistic,伪F统计)有效性指标 模糊伪F统计比例: 其中,n为样本个数,c为类数,P代表样本的维数 为矩阵 的迹,且
1、PFS聚类有效性指标 • 模糊类间散布矩阵 • 模糊类内散布矩阵 • 模糊混合散布矩阵 之间有如下关系 最大的FPFS值对应于所寻求的最佳分类 优点: 与数据集分布密切相关 缺点: 依赖于统计假设与数据分布的一致性
综合数据集几何结构和模糊划分的方法 • 有性指标函数 i: 其中 它是一个类间分离度与类内紧凑度的比,故易知,越大 意味该分类越佳。 它考虑了数据集的几何结构
综合数据集几何结构和模糊划分的方法 ii: 这里 a) b) 其中 它考虑了数据集的模糊划分,其值越小,其分类法越佳。 对于 最大的SC对应于最佳分类数。
6.1 实验结果比较 实验结果的比较
6.2 实验结果比较 Data Set 3: 3 维 250 个 样本 最佳聚类数5
7.对聚类原型C的研究 • 一种新的基于FCM的聚类算法 前述算法中,对应于 与 之间的每种聚类数,运用FCM算法前,为了使算法运用的条件更一般,结果更可靠,必须每个阶段事先随机初始化模糊划分矩阵。可以想象,这样处理忽略了前阶段的计算结果,在大数据集情况下,将使计算效率低下。其实,我们可以把前阶段的计算结果充分利用起来,把前阶段结果作为启发,在它的基础上稍加改进,获得下一阶段的初始化模糊划分矩阵。
7.1 一种新的基于FCM的聚类算法 1. 启发式递减算法 (1)、选择 和 (2)、初始化 对应的 个聚类中心; (3)、For c= to 3.1、应用基本的FCM算法更新模糊划分矩阵(U)和聚类中心(V); 3.2、判断是否收敛,如果还没有,转3.1;否则,下一步; 3.3、计算有效性指标 3.4、通过评分函数S(i)为每个类评分,删除分数最小(或最大)的 类所对应的聚类中心。 (4)、比较有效性指标函数值,最大值(或最小值) 所对应的 即为佳分类数。
1. 启发式递减算法 • 它的思想就是标志“最坏”类,并当c递减时,把“最坏”类所对应的聚类中心删掉。 评分函数可根据不同需要作不同处理,比如,可定义为: 较大的S(i)意味着类i中的样本数比较少,是一个小类,很多其它的样本由于其对于该类的隶属度不够大,尚不满足归入该类的条件。也就是说,该类的位置不够好,其它的聚类中心更有“吸引力”。
1. 启发式递减算法 例如: 一个很小的类位于一个很大的类旁边,以致于大类中的成员它们有着不可忽略的对于小类的隶属度,但是,它们中很少是属于小类的。在这种情况下,最小的类将被视为“最坏的”,删去它对应的聚类中心,并把剩下的作为下一轮循环的初始聚类中心。 时调用一次随机初始化程序, 整个算法只需要为 大大提高了计算效率。
2. 启发式递增算法 (1)、选择 和 (2)、初始化 对应的 个聚类中心; (3)、For c= to 3.1、应用基本的FCM算法更新模糊划分矩阵(U)和聚类中心(V); 3.2、判断是否收敛,如果还没有,转3.1;否则,下一步; 3.3、计算有效性指标 3.4、通过评分函数S(i)为每个类评分,把分数最小(或最大)的 类所对应的聚类中心一分为二。 (4)、比较有效性指标函数值,最大值(或最小值) 所对应的 即为佳分类数。
7.2 两种算法的主要差别 1、对聚类数c测试的顺序; 2、最坏类的定义及对待“最坏”类的方法。 假设S(i)定义同上,最小的S(i)将对应于“最坏的”类。因为小的S(i)意 味着类i中可能包含很多的样本,但是它们的隶属度比较小,可以作为下一轮循环分割的对象。
8.实验结果比较 实验结果比较 • Data Set 1: 2 维 30 个 样本 最佳聚类数3
8. 实验结果比较 2、Data Set 2 (IRIS): 4 维 150 个 样本 最佳聚类数 3 类间有重叠
实验结果比较 实验结果比较 3、Data Set 3 (Real Data ): 22 维 10000 个 样本 测试范围2到10