710 likes | 833 Views
答辩人 : 曾 春 秋 指导教师 : 唐常杰教授. 不确定数据聚类关键技术研究. 不确定数据聚类关键技术研究. 引言 研究背景 本文工作 不确定数据建模 不确定数据聚类 实验及性能分析 结论及未来工作. 引言 : 研究背景. 数据是用于表达和描述真实的现实世界的一种载体 观测和收集的数据具有固有的不确定性. 客观存在 , 本身是确定的. 由于人们有限的解析和理解现实世界能力 , 以及人们获取数据的能力 , 数据的不确定性始终存在. 引言 : 研究背景. 论文 P7. 直接选择下拉列表的第一条. 不确定数据的普遍性 缺失性.
E N D
答辩人: 曾 春 秋 指导教师: 唐常杰教授 不确定数据聚类关键技术研究 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类关键技术研究 • 引言 • 研究背景 • 本文工作 • 不确定数据建模 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 • 数据是用于表达和描述真实的现实世界的一种载体 • 观测和收集的数据具有固有的不确定性 客观存在,本身是确定的 由于人们有限的解析和理解现实世界能力,以及人们获取数据的能力, 数据的不确定性始终存在 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P7 直接选择下拉列表的第一条 • 不确定数据的普遍性 • 缺失性 直接忽略,然后匆匆完成注册 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 人们经常说:”他比较年轻”. 这个 ”年轻”没有确定的标准,过于模糊而不确定 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 由于不能得到未来数据, 专家利用过去最近一端时间的股市行情来分析股市的未来发展方向 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 • 精确度 利用GPS定位运动物体时,往往只能给出以某个位置为中心,某个距离为半径的圆形区域 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 • 精确度 • 一致性 描述某个人的年龄在37到45岁之间或年龄为35岁。这两个结论最多只有一个成立。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P8 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 • 精确度 • 一致性 • 歧义性 拼音”Wang Wei”,对应很多中文名字:王伟,王维,王蔚,汪卫,汪伟……,仅DBLP就有7个结果。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引用:研究背景 论文P9 • 多种不确定性混合出现 25 or 26? 57 or 51? 缺失 单身or 已婚? 存在? 确定 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P13 • 不确定数据研究现状 • 不确定数据库 • 不确定数据的查询 Stanford的Trio,Cornell的MayBMS,Maryland的ProbDB等。 U-TopK查询,U-kRanks查询,PT-k查询,Pk-topk查询,skyline查询等。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P14 • 不确定数据挖掘 把数据挖掘应用于不确定数据 利用模糊数学模型 本文的重点 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:研究背景 论文P16 实际的分布,应有的聚类结果,a属于A • 不确定数据的聚类问题 采样结果的分布,应有的聚类结果,a被记录为b,划为类B 随着多次采样,a的位置可能在区域C上变化。如何聚类划分点a呢? Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类关键技术研究 • 引言 • 研究背景 • 本文工作 • 不确定数据建模 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
引言:本文工作 • 提出不确定对象模型,并对不确定数据进行了形式化建模 • 提出了基于不确定数据上的划分聚类算法 • 提出基于剪枝技术的聚类算法,对不确定数据聚类算法进行了改进 • 泛化不确定数据聚类算法为确定数据聚类算法,有效的提高了算法的效率 • 详实的实验及效率、准确率的分析 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定对象 • 可能世界语义 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据建模 论文P17 • 定义3.1(空间不确定点)给定一个n维的向量空间Rn。 (1)如果点p∈Rn以概率c出现某个事件中,则称t=<p,c>为一个n维空间不确定点。 (2)给定两个不确定点t1=<p1,c1> 和t2=<p2,c2>,如果有p1=p2=p,称t1和t2是同点项,记为t1≃t2;反之t1和t2不是同点项,记为t1≄t2。两个同点项可以合并为另一个同点项,即t= t1 + t2 =<p,c1+c2>,其中t≃t1、t≃t2。 一个空间点 + 空间点发生的概率 基于不确定点定义,给出同点项的定义 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据建模 论文P17 • 空间不确定点举例: • 由姓名,年龄,婚姻状况三个维度构成张三实体 • 可以表示为: • t=<(张三,51,单身),42%> • t1=<(张三,51,单身),40%>和t2=<(张三,51,单身),2%> 同点项。 • t= t1 + t2 =<p,c1+c2>,其中t≃t1、t≃t2 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据建模 论文P17 • 定义3.2(空间不确定对象)给定一个n维不确定点的集合S,设t1,t2S,t1t2,满足t1≄t2且令e=∑t.c ,e<=1。n维空间不确定对象u是满足下列条件的二元组u=<S,e>: (1)对于tS,不确定对象u以概率t.c被赋予t.p; (2)对于t′∉S,不确定对象u以概率0取值t′.p。 其中称S为u的不确定区域,e为不确定对象u的存在率,也是不确定区域S的发生概率。 灰色区域为u的不确定区域S 不确定对象u以t.c概率发生为t.p Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定对象 • 可能世界语义 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定对象建模 论文P20 • 不确定对象的集合——不确定数据集(UD) • 不确定数据集的可能世界(p20 定义3.3) • 每一个不确定对象以某个概率选择一种可能情况发生 • 然后把这些可能结果构成一个可能数据集合,这个数据集合发生概率为不确定对象发生情况的联合概率 • 产生的数据集合 及其概率 构成的2元组 称为可能世界 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据建模 论文P21 • 可能世界举例: 不确定数据集 2个不确定对象可能情况组合 联合概率 可能世界集合 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定数据聚类 • 不确定数据聚类算法 • PA-UK-Median剪枝算法 • MA-UK-Means改进算法 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 论文P24 把不确定数据集中的每一个不确定对象划分到指定的簇中。使得簇内的不确定对象尽量相似,簇间对象尽量相异 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 论文P26 • 不确定数据聚类——不同方式 不确定对象,两个已有的簇 在不确定对象中,不同的不确定点划分给离自身最近的簇——未指定聚类 在不确定对象中,所有不确定点划分给一个最近的簇 ——指定聚类 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 论文P28 簇C的质心 • 聚类簇中心点 • 不确定数据上的UK-Means目标代价函数 • 不确定数据上的UK-Median目标代价函数 u中某个t所述簇的中心 不确定点个数 距离平方和的期望 距离和的期望 u中某个t所述簇的中心 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 论文P28 • 未指定不确定数据聚类 • UA-UK-Means的簇中心点映射函数 • UA-UK-Median的簇中心点映射函数 • 指定不确定数据聚类 • A-UK-Means的簇中心点映射函数 • A-UK-Median的簇中心点映射函数 定理4.1证明了两者等价 u中每一个不确定点t划分到离其距离平方最近的簇 u中每一个不确定点t划分到离其距离最近的簇 定理4.1证明了两者不等价 u中所有不确定点t划分到离其距离平方期望最小的簇 u中所有不确定点t划分到离其距离的期望最小的簇 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 • 未指定聚类算法 • UA-UK-Means • UA-UK-Median 算法描述 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
输入 论文P32 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
输出 论文P32 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
论文P32 初始化k个簇 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
论文P32 给定u和t,把t划分给一个簇,并返回簇中心 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
论文P32 累积计算期望代价 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
论文P32 指派一个不确定对象到一个簇 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
论文P32 重新计算簇中心 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
论文P32 迭代计算直到收敛 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类算法 论文P33 • UA-UK-Means和UA-UK-Median算法分析 • 引理4.3 算法UA-UK-Means和UA-UK-Median的时间复杂度为Ο(K×|u|×|UD|×r),其中r为算法迭代的次数,K为簇的个数。 • 实质上,可以把不确定数据对象u的未指定聚类算法看成是各个不确定对象u中不确定点t的常规聚类算法 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 • 未指定聚类算法 • UA-UK-Means • UA-UK-Median • 指定聚类 • A-UK-Means • A-UK-Median 算法描述 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据指定聚类算法 论文P34 给定不确定对象u,把u指派到一个 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据指定聚类算法 论文P34 遍历所有的不确定对象u,并指派到相应的簇 与未指定区别在于,遍历的每一u,不会遍历u内的每一个t Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类算法 论文P34 • A-UK-Means和A-UK-Median算法分析 • 引理4.4算法A-UK-Means和A-UK-Median的时间复杂度为Ο(K×|u|×|UD|×r),其中r为算法迭代的次数。 • assigned_φ(u) 分析 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 论文P31 O(|U|) Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 论文P31 O(|U|×|Φ|) O(|U|) Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类 论文P31 O(|U|×|Φ|) O(|U|) 该u的指派过程代价为:O(|u|×|Φ|). 而该过程将会被调用|UD|×r次。如果已知u和某个C是最小的,就没有必要计算其余的簇Ci与u的相似度。如果能避免计算h个簇,则总的可以避免h×|UD|×r×|u|×|Φ|次计算。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定数据聚类 • 不确定数据聚类算法 • PA-UK-Median剪枝算法 • MA-UK-Means改进算法 • 实验及性能分析 • 结论及未来工作 对A-UK-Median算法改进 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
PA-UK-Median剪枝算法 论文P35 定理4.2已知不确定对象u,和两个簇的中心点代表pc和pcx,如果记: 则: (1)Ed(u,pcx) ≤Ed(u,pc)+d(pc,pcx)=upper(u,pcx) (2)Ed(u,pcx) ≥max{0,Ed(u,pc)-d(pc,pcx)}=lower(u,pcx) 三角不等式 可以通过Ed(u,pc)来估计Ed(u,pcx)的上界和下界 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
PA-UK-Median剪枝算法 论文P37-38 定理4.3 记min_upper(u) = minCi∈Φ{upper(u,pci)},给定不确定对象u和一个簇Ci,如果lower(u,pci) >min_upper(u),则u一定不会被指派到簇Ci。 估计Ed(u,pcx)和Ed(u,pc)的上下界 min_upper(u)=3 lower(u,pc)=4>min_upper(u)故p被剪掉 在迭代过程中,利用上次计算的点Ed(u,pcpre)来估计Ed(u,pc).有效利用前几次迭代的结果来剪枝 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
PA-UK-Median剪枝算法 论文P40 额外的空间用于保存前几次迭代中计算的Ed(u,pc) h为剪枝掉的簇数 引理4.6带有剪枝技术的PA-UK-Median的运行时间复杂度为Ο((K-h)×|u|×|UD|×r),其中r为迭代的次数;与算法A-UK-Median相比,空间复杂度将额外增加Ο(|UD|×K)。 PA-UK-Median剪枝算法分析中,K一般较小,K≪|UD|,额外空间需要与不确定对象个数成线性增长。同时时间代价当h足够大,时间效率将会有显著的提高。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定数据聚类 • 不确定数据聚类算法 • PA-UK-Median剪枝算法 • MA-UK-Means改进算法 • 实验及性能分析 • 结论及未来工作 对A-UK-Means算法改进 Chunqiu Zeng,DB&KE Lab,CS Department, SCU
MA-UK-Means改进算法 论文P42 • 首先给出以下表示: • d2(p1,p2) =||p1-p2||2 • 定理4.7 给定不确定对象u和一个簇C的中心代表pc,则u和pc的期望相离度可计算为: 两点间的欧氏距离 不确定对象u和簇中心点间的期望距离平方和 不确定对象u的期望中心点 Chunqiu Zeng,DB&KE Lab,CS Department, SCU