1 / 71

不确定数据聚类关键技术研究

答辩人 : 曾 春 秋 指导教师 : 唐常杰教授. 不确定数据聚类关键技术研究. 不确定数据聚类关键技术研究. 引言 研究背景 本文工作 不确定数据建模 不确定数据聚类 实验及性能分析 结论及未来工作. 引言 : 研究背景. 数据是用于表达和描述真实的现实世界的一种载体 观测和收集的数据具有固有的不确定性. 客观存在 , 本身是确定的. 由于人们有限的解析和理解现实世界能力 , 以及人们获取数据的能力 , 数据的不确定性始终存在. 引言 : 研究背景. 论文 P7. 直接选择下拉列表的第一条. 不确定数据的普遍性 缺失性.

kalona
Download Presentation

不确定数据聚类关键技术研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 答辩人: 曾 春 秋 指导教师: 唐常杰教授 不确定数据聚类关键技术研究 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  2. 不确定数据聚类关键技术研究 • 引言 • 研究背景 • 本文工作 • 不确定数据建模 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  3. 引言:研究背景 • 数据是用于表达和描述真实的现实世界的一种载体 • 观测和收集的数据具有固有的不确定性 客观存在,本身是确定的 由于人们有限的解析和理解现实世界能力,以及人们获取数据的能力, 数据的不确定性始终存在 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  4. 引言:研究背景 论文P7 直接选择下拉列表的第一条 • 不确定数据的普遍性 • 缺失性 直接忽略,然后匆匆完成注册 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  5. 引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 人们经常说:”他比较年轻”. 这个 ”年轻”没有确定的标准,过于模糊而不确定 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  6. 引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 由于不能得到未来数据, 专家利用过去最近一端时间的股市行情来分析股市的未来发展方向 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  7. 引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 • 精确度 利用GPS定位运动物体时,往往只能给出以某个位置为中心,某个距离为半径的圆形区域 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  8. 引言:研究背景 论文P7 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 • 精确度 • 一致性 描述某个人的年龄在37到45岁之间或年龄为35岁。这两个结论最多只有一个成立。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  9. 引言:研究背景 论文P8 • 不确定数据的普遍性 • 缺失性 • 模糊性 • 时效性 • 精确度 • 一致性 • 歧义性 拼音”Wang Wei”,对应很多中文名字:王伟,王维,王蔚,汪卫,汪伟……,仅DBLP就有7个结果。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  10. 引用:研究背景 论文P9 • 多种不确定性混合出现 25 or 26? 57 or 51? 缺失 单身or 已婚? 存在? 确定 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  11. 引言:研究背景 论文P13 • 不确定数据研究现状 • 不确定数据库 • 不确定数据的查询 Stanford的Trio,Cornell的MayBMS,Maryland的ProbDB等。 U-TopK查询,U-kRanks查询,PT-k查询,Pk-topk查询,skyline查询等。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  12. 引言:研究背景 论文P14 • 不确定数据挖掘 把数据挖掘应用于不确定数据 利用模糊数学模型 本文的重点 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  13. 引言:研究背景 论文P16 实际的分布,应有的聚类结果,a属于A • 不确定数据的聚类问题 采样结果的分布,应有的聚类结果,a被记录为b,划为类B 随着多次采样,a的位置可能在区域C上变化。如何聚类划分点a呢? Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  14. 不确定数据聚类关键技术研究 • 引言 • 研究背景 • 本文工作 • 不确定数据建模 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  15. 引言:本文工作 • 提出不确定对象模型,并对不确定数据进行了形式化建模 • 提出了基于不确定数据上的划分聚类算法 • 提出基于剪枝技术的聚类算法,对不确定数据聚类算法进行了改进 • 泛化不确定数据聚类算法为确定数据聚类算法,有效的提高了算法的效率 • 详实的实验及效率、准确率的分析 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  16. 不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定对象 • 可能世界语义 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  17. 不确定数据建模 论文P17 • 定义3.1(空间不确定点)给定一个n维的向量空间Rn。 (1)如果点p∈Rn以概率c出现某个事件中,则称t=<p,c>为一个n维空间不确定点。 (2)给定两个不确定点t1=<p1,c1> 和t2=<p2,c2>,如果有p1=p2=p,称t1和t2是同点项,记为t1≃t2;反之t1和t2不是同点项,记为t1≄t2。两个同点项可以合并为另一个同点项,即t= t1 + t2 =<p,c1+c2>,其中t≃t1、t≃t2。 一个空间点 + 空间点发生的概率 基于不确定点定义,给出同点项的定义 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  18. 不确定数据建模 论文P17 • 空间不确定点举例: • 由姓名,年龄,婚姻状况三个维度构成张三实体 • 可以表示为: • t=<(张三,51,单身),42%> • t1=<(张三,51,单身),40%>和t2=<(张三,51,单身),2%> 同点项。 • t= t1 + t2 =<p,c1+c2>,其中t≃t1、t≃t2 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  19. 不确定数据建模 论文P17 • 定义3.2(空间不确定对象)给定一个n维不确定点的集合S,设t1,t2S,t1t2,满足t1≄t2且令e=∑t.c ,e<=1。n维空间不确定对象u是满足下列条件的二元组u=<S,e>: (1)对于tS,不确定对象u以概率t.c被赋予t.p; (2)对于t′∉S,不确定对象u以概率0取值t′.p。 其中称S为u的不确定区域,e为不确定对象u的存在率,也是不确定区域S的发生概率。 灰色区域为u的不确定区域S 不确定对象u以t.c概率发生为t.p Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  20. 不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定对象 • 可能世界语义 • 不确定数据聚类 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  21. 不确定对象建模 论文P20 • 不确定对象的集合——不确定数据集(UD) • 不确定数据集的可能世界(p20 定义3.3) • 每一个不确定对象以某个概率选择一种可能情况发生 • 然后把这些可能结果构成一个可能数据集合,这个数据集合发生概率为不确定对象发生情况的联合概率 • 产生的数据集合 及其概率 构成的2元组 称为可能世界 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  22. 不确定数据建模 论文P21 • 可能世界举例: 不确定数据集 2个不确定对象可能情况组合 联合概率 可能世界集合 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  23. 不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定数据聚类 • 不确定数据聚类算法 • PA-UK-Median剪枝算法 • MA-UK-Means改进算法 • 实验及性能分析 • 结论及未来工作 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  24. 不确定数据聚类 论文P24 把不确定数据集中的每一个不确定对象划分到指定的簇中。使得簇内的不确定对象尽量相似,簇间对象尽量相异 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  25. 不确定数据聚类 论文P26 • 不确定数据聚类——不同方式 不确定对象,两个已有的簇 在不确定对象中,不同的不确定点划分给离自身最近的簇——未指定聚类 在不确定对象中,所有不确定点划分给一个最近的簇 ——指定聚类 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  26. 不确定数据聚类 论文P28 簇C的质心 • 聚类簇中心点 • 不确定数据上的UK-Means目标代价函数 • 不确定数据上的UK-Median目标代价函数 u中某个t所述簇的中心 不确定点个数 距离平方和的期望 距离和的期望 u中某个t所述簇的中心 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  27. 不确定数据聚类 论文P28 • 未指定不确定数据聚类 • UA-UK-Means的簇中心点映射函数 • UA-UK-Median的簇中心点映射函数 • 指定不确定数据聚类 • A-UK-Means的簇中心点映射函数 • A-UK-Median的簇中心点映射函数 定理4.1证明了两者等价 u中每一个不确定点t划分到离其距离平方最近的簇 u中每一个不确定点t划分到离其距离最近的簇 定理4.1证明了两者不等价 u中所有不确定点t划分到离其距离平方期望最小的簇 u中所有不确定点t划分到离其距离的期望最小的簇 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  28. 不确定数据聚类 • 未指定聚类算法 • UA-UK-Means • UA-UK-Median 算法描述 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  29. 输入 论文P32 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  30. 输出 论文P32 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  31. 论文P32 初始化k个簇 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  32. 论文P32 给定u和t,把t划分给一个簇,并返回簇中心 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  33. 论文P32 累积计算期望代价 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  34. 论文P32 指派一个不确定对象到一个簇 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  35. 论文P32 重新计算簇中心 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  36. 论文P32 迭代计算直到收敛 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  37. 不确定数据聚类算法 论文P33 • UA-UK-Means和UA-UK-Median算法分析 • 引理4.3 算法UA-UK-Means和UA-UK-Median的时间复杂度为Ο(K×|u|×|UD|×r),其中r为算法迭代的次数,K为簇的个数。 • 实质上,可以把不确定数据对象u的未指定聚类算法看成是各个不确定对象u中不确定点t的常规聚类算法 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  38. 不确定数据聚类 • 未指定聚类算法 • UA-UK-Means • UA-UK-Median • 指定聚类 • A-UK-Means • A-UK-Median 算法描述 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  39. 不确定数据指定聚类算法 论文P34 给定不确定对象u,把u指派到一个 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  40. 不确定数据指定聚类算法 论文P34 遍历所有的不确定对象u,并指派到相应的簇 与未指定区别在于,遍历的每一u,不会遍历u内的每一个t Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  41. 不确定数据聚类算法 论文P34 • A-UK-Means和A-UK-Median算法分析 • 引理4.4算法A-UK-Means和A-UK-Median的时间复杂度为Ο(K×|u|×|UD|×r),其中r为算法迭代的次数。 • assigned_φ(u) 分析 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  42. 不确定数据聚类 论文P31 O(|U|) Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  43. 不确定数据聚类 论文P31 O(|U|×|Φ|) O(|U|) Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  44. 不确定数据聚类 论文P31 O(|U|×|Φ|) O(|U|) 该u的指派过程代价为:O(|u|×|Φ|). 而该过程将会被调用|UD|×r次。如果已知u和某个C是最小的,就没有必要计算其余的簇Ci与u的相似度。如果能避免计算h个簇,则总的可以避免h×|UD|×r×|u|×|Φ|次计算。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  45. 不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定数据聚类 • 不确定数据聚类算法 • PA-UK-Median剪枝算法 • MA-UK-Means改进算法 • 实验及性能分析 • 结论及未来工作 对A-UK-Median算法改进 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  46. PA-UK-Median剪枝算法 论文P35 定理4.2已知不确定对象u,和两个簇的中心点代表pc和pcx,如果记: 则: (1)Ed(u,pcx) ≤Ed(u,pc)+d(pc,pcx)=upper(u,pcx) (2)Ed(u,pcx) ≥max{0,Ed(u,pc)-d(pc,pcx)}=lower(u,pcx) 三角不等式 可以通过Ed(u,pc)来估计Ed(u,pcx)的上界和下界 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  47. PA-UK-Median剪枝算法 论文P37-38 定理4.3 记min_upper(u) = minCi∈Φ{upper(u,pci)},给定不确定对象u和一个簇Ci,如果lower(u,pci) >min_upper(u),则u一定不会被指派到簇Ci。 估计Ed(u,pcx)和Ed(u,pc)的上下界 min_upper(u)=3 lower(u,pc)=4>min_upper(u)故p被剪掉 在迭代过程中,利用上次计算的点Ed(u,pcpre)来估计Ed(u,pc).有效利用前几次迭代的结果来剪枝 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  48. PA-UK-Median剪枝算法 论文P40 额外的空间用于保存前几次迭代中计算的Ed(u,pc) h为剪枝掉的簇数 引理4.6带有剪枝技术的PA-UK-Median的运行时间复杂度为Ο((K-h)×|u|×|UD|×r),其中r为迭代的次数;与算法A-UK-Median相比,空间复杂度将额外增加Ο(|UD|×K)。 PA-UK-Median剪枝算法分析中,K一般较小,K≪|UD|,额外空间需要与不确定对象个数成线性增长。同时时间代价当h足够大,时间效率将会有显著的提高。 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  49. 不确定数据聚类关键技术研究 • 引言 • 不确定数据建模 • 不确定数据聚类 • 不确定数据聚类算法 • PA-UK-Median剪枝算法 • MA-UK-Means改进算法 • 实验及性能分析 • 结论及未来工作 对A-UK-Means算法改进 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

  50. MA-UK-Means改进算法 论文P42 • 首先给出以下表示: • d2(p1,p2) =||p1-p2||2 • 定理4.7 给定不确定对象u和一个簇C的中心代表pc,则u和pc的期望相离度可计算为: 两点间的欧氏距离 不确定对象u和簇中心点间的期望距离平方和 不确定对象u的期望中心点 Chunqiu Zeng,DB&KE Lab,CS Department, SCU

More Related