1 / 37

基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model. 王婵 王小捷 袁彩霞 北京邮电大学. 大纲. 引言 基于 DPMM 的自适应话题追踪 基于 DPMM 的传统话题追踪 实验及结果分析 结论. 大纲. 引言 基于 DPMM 的自适应话题追踪 基于 DPMM 的传统话题追踪 实验及结果分析 结论. 引言. 话题识别与追踪( TDT ):有效的信息组织和加工手段 话题跟踪: TDT 的一个子任务

lovey
Download Presentation

基于Dirichlet过程混合模型的自适应话题追踪 Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于Dirichlet过程混合模型的自适应话题追踪Adaptive Topic Tracking Based on Dirichlet Process Mixture Model 王婵 王小捷 袁彩霞 北京邮电大学

  2. 大纲 • 引言 • 基于DPMM的自适应话题追踪 • 基于DPMM的传统话题追踪 • 实验及结果分析 • 结论

  3. 大纲 • 引言 • 基于DPMM的自适应话题追踪 • 基于DPMM的传统话题追踪 • 实验及结果分析 • 结论

  4. 引言 • 话题识别与追踪(TDT):有效的信息组织和加工手段 • 话题跟踪:TDT的一个子任务 • 针对给定待测话题,判断后续报道是否和待测话题相关,从而不断获取待测话题的相关报道流来丰富这些待测话题的信息 • 一般实现流程: • 报道/话题的模型化 • 相关度计算 • 相关度比较

  5. 引言 • 传统话题追踪(TTT): • 根据已有的种子报道进行话题建模,建成后的话题模型在追踪过程中保持不变 • 话题漂移现象: • 种子报道少量 • 话题是逐渐进展的:随着时间发展,同一话题的内容逐渐丰富,焦点也会逐渐转移 • 自适应话题跟踪(ATT) : • 根据相关报道更新话题模型,更新后的话题模型作为判断后续报道相关性的基础,从而实现话题跟踪的自学习功能

  6. 引言 • 更新手段 • 为话题模型嵌入新的相关特征 • 动态调整话题模型的特征权重 • 同时进行 • 优点 • 一定程度上削弱由种子报道数量有限而造成的话题模型不完整 • 缺点 • 跟踪反馈同时包含相关报道和不相关报道,已有自适应方法的学习过程就会将不相关信息也嵌入话题模型。新的话题模型因为包含过多不相关信息,已经偏离了待测话题的内容,从而导致话题偏离现象 • 基于可信度的自适应话题追踪模型 • 利用“可信度”的度量参数控制跟踪反馈的影响

  7. 引言 • 本文工作: • 一种基于有效结合待测话题信息的DPMM的自适应话题追踪方案 • 特点: • 利用DPMM估计报道和待测话题的相关度,使其适用于话题追踪任务 • 通过一种新的自适应学习机制,不仅有效地解决了话题漂移问题,并且可以有效地抑制已有自适应算法带来的话题偏离现象

  8. 大纲 • 引言 • 基于DPMM的自适应话题追踪 • 基于DPMM的传统话题追踪 • 实验及结果分析 • 结论

  9. 基于DPMM的ATT 计算待处理报道S和待测话题Zi的相关度(一元语言模型) (2) 使用DPMM估计参数P(Zi)和P(wj|Zi) DPMM图模型:

  10. GIBBS抽样 利用Gibbs抽样实现模型参数的推理 wj:待处理文本中的第j个特征,对应的话题标记为Zj。根据贝叶斯理论,可以得到对Zj抽样所使用的条件分布公式: (3) W-:除去wj以外的特征 已知其他特征的话题的前提下,wj属于一个已有的话题或者新话题的先验满足: (4) 话题生成特征wj的概率满足 (5)

  11. ATT模型描述 自适应机制 为了防止话题偏离,由种子报道建立的初始话题模型保持不变。本文为跟踪反馈赋予一个“可信度”的度量参数,用M_reli表示。在ATT实现过程中,初始话题模型和跟踪反馈在设定的可信度条件下同时影响报道与待测话题的相关度计算。 基本思路 扩展DPMM,在进行话题追踪的过程中考虑跟踪反馈的影响。

  12. ATT模型描述 ATT图模型 引入参数:指导信息;St:t时刻处理的报道; GIt:t时刻对模型的指导信息;GI0:待测话题的种子报道构成的先验信息 生成过程和DPMM的区别:模型假设θ和φ受到GIt的影响。GIt和St的处理结果共同决定t+1时刻的指导信息GIt+1 指导信息包含两个部分:待测话题的种子报道构成的先验知识和跟踪反馈。在ATT模型中,它们分别以不同的方式指导话题追踪过程

  13. ATT算法流程 首先为每个待测话题Zi创建一个对应的话题Zi+ Col_ Zi+ :跟踪反馈中,话题Zi相关报道的集合。 话题追踪开始前, Col_ Zi+是空集

  14. ATT算法流程 t时刻,话题追踪的具体实现流程: • 改进Gibbs抽样过程,使其进行参数推理时融入待测话题信息,从而实现了融入话题先验知识的DPMM建模。 • 随机初始化 • 基于话题先验知识的Gibbs抽样

  15. ATT算法流程 • 基于话题先验知识的Gibbs抽样 • 抽样过程考虑待测话题的先验知识对当前特征的影响 • (6) • n-,z : St对应的特征集合中,除去当前特征以外,话题z包含的特征个数 • Col_z: 包含的报道对应的特征集合 • nCol_z::Col_z包含的特征个数 • (7) • nw,z : St对应的特征集合中,除去当前特征以外,z,w关联的次数 • nw,Col_z:: Col_z包含w的个数

  16. ATT算法流程 t时刻,话题追踪的具体实现流程: • 改进Gibbs抽样过程,使其进行参数推理时融入待测话题信息,从而实现了融入话题先验知识的DPMM建模。 • 随机初始化 • 基于话题先验知识的Gibbs抽样 • 达到稳定状态,抽样结束

  17. ATT算法流程 通过改进,每一次抽样都受到话题先验知识的影响。因此,DPMM建模过程中融入了待测话题的先验知识,从而实现了指导信息中的待测话题先验知识对话题追踪的指导。 t时刻,话题追踪的具体实现流程: • 改进Gibbs抽样过程,使其进行参数推理时融入待测话题信息,从而实现了融入话题先验知识的DPMM建模。 • 随机初始化 • 基于话题先验知识的Gibbs抽样 • 达到稳定状态,抽样结束

  18. ATT算法流程 1)步得到St的特征-话题信息 • 将对应话题Zi+加入待测话题集合,{Z1,…, Zk , Z1 +,…, Zk +}。特征-话题到St-话题的转化计算 • 估计式(2)中的参数:P(Zi)和P(wj|Zi)

  19. ATT算法流程 • 估计式(2)中的参数:P(Zi)和P(wj|Zi) • 借鉴公式(7) • (8) • Nw,z : 抽样结束后,St对应的特征集合中,话题z包含w的个数 • nw,Col_z::Col_z包含w的个数 • (9) • Nz : 抽样结束后, St对应的特征集合中,话题z包含特征的个数 • nCol_z:: Col_z所有特征的数目

  20. ATT算法流程 1)步得到St的特征-话题信息 • 将对应话题Zi+加入待测话题集合,{Z1,…, Zk , Z1 +,…, Zk +}。特征-话题到St-话题的转化计算 • 估计式(2)中的参数:P(Zi)和P(wj|Zi) • 联合公式(2),(8)和(9)计算报道St和每个话题的相关度

  21. ATT算法流程 • 联合公式(2),(8)和(9)计算报道St和每个话题的相关度: {p(Z1 | S t),…, p(Zk |S t), p(Z1 + | St),…, p(Zk + | St)}。 • St和已知待测话题Zi的相关度p_Adaptive(Zi |S t)的衡量公式为 • (10) • M_reli:跟踪反馈的可信度 • 初始话题模型是依赖先验知识建立的,而跟踪反馈可能包含不相关报道,M_reli<0.5

  22. ATT算法流程 依据公式(10),本步实现了指导信息中的跟踪反馈对话题追踪的指导 1)步得到St的特征-话题信息 • 将对应话题Zi+加入待测话题集合,{Z1,…, Zk , Z1 +,…, Zk +}。特征-话题到St-话题的转化计算 • 估计式(2)中的参数:P(Zi)和P(wj|Zi) • 联合公式(2),(8)和(9)计算报道St和每个话题的相关度

  23. ATT算法流程 • 选取相关度最大的话题作为St所属的话题, St加入到所属话题对应的相关报道集合中。 • 如果St和新话题的相关度最大,则与任何一个待测话题都不相关。

  24. 大纲 • 引言 • 基于DPMM的自适应话题追踪 • 基于DPMM的传统话题追踪 • 实验及结果分析 • 结论

  25. 基于DPMM的TTT 基于DPMM的ATT图模型,取消跟踪反馈的指导作用,就可以得到基于DPMM的TTT图模型 • 指导信息GI仅仅包含由待测话题种子报道所构成的先验知识,并一直保持不变

  26. 大纲 • 引言 • 基于DPMM的自适应话题追踪 • 基于DPMM的传统话题追踪 • 实验及结果分析 • 结论

  27. 实验及结果分析 • 评价机制 • TDT评测指标:误报率和漏报率加权求和的检测错误开销CDet • 实验数据 • TDT3语料中的中文语料 • 实验设置 • 种子报道个数为1 • 实验分为两部分: • TTT性能评测 • ATT性能评测 • 四种特征选择方式 • term_c:实义词组成 • term_n+v:名词和动词 • term_n:名词 • term_v:动词

  28. α值变化时,term_v、term_c、term_n+v、term_n系统的值分别集中在[0.81, 0.85]、[0.40,0.43]、[0.37,0.40]、[0.30,0.34]之间。这个结果说明了在固定特征选择方式的条件下,DPMM的模型参数的变化对D_TTT系统效果的影响很小 1 TTT性能评测 • 考察DPMM中的参数和不同的特征表示方式对话题追踪模型(D_TTT)的影响

  29. 在不同的特征表示方式中,term_n效果最好(0.3095),term_v(0.8135)效果最差,term_c(0.4014)和term_n+v(0.3789)介于二者之间。由此可知,仅仅使用动词很难表征报道内容,同时验证了优化特征选择算法对提高话题追踪的效果有很大的帮助。在不同的特征表示方式中,term_n效果最好(0.3095),term_v(0.8135)效果最差,term_c(0.4014)和term_n+v(0.3789)介于二者之间。由此可知,仅仅使用动词很难表征报道内容,同时验证了优化特征选择算法对提高话题追踪的效果有很大的帮助。 2 TTT性能评测 • 考察DPMM中的参数和不同的特征表示方式对话题追踪模型(D_TTT)的影响

  30. B_TTT和D_TTT系统都在仅仅选择动词作为特征的时候效果最差。这一结论再次验证文本特征选择在话题追踪中的重要性B_TTT和D_TTT系统都在仅仅选择动词作为特征的时候效果最差。这一结论再次验证文本特征选择在话题追踪中的重要性 1 TTT性能评测 • 对比基于一元语法模型的TTT模型(B_TTT)和基于DPMM的TTT模型(D_TTT)的话题追踪效果

  31. 在四种特征选择条件下,D_TTT系统追踪效果都优于B_TTT系统。在四种特征选择条件下,D_TTT系统追踪效果都优于B_TTT系统。 • 最佳性能: • D_TTT:0.3095;B_TTT:0.3989 • 将DPMM应用到话题追踪任务中来可以提高话题追踪的效果 2 TTT性能评测 • 对比基于一元语法模型的TTT模型(B_TTT)和基于DPMM的TTT模型(D_TTT)的话题追踪效果

  32. M_reli<0.5,D_ATT系统追踪性能都优于D_TTT系统 M_reli=0.2,最佳性能(0.1599) 验证了本文提出的ATT算法可以在一定程度上解决话题漂移问题 1 ATT性能评测 • 考察基于DPMM自适应话题追踪模型(D_ATT)在不同可信度前提下的效果。选取名词为特征。 • 红点:D_TTT系统的最佳追踪性能(0.3095)

  33. M_reli>0.5,D_ATT追踪代价明显增大,甚至远大于D_TTT的追踪代价。M_reli>0.5,D_ATT追踪代价明显增大,甚至远大于D_TTT的追踪代价。 • 原因:参考公式(10),初始话题模型以(1-M_reli)的程度,跟踪反馈以M_reli的程度影响追踪结果。初始话题模型是依赖先验知识建立的,所以是绝对可以信赖的,而跟踪反馈可能包含不相关报道。因此一旦大于0.5,跟踪反馈的影响因子比初始话题模型的大,那么会带来最终结果的误差。 2 ATT性能评测 • 考察基于DPMM自适应话题追踪模型(D_ATT)在不同可信度前提下的效果。选取名词为特征。 • 红点:D_TTT系统的最佳追踪性能(0.3095)

  34. D_ATT系统追踪效果优于B_ATT系统,使得追踪系统最小从0.2260降为0.1599。D_ATT系统追踪效果优于B_ATT系统,使得追踪系统最小从0.2260降为0.1599。 验证了本文提出的自适应算法的有效性,可以抑制一般自适应算法带来的话题偏离现象。 1 ATT性能评测 • 验证自适应算法的有效性,本节利用一种经典的自适应算法作为对比系统(B_ATT系统):话题模型嵌入新的相关特征

  35. 大纲 • 引言 • 基于DPMM的自适应话题追踪 • 基于DPMM的传统话题追踪 • 实验及结果分析 • 结论

  36. 结论 • 工作: • 提出了一种基于有效结合待测话题信息的Dirichlet过程混合模型(DPMM)的自适应话题追踪方案 • 方案特点 • 利用DPMM估计报道和待测话题的相关度,实现话题追踪任务 • 实验验证DPMM适用于话题追踪,可以显著提高话题追踪性能。 • 提出一种新的基于可信度的自适应话题追踪算法 • 初始话题模型没有被嵌入不相关信息,通过设置可信度的大小,始终以比较大的影响因子影响最终话题追踪的结果,因此能够降低不相关报道反馈带来的误差 • 实验验证不仅可以在一定程度上解决了话题追踪任务中的话题漂移问题,并且可以有效地抑制已有自适应算法带来的话题偏离现象

  37. 谢谢!

More Related