240 likes | 398 Views
新闻 综述报告自动生成研究. 路璐 2013 年 11 月 19 日. 提纲. 新闻服务现状 NewsMiner 自动 新闻 综述报告 总结与展望. 新闻 服务现状. 新闻分析粒度 词、文档 新闻的组织形式 文档、文档列表 导航形式 分类导航、关联导航、检索 新闻的可视化 文本、图形 新闻专题分析. 如何更好的描述新闻? 如何帮助用户快速浏览新闻主旨? 新闻通过怎样的组织形式,才更符合用户的阅读和思维过程? 什么样的可视化才能更精确的展示新闻潜在的 信息?. 问题与挑战. NewsMiner. www.newsminer.net.
E N D
新闻综述报告自动生成研究 路璐 2013年11月19日
提纲 • 新闻服务现状 • NewsMiner • 自动新闻综述报告 • 总结与展望
新闻服务现状 • 新闻分析粒度 • 词、文档 • 新闻的组织形式 • 文档、文档列表 • 导航形式 • 分类导航、关联导航、检索 • 新闻的可视化 • 文本、图形 • 新闻专题分析
如何更好的描述新闻? 如何帮助用户快速浏览新闻主旨? 新闻通过怎样的组织形式,才更符合用户的阅读和思维过程? 什么样的可视化才能更精确的展示新闻潜在的信息? 问题与挑战
NewsMiner www.newsminer.net
事件 E 话题 T 命名实体 N 关系 R 文档集 D S = {E, T, N, D, R} NewsMiner对新闻的描述
数据采集 新闻文档、UGC、百科 数据处理 话题建模 新闻评论对齐 知识库连接 数据读写 数据库 索引文件 知识库 新闻服务 新闻检索 富交互可视化 新闻综述报告 热评对齐 热门发现 多层次新闻分析框架
话题间的关联 实体间的关联 话题与实体间的关联 新闻的关联分析
新闻话题标注的形式: 关键词 短语 句子摘要 新闻话题的自动标注 • 二元文法: • 名词短语 • 动词短语
话题热词法 LDA模型中P(W|Z)确定词元集合 按照文法用词元生成候选短语 标题首句法 新闻主题句法 建立候选短语集合
选择最优话题标签 利用LDA模型中词在话题上的分布,计算每个候选标签的分数,并排序。
新闻综述报告 一种类似于新闻调查和新闻评论的新闻报告形式。通过新闻调查的资料采集、综合量化分析的方法,结合新闻评论的行文方法,构成关于新闻事件、新闻实体、一段时间的新闻总结性报告。 传统的写作方法 过程复杂 效率低下 易受作者主观认识影响 计算机辅助生成 效率高 各种图表统计分析 较为客观 新闻综述报告
新闻综述报告 文字描述 图表描述
文本内容 事件、实体的知识关联 关键词 主题句 话题标签 代表新闻 统计图表 关联关系图 话题、实体等的分布图 事件、话题等的趋势图 评论分布图、趋势图 NewsMiner提供的报告素材
单事件 事件 命名实体 多事件 一系列相关事件 一段时间的事件 (年报、月报) 人物分析 辅助新闻综述报告生成框架
数据来源: 关于“四川雅安地震”的3114篇相关新闻,通过聚类获得40个相关话题,如:“房子倒塌”、“发生地震”、“参与救援”、“受到污染”、“恢复通信”等 示例 关于新闻人物的新闻综述报告
示例 关于新闻人物的新闻综述报告 • 数据来源: 关于“潘基文”的新闻事件共1242篇相关新闻文档,有以色列全面进攻哈马斯、 叙利亚化武疑云、 海地发生7.3级地震、 叙利亚局势持续紧张、 科索沃宣布独立、 巴以地区爆发新一轮冲突等新闻事件
总结与展望 • NewsMiner系统生成详细客观的新闻语义分析、图形图表。 • 自动生成的新闻综述报告,具备一篇新闻综述报告的基本特征,对新闻话题、统计数据、主题句分析提取等高效、全面和准确。
总结与展望 • 辅助综述报告的语义化完善 • 基于话题的新闻事件预测 • 跨语言新闻对比