310 likes | 464 Views
基于推理线索构建的事件关系 识别方法 马彬 2013-11-18. 背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望. 主要内容. 背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望. 主要内容. 研究背景. 事件 事件是一种描述特定人、物、事在特定时间和特定地点相互作用的客观事实 事件抽取
E N D
基于推理线索构建的事件关系 识别方法 马彬 2013-11-18
背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望 主要内容
背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望 主要内容
研究背景 • 事件 • 事件是一种描述特定人、物、事在特定时间和特定地点相互作用的客观事实 • 事件抽取 60-year-old Mohammed al-Biyari was killed in his home near Jabaliya refugee camp by the rocket.(译文:“60岁的默罕默德在贾巴利亚难民营附近的家中被火箭弹射杀。”)
研究背景 • 然而,事件的发生不是孤立现象 • 区别于传统的话题检测任务 • 仅能实现对事件关系的粗粒度识别和检测 死亡 袭击 摧毁
任务描述 • 事件关系识别 • 以事件为基本语义单元,事件语义关系的浅层检测 • 识别事件间逻辑关系存在与否(相关、不相关) 相关:
背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望 主要内容
相关工作 • 事件关系资源挖掘 • 模板匹配法 • Chklovski(2005):针对六种时序关系,手动构建词-句匹配模板,构建“VerbOcean”知识库 • Pantel(2006):通过自动构建模版迭代抽取事件关系对资源 • 元素分析法 • Lin(2001):DIRT算法;因果关系 • 马(2012):构建依存线索集合,推理事件关系 • 杨(2013):通过事件核心词和事件元素构建推理线索,实现时间关系识别任务
相关工作 • 基于依存线索推理(马,2012) • 将事件的关联性与否转化为事件间依存强度计算 • 构建事件的依存线索集,进而推理事件间关系存在与否 • 缺点:召回率低 • 主要原因:跨子句依存性能不理想;语料规模小
相关工作 • 基于事件触发词和实体线索推理(杨,2013) • 相关事件的触发词和实体分布具有较高的相似性和一致性;而不相关事件的的触发词和实体分布则不呈现此规律。 • 根据触发词和实体的分布特性,构建推理线索。 • 问题:召回率仍然不理想,主要原因在于实体缺省和指代现象比较严重 • 如“朝鲜藐视安理会决议, (朝鲜)仍坚持发射卫星”
相关工作 马和杨的实验结果对比 • 解决问题的侧重点不同 • 主要原因推理线索构建方式不同 • 马通过依存分析构建推理线索 • 杨通过触发词和实体构建推理线索
背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望 主要内容
事件核心词和实体 • 事件核心词 • 依存结果中直接与“ROOT”相连 • 事件实体 • 依存实体 • 与核心词直接相连 • 共现实体 • 不与核心词相连
基于推理线索构建的事件关系识别方法 • 利用事件触发词和元素在话题内的分布特性以及在话题演化过程中的语义依存特性,提出一种基于推理线索构建的事件关系识别方法。 • 事件定位 • 推理线索构建 • 事件关系推理
事件定位 • 目的:对给定的目标事件探索特定文本中的一致或近似描述 • 定位方法: • 基于语义依存的句子相似度 • 余弦相似度 • 编辑距离 事件eA的描述
依存线索集构建 • 初始依存集构建 • 依存连接弧步长—n • 每个依存对出现的条件概率值 • 计算子句SAi和事件eA的事件依存度: SA SA1 SA2
共享事件元素线索集构建 • 同一话题下相关事件的核心词和实体分布具有较高的相似相和一致性, 而不相关事件的此类信息则没有呈现明显的相似性和一致性规律。 • “地震”和“救援”为核心词的事件间具有较强的逻辑关系; 而以“大跌”和“救援”为核心词的事件往往不具有逻辑关系; • “香蕉”和“中国港口”实体所在的事件往往相关; 而包含实体“渔民”和“香蕉”的事件往往不相关。 • 事件关系识别的度量转化事件核心词与实体关系的度量 事件关系=核心词关系+实体关系
共享事件元素线索集构建 • 令eA定位得到的子句为SA,Si皆为候选虚拟相关事件: [S1, S2,.., SA,…, Sn] • 虚拟相关事件(红)与事件eA (蓝)关联因子γ 核心词 实体 γCN 核心词关联因子 γET 共现实体关联因子 依存实体关联因子 γDN
依存线索集构建 • 由于句子长度有限,蕴含的事件信息较少 • 事件e1:9/11袭击致大规模伤亡 • 事件e2 :美国举国哀悼 “9/11袭击导致大规模人员伤亡,世贸大楼瞬间倒塌, 世界为之震惊。” • 依存集的迭代扩展 • 对事件依存线索集中每个事件进行如下操作: • 定位每个虚拟事件eve • 计算对应的虚拟事件依存度值 • 迭代扩展,直至结束
事件关系推理 • 两个事件的相关度: • R(eA,eB):目标事件eA和eB的相关度 • ICS:事件eA的推理线索集 • sim(eAi,eB):推理线索事件eAi和目标事件eB通过编辑距离和语义依存相似度计算得到的相似度值。 • APCluster聚类 • 同一聚类中的事件两两相关,否则两事件不存在逻辑关系
背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望 主要内容
实验设置 • 语料来源 • 新浪、腾讯等网站的新闻专题的6个话题 • 平均每个话题包含30个新闻事件(外延事件) • 2842“事件对”,有逻辑关系“事件对”为811(28.5%) • 评价指标
实验设置 • 基准系统 • Baseline_Ma:基于依存线索的推理方法 • Baseline_Yang:基于核心词和实体的推理方法 • 基于推理线索构建的方法 • ICue1:针对共同的线索事件,相关度采用依存度计算方法 • ICue2:共同的线索事件,相关度采用共享事件元素的相关度计算方法,即事件核心词相关度和事件实体相关度之和。
实验结果 • ICue1和ICue2相比较于Baseline_Ma和Baseline_Yang在F值上分别获得了超过17.2%和9.5%的提升。 • 丰富的线索集合不但有助于召回率的提升,同时也有助于准确的判断事件关系。
实验结果 • 更好的丰富了依存线索集合 • Ma:60.07%不存在线索 • Yang:27.7% • ICue1和ICue2:只有16%的事件不存在线索 • 丰富的推理线索能够很好的描述事件的发展脉络,因此能够很好的辅助事件关系的识别。
实验结果 • 验证线索充分性对事件关系识别性能的影响 • “线索充分样本点”和“线索稀疏样本点” • 丰富的推理线索能够很好辅助识别事件关系
实验结果 • 性能依然不理想,主要原因在于虽然获得的线索数目多,但是高质量的线索仍然不多,原因: • 目前的依存分析器性能仍不理想,对长距离的依存分析效果不高 • 事件间的指代现象严重,对通过共享实体构造推理线索造成一定影响 • 语料规模有限,构造线索时搜索空间较小
背景及任务描述 相关工作 基于推理线索构建的事件关系识别方法 实验与分析 总结和展望 主要内容
总结与展望 • 本文针对“外延事件”见关系识别问题,提出一种基于事件瑰丽线索构建的事件关系识别方法。 • 方法利用事件核心词和事件实体的分布特性,借助事件发展过程中事件核心词和事件实体的句法依存特征,构建事件关系推理线索集合,进而推理事件关系。 • 识别效果依然不理想,以后工作中会进一步挖掘新的方法,同时,完善语料资源。 • 在事件关系识别基础上,判定事件关系类型。