170 likes | 399 Views
一个基于触发词映射的中文事件论元抽取方法. 黄媛 李培峰 朱巧明. 问题介绍 研究现状 基于触发词映射的方法 特征选取 基于规则过滤负例 实验及分析 总结及展望. 报 告 内 容. 1. 问 题 介 绍. 背景: 事件抽取是从无结构化文本中提取有效信息; 论元抽取对事件抽取能否用于实际中起着决定性作用。 意义: 有利于人们更加方便的理解有效信息。 目标: 使得事件抽取的信息更加完整,表达更为准确,便于人的理解。. 2. 问 题 介 绍. 存在问题:
E N D
一个基于触发词映射的中文事件论元抽取方法 黄媛 李培峰 朱巧明
问题介绍 研究现状 基于触发词映射的方法 特征选取 基于规则过滤负例 实验及分析 总结及展望 报 告 内 容 1
问 题 介 绍 背景: 事件抽取是从无结构化文本中提取有效信息; 论元抽取对事件抽取能否用于实际中起着决定性作用。 意义: 有利于人们更加方便的理解有效信息。 目标: 使得事件抽取的信息更加完整,表达更为准确,便于人的理解。 2
问 题 介 绍 存在问题: 1.中文的句法结构松散,省略情况非常普遍,减弱了论元抽取中句法结构的作用。 2.名词性触发词与论元在句法层面上比较松散,导致了很多名词性触发词触发的事件的论元抽取比较困难。(抽取性能落后于动词性触发词约10%) 解决方法: 本文针对上述两个问题提出了一种基于触发词映射的论元抽取方法,该方法把名词性触发词映射到它的谓词上,并以谓词为核心抽取句法特征进行分类。 3
研 究 现 状 • 现在主流的方法是基于机器学习的方法,将事件抽取看作分类问题。 • 英语研究现状 • Chieu和Ng(2002); • Ahn(2006); • Hardy(2006); • Ji(2009); • Liao和Grishman(2010); • Hong等(2011); 4
研 究 现 状 • 汉语研究现状 • 赵妍妍等(2008); • 谭红叶(2008); • Chen和Ji(2009); • 侯立斌等(2012); • Chen Chen和Ng(2012); • 李培峰等(2013); 5
基于触发词映射的方法 例1: (E1):巴勒斯坦的一个部队(Attacker)袭击(EM1:Attack;POS:VV)了以色列村庄(Target)。 (E2):巴勒斯坦(Attacker;Target)和以色列(Attacker;Target)发生冲突(EM2:Attack;POS:NN)。 在上述E1、E2两个事件句中, E1事件句的触发词为动词,而E2事件句的触发词为名词,可以看出E1和E2两个事件句在结构上有很大的不同,我们对这两个事件句进行了依存分析(如下图): 6
基于触发词映射的方法 E1: E2: 7
基于触发词映射的方法 E1中动词触发词“袭击”和论元角色“部队”有直接联系:nsubj(袭击,部队),很容易将“部队”识别为论元;而在E2中名词触发词“冲突”与论元“以色列” 关系较为松散,并没有直接联系,使得“以色列”不容易识别为论元,它们之间需要通过谓词“发生”才能建立联系:nsubj(发生,以色列),dobj(发生,冲突)。 同时,可以发现谓词“发生”在E2中的成分与动词触发词“袭击”在E1中的成分非常相似,因此,在E2中,将名词性触发词“冲突”映射到谓词“发生”上,提高E2和E1的句子相似度,然后再进行论元抽取,提高系统性能。 8
特征选取 基准系统:采用侯立斌的论元抽取系统作为基准系统,并在其特征的基础上新增了两个特征。 特征选择:由于触发词为动词的事件句并不需要做触发词映射,我们只对触发词 为名词的事件句,将名词性触发词映射到该句的谓词上,特征选取如下: 9
基于规则过滤负例 现象:存在并列或具有修饰关系,并且在句子中连续出现的实体,绝大多数情况下只有最后的一个实体才能作为论元。如例2所示,“中共”“中央”“直属机关”“党委”“副书记”都作为候选论元,但是前面的“中共”等虽然是实体,却是修饰“副书记”的,我们对这种并列实体选取最后一个作为候选论元。 例2: 武绍祖月前已经被安排出任中共中央直属机关党委第二副书记,仍然享受部级的待遇。 规则: 10
实 验 • 实验语料:ACE2005中文语料,共633篇新闻文档,本文随机选取33篇作为开发集,534篇作为训练集,剩余66篇为测试集。在测试集中,共有854个论元,其中185个论元对应的触发词是名词,665个论元对应的触发词是动词,其余的对应的触发词是代词。 • 评价指标:采用常用的P、R、F1值作为评价标准。 11
实 验 1、过滤负例并且加上新特征的实验结果: 2、未过滤负例的实验结果: 12
实 验 3、新特征贡献度计算: 13
实验结果分析 1.正负样例比从过滤前3.3:1 降到过滤后3:1,R值下降主要是因为过滤过程中同样过滤了少数正例 。 2.基准系统->动名词分离:触发词为动词的事件句与触发词为名词的事件句在句法结构上有很大的不同;触发词为动词的论元是触发词为名词的论元的好几倍,不分句型放在一起进行论元抽取,它们会相互影响,导致系统性能下降。 3.动名词分离->新特征:名词触发词映射到了句子的谓词上,同时,新抽取出的论元主要来自于与映射谓词有动宾关系或者主谓关系的候选论元。 14
总 结 及 展 望 本文提出了一种基于触发词映射的论元抽取方法,接下来对于含有名词性触发词的事件句,挖掘更有效果的特征进行论元抽取;同时可以考虑利用篇章级信息以及角色相似度信息进行推理。 15
谢谢,敬请指导! 16