190 likes | 288 Views
汉语否定与模糊识别语料库的构建. 陈站成 邹博伟 朱巧明 李培峰. 提 纲. 背景及意义 研究现状 语料库构建 标注结果统计数据 总结及展望. 背 景 及 意 义. 否定信息 否认一个命题的成立、存在或真实性。 模糊信息 一个命题具有不确定性或推测含义。 否定与模糊信息识别任务 触发词识别:识别具有 否定或模糊语义 的单词或短语。 覆盖域识别:识别触发词的作用范围。 eg1 , 这把椅子虽然坐上去 [ 不 舒服 ] scope1 但价格却很便宜。 eg2 , 女主人递给我一件礼物, [ 可能 是一本书,或者一本
E N D
汉语否定与模糊识别语料库的构建 陈站成 邹博伟 朱巧明 李培峰
提 纲 背景及意义 研究现状 语料库构建 标注结果统计数据 总结及展望
背 景 及 意 义 • 否定信息 • 否认一个命题的成立、存在或真实性。 • 模糊信息 • 一个命题具有不确定性或推测含义。 • 否定与模糊信息识别任务 • 触发词识别:识别具有否定或模糊语义的单词或短语。 • 覆盖域识别:识别触发词的作用范围。 • eg1,这把椅子虽然坐上去 [不舒服 ]scope1但价格却很便宜。 • eg2,女主人递给我一件礼物, [可能是一本书,或者一本 • 相册 ] scope2。
背 景 及 意 义 • 否定语义和模糊语义是普遍存在的语言现象。 • Bioscope语料中,分别有13.45%和17.70%的句子包含否定信息和模糊信息。 • 在本文构建的否定和不确定识别语料库中,分别有15.78%和13.88%的句子包含否定和模糊信息。 • 否定语义和模糊语义在自然语言处理任务中的应用。 • 信息抽取:区分真实信息和不确定信息。 • 情感分析:反转极性和表示情感强弱。
英 语 研 究 现 状 BioScope生物医学语料库 标注了否定(Negation )和模糊(Speculative )触发词以及其覆盖域。 full paper语料,来源于科技论文领域,9篇,2670个句子 abstract语料,源于论文摘要内容,1273篇,11871个句子 clinical语料,来源于门诊报告,195篇,6383个句子 <sentence id="S26.8">These findings <xcope id="X26.8.2"><cue type="speculation" ref="X26.8.2">indicate that</cue> <xcope id="X26.8.1">corticosteroid resistance in bronchial asthma <cue type="negation" ref="X26.8.1">can not</cue> be explained by abnormalities in corticosteroid receptor characteristics</xcope></xcope>.</sentence>
英 语 研 究 现 状 • Wikipedia互联网语料 • 标注了模糊触发词,未标注相应的覆盖域范围。 • weasels段落,模棱两可的言论,有歧义的表达,共438个。 Some people <cue>claim that</cue> this results in a better taste than that of other diet colas(most of which are sweeted with aspartame alone).
汉 语 研 究 现 状 • 语言学研究 • 沈开木(1984):对汉语否定词用法研究。 • 张瑞朋(2007):探讨了汉语否定词的覆盖域范围。 • 目前尚未有针对汉语的覆盖域自动识别研究,语料的匮乏是阻碍该研究发展的主要原因之一。
语 料 库 构 建 • 语料来源:《计算机学报》2012年第11期19篇论文 • 否定与模糊识别在科技文献的信息抽取相关研究中具有重要地位。( KEN HYLAND ,1996) • 中国计算机领域的权威学术刊物,语言表达相对严谨。 • 文本数量充足,适合语料库规模的扩充,为将来进行半自动甚至自动标注提供了可能。 • 语料库标注步骤 • 将原始语料进行预处理和分句,获得生语料。 • 由标注者利用标注工具标注生语料,形成初步语料库。 • 对所标注语料格式进行规范化,构建XML格式语料库。 预处理,分句 标注 规范格式 PDF格式论文 XML格式语料库 生文本 初步语料库
标 注 规 则(否定1) • 触发词为副词,通常对行为或性状进行否定,如“不”、“不能” 等。 • 修饰动词或动词性词组时,覆盖域通常是动词所在的子句。 • 修饰形容词时,往往是形容词本身或其所在的名词性短语。 • 修饰其它副词时,要看被修饰的副词所修饰的部分是属于前面两种情况中的哪种,分别处理。 • eg.椅子坐着[不舒服]scope但价格很便宜。 • 触发词为动词。如“没有”、“排除”等。 • 没有省略句子成分时,动词所在的子句通常就是触发词对应的覆盖域。 • 缺少主语时,覆盖域往往为省略主语的子句。 • eg.S为图G中具有最大属性差异度的k个clique组成的集合且[S中clique彼 此之间没有公共节点 ]scope.
标 注 规 则(否定2) • 触发词为形容词,如“非”、“不同” 等。 • 作定语时,形容词性的否定触发词往往与它所修饰的名词一起构成覆盖域。 • 作表语时,覆盖域为具有否定信息的子句。 • eg.LSH-k近邻查询是基于d-HASH签名而[非原始时间子序列 ]scope. • 触发词为介词。如“除了”等等。 • 介词通常引导一个短语作状语,所以大多情况下覆盖域为介词所引导的成分。
标 注 规 则(模糊1) • 触发词为副词,如程度副词“一般”、“基本”。 • 通常修饰动词、形容词或名词性成分,而覆盖域通常是一个包含主谓宾、或者省略主语、或者省略宾语、或者以逗号分开的子句。 • eg. 使[查询时间基本不受M值的影响 ]scope. • 触发词为动词,如“估计”、“试图”,覆盖域通常是完整的句子。 • eg. [文献试图通过扰乱排序实现查询隐私保护]scope.
标 注 规 则(模糊2) • 短语“成为……的问题”、“在很多情况下”、“当……时”等通常具有模糊信息。 • “任意”、“假定的”等形容词,具有不确定性,表示模糊信息。 • 触发词是连词,如“或”、“如果”等。 • eg.顶点代表[道路的交叉口或者道路的端点 ] scope。
标 注 规 则(特殊) • 否定特殊标注规则 • “不同”在某些情况下不做否定触发词。 • eg.根据不同查询标准,可分为范围查询和k近邻查询两类。 • “除了……之外”、“除了……”等,要对比上下文内容是否表示否定语义来判别。 • 模糊特殊标注规则 • “如何”修饰事实时不标注为模糊触发词。 • “考虑”是否标注为模糊触发词,需要根据其在上下文中的含义。
标 注 结 果 统 计 数 据 • 否定和模糊信息在汉语科技文献中普遍存在,在该语料上进行标注工作具有很好的针对性。 • 标注者对语料中的实例都能较准确地识别,同时也表明了该任务具有一定难度和挑战性。
标 注 结 果 统 计 数 据 • 汉语否定和模糊触发词所占百分比看出,跟英语百分比差别较大。 • 占所有触发词比例高的词出现但不作为触发词的比例和占所有触发词比较低出现但不作为触发词的比例相比,后者普遍更高,识别前者更难。
总 结 及 展 望 否定与模糊识别任务的提出,包括触发词识别和覆盖域识别。 标注规则撰写,分别撰写否定与模糊识别规则,并讨论特征标注情况。 语料标注、结果统计。
总 结 及 展 望 汉语省略现象普遍,缺少句子成分,不能仅仅依靠句法分析识别覆盖域。 汉语字与字、词与词之间搭配基本稳定,语序较固定。(陆俭明,2003)
总 结 及 展 望 自动识别汉语否定与模糊信息,包括触发词及覆盖域。 扩大语料规模,尝试跨领域的语言材料。 抽取科技文献中否定和模糊信息,区分真实信息与不确定信息,提高信息抽取效率。