汉语并列关系的识别研究

汉语并列关系的识别研究 北京信息科技大学研三郑略省 2014/8/21

主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论

研究的意义 自然语言深层处理技术已用于机器翻译、信息抽取和问答系统等方面句法分析是自然语言深层处理的基础依存句法比短语句法更容易处理 Root 有 SBV VOB ADV 南部小到中雨 COO 将 ATT COO 贵州江南西部 ATT 华南

研究的意义 目前依存句法分析研究的重心放在统一建模上，对汉语特殊结构的研究较少 McDonald的方法整体识别效果LAS 和UAS为78.2%，80.8% 并列关系识别效果偏低，正确率和召回率分别为64.0%， 54.8%

研究的意义 汉语并列结构研究主要在于识别并列结构的边界，并不能直接应用到依存句法分析当中（贵州南部、江南、华南西部）将有小到中雨

并列关系的标注方式 依存语法中并列关系（COO）的标注方式由并列词组、核心词和尾词组成并列词组，指的是在同一并列结构中发生并列关系的所有并列成分核心词，指的是在并列词组中有一个并列成分充当核心节点的作用，其它并列成分均以核心词为父亲节点尾词，指的是距离核心词最远的并列成分

并列关系的构成角色 角色表是识别并列关系的基础。根据角色表，计算机能够理解汉语并列结构 COO COO …… 南部江南、华南贵州、西部 O H O B O O B ……

并列关系的构成角色 并列关系可分为无标记和有标记无标记：结构复杂，不易识别 “指手画脚，照本宣科”，“深入细致，扎实有效” 有标记：结构上由并列标记连接连词：和、与、并……”，中国和南非标点符号：主要是逗号为主 …… 南部江南、华南贵州、西部 O H R B R I B ……

并列关系的构成角色 有标记并列关系比较难识别的是嵌套并列关系，主要困难在于个别并列成分充当多重角色 COO COO COO …… 、和竹、老虎麻雀梅 H R B R X R B ……

并列关系的构成角色 该文根据并列关系的特点和上下文信息，制定了完整角色表

并列关系的特征选择 特征的合理选择是识别并列关系的关键。特征集是判别某个词或字在并列关系中充当何种角色的主要依据。

并列关系的识别 特征集通常由未识别的词与其词性，上下文与其词性组成，或相互复合而成。如表

并列关系的特征选择 并列结构还有个很重要的特点，就是结构的平行性，也就是修饰词的共享或相似各种/r Ｘ形/n 、Ｙ形/n 、蝶形/n 当地/nl 群众/n 和外地/nl 游客/n 并列结构还有其它表现形式，较难识别的是修饰词和被修饰词的词性均为“n”的情况企业/n 及/c 投资/n 机构/n 政治/n 和/c 工资/n 待遇/n

并列关系的特征选择

并列关系的特征选择 以D表示词性为“n”的类别（A，Q，M，U），U表示词性非“n”。在特征集中引入D标记。

实验结果分析 本文以HIT-IR-CDT前8000句作为训练语料，后1000句作为测试语料，每个句子的平均长度为21.3个词 MSTparser依存句法分析器是McDonald方法的实现，其作为Baseline对比方法，也在同等条件下进行训练和测试

实验结果分析 评测指标如下：准确率=正确识别的数目/识别出的数目*100% 召回率=正确识别的数目/实际正确数目*100% F值= 准确率*召回率*2/ (准确率+召回率)

实验结果分析

实验结果分析 分析主要的识别错误，主要分为两类：难以利用语义的信息全市/n 党政/n 机关/n 、/wp 事业/n 单位/n 公款/n 语料库规模较小校园网/n 和/c 外面/nd 的/u 世界/n

结论 • 本文采用分而治之的策略，利用并列结构的汉语特点，改善了并列结构的识别效果 • 下一步的工作总结汉语其它语言现象，改善汉语依存句法分析的效果

致谢 • 感谢吕学强老师，北大邱立坤老师和其他指导我的老师 • 感谢实验室的师兄师姐，师弟师妹的帮助 • 感谢哈工大信息检索研究中心语言技术平台提供的依存树库（HIT-IR-CDT）

汉语并列关系的识别研究

汉语并列关系的识别研究

Presentation Transcript