270 likes | 448 Views
汉语并列关系的识别研究. 北京信息科技大学 研三 郑略省 2014/8/21. 主要内容. 研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的 特征选择 实验结果分析 结论. 研究的意义. 自然语言深层处理技术已用于机器翻译、信息抽取和问答系统等方面 句法分析是自然语言深层处理的基础 依存句法比 短语 句法更容易处理. Root. 有. SBV. VOB. ADV. 南部. 小到中雨. COO. 将. ATT. COO. 贵州. 江南. 西部. ATT. 华南. 研究的意义.
E N D
汉语并列关系的识别研究 北京信息科技大学 研三 郑略省 2014/8/21
主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论
研究的意义 自然语言深层处理技术已用于机器翻译、信息抽取和问答系统等方面 句法分析是自然语言深层处理的基础 依存句法比短语句法更容易处理 Root 有 SBV VOB ADV 南部 小到中雨 COO 将 ATT COO 贵州 江南 西部 ATT 华南
研究的意义 目前依存句法分析研究的重心放在统一建模上,对汉语特殊结构的研究较少 McDonald的方法整体识别效果LAS 和UAS为78.2%,80.8% 并列关系识别效果偏低,正确率和召回率分别为64.0%, 54.8%
研究的意义 汉语并列结构研究主要在于识别并列结构的边界,并不能直接应用到依存句法分析当中 (贵州 南部 、江南 、华南 西部) 将 有 小到中雨
主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论
并列关系的标注方式 依存语法中并列关系(COO)的标注方式由并列词组、核心词和尾词组成 并列词组,指的是在同一并列结构中发生并列关系的所有并列成分 核心词,指的是在并列词组中有一个并列成分充当核心节点的作用,其它并列成分均以核心词为父亲节点 尾词,指的是距离核心词最远的并列成分
主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论
并列关系的构成角色 角色表是识别并列关系的基础。根据角色表,计算机能够理解汉语并列结构 COO COO …… 南部 江南 、 华南 贵州 、 西部 O H O B O O B ……
并列关系的构成角色 并列关系可分为无标记和有标记 无标记:结构复杂,不易识别 “指手画脚,照本宣科”,“深入细致,扎实有效” 有标记:结构上由并列标记连接 连词:和、与、并……”,中国和南非 标点符号:主要是逗号为主 …… 南部 江南 、 华南 贵州 、 西部 O H R B R I B ……
并列关系的构成角色 有标记并列关系比较难识别的是嵌套并列关系,主要困难在于个别并列成分充当多重角色 COO COO COO …… 、 和 竹 、 老虎 麻雀 梅 H R B R X R B ……
并列关系的构成角色 该文根据并列关系的特点和上下文信息,制定了完整角色表
主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论
并列关系的特征选择 特征的合理选择是识别并列关系的关键。 特征集是判别某个词或字在并列关系中充当何种角色的主要依据。
并列关系的识别 特征集通常由未识别的词与其词性,上下文与其词性组成,或相互复合而成。如表
并列关系的特征选择 并列结构还有个很重要的特点,就是结构的平行性,也就是修饰词的共享或相似 各种/r X形/n 、 Y形/n 、 蝶形/n 当地/nl 群众/n 和 外地/nl 游客/n 并列结构还有其它表现形式,较难识别的是修饰词和被修饰词的词性均为“n”的情况 企业/n 及/c 投资/n 机构/n 政治/n 和/c 工资/n 待遇/n
并列关系的特征选择 以D表示词性为“n”的类别(A,Q,M,U),U表示词性非“n”。在特征集中引入D标记。
主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论
实验结果分析 本文以HIT-IR-CDT前8000句作为训练语料,后1000句作为测试语料,每个句子的平均长度为21.3个词 MSTparser依存句法分析器是McDonald方法的实现,其作为Baseline对比方法,也在同等条件下进行训练和测试
实验结果分析 评测指标如下: 准确率=正确识别的数目/识别出的数目*100% 召回率=正确识别的数目/实际正确数目*100% F值= 准确率*召回率*2/ (准确率+召回率)
实验结果分析 分析主要的识别错误,主要分为两类: 难以利用语义的信息 全市/n 党政/n 机关/n 、/wp 事业/n 单位/n 公款/n 语料库规模较小 校园网/n 和/c 外面/nd 的/u 世界/n
主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论
结论 • 本文采用分而治之的策略,利用并列结构的汉语特点,改善了并列结构的识别效果 • 下一步的工作总结汉语其它语言现象,改善汉语依存句法分析的效果
致谢 • 感谢吕学强老师,北大邱立坤老师和其他指导我的老师 • 感谢实验室的师兄师姐,师弟师妹的帮助 • 感谢哈工大信息检索研究中心语言技术平台提供的依存树库(HIT-IR-CDT)