1 / 27

汉语并列关系的识别研究

汉语并列关系的识别研究. 北京信息科技大学 研三 郑略省 2014/8/21. 主要内容. 研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的 特征选择 实验结果分析 结论. 研究的意义. 自然语言深层处理技术已用于机器翻译、信息抽取和问答系统等方面 句法分析是自然语言深层处理的基础 依存句法比 短语 句法更容易处理. Root. 有. SBV. VOB. ADV. 南部. 小到中雨. COO. 将. ATT. COO. 贵州. 江南. 西部. ATT. 华南. 研究的意义.

kendall
Download Presentation

汉语并列关系的识别研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 汉语并列关系的识别研究 北京信息科技大学 研三 郑略省 2014/8/21

  2. 主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论

  3. 研究的意义 自然语言深层处理技术已用于机器翻译、信息抽取和问答系统等方面 句法分析是自然语言深层处理的基础 依存句法比短语句法更容易处理 Root 有 SBV VOB ADV 南部 小到中雨 COO 将 ATT COO 贵州 江南 西部 ATT 华南

  4. 研究的意义 目前依存句法分析研究的重心放在统一建模上,对汉语特殊结构的研究较少 McDonald的方法整体识别效果LAS 和UAS为78.2%,80.8% 并列关系识别效果偏低,正确率和召回率分别为64.0%, 54.8%

  5. 研究的意义 汉语并列结构研究主要在于识别并列结构的边界,并不能直接应用到依存句法分析当中 (贵州 南部 、江南 、华南 西部) 将 有 小到中雨

  6. 主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论

  7. 并列关系的标注方式 依存语法中并列关系(COO)的标注方式由并列词组、核心词和尾词组成 并列词组,指的是在同一并列结构中发生并列关系的所有并列成分 核心词,指的是在并列词组中有一个并列成分充当核心节点的作用,其它并列成分均以核心词为父亲节点 尾词,指的是距离核心词最远的并列成分

  8. 主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论

  9. 并列关系的构成角色 角色表是识别并列关系的基础。根据角色表,计算机能够理解汉语并列结构 COO COO …… 南部 江南 、 华南 贵州 、 西部 O H O B O O B ……

  10. 并列关系的构成角色 并列关系可分为无标记和有标记 无标记:结构复杂,不易识别 “指手画脚,照本宣科”,“深入细致,扎实有效” 有标记:结构上由并列标记连接 连词:和、与、并……”,中国和南非 标点符号:主要是逗号为主 …… 南部 江南 、 华南 贵州 、 西部 O H R B R I B ……

  11. 并列关系的构成角色 有标记并列关系比较难识别的是嵌套并列关系,主要困难在于个别并列成分充当多重角色 COO COO COO …… 、 和 竹 、 老虎 麻雀 梅 H R B R X R B ……

  12. 并列关系的构成角色 该文根据并列关系的特点和上下文信息,制定了完整角色表

  13. 主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论

  14. 并列关系的特征选择 特征的合理选择是识别并列关系的关键。 特征集是判别某个词或字在并列关系中充当何种角色的主要依据。

  15. 并列关系的识别 特征集通常由未识别的词与其词性,上下文与其词性组成,或相互复合而成。如表

  16. 并列关系的特征选择 并列结构还有个很重要的特点,就是结构的平行性,也就是修饰词的共享或相似 各种/r X形/n 、 Y形/n 、 蝶形/n 当地/nl 群众/n 和 外地/nl 游客/n 并列结构还有其它表现形式,较难识别的是修饰词和被修饰词的词性均为“n”的情况 企业/n 及/c 投资/n 机构/n 政治/n 和/c 工资/n 待遇/n

  17. 并列关系的特征选择

  18. 并列关系的特征选择

  19. 并列关系的特征选择 以D表示词性为“n”的类别(A,Q,M,U),U表示词性非“n”。在特征集中引入D标记。

  20. 主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论

  21. 实验结果分析 本文以HIT-IR-CDT前8000句作为训练语料,后1000句作为测试语料,每个句子的平均长度为21.3个词 MSTparser依存句法分析器是McDonald方法的实现,其作为Baseline对比方法,也在同等条件下进行训练和测试

  22. 实验结果分析 评测指标如下: 准确率=正确识别的数目/识别出的数目*100% 召回率=正确识别的数目/实际正确数目*100% F值= 准确率*召回率*2/ (准确率+召回率)

  23. 实验结果分析

  24. 实验结果分析 分析主要的识别错误,主要分为两类: 难以利用语义的信息 全市/n 党政/n 机关/n 、/wp 事业/n 单位/n 公款/n 语料库规模较小 校园网/n 和/c 外面/nd 的/u 世界/n

  25. 主要内容 • 研究的意义 • 并列关系的标注方式 • 并列关系的构成角色 • 并列关系的特征选择 • 实验结果分析 • 结论

  26. 结论 • 本文采用分而治之的策略,利用并列结构的汉语特点,改善了并列结构的识别效果 • 下一步的工作总结汉语其它语言现象,改善汉语依存句法分析的效果

  27. 致谢 • 感谢吕学强老师,北大邱立坤老师和其他指导我的老师 • 感谢实验室的师兄师姐,师弟师妹的帮助 • 感谢哈工大信息检索研究中心语言技术平台提供的依存树库(HIT-IR-CDT)

More Related