1 / 28

汉语构词分析与词义知识表示研究

汉语构词分析与词义知识表示研究. 陆顾婧 陈刚 刘扬 北京大学计算语言学研究所 北京大学计算语言学教育部重点实验室. 提纲. 提纲(续). 提纲(续). 提纲(续). 提纲. 研究背景. 汉语构词的语言学讨论: 语法构词(朱德熙、王洪君等): 比附句法结构关系来研究词的内部构造 语义构词( 刘叔新 、徐通锵等): 复合词的语素间是语义结构而非句法关系 兼容上述两者的观点(符淮青等) 中文信息处理中的构词分析: 成分间结构与成分意义  词义理解 (实用主义). 研究背景(续). 相关资源建设: 北京大学俞士汶的“现代汉语语法信息词典”

Download Presentation

汉语构词分析与词义知识表示研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 汉语构词分析与词义知识表示研究 陆顾婧 陈刚 刘扬 北京大学计算语言学研究所 北京大学计算语言学教育部重点实验室

  2. 提纲

  3. 提纲(续)

  4. 提纲(续)

  5. 提纲(续)

  6. 提纲

  7. 研究背景 • 汉语构词的语言学讨论: • 语法构词(朱德熙、王洪君等): • 比附句法结构关系来研究词的内部构造 • 语义构词(刘叔新、徐通锵等): • 复合词的语素间是语义结构而非句法关系 • 兼容上述两者的观点(符淮青等) • 中文信息处理中的构词分析: 成分间结构与成分意义  词义理解 (实用主义)

  8. 研究背景(续) • 相关资源建设: • 北京大学俞士汶的“现代汉语语法信息词典” • 收词7.3万,描述词或语素的语法属性 • 其中,语素库部分记录有7223条记录间相互独立 • 清华大学苑春法的“汉语语素数据库” • 覆盖6763个汉字的语素项记录有17470条 记录间相互独立 • 二、三、四字词的记录数分别有45960、3930、4820条 • 鲁东大学亢世勇的“汉字义类信息库”“汉语语义构词信息库” • 6763个汉字的17430个字位、52366个双音节合成词 • 参照“同义词词林”,对字位和词进行归类 参照系是否适当

  9. 研究背景(续) • 相关资源提供了丰富的语法、语义信息 • 前两项工作:对每个汉语字、词的孤立描述 • 后两项工作:字分类体系沿用“同义词词林” • 词义知识表示手段的缺乏 => 期望形成简洁有效的辅助性的知识表示方式

  10. 提纲

  11. 研究内容:汉语构词分析——构词结构 • 分类标准: 沿用已有构词结构分类体系(北京大学,俞士汶) • 标注数据: 随机取自“现代汉语语法信息词典”的25000个常用二字词

  12. 研究内容:汉语构词分析——构词结构

  13. 研究内容:汉语构词分析——义素特征 • 义素:构成词义的最小意义单位(语义原子) • 义素特征 • 意义:最小意义单元 • 形式:具有相同义项的语素的集合(即同义语素集) • 作用:未来的词义知识表示的一个新的特征 • 示例:

  14. 研究内容:汉语构词分析——义素特征 义素特征抽取步骤: • 语素义项抽取(基于现汉) • 覆盖6525个常用汉字的16059条语素义项 • 语素义项自动归类与人工调整(基于语法信息词典) • 3495个名语素及其6221条义项 • 2429个动语素及其5156条义项 • 980个形语素及其1795条义项 • 同义语素义项归并(自动方法与人工操作结合) • 名、动、形语素的同义语素集分别为2421个、1654个、732个

  15. 研究内容:汉语构词分析——义素特征 • 同义名语素集覆盖同义字的字数统计

  16. 研究内容:汉语构词分析——义素特征 • 同义动语素集覆盖同义字的字数统计

  17. 研究内容:汉语构词分析——义素特征 • 同义形语素集覆盖同义字的字数统计

  18. 研究内容:汉语构词分析——义素特征 • 义素特征的标注 (标注量:25000个二字词)

  19. 研究内容:汉语构词分析——意义关联 • 意义关联(复合词整体义与语素义之间的关系) • 三分类(汉语语素数据库,苑春法) • 0:二字词的整体义与语素义无关 • 1:二字词的整体义和语素义之一有关 • 2:二字词的整体义是两个语素义的组合 • 八分类(汉语语义构词数据库,亢世勇) • A+B=A=B、A+B=A、A+B=B、A+B=C、A+B=A+B、A+B=A+B+D、A+B=A+D、A+B=D+B • (A、B代表构成合成词中的两个字位、C代表转义后的意义、D表示附加意义)

  20. 研究内容:汉语构词分析——意义关联 • 四分类(本文) 考虑工程开展,力求平衡并兼顾全面性、简洁性、实用性 目前,根据简单映射关系,粗标注了25000个二字词。

  21. 研究内容:汉语构词分析——小结 【数据】 25000个常用二字词 推广至多字词:分层迭代

  22. 研究内容:汉语构词分析——小结 推广至多字词:分层迭代(类句法树)

  23. 研究内容:词义知识表示 • 基于构词分析的词义知识表示 • 示例

  24. 研究内容:词义知识表示——示例 乱弹琴 (11,状) 五星红旗 (11,定) 摆谱儿 (11,述) 摆 (语素) 谱儿 (10,后) 弹琴 (11,述) 乱 (语素) 谱 (语素) 儿 (语素) 红旗 (11,定) 五星 (11,定) 五 (语素) 红 (语素) 琴 (语素) 弹 (语素) 星 (语素) 旗 (语素)

  25. 提纲

  26. 总结与展望 • 工作总结: • 对汉语的名、动、形语素演化生成了4000多个义素特征 • 提出了基于构词分析的新的知识表示手段 • 在25000个汉语常用二字词上验证了上述理论 • 意义关联的标注不够准确,有待进一步调整

  27. 总结与展望 • 未来展望: • 对意义关联的粗标注工作进行人工检验 • 展开更大规模标注工作,积累语义资源 • 义素特征集合上形成层次结构 • 将构词分析与词义知识表示应用到更多任务中 • 自动本体构建 • 词义相似度计算 • 新词预测与识别 • 计算词典学 • ……

  28. 谢谢!

More Related