280 likes | 502 Views
汉语构词分析与词义知识表示研究. 陆顾婧 陈刚 刘扬 北京大学计算语言学研究所 北京大学计算语言学教育部重点实验室. 提纲. 提纲(续). 提纲(续). 提纲(续). 提纲. 研究背景. 汉语构词的语言学讨论: 语法构词(朱德熙、王洪君等): 比附句法结构关系来研究词的内部构造 语义构词( 刘叔新 、徐通锵等): 复合词的语素间是语义结构而非句法关系 兼容上述两者的观点(符淮青等) 中文信息处理中的构词分析: 成分间结构与成分意义 词义理解 (实用主义). 研究背景(续). 相关资源建设: 北京大学俞士汶的“现代汉语语法信息词典”
E N D
汉语构词分析与词义知识表示研究 陆顾婧 陈刚 刘扬 北京大学计算语言学研究所 北京大学计算语言学教育部重点实验室
研究背景 • 汉语构词的语言学讨论: • 语法构词(朱德熙、王洪君等): • 比附句法结构关系来研究词的内部构造 • 语义构词(刘叔新、徐通锵等): • 复合词的语素间是语义结构而非句法关系 • 兼容上述两者的观点(符淮青等) • 中文信息处理中的构词分析: 成分间结构与成分意义 词义理解 (实用主义)
研究背景(续) • 相关资源建设: • 北京大学俞士汶的“现代汉语语法信息词典” • 收词7.3万,描述词或语素的语法属性 • 其中,语素库部分记录有7223条记录间相互独立 • 清华大学苑春法的“汉语语素数据库” • 覆盖6763个汉字的语素项记录有17470条 记录间相互独立 • 二、三、四字词的记录数分别有45960、3930、4820条 • 鲁东大学亢世勇的“汉字义类信息库”“汉语语义构词信息库” • 6763个汉字的17430个字位、52366个双音节合成词 • 参照“同义词词林”,对字位和词进行归类 参照系是否适当
研究背景(续) • 相关资源提供了丰富的语法、语义信息 • 前两项工作:对每个汉语字、词的孤立描述 • 后两项工作:字分类体系沿用“同义词词林” • 词义知识表示手段的缺乏 => 期望形成简洁有效的辅助性的知识表示方式
研究内容:汉语构词分析——构词结构 • 分类标准: 沿用已有构词结构分类体系(北京大学,俞士汶) • 标注数据: 随机取自“现代汉语语法信息词典”的25000个常用二字词
研究内容:汉语构词分析——义素特征 • 义素:构成词义的最小意义单位(语义原子) • 义素特征 • 意义:最小意义单元 • 形式:具有相同义项的语素的集合(即同义语素集) • 作用:未来的词义知识表示的一个新的特征 • 示例:
研究内容:汉语构词分析——义素特征 义素特征抽取步骤: • 语素义项抽取(基于现汉) • 覆盖6525个常用汉字的16059条语素义项 • 语素义项自动归类与人工调整(基于语法信息词典) • 3495个名语素及其6221条义项 • 2429个动语素及其5156条义项 • 980个形语素及其1795条义项 • 同义语素义项归并(自动方法与人工操作结合) • 名、动、形语素的同义语素集分别为2421个、1654个、732个
研究内容:汉语构词分析——义素特征 • 同义名语素集覆盖同义字的字数统计
研究内容:汉语构词分析——义素特征 • 同义动语素集覆盖同义字的字数统计
研究内容:汉语构词分析——义素特征 • 同义形语素集覆盖同义字的字数统计
研究内容:汉语构词分析——义素特征 • 义素特征的标注 (标注量:25000个二字词)
研究内容:汉语构词分析——意义关联 • 意义关联(复合词整体义与语素义之间的关系) • 三分类(汉语语素数据库,苑春法) • 0:二字词的整体义与语素义无关 • 1:二字词的整体义和语素义之一有关 • 2:二字词的整体义是两个语素义的组合 • 八分类(汉语语义构词数据库,亢世勇) • A+B=A=B、A+B=A、A+B=B、A+B=C、A+B=A+B、A+B=A+B+D、A+B=A+D、A+B=D+B • (A、B代表构成合成词中的两个字位、C代表转义后的意义、D表示附加意义)
研究内容:汉语构词分析——意义关联 • 四分类(本文) 考虑工程开展,力求平衡并兼顾全面性、简洁性、实用性 目前,根据简单映射关系,粗标注了25000个二字词。
研究内容:汉语构词分析——小结 【数据】 25000个常用二字词 推广至多字词:分层迭代
研究内容:汉语构词分析——小结 推广至多字词:分层迭代(类句法树)
研究内容:词义知识表示 • 基于构词分析的词义知识表示 • 示例
研究内容:词义知识表示——示例 乱弹琴 (11,状) 五星红旗 (11,定) 摆谱儿 (11,述) 摆 (语素) 谱儿 (10,后) 弹琴 (11,述) 乱 (语素) 谱 (语素) 儿 (语素) 红旗 (11,定) 五星 (11,定) 五 (语素) 红 (语素) 琴 (语素) 弹 (语素) 星 (语素) 旗 (语素)
总结与展望 • 工作总结: • 对汉语的名、动、形语素演化生成了4000多个义素特征 • 提出了基于构词分析的新的知识表示手段 • 在25000个汉语常用二字词上验证了上述理论 • 意义关联的标注不够准确,有待进一步调整
总结与展望 • 未来展望: • 对意义关联的粗标注工作进行人工检验 • 展开更大规模标注工作,积累语义资源 • 义素特征集合上形成层次结构 • 将构词分析与词义知识表示应用到更多任务中 • 自动本体构建 • 词义相似度计算 • 新词预测与识别 • 计算词典学 • ……