报告人：钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语言处理实验室 nlp.suda/

词汇语义资源在中文关系抽取中的应用 报告人：钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语言处理实验室http://nlp.suda.edu.cn/

主要内容 1. 问题描述 2. 研究现状 3. 研究内容 4. 研究方法 5. 实验结果与分析 6. 总结与展望 2

1. 问题描述 • 实体语义关系抽取 • 简称关系抽取，是信息抽取中的重要研究内容之一。 • 其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系。如：关系实例“他的妻子”中的存在的PER-SOC关系。 • 研究意义 • 关系抽取对自然语言处理的许多应用，如内容理解、问题回答、自动文摘以及社会关系网络构建等都具有重要的意义。 3

2. 研究现状 • 中文关系抽取 • 基于特征向量的方法关系实例的特征包含词汇、组块、句法和语义等各种信息。如车万翔等[2005]；董静等[2007]；Li 等[2008] • 基于核函数将关系实例表示成的离散结构，如： • 字符串：Che等[2005]；刘克彬等[2007] • 句法树：黄瑞红等[2008]，虞欢欢等[2010] 4

词汇语义资源的作用 • 词汇语义信息 • 对关系抽取具有重要的作用。词汇不同但是语义相近的两个词语，在句子中可表示相同的语义关系。如关系实例“毛泽东妻子杨开慧”和“周恩来夫人邓颖超”。 • 目前的解决方法 • Che等[2005]等采用了编辑距离核函数，考虑了词汇之间在《同义词词林》中的语义相似度； • 刘克彬等[2007]采用了字符串序列核函数，考虑了词汇之间在《知网》中的语义相似度； • 不足之处 • 两者都是在字符串核中考虑了词汇语义信息，而没有把词汇语义信息用在抽取性能最好的句法树核中。

3. 研究内容 • 研究动机随着句法树的卷积树核在关系抽取中的广泛应用，很自然的问题是： • 词汇语义信息是否对基于卷积树核函数的关系抽取有用？ • 词汇语义信息如何使用才更有益于关系抽取？ • 研究内容 • 如何把词汇语义信息结合到基于树核函数的中文关系抽取中； 6

4. 研究方法 • 基于卷积树核的中文关系抽取 • 关系实例的结构化表示 • 关系实例的相似度计算 • 将词汇语义类别嵌入到句法树中 • 利用语义卷积树核函数 7

关系实例的结构化表示 • 合一句法和语义树(Qian等,2008) • 将句法树和实体的语义信息(实体类型等)结合起来。 • 如图所示为短语“银行总裁”的合一句法和语义树。左边为句法树；右边为实体语义树 8

关系实例的相似度计算 • 卷积树核函数(CTK, Convolution Tree Kernel) • 两棵句法树的相似度为相似子树的个数，即 • 计算方法 • 如果n1和n2的产生式（采用上下文无关文法）不同，则△(n1,n2)=0；否则转2； • 如果n1和n2是词性（POS）标记，则△(n1,n2)= ；否则转3； • 按照如下公式递归计算 • 其中：#ch(n)是结点的子结点数目，ch(n,k)是结点的第k个子结点，而(0< <1) 则是衰减因子，用来防止子树的相似度过度依赖于子树的大小。 9

卷积树核函数-举例 • 下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。由于两棵树在所有6个子树片段中有1个片段相同，所以两棵树的相似子树数量为1。

语义资源-知网HowNet • 《知网》 • 用一系列的“义原”来对每一个“概念”进行描述。 • 总共有1500多个义原，这些义原分事件、实体、属性、属性值、数量、数量值、次要特征、语法、动态角色和动态属性等九大类。 • 义原的提取 • 《知网》中每一个词语的概念定义也用多个义原来描述，不过第一基本义原反映了一个概念最主要的特征，因此我们仅抽取了词语的第一基本义原作为它的语义类别。 11

方法一、将语义类别信息嵌入句法树中 • 基本方法 • 将实体中心词的词汇的第一义原直接嵌入到句法树中； • 如短语“台北大安森林公园”中，“台北”的第一义原是“地方”，“公园”的第一义原是“设施”。 12

嵌入语义信息-举例 • 嵌入语义信息后的相似度：两棵树的相似子树数量为3。 13

方法二、语义卷积树核函数 • 基本思想（SCTK，Semantic Convolution Tree Kernel） • 在匹配包含词语的子树时，考虑词汇间的语义相似度； • Bloehdorn和Moschitti[2007]利用英文名词在WordNet中的层次结构关系来计算词语之间的相似度，并通过语义卷积树核实现问题分类任务，取得了较好的效果。 • 实现方法 • 将标准CTK的第一步修改为： 1) 如果n1和n2的产生式（采用上下文无关文法）相同，则转2；否则，如果n1和n2是实体所对应的中心词的父结点，则△(n1,n2)= * LexSim(HW1,HW2)；否则，△(n1,n2)=0； 14

词汇语义相似度的计算 • SCTK的核心是两个词汇之间的语义相似度计算 • 采用的是刘群和李素建编写的基于《知网》的词汇相似度计算软件包。 • 软件包下载地址： http://code.google.com/p/xsimilarity/downloads/list 15

语义卷积树核函数-举例 • 下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。由于使用了词汇语义相似度，两棵树的相似子树数量为: 3.72+2+1.86+1+1+0.86= 10.44

5. 实验结果与分析 • 语料库 • 采用ACE 2005中文语料库作为实验语料。该语料库定义了中文实体之间的6个关系大类，18个关系小类。它包含633个文件，其中广播新闻类298个，新闻专线类38个，微博和其它类等97个; • 处理工具 • 中科院计算所研制的分词系统ICTCLAS进行分词 ; • 采用支持卷积树核函数的SVMLightTK工具包作为分类器； • 修改了其树核函数计算部分，以嵌入词汇之间的语义相似度； • 评估方法 • 采用五倍交叉验证策略，取5次平均值作为最终的性能； • 评估标准采用常用的准确率(P)、召回率(R)和F1指标(F1)。 17

实验结果1-嵌入语义类别信息 • BL：基准系统 • BL+HN：实体词汇义原 • BL+ET：加入实体类型 • BL+ET+HN：实体类型+词汇义原 • BL+ET+HN+HNV：上述基础上再考虑动词的义原 • 在没有实体类型信息的前提下，实体词汇的第一义原能显著提高性能； • 在已有实体类型信息的前提下，实体词汇和动词的义原降低了性能； • 大类和小类抽取性能的提高幅度明显大于关系检测性能，说明义原信息能辨别关系类型。 18

实验结果2-语义卷积树核函数 • BL：基准系统 • BL+HN：实体词汇相似度 • BL+ET：加入实体类型 • BL+ET+HN：实体类型+词汇相似度 • BL+ET+HN+HNV：上述基础上再考虑动词的相似度 • 在已有实体类型信息的前提下，实体词汇和动词的义原仍然提高性能，原因是第一义原只能反映主要含义，而相似度能反映总体含义； • 最佳性能大于直接嵌入句法树中的方法。 19

实验结果3-与其它系统的比较 • 由于语料库的规模不同，训练和测试的方法不同，比较仅供参考。 20

6. 总结与展望 • 在没有实体类型的前提下，词汇语义信息能显著提高中文关系抽取的性能； • 在已有实体类型的前提下，基于语义相似度的语义卷积树核函数能进一步提高中文抽取的性能； • 词汇语义信息的加入有助于小类关系抽取性能的提高，即语义信息能区分更细致的关系类型。 21

下一步工作 • 可利用英文语义资源(如WordNet)来提高英文关系抽取的性能。 • 探索基于大规模语料库的词汇相似度计算方法对中英文关系抽取的影响，以缓解由于词汇语义资源的缺乏而引起的数据稀疏性问题。 22

参考文献 • Zhou G.D., Qian L.H., Fan J.X.: Tree kernel-based Semantic Relation Extraction with Rich Syntactic and Semantic Information. Information Sciences. Vol. 18(8). pp.1313-1325(2010) • Jiang J., Zhai C.X. : A Systematic Exploration of the Feature Space for Relation Extraction. NAACL-HLT’2007: Rochester, NY, USA. pp.113~120(2007) • Chan Y.S., Roth D.: Exploiting Background Knowledge for Relation Extraction. COLING’2010. pp. 152–160(2010) • Sun A., Grishman R., and Sekine S.: Semi-supervised Relation Extraction with Large-scale Word Clustering. ACL’2011. pp. 521-529(2011) • Zhang M., Zhang J., Su J. Zhou G.D.: A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features. COLING-ACL’2006. pp.825-832(2006) • Zhou G.D., Zhang M., Ji D.H., Zhu Q.M.: Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information. EMNLP/CoNLL’2007. pp.728-736(2007) • Qian L.H., Zhou G.D., Kong F., Zhu Q.M., Qian P.D.: Exploiting Constituent Dependencies for Tree Kernel-based Semantic Relation Extraction. COLING’2008. Manchester, pp. 697-704(2008) • Culotta A. and Sorensen J.: Dependency tree kernels for relation extraction. In Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics. ACL’2004. pp.423-439(2004) • Che W.X., Liu T., Li S.: Automatic Entity Relation Extraction. 19(2): 1-6(2005) • Dong J., Sun L., Feng Y.Y, Huang R.H.: Chinese Automatic Entity Relation Extraction. Journal of Chinese Information (in Chinese). Vol.21(4), pp. 80-85, 91(2007) • Li W.J., Zhang P., Wei F.R., Hou Y.X., Lu Q.: A Novel Feature-based Approach to Chinese Entity Relation Extraction. ACL’2008: 89-92(2008)

参考文献 • Che W.X., Jiang J., Su Z., Pan Y., Liu T.: Improved-Edit-Distance Kernel for Chinese Relation Extraction. IJCNLP’2005: 132-137(2005) • Liu K.B., Li F., Liu L., Han Y.: Implementation of a Kernel-Based Chinese Relation Extraction System. Computer Research and Development(in Chinese), Vol.44(8), pp.1406-1411(2007) • Huang R.H., Sun L., Feng Y.Y, Huang Y.P.: A Study on Kernel-based Chinese Relation Extraction. Journal of Chinese Information(in Chinese), Vol.22(5), pp.102-108(2008) • Yu H.H., Qian L.H., Zhou G.D. Zhu Q.M.: Chinese Semantic Relation Extraction Based on Unified Syntactic and Entity Semantic Tree. Journal of Chinese Information(in Chinese), Vol.24(5). pp.17-23(2010) • Mei J.J., Zhu Y.M., Gao Y.Q., Yin H.X.: TongYiCi CiLin second edition. Shanghai. Shanghai Lexicographic Publishing House(in Chinese)(1996) • Collins M., Duffy N.: Covolution Tree Kernels for Natural Language. NIPS’2001: 625-632(2001) • Bloehdorn S., Moschitti A.: Exploiting Structure and Semantics for Expressive Text Kernels. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, Lisbon, Portugal(2007) • Qian L.H., Zhou G.D., Zhu Q.M.: Employing Constituent Dependency Information for Tree Kernel-based Semantic Relation Extraction between Named Entities. ACM Transaction on Asian Language Information Processing. Vol.10(3), Article 15(24pages)(2011) • Lin D.: An Information-theoretic Definition of Similarity. In Proceedings of the 15th International Conference on Machine Learning. Madison, WI(1998) • Liu Q., Li S.J.: Word Similarity Computing Based on How-net. Computational Linguistics, Chinese information processing. pp. 59-76(2002) • Zhang J., Ouyang Y. and Li W.J.: A Novel Composite Approach to Chinese Relation Extraction. ICCPOL '09(2009)

Comments & Question?

报告人：钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语言处理实验室 nlp.suda/