基于 Wikipedia 的中文命名实体识别研究

基于Wikipedia的中文命名实体识别研究 中山大学计算机科学系潘家铭指导老师：汤庸教授，肖菁老师基于Wikipedia的中文命名实体识别研究

报告提纲

中文命名实体识别的意义 中文自动分词 (CWR) 命名实体识别 (NER) 中文自然语言处理中文信息处理 (CNLP) 基础步骤重点、难点用于中文信息检索、中文文本自动校对、机器翻译、汉语语音合成、语音识别等等具体应用[1] “词”是否有清晰的界定分词和理解孰先孰后分词歧义消解未登录词的处理文献 [1~12] 没有天然的识别标志开放类，内容庞大随着时间推移而扩展形式不统一多出现歧义文献[13~18] 流行的应用

中文命名实体识别的研究现状

本论文的研究目标及工作 使用Wikimedia提供的中文Wikipedia数据库，包括数据Wikipedia文章文本以及链接等数据。探究非人工标注专用语料库在命名实体识别应用的可行性(引入Wikipedia 数据库)。使用开源搜索引擎Indri对中文Wikipedia建立索引，并创建结合Wikipedia本身组织特点的词典，作为系统的语料库。中文命名实体识别研究的意义对开源百科全书数据库的数据进行提取并建立索引以便提取，作为词典来应用使用了CRF++开源模型作为建模框架，定义了SYSUNER识别器的中文命名实体识别特征模板和相关的数据结构。使用该模型进行了训练。中文命名实体识别研究的现状定义中文命名实体特征，使用CRFs模型进行识别任务的训练和测试。英文Wikipedia数据库是研究热点引入了N-最佳选取算法(N-Best)、词典动态更新等机制，提高识别系统的性能。定义相适应的研究机器学习模型和中文Wikipedia数据库结合应用的方法和效果对系统进行开放性对比测试和优化，得到实验结果。

报告提纲

中文Wikipedia • 包含人类所有知识领域的百科全书。 • 允许了大众的广泛参与，信息得到及时有效更新。 • 内容开放，便于进行研究巨大的条目数量及数据量规范的分类特殊的标注方法，可用于信息提取

中文Wikipedia的结构特点 消除歧义页可利用于识别实体的别名实体分类，用于辨别命名实体的类型 • 使用几种常用的结构，能获取实体的重要信息 • Wikipedia内容经过规范的标注，能使用程序提取 • 实体之间形成网状关系，可使用迭代方式提取实体关系重定向页，可利用提取命名实体实体间用链接(link)相互指向，链接可被提取

中文Wikipedia源代码转换 Wikipedia标签可被提取，转换成标注文本的格式可用于机器学习模型训练的自动标注语料

条件随机场(CRFs) 使用稀疏矩阵来存储特征函数的值。最优标注序列，结合矩阵表示后的计算公式(P32) 最优标注序列计算公式 (P31)

CRFs的特征函数 二元特征函数的形式

CRFs训练算法

L-BFGS(PQN)算法 初始化变量和计数器初始化计数器、临时变量和存储矩阵算法结束的Wolfe条件[50] 这个条件通过两个不等式作为判断条件。 • 时间和空间复杂度均为： O(L2NMF) [30] • 其中L和N分别为标注和观察序列(句子)的数目，M为句子的平均长度，F为各个标注的序列中活动特征的平均数目。 • 随着标注集的扩大，时间复杂度呈指数级递增则计算Wolfe条件项满足Wolfe条件否算法更新步骤，用迭代的方式更新存储矩阵M的数据。其中使用到特征函数的结果。是更新存储矩阵M 算法结束迭代次数，这里可追加次数控制机制，避免收敛速度慢的循环影响算法效率

报告提纲

系统实现环境

系统架构 中文Wikipedia数据库为数据源，Indri搜索引擎生成索引并进行检索；索引作为CRFs识别模型的词典使用。 CRF++ 工具建立CRFs 模型。包括经过标注的训练语料，特征模板，C++ 的类定义文件，CRFs模型的核心等。 I/O格式转换利用了N-best筛选算法的附加处理模块。用于优化输出结果。

Indri搜索引擎及索引建立 …… 配置索引的格式转换成TREC数据，并建立索引 INDRI Wikipedia索引 Wikipedia数据库在索引中检索相关内容，作为训练数据原始数据，简单XML格式，未经索引通过调用Runquery()方法，快速获取索引信息。 Indri充当了语料库引擎的角色。

语料格式转换器(P43) 最大匹配粗分词算法对文本进行粗分词。分词过程中只识别词边界，而不必考虑词性。该算法获取最短的词语边界(P46) 使用Boost库的工具，把语料转换成CoNLL三元组格式的语料，提供给CRFs模型进行训练。使用Boost::Xpressive正则表达式提取相关标签并进行转换

主要数据结构 表示一个单独的字实体，作为CoNLL语料的单独一行里的文本数据一个包含多个字的词结构，便于模型识别出词语标记(Token)，用于标注数据集后进行数据分析和整合

特征模板 两种特征模板：一元特征模板、二元特征模板特征模板通过分析上下文边界特征得到词语特征 L表示输出标注的数目，N表示模板宏替换的可能结果的数目，那么总共生成的特征函数数目为(L*N) 考虑效率，二元特征模板的数目应尽量减少

训练CRFs 训练的过程又称为编码过程(Encoding) 检索相关的条目信息，再使用语料转换器生成CoNLL训练语料。使用L-BFGS训练算法对模型的参数进行估算。训练语料分布比例

中文命名实体识别(数据标注) 基于N-最佳标注选取算法，对新词进行收集，并按分组加入到索引词典中；重建索引。对CRF++ 输出的N个标注结果中选取最佳结果(N最佳标注选取算法)；避免标注错误出现。数据标注流程对输入的语料进行标注把CoNLL格式的数据转换成符合自然阅读方式的标注数据。

报告提纲

测试指标 测试的指标包括召回率R (Recall)、准确率P (Precision) 和综合指数F (F-measure) β是R和P之间的平衡因子，通常任务召回率和准确率是同样重要的，故取β =1

测试语料 由于我们使用了Wikipedia生成的语料进行训练，因而只能采用开放性测试方法。

实验设计 综合性能测试。测试SYSUNER 系统在最优条件下的性能。增量训练集测试。测试训练语料从小到大递增时系统的性能，反映Wikipedia 数据库训练语料在系统中作用的作用。新词更新测试。测试把新词列表更新至词典索引对系统性能的影响。对比测试。对比同类典型系统的性能指标。

测试结果(1) 在人名、地名、组织名的识别性能得到了较高的水平。而且，这些方面的性能还有上升的空间。但对于缩写名词的识别并不是很理想。训练数据涵盖的域信息对系统性能也有影响。使用更大涵盖度的训练语料，能明显提高系统的性能。

测试结果(2) 使用新词更新策略后，测试的结果有一定的提高。与同类系统对比，使用Wikipedia数据库作为训练语料的SYSU表现处于中上水平。

讨论 CRFs 模型在显示了训练精度精度优势的同时，也暴露了训练复杂度高的明显缺点。弥补基于Wikipedia 建立的词典索引的词汇量不足，可以尝试引入的外部命名实体词典。 SYSUNER 对命名实体缩写的识别效果并不理想。使用最大匹配分词算法来进行粗分词，因为词语边界歧义的存在，会导致分词错误，进而影响系统的性能。

报告提纲

主要贡献和结论 INDRI 贡献：Wikipedia到索引的转换 Wikipedia索引工作：Indri建立索引与检索 √训练精度贡献：证实CRF模型的性能语料格式转换器 CRF++ I/O格式转换器 √ 序列标注适应性 Approved √ 准确度粗分词算法 CRF++ N-Best 算法新词更新策略 Wikipedia索引其他标注语料 × √ 工作：定义的模型工作顺利贡献：仅使用Wikipedia作为单一数据源的尝试。

未来工作 Wikipedia 的很多特性还可以被利用。 CRFs的训练对系统的计算和存储能力的要求都很高，这点不利于我们的方法在PC系统的使用。粗分词算法的缺陷会带来系统局部分词错误，在极端条件下，错误还有可能扩展到整个句子，今后需要引入更有效的分词算法和歧义处理方法，提高粗分词的正确率。针对一些词性识别的错误，需要探究原因，并对特征或模型本身进行改进。

研究生阶段其他参与的工作

致谢感谢我的导师汤庸老师，指导老师肖菁老师，在成文过程中，他们给了很多技术性的指导。感谢我的亲人、同学和朋友。特别感谢，余峰、黄永钊两位优秀同学的帮助。感谢评委们的辛勤劳动。

谢谢观看 欢迎指正批评基于Wikipedia的中文命名实体识别研究

基于 Wikipedia 的中文命名实体识别研究