160 likes | 467 Views
Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation. 作者 : Xiaoqing Li 主讲人:赵安邦. 问题. 跨领域 OOV 刑法,民法,宪法。。。 吸星 大法 不同的领域,同一个词的 tag 分布不同 酸 (s) ,酸的 (b) ,酸性 (b) 硫酸 (e) ,盐酸 (e) ,硝酸 (e). 解决办法. 引入领域词典 不引入新领域知识,很难解决这个问题。 词典相对比较容易获得,如化工词词典,医学名词词典。 引入词典的方法
E N D
Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation 作者: Xiaoqing Li 主讲人:赵安邦
问题 • 跨领域 OOV 刑法,民法,宪法。。。 吸星大法 不同的领域,同一个词的tag分布不同 酸(s),酸的(b),酸性(b) 硫酸(e),盐酸(e),硝酸(e)
解决办法 • 引入领域词典 不引入新领域知识,很难解决这个问题。 词典相对比较容易获得,如化工词词典,医学名词词典。 引入词典的方法 (1)机械匹配 (2)利用词典最长匹配词信息(在判别式分词方法中被广泛应用)
例子 句子:新华社报道。 词典:华社,新华社 最大匹配词长度:3 抽出特征 C0=华L=3 m
相关概念 Surface features N-gram概率 Abstract features 一个字是否选择它在字典中最长匹配词中tag的分布,在不同领域是几乎不变的。(映射)
Dictionary Coverage Status • 一个包含五个元素的集合 {No-Dictionary-Word, No-Ambiguity, Crossed-Ambiguity, Included-Ambiguity, Mixed-Ambiguity} 作用:给字在词典中匹配到的词的歧义情况分类。
Dictionary Coverage Status • 例子 • Included-Ambiguity
Dictionary Coverage Status • 例子 • Crossed-Ambiguity
Tag Matching Status • 一个包含四个元素的集合 {Following-Longest-Word, Only-Following-Shorter-Word, Not-Following-Any-Word, Inapplicable} 作用:字的tag和匹配到的词的tag之间的关系分类。
生成模型推导 • 传统生成模型 • 加上词典特征的生成模型
生成模型推导 近似成:
生成模型推导 对Abstract feature 和Surface feature可以加上不同的权重
生成模型推导 这个模型还可以进一步融入判别式模型,得到以下公式:
实验 • 实验配置 • 训练语料:PKU-News7 from CIPS-SIGHAN-2010 • 同领域测试语料:PKU-News testing corpus of SIGHAN-2005 • 跨领域测试语料:corpora of CIPS-SIGHAN-2010 (文学,计算机,医学,金融)
实验 • 生成模型实验结果 B是基线系统 G1的Abstract Feature公式: G2的Abstract Feature公式:
实验 • 生成+判别式模型实验结果 SBest是基线系统(best results of SIGHAN 2005 (News) and CIPS-SIGHAN 2010 (other domains)) ED是利用词典改进了的判别式系统(Enhanced Discriminative) EG(Generative) EI(Integrated)