1 / 16

Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation

Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation. 作者 : Xiaoqing Li 主讲人:赵安邦. 问题. 跨领域 OOV 刑法,民法,宪法。。。 吸星 大法 不同的领域,同一个词的 tag 分布不同 酸 (s) ,酸的 (b) ,酸性 (b) 硫酸 (e) ,盐酸 (e) ,硝酸 (e). 解决办法. 引入领域词典 不引入新领域知识,很难解决这个问题。 词典相对比较容易获得,如化工词词典,医学名词词典。 引入词典的方法

donkor
Download Presentation

Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation 作者: Xiaoqing Li 主讲人:赵安邦

  2. 问题 • 跨领域 OOV 刑法,民法,宪法。。。 吸星大法 不同的领域,同一个词的tag分布不同 酸(s),酸的(b),酸性(b) 硫酸(e),盐酸(e),硝酸(e)

  3. 解决办法 • 引入领域词典 不引入新领域知识,很难解决这个问题。 词典相对比较容易获得,如化工词词典,医学名词词典。 引入词典的方法 (1)机械匹配 (2)利用词典最长匹配词信息(在判别式分词方法中被广泛应用)

  4. 例子 句子:新华社报道。 词典:华社,新华社 最大匹配词长度:3 抽出特征 C0=华L=3 m

  5. 相关概念 Surface features N-gram概率 Abstract features 一个字是否选择它在字典中最长匹配词中tag的分布,在不同领域是几乎不变的。(映射)

  6. Dictionary Coverage Status • 一个包含五个元素的集合 {No-Dictionary-Word, No-Ambiguity, Crossed-Ambiguity, Included-Ambiguity, Mixed-Ambiguity} 作用:给字在词典中匹配到的词的歧义情况分类。

  7. Dictionary Coverage Status • 例子 • Included-Ambiguity

  8. Dictionary Coverage Status • 例子 • Crossed-Ambiguity

  9. Tag Matching Status • 一个包含四个元素的集合 {Following-Longest-Word, Only-Following-Shorter-Word, Not-Following-Any-Word, Inapplicable} 作用:字的tag和匹配到的词的tag之间的关系分类。

  10. 生成模型推导 • 传统生成模型 • 加上词典特征的生成模型

  11. 生成模型推导 近似成:

  12. 生成模型推导 对Abstract feature 和Surface feature可以加上不同的权重

  13. 生成模型推导 这个模型还可以进一步融入判别式模型,得到以下公式:

  14. 实验 • 实验配置 • 训练语料:PKU-News7 from CIPS-SIGHAN-2010 • 同领域测试语料:PKU-News testing corpus of SIGHAN-2005 • 跨领域测试语料:corpora of CIPS-SIGHAN-2010 (文学,计算机,医学,金融)

  15. 实验 • 生成模型实验结果 B是基线系统 G1的Abstract Feature公式: G2的Abstract Feature公式:

  16. 实验 • 生成+判别式模型实验结果 SBest是基线系统(best results of SIGHAN 2005 (News) and CIPS-SIGHAN 2010 (other domains)) ED是利用词典改进了的判别式系统(Enhanced Discriminative) EG(Generative) EI(Integrated)

More Related