Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation

Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation 作者: Xiaoqing Li 主讲人：赵安邦

问题 • 跨领域 OOV 刑法，民法，宪法。。。吸星大法不同的领域，同一个词的tag分布不同酸(s)，酸的(b)，酸性(b) 硫酸(e)，盐酸(e)，硝酸(e)

解决办法 • 引入领域词典不引入新领域知识，很难解决这个问题。词典相对比较容易获得，如化工词词典，医学名词词典。引入词典的方法（1）机械匹配（2）利用词典最长匹配词信息（在判别式分词方法中被广泛应用）

例子句子：新华社报道。词典：华社，新华社最大匹配词长度：3 抽出特征 C0=华L=3 m

相关概念 Surface features N-gram概率 Abstract features 一个字是否选择它在字典中最长匹配词中tag的分布，在不同领域是几乎不变的。（映射）

Dictionary Coverage Status • 一个包含五个元素的集合 {No-Dictionary-Word, No-Ambiguity, Crossed-Ambiguity, Included-Ambiguity, Mixed-Ambiguity} 作用：给字在词典中匹配到的词的歧义情况分类。

Dictionary Coverage Status • 例子 • Included-Ambiguity

Dictionary Coverage Status • 例子 • Crossed-Ambiguity

Tag Matching Status • 一个包含四个元素的集合 {Following-Longest-Word, Only-Following-Shorter-Word, Not-Following-Any-Word, Inapplicable} 作用：字的tag和匹配到的词的tag之间的关系分类。

生成模型推导 • 传统生成模型 • 加上词典特征的生成模型

生成模型推导 近似成：

生成模型推导 对Abstract feature 和Surface feature可以加上不同的权重

生成模型推导 这个模型还可以进一步融入判别式模型，得到以下公式：

实验 • 实验配置 • 训练语料：PKU-News7 from CIPS-SIGHAN-2010 • 同领域测试语料：PKU-News testing corpus of SIGHAN-2005 • 跨领域测试语料：corpora of CIPS-SIGHAN-2010 (文学，计算机，医学，金融)

实验 • 生成模型实验结果 B是基线系统 G1的Abstract Feature公式： G2的Abstract Feature公式：

实验 • 生成+判别式模型实验结果 SBest是基线系统（best results of SIGHAN 2005 (News) and CIPS-SIGHAN 2010 (other domains)） ED是利用词典改进了的判别式系统(Enhanced Discriminative) EG(Generative) EI(Integrated)

Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation

Integrating Surface and Abstract Features for Robust Cross-Domain Chinese Word Segmentation

Presentation Transcript

Simple Features for Chinese Word Sense Disambiguation

The Second International Chinese Word Segmentation Bakeoff

Exploiting Segmentation for Robust 3D Object Matching

Optimizing Chinese Word Segmentation for MT performance

SURFACE DATA AND WEATHER FEATURES

Rethinking Chinese Word Segmentation:

Using Word Based Features for Word Clustering

The European digital library: integrating cross-domain content Jon Purday

Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation

Cross-domain concepts

Robust Cerebrum and Cerebellum Segmentation for Neuroimage Analysis

Chinese Word Segmentation and Statistical Machine Translation

Cross-domain IDMS for Cloud Environment

Integrating Word, Excel and Access

Integrating Word and Excel ,

Chinese Word Segmentation Adaptation for Statistical Machine Translation

Technical Implementation for Chinese domain name

A New Lexicon Mechanism for Chinese Word Segmentation

Integrating Programs Word and Excel

Towards Robust Medical Image Segmentation

A New Lexicon Mechanism for Chinese Word Segmentation

Chinese Word Segmentation and Statistical Machine Translation