非规范化文本处理

非规范化文本处理 张奇复旦大学

非规范文本处理 • 非规范文本现象频繁出现 • 向大妈学广场舞，跟土豪做朋友，已经成为全世界小伙伴的新潮流。 • 李教授非常professional，我们很fan他。 • 中国石油天然气有限公司中石油。 • 累觉不爱

我们的工作 • 利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) • 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) • 中英语混合文本规范化 (WSDM 2014)

中英文混合文本词性标注 • 英文单词或者字母经常出现在中文文本中 • 作为产品名、机构名、术语、缩略语、简称等，如“eBay”、“iPhone”、“GDP”、“Android” • 出现在日常的对话沟通中，包括电子邮件和即时通讯软件 • 新浪微博抽样统计说明，14.8%微博含有至少一个英文单词 • 例子 • 提着行李在time square (NN) 的星巴克蹭网。 • 于是整个场面被我hold (VV)住了。 • 你微博忘记At (VV)他了。

中英文混合文本词性标注 • 难点 • 如何确定词性标记集？英文还是中文？ • OOV如何处理？ • 英文单词词性可以转换：我们出去Happy一下。

基于动态特征的序列标注方法 • 词性标注 序列标注问题 • {B, I, E, S} • {B-NN, I-NN, E-NN, S-NN, ...}. 静态特征

动态特征 • 使用词级别的特征，以帮助提高中文词性标注的准确率 • 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征，如词的内容、长度、词性等动态特征可在纯中文语料上训练! • 如果当前字是“ Apple”, 则： • POS−1=CC • POS−2=NR • WORD−1=“和” • LEN−2=2

实验 • 模型：序列标注模型 • 标注算法：Viterbi • 训练算法：在线PA • 标记集：{B, I, E, S}

识别命名实体简称 • 命名实体简称示例 • 北京大学北大 • 中国石油天然气集团公司中石油 • 中国国际航空公司国航 • 简称在文本中的比例 • 新闻文本：20%的句子含有简称 • UGC：更多 • 现有方法 • 基于数据的方法：需要大量（平行）语料 • 基于序列标注的方法：难以对长距离依赖关系建模

利用一阶谓词模型识别实体简称 • 将简称的生成建模为字的删除和保留操作 • 将语言特征和操作间关系用逻辑公式表示 • 用MLN进行参数学习和预测 Two constants: Anna (A) and Bob (B) Weight of formula i No. of true groundings of formula iin x Friends(A,B) Friends(A,A) Smokes(A) Smokes(B) Friends(B,B) Cancer(A) Cancer(B) Friends(B,A)

构建一阶谓词公式 • 局部特征 • 词汇特征：字或词的上下文，如 • character(i,c+) ^ entityType(t+)  drop(i) • character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) drop(i) • 距离和位置特征，说明实体的哪个部分可以省略 • character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+)  drop(i) • 后缀特征，说明简称中可以没有后缀 • character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) orsufOrg(j) orsufGov(j)) drop(i) • 全局特征：表示可以同时删去若干个字 • character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i+ 1, c2) ^ cwMap(i+ 1, j) drop(i+ 1)

实验 • 训练和测试数据 • 利用正则表达式从百度百科抓取 • 利用搜索引擎抓取 • 输入 “复旦大学简称” • 含有5万多简称/实体对 • 工具 • 中文分词：FudanNLP • MLN：thebeast

中英文混合文本规范化 • 微博中英语单词分类统计 • 采用分而治之策略加以处理 • In-vocabulary English words：翻译成中文 • Out-of-vocabulary English words ：分类，如人名，机构名……

词语翻译 翻译模型：从训练数据中计算：GIZA++ 语言模型：神经语言模型

未登录词分类 • 假设1：属于相同类别的词语有相近的上下文 • 假设2: 词语及其属性描述倾向于共现 • 采用Label propagation算法进行迭代

实验结果 测试数据 1000条微博 1200个英文词语词语翻译未登录词分类

CIKM 2014 • General Chairs： • Jianzhong Li: Harbin Institute of Technology, China • X. Sean Wang: Fudan University, China • PC Chairs • (DB Track)Min Wang,Google • (IR Track)IanSoboroffNIST &TorstenSuelNYU Poly • (KM Track)Minos Garofalakis,Tech Univ. Crete Abstract Submission June 4, 2014 Paper Submission June 11, 2014 Acceptance NotificationAugust 8, 2014 会议地点：上海富豪环球东亚大酒店，中国上海市衡山路516号 CIKM Cup

WSDM 2015 复旦皇冠酒店

Questions? Thanks!

非规范化文本处理

非规范化文本处理

Presentation Transcript