200 likes | 425 Views
非规范化文本处理. 张奇 复旦大学. 非规范文本处理. 非规范 文本现象频繁出现 向大妈 学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流 。 李教授 非常 professional ,我们很 fan 他 。 中国 石油天然气有限公司 中石油 。 累觉不爱. 我们 的工作. 利用 动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) 中英语混合文本规范化 (WSDM 2014). 中英文混合 文本词性标注. 英文单词或者 字母经常出现在中文文本中
E N D
非规范化文本处理 张奇 复旦大学
非规范文本处理 • 非规范文本现象频繁出现 • 向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。 • 李教授非常professional,我们很fan他。 • 中国石油天然气有限公司中石油。 • 累觉不爱
我们的工作 • 利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) • 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) • 中英语混合文本规范化 (WSDM 2014)
中英文混合文本词性标注 • 英文单词或者字母经常出现在中文文本中 • 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android” • 出现在日常的对话沟通中,包括电子邮件和即时通讯软件 • 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词 • 例子 • 提着行李在time square (NN) 的星巴克蹭网。 • 于是整个场面被我hold (VV)住了。 • 你微博忘记At (VV)他了。
中英文混合文本词性标注 • 难点 • 如何确定词性标记集?英文还是中文? • OOV如何处理? • 英文单词词性可以转换:我们出去Happy一下。
基于动态特征的序列标注方法 • 词性标注 序列标注问题 • {B, I, E, S} • {B-NN, I-NN, E-NN, S-NN, ...}. 静态特征
动态特征 • 使用词级别的特征,以帮助提高中文词性标注的准确率 • 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等 动态特征 可在纯中文语料上训练! • 如果当前字是“ Apple”, 则: • POS−1=CC • POS−2=NR • WORD−1=“和” • LEN−2=2
实验 • 模型:序列标注模型 • 标注算法:Viterbi • 训练算法:在线PA • 标记集:{B, I, E, S}
识别命名实体简称 • 命名实体简称示例 • 北京大学 北大 • 中国石油天然气集团公司 中石油 • 中国国际航空公司 国航 • 简称在文本中的比例 • 新闻文本:20%的句子含有简称 • UGC:更多 • 现有方法 • 基于数据的方法:需要大量(平行)语料 • 基于序列标注的方法:难以对长距离依赖关系建模
利用一阶谓词模型识别实体简称 • 将简称的生成建模为字的删除和保留操作 • 将语言特征和操作间关系用逻辑公式表示 • 用MLN进行参数学习和预测 Two constants: Anna (A) and Bob (B) Weight of formula i No. of true groundings of formula iin x Friends(A,B) Friends(A,A) Smokes(A) Smokes(B) Friends(B,B) Cancer(A) Cancer(B) Friends(B,A)
构建一阶谓词公式 • 局部特征 • 词汇特征:字或词的上下文,如 • character(i,c+) ^ entityType(t+) drop(i) • character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) drop(i) • 距离和位置特征,说明实体的哪个部分可以省略 • character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+) drop(i) • 后缀特征,说明简称中可以没有后缀 • character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) orsufOrg(j) orsufGov(j)) drop(i) • 全局特征:表示可以同时删去若干个字 • character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i+ 1, c2) ^ cwMap(i+ 1, j) drop(i+ 1)
实验 • 训练和测试数据 • 利用正则表达式从百度百科抓取 • 利用搜索引擎抓取 • 输入 “复旦大学 简称” • 含有5万多简称/实体对 • 工具 • 中文分词:FudanNLP • MLN:thebeast
中英文混合文本规范化 • 微博中英语单词分类统计 • 采用分而治之策略加以处理 • In-vocabulary English words:翻译成中文 • Out-of-vocabulary English words :分类,如人名,机构名……
词语翻译 翻译模型:从训练数据中计算:GIZA++ 语言模型:神经语言模型
未登录词分类 • 假设1:属于相同类别的词语有相近的上下文 • 假设2: 词语及其属性描述倾向于共现 • 采用Label propagation算法进行迭代
实验结果 测试数据 1000条微博 1200个英文词语 词语翻译 未登录词分类
CIKM 2014 • General Chairs: • Jianzhong Li: Harbin Institute of Technology, China • X. Sean Wang: Fudan University, China • PC Chairs • (DB Track)Min Wang,Google • (IR Track)IanSoboroffNIST &TorstenSuelNYU Poly • (KM Track)Minos Garofalakis,Tech Univ. Crete Abstract Submission June 4, 2014 Paper Submission June 11, 2014 Acceptance NotificationAugust 8, 2014 会议地点:上海富豪环球东亚大酒店,中国上海市衡山路516号 CIKM Cup
WSDM 2015 复旦皇冠酒店
Questions? Thanks!