1 / 19

非规范化文本处理

非规范化文本处理. 张奇 复旦大学. 非规范文本处理. 非规范 文本现象频繁出现 向大妈 学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流 。 李教授 非常 professional ,我们很 fan 他 。 中国 石油天然气有限公司  中石油 。 累觉不爱. 我们 的工作. 利用 动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) 中英语混合文本规范化 (WSDM 2014). 中英文混合 文本词性标注. 英文单词或者 字母经常出现在中文文本中

denis
Download Presentation

非规范化文本处理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 非规范化文本处理 张奇 复旦大学

  2. 非规范文本处理 • 非规范文本现象频繁出现 • 向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。 • 李教授非常professional,我们很fan他。 • 中国石油天然气有限公司中石油。 • 累觉不爱

  3. 我们的工作 • 利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) • 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) • 中英语混合文本规范化 (WSDM 2014)

  4. 中英文混合文本词性标注 • 英文单词或者字母经常出现在中文文本中 • 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android” • 出现在日常的对话沟通中,包括电子邮件和即时通讯软件 • 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词 • 例子 • 提着行李在time square (NN) 的星巴克蹭网。 • 于是整个场面被我hold (VV)住了。 • 你微博忘记At (VV)他了。

  5. 中英文混合文本词性标注 • 难点 • 如何确定词性标记集?英文还是中文? • OOV如何处理? • 英文单词词性可以转换:我们出去Happy一下。

  6. 基于动态特征的序列标注方法 • 词性标注 序列标注问题 • {B, I, E, S} • {B-NN, I-NN, E-NN, S-NN, ...}. 静态特征

  7. 动态特征 • 使用词级别的特征,以帮助提高中文词性标注的准确率 • 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等 动态特征 可在纯中文语料上训练! • 如果当前字是“ Apple”, 则: • POS−1=CC • POS−2=NR • WORD−1=“和” • LEN−2=2

  8. 实验 • 模型:序列标注模型 • 标注算法:Viterbi • 训练算法:在线PA • 标记集:{B, I, E, S}

  9. 识别命名实体简称 • 命名实体简称示例 • 北京大学 北大 • 中国石油天然气集团公司 中石油 • 中国国际航空公司 国航 • 简称在文本中的比例 • 新闻文本:20%的句子含有简称 • UGC:更多 • 现有方法 • 基于数据的方法:需要大量(平行)语料 • 基于序列标注的方法:难以对长距离依赖关系建模

  10. 利用一阶谓词模型识别实体简称 • 将简称的生成建模为字的删除和保留操作 • 将语言特征和操作间关系用逻辑公式表示 • 用MLN进行参数学习和预测 Two constants: Anna (A) and Bob (B) Weight of formula i No. of true groundings of formula iin x Friends(A,B) Friends(A,A) Smokes(A) Smokes(B) Friends(B,B) Cancer(A) Cancer(B) Friends(B,A)

  11. 构建一阶谓词公式 • 局部特征 • 词汇特征:字或词的上下文,如 • character(i,c+) ^ entityType(t+)  drop(i) • character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) drop(i) • 距离和位置特征,说明实体的哪个部分可以省略 • character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+)  drop(i) • 后缀特征,说明简称中可以没有后缀 • character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) orsufOrg(j) orsufGov(j)) drop(i) • 全局特征:表示可以同时删去若干个字 • character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i+ 1, c2) ^ cwMap(i+ 1, j) drop(i+ 1)

  12. 实验 • 训练和测试数据 • 利用正则表达式从百度百科抓取 • 利用搜索引擎抓取 • 输入 “复旦大学 简称” • 含有5万多简称/实体对 • 工具 • 中文分词:FudanNLP • MLN:thebeast

  13. 中英文混合文本规范化 • 微博中英语单词分类统计 • 采用分而治之策略加以处理 • In-vocabulary English words:翻译成中文 • Out-of-vocabulary English words :分类,如人名,机构名……

  14. 词语翻译 翻译模型:从训练数据中计算:GIZA++ 语言模型:神经语言模型

  15. 未登录词分类 • 假设1:属于相同类别的词语有相近的上下文 • 假设2: 词语及其属性描述倾向于共现 • 采用Label propagation算法进行迭代

  16. 实验结果 测试数据 1000条微博 1200个英文词语 词语翻译 未登录词分类

  17. CIKM 2014 • General Chairs: • Jianzhong Li: Harbin Institute of Technology, China • X. Sean Wang: Fudan University, China • PC Chairs • (DB Track)Min Wang,Google • (IR Track)IanSoboroffNIST &TorstenSuelNYU Poly • (KM Track)Minos Garofalakis,Tech Univ. Crete Abstract Submission June 4, 2014 Paper Submission June 11, 2014 Acceptance NotificationAugust 8, 2014 会议地点:上海富豪环球东亚大酒店,中国上海市衡山路516号 CIKM Cup

  18. WSDM 2015 复旦皇冠酒店

  19. Questions? Thanks!

More Related