非规范化文本处理
Download
1 / 19

非规范化文本处理 - PowerPoint PPT Presentation


  • 195 Views
  • Uploaded on

非规范化文本处理. 张奇 复旦大学. 非规范文本处理. 非规范 文本现象频繁出现 向大妈 学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流 。 李教授 非常 professional ,我们很 fan 他 。 中国 石油天然气有限公司  中石油 。 累觉不爱. 我们 的工作. 利用 动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) 中英语混合文本规范化 (WSDM 2014). 中英文混合 文本词性标注. 英文单词或者 字母经常出现在中文文本中

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 非规范化文本处理' - denis


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

非规范化文本处理

张奇

复旦大学


非规范文本处理

  • 非规范文本现象频繁出现

    • 向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。

    • 李教授非常professional,我们很fan他。

    • 中国石油天然气有限公司中石油。

    • 累觉不爱


我们的工作

  • 利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012)

  • 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013)

  • 中英语混合文本规范化 (WSDM 2014)


中英文混合文本词性标注

  • 英文单词或者字母经常出现在中文文本中

    • 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android”

    • 出现在日常的对话沟通中,包括电子邮件和即时通讯软件

    • 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词

  • 例子

    • 提着行李在time square (NN) 的星巴克蹭网。

    • 于是整个场面被我hold (VV)住了。

    • 你微博忘记At (VV)他了。


中英文混合文本词性标注

  • 难点

    • 如何确定词性标记集?英文还是中文?

    • OOV如何处理?

    • 英文单词词性可以转换:我们出去Happy一下。


基于动态特征的序列标注方法

  • 词性标注 序列标注问题

    • {B, I, E, S}

    • {B-NN, I-NN, E-NN, S-NN, ...}.

静态特征


动态特征

  • 使用词级别的特征,以帮助提高中文词性标注的准确率

  • 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等

动态特征

可在纯中文语料上训练!

  • 如果当前字是“ Apple”, 则:

    • POS−1=CC

    • POS−2=NR

    • WORD−1=“和”

    • LEN−2=2


实验

  • 模型:序列标注模型

  • 标注算法:Viterbi

  • 训练算法:在线PA

  • 标记集:{B, I, E, S}


识别命名实体简称

  • 命名实体简称示例

    • 北京大学 北大

    • 中国石油天然气集团公司 中石油

    • 中国国际航空公司 国航

  • 简称在文本中的比例

    • 新闻文本:20%的句子含有简称

    • UGC:更多

  • 现有方法

    • 基于数据的方法:需要大量(平行)语料

    • 基于序列标注的方法:难以对长距离依赖关系建模


利用一阶谓词模型识别实体简称

  • 将简称的生成建模为字的删除和保留操作

  • 将语言特征和操作间关系用逻辑公式表示

  • 用MLN进行参数学习和预测

Two constants: Anna (A) and Bob (B)

Weight of formula i

No. of true groundings of formula iin x

Friends(A,B)

Friends(A,A)

Smokes(A)

Smokes(B)

Friends(B,B)

Cancer(A)

Cancer(B)

Friends(B,A)


构建一阶谓词公式

  • 局部特征

    • 词汇特征:字或词的上下文,如

      • character(i,c+) ^ entityType(t+)  drop(i)

      • character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) drop(i)

    • 距离和位置特征,说明实体的哪个部分可以省略

      • character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+)  drop(i)

    • 后缀特征,说明简称中可以没有后缀

      • character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) orsufOrg(j) orsufGov(j)) drop(i)

  • 全局特征:表示可以同时删去若干个字

    • character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i+ 1, c2) ^ cwMap(i+ 1, j) drop(i+ 1)


实验

  • 训练和测试数据

    • 利用正则表达式从百度百科抓取

    • 利用搜索引擎抓取

      • 输入 “复旦大学 简称”

    • 含有5万多简称/实体对

  • 工具

    • 中文分词:FudanNLP

    • MLN:thebeast


中英文混合文本规范化

  • 微博中英语单词分类统计

  • 采用分而治之策略加以处理

    • In-vocabulary English words:翻译成中文

    • Out-of-vocabulary English words :分类,如人名,机构名……


词语翻译

翻译模型:从训练数据中计算:GIZA++

语言模型:神经语言模型


未登录词分类

  • 假设1:属于相同类别的词语有相近的上下文

  • 假设2: 词语及其属性描述倾向于共现

  • 采用Label propagation算法进行迭代


实验结果

测试数据

1000条微博

1200个英文词语

词语翻译

未登录词分类


Cikm 2014
CIKM 2014

  • General Chairs:

    • Jianzhong Li: Harbin Institute of Technology, China

    • X. Sean Wang: Fudan University, China

  • PC Chairs

    • (DB Track)Min Wang,Google

    • (IR Track)IanSoboroffNIST &TorstenSuelNYU Poly

    • (KM Track)Minos Garofalakis,Tech Univ. Crete

Abstract Submission June 4, 2014

Paper Submission June 11, 2014

Acceptance NotificationAugust 8, 2014

会议地点:上海富豪环球东亚大酒店,中国上海市衡山路516号

CIKM Cup


Wsdm 2015
WSDM 2015

复旦皇冠酒店


Questions?

Thanks!


ad