slide1
Download
Skip this Video
Download Presentation
非规范化文本处理

Loading in 2 Seconds...

play fullscreen
1 / 19

非规范化文本处理 - PowerPoint PPT Presentation


  • 196 Views
  • Uploaded on

非规范化文本处理. 张奇 复旦大学. 非规范文本处理. 非规范 文本现象频繁出现 向大妈 学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流 。 李教授 非常 professional ,我们很 fan 他 。 中国 石油天然气有限公司  中石油 。 累觉不爱. 我们 的工作. 利用 动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) 中英语混合文本规范化 (WSDM 2014). 中英文混合 文本词性标注. 英文单词或者 字母经常出现在中文文本中

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 非规范化文本处理' - denis


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

非规范化文本处理

张奇

复旦大学

slide2
非规范文本处理
  • 非规范文本现象频繁出现
    • 向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。
    • 李教授非常professional,我们很fan他。
    • 中国石油天然气有限公司中石油。
    • 累觉不爱
slide3
我们的工作
  • 利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012)
  • 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013)
  • 中英语混合文本规范化 (WSDM 2014)
slide4
中英文混合文本词性标注
  • 英文单词或者字母经常出现在中文文本中
    • 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android”
    • 出现在日常的对话沟通中,包括电子邮件和即时通讯软件
    • 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词
  • 例子
    • 提着行李在time square (NN) 的星巴克蹭网。
    • 于是整个场面被我hold (VV)住了。
    • 你微博忘记At (VV)他了。
slide5
中英文混合文本词性标注
  • 难点
    • 如何确定词性标记集?英文还是中文?
    • OOV如何处理?
    • 英文单词词性可以转换:我们出去Happy一下。
slide6
基于动态特征的序列标注方法
  • 词性标注 序列标注问题
    • {B, I, E, S}
    • {B-NN, I-NN, E-NN, S-NN, ...}.

静态特征

slide7
动态特征
  • 使用词级别的特征,以帮助提高中文词性标注的准确率
  • 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等

动态特征

可在纯中文语料上训练!

  • 如果当前字是“ Apple”, 则:
    • POS−1=CC
    • POS−2=NR
    • WORD−1=“和”
    • LEN−2=2
slide8
实验
  • 模型:序列标注模型
  • 标注算法:Viterbi
  • 训练算法:在线PA
  • 标记集:{B, I, E, S}
slide9
识别命名实体简称
  • 命名实体简称示例
    • 北京大学 北大
    • 中国石油天然气集团公司 中石油
    • 中国国际航空公司 国航
  • 简称在文本中的比例
    • 新闻文本:20%的句子含有简称
    • UGC:更多
  • 现有方法
    • 基于数据的方法:需要大量(平行)语料
    • 基于序列标注的方法:难以对长距离依赖关系建模
slide10
利用一阶谓词模型识别实体简称
  • 将简称的生成建模为字的删除和保留操作
  • 将语言特征和操作间关系用逻辑公式表示
  • 用MLN进行参数学习和预测

Two constants: Anna (A) and Bob (B)

Weight of formula i

No. of true groundings of formula iin x

Friends(A,B)

Friends(A,A)

Smokes(A)

Smokes(B)

Friends(B,B)

Cancer(A)

Cancer(B)

Friends(B,A)

slide11
构建一阶谓词公式
  • 局部特征
    • 词汇特征:字或词的上下文,如
      • character(i,c+) ^ entityType(t+)  drop(i)
      • character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) drop(i)
    • 距离和位置特征,说明实体的哪个部分可以省略
      • character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+)  drop(i)
    • 后缀特征,说明简称中可以没有后缀
      • character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) orsufOrg(j) orsufGov(j)) drop(i)
  • 全局特征:表示可以同时删去若干个字
    • character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i+ 1, c2) ^ cwMap(i+ 1, j) drop(i+ 1)
slide12
实验
  • 训练和测试数据
    • 利用正则表达式从百度百科抓取
    • 利用搜索引擎抓取
      • 输入 “复旦大学 简称”
    • 含有5万多简称/实体对
  • 工具
    • 中文分词:FudanNLP
    • MLN:thebeast
slide13
中英文混合文本规范化
  • 微博中英语单词分类统计
  • 采用分而治之策略加以处理
    • In-vocabulary English words:翻译成中文
    • Out-of-vocabulary English words :分类,如人名,机构名……
slide14
词语翻译

翻译模型:从训练数据中计算:GIZA++

语言模型:神经语言模型

slide15
未登录词分类
  • 假设1:属于相同类别的词语有相近的上下文
  • 假设2: 词语及其属性描述倾向于共现
  • 采用Label propagation算法进行迭代
slide16
实验结果

测试数据

1000条微博

1200个英文词语

词语翻译

未登录词分类

cikm 2014
CIKM 2014
  • General Chairs:
    • Jianzhong Li: Harbin Institute of Technology, China
    • X. Sean Wang: Fudan University, China
  • PC Chairs
    • (DB Track)Min Wang,Google
    • (IR Track)IanSoboroffNIST &TorstenSuelNYU Poly
    • (KM Track)Minos Garofalakis,Tech Univ. Crete

Abstract Submission June 4, 2014

Paper Submission June 11, 2014

Acceptance NotificationAugust 8, 2014

会议地点:上海富豪环球东亚大酒店,中国上海市衡山路516号

CIKM Cup

wsdm 2015
WSDM 2015

复旦皇冠酒店

slide19

Questions?

Thanks!

ad