BUAA-SA:
This presentation is the property of its rightful owner.
Sponsored Links
1 / 23

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告 PowerPoint PPT Presentation


  • 162 Views
  • Uploaded on
  • Presentation posted in: General

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告. 巢文涵 [email protected] 010-82338927 北京航空航天大学计算机学院 2012.11.01. 大纲. 引言 BUAA-SA 系统结构 实验 总结. 引言. BUAA-SA 是一个规则与统计相结合的情感分析系统 情感词处理 细节处理:反讽、程度词等 话题自适应 参加了三个子任务 观点句识别 极性判断 情感要素抽取. BUAA-SA 结构. 应用层. 情感分析接口. 处理层. 观点句识别. 情感倾向判断. 情感要素抽取. 基础层.

Download Presentation

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Buaa sa nlp cc 2012

BUAA-SA: NLP&CC 2012中文微博情感分析评测报告

巢文涵

[email protected]

010-82338927

北京航空航天大学计算机学院

2012.11.01


Buaa sa nlp cc 2012

大纲

  • 引言

  • BUAA-SA系统结构

  • 实验

  • 总结


Buaa sa nlp cc 2012

引言

  • BUAA-SA是一个规则与统计相结合的情感分析系统

    • 情感词处理

    • 细节处理:反讽、程度词等

    • 话题自适应

  • 参加了三个子任务

    • 观点句识别

    • 极性判断

    • 情感要素抽取


Buaa sa

BUAA-SA结构

应用层

情感分析接口

处理层

观点句识别

情感倾向判断

情感要素抽取

基础层

情感词处理

细节处理

话题自适应

数据层

话题情感要素表

原始情感词库

分级情感词库

反讽词表、程度词


Buaa sa nlp cc 2012

情感词处理

  • 数据源

    • Hownet情感词

    • 台湾大学情感词(http://nlg18.csie.ntu.edu.tw:8080/lwku/index.html)

    • 清华大学情感词(nlp.csai.tsinghua.edu.cn/site2/)

  • 极性值判断及分级

    • 将情感词的权值定义为情感词的“专注性”

      • 即如果情感词修饰的名词性成分越固定,则它在句子中表示一个修饰成分的可能性越高,其权值越高

      • 将情感词划分为5个等级


Buaa sa nlp cc 2012

细节处理

  • 讽刺

    • 就算、竟

  • 程度词

    • 增强

      • 彻头彻尾、地地道道、极度

    • 弱化

      • 有点、颇为、未免


Buaa sa nlp cc 2012

话题自适应

  • 话题评价元素获取

    • 建立一个通用的情感词种子词集

    • 根据具体的话题,从互联网爬取相关文本

    • 抽取评价对象和情感词

      • 参见:Expanding Domain Sentiment Lexicon through Double Propagation


Buaa sa nlp cc 2012

任务-1:观点句识别

  • 规则方法

    • 至少包含一个强情感词或者两个弱情感词[Y]

    • 普通情感词+话题情感词

  • 特征+SVM方法


Buaa sa nlp cc 2012

任务-1分类特征选择(续)

F1:情感词(可含话题相关情感词)

F2:不规范标点[Y]

F3:否定词

F4:程度词

F5:表情符号

F6:特殊符号[N]

F7:叹词与带有情感色彩的标点融合

F8:主张词

F9:第一、二人称代词

F10:祝愿、但愿、希望等表达愿望的词

F11:程度词+情感词

F12:否定词+程度词+情感词

F13:其它融合特征或者其它特征


Buaa sa nlp cc 2012

任务-2:极性判断

  • 规则方法

    • 对每个情感词进行分类,判断它是否表达情感

    • 对句子中的情感词加权

  • 特征+SVM方法


Buaa sa nlp cc 2012

任务-2分类特征选择(续)

句子中表情符号个数

积极表情符号的个数

消极表情符号的个数

句子是问句、陈述句、还是感叹句。。。。

情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的个数

情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的情感极值和

积极词个数

消极词个数

句子的情感词极值和

否定词的个数

感叹号个数

问号个数

非情感词的各类词性标记个数n、t、s、f、v、a、b、z、r、m、q、d、p、c、u、e、y、o、h、x、w

主题相关的情感词个数 {"n", "v", "a", "z", "d"}等话题相关的情感词对应词性标记的个数

句子包含target数量

话题总体情感倾向

话题正面情感倾向

话题负面情感倾向


Buaa sa nlp cc 2012

任务-3:情感要素抽取

候选评价对象生成

判断句子中是否包含话题相关的评价对象,如果有则直接选用它作为候选评价对象

如果没有,则对句子中的所有可能的评价对象(主要是词性为n的词)进行分类

观察候选评价对象的个数,如果为0,则选择hashTAG中出现的名词作为唯一的候选评价对象


Buaa sa nlp cc 2012

任务-3:情感要素抽取(续)

识别句子中的评价词

观察句子中是否有强烈的情感词(强情感词定义为程度为4和5的词),如果有则直接作为候选,

如果没有则把句子中情感词作为可能的评价词,如果其个数小于等于2则直接将它们作为候选,如果大于2,则进行分类


Buaa sa nlp cc 2012

任务-3:情感要素抽取(续)

生成所有候选搭配,并输出最佳结果

如果候选搭配个数小于等于2,则直接输出结果

如果候选数量大于2,则对所有候选进行分类

分类特征包括


Buaa sa nlp cc 2012

任务-3:情感要素抽取(续)

分类特征

评价对象是否在hashtag中出现

评价词是否为主题相关的评价词

评价对象与评价词之间的的依存关系

评价词极值

评价词是否与程度词存在依存关系

评价词是否与形容词存在依存关系

评价词是否与副词存在依存关系

评价词前后词汇及其词性

评价词是否存在否定依存关系

评价词一定窗口(窗口大小可设为2)内是否出现讽刺性词语。

候选搭配的个数

句子中表情符号个数

积极表情符号的个数

消极表情符号的个数


Buaa sa nlp cc 2012

实验结果

表1 观点句识别评果


Buaa sa nlp cc 2012

实验结果

表2 情感倾向性判断评测结果


Buaa sa nlp cc 2012

实验结果

表3 情感要素抽取评测结果


Buaa sa nlp cc 2012

总结

  • BUAA-SA系统参加了三个评测子任务

  • 主要的特点在于

    • 情感词的处理

    • 细节的处理

    • 话题适应性


Buaa sa nlp cc 2012

思考

话题的倾向性太强?

训练集、测试集的主观性太强?

在应用中如何提高用户的满意度?


Buaa sa nlp cc 2012

主要参考文献

  • Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009.

  • Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010.

  • 赵妍妍, 秦兵, 刘挺.文本情感分析综述. 2009.

  • 许洪波,孙乐,姚天昉(主编).第三届中文倾向性分析评测(COAE2011)论文集. 中国科学院计算技术研究所,2011.


Thank you very much

谢谢!Thank you very much!


Buaa sa nlp cc 2012

附录

北航计算机学院 信息安全与智能信息处理实验室

研究方向:

机器翻译、情感分析、自然语言处理

文本挖掘、机器学习

信息安全、内容安全、舆情分析

联系

北航新主楼G1001/G930

[email protected]; 010-82338927 (O)

欢迎各位专家莅临指导


  • Login