BUAA-SA:
Download
1 / 23

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告 - PowerPoint PPT Presentation


  • 224 Views
  • Uploaded on

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告. 巢文涵 [email protected] 010-82338927 北京航空航天大学计算机学院 2012.11.01. 大纲. 引言 BUAA-SA 系统结构 实验 总结. 引言. BUAA-SA 是一个规则与统计相结合的情感分析系统 情感词处理 细节处理:反讽、程度词等 话题自适应 参加了三个子任务 观点句识别 极性判断 情感要素抽取. BUAA-SA 结构. 应用层. 情感分析接口. 处理层. 观点句识别. 情感倾向判断. 情感要素抽取. 基础层.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告' - acacia


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

BUAA-SA: NLP&CC 2012中文微博情感分析评测报告

巢文涵

[email protected]

010-82338927

北京航空航天大学计算机学院

2012.11.01


大纲

  • 引言

  • BUAA-SA系统结构

  • 实验

  • 总结


引言

  • BUAA-SA是一个规则与统计相结合的情感分析系统

    • 情感词处理

    • 细节处理:反讽、程度词等

    • 话题自适应

  • 参加了三个子任务

    • 观点句识别

    • 极性判断

    • 情感要素抽取


Buaa sa
BUAA-SA结构

应用层

情感分析接口

处理层

观点句识别

情感倾向判断

情感要素抽取

基础层

情感词处理

细节处理

话题自适应

数据层

话题情感要素表

原始情感词库

分级情感词库

反讽词表、程度词


情感词处理

  • 数据源

    • Hownet情感词

    • 台湾大学情感词(http://nlg18.csie.ntu.edu.tw:8080/lwku/index.html)

    • 清华大学情感词(nlp.csai.tsinghua.edu.cn/site2/)

  • 极性值判断及分级

    • 将情感词的权值定义为情感词的“专注性”

      • 即如果情感词修饰的名词性成分越固定,则它在句子中表示一个修饰成分的可能性越高,其权值越高

      • 将情感词划分为5个等级


细节处理

  • 讽刺

    • 就算、竟

  • 程度词

    • 增强

      • 彻头彻尾、地地道道、极度

    • 弱化

      • 有点、颇为、未免


话题自适应

  • 话题评价元素获取

    • 建立一个通用的情感词种子词集

    • 根据具体的话题,从互联网爬取相关文本

    • 抽取评价对象和情感词

      • 参见:Expanding Domain Sentiment Lexicon through Double Propagation


任务-1:观点句识别

  • 规则方法

    • 至少包含一个强情感词或者两个弱情感词[Y]

    • 普通情感词+话题情感词

  • 特征+SVM方法


任务-1分类特征选择(续)

F1:情感词(可含话题相关情感词)

F2:不规范标点[Y]

F3:否定词

F4:程度词

F5:表情符号

F6:特殊符号[N]

F7:叹词与带有情感色彩的标点融合

F8:主张词

F9:第一、二人称代词

F10:祝愿、但愿、希望等表达愿望的词

F11:程度词+情感词

F12:否定词+程度词+情感词

F13:其它融合特征或者其它特征


任务-2:极性判断

  • 规则方法

    • 对每个情感词进行分类,判断它是否表达情感

    • 对句子中的情感词加权

  • 特征+SVM方法


任务-2分类特征选择(续)

句子中表情符号个数

积极表情符号的个数

消极表情符号的个数

句子是问句、陈述句、还是感叹句。。。。

情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的个数

情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的情感极值和

积极词个数

消极词个数

句子的情感词极值和

否定词的个数

感叹号个数

问号个数

非情感词的各类词性标记个数n、t、s、f、v、a、b、z、r、m、q、d、p、c、u、e、y、o、h、x、w

主题相关的情感词个数 {"n", "v", "a", "z", "d"}等话题相关的情感词对应词性标记的个数

句子包含target数量

话题总体情感倾向

话题正面情感倾向

话题负面情感倾向


任务-3:情感要素抽取

候选评价对象生成

判断句子中是否包含话题相关的评价对象,如果有则直接选用它作为候选评价对象

如果没有,则对句子中的所有可能的评价对象(主要是词性为n的词)进行分类

观察候选评价对象的个数,如果为0,则选择hashTAG中出现的名词作为唯一的候选评价对象


任务-3:情感要素抽取(续)

识别句子中的评价词

观察句子中是否有强烈的情感词(强情感词定义为程度为4和5的词),如果有则直接作为候选,

如果没有则把句子中情感词作为可能的评价词,如果其个数小于等于2则直接将它们作为候选,如果大于2,则进行分类


任务-3:情感要素抽取(续)

生成所有候选搭配,并输出最佳结果

如果候选搭配个数小于等于2,则直接输出结果

如果候选数量大于2,则对所有候选进行分类

分类特征包括


任务-3:情感要素抽取(续)

分类特征

评价对象是否在hashtag中出现

评价词是否为主题相关的评价词

评价对象与评价词之间的的依存关系

评价词极值

评价词是否与程度词存在依存关系

评价词是否与形容词存在依存关系

评价词是否与副词存在依存关系

评价词前后词汇及其词性

评价词是否存在否定依存关系

评价词一定窗口(窗口大小可设为2)内是否出现讽刺性词语。

候选搭配的个数

句子中表情符号个数

积极表情符号的个数

消极表情符号的个数


实验结果

表1 观点句识别评果


实验结果

表2 情感倾向性判断评测结果


实验结果

表3 情感要素抽取评测结果


总结

  • BUAA-SA系统参加了三个评测子任务

  • 主要的特点在于

    • 情感词的处理

    • 细节的处理

    • 话题适应性


思考

话题的倾向性太强?

训练集、测试集的主观性太强?

在应用中如何提高用户的满意度?


主要参考文献

  • Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009.

  • Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010.

  • 赵妍妍, 秦兵, 刘挺.文本情感分析综述. 2009.

  • 许洪波,孙乐,姚天昉(主编).第三届中文倾向性分析评测(COAE2011)论文集. 中国科学院计算技术研究所,2011.


Thank you very much
谢谢!Thank you very much!


附录

北航计算机学院 信息安全与智能信息处理实验室

研究方向:

机器翻译、情感分析、自然语言处理

文本挖掘、机器学习

信息安全、内容安全、舆情分析

联系

北航新主楼G1001/G930

[email protected]; 010-82338927 (O)

欢迎各位专家莅临指导


ad