Acta Scientiarum Naturalium Universitatis Pekinensis ›› 2017, Vol. 53 ›› Issue (2): 247-254.DOI: 10.13209/j.0479-8023.2017.031
• Orginal Article • Previous Articles Next Articles
Received:
2016-08-02
Revised:
2016-09-25
Online:
2017-03-20
Published:
2017-03-20
Contact:
Rui XIA
通讯作者:
夏睿
基金资助:
CLC Number:
Jie JIANG, Rui XIA. Microblog Sentiment Classification via Combining Rule-based and Machine Learning Methods[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 247-254.
姜杰, 夏睿. 机器学习与语义规则融合的微博情感分类方法[J]. 北京大学学报自然科学版, 2017, 53(2): 247-254.
Add to citation manager EndNote|Ris|BibTeX
URL: https://xbna.pku.edu.cn/EN/10.13209/j.0479-8023.2017.031
词典名称 | 来源和内容 |
---|---|
基础词典(有强度标记) | 对大连理工大学中文情感词汇本体库的情感词强度归一化处理后, 作为有强度标记的基础情感词典 |
基础词典(无强度标记) | 合并了台湾大学中文情感极性词典(NTUSD)、清华大学李军中文褒贬义词典(TSING)、知网词典 (HOWNET) 3个情感词典作为无强度标记的基础情感词典 |
网络词典 | 将积累的带有情感倾向性的网络词汇(如“给力”、“坑爹”、“逗比”等)标记强度, 作为网络情感词典 |
表情情感词典 | 对新浪微博热门表情词标注后, 作为表情情感词典 |
程度词典和否定词典 | 采用知网词典(HOWNET)中的程度词典和否定词典, 用于分析不同语境下的情感变化 |
Table 1 Sentiment lexicons
词典名称 | 来源和内容 |
---|---|
基础词典(有强度标记) | 对大连理工大学中文情感词汇本体库的情感词强度归一化处理后, 作为有强度标记的基础情感词典 |
基础词典(无强度标记) | 合并了台湾大学中文情感极性词典(NTUSD)、清华大学李军中文褒贬义词典(TSING)、知网词典 (HOWNET) 3个情感词典作为无强度标记的基础情感词典 |
网络词典 | 将积累的带有情感倾向性的网络词汇(如“给力”、“坑爹”、“逗比”等)标记强度, 作为网络情感词典 |
表情情感词典 | 对新浪微博热门表情词标注后, 作为表情情感词典 |
程度词典和否定词典 | 采用知网词典(HOWNET)中的程度词典和否定词典, 用于分析不同语境下的情感变化 |
序号 | 规则名称 | 规则解释 |
---|---|---|
1 | 固定情感句 | 一些带有较强的情感极性的、以网络流行语和熟语为主的固定情感句, 如“我就呵呵了”、“便宜没好货”等, 经过分词拆分可能损失情感信息。本文在分词前就在文本中检测匹配这些固定情感句 |
2 | 表情词 | 表情词是微博常见的特有的符号, 能直接地反映情感倾向。匹配到词典中存在的表情词后, 直接赋予相应得分 |
3 | 否定 | 检测到情感词后, 在设定的窗口范围内搜索否定词。如果找到否定词, 则对情感词极性和强度进行反转 |
4 | 强化(减弱) | 程度词对情感词有强化或减弱的作用。对程度词典进行强化与减弱的系数标注。例如, 分词后的例句“这个 电影 真心 好看”中“好看”的情感得分 0.5, 经过加强系数为 0.8的“真心”修饰后, 情感得分变为(1+0.8)×0.5 = 0.9 |
5 | 转折 | 转折词分为两种: 前置转折词(如“尽管”、“虽然”等)和后置转折词(如“但是”、“可是”等)。本文对前置转折词后面剩余的子句内容情感得分进行整体削弱, 对后置转折词则进行整体加强 |
6 | 褒贬性名词与语 义偏移型名词 | 文献[ |
Table 2 Semantic rules for sentiment analysis
序号 | 规则名称 | 规则解释 |
---|---|---|
1 | 固定情感句 | 一些带有较强的情感极性的、以网络流行语和熟语为主的固定情感句, 如“我就呵呵了”、“便宜没好货”等, 经过分词拆分可能损失情感信息。本文在分词前就在文本中检测匹配这些固定情感句 |
2 | 表情词 | 表情词是微博常见的特有的符号, 能直接地反映情感倾向。匹配到词典中存在的表情词后, 直接赋予相应得分 |
3 | 否定 | 检测到情感词后, 在设定的窗口范围内搜索否定词。如果找到否定词, 则对情感词极性和强度进行反转 |
4 | 强化(减弱) | 程度词对情感词有强化或减弱的作用。对程度词典进行强化与减弱的系数标注。例如, 分词后的例句“这个 电影 真心 好看”中“好看”的情感得分 0.5, 经过加强系数为 0.8的“真心”修饰后, 情感得分变为(1+0.8)×0.5 = 0.9 |
5 | 转折 | 转折词分为两种: 前置转折词(如“尽管”、“虽然”等)和后置转折词(如“但是”、“可是”等)。本文对前置转折词后面剩余的子句内容情感得分进行整体削弱, 对后置转折词则进行整体加强 |
6 | 褒贬性名词与语 义偏移型名词 | 文献[ |
序号 | 规则名称 | 规则解释 |
---|---|---|
1 | N-gram | N-gram语言模型基于这样一种假设: 在一句话中, 第n个词的出现只与前n-1个词相关, 整个句子出现的概率就是各个词出现概率的乘积。假设一个经过分词处理的文本字符串为“功能 略微 强大”, 我们提取出unigram特征“功能”、“略微”、“强大”和bigram特征“功能-略微”、“略微-强大” |
2 | 表情符号 | 表情符号是微博文本中特有的元素, 与情感表达有着十分密切的联系。虽然表情符号和其他词共同出现在文本中, 但我们将其抽取出来作为单独的特征, 不与N-gram特征相混合 |
3 | 标点符号 | 标点符号中的感叹号和问号往往伴随着情感信息, 连续的叹号和问号反映情感的强烈程度。因此, 我们将单个感叹号、问号的数量, 连续感叹号或问号(如“!!!”、“???”、“?!?”)的数量都加入特征模板 |
4 | 语义特征 | 我们定义语义特征为与情感表达存在关联的词语, 包括主观指示词数量(如“觉得”、“认为”)、虚拟指示词数量(如“假如”、“要是”)、语气词数量(如“啊”、“哇”)、第一人称词数量(如“我”、“我们”)以及否定词的数量(如“不”、“没有”) |
Table 3 Basic feature set template FS-1
序号 | 规则名称 | 规则解释 |
---|---|---|
1 | N-gram | N-gram语言模型基于这样一种假设: 在一句话中, 第n个词的出现只与前n-1个词相关, 整个句子出现的概率就是各个词出现概率的乘积。假设一个经过分词处理的文本字符串为“功能 略微 强大”, 我们提取出unigram特征“功能”、“略微”、“强大”和bigram特征“功能-略微”、“略微-强大” |
2 | 表情符号 | 表情符号是微博文本中特有的元素, 与情感表达有着十分密切的联系。虽然表情符号和其他词共同出现在文本中, 但我们将其抽取出来作为单独的特征, 不与N-gram特征相混合 |
3 | 标点符号 | 标点符号中的感叹号和问号往往伴随着情感信息, 连续的叹号和问号反映情感的强烈程度。因此, 我们将单个感叹号、问号的数量, 连续感叹号或问号(如“!!!”、“???”、“?!?”)的数量都加入特征模板 |
4 | 语义特征 | 我们定义语义特征为与情感表达存在关联的词语, 包括主观指示词数量(如“觉得”、“认为”)、虚拟指示词数量(如“假如”、“要是”)、语气词数量(如“啊”、“哇”)、第一人称词数量(如“我”、“我们”)以及否定词的数量(如“不”、“没有”) |
语料 | Rule-Method-1 | Rule-Method-2 |
---|---|---|
COAE | 65.24 | 67.10 |
NLP&CC | 76.65 | 79.38 |
Table 4 Performance of different lexicon-based methods %
语料 | Rule-Method-1 | Rule-Method-2 |
---|---|---|
COAE | 65.24 | 67.10 |
NLP&CC | 76.65 | 79.38 |
语料 | N-gram | LR | NB | SVM |
---|---|---|---|---|
COAE | token-unigram (all) | 69.9068 | 69.0144 | 68.8221 |
+ token-bigram | 70.2283 (500) | 70.5539 (500) | 69.0114 (500) | |
+ pos-unigram | 69.9068 (0) | 69.0144 (0) | 68.8221 (0) | |
+ pos-bigram | 70.2293 (10) | 69.9088 (15) | 68.8221 (0) | |
NLP&CC | token-unigram (all) | 80.5998 | 80.9283 | 81.6158 |
+ token-bigram | 81.2977 (1000) | 80.9283 (0) | 81.8700 (500) | |
+ pos-unigram | 81.1441 (10) | 80.9283 (0) | 81.6158 (0) | |
+ pos-bigram | 80.5998 (0) | 81.0727 (5) | 81.6158 (0) |
Table 5 Performance of N-gram language mode %
语料 | N-gram | LR | NB | SVM |
---|---|---|---|---|
COAE | token-unigram (all) | 69.9068 | 69.0144 | 68.8221 |
+ token-bigram | 70.2283 (500) | 70.5539 (500) | 69.0114 (500) | |
+ pos-unigram | 69.9068 (0) | 69.0144 (0) | 68.8221 (0) | |
+ pos-bigram | 70.2293 (10) | 69.9088 (15) | 68.8221 (0) | |
NLP&CC | token-unigram (all) | 80.5998 | 80.9283 | 81.6158 |
+ token-bigram | 81.2977 (1000) | 80.9283 (0) | 81.8700 (500) | |
+ pos-unigram | 81.1441 (10) | 80.9283 (0) | 81.6158 (0) | |
+ pos-bigram | 80.5998 (0) | 81.0727 (5) | 81.6158 (0) |
语料 | LR | NB | SVM | ENSEMBLE |
---|---|---|---|---|
COAE | 69.9068 | 69.0144 | 68.8221 | 70.7682 |
NL&PCC | 80.5998 | 80.9283 | 81.6158 | 81.8605 |
Table 6 Accuracy of different classification models %
语料 | LR | NB | SVM | ENSEMBLE |
---|---|---|---|---|
COAE | 69.9068 | 69.0144 | 68.8221 | 70.7682 |
NL&PCC | 80.5998 | 80.9283 | 81.6158 | 81.8605 |
语料 | 特征模板 | LR | NB | SVM | ENSEMBLE |
---|---|---|---|---|---|
COAE | 基本特征+累加情感得分特征 | 72.85 | 70.54 | 70.80 | 72.02 |
基本特征+规则情感特征 | 74.51 | 74.75 | 72.32 | 74.75 | |
NLPCC | 基本特征+累加情感得分特征 | 82.81 | 81.94 | 82.41 | 83.35 |
基本特征+规则情感特征 | 84.55 | 84.58 | 83.86 | 85.56 |
Table 7 Compare of features based on Rule-Method-1 and Rule-Method-2 %
语料 | 特征模板 | LR | NB | SVM | ENSEMBLE |
---|---|---|---|---|---|
COAE | 基本特征+累加情感得分特征 | 72.85 | 70.54 | 70.80 | 72.02 |
基本特征+规则情感特征 | 74.51 | 74.75 | 72.32 | 74.75 | |
NLPCC | 基本特征+累加情感得分特征 | 82.81 | 81.94 | 82.41 | 83.35 |
基本特征+规则情感特征 | 84.55 | 84.58 | 83.86 | 85.56 |
语料 | 规则情感特征 | LR | NB | SVM | ENSEMBLE |
---|---|---|---|---|---|
COAE | 无规则情感特征 | 69.90 | 69.01 | 68.82 | 70.76 |
使用全部情感特征 | 74.51 | 74.75 | 72.32 | 74.75 | |
剔除情感得分 | 73.65 | 73.13 | 71.85 | 73.82 | |
剔除表情得分 | 73.09 | 72.71 | 71.75 | 73.24 | |
剔除褒贬情感词数 | 74.21 | 73.93 | 72.01 | 74.38 | |
剔除褒贬子句数 | 73.42 | 72.08 | 71.20 | 73.45 | |
NLPCC | 无规则情感特征 | 80.59 | 80.92 | 81.61 | 81.86 |
使用全部情感特征 | 84.55 | 84.58 | 83.86 | 85.56 | |
剔除情感得分 | 83.22 | 83.37 | 81.97 | 83.33 | |
剔除表情得分 | 83.66 | 83.80 | 82.89 | 84.06 | |
剔除褒贬情感词数 | 84.40 | 84.51 | 83.64 | 84.49 | |
剔除褒贬子句数 | 84.38 | 84.50 | 83.79 | 84.21 |
Table 8 Contributions of different rule-based features %
语料 | 规则情感特征 | LR | NB | SVM | ENSEMBLE |
---|---|---|---|---|---|
COAE | 无规则情感特征 | 69.90 | 69.01 | 68.82 | 70.76 |
使用全部情感特征 | 74.51 | 74.75 | 72.32 | 74.75 | |
剔除情感得分 | 73.65 | 73.13 | 71.85 | 73.82 | |
剔除表情得分 | 73.09 | 72.71 | 71.75 | 73.24 | |
剔除褒贬情感词数 | 74.21 | 73.93 | 72.01 | 74.38 | |
剔除褒贬子句数 | 73.42 | 72.08 | 71.20 | 73.45 | |
NLPCC | 无规则情感特征 | 80.59 | 80.92 | 81.61 | 81.86 |
使用全部情感特征 | 84.55 | 84.58 | 83.86 | 85.56 | |
剔除情感得分 | 83.22 | 83.37 | 81.97 | 83.33 | |
剔除表情得分 | 83.66 | 83.80 | 82.89 | 84.06 | |
剔除褒贬情感词数 | 84.40 | 84.51 | 83.64 | 84.49 | |
剔除褒贬子句数 | 84.38 | 84.50 | 83.79 | 84.21 |
系统 | 正确率/% |
---|---|
平均 | 50.85 |
本文(最好) | 58.80 |
Table 9 Submission Result of COAE-2015 Task-1(restricted resource)
系统 | 正确率/% |
---|---|
平均 | 50.85 |
本文(最好) | 58.80 |
[1] | Turney P D. Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th annual meeting on association for computational linguistics. Philadel-phia, 2002: 417-424 |
[2] | Taboada M, Brooke J, Tofiloski M, et al.Lexicon-based methods for sentiment analysis. Computational Linguistics, 2011, 37(2): 267-307 |
[3] | 周红照, 侯明午, 颜彭莉, 等. 语义特征在评价对象抽取与极性判定中的作用. 北京大学学报: 自然科学版, 2014, 50(1): 93-99 |
[4] | Jijkoun V, de Rijke M, Weerkamp W. Generating focused topic-specific sentiment lexicons // Procee-dings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, 2010: 585-594 |
[5] | Mohammad S M, Kiritchenko S, Zhu X.NRC-Canada: building the state-of-the-art in sentiment analysis of tweets // Proceedings of the 7th Inter-national Workshop on Semantic Evaluation (SemEval). Atlanta, 2013: 321-327 |
[6] | Pang B, Lee L, Vaithyanathan S.Thumbs up?: sentiment classification using machine learning tech-niques // Proceedings of Empirical Methods in Natural Language. Philadelphia, 2002: 79-86 |
[7] | 刘志明, 刘鲁. 基于机器学习的中文微博情感分类实证研究. 计算机工程与应用, 2012, 48(1): 1-4 |
[8] | Kouloumpis E, Wilson T, Moore J D.Twitter sentiment analysis: the good the bad and the omg! // Proceedings of the Fifth International AAAI Confe-rence on Weblogs and Social Media. Barcelona, 2011: 538-541 |
[9] | 夏睿, 宗成庆. 情感文本分类混合模型及特征扩展策略. 智能系统学报, 2011, 6(6): 483-488 |
[10] | Cui H, Mittal V, Datar M.Comparative experiments on sentiment classification for online product reviews // Proceedings of the Twenty-First National Confe-rence on Artificial Intelligence. Boston, 2006: 1265-1270 |
[11] | 赵妍研, 秦兵, 刘挺. 文本情感分析. 软件学报, 2010, 21(8): 1834-1848 |
[12] | Jiang L, Yu M, Zhou M, et al.Target-dependent twitter sentiment classification // Proceedings of the 49th Annual Meeting of the Association for Compu-tational Linguistics. Portland, 2011: 151-160 |
[13] | Xia R, Zong C, Li S.Ensemble of feature sets and classification algorithms for sentiment classification. Information Sciences, 2011, 181(6): 1138-1152 |
[14] | Go A, Bhayani R, Huang L.Twitter sentiment classification using distant supervision [R]. CS224N Project Report, Stanford, 2009 |
[15] | Liu K L, Li W J, Guo M.Emoticon smoothed language models for Twitter sentiment analysis // AAAI. Toronto, 2012: 1678-1684 |
[16] | Tang D, Wei F, Yang N, et al.Learning sentiment-specific word embedding for twitter sentiment classi-fication // Meeting of the Association for Compu-tational Linguistics. Baltimore, 2014: 1555-1565 |
[17] | Tang D, Wei F, Qin B, et al.Coooolll: a deep learning system for Twitter sentiment classification // Procee-dings of the 8th International Workshop on Semantic Evaluation (SemEval). Dublin, 2014: 208-212 |
[18] | Vo D T, Zhang Y.Target-dependent twitter sentiment classification with rich automatic features // Pro-ceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence (IJCAI). Buenos Aires, 2015: 1347-1353 |
[19] | 谢丽星, 周明, 孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取. 中文信息学报, 2012, 26(1): 73-83 |
[20] | Qiu L, Zhang W, Hu C, et al.SELC: a self-supervised model for sentiment classification // Proceedings of the 18th ACM conference on Information and know-ledge management. Hong Kong, 2009: 929-936 |
[1] | LIU Zhe, ZHAO Weilun, TIAN Xiaoqing, SANG Yueyang, QU Yonglin, REN Jingjing, LI Chengcai. Retrieval of Ground PM2.5 Concentrations in Eastern China Using Data from Himawari-8 Satellite [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(3): 443-452. |
[2] | ZHANG Bin, LÜ Baolei, WANG Xinlu, ZHANG Wenxian, HU Yongtao. Improving Air Quality Forecast Accuracy in Urumqi-Changji-Shihezi Region Using an Ensemble Deep Learning Approach [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(5): 931-938. |
[3] | HAI Xiaodong, LIU Yunshu, ZHAO Pengjun, ZHANG Hui. Using Mobile Phone Data to Estimate the Temporal-Spatial Distribution and Socioeconomic Attributes of Population in Megacities: A Case Study of Beijing [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(3): 518-530. |
[4] |
CAI Zhenyu, GE Zengxi.
Using Artificial Intelligence to Pick P-Wave First-Arrival of the Microseisms: Taking the Aftershock Sequence of Wenchuan Earthquake as an Example
[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(3): 451-460.
|
Viewed | ||||||||||||||||||||||||||||||||||||||||||||||||||
Full text 883
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||
Abstract 1279
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||