北京大学学报自然科学版 ›› 2019, Vol. 55 ›› Issue (1): 37-46.DOI: 10.13209/j.0479-8023.2018.063
廖祥文1,2,3,†, 吴晓静1,2, 桂林1, 黄锦辉4, 陈国龙1,2
LIAO Xiangwen1,2,3,†, WU Xiaojing1,2, GUI Lin1, HUANG Jinhui4, CHEN Guolong1,2
摘要:
针对现有跨领域情感分类方法中文本表示特征忽略了重要单词与句子的情感信息, 且在迁移过程中存在负面迁移的问题, 提出一种将文本表示学习与迁移学习算法相结合的跨领域情感分类方法。首先, 利用低维稠密的词向量对文本进行初始化, 通过分层注意力网络, 对文本中重要单词与句子的情感信息进行建模, 从而学习源领域与目标领域的文档级分布式表示。随后, 采用类噪声估计方法, 对源领域中的迁移数据进行检测, 剔除负面迁移样例, 挑选高质量样例来扩充目标领域的训练集。最后, 训练支持向量机对目标领域文本进行情感分类。在大规模公开数据集上进行的两个实验结果表明, 与基准方法相比, 所提方法的均方根误差分别降低1.5%和1.0%, 说明该方法可以有效地提高跨领域情感分类性能。