北京大学学报自然科学版 ›› 2019, Vol. 55 ›› Issue (1): 98-104.DOI: 10.13209/j.0479-8023.2018.054
闫雷鸣†, 严璐绮, 王超智, 贺嘉会, 吴宏煜
YAN Leiming†, YAN Luqi , WANG Chaozhi, HE Jiahui , WU Hongyu
摘要:
针对多类别的社交媒体短文本分类准确率较低问题, 提出一种学习多种句式的元学习方法, 用于改善Twitter文本分类性能。将Twitter文本聚类为多种句式, 各句式结合原类标签, 成为多样化的新类别, 从而原分类问题转化为较多类别的few-shot学习问题, 并通过训练深层网络来学习句式原型编码。用多个三分类Twitter数据来检验所提Meta-CNN方法 , 结果显示, 该方法的学习策略简单有效, 即便在样本数量不多的情况下, 与传统机器学习分类器和部分深度学习分类方法相比, Meta-CNN仍能获得较好的分类准确率和较高的F1值。