摘要: 将文本分类技术引入唐诗研究。首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类, 并据此提出唐诗题材自动分类模型。所选500首诗歌样本以《唐诗三百首》为基础, 并有所补充。采用向量空间模型(VSM)将唐诗文本转换为向量, 通过卡方检验进行词语特征选择, 最后基于朴素贝叶斯和支持向量机算法构造文本分类器, 取得较好的题材分类效果。此外, 还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设, 为相关诗歌本体研究提供了科学依据。
中图分类号:
胡韧奋,诸雨辰. 唐诗题材自动分类研究[J]. 北京大学学报(自然科学版).
HU Renfen,ZHU Yuchen. Automatic Classification of Tang Poetry Themes[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.