摘要: 提出一种基于排序学习的方法CRM (concept ranking model), 来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注, 建立训练集合, 然后利用排序学习算法在多项特征上得到对概念排序的模型, 利用这个概念的排序模型对任意文档进行概念标注。实验表明, 相对于传统的文档概念标注方法, 此方法在各类指标上都有相当大的提高, 标注结果更加接近人类的概念标注。
中图分类号:
涂新辉,何婷婷,李芳,王建文. 基于排序学习的文本概念标注方法研究[J]. 北京大学学报(自然科学版).
TU Xinhui,HE Tingting,LI Fang,WANG Jianwen. Learning to Rank Concept Annotation for Text[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.