北京大学学报(自然科学版) ›› 2018, Vol. 54 ›› Issue (2): 262-270.DOI: 10.13209/j.0479-8023.2017.157
吕书宁1, 董志安2,†
LÜ Shuning1, DONG Zhian2,†
摘要:
首次提出利用URL-Key进行领域术语识别的方法。以URL作为媒介, 借助已知URL-Key的领域性来判断未知领域候选术语的领域性。首先, 借助互联网中已有的人工分类领域URL, 根据URL-Key在各领域汇总使用的频度, 采用基于方差的领域URL-Key识别方法, 构建领域URL-Key词表; 然后, 利用伪反馈技术, 收集候选领域词检索得到的URL结果集, 根据URL结果集构建候选领域术语的URL-Key特征向量; 最后, 利用SVM对候选领域术语进行提取。在4个领域进行实验, 都取得不错的效果。新提出的方法可以有效地解决低频术语识别问题, 为低频术语的识别提供新的思路。
中图分类号: