摘要: 针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。
中图分类号:
岳金媛,徐金安,张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报(自然科学版).
YUE Jinyuan,XU Jin’an,ZHANG Yujie. Chinese Word Segmentation for Patent Documents[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.