摘要: 以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
中图分类号:
饶高琦,修驰,荀恩东. 语料库自然标注信息与中文分词应用研究[J]. 北京大学学报(自然科学版).
RAO Gaoqi,XIU Chi,XUN Endong. Natural Annotation Research in Large-Scale Corpora with a Focus on Chinese Word Segmentation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.