Natural Annotation Research in Large-Scale Corpora with a Focus on Chinese Word Segmentation

Acta Scientiarum Naturalium Universitatis Pekinensis

Previous Articles Next Articles

Natural Annotation Research in Large-Scale Corpora with a Focus on Chinese Word Segmentation

RAO Gaoqi, XIU Chi, XUN Endong

College of Information Science, Beijing Language and Culture University, Beijing 100083;

Received:2012-05-31 Online:2013-01-20 Published:2013-01-20

语料库自然标注信息与中文分词应用研究

饶高琦,修驰,荀恩东

北京语言大学信息科学学院, 北京 100083;

Abstract

Abstract: The distribution and meaning of natural annotations on large datasets are discussed. The proposed research on word extraction shows the positive potential of both implicit and explicit natural annotation in word segmentation. Experiments on word extraction indicates that the implicit natural annotation derived from language laws and patterns are more powerful in splitting character strings in raw corpora.

Key words: natural annotation, Chinese word segmentation, word extraction, large-scale corpora

摘要： 以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。

关键词: 自然标注信息, 中文分词, 词语抽取, 大规模语料库

CLC Number:

TP391

RAO Gaoqi,XIU Chi,XUN Endong. Natural Annotation Research in Large-Scale Corpora with a Focus on Chinese Word Segmentation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

饶高琦,修驰,荀恩东. 语料库自然标注信息与中文分词应用研究[J]. 北京大学学报（自然科学版）.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/

https://xbna.pku.edu.cn/EN/Y2013/V49/I1/140

[1]	DU Liping, LI Xiaoge, YU Gen, LIU Chunli, LIU Rui. New Word Detection Based on an Improved PMI Algorithm for Enhancing Segmentation System [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 35-40.
[2]	YUE Jinyuan,XU Jin’an,ZHANG Yujie. Chinese Word Segmentation for Patent Documents [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 159-164.

Natural Annotation Research in Large-Scale Corpora with a Focus on Chinese Word Segmentation

语料库自然标注信息与中文分词应用研究

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 2

Recommended Articles

Metrics