摘要:
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。
中图分类号:
吐尔地·托合提, 维尼拉·木沙江, 艾斯卡尔·艾木都拉. 基于词间关联度度量的维吾尔文本自动切分方法[J]. 北京大学学报(自然科学版), 2016, 52(1): 155-164.
Turdi Tohti, Winira Musajan, Askar Hamdulla. Uyghur Text Automatic Segmentation Method Based on Inter-Word Association Degree Measuring[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 155-164.