北京大学学报(自然科学版) ›› 2016, Vol. 52 ›› Issue (1): 148-154.DOI: 10.13209/j.0479-8023.2016.006
杨萍1,2, 侯宏旭1, 蒋玉鹏1, 申志鹏1, 杜健1
YANG Ping1,2, HOU Hongxu1, JIANG Yupeng1, SHEN Zhipeng1, DU Jian1
摘要:
汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义, 而直接使用机器翻译的方法不能达到满意的结果。针对上述问题, 提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注; 然后基于双语HMM词对齐结果, 利用滑动窗口的方法抽取所有候选命名实体翻译对; 最后基于融合5 种特征的最大熵模型, 对所有候选翻译单位进行过滤, 选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明, 该方法优于基于HMM的方法, 在对齐模型只是部分准确的情况下, 也获得较高准确率的汉语–新蒙古文命名实体翻译对。
中图分类号: