基于双语对齐的汉语–新蒙古文命名实体翻译

doi:10.13209/j.0479-8023.2016.006

北京大学学报（自然科学版） ›› 2016, Vol. 52 ›› Issue (1): 148-154.DOI: 10.13209/j.0479-8023.2016.006

基于双语对齐的汉语–新蒙古文命名实体翻译

杨萍^1,2, 侯宏旭¹, 蒋玉鹏¹, 申志鹏¹, 杜健¹

1. 内蒙古大学计算机学院, 呼和浩特 010021
2. 临汾职业技术学院计算机系, 临汾 041000

收稿日期:2015-06-07 出版日期:2016-01-20 发布日期:2016-01-20
通讯作者: 侯宏旭, E-mail: cshhx(at)imu.edu.cn
基金资助:
国家自然科学基金(61362028)资助

Chinese-Slavic Mongolian Named Entity Translation Based on Word Alignment

YANG Ping^1,2, HOU Hongxu¹, JIANG Yupeng¹, SHEN Zhipeng¹, DU Jian¹

1. College of Computer Science, Inner Mongolia University, Hohhot 010021
2. Department of Computing, Linfen Vocational and Technical College, Linfen 041000

Received:2015-06-07 Online:2016-01-20 Published:2016-01-20
Contact: HOU Hongxu, E-mail: cshhx(at)imu.edu.cn

摘要/Abstract

摘要：

汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义, 而直接使用机器翻译的方法不能达到满意的结果。针对上述问题, 提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注; 然后基于双语HMM词对齐结果, 利用滑动窗口的方法抽取所有候选命名实体翻译对; 最后基于融合5 种特征的最大熵模型, 对所有候选翻译单位进行过滤, 选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明, 该方法优于基于HMM的方法, 在对齐模型只是部分准确的情况下, 也获得较高准确率的汉语–新蒙古文命名实体翻译对。

关键词: 命名实体, 识别, 翻译, 双语对齐

Abstract:

Chinese to Slavic Mongolian Named Entity Translation in cross Chinese and Slavic Mongolian information processing has a very important significance. However, using the machine translation method directly cannot achieve satisfactory result. In order to solve the above problem, a novel approach was proposed to extract Chinese-Slavic Mongolian Named Entity pairs automatically. Only the Chinese named entities need to be identified, then extracting all of the candidate named entity pairs using sliding window method based on HMM word alignment result. Finally filtering all of the candidate named entity translation units based on Max Entropy Model integrated with five features, and choose the most probable aligned Slavic Mongolian NEs to the Chinese NEs. Experimental results show that this approach outperforms HMM model, achieves high quality of Chinese-Slavic Mongolian named entity pairs with relatively high precision, even though sometimes the word alignment result is partially correct.

Key words: named entity, recognition, translation, bilingual word alignment

中图分类号:

TP391

杨萍, 侯宏旭, 蒋玉鹏, 申志鹏, 杜健. 基于双语对齐的汉语–新蒙古文命名实体翻译[J]. 北京大学学报（自然科学版）, 2016, 52(1): 148-154.

YANG Ping, HOU Hongxu, JIANG Yupeng, SHEN Zhipeng, DU Jian. Chinese-Slavic Mongolian Named Entity Translation Based on Word Alignment[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 148-154.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/10.13209/j.0479-8023.2016.006

https://xbna.pku.edu.cn/CN/Y2016/V52/I1/148

[1]	于向前, 和冬华, 施伟红, 肖池阶, 刘斯, 宗秋刚, 陈鸿飞, 王玲华, 邹鸿, 王永福. 一种应用于磁源目标识别的大量程低噪声矢量磁强计[J]. 北京大学学报自然科学版, 2025, 61(3): 451-455.
[2]	张越, 王长征, 苏雪峰, 闫智超, 张广军, 邵文远, 李茹. 基于标签语义信息感知的少样本命名实体识别方法[J]. 北京大学学报自然科学版, 2024, 60(3): 413-421.
[3]	李超, 侯霞, 乔秀明. 融合知识的文博领域低资源命名实体识别方法研究[J]. 北京大学学报自然科学版, 2024, 60(1): 13-22.
[4]	张亚洲, 王梦遥, 戎璐, 俞洋, 赵东明, 秦璟. ChatGPT可否充当情感专家？——调查其在情感与隐喻分析的潜力[J]. 北京大学学报自然科学版, 2024, 60(1): 43-52.
[5]	周伯瀚, 曹健, 王源. 基于Transformer模型的手写数学公式语法树解码器[J]. 北京大学学报自然科学版, 2023, 59(6): 909-914.
[6]	黄增城, 满志博, 张玉洁, 徐金安, 陈钰枫. 基于单词领域特征敏感的多领域神经机器翻译[J]. 北京大学学报自然科学版, 2023, 59(1): 1-10.
[7]	杨延昭, 盖增喜. 台阵网格自动定位方法在鄂尔多斯地块南部和秦岭‒大别造山带的应用[J]. 北京大学学报自然科学版, 2022, 58(4): 626-634.
[8]	吴佳楠, 储君, 孙裔煜, 晁恒. SOFM网络下的深圳市城市用地功能识别分析[J]. 北京大学学报自然科学版, 2022, 58(4): 664-672.
[9]	游新冬, 葛昊杰, 韩君妹, 李育贤, 吕学强. 面向武器装备领域的复杂实体识别[J]. 北京大学学报自然科学版, 2022, 58(3): 391-404.
[10]	王倩, 李茂西, 吴水秀, 王明文. 基于跨语种预训练语言模型XLM-R的神经机器翻译方法[J]. 北京大学学报自然科学版, 2022, 58(1): 29-36.
[11]	苗国义, 刘明童, 陈钰枫, 徐金安, 张玉洁, 冯文贺. 融合小句对齐知识的汉英神经机器翻译[J]. 北京大学学报自然科学版, 2022, 58(1): 61-68.
[12]	沈小雪, 张志, 翟朝阳, 李瑞利. 海岸带红树林范围与种类识别精度的荟萃分析[J]. 北京大学学报自然科学版, 2022, 58(1): 135-146.
[13]	胡雯婕, 马莉, 吴秀芹, 张克斌. 毛乌素沙地上空沙尘暴的前向轨迹及其影响范围[J]. 北京大学学报自然科学版, 2021, 57(6): 1161-1171.
[14]	林子杰, 龙云飞, 杜嘉晨, 徐睿峰. 一种基于多任务学习的多模态情感识别方法[J]. 北京大学学报自然科学版, 2021, 57(1): 7-15.
[15]	王雅松, 刘明童, 张玉洁, 徐金安, 陈钰枫. 复述平行语料构建及其应用方法研究[J]. 北京大学学报自然科学版, 2021, 57(1): 68-74.

基于双语对齐的汉语–新蒙古文命名实体翻译

Chinese-Slavic Mongolian Named Entity Translation Based on Word Alignment

RichHTML

PDF

PDF (翻译版)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

留言