使用源语言复述知识改善统计机器翻译性能

北京大学学报（自然科学版）

使用源语言复述知识改善统计机器翻译性能

苏晨,张玉洁,郭振,徐金安

北京交通大学计算机学院, 北京 100044;

收稿日期:2014-06-30 出版日期:2015-03-20 发布日期:2015-03-20

Improved Statistical Machine Translation with Source Language Paraphrase

SU Chen, ZHANG Yujie, GUO Zhen, XU Jin’an

School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044;

Received:2014-06-30 Online:2015-03-20 Published:2015-03-20

摘要/Abstract

摘要： 为了缓解双语语料不足导致的翻译知识欠缺问题, 提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表, 以Lattice表示输入句子的多种复述形式, 扩展解码器使之可以对Lattice形式的输入进行解码, 将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下, 此框架不仅可以增大短语翻译表对源语言现象的覆盖率, 也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明, 在训练语料规模最小的情况下(10 K句对), 系统性能有明显提升(BLEU+1.4%); 在训练语料规模最大的情况下(1 M句对), 系统性能也取得一定提升(BLEU+ 0.32%)。

关键词: 复述知识, 短语翻译表, 特征, 解码器

Abstract: The performance of statistical machine translation (SMT) suffers from the insufficiency of parallel corpus. To solve the problem, the authors propose a paraphrase based SMT framework with three solutions: 1) acquiring paraphrase knowledge based on a third language; 2) expressing multiple paraphrases of input sentence in a lattice and modifying decoder to be able to process it; 3) integrating paraphrase knowledge as features into log-linear model. In this way, not only more expressions in source language can be covered, but also more expressions in target language can be generated as candidate translations. To verify proposed method, experiments are conducted on three training data sets with different sizes, and evaluate the improvement of the performance of SMT system contributed by paraphrasing. Experimental results show that the translation performance is improved significantly (BLEU+1.4%) when the parallel corpus is small (10 K), and a good performance (BLEU+0.32%) is also achieved when parallel corpus is large enough (1 M).

Key words: paraphrase, phrase translation table, features, decoder

中图分类号:

TP391

苏晨,张玉洁,郭振,徐金安. 使用源语言复述知识改善统计机器翻译性能[J]. 北京大学学报（自然科学版）.

SU Chen,ZHANG Yujie,GUO Zhen,XU Jin’an. Improved Statistical Machine Translation with Source Language Paraphrase[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/

https://xbna.pku.edu.cn/CN/Y2015/V51/I2/342

[1]	祖可欣, 龚元均, 董华斌, 宋梦迪, 陆克定. 昆明市PM_2.5中无机水溶性离子的在线监测及污染特征分析[J]. 北京大学学报自然科学版, 2025, 61(2): 265-276.
[2]	刘展芸, 龚元均, 陈云波, 徐怡蕾, 叶海云, 李丽珍, 刘跃辉, 佟磊, 卞雅慧, 陆克定. 昆明市人为源大气污染物排放清单研究[J]. 北京大学学报自然科学版, 2025, 61(2): 301-313.
[3]	曾良恩, 谢东颖, 陈志远, 袁丹丹, 聂洋, 黄绮, 杨乐, 梁忠祺. 数字普惠金融如何影响中国能源碳排放效率? ——基于中介效应模型分析[J]. 北京大学学报自然科学版, 2025, 61(1): 153-165.
[4]	张谱, 易媛媛, 徐晋涛. 我国退耕还林还草工程实施后林草用地变化的时空特征[J]. 北京大学学报自然科学版, 2024, 60(6): 1107-1122.
[5]	彭渝婷, 刘波, 石开波, 刘航宇, 付英潇, 宋彦辰, 王恩泽, 宋本彪, 邓西里, 叶禹. 膏盐岩–碳酸盐岩共生层系岩石微相及储层特征——以阿布扎比B油田侏罗系Arab组为例[J]. 北京大学学报自然科学版, 2024, 60(4): 639-656.
[6]	许月卿, 卢龙辉, 冀正欣, 黄安, 段亚明. 国土空间精细化管理视角下“三生”空间细分类型的演化特征与驱动机制研究——以河北省张家口市为例[J]. 北京大学学报自然科学版, 2024, 60(4): 732-744.
[7]	刘玉, 黄岩, 周志浩. 人体穿戴髋关节助力外骨骼的行走运动学分析[J]. 北京大学学报自然科学版, 2024, 60(3): 422-430.
[8]	郭晓非, 李江海. 中国台湾岛流域地貌对构造活动的响应[J]. 北京大学学报自然科学版, 2024, 60(3): 464-474.
[9]	彭谋, 李江海, 杨博. 深层砂岩储层孔隙结构特征及影响因素——以银额盆地拐子湖凹陷为例[J]. 北京大学学报自然科学版, 2024, 60(2): 249-264.
[10]	李梨, 周忠发, 邹艳, 孔杰, 王翠, 张富强, 王艳碧. 岩溶水库水体总有机碳剖面分布特征及影响机制研究[J]. 北京大学学报自然科学版, 2024, 60(2): 277-288.
[11]	王冰雪, 吴宗治, 陈天一, 刘树枫, 梁恩航, 刘唐. 黄河典型入干支流噬菌体群落结构特征研究[J]. 北京大学学报自然科学版, 2024, 60(2): 306-314.
[12]	王璐, 周旭, 刘跃辉, 刘慧, 张英磊, 范光宇. 泰安市区秋季大气挥发性有机物污染特征及来源解析[J]. 北京大学学报自然科学版, 2024, 60(2): 329-340.
[13]	王瑞, 梁建国, 花嵘. 基于多尺度特征解析的放射学报告生成方法[J]. 北京大学学报自然科学版, 2024, 60(1): 71-78.
[14]	周伯瀚, 曹健, 王源. 基于Transformer模型的手写数学公式语法树解码器[J]. 北京大学学报自然科学版, 2023, 59(6): 909-914.
[15]	杨欣宇, 李培军. 综合利用光谱特征、形态学特征和霍夫变换的无人机图像玉米幼苗分布信息提取[J]. 北京大学学报自然科学版, 2023, 59(5): 843-853.