摘要:
鉴于现有基于单词的领域特征学习方法在领域识别上的精度较低, 为提高领域判别和提供准确的翻译, 提出一种单词级别的领域特征敏感学习机制, 包括两方面: 1) 编码器端的上下文特征编码, 为了扩展单词级别的领域特征学习范围, 引入卷积神经网络, 并行提取不同大小窗口的词串作为单词的上下文特征; 2) 强化的领域特征学习, 设计基于多层感知机的领域判别器模块, 增强从单词上下文特征中获取更准确领域比例的学习能力, 提升单词的领域判别准确率。在多领域UM-Corpus英–汉和OPUS英–法翻译任务中的实验结果显示, 所提方法平均BLEU值分别超过强基线模型0.82和1.06, 单词的领域判别准确率比基线模型分别提升10.07%和18.06%。对实验结果的进一步分析表明, 所提翻译模型性能的提升得益于所提出的单词领域特征敏感的学习机制。
黄增城, 满志博, 张玉洁, 徐金安, 陈钰枫. 基于单词领域特征敏感的多领域神经机器翻译[J]. 北京大学学报自然科学版, 2023, 59(1): 1-10.
HUANG Zengcheng, MAN Zhibo, ZHANG Yujie, XU Jin’an, CHEN Yufeng. Word-Based Domain Feature-Sensitive Multi-domain Neural Machine Translation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 1-10.