Training Machine Translation Quality Estimation Model Based on Pseudo Data

doi:10.13209/j.0479-8023.2017.158

Acta Scientiarum Naturalium Universitatis Pekinensis ›› 2018, Vol. 54 ›› Issue (2): 279-285.DOI: 10.13209/j.0479-8023.2017.158

Previous Articles Next Articles

Training Machine Translation Quality Estimation Model Based on Pseudo Data

WU Huanqin¹, ZHANG Hongyang¹, LI Jingmei², ZHU Junguo¹, YANG Muyun^1,†, LI Sheng¹

1. Computer Science and Technology, Harbin Institute of Technology, Harbin 150001
2. Computer Science and Technology, Harbin Engineering University, Harbin 150001

Received:2017-06-05 Revised:2017-09-05 Online:2018-03-20 Published:2018-03-20
Contact: YANG Muyun, E-mail: yangmuyun(at)hit.edu.cn

基于伪数据的机器翻译质量估计模型的训练

吴焕钦¹, 张红阳¹, 李静梅², 朱俊国¹, 杨沐昀^1,†, 李生¹

1. 哈尔滨工业大学计算机科学与技术学院, 哈尔滨 150001
2. 哈尔滨工程大学计算机科学与技术学院, 哈尔滨 150001

通讯作者: 杨沐昀, E-mail: yangmuyun(at)hit.edu.cn
基金资助:
国家高技术研究发展计划(2015AA015405)和国家自然科学基金(61370170, 61402134)资助

Abstract

Abstract:

Aimed at providing efficient training data for neural translation quality estimation model, a pseudo data construction method for target dataset is proposed, the model is trained by two stage model training method: pre training based on pseudo data and fine tuning. The experimental design of different pseudo data scale is carried out. The experiment results show that the machine translation quality estimation model trained by the pseudo data has significantly improved in the correlation between the scores given by human and the artificial scores.

Key words: machine translation quality estimation, deep learning, pseudo data

摘要：

为向基于深度学习的机器翻译质量估计模型提供高效的训练数据, 提出面向目标数据集的伪数据构造方法, 采用基于伪数据预训练与模型精调相结合的两阶段模型训练方法对模型进行训练, 并针对不同伪数据规模设计实验。结果表明, 在构造得到的伪数据下, 利用两阶段训练方法训练得到的机器翻译质量估计模型给出的得分与人工评分的相关性有显著的提升。

关键词: 机器翻译质量估计, 深度学习, 伪数据

CLC Number:

TP391

WU Huanqin, ZHANG Hongyang, LI Jingmei, ZHU Junguo, YANG Muyun, LI Sheng. Training Machine Translation Quality Estimation Model Based on Pseudo Data[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 279-285.

吴焕钦, 张红阳, 李静梅, 朱俊国, 杨沐昀, 李生. 基于伪数据的机器翻译质量估计模型的训练[J]. 北京大学学报（自然科学版）, 2018, 54(2): 279-285.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/10.13209/j.0479-8023.2017.158

https://xbna.pku.edu.cn/EN/Y2018/V54/I2/279

[1]	WANG Tairan, BAO Yifei. Micro-earthquake Recording Denoising Method Based on Convolutional Neural and Bidirectional Long Short-term Memory Network [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2025, 61(3): 487-500.
[2]	JI Rui, MA Lei, ZHANG Jing, WANG Weihong, GUO Zhizhou, WAN Xianci, XIAO Lei, WAN Wei. Synthesis of Remote Sensing Optical Images with Ship Targets Based on Generative Adversarial Networks [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(5): 883-892.
[3]	LI Dai, WANG Tianmu, ZHANG Si, QIN Yue, XIE Fugui, LIU Xinjun, NIE Zhenguo, HUANG Hongshi. Intelligent Diagnosis on Anterior Cruciate Ligament Deficiency Based on Plantar Pressure and ConvLSTM Neural Network [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(1): 109-117.
[4]	ZHANG Fengshuo, LI Yu, LI Xiangqian, XU Jin’an, CHEN Yufeng. Reducing Multi-model Biases for Robust Visual Question Answering [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(1): 23-33.
[5]	YAO Zhaoyuan, MA Lei, WAN Wei, SONG Benqin, WANG Weihong, DENG Jiwei, XIAO Lei, JI Rui, WEI Zhihao, CUI Yaokui. Consistency Assessment of Remote Sensing Dataset Based on Deep Learning [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(4): 563-568.
[6]	ZHOU Xiangyu, MAO Shanjun, LI Mei. Bearing Fault Diagnosis Method Based on Down-Sampling in Frequency Domain and CNN [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(2): 251-260.
[7]	LI Fang, CAO Jian, LI Pu, XIE Hao, ZHAO Xiongbo, WANG Yuan, ZHANG Xing. Design and Implementation of Object Detection Acceleration Module Based on an ARM+FPGA Heterogeneous Platform [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(6): 1035-1041.
[8]	LI Tianran, LIU Mingtong, ZHANG Yujie, XU Jin’an, CHEN Yufeng. A Review of Entity Linking Research Based on Deep Learning [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(1): 91-98.
[9]	HUANG Depeng, LI Zhenghua, GONG Chen, ZHANG Min. Neural Network Coupled Model for Conversion and Exploitation of Heterogeneous Lexical Annotations [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 97-104.
[10]	HUANG Hongshi, WANG Zhengfei, XU Guoxiong, LI Wenxin, ZHANG Si, ZHANG Dongxia, AO Yingfang. Anterior Cruciate Ligament Deficiency Auxiliary Diagnosis Based on Plantar Pressure Information during Walking [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(5): 859-864.
[11]	FANG Haiquan, JIANG Yunzhong, YE Yuntao, CAO Yin. River Extraction from High-Resolution Satellite Images Combining Deep Learning and Multiple Chessboard Segmentation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(4): 692-698.
[12]	CAI Zhenyu, GE Zengxi. Using Artificial Intelligence to Pick P-Wave First-Arrival of the Microseisms: Taking the Aftershock Sequence of Wenchuan Earthquake as an Example [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(3): 451-460.
[13]	LI Xiaojun, SHI Hanxiao, CHEN Nannan, LIU Hong, ZOU Yi. Research on Sentiment Analysis Based on Representation Learning [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 105-112.
[14]	WANG Qiansheng, YU Nan, ZHANG Meishan, HAN Zijia, FU Guohong. N3LDG: A Lightweight Neural Network Library for Natural Language Processing [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 113-119.
[15]	LUO Fan, WANG Houfeng. Chinese Text Sentiment Classification by H-RNN-CNN [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 459-465.

Training Machine Translation Quality Estimation Model Based on Pseudo Data

基于伪数据的机器翻译质量估计模型的训练

RichHTML

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics