摘要:
针对当前自动问答数据增强方法需要大量外部数据的问题, 提出一个面向问答模型缺陷的数据增强方法。首先, 在训练集上训练好问答模型、问题生成模型以及问答匹配模型; 然后, 获取问答模型在训练集上预测的所有答案, 并选取其中预测错误的答案; 再后, 使用问题生成模型对这些答案生成相应问题; 最后, 通过问答匹配模型对生成的问答对进行过滤, 保留其中质量较高的数据作为最终的增强数据。该方法不需要额外的数据与领域知识, 同时能够针对模型构造特定数据, 耗费较少的训练代价就能使模型性能提升。实验结果表明, 所提出的数据增强方法对R-Net, Bert-Base以及Luke均有效, 与其他数据增强方法相比, 在较少的增强数据规模下, 问答模型获得更好的性能提升。
丁家杰, 肖康, 叶恒, 周夏冰, 张民. 面向问答领域的数据增强方法[J]. 北京大学学报自然科学版, 2022, 58(1): 54-60.
DING Jiajie, XIAO Kang, YE Heng, ZHOU Xiabing, ZHANG Min. Data Augmentation Method for Question Answering[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 54-60.