基于编码器共享和门控网络的生成式文本摘要方法

1.中山大学数据科学与计算机学院, 广州 510006; 2.广东省大数据分析与处理重点实验室, 广州 510006; †通信作者, E-mail: issjyin@mail.sysu.edu.cn

摘要结合基于自注意力机制的 Transformer 模型, 提出一种基于编码器共享和门控网络的文本摘要方法。该方法将编码器作为解码器的一部分, 使解码器的部分模块共享编码器的参数, 同时使用门控网络筛选输入序列中的关键信息。相对已有方法, 所提方法提升了文本摘要任务的训练和推理速度, 同时提升了生成摘要的准确性和流畅性。在英文数据集 Gigaword 和 DUC2004 上的实验表明, 所提方法在时间效率和生成摘要质量上, 明显优于已有模型。

关键词 生成式; 文本摘要; 自注意力机制; 编码器共享; 门控网络

自动文本摘要旨在对给定的一段长文本进行压缩、精简, 并产生一段简洁、流畅且保留原文关键信息的短文本。文本摘要的意义在于缓解互联网时代人们面临的信息过载问题, 通过对文本进行压缩, 提取其主要信息, 可以大大降低用户的阅读成本, 帮助用户更高效地从互联网获取所需信息。

目前文本摘要方法可分为两大类: 抽取式方法(extractive)和生成式方法(abstractive)。图 1 展示两种方法生成的摘要。抽取式方法是按照一定的规则, 在原文中抽取句子、短语和词组成摘要。该方法产生的摘要通常较为冗长, 且多个摘要句之间可能产生语义不连贯的现象。生成式方法是通过阅读原文内容提取关键信息, 并重新组织文字生成摘要, 与人工做摘要的方式相似, 生成的摘要也较简洁, 近年来得到广泛应用。

本文提出的方法属于生成式方法。生成式方法遵循编码–解码框架, 编码器用于阅读原文, 并提取主要信息, 解码器根据编码器提取的信息生成摘要。以往的生成式方法通常使用循环神经网络作为编码器和解码器, 这些方法在文本摘要领域取得很好的效果。但是, 循环神经网络的结构特点——逐词处理序列, 使其难以并行化, 无论在训练阶段还是测试阶段, 效率都比较低, 当序列较长时, 这个问题尤为突出。

Vaswani 等[1]提出完全基于注意力机制的 Trans-former 模型, 不使用循环神经网络, 可以减少训练时间, 并刷新机器翻译任务的表现。鉴于 Trans-former 良好的并行能力, 本文基于 Vaswani 等[1]提出的编码器共享和门控网络的 Transformer, 在解码器与编码器之间进行参数共享, 减少模型的参数, 强化对编码器的训练, 并使用多层感知机作为门控网络, 用以控制从编码器到解码器的信息流, 仅传递关键信息, 使得模型更关注原文中的重要信息, 以便生成更准确精简的摘要。

1 相关工作

文本摘要任务在形式上与机器翻译任务相似, 输入为一个序列, 输出也是一个序列。近年来, 许多机器翻译领域的方法被应用到文本摘要任务中。Sutskever 等[2]提出 seq2seq 模型, 包括编码器和解码器两部分。编码器将输入序列映射到固定长度的向量上, 解码器根据该向量解码得到输出序列, 该模型用于解决英–法翻译问题, 取得巨大成功。Ba-hdanau 等[3]提出注意力机制, 使得解码器在产生输出序列时, 不只是利用一个固定长度的向量, 而是可以回看输入序列的信息, 大大提升机器翻译的效果。此后, 注意力机制成为处理所有序列到序列问题(如机器翻译、文本摘要和语音识别等)时必不可少的一个模块。

Rush 等[4]提出第一个生成式文本摘要方法, 使用带注意力机制的卷积神经网络作为编码器, 神经网络语言模型作为解码器, 并第一次使用 Giga-word 数据集和 DUC2004 数据集完成文本摘要任务。Hu 等[5]提出一个新的中文文本摘要数据集LCSTS来填补中文文本摘要数据上的空缺, 推动国内文本摘要领域的发展。Chopra 等[6]在文献[4]的基础上进行改进, 使用循环神经网络作为解码器, 编码器仍使用卷积神经网络, 提升了生成摘要的质量。Nallapati 等[7]提出完全基于循环神经网络的seq2seq 模型, 编码器和解码器都使用循环神经网络, 同时引入一些词汇特征(如词性和命名实体等), 进一步提升模型表现。针对未登录词问题(部分低频词不在词表中, 无法编码, 也无法生成为摘要序列的一部分), Gu 等[8]提出拷贝机制(copy mechani-sm), 使得模型在生成摘要时, 可以选择从输入序列复制一段话, 而不仅仅是从词汇表生成词语, 解决了上述问题。Zhou 等[9]提出选择性编码模型, 用于对输入序列的词进行筛选, 只保留关键信息, 从而实现对输入序列的选择性编码。Lin 等[10]提出全局编码模型, 使用卷积门控网络对输入序列进行筛选, 在文本摘要任务上达到领先水平。Paulus 等[11]将强化学习引入文本摘要中, 直接针对摘要的评分指标进行优化, 减轻了曝光偏差问题, 进一步提升摘要表现。Vaswani 等[1]提出新的序列到序列模型 Trans-former, 既不使用循环神经网络, 也不使用卷积神经网络, 而是完全依赖于注意力机制, 在序列自身各个词之间计算注意力权重, 得到每个词的上下文表示, 因此又称为自注意力机制。该模型的训练时间远远少于此前的序列到序列模型, 并刷新了机器翻译任务的BLEU得分。

2 基于编码器共享和门控网络的生成式文本摘要方法

本文基于 Vaswani[1]等提出的 Transformer 模型进行改进, 图 2 展示本文模型, 包含编码器、门控网络和解码器 3 个部分。编码器用于读取输入序列x={x0, x1, …, xn}, 并产生该序列对应的向量表示h= (h0, h1, …, hn); 门控网络用于对编码器的输出 h 进行筛选, 去除无用信息, 即对每个向量表示 hi 产生一个实数值 gi width=8.75,height=8.75

[0, 1], 进一步得到 width=9.4,height=15.05

=(g0h0, g1h1, …, gnhn), 以达到筛选的目的; 解码器根据 width=9.4,height=15.05

来产生摘要序列。

2.1 问题形式化

给定一段输入序列 x={x1, x2, …, xn}, 其中n表示序列长度。文本摘要系统的目标是输出一段摘要序列 y={y1, y2, …, ym}, 其中 m (m≤n)为摘要序列长度。在训练阶段, 我们训练模型, 使其生成的摘要y 尽量与参考摘要 width=10.65,height=15.05

相同; 在测试阶段, 模型根据输入序列x来生成摘要序列。

2.2 编码器

编码器的作用是读取输入序列, 并对每个词产生一个向量表示。为了高效地对输入序列进行编码, 我们使用基于自注意力机制的编码器, 相对于循环神经网络, 不需要逐词处理输入序列, 而是通过自注意力机制同时计算每个词的上下文向量, 因此有良好的并行能力, 计算复杂度较低。

如图 2 所示, 编码器可堆叠 N 层, 每层包括多头注意力层和前向反馈层。多头注意力层用于在输入序列内计算每个词关于其他词的注意力权重, 以便得到每个词的上下文表示, “多头”的意思是将输入映射到多个子空间, 并在这些子空间内计算上下文表示, 最后将计算结果拼接在一起, 如式(1)所示。

其中,

参数矩阵

表示线性转换, 用于将输入映射到不同的子空间; dk和dv表示子空间的维度; h表示多头注意力层的头数; d 表示模型隐藏层大小。注意力函数为放缩点积注意力函数, 如式(2)所示:

前向反馈层(feed forward networks, FFN)作用于多头注意力层的输出, 包含两个线性转换操作和ReLU激活函数[12], 用于增加模型的非线性拟合能力, 如式(3)所示:

其中

为线性转换; dff 为该层的隐藏层大小, b1和b2为偏置。

本文使用的参数为 h=4, d=256, dff=1024, dk=dv =d/h=64, 编码器层数 N=2。值得注意的是, 本文模型的编码器不仅负责对输入序列进行编码, 也会作为解码器的一部分, 对摘要序列进行编码。

2.3 门控网络

输入序列中通常包含许多词, 其中只有少部分词包含整个序列的关键信息, 这些关键信息也正是模型在生成摘要时所需要的。为了使模型能对输入序列的关键信息进行筛选, 我们提出如图 2 所示的门控网络。

门控网络用于控制从输入序列到输出序列的信息流, 去除无用信息, 使解码器能更专注于从关键信息中生成摘要。门控网络的输入为原文序列的句子表示 s 以及该序列中某个词的词表示 hi; 输出为对 hi进行筛选得到的新向量表示 width=10.65,height=15.05

。参考 Devlin 等[13]的工作, 本文也将 h0 (输入序列的起始标识符对应的隐藏层表示)作为输入序列向量的表示, 即 s=h0。对于每个词表示 hi, 门控网络都会生成一个阈值gi:

其中,

为线性转换, b 表示偏置。gi 越大, 表示该词越关键。通过 gi 来控制 hi 通往解码器的信息量, 得到筛选后的向量 width=10.65,height=17.55

, 如式(5)所示:

对每个词进行筛选后, 得到整个序列的向量表示 width=58.85,height=17.55

。然后, 此向量序列将传递给解码器, 用于生成摘要。

2.4 共享编码器参数的解码器

解码器根据门控网络的输出信息生成摘要序列。首先, 读取已经产生的摘要序列 y<i={y0, y1, …, yi−1}(开始时摘要序列仅包含开始标识符, 如“”), 并对其进行编码, 进而产生向量序列 s<i={s0, s1, …, si}。然后根据 s<i 和门控网络的输出, 预测摘要序列的下一个词 yi。依此类推, 最终得到摘要序列。