基于主题约束的篇章级文本生成方法

doi:10.13209/j.0479-8023.2019.103

北京大学学报自然科学版 ›› 2020, Vol. 56 ›› Issue (1): 9-15.DOI: 10.13209/j.0479-8023.2019.103

基于主题约束的篇章级文本生成方法

黄炎^1,2, 孙海丽¹, 徐科^1,3, 余晓阳¹, 王同洋^1,†, 张新访¹, 路松峰^1,2

1. 华中科技大学计算机科学与技术学院, 武汉 430074 2. 深圳华中科技大学研究院, 深圳 518063
3. 中南民族大学计算机科学学院, 武汉 430074

收稿日期:2019-05-22 修回日期:2019-09-23 出版日期:2020-01-20 发布日期:2020-01-20
通讯作者: 王同洋, E-mail: platanus(at)hust.edu.cn
基金资助:
深圳市科技计划基础研究项目(JCYJ20180306124612893, JCYJ20170818160208570, JCYJ20170307160458368)资助

Discourse-Level Text Generation Method Based on Topical Constraint

HUANG Yan^1,2, SUN Haili¹, XU Ke^1,3, YU Xiaoyang¹, WANG Tongyang^1,†, ZHANG Xinfang¹, LU Songfeng^1,2

1. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074 2. Shenzhen Huazhong University of Science and Technology Research Institute, Shenzhen 518063 3. School of Computer Science, South-Central University for Nationalities, Wuhan 430074

Received:2019-05-22 Revised:2019-09-23 Online:2020-01-20 Published:2020-01-20
Contact: WANG Tongyang, E-mail: platanus(at)hust.edu.cn

摘要/Abstract

摘要：

针对计算机自动生成的文本缺乏主题思想这一问题, 提出一种基于主题约束的篇章级文本自动生成方法。该方法围绕用户输入的主题描述语句提取若干主题词; 然后对主题词进行扩展和主题聚类, 形成文章主题规划; 最后利用每个聚类中的关键词信息约束每个段落的文本生成。该模型从文本主题分布、注意力评分方法和主题覆盖生成3个方面对现有基于注意力机制的循环神经网络文本生成模型进行了改进。在3个真实数据集上分别与Char-RNN, SC-LSTM和MTA-LSTM基准模型进行对比, 并对3个方面的改进进行独立验证。实验结果表明, 所提方法在人工评判和BLEU自动评测上均优于基准模型, 生成的文本能更好地贴合主题。

关键词: 文本自动生成, 主题约束, 循环神经网络(RNN), 长短时记忆网络(LSTM), 注意力机制

Abstract:

To solve the topic missing problem of text generated by computers, this paper proposed a new discourse-level text generation method based on topical constraint. Providing a short topic description, the approach extracted several topic words from the text, then extended and clustered the keywords to form topical planning which were used to restrain the generation of each paragraphs. The model improved the attention based recurrent neural network form three aspects including topic distribution, attention scoring function and topic coverage generation. In experiments, the proposed method was compared with benchmark models such as Char-RNN, SC-LSTM and MTA-LSTM on three real datasets, three improvement strategies were verified and analysed independently. Experimental results show that proposed model is more efficient than benchmark models on human and BLEU metrics, and the generated text can catch the topic more effectively.

Key words: automatic text generation, topical constraint, RNN, LSTM, attention mechanism

黄炎, 孙海丽, 徐科, 余晓阳, 王同洋, 张新访, 路松峰. 基于主题约束的篇章级文本生成方法[J]. 北京大学学报自然科学版, 2020, 56(1): 9-15.

HUANG Yan, SUN Haili, XU Ke, YU Xiaoyang, WANG Tongyang, ZHANG Xinfang, LU Songfeng. Discourse-Level Text Generation Method Based on Topical Constraint[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 9-15.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/10.13209/j.0479-8023.2019.103

https://xbna.pku.edu.cn/CN/Y2020/V56/I1/9

488

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	488

来源	本网站	其他网站

次数	191	297
比例	39%	61%

摘要

1978

最新录用	在线预览	正式出版

0	0	1978

来源	本网站	其他网站

次数	262	1716
比例	13%	87%

[1]	王瑞, 梁建国, 花嵘. 基于多尺度特征解析的放射学报告生成方法[J]. 北京大学学报自然科学版, 2024, 60(1): 71-78.
[2]	李超, 侯霞, 乔秀明. 融合知识的文博领域低资源命名实体识别方法研究[J]. 北京大学学报自然科学版, 2024, 60(1): 13-22.
[3]	丁娜, 刘鹏, 邵惠鹏, 王学奎. 双向注意力文本关键词匹配法条推荐[J]. 北京大学学报自然科学版, 2024, 60(1): 79-88.
[4]	田原, 庞骁, 赵文祎, 常啸寅, 程楚云, 邹佩, 曹晓澄. 基于Transformer的滑坡短期位移预测模型[J]. 北京大学学报自然科学版, 2023, 59(2): 197-210.
[5]	高晓倩, 周夏冰, 张民. 基于多信息感知的多方对话问答方法[J]. 北京大学学报自然科学版, 2023, 59(1): 21-29.
[6]	苏丰龙, 孙承哲, 景宁. 融合上下文的残差门卷积实体抽取[J]. 北京大学学报自然科学版, 2022, 58(1): 69-76.
[7]	马超, 万璋, 张玉洁, 徐金安, 陈钰枫. 引入图像信息的多模态复述生成模型[J]. 北京大学学报自然科学版, 2022, 58(1): 45-53.
[8]	王引苗, 韩志敏. 基于多跳路径的知识库补全[J]. 北京大学学报自然科学版, 2022, 58(1): 7-12.
[9]	万璋, 张玉洁, 刘明童, 徐金安, 陈钰枫. 融合物体空间关系机制的图像摘要生成方法[J]. 北京大学学报自然科学版, 2021, 57(1): 75-82.
[10]	吴瑞萦, 孔芳. 融合篇章表征的事件指代消解研究[J]. 北京大学学报自然科学版, 2020, 56(1): 82-88.
[11]	贾云龙, 韩东红, 林海原, 王国仁, 夏利. 面向微博用户的消费意图识别算法[J]. 北京大学学报自然科学版, 2020, 56(1): 68-74.
[12]	田珂珂, 周瑞莹, 董浩业, 印鉴. 基于编码器共享和门控网络的生成式文本摘要方法[J]. 北京大学学报自然科学版, 2020, 56(1): 61-67.
[13]	刘明童, 张玉洁, 张姝, 孟遥, 徐金安, 陈钰枫. 联合自编码任务的多机制融合复述生成模型[J]. 北京大学学报自然科学版, 2020, 56(1): 53-60.
[14]	刘明童, 张玉洁, 徐金安, 陈钰枫. 基于句法结构的神经网络复述识别模型[J]. 北京大学学报自然科学版, 2020, 56(1): 45-52.
[15]	李兰君, 周俊生, 顾颜慧, 曲维光. 基于改进孪生网络结构的相似法律案例检索研究[J]. 北京大学学报自然科学版, 2019, 55(1): 84-90.

基于主题约束的篇章级文本生成方法

Discourse-Level Text Generation Method Based on Topical Constraint

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐 0

Metrics

留言