摘要: 基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。
中图分类号:
刘江鸣,徐金安,张玉洁. 基于隐主题马尔科夫模型的多特征自动文摘[J]. 北京大学学报(自然科学版).
LIU Jiangming,XU Jin’an,ZHANG Yujie. Summarization Based on Hidden Topic Markov Model with Multi-features[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.