Summarization Based on Hidden Topic Markov Model with Multi-features

Abstract

Abstract: Based on hidden topic Markov model (HTMM), the authors eliminate assumption limitation in LDA (latent dirichlet allocation) to exploit the structure information during generating summary, and use multi-features based on document content to improve the summary quality. Furthermore, a method for developing single-document summarization to multi-document summarization without breaking document structure is proposed, to achieve the perfect automatic summarization system. Meanwhile, experiment results on the standard dataset DUC2007 show the advantage of HTMM and multi-feature. Compared with the performace of LDA, ROUGE values are improved based on HTMM with multi-features.

Key words: multi-features, multi-document summarization, hidden topic Markov model

摘要： 基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。

关键词: 多文档自动文摘, 隐主题马尔科夫模型, 多特征

CLC Number:

TP391

LIU Jiangming,XU Jin’an,ZHANG Yujie. Summarization Based on Hidden Topic Markov Model with Multi-features[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

刘江鸣,徐金安,张玉洁. 基于隐主题马尔科夫模型的多特征自动文摘[J]. 北京大学学报（自然科学版）.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/

https://xbna.pku.edu.cn/EN/Y2014/V50/I1/187

[1]	LIU Qiuhui, ZHANG Kunli, XU Hongfei, YU Shiwen, ZAN Hongying. Research on Automatic Recognition of Auxiliary “DE” [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 466-474.
[2]	KE Yonghong, ZHU Yongfu, SUI Zhifang, YU Shiwen. A Method for Semantic Roles Labeling Consistency Calculation Based on Multi-features [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 475-480.
[3]	YANG Meng, LI Peifeng, ZHU Qiaoming. An Approach of Sentence Similarity on Tree-LSTM [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 481-486.
[4]	ZHANG Yu, ZENG Li, ZOU Lei. Regular Path Queries on Large Graph Data [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 236-242.
[5]	WEI Xing, WANG Wei, CHEN Jingping, XIE Yanlu, ZHANG Jinsong. A Study of Articulatory Features Based Detection of Mandrain Pronunciation Erroneous Tendency for Automatic Annotation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 243-248.
[6]	LIN Xinyi, YAN Rui, ZHAO Dongyan. A Hybrid Optimization Framework Fusing Word- and Sentence-Level Information for Extractive Summarization [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 229-235.
[7]	ZHOU Nan, ZHAO Yue, LI Yaoqiang, XU Xiaona, CAIWANG Lamu, WU Licheng. Study on Continuous Speech Recognition Based on Bottleneck Features for Lhasa-Tibetan Dialect [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 249-254.
[8]	TAN Yiming, WANG Mingwen, LI Maoxi. Neural Post-Editing Based on Machine Translation Quality Estimation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 255-261.
[9]	WU Huanqin, ZHANG Hongyang, LI Jingmei, ZHU Junguo, YANG Muyun, LI Sheng. Training Machine Translation Quality Estimation Model Based on Pseudo Data [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 279-285.
[10]	Lü Shuning, DONG Zhian. Domain Term Extraction Using URL-Key [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 262-270.
[11]	WANG Wenchao, Lü Xueqiang, ZHANG Kai, ZHOU Jianshe. Research on Automatic Writing of Football Game News [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 271-278.
[12]	Wenhao YING, Xinyan XIAO, Sujian LI, Yajuan LÜ, Zhifang SUI. Improving Query-Focused Summarization with CNN-Based Similarity [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 197-203.
[13]	Qingsheng LI, Qiang XU, Jianguo XIAO, Quan LIU, Jiefang ZHANG. A Structure and Style Model for Chinese Character Dynamic Generation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 219-229.
[14]	Yujing CHEN, Xueqiang LÜ, Jianshe ZHOU, Ning LI. Research on Automatic Writing of NBA Sports News [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 211-218.
[15]	Lilin ZHANG, Maoxi LI, Wenyan XIAO, Jianyi WAN, Mingwen WANG. Improve Automatic Evaluation of Machine Translation Using Specific-Domain Paraphrase [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 230-238.

Summarization Based on Hidden Topic Markov Model with Multi-features

基于隐主题马尔科夫模型的多特征自动文摘

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics