基于自动编码器的短文本特征提取及聚类研究

北京大学学报（自然科学版）

基于自动编码器的短文本特征提取及聚类研究

刘勘,袁蕴英

中南财经政法大学信息与安全工程学院, 武汉 430074;

收稿日期:2014-07-27 出版日期:2015-03-20 发布日期:2015-03-20

Short Texts Feature Extraction and Clustering Based on Auto-Encoder

LIU Kan, YUAN Yunying

School of Information and Safety Engineering, Zhongnan University of Economics and Law,Wuhan 430074;

Received:2014-07-27 Online:2015-03-20 Published:2015-03-20

摘要/Abstract

摘要： 针对短文本的特点, 提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络, 将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上, 引入L1范式惩罚项来避免模型过分拟合, 然后添加噪音项以提高算法的鲁棒性。实验结果表明, 将提取的文本特征应用于短文本聚类, 显著提高了聚类的效果, 有效地解决了短文本空间向量的高维、稀疏问题。

关键词: 深度学习, 自动编码器, 特征提取, 聚类

Abstract: According to the characteristics of short texts, the authors propose a feature extraction and clustering algorithm named deep denoise sparse auto-encoder. The algorithm takes the advantage of deep learning, transforming those high-dimensional, sparse vectors into new, low-dimensional, essential ones. Firstly, L1 paradigm is introduced to avoid overfitting, and the noise is added to improve the robustness. Experimental result shows that applying extracted text features can significantly improve the effectiveness of clustering. It is a valid method to solve the high-dimensional, sparse problem in the short text vector.

Key words: deep learning, auto-encoder, feature extraction, clustering

中图分类号:

TP391

刘勘,袁蕴英. 基于自动编码器的短文本特征提取及聚类研究[J]. 北京大学学报（自然科学版）.

LIU Kan,YUAN Yunying. Short Texts Feature Extraction and Clustering Based on Auto-Encoder[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/

https://xbna.pku.edu.cn/CN/Y2015/V51/I2/282

[1]	张丰硕, 李豫, 李向前, 徐金安, 陈钰枫. 一种消减多模态偏见的鲁棒视觉问答方法[J]. 北京大学学报自然科学版, 2024, 60(1): 23-33.
[2]	李玳, 王天牧, 张思, 秦跃, 谢福贵, 刘辛军, 聂振国, 黄红拾. 基于足底压力和卷积长短期记忆神经网络的前交叉韧带断裂智能辅助诊断[J]. 北京大学学报自然科学版, 2024, 60(1): 109-117.
[3]	姚照原, 马磊, 万玮, 宋本钦, 王卫红, 邓继伟, 肖蕾, 冀锐, 魏之皓, 崔要奎. 基于深度学习的遥感样本库一致性评估[J]. 北京大学学报自然科学版, 2023, 59(4): 563-568.
[4]	周翔宇, 毛善君, 李梅. 基于频域降采样和CNN的轴承故障诊断方法[J]. 北京大学学报自然科学版, 2023, 59(2): 251-260.
[5]	李放, 曹健, 李普, 谢豪, 赵雄波, 王源, 张兴. 基于ARM+FPGA异构平台的目标检测加速模块设计与实现[J]. 北京大学学报自然科学版, 2022, 58(6): 1035-1041.
[6]	李天然, 刘明童, 张玉洁, 徐金安, 陈钰枫. 基于深度学习的实体链接研究综述[J]. 北京大学学报自然科学版, 2021, 57(1): 91-98.
[7]	申鸿怡, 徐芳芳, 王新民. 民用建筑“四节一环保”数据的清洗与修复方法研究[J]. 北京大学学报自然科学版, 2020, 56(5): 785-795.
[8]	曾健荣, 张仰森, 王思远, 黄改娟, 崔佳, 马欢. 基于多特征融合的同名专家消歧方法研究[J]. 北京大学学报自然科学版, 2020, 56(4): 607-613.
[9]	翟尚, 喻志超, 谭玉阳, 黄芳飞, 刘玲, 胡天跃, 何川. 基于波形聚类分析的微地震监测事件类型判别及应用[J]. 北京大学学报自然科学版, 2020, 56(3): 406-416.
[10]	王志芳, 周瑶瑾, 徐敏, 付宏鹏, 王思睿. 县域景观特征管理单元划分方法——以武胜县为例[J]. 北京大学学报自然科学版, 2020, 56(3): 553-560.
[11]	黄德朋, 李正华, 龚晨, 张民. 基于神经耦合模型的异构词法数据转化和融合[J]. 北京大学学报自然科学版, 2020, 56(1): 97-104.
[12]	蒋一然, 鲍铁钊, 宁杰远, 张献兵. 高架桥下方高铁地震信号频谱特征研究[J]. 北京大学学报自然科学版, 2019, 55(5): 829-838.
[13]	蒋一然, 梁萱, 宁杰远, 鲍铁钊, 张献兵. 高铁地震4D地频图及其可用性研究[J]. 北京大学学报自然科学版, 2019, 55(5): 850-858.
[14]	黄红拾, 王政飞, 许国雄, 李文新, 张思, 张东霞, 敖英芳. 基于步行时足底压力信息的前交叉韧带断裂辅助诊断方法[J]. 北京大学学报自然科学版, 2019, 55(5): 859-864.
[15]	方海泉, 蒋云钟, 冶运涛, 曹引. 基于深度学习和多次棋盘分割法的高分辨率影像河流提取[J]. 北京大学学报自然科学版, 2019, 55(4): 692-698.