A Dynamic Density-Based Clustering Algorithm Appropriate to Large-Scale Text Processing

Acta Scientiarum Naturalium Universitatis Pekinensis

Previous Articles Next Articles

A Dynamic Density-Based Clustering Algorithm Appropriate to Large-Scale Text Processing

LI Xia^1,2, JIANG Shengyi², ZHANG Qiansheng², ZHU Jing²

1. National Key Research Center for Linguistics and Applied Linguistics, Guangdong University of Foreign Studies, Guangzhou 510420; 2. Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou 510006;

Received:2012-06-06 Online:2013-01-20 Published:2013-01-20

适用于大规模文本处理的动态密度聚类算法

李霞^1,2,蒋盛益²,张倩生²,朱靖²

1. 广东外语外贸大学外国语学及应用语言学研究中心, 广州 510420; 2. 广东外语外贸大学思科信息学院, 广州 510006;

Abstract

Abstract: Because of the high time complexity and complicated parameter setting in traditional density-based clustering algorithm, a new density definition is proposed, which just needs one parameter and can find clusters with different densities. The authors also expand the algorithm to a two-stage dynamic density-based clustering algorithm, which can process large-scale text corpus data. Experiments on synthetic dataset, large-scale dataset from UCI, English text corpus and Chinese text corpus show that TSDDBCA algorithm has the characteristic of easy parameter setting and high clustering efficiency, and can be applied to clustering process to large-scale text data.

Key words: text mining, clustering, large-scale data, dynamic density

摘要： 针对传统的基于密度的聚类算法对海量数据处理时, 存在参数输入复杂及时间复杂度高的问题, 给出新的密度定义方法, 并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法, 同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明, 所提出的算法具有输入参数简单和聚类效率高的特点, 可以应用于海量文本数据的聚类处理。

关键词: 文本挖掘, 聚类, 海量数据, 动态密度

CLC Number:

TP391

LI Xia,JIANG Shengyi,ZHANG Qiansheng,ZHU Jing. A Dynamic Density-Based Clustering Algorithm Appropriate to Large-Scale Text Processing[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

李霞,蒋盛益,张倩生,朱靖. 适用于大规模文本处理的动态密度聚类算法[J]. 北京大学学报（自然科学版）.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/

https://xbna.pku.edu.cn/EN/Y2013/V49/I1/133

[1]	ZHOU Zhiqi, LI Peijun. Lithological Mapping from Multispectral Images Using Spectral-Spatial Clustering [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2025, 61(3): 525-534.
[2]	SHEN Hongyi, XU Fangfang, WANG Xinmin. Research on Cleaning and Repairing Methods of Civil Building Data on Resources Saving and Environment Protection [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(5): 785-795.
[3]	ZENG Jianrong, ZHANG Yangsen, WANG Siyuan, HUANG Gaijuan, CUI Jia, MA Huan. Research on Expert Disambiguation of Same Name Based on Multi-feature Fusion [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(4): 607-613.
[4]	PENG Xiao, LIANG Yan, XU Liyan, LI Dihua. An Approach for Discovering Urban Public Management Problem and Optimizing Urban Governance Based on “12345” Citizen Service Hotline [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(4): 721-731.
[5]	ZHAI Shang, YU Zhichao, TAN Yuyang, HUANG Fangfei, LIU Ling, HU Tianyue, HE Chuan. Microseismic Monitoring Events Classification Based on Waveform Clustering Analysis and Application [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(3): 406-416.
[6]	JIANG Yiran, BAO Tiezhao, NING Jieyuan, ZHANG Xianbing. Spectral Characteristics of High-Speed Rail Seismic Signal under Viaduct [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(5): 829-838.
[7]	JIANG Yiran, LIANG Xuan, NING Jieyuan, BAO Tiezhao, ZHANG Xianbing. 4D Ground Frequency Map: Concept and Application [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(5): 850-858.
[8]	Qingsong JIANG, Zhongyao LIANG, Lei ZHAO, Yuzhao LI, Sifeng WU, Yong LIU. Integrated PCA-BN Approach for Identifying the Water Quality Response Patterns for Lakes in Yunnan Plateau [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(5): 948-956.
[9]	Lilin ZHANG, Maoxi LI, Wenyan XIAO, Jianyi WAN, Mingwen WANG. Improve Automatic Evaluation of Machine Translation Using Specific-Domain Paraphrase [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 230-238.
[10]	LIU Kan,YUAN Yunying. Short Texts Feature Extraction and Clustering Based on Auto-Encoder [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 282-288.
[11]	LIU Dong,LI Luyuan,WANG Yongtao,TANG Zhi. An Unsupervised Method for Chinese Speech Text Localization in Comic Images [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 25-32.
[12]	WANG Jiandong,LIU Yang,WANG Jimin. Analysis on the Knowledge Structure and Evolution Path of Core Authors in Domestic Cloud Computing Research Areas [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(5): 773-782.
[13]	HUANG Xiaojiang,WAN Xiaojun,XIAO Jianguo. Comparative News Summarization Using Co-ranking Graph Model [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 31-38.
[14]	LI Shuang,LI Shuangcheng. Comprehensive Clustering Analysis of Climatic Change Risk Sources in Qinghai-Tibet Plateau [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2012, 48(4): 657-664.
[15]	HU Kui,TANG Zhi,GAO Liangcai. Chinese Textual Image Compression Based on Multi-feature Extraction [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2010, 46(6): 914-920.

A Dynamic Density-Based Clustering Algorithm Appropriate to Large-Scale Text Processing

适用于大规模文本处理的动态密度聚类算法

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics