摘要: 将中文语块分析看做词在句子内部聚类并标记语块类别的过程, 建立了中文语块分析的聚类模型。首先构建词的语法功能空间, 使用ISOMAP方法重构词空间的低维流形嵌入, 进而考察词在低维空间中的分布情况。在使用层次聚类方法分析语块时, 使用流形上的距离替代传统的欧式距离, 在算法复杂度可以接受的范围内, 提高了语块分析效果。
中图分类号:
雷霖,熊伟,景宁,肖建夫. 一种基于流形距离的中文语块聚类分析方法[J]. 北京大学学报(自然科学版).
LEI Lin,XIONG Wei,JING Ning,XIAO Jianfu. A Clustering Chunking Method Based on Manifold Geodesic Distance[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.