一种基于聚类技术的图书目录识别方法

北京大学学报（自然科学版）

一种基于聚类技术的图书目录识别方法

高良才¹,汤帜¹,林晓帆²,俞银燕¹,房婧¹

1. 北京大学计算机科学技术研究所,北京100871; 2.Vobile Incorporation, Santa Clara CA 95054;

收稿日期:2009-07-19 出版日期:2010-07-20 发布日期:2010-07-20

A Table of Content Recognition Method of Book Documents Based on Clustering Techniques

GAO Liangcai¹, TANG Zhi¹, LIN Xiaofan², YU Yinyan¹, FANG Jing¹

1. Institute of Computer Science and Technology, Peking University, Beijing 100871; 2. Vobile Incorporation, Santa Clara CA 95054;

Received:2009-07-19 Online:2010-07-20 Published:2010-07-20

摘要/Abstract

摘要： 分析了目录识别研究的现状, 在总结当前技术优缺点的基础上, 提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点, 利用聚类技术发现目录装饰性内容, 生成具有自适应性的目录布局模型, 然后利用该模型生成目录条目及其层次关系。实验结果表明, 该方法在准确度和效率上均取得了较好的效果, 尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线, 显著提高了原电子目录制作系统的生产效率。

关键词: 目录识别, 文档逻辑结构, 文档分析和理解, 聚类

Abstract: After reviewing the merits and drawbacks of the existing ToC ( table of contents) recognition methods, the authors describe an automatic ToC recognition method with high efficiency and adaptability. Based on style consistency of ToC in book documents, this method employs clustering to detect decorative elements and to generate an adaptive ToC model which can be used to extract ToC entries and their hierarchies. Experimental results show that this method achieves high accuracy and efficiency. Especially, it performs well in processing complicated ToC with decorative elements, broken lines and various hierarchical structures. This method has been successfully applied in a commercial E-book production line.

Key words: table of contents recognition, document logical structure, document analysis and understanding, clustering

中图分类号:

TP301

高良才,汤帜,林晓帆,俞银燕,房婧. 一种基于聚类技术的图书目录识别方法[J]. 北京大学学报（自然科学版）.

GAO Liangcai,TANG Zhi,LIN Xiaofan,YU Yinyan,FANG Jing. A Table of Content Recognition Method of Book Documents Based on Clustering Techniques[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/

https://xbna.pku.edu.cn/CN/Y2010/V46/I4/531

[1]	周治岐, 李培军. 利用光谱–空间聚类的多光谱图像岩性分类[J]. 北京大学学报自然科学版, 2025, 61(3): 525-534.
[2]	申鸿怡, 徐芳芳, 王新民. 民用建筑“四节一环保”数据的清洗与修复方法研究[J]. 北京大学学报自然科学版, 2020, 56(5): 785-795.
[3]	曾健荣, 张仰森, 王思远, 黄改娟, 崔佳, 马欢. 基于多特征融合的同名专家消歧方法研究[J]. 北京大学学报自然科学版, 2020, 56(4): 607-613.
[4]	翟尚, 喻志超, 谭玉阳, 黄芳飞, 刘玲, 胡天跃, 何川. 基于波形聚类分析的微地震监测事件类型判别及应用[J]. 北京大学学报自然科学版, 2020, 56(3): 406-416.
[5]	王志芳, 周瑶瑾, 徐敏, 付宏鹏, 王思睿. 县域景观特征管理单元划分方法——以武胜县为例[J]. 北京大学学报自然科学版, 2020, 56(3): 553-560.
[6]	蒋一然, 鲍铁钊, 宁杰远, 张献兵. 高架桥下方高铁地震信号频谱特征研究[J]. 北京大学学报自然科学版, 2019, 55(5): 829-838.
[7]	蒋一然, 梁萱, 宁杰远, 鲍铁钊, 张献兵. 高铁地震4D地频图及其可用性研究[J]. 北京大学学报自然科学版, 2019, 55(5): 850-858.
[8]	蒋丹凝, 王志芳, 陈宇枫, 张子骄, 杨少栋. 岭南乡村“海绵”措施的宏观归纳分析[J]. 北京大学学报自然科学版, 2018, 54(4): 873-882.
[9]	蒋青松, 梁中耀, 赵磊, 李玉照, 吴思枫, 刘永. 云南高原湖泊群的统计学聚类识别及水质响应模式研究[J]. 北京大学学报自然科学版, 2017, 53(5): 948-956.
[10]	张丽林, 李茂西, 肖文艳, 万剑怡, 王明文. 机器翻译自动评价中领域知识复述抽取研究[J]. 北京大学学报自然科学版, 2017, 53(2): 230-238.
[11]	刘勘,袁蕴英. 基于自动编码器的短文本特征提取及聚类研究[J]. 北京大学学报（自然科学版）, 2015, 51(2): 282-288.
[12]	熊文涛,师永民,刘新菊,王小军,吴洛菲,王磊,郭馨蔚. 致密砂岩储层流动单元研究---以鄂尔多斯盆地延长组长61油层为例[J]. 北京大学学报（自然科学版）, 2014, 50(2): 288-294.
[13]	刘冬,李鹿原,王勇涛,汤帜. 一种无监督的中文漫画对白自动定位方法[J]. 北京大学学报（自然科学版）, 2014, 50(1): 25-32.
[14]	王建冬,刘洋,王继民. 国内云计算研究领域核心作者群知识结构及演化路径分析[J]. 北京大学学报（自然科学版）, 2013, 49(5): 773-782.
[15]	李霞,蒋盛益,张倩生,朱靖. 适用于大规模文本处理的动态密度聚类算法[J]. 北京大学学报（自然科学版）, 2013, 49(1): 133-139.