摘要: 针对版式电子文档的特点, 提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法, 并且对中英文档均有效。此外, 针对缺少表格定位自动评估体系, 构建了一个初具规模的公开数据集, 由中英文版式页面等比例组成, 对其标注基准结果, 并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较, 验证了新提出的表格定位方法的有效性和评估体系的实用性, 特别是对中文数据集获得了较好的结果。
中图分类号:
房婧,高良才,仇睿恒,汤帜. 版式电子文档表格自动检测与性能评估[J]. 北京大学学报(自然科学版).
FANG Jing,GAO Liangcai,QIU Ruiheng,TANG Zhi. Automatic Table Boundary Detection and Performance Evaluation in Fixed-Layout Documents[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.