摘要:
针对带有中图分类号的英文图书数据量小以及类别不平衡的问题, 将图情领域的文本增强策略(《美国国会图书馆分类法》到《中国图书馆分类法》的类目映射方法和基于中-英文平行的《汉语主题词表》的语义增强方法)与一般领域文本增强策略(向原始英文文本插入标点或连词)相结合, 旨在增强模型泛化能力。实验表明, 综合后的策略能有效地提高模型在测试集的表现, 正确率和宏F1值分别上升3.61和3.35个百分点, 效果优于其他单一的文本增强方法。最后, 通过BERT词向量可视化与词语信息熵计算, 分析出丰富的邻近词和语法上的连缀功能是插入标点或连词方法有效的原因。
蒋彦廷. 依据《中国图书馆分类法》的英文图书分类探索[J]. 北京大学学报自然科学版, 2023, 59(1): 11-20.
JIANG Yanting. English Books Automatic Classification According to CLC[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 11-20.