摘要:
文物数据的实体嵌套问题明显, 实体边界不唯一, 且文博领域已标注数据极度缺乏, 导致该领域命名实体识别性能较低。针对这些问题, 构建一个可用于文物命名实体识别的数据集FewRlicsData, 提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中, 使用基于跨度的方式进行解码, 用于改善实体嵌套问题, 并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比, 该方法在FewRlicsData数据集上的F1值有所提升, 在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性, 同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验, 性能均高于基线模型, 说明所提方法适用于低资源场景。
李超, 侯霞, 乔秀明. 融合知识的文博领域低资源命名实体识别方法研究[J]. 北京大学学报自然科学版, 2024, 60(1): 13-22.
LI Chao, HOU Xia, QIAO Xiuming.
A Low-Resource Named Entity Recognition Method for Cultural Heritage Field Incorporating Knowledge Fusion
[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(1): 13-22.