A Low-Resource Named Entity Recognition Method for Cultural Heritage Field Incorporating Knowledge Fusion

doi:10.13209/j.0479-8023.2023.070

Acta Scientiarum Naturalium Universitatis Pekinensis ›› 2024, Vol. 60 ›› Issue (1): 13-22.DOI: 10.13209/j.0479-8023.2023.070

Previous Articles Next Articles

A Low-Resource Named Entity Recognition Method for Cultural Heritage Field Incorporating Knowledge Fusion

LI Chao, HOU Xia^†, QIAO Xiuming

Computer School, Beijing Information Science & Technology University, Beijing 100192

Received:2023-05-12 Revised:2023-08-23 Online:2024-01-20 Published:2024-01-20
Contact: HOU Xia, E-mail: houxia(at)bistu.edu.cn

融合知识的文博领域低资源命名实体识别方法研究

李超, 侯霞^†, 乔秀明

北京信息科技大学计算机学院, 北京 100192

通讯作者: 侯霞, E-mail: houxia(at)bistu.edu.cn
基金资助:
北京市自然科学基金(4224090)资助

Abstract

Abstract:

In cultural heritage field, entity nesting of cultural relics data is obvious, the entity boundary is not unique, and the marked data in the field of cultural relics is extremely lacking. All the problems above can lead to the low recognition performance of named entities in the field of cultural relics. To address these issues, we construct a dataset called FewRlicsData for NER in the field of cultural heritage and propose a knowledge-enhanced, low-resource NER method RelicsNER. This method integrates the semantic knowledge of category description information into the cultural relics text, employs the span-based method to decode and solve the entity nesting problem, and uses the boundary smoothing method to alleviate the overconfidence problem of span recognition model. Compared with the baseline model, the proposed method achieves higher F1 scores on the FewRlicsData dataset and demonstrates good performance in named entity recognition tasks in the cultural heritage field. Experimental results on the public dataset OntoNotes 4.0 indicate that the proposed method has good generalization ability. Additionally, small-scale data experiments on OntoNotes 4.0 and MSRA datasets show that the performance of the proposed method surpasses that of the baseline model, demonstrating its applicability in low-resource scenarios.

Key words: cultural heritage field, named entity recognition, knowledge fusion, attention mechanism

摘要：

文物数据的实体嵌套问题明显, 实体边界不唯一, 且文博领域已标注数据极度缺乏, 导致该领域命名实体识别性能较低。针对这些问题, 构建一个可用于文物命名实体识别的数据集FewRlicsData, 提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中, 使用基于跨度的方式进行解码, 用于改善实体嵌套问题, 并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比, 该方法在FewRlicsData数据集上的F1值有所提升, 在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性, 同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验, 性能均高于基线模型, 说明所提方法适用于低资源场景。

关键词: 文博领域, 命名实体识别, 知识融合, 注意力机制

LI Chao, HOU Xia, QIAO Xiuming.

A Low-Resource Named Entity Recognition Method for Cultural Heritage Field Incorporating Knowledge Fusion

[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(1): 13-22.

李超, 侯霞, 乔秀明. 融合知识的文博领域低资源命名实体识别方法研究[J]. 北京大学学报自然科学版, 2024, 60(1): 13-22.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/10.13209/j.0479-8023.2023.070

https://xbna.pku.edu.cn/EN/Y2024/V60/I1/13

[1]	ZHANG Yue, WANG Changzheng, SU Xuefeng, YAN Zhichao, ZHANG Guangjun, SHAO Wenyuan, LI Ru. Few-shot Named Entity Recognition Method Based on Semantic Information Awareness of Labels [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(3): 413-421.
[2]	WANG Rui, LIANG Jianguo, HUA Rong. Radiology Report Generation Method Based on Multi-scale Feature Parsing [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(1): 71-78.
[3]	DING Na, LIU Peng, SHAO Huipeng, WANG Xuekui. Bi-Attention Text-Keyword Matching for Law Recommendation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(1): 79-88.
[4]	TIAN Yuan, PANG Xiao, ZHAO Wenyi, CHANG Xiaoyin, CHENG Chuyun, ZOU Pei, CAO Xiaocheng. A Transformer-Based Model for Short-Term Landslide Displacement Prediction [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(2): 197-210.
[5]	GAO Xiaoqian, ZHOU Xiabing, ZHANG Min. A Multi-information Perception Based Method for Question Answering in Multi-party Conversation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 21-29.
[6]	YOU Xindong, GE Haojie, HAN Junmei, LI Yuxian, LÜ Xueqiang. Recognition of Complex Entities in Weapons and Equipment Field [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(3): 391-404.
[7]	SU Fenglong, SUN Chengzhe, JING Ning. A Context-Fusion Method for Entity Extraction Based on Residual Gated Convolution Neural Network [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 69-76.
[8]	WANG Yinmiao, HAN Zhimin. Knowledge Bases Completion Based on Multi-hop Paths [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 7-12.
[9]	WAN Zhang, ZHANG Yujie, LIU Mingtong, XU Jin’an, CHEN Yufeng. Object Space Relation Mechanism Fused Image Caption Method [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(1): 75-82.
[10]	WU Ruiying, KONG Fang. Event Coreference Resolution with Document Representation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 82-88.
[11]	JIA Yunlong, HAN Donghong, LIN Haiyuan, WANG Guoren, XIA Li. Consumption Intent Recognition Algorithms for Weibo Users [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 68-74.
[12]	LIU Mingtong, ZHANG Yujie, ZHANG Shu, MENG Yao, XU Jin’an, CHEN Yufeng. A Multi-Mechanism Fused Paraphrase Generation Model with Joint Auto-Encoding Learning [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 53-60.
[13]	HUANG Yan, SUN Haili, XU Ke, YU Xiaoyang, WANG Tongyang, ZHANG Xinfang, LU Songfeng. Discourse-Level Text Generation Method Based on Topical Constraint [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 9-15.
[14]	LI Lanjun, ZHOU Junsheng, GU Yanhui, Qü Weiguang. Similar Legal Case Retrieval Based on Improved Siamese Network [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 84-90.
[15]	ZHANG Qinglin, DU Jiachen, XU Ruifeng. Sarcasm Detection Based on Adversarial Learning [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 29-36.

A Low-Resource Named Entity Recognition Method for Cultural Heritage Field Incorporating Knowledge Fusion

融合知识的文博领域低资源命名实体识别方法研究

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics