北京大学学报(自然科学版) 第60卷 第3期 2024年5月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 3 (May 2024)

doi: 10.13209/j.0479-8023.2024.036

山西省重点研发计划(202102020101008)、山西省科技合作交流专项(202204041101016)和山西省 1331 工程项目资助

收稿日期: 2023–05–19;

修回日期: 2023–07–30

基于标签语义信息感知的少样本命名实体识别方法

张越1 王长征2 苏雪峰1,3 闫智超1 张广军1 邵文远1 李茹1,4,†

1.山西大学计算机与信息技术学院, 太原 030006; 2.山西同方知网数字出版技术有限公司, 太原 030032; 3.山西工程科技职业大学现代物流学院, 晋中 030609; 4.山西大学计算智能与中文信息处理教育部重点实验室, 太原 030006; †通信作者, E-mail: liru@sxu.edu.cn

摘要 在少样本命名实体识别方法中, 目前广泛应用的方法是基于原型网络的两阶段模型。但是, 该方法未充分利用实体标签中的语义信息, 且在距离计算中过度依赖实体类型原型向量, 导致模型泛化能力差。针对这些问题, 提出一种基于标签语义信息感知的少样本命名实体识别方法。该方法是一种先进行实体跨度检测, 再判断实体类型的两阶段方法。在构建实体类型原型向量时, 将对应实体类型包含的语义信息考虑在内, 通过维度转换层将其与原型向量相融合。在对新样本进行实体识别时, 将实体类型的正负样本与实体类型原型向量组成实体类型三元组, 依据样本到三元组的距离对其进行分类。在多个数据集上的实验结果证明, 该模型的性能比以往的模型有较大的提升。

关键词 少样本命名实体识别; 标签语义信息感知; 实体类型三元组; 原型网络

命名实体识别(named entity recognition, NER)是自然语言处理领域的一项基础任务[1], 主要目的是从文本中提取特定实体, 这些实体在下游任务中起着至关重要的作用。近年来, 基于预训练语言模型的方法已成为命名实体识别领域的主流方法, 并取得较好的效果[2–8]。但是, 命名实体识别系统的开发仍然严重依赖于大量标注数据。在某些特定领域, 获取充足的高质量标注数据的挑战不可忽视[9]。例如, 在山西同方知网数字出版技术有限公司的专名标引任务中, 标注数据极少, 难以应用常规的命名实体识别方法。因此, 如何在少量标注样本的情况下实现有效的命名实体识别, 即少样本命名实体识别(few-shot NER)[10–11], 已成为重要的研究方向。

少样本命名实体识别旨在使用少量的标注数据, 识别模型未曾遇到过的实体类型。在该任务中, 数据集使用 N-way K-shot 方式进行采样, 并将其划分为支持集和查询集两部分[12–14]。其中, 每条数据均有 N 个类别, 每个类别有 K 个标注样本。支持集中的数据样例用于训练模型, 以便区分目标实体和非实体, 查询集则用于检验模型在支持集上学到的知识。

随着少样本命名实体识别研究的深入, 出现一阶段模型[15–16], 这种模型通过直接对序列进行分类来判断其所属实体类型。最具代表性的一阶段模型是基于原型网络[16]的方法, 该方法使用实体的中心点(即实体类型原型向量)来表示该实体特征, 并以此为依据判断样本的实体类型。一阶段模型容易实现, 训练和推理的过程较为直接, 适用于实体类型和上下文关系并不复杂的应用场景。

然而, 一阶段模型并未有效地利用实体跨度信息, 在上下文关系复杂且语义丰富的应用场景中表现不佳, 存在泛化能力差、无法充分捕捉领域的细微差异等问题。针对上述问题, 研究者提出先进行实体跨度检测, 再判断跨度的实体类型的两阶段模型[17–18]。两阶段的设计使得模型能够更充分地利用可用数据, 比一阶段模型具有更强的可解释性和更好的性能。

但是, 现有的两阶段模型仍然存在以下问题: 1)忽略了标签包含的语义信息, 导致在第二阶段将样本判断为错误的实体类型; 2)使用基于原型网络的方法计算损失时, 只关注实体类型原型向量, 忽略了不同样本之间的相似度, 限制了模型对新样本的泛化能力。

针对上述问题, 受自监督学习和对比学习思想的启发, 本文提出一种基于标签语义信息感知的少样本命名实体识别方法, 先获取句子中所有实体跨度, 随后将相同实体类型的跨度与其对应的实体类型语义信息聚合为一个原型向量, 将该原型向量作为锚点, 从支持集中选取该实体类型的正样本代表和负样本代表, 聚合为实体类型三元组, 并依据样本到该三元组的距离进行预测。将所提模型在Few-NERD[19]、Few-COMM[20]和山西知网专名标引任务的数据集上进行实验, 验证模型的有效性和泛化能力。

1 相关工作

在少样本命名实体识别的早期阶段, 由于缺乏统一的数据集, 研究者不得不对各种不同的数据集进行采样和实验, 如 Wiseman 等[21]在 OntoNotes 等数据集上训练并评估他们提出的 NNShot 模型, de Lichy 等[22]在 SNIPS 等数据集上进行基于元学习的少样本命名实体识别模型实验。元学习[23–24]是一种通过运用在少样本任务中学到的知识使得模型快速适应新任务的方法。

2021 年, Ding 等[19]发布第一个大规模的少样本命名实体识别的数据集 Few-NERD, 才为该任务提供了统一的评估数据, 推动了少样本命名实体识别研究的发展。研究者们可以在统一的数据集上进行实验和比较, 从而更好地评估不同方法的性能, 并进一步改进和推动该任务的研究进展。

基于 Few-NERD 数据集, 研究者们进行了广泛的研究。Finn 等[25]提出与模型无关的元学习方法(MAML), 该方法独立于模型, 能够指导模型的学习过程, 使得模型更快、更好地适应新任务, 取得显著的效果, 为该领域的研究提供了新的切入点。Yang 等[26]提出 StructShot 模型, 该模型基于查询集的单词距离来判断样本类型, 并结合维特比解码算法, 将单词距离与维特比解码算法相结合, 在解决样本类型判断问题时表现出色, 为模型性能的提升带来新的思路。Das 等[27]提出一种基于对比学习的CONTaiNER 模型, 采用高斯距离作为度量依据, 为解决过拟合问题提供了一种有效的解决方案, 增强了模型的鲁棒性。这些方法均为一阶段模型, 即同时预测实体跨度和类型, 虽然实现简单, 但忽略了实体跨度包含的信息, 在面对复杂的实体跨度时表现较差。

为了解决这个问题, 研究者们提出两阶段模型, 在第一阶段提取可能的实体跨度, 第二阶段对第一阶段中提取的跨度进行实体类型划分。Wang 等[28]提出 SpanProto 模型, 通过将序列标记转换为跨度矩阵, 帮助模型更好地专注于实体跨度信息, 在一定程度上提升了实体识别的性能。Ma 等[29]提出一种分解的元学习方法, 结合 MAML 算法来增强原型网络, 帮助模型找到更好的向量表示空间, 从而增强了模型的泛化能力, 使其在新任务上表现更出色。Wang 等[30]提出 ESD 模型, 使用多头注意力机制, 对实体包含的跨度信息分别强化, 并对强化后的向量进行交叉强化, 同时在推理部分使用 Beam Soft-NMS 方法缓解实体跨度冲突问题, 在少样本命名实体识别中取得显著的效果, 提高了模型的性能。

2 本文提出的少样本命名实体识别方法

为了充分利用实体标签的语义信息, 并考虑不同样本间的相似度, 本文提出一种基于标签语义信息感知的少样本命名实体识别方法。模型整体结构如图 1 所示, 各部分主要功能如下。

1)文本编码层: 对数据集进行编码, 获得字符级别的向量表示和标签对应的向量表示。

2)跨度编码层: 获取句子的实体跨度和非实体跨度, 并将其转换为对应的向量表示。

3)跨度增强层: 分别对支持集和查询集的跨度信息进行强化。

4)三元组构造层: 使用强化后的实体跨度向量构建实体类型原型向量, 融入标签语义信息, 并选取数个正样本和负样本, 与锚点向量一同构建为实体类型三元组。

5)实体分类层: 计算查询集中每一个样本与每个实体类型三元组的距离, 选取距离最近的三元组对应的类型作为该样本的实体类型。

2.1 文本编码层

为了获取句子和标签的向量表示, 将每一个长度为 n 的句子 S 输入 BERT 层, 获取句子对应的向量表示 S={s1, s2, …, sn}, 其中每个 si 均为 d 维的向量。同时, 将长为 m 的实体类型 C 也输入 BERT 层, 最终得到标签层 m×d 维的向量表示 C={c1, c2, …, cm}。

width=473.4,height=327.7

图1 少样本命名实体识别模型结构图

Fig. 1 Few-sample named entity recognition model structure diagram

2.2 跨度编码层

对于支持集和查询集中的每个句子, 首先构造所有长度小于 L 的跨度。为了增强模型对非实体跨度的识别能力, 本文将所有非实体跨度划分为如下3 类。

1)该跨度为实体跨度的一部分, 对应的实体标签为 entity-unrelated span。

2)该跨度与实体跨度有交叉, 对应的实体标签为entity-overlapped span。

3)该跨度与实体跨度完全无关, 对应的实体标签为 entity-unrelated span。

如果构造得到的跨度数量大于 N, 则从所有跨度中随机选择 N 个构成跨度矩阵, N 和上文提到的 L均为模型超参数。跨度初始化过程如下:

Vstart=S[start] , (1)

Vend=S[end] , (2)

spansupport|query=fusion([Vstart; Vend]) , (3)

其中, S 表示句子嵌入矩阵, start 表示跨度矩阵的起始位置, end 表示跨度矩阵的结束位置, VstartVend分别表示跨度起始和结束位置的向量表示。通过fusion 融合层, 最终得到跨度向量表示 spansupport 和spanquery

2.3 跨度增强层

由于初始化的跨度向量对该跨度包含的向量信息表示仍不够完善, 因此需要对其进行增强, 过程如下:

Enhance_spansupport|query=FFN(MHA(spansupport|query)), (4)

MHA 表示多头自注意力机制, 将 spansupport|query 作为 q, kv 输入 MHA 中, 并将结果通过前馈神经网络 FFN 进一步增强, 获得基于自身增强的跨度向量enhance_spansupport 和 enhance_spanquery

2.4 三元组构造层

本文通过以下方式构造三元组 T

1)对于给定的实体类型 c, 从 enhance_spansupport中获取所有属于该实体类型的跨度向量, 并组合为一个集合 Sc

2)计算锚点向量。对集合 Sc 中所有跨度向量进行求平均操作, 并加上该实体类型对应的语义信息向量, 最终得到锚点向量 ac:

width=88.3,height=31.7 (5)

其中, |Sc|为实体类型个数, x 表示 Sc 中的每个跨度向量, Cc 表示该实体类型的语义信息向量。

3)选择正样本负样本。对于每个锚点向量 ac, 从 Sc 中选择前 k 个与之距离最近的跨度向量作为正样本, 从 Sc 的余集中选择前 k 个与之距离最近的跨度向量作为负样本, 再分别对它们取平均, 得到正样本向量 pc 和负样本向量 nc, 使样本尽可能靠近正样本, 远离负样本, 从而约束模型, 缓解其过拟合问题(k 为模型超参数)。部分句子进行截断操作后可能不包含实体类型, 对于这种情况, 本文选择该实体类型向量作为正样本, 距离该实体类型最近的其他实体类型向量作为负样本, 构建得到三元组width=82.3,height=16.3

2.5 实体分类层

本文使用样本到三元组的距离作为分类依据。对于 enhance_spanquery 的样本 q 中每一个待预测跨度 qi, 使用欧氏距离作为 qi 到每个实体类型三元组 Tc 中锚点 ac 的距离度量依据, 使用余弦相似度作为 qi 与正负样本 pcnc 的距离度量依据。qi 到实体类型三元组 Tc 的距离 dc 可以表示为

width=134.55,height=16.3 (6)

width=61.7,height=15.45 (7)

width=83.15,height=16.3 (8)

width=82.3,height=15.45 (9)

其中, ||·||表示欧氏距离; cos(·)表示余弦相似度, 并限制距离的最小值为 0。

在推理阶段, 根据 dc(qi, Tc)的最小值来选择每个跨度的所属实体类型, 并依据样本中所有跨度的预测结果构造实体类型标签序列。计算过程如下:

width=88.3,height=17.15 (10)

width=96.85,height=15.45 (11)

其中, Pi 表示模型预测得到的 qi 所属的实体类型, P表示样本 q 中的所有跨度预测结果。

为了更直观地表示模型预测结果, 并对模型进行评估, 还需对 P 进行解码操作。具体地, 构造一个长度与 q 中句子长度相同的实体标签序列r, 所有位置默认均为非实体类型(O 类型)。根据 q 中包含的所有跨度和 P 中对应的结果, 选择模型预测为实体的跨度, 按照跨度索引位置, 将 r 中相应位置赋值为预测的实体类型, 并跳过所有预测为非实体的跨度, 最终得到预测结果 r

2.6 模型的训练及优化

本文采用 AdamW 优化器对模型进行优化, 同时使用 warmup 策略调整学习率。在 Few NERD 数据集上训练模型时, 使用 BERT-base-uncased 模型进行编码, 在 Few-COMM 和山西知网数据集上使用 BERT-base-Chinese 来捕捉中文语义信息。本文模型的超参数设定如表 1 所示。

为了更真实地模拟实际场景中的数据分布, 本文采用多种不同的 N-way K-shot 采样方式。通过这种方式, 能够获得更准确的模型评估结果, 从而更好地反映模型在实际应用中的表现, 并针对不同的采样方式, 分别采用不同的 batch size 和学习率, 具体设定如表 2 所示。

本文使用交叉熵损失作为损失函数, 计算方式如下:

width=185.15,height=15.45 (12)

其中, T 为实体类型三元组, Lce 表示交叉熵损失, labelquery 表示查询集包含的所有实体序列。本文通过最小化 L 来训练模型。

3 实验

3.1 数据集

为了验证模型的有效性, 本文在 Few-NERD,Few-COMM 和山西知网专名标引任务的数据集上进行实验。

表1 模型超参数设定

Table 1 Model hyperparameter settings

参数名参数值 epoch5 句子最大长度64 累积梯度步数5 跨度维度256 非实体跨度最大数量10 正/负样本数目3 warmup比例0.1

表2 模型训练参数设定

Table 2 Model training parameter settings

数据集采样方式batchsize学习率 Few-NERD-inter5-181×10−4 5-512×10−4 10-141×10−4 10-512×10−4 Few-NERD-intra5-185×10−5 5-511×10−4 10-145×10−5 10-511×10−4 Few-COMM5-185×10−5 5-511×10−4 10-145×10-5 10-511×10−4 山西知网数据集5-181×10−5

说明: inter为包含细粒度类型实体的模式, intra为包含粗粒度类型实体的模式。采样方式的数据为N-way K-shot中的N-K, 下同。

Few-NERD 数据集[19]是清华大学 2021 年发布的一个大规模、细粒度的手动标注的命名实体识别数据集, 包含 8 种粗粒度实体, 66 种细粒度实体, 共计 18 万条句子和 49 万个实体。该数据集构建了两种可用于少样本命名实体识别的模式: inter 和intra, 其中 inter 包含细粒度类型实体, intra 包含粗粒度类型实体。该数据集考虑了真实场景不同类型的少样本情况, 具有较强的应用价值。

Few-COMM 数据集[20]是华东师范大学 2023 年发布的中文少样本命名实体识别数据集, 共采集66165 条商品描述文本, 其中包含 140936 条实体和92 种预定义实体类型, 是首个专门用于中文少样本命名实体识别的数据集。该数据集中的样本均来自大型电商平台的商品描述, 包含各种商品信息和品牌等命名实体类型, 具有较强的商用价值。

山西知网专名标引任务的数据集采集自真实场景的文本, 包含 500 条人工标注数据, 19 个实体类型, 包括人名、性别、教育经历和工作经历等, 能够反映真实场景的复杂情况。

上述不同采样方式的 3 种数据集的数据划分情况如表 3 所示。

表3 数据集划分情况

Table 3 Dataset segmentation

数据集训练集验证集测试集 Few-NERD2000010005000 Few-COMM2000010005000 山西知网数据集2280720720

3.2 评价指标

本文实验中采用 F1 值、PR 来衡量模型的整体性能, 计算方式如下:

width=62.55,height=27.45(13)

width=59.15,height=27.45 (14)

width=60.85,height=28.3 (15)

其中, TP, FP 和 FN 分别表示真正例、假正例和假负例的数目, P, R 和 F1 分别为准确率、召回率和F1 值。

3.3 实验方法对比

为了验证本文方法的性能, 在 Few-NERD 和Few-COMM 数据集上, 将本文方法与以下 6 种方法进行对比。

1)MAML[25]: 该方法是与模型无关的元学习方法, 通过少量的数据寻找一个合适的初始值范围, 使得模型能够在有限的数据集上快速拟合。

2)ProtoBERT[16]: 通过 BERT 层获取实体类型原型向量, 并计算其与查询向量的欧氏距离来判断实体类型。

3)NNShot[21]: 使用最近邻方法计算词之间的相似度, 选用距离最近词的实体类型进行标注。

4)StrucShot[26]: 在 NNShot 的基础上融入维特比解码算法, 并引入更复杂的判别条件。

5)CONTaiNER[27]: 该方法是一种新的对比学习技术, 可以有效地缓解训练领域的过拟合问题。

6)ESD[30]: 对实体跨度向量进行增强, 并使用Beam Soft-NMS 来缓解预测跨度的冲突问题。

3.4 实验结果

将本文方法与上述 6 种方法在中英文公开数据集上进行对比实验, 结果如表 4 和 5 所示(表中的数据为带有标准差的 F1 值)。可以得到以下结论。

1)本文提出的模型在两种公开数据集上的性能均优于其他 6 种模型, 说明在两阶段命名实体识别方法上融入标签语义并使用实体类型三元组的方法能够有效地提高模型的表现效果。

2)本文的模型不仅优于一阶段的命名实体识别方法, 而且优于两阶段的 ESD 模型。一方面, 相比于常规的命名实体识别, 本文的模型先获取与实体类型无关的跨度信息, 再进行实体类型分类, 能够避免实体类型对跨度的影响, 提高了实体跨度的判断精度; 另一方面, 与 ESD 模型相比, 本文的模型在计算实体类型原型向量时, 捕获了标签层面隐含的语义信息, 同时引入正负样本约束模型, 可以增强模型的泛化能力, 面对新的实体类型时, 也能够更准确地进行分类预测。

表4 中文数据集实验结果(%)

Table 4 Chinese dataset experiment results (%)

模型Few-COMM5-15-510-110-5 ProtoBERT22.73±0.8953.95±1.2522.17±0.6645.81±0.72 MAML28.16±0.9854.38±1.0326.23±0.7144.66±0.88 NNShot48.40±0.6271.55±0.7441.75±0.9267.91±0.81 StructShot48.61±0.7570.62±1.0547.77±0.8965.09±1.22 CONTaiNER57.13±0.9363.38±0.7651.87±0.9860.98±0.65 ESD65.37±1.0273.29±0.9862.13±1.0672.14±1.12 本文方法67.54±0.6375.78±0.9164.10±1.1274.54±1.03

表5 英文数据集实验结果(%)

Table 5 Experimental results of English dataset (%)

模型Few-NERD-interFew-NERD-intra平均值5-15-510-110-55-15-510-110-5 ProtoBERT35.78±0.7147.01±1.3130.12±0.7747.13±0.5715.68±0.9236.58±0.8712.68±0.5928.99±1.0631.75 MAML38.52±0.6749.86±0.3330.20±0.7833.39±0.4930.14±0.5338.38±0.4123.05±0.4528.52±0.5934.01 NNShot55.24±0.4054.49±0.9140.21±1.6349.23±1.1526.30±1.2138.91±0.5324.69±0.2332.63±2.5940.21 StructShot53.65±0.5456.50±1.1746.86±0.5353.25±0.9730.88±0.9642.80±0.5127.25±0.8433.56±1.0643.10 CONTaiNER55.95±1.3061.83±1.0848.35±1.2557.12±1.3940.43±1.3153.70±0.7333.84±1.2347.49±0.3252.67 ESD59.29±1.2569.06±0.8052.16±0.7964.00±0.4336.08±1.6052.14±1.5030.00±0.7042.15±2.6050.61 本文方法69.10±1.4275.13±0.6760.97±1.3771.52±0.9846.0±1.1359.12±0.5837.62±0.7651.33±0.3158.85

综上所述, 融入标签语义信息, 并使用实体类型三元组的两阶段命名实体识别方法有助于提高模型的性能。

3.5 消融实验

为了验证不同方法的有效性, 本文进行消融实验, 分别将实体类型原型向量中的标签语义信息和实体类型三元组去除, 并在 Few-NERD inter 模式的5-way 1-shot 数据集上重新进行实验, 观察模型性能的变化。在构建三元组锚点时, 不融入实体标签包含的语义信息; 在计算查询样本与实体类型原型向量的距离时, 不使用实体类型三元组。消融实验结果如表 6 所示, 可以得出如下结论。

1)融入标签语义信息和使用实体类型三元组均会影响模型性能。其中, 消融去除实体标签语义信息后, 模型性能下降幅度较大, 说明融入标签语义信息对模型性能提高的贡献更大。这也印证了, 在当前的两阶段少样本命名实体识别模型中需要考虑实体标签语义信息的重要性。

2)相比于模型–ALL, 模型–LABEL 的性能也取得提升, 说明使用实体类型三元组也有助于增强模型的泛化能力, 从而使得模型不易过拟合, 进而提升模型在新领域上的表现效果。

3.6 模型泛化能力实验

为了验证本文方法在不同情景下的泛化能力, 选取山西知网专名标引任务的 5-way 1-shot 数据集来测试其泛化能力, 并使用传统模型与两阶段模型进行对比实验, 结果如表 7 所示。

由表 7 可以看出, 相比于现有模型, 本文模型融入标签语义信息, 并采用实体类型三元组, 性能取得较大的提升。然而, 与英文数据集相比, 模型性能在中文数据集上的提升相对较小, 推测可能因为中英文在语法结构、词汇特点和表达方式方面存在一定的差异, 限制了模型在中文数据集上的性能提升。

表6 消融实验结果(%)

Table 6 Ablation experimental results (%)

模型PRF1 本文方法71.03±0.1968.04±0.2369.10±0.21 –LABEL68.12±0.2165.44±0.2766.32±0.24 –TRIPLE69.92±0.1867.10±0.2168.03±0.27 –ALL67.25±0.2864.78±0.1565.28±0.26

说明: –LABEL表示去除标签语义信息, –TRIPLE表示不使用实体类型三元组, –ALL表示均去除。

表7 模型泛化能力实验结果(%)

Table 7 Model generalization ability experimental results (%)

模型 PRF1 ProtoBERT36.36±0.2528.21±0.3531.09±0.26 StructShot40.98±0.3343.75±0.3042.33±0.33 CONTaiNER46.88±0.2046.43±0.3146.65±0.27 ESD65.00±0.2643.33±0.2451.52±0.25 本文方法77.22±0.1451.43±0.3054.65±0.22

4 结论

本文提出一种基于标签语义信息感知的少样本命名实体识别方法, 以便解决现有的少样本命名实体识别模型存在的问题。该模型通过将标签语义信息融入模型, 缓解了两阶段命名实体识别中实体类型识别错误的问题。同时, 在计算查询集中的样本与实体类型原型向量的距离时, 构建了实体类型三元组, 通过其中的正负样本约束模型, 有效地缓解了训练过程中的过拟合现象, 增强了模型的泛化能力, 使得模型在面对新的实体类型时表现较好。在Few-NERD, Few-COMM 和山西知网专名标引任务的数据集上的实验结果验证了本文所提模型的有效性和泛化能力。

参考文献

[1] Zhou D, Zhang X, He Y. Event extraction from Twitter using non-parametric bayesian mixture model with word embeddings // Proceedings of the 15th Confe-rence of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers. Valencia: Association for Computational Linguistics, 2017: 808–817

[2] Lample G, Ballesteros M, Sandeep S, et al. Neural architectures for named entity recognition // Procee-dings of the 2016 Conference of the North American Chapter of the Association for Computational Lin-guistics: Human Language Technologies. San Diego: Association for Computational Linguistics, 2016: 260–270

[3] 封红旗, 孙杨, 杨森. 基于BERT的中文电子病历命名实体识别. 计算机工程与设计, 2023, 44(4): 1220–1227

[4] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language under-standing // Proceedings of the 2019 Conference of the North American Chapter of the Association for Com-putational Linguistics: Human Language Technolo-gies, Volume 1 (Long and Short Papers). Minneapo- lis: Association for Computational Linguistics, 2019: 4171–4186

[5] 游乐圻, 裴忠民, 罗章凯. 融合自注意力的ALBERT中文命名实体识别方法. 计算机工程与设计, 2023, 44(2): 605–611

[6] Zhuang L, Wayne L, Ya S, et al. A robustly optimized BERT pre-training approach with post-training // Pro-ceedings of the 20th Chinese National Conference on Computational Linguistics. Huhhot: Chinese Informa-tion Processing Society of China, 2021: 1218–1227

[7] 赵山, 罗睿, 蔡志平. 中文命名实体识别综述. 计算机科学与探索, 2022, 16(2): 296–304

[8] 俞阳, 何玮, 康雨萌. 一种面向自然语言问题的命名实体识别模型. 电子设计工程, 2023, 31(14): 29–32

[9] Huang J, Li C, Subudhi K, et al. Few-shot named entity recognition: an empirical baseline study // Procee-dings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online Meeting, 2021: 10408–10423

[10] Hou Y, Che W, Lai Y, et al. Few-shot slot tagging with collapsed dependency transfer and label-enhanced task-adaptive projection network // Proceedings of the 58th Annual Meeting of the Association for Compu-tational Linguistics. Online Meeting, 2020: 1381–1393

[11] Ma J, Yan Z, Li C, et al. Frustratingly simple few-shot slot tagging // Findings of the Association for Compu-tational Linguistics: ACL-IJCNLP 2021. Online Mee-ting, 2021: 1028–1033

[12] Han X, Zhu H, Yu P, et al. FewRel: a large-scale supervised few-shot relation classification dataset with state-of-the-art evaluation // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018: 4803–4809

[13] Geng R, Li B, Li Y, et al. Dynamic memory induction networks for few-shot text classification // Procee-dings of the 58th Annual Meeting of the Association for Computational Linguistics. Online Meeting, 2020: 1087–1094

[14] Wang P, Xu R, Liu T, et al. Behind the scenes: an exploration of trigger biases problem in few-shot event classification // Proceedings of the 30th ACM Interna-tional Conference on Information & Knowledge Mana-gement. New York, 2021: 1969–1978

[15] Fritzler A, Logacheva V, Kretov M. Few-shot classifi-cation in named entity recognition task // Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing. Limassol, 2019: 993–1000

[16] Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning // NIPS’17: Proceedings of the 31st International Conference on Neural Information Pro-cessing Systems. Long Beach, 2017: 4080–4090

[17] Shen Y, Ma X, Tan Z, et al. Locate and label: a two-stage identifier for nested named entity recognition // Proceedings of the 59th Annual Meeting of the Asso-ciation for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online Meeting, 2021: 2782–2794

[18] Yu D, He L, Zhang Y, et al. Few-shot intent classifi-cation and slot filling with retrieved examples // Pro-ceedings of the 2021 Conference of the North Ameri-can Chapter of the Association for Computational Lin-guistics: Human Language Technologies. Online Mee-ting, 2021: 734–749

[19] Ding N, Xu G, Chen Y, et al. Few-NERD: a few-shot named entity recognition dataset // Proceedings of the 59th Annual Meeting of the Association for Compu-tational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Bangkok, 2021: 3198–3213

[20] Han C, Zhu R, Kuang J, et al. Meta-learning triplet network with adaptive margins for few-shot named entity recognition [EB/OL]. (2023–02–14) [2023–04–06]. https://arxiv.org/abs/2302.07739

[21] Wiseman S, Stratos K. Label-agnostic sequence labe-ling by copying nearest neighbors // Proceedings of the 57th Annual Meeting of the Association for Computa-tional Linguistics. Florence: Association for Computa-tional Linguistics, 2019: 5363–5369

[22] de Lichy C, Glaude H, Campbell W. Meta-learning for few-shot named entity recognition // Proceedings of the 1st Workshop on Meta Learning and Its Applica-tions to Natural Language Processing. Online Meeting, 2021: 44–58

[23] Hochreiter S, Younger A S, Conwell P R. Learning to learn using gradient descent // Proceedings of the 11th International Conference on Artificial Neural Net-works (ICANN). Vienna: Springer Berlin Heidelberg, 2001: 87–94

[24] Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning // Advances in Neu- ral Information Processing Systems. Barcelona, 2016: 3630–3638

[25] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks // Pro-ceedings of the 34th International Conference on Mac-hine Learning. Sydney, 2017: 1126–1135

[26] Yang Y, Katiyar A. Simple and effective few-shot named entity recognition with structured nearest neigh-bor learning // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online Meeting, 2020: 6365–6375

[27] Das S S S, Katiyar A, Passonneau R J, et al. CONTai-NER: few-shot named entity recognition via contra-stive learning // Proceedings of the 60th Annual Mee-ting of the Association for Computational Linguis- tics (Volume 1: Long Papers). Dublin: Association for Computational Linguistics, 2022: 6338–6353

[28] Wang J, Han C, Wang C, et al. SpanProto: a two-stage span-based prototypical network for few-shot named entity recognition // Proceedings of the 2022 Confe-rence on Empirical Methods in Natural Language Pro-cessing. Abu Dhabi: Association for Computational Linguistics, 2022: 3466–3476

[29] Ma T, Jiang H, Wu Q, et al. Decomposed meta-learning for few-shot named entity recognition // Findings of the Association for Computational Linguistics. Dub-lin: Association for Computational Linguistics, 2022: 1584–1596

[30] Wang P, Xu R, Liu T, et al. An enhanced span-based decomposition method for few-shot sequence labeling // Proceedings of the 2022 Conference of the North American Chapter of the Association for Computa-tional Linguistics: Human Language Technologies. Seattle: Association for Computational Linguistics, 2022: 5012–5024

Few-shot Named Entity Recognition Method Based on Semantic Information Awareness of Labels

ZHANG Yue1, WANG Changzheng2, SU Xuefeng1,3, YAN Zhichao1, ZHANG Guangjun1, SHAO Wenyuan1, LI Ru1,4,†

1. School of Computer and Information Technology, Shanxi University, Taiyuan 030006; 2. Shanxi Tongfang Knowledge Network Digital Publishing Technology Co., Ltd., Taiyuan 030032; 3. School of Modern Logistics, Shanxi Vocational University of Engineering Science and Technology, Jinzhong 030609; 4. Key Laboratory Computational Intelligence and Chinese Information Processing of Ministry of Education, Taiyuan 030006; † Corresponding author, E-mail: liru@sxu.edu.cn

Abstract Among various approaches of few-shot named entity recognition (NER), two-stage models based on prototype networks are widely used. However, these methods can not fully utilize the semantic information in entity labels and overly relies on entity type prototype vectors in distance calculation, resulting in poor generalization ability of the model. To address these issues, this paper proposes a few-shot named entity recognition method based on label semantic information awareness. This method consists of a two-stage process: entity span detection and entity type classification. When constructing entity type prototype vectors, the semantic information associated with the corresponding entity types is considered and fused with the prototype vectors through a dimension transformation layer. During the entity recognition of new samples, entity type positive and negative samples are combined with entity type prototype vectors to form entity type triplets, and the samples are classified based on the distance to the triplets. Experimental results on multiple datasets demonstrate that the proposed model significantly outperforms previous models.

Key words few-shot named entity recognition (NER); semantic information awareness of labels; entity type triplet; prototypical network