北京大学学报(自然科学版) 第61卷 第5期 2025年9月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 61, No. 5 (Sept. 2025)

doi: 10.13209/j.0479-8023.2024.125

国家自然科学基金(62566060)、科技创新 2030 “新一代人工智能”重大项目(2022ZD0116100)、西藏自治区科技厅项目(XZ202401JD0010)和拉萨市科技重点计划专项(LAKJ202526)资助

收稿日期: 2024–07–13;

修回日期: 2024–11–21

基于跨度表示的藏医药文献实体关系抽取

周青1,2,3 拥措1,2,3,† 拉毛东只1,2,3 尼玛扎西1,2,3

1.西藏大学信息科学技术学院, 拉萨 850000; 2.西藏自治区藏文信息技术人工智能重点实验室, 拉萨 850000; 3.藏文信息技术教育部工程研究中心, 拉萨 850000; †通信作者, E-mail: yongtso@163.com

摘要 针对由于藏医药术语的特殊性、文本资源的稀缺以及语言处理的复杂性, 传统的实体关系抽取方法难以直接应用于藏医药领域的问题, 提出一种基于跨度表示的藏医药文献实体关系抽取方法, 该方法使用跨度表示和 TibetanAI_ALBERT_v2.0 预训练语言模型进行编码, 通过枚举潜在候选的实体, 解决实体嵌套不能充分识别的问题。同时, 引入 KL 散度来约束模型在训练和推理阶段不一致的问题。在藏医药领域实体关系抽取数据集 TibetanAI_TMDisRE_v1.0 上的实验结果表明, 该方法取得显著的性能提升, 精确率、召回率和 F1值分别达到 84.85%, 77.35%和 80.81%。

关键词 藏文; 藏医药; 实体关系抽取; 联合抽取

作为世界四大传统医学之一, 藏医药学拥有数千年的历史, 其独特的医学理论和实践经验对人类健康做出重要贡献。随着大数据时代的到来, 如何有效地挖掘和利用藏医药文献知识, 成为医学信息学领域的一个挑战。实体关系抽取[1]是自然语言处理领域的核心技术之一, 能够帮助机器理解文本中的实体及其相互关系, 对构建藏医药知识图谱、辅助临床决策支持系统等具有重要价值。

然而, 藏医药文献的实体关系抽取面临多方面的挑战。藏医药术语具有高度的专业性和复杂性, 对术语的准确识别是关系抽取的前提。同时, 藏医药文献的电子化程度较低, 缺乏大规模的标注数据集, 限制了模型方法的训练和应用。在BIO 系列标注方式[2]中, 每个词只能有一个关系, 不能区分不同类型的嵌套实体。卷积神经网络方法[3]使用词嵌入, 并加入位置信息, 方法较为简单, 不能得到较好的语义信息。在当前的实体关系抽取任务中, 普遍采用神经网络的方法, 在训练阶段, 模型以随机丢弃神经元的方式形成多个子模型进行学习; 在推理阶段, 为了得到完整的输出, 使用所有的神经元(即全模型), 导致在训练与推理过程中使用的模型存在不一致性。

针对上述问题, 本文提出一种基于跨度表示的藏医药文献实体关系抽取方法。该方法使用跨度表示, 通过枚举潜在候选的实体, 更深入地理解实体之间的关系, 从根本上解决实体嵌套不能充分识别的问题。该方法使用我们实验室训练的 TibetanAI_ ALBERT_v2.0 预训练语言模型进行编码, 得到更好的理解上下文的编码表示。同时, 还引入 KL 散度来约束模型在训练和推理阶段不一致的问题。最后, 通过一系列实验来验证该方法在藏医药领域的有效性。

1 相关工作

在早期的关系抽取研究中, 识别实体间语义联系严重依赖模式匹配技术, 为了实现关系抽取任务, 首先需人工创建包含实体关系特征的词典或规则集, 然后将其与预处理后的非结构文本相匹配, 提取出三元组。Miller 等[4]采用统计解析的方法, 使用带有中心词规则的词汇化概率上下文无关文法解析器来生成规则用于关系抽取。Zeng 等[5]使用多实例学习的方法, 考虑到实例标签的不确定性, 使用分段最大池化层的卷积架构, 自动提取相关的实体特征, 最后将获得的特征输入 Softmax 分类器进行分类, 进一步提升关系抽取的模型效果。Devlin 等[6]提出基于 Transformer[7]框架的 BERT(bidirectional encoder representations from transformers)模型, 采用Transformer 的编码器, 其性能在各个自然语言处理任务中超越当时前沿的模型和方法。之后, 改进版的 BERT 预训练模型不断出现, 例如更轻量级的ALBERT[8]和优化版本的 RoBERTa[9]等。曹卫东等[10]提出预训练卷积神经网络模型 R-BERT-CNN, 将实体级别的信息融入预训练模型中, 并使用卷积神经网络提取句子级别的语义信息, 从而更好地获得实体和句子的信息, 该模型实现了较好的抽取效果。Zhong 等[11]使用一个简单的流水线模型实现实体识别和关系抽取, 该模型使用两个独立的编码器, 使关系抽取的输入仅仅是实体识别的结果, 实验结果表明, 引入实体类别信息使得关系模型的性能有所提升。

联合抽取方法通过建立统一的模型, 交互使用实体识别和关系分类两个任务的信息, 充分利用两个任务间的关联信息, 从而优化模型的整体性能。Miwa 等[12]使用一种端到端的神经网络模型来获取文本数据的实体和实体关系。Hang 等[13]根据多标签标记方案, 标记实体及其关系; 然后使用具有多层注意力机制的联合实体和关系提取模块, 提取句子中的三元组; 最后使用关系对齐模块来对齐预测的关系分类结果。杨延云等[14]使用改进的序列标注策略, 将中医的实体关系联合抽取转换为序列标注任务。Li 等[15]通过遍历所有可能的文本 Span来识别实体片段和实体类型, 再对这些实体片段两两之间的关系进行分类。这样, 不仅可以识别嵌套实体, 还可以对嵌套实体再次检查。张鑫等[16]提出一种基于 Span 方法和深度多叉解码树的实体关系抽取模型, 运用提取特征能力更强的 BERT 预训练模型获取句子表征, 然后采用图卷积神经网络来增强实体与关系之间的依赖关系。赵丹丹等[17]面向医疗实体关系抽取任务, 提出使用预训练模型、双向长短期记忆网络、卷积神经网络和注意力机制的方法。马月坤等[18]通过引入构式语法理论和依存句法分析两种认知语言学范畴的理论技术, 构建一种面向中医古籍中隐式关系的抽取方法。耿飙等[19]采用头部实体优先策略, 使用 BERT 获取输入字向量, 通过双向长短期记忆网络捕获时间特征和上下文相关性。

由于藏文实体关系训练语料库相对较小, 传统的有监督学习方法在提高准确性方面面临巨大的挑战。华却才让等[20]将感知机模型用于藏文命名实体识别任务。李亚超[21]提出最大熵与条件随机场相融合的藏文命名实体识别方法。珠杰等[22]利用条件随机场方法, 探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容, 实现藏文人名识别。成晨等[23]使用卷积神经网络, 研究藏文实体关系抽取任务。朱亚军等[24]使用藏文BERT, 获取字符编码表示, 有效地提升藏医药医学实体识别的效果。郭莉莉等[25]利用实体位置关系、实体间距离关系、实体及其周围词特征进行特征向量化, 再通过 BP 神经网络模型进行分类抽取。夏天赐等[26]对藏文进行字级别和词级别两种方式预处理, 将藏文的词性标注特征加入藏文的字词向量中, 采用端到端的双向长短期记忆网络框架, 将藏文实体关系抽取任务转变为藏文序列标注的问题。王丽客等[27]构建基于多级注意力融合机制的藏文实体关系抽取模型来减少错误标记, 将构建的藏文知识库与文本对齐, 自动标记数据, 训练关系抽取模型, 实现藏文实体关系的抽取。因藏文句子特征表示存在一词多义及语义歧义现象, 于韬等[28]使用基于藏文 ALBERT 预训练语言模型的图采样和聚合实体关系抽取方法, 有效地提升藏文实体关系抽取模型的准确率。于韬等[29]针对藏医药领域数据, 提出一种嵌套实体标注策略, 并在此基础上设计类别特征的静态融合方法、多特征的动态融合方法以及对奖惩机制的优化改进。

藏医药文本是一个相对较小的研究领域, 缺乏足够的文献和电子文本资源, 限制了实体关系抽取模型的性能。医药领域的文本通常包含许多专业术语、缩写和复杂的句子结构, 很难找到足够的专家来进行数据标注, 使得构建高质量的训练数据集具有较大的挑战性。在藏医药领域, 有关实体关系抽取的研究较少, 且研究过程中常常面临自然语言处理工具在文本预处理时可能产生误差的传递问题, 即实体识别的不准确直接导致关系抽取的错误: 实体嵌套以及关系重叠等。BIO 系列标注方式不能区分不同类型的嵌套实体。如表 1 所示, “རླུང་ནད་ཅེ་སྤྱང་མགོ (隆病狼头样膝)”可以标注为“རླུང་ནད (隆病)”和“ཅེ་སྤྱང་མགོ (狼头样膝)”两个实体, 也可以标注为“རླུང་ནད་ཅེ་སྤྱང་མགོ (隆病狼头样膝)”, 其中 B-DIS 表示“DIS(疾病)”类实体的起始, I-DIS 表示实体中间部分, E-DIS 表示实体的结束。

2 本文模型与方法

本文提出的模型框架如图 1 所示。首先输入文本, 通过我们实验室训练的 TibetanAI_ALBERT_ v2.0 预训练模型生成包含上下文信息的向量。然后, 基于跨度表示方法, 并融入相关上下文信息, 得到实体表示向量, 送入 Softmax 分类器, 得到实体类型。再将实体 1 和实体 2 的表达连接起来, 加入相关上下文信息, 得到实体关系表示向量。最后, 通过分类器得到两个实体间的关系类型。本文还对模型的损失函数进行改进, 加入 KL 散度来约束模型在训练和推理阶段不一致的问题。

表1 BIO标注表

Table 1 BIO tagging table

རླུངནདཅེསྤྱངམགོ B-DISI-DISI-DISI-DISE-DIS B-DISE-DISB-DISI-DISE-DIS

2.1 ALBERT层

ALBERT 是基于原始 BERT 模型的轻量化版本, 是对 BERT 的有效改进, 旨在减少参数量, 并加速训练和推理过程, 在不使用大规模语料库的情况下, 达到与 BERT 相当的性能。ALBERT 的设计主要通过 3 个策略来优化模型性能。ALBERT 将词嵌入维度分解为较小的维度, 降低词嵌入矩阵的参数量, 同时通过提升隐藏层维度, 增强模型表示能力。引入跨层参数共享, 所有的层都使用相同的参数, 避免参数量随着网络深度的增加而增加, 进一步减少模型的总参数量。采用句子顺序预测(sentence order prediction, SOP)技术, 使其性能达到或超越 BERT模型。本文将 TibetanAI_ALBERT_v2.0 预训练语言模型作为编码器, 通过提取句子的特征, 生成含有上下文信息的文本表示向量 T:

width=76.1,height=14.95 (1)

其中, E={e1, e2, e3, …, en}为输入的文本序列, T={t1, t2, t3, …, tn}对应包含上下文信息的输出向量。

2.2 实体识别层

跨度表示方法将句子中每个子序列作为一个可能的实体边界, 通过详尽地列举所有潜在的跨度, 利用这些跨度内的语义信息对其进行验证。这种方法能够便捷且有效地识别出实体, 并且在辨识传统方法难以检出的嵌套实体方面表现出优势, 可以提升 BIO 及其变种标注方式对实体嵌套识别的效果。

设候选实体 s=(Ti, Ti+1, Ti+2, …, Ti+k), 使用最大池化的融合函数 f, 同时将包含每个跨度长度对应的嵌入向量也作为输入。由于引入上下文语义信息CLS, 可以有效地提升实体类型表达的效果, 因此本文的实体表示也融入 CLS 信息:

width=97.15,height=14.95 (2)

其中, E(s)为实体的最终表示, °为连接符号, k 为跨度长度, w 为跨度长度对应的嵌入向量。为防止大量的负样本影响实验效果和增加错误率, 本文将最大跨度长度设置为 10, 即 k=10。

width=389.9,height=326.05

图1 本文提出模型的架构

Fig. 1 Architecture diagram of proposed model

最后, 将得到的实体表示输入 Softmax 分类器,确定相应的实体类型width=21.75,height=17:

width=95.1,height=17 (3)

其中,width=21.75,height=17表示使用 Softmax 分类器后, 实体跨度可能属于某一个实体类型, 也可能是非实体。通过查看得分最高的类别, 可以确定实体的类型。

2.3 关系分类层

在关系分类任务中, 将实体识别得到的输出作为输入。类似基于跨度的实体识别方法, 关系分类将实体 1 和实体 2 的表示连接起来, 并同时连接它们之间的实体间表示, 与实体识别中的 CLS 句子上下文信息类似, 但此处使用的是两个实体间的信息。两个实体的关系通常是不对称的, 例如某一方剂治疗某一疾病, 而某一疾病并没有治疗某一方剂这样的关系, 即实体 1 与实体 2 是有顺序关系的。为了处理这种关系的不对称性, 本文分析(s1, s2)和(s2, s1)两种情况:

width=131.75,height=16.3 (4)

为了精确地判定实体 s1 与实体 s2 之间的关系类型, 确保关系分类的准确性, 在完成实体 s1 与实体 s2 之间关系分类任务的最终阶段, 应用 sigmoid函数对 Rr 进行处理, 得到归一化结果width=17,height=14.95

width=114.1,height=17 (5)

2.4 损失函数

在深度神经网络的训练中, 正则化方法用于减小模型的过拟合现象, 其中 Dropout 机制是一种有效的策略。在模型训练阶段, Dropout 机制随机地从神经网络中删除一定比例的隐藏神经元, 防止协同适应, 避免过拟合。但是, 模型推理阶段相当于多个子模型的隐式集成, 导致模型在训练和推理阶段存在不一致问题。KL 散度(Kullback-Leibler Diver-gence)[30]是用来度量两个概率分布相似度的指标, 本文引入 KL 散度损失函数项, 来约束同一输入在Dropout 作用下, 同一模型两次的输出尽量一致。本文模型的损失函数为实体识别与关系分类损失之和。本文方法在实体识别时采用的交叉熵损失函数和在关系时分类采用的 BCEWithLogits 损失函数基础上, 分别再增加一个 KL 散度损失函数项, BCEW-ithLogits 函数是 sigmoid 激活函数和 BCELoss 二元交叉熵损失的结合。BCEWithLogits 损失函数计算方法如下:

width=180.7,height=29.9 (6)

实体识别和关系抽取的损失函数计算方式类似。以实体识别的损失函数计算为例, 假设训练数据集表示为{xi, yi}, 其中 xi代表输入样本, yi代表对应的标签。模型定义为 Pq(y|x), 参数化为q。对于每个数据点, 两次使用交叉熵损失函数, 得到两个概率分布width=41.45,height=16.3width=42.1,height=16.3。最终实体识别的损失函数由损失函数width=20.4,height=16.3和 KL 散度损失函数width=20.4,height=16.3这两个分布概率综合得到:

width=180.7,height=27.15 (7)

width=119.55,height=31.9 (8)

实体识别的最终损失函数是由交叉熵损失width=20.4,height=16.3λwidth=20.4,height=16.3相加得到:

width=95.1,height=16.3 (9)

这种组合损失函数的设计使得训练和推理阶段的输出更加接近, 可以减少模型过拟合的风险, 优化模型计算方法。

3 数据集、参数设置和评价指标

3.1 数据集

藏医疾病数据集(TibetanAI_TMDisRE_v1.0)是我们实验室标注的藏文藏医疾病类的文献数据。其中, 训练集有 3590 条句子, 验证集有 450 条句子, 测试集有 449 条句子, 共有 10683 个三元组, 共包括 14 种连接两个实体语义关联的关系: 疾病分型(དབྱེ་བ།)、总症状(སྤྱིའི་རྟགས།)、具体症状(བྱེ་བྲག་གི་རྟགས།)、药物治疗(སྨན་གྱི་བཅོས་ཐབས།)、治疗部位(བཅོས་གནས།)、易发地区(ས་ཁུལ།)、同义词(དོན་མཐུན།)、易发时令(ལྡང་དུས།)、饮食治疗(ཟས་ཀྱི་བཅོས་ཐབས།)、行为疗法(སྤྱོད་ལམ་གྱི་བཅོས་ཐབས།)、内因(རྒྱུ།)、外因(རྐྱེན།)、疗法(བཅོས་ཐབས།)以及易发人群(མི་ཚོགས།)。CMeIE-V1 数据集是专注于中文医学信息抽取的研究型数据集, 其数据来源于 518 种儿科疾病和 109 种常见疾病, 共标注 2.8 万疾病语句, 近7.5 万三元组数据和 53 种关系类型。该数据集可从中文医疗信息处理评测基准 CBLUE 下载(https:// tianchi.aliyun.com/cblue)。由于该数据集是用于竞赛目的, 其测试集的标注信息并未对外公布, 因此本文所得实验结果均基于验证集数据。

3.2 环境与参数设置

本文实验均使用 NVIDIA GEFORCE RTX3060 6G 显卡, 编程语言为 Python 3.8, 采用 Pytorch 2.0.1框架, 编码工作在 Pycharm 上完成。为实现深度学习任务和数据可视化, 还使用 sklearn 和 matplotlib等代码库。模型的参数如表 2 所示。

3.3 评价指标

采用标准的精确率 P(precision)、召回率 R(re-call)和 F1 值来评估方法的有效性:

width=57.75,height=27.15 (10)

width=60.45,height=28.55 (11)

width=52.3,height=27.15 (12)

精确率 P 表示预测的结果中正确结果的占比, 召回率 R 表示所有的正例中预测正确实例的占比。真正例 TP(true positives)指模型正确识别的实际正类样本数量, 即这些样本在现实中属于正类, 并且模型也预测它们为正类。假反例 FN(false negatives)表示模型未能正确识别的正类样本数量, 即这些样本属于正类, 但模型预测为负类。假正例 FP(false positives)指实际为负类, 却被模型错误预测为正类的样本数量。真反例 TN(true negatives)是模型正确识别的实际负类的样本数量, 即这些样本在现实中是负类, 模型也将其预测为负类。

表2 模型参数

Table 2 Model parameters

实验参数参数值说明 Dropout0.1Dropout系数 Learning rate5×10−5学习率 OptimizerAdamW优化算法 Epoch20迭代次数 k10最大Span长度 λ (TibetanAI_TMDisRE_v1.0)0.003KL散度的权重 λ (CMeIE-V1数据集)0.0009

4 实验结果和分析

4.1 实验结果

表 3 为本文方法在 TibetanAI_TMDisRE_v1.0数据集上关系抽取的实验结果。示例如下: 句子为རླུང་ནད་བརླ་རེངས་ཀྱི་སྤྱིའི་རྟགས་སུ་གནས་ངེས་མེད་དུ་གཟེར་ཟུག་འཕོ་ལེན་བྱེད་པ།ལུས་གྲང་ཤུམ་བྱེད་ཅིང་ཚོ་མི་ཟིན་པར་འདར་བ།། (隆病股僵的总症为身上痛处不定、畏寒战栗), 预测的疾病为 རླུང་ནད་བརླ་རེངས (隆病股僵), 预测的总症状为 གཟེར་ཟུག (身上痛)和 གྲང་ཤུམ (畏寒战栗)。

为验证本文方法的有效性, 分别在 TibetanAI_ TMDisRE_v1.0 和 CMeIE-V1 数据集上进行实验, 并与基线模型(CNN, Novel Tagging 和 SpERT)进行对比分析。CNN 方法[3]将卷积神经网络应用到关系分类任务上, 使用词嵌入技术和卷积神经网络来抽取词汇级和句子级的特征。Novel Tagging 方法[2]使用一种标注方案, 将联合抽取任务转换为序列标注问题, 研究端到端模型直接提取实体及其关系。SpERT 模型[31]是一个实体关系联合抽取模型, 使用预训练模型实现实体识别和过滤, 使用无标记的上下文表示进行关系分类。由于 SpERT 模型未在以上两个数据集上进行过关系抽取, 故本文使用与文献[31]相同的参数进行实验。Lattice LSTM 模型[32]结合基于字符的 LSTM 网络与潜在词汇信息, 引入一个 Lattice 结构来捕捉序列中的长距离依赖关系, 该模型在 CMeIE-V1 数据集上的实验结果来自文献[33]。ALBERT-tiny 模型[34]是 Google 推出的 ALB-ERT 模型的一个变体。表 4 为在 TibetanAI_TMDis-RE_v1.0 数据集上的实验结果, 表 5 为在 CMeIE-V1数据集上的实验结果。

表3 TibetanAI_TMDisRE_v1.0数据集关系抽取结果

Table 3 Results of relation extraction on TibetanAI_ TMDisRE_v1.0 dataset

关系类型P/%R/%F1/% 疾病分型(དབྱེ་བ།)100.00100.00100.00 总症状(སྤྱིའི་རྟགས།)99.2096.6197.89 具体症状(བྱེ་བྲག་གི་རྟགས།)34.8634.8634.86 药物治疗(སྨན་གྱི་བཅོས་ཐབས།)91.1487.9089.49 疗法(བཅོས་ཐབས།)67.3983.7874.70 饮食治疗(ཟས་ཀྱི་བཅོས་ཐབས།)96.7784.5190.23 行为疗法(སྤྱོད་ལམ་གྱི་བཅོས་ཐབས།)96.3086.6791.23 同义词(དོན་མཐུན།)59.2636.3645.07 内因(རྒྱུ།)100.003.236.25 外因(རྐྱེན།)98.9260.8075.31 易发人群(མི་ཚོགས།)100.00100.00100.00 易发地区(ས་ཁུལ།)100.00100.00100.00 易发时令(ལྡང་དུས།)100.00100.00100.00 治疗部位(བཅོས་གནས།)91.6757.8970.97

从表 4 和 5 可以看出, 本文模型在 TibetanAI_ TMDisRE_v1.0 数据集上得到的 F1 值为 80.81%, 比CNN, Novel Tagging 和 SpERT 模型分别高 9.88 个百分点、11.66 个百分点和 4.4 个百分点, 说明使用预训练模型和跨度表示方法优于使用 CNN 和序列标注方法的模型, 在实体关系抽取任务上具有较好的性能。虽然 CNN 方法只做了关系抽取任务, 但该方法抽取的特征有限, 不能很好地表示上下文信息, 在复杂的数据上表现不佳。序列标注方法在处理实体嵌套问题上存在一定的局限性, 不能很好地表示嵌套实体, 因此出现错误累积的情况, 导致关系分类出现错误, 进而导致整体的抽取效果差。本文模型在 CMeIE-V1 数据集上的 F1 值为39.12%, 均优于基线模型的 F1 值, 比 ALBERT-tiny 模型高 3.22 个百分点, 比 SpERT 模型高 5.17 个百分点, 证明了本文方法的有效性。

表4 在TibetanAI_TMDisRE_v1.0数据集上的对比实验结果

Table 4 Comparative experimental results on TibetanAI-TMDisRE_v1.0 dataset

模型P/%R/%F1/% CNN[3]72.6969.8570.93 Novel Tagging[2]77.4362.4669.15 SpERT[31]74.2378.7276.41 本文模型84.5877.3580.81

说明: 粗体数字表示性能最优, 下同。

表5 在CMeIE-V1数据集上的对比实验结果

Table 5 Comparative experimental results on CMeIE-V1 dataset

模型P/%R/%F1/% Lattice LSTM[33]88.6216.2027.39 SpERT[31]26.1748.3033.95 ALBERT-tiny[34]––35.90 本文模型28.9160.4739.12

4.2 实验分析

λ 表示 KL 散度权重的影响程度, 本文分析不同λ 值对模型约束效果的影响。在 TibetanAI_TMDis-RE_v1.0 数据集上, 通过测试更多的 λ 可选值, 发现选取 λ=0.003 时 F1 值可以达到最优效果(图 2), 从而实现更精确、更有效的数据处理和分析。

为验证本文方法选择 TibetanAI_ALBERT_v2.0预训练模型的合理性, 在 TibetanAI_TMDisRE_v1.0数据集上与 CINO[35]预训练模型和 TiBERT[36]预训练模型进行效果对比, 结果如表 6 所示。CINO 是哈尔滨工业大学讯飞联合实验室发布的中国少数民族语言预训练模型, TiBERT 是中央民族大学发布的藏语语言预训练模型。

从表 6 可以看出, TibetanAI_ALBERT_v2.0 预训练模型的性能优于 CINO 和 TiBERT 预训练模型。TibetanAI_ALBERT_v2.0 预训练模型的 F1 值比 CINO 预训练模型高 21.48 个百分点, 这是因为CINO 是一个多语言模型, 使用的藏文语料训练数据较少。TibetanAI_ALBERT_v2.0 预训练模型的 F1值比TiBERT预训练模型高16.56个百分点, TiBERT预训练模型的底座是 BERT 模型, 在部分应用上, TibetanAI_ ALBERT_v2.0模型性能会超越BERT模型, 表 6 也说明 ALBERT 的性能在本文任务上优于BERT 模型。同时, TibetanAI_ALBERT_v2.0 预训练模型的训练时间远小于 BERT 模型, 占用的显存也只有 BERT 预训练模型的一半。因此本文模型方法选择使用 TibetanAI_ALBERT_v2.0 预训练模型在抽取效果、训练时间和显存占用上更有优势。

width=207.15,height=133.8

图2 λ值对性能的影响

Fig. 2 Effect of λ value on performance

表6 预训练模型效果对比结果表

Table 6 Comparison results of pre-trained model effects

预训练模型P/%R/%F1/% CINO51.0870.7759.33 TiBERT55.2876.7064.25 TibetanAI_ALBERT_v2.084.5877.3580.81

4.3 消融实验

为了验证 TibetanAI_ALBERT_v2.0 预训练模型和 KL 散度损失函数对模型的增益效果, 本文进行消融实验, 在 TibetanAI_TMDisRE_v1.0上的消融实验结果见表 7。其中, Self-KLD 表示使用TibetanAI_ ALBERT_v2.0 预训练模型, 不使用 KL散度损失函数项; Self-ALBERT 表示使用 KL 散度损失函数项, 不使用 TibetanAI_ALBERT_v2.0 预训练模型。

通过消融实验可以发现, TibetanAI_ALBERT_ v2.0 预训练模型和 KL 散度损失函数对模型性能的提升都有积极作用。Self-ALBERT 模型的 F1 值比本文模型下降 3.37 个百分点, 对模型的影响较大, 说明通过 TibetanAI_ALBERT_v2.0 预训练模型编码层可以有效地获取上下文信息, 获得更好的实体表示, 使抽取的三元组更加准确。Self-KLD 模型的F1 值比本文模型下降 0.89 个百分点, 说明加入 KL散度约束后, 可以让模型达到一致性训练, 更有利于提升抽取效果。

5 总结与展望

本文针对 BIEOS 表示方法在处理嵌套实体存在的问题, 改进使用跨度表示方法, 采用 TibetanAI _ALBERT_v2.0 预训练模型获取更优的上下文表示, 同时引入 KL 散度约束缓解模型训练与推理的不一致性。在 TibetanAI_TMDisRE_v1.0 数据较几种基集上的实验结果表明, 本文方法的 F1 值为 80.81%,线方法均有所提升。在公开 CMeIE-V1 数据集上的对比试验结果证明了本文方法的有效性, 验证了本文方法能够解决藏医药文献实体特征表示不充分导致模型语义表达能力较差、嵌套实体识别未考虑实体构成以及模型训练与推理阶段不一致的问题。未来的工作中, 将进一步扩大藏医药领域数据集规模, 重点解决模型严重依赖跨度边界和跨度长度限制的问题。

表7 消融实验结果

Table 7 Results of ablation experiment

模型P/%R/%F1/% Self-ALBERT79.1875.7877.44 Self-KLD83.5576.5979.92 本文模型84.5877.3580.81

参考文献

[1] Ye D, Lin Y, Li P, et al. Packed levitated marker for entity and relation extraction // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, 2022: 4904–4917

[2] Zheng S, Wang F, Bao H, et al. Joint Extraction of entities and relations based on a novel tagging scheme // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, 2017: 1227–1236

[3] Zeng D, Liu K, Lai S, et al. Relation classification via convolutional deep neural network // Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. Dublin, 2014: 2335–2344

[4] Miller S, Fox H, Ramshaw L, et al. A novel use of statistical parsing to extract information from text // Proceedings of the 1st North American Chapter of the Association for Computational Linguistics Conference. 2000: 226–233

[5] Zeng D, Liu K, Chen Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, 2015: 1753–1762

[6] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language under-standing // Proceedings of NAACL-HLT. Minneapolis, 2019: 4171–4186

[7] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL]. (2017–06–12) [2024–10–12]. https://arxiv.org/abs/1706.03762

[8] Lan Z, Chen M, Goodman S, et al. ALBERT: a lite bert for self-supervised learning of language representa-tions [EB/OL]. (2019–09–26) [2024–10–12]. https:// arxiv.org/abs/1909.11942

[9] Liu Y, Ott M, Goyal N, et al. RoBERTa: a robustly optimized bert pretraining approach [EB/OL]. (2019–07–26) [2024–10–12]. https://arxiv.org/pdf/1907.11692

[10] 曹卫东, 徐秀丽. 基于R-BERT-CNN模型的实体关系抽取. 计算机应用与软件, 2023, 40(4): 222–229

[11] Zhong Z, Chen D. A frustratingly easy approach for entity and relation extraction // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Online Meeting, 2021: 50–61

[12] Miwa M, Bansal M. End-to-end relation extraction using LSTMs on sequences and tree structures // Pro-ceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Pa-pers). Berlin, 2016: 1105–1116

[13] Hang T, Feng J, Yan L, et al. Joint extraction of entities and relations using multi-label tagging and relational alignment. Neural Computing and Applications, 2022, 34(8): 6397–6412

[14] 杨延云, 杜建强, 聂斌, 等. 一种面向中医文本的实体关系深度学习联合抽取方法. 计算机应用与软件, 2023, 40(3): 217–222

[15] Li F, Lin Z C, Zhang M, et al. A span-based model for joint overlapped and discontinuous named entity recognition // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Online Meeting, 2021: 4814–4828

[16] 张鑫, 冼广铭, 梅灏洋, 等. 基于Span方法和多叉解码树的实体关系抽取. 计算机技术与发展, 2023, 33(5): 152–158

[17] 赵丹丹, 张俊朋, 孟佳娜, 等. 基于预训练模型和混合神经网络的医疗实体关系抽取. 北京大学学报(自然科学版), 2023, 59(1): 65–75

[18] 马月坤, 冯烨琛. 面向中医古籍的隐式关系抽取方法研究. 郑州大学学报(理学版), 2024, 56(2): 34–42

[19] 耿飙, 梁成全, 魏炜, 等. 基于深度学习的非结构化医学文本知识抽取. 计算机工程与设计, 2024, 45 (1): 177–186

[20] 华却才让, 姜文斌, 赵海兴, 等. 基于感知机模型藏文命名实体识别. 计算机工程与应用, 2014, 50 (15): 172–176

[21] 李亚超. 基于条件随机场的藏文分词与命名实体识别研究[D]. 兰州: 西北民族大学, 2014

[22] 珠杰, 李天瑞, 刘胜久. 基于条件随机场的藏文人名识别技术研究. 南京大学学报(自然科学), 2016, 52(2): 289–299

[23] 成晨, 于洪志, 徐涛. 基于卷积神经网络的藏文实体关系抽取模型研究. 中国新通信, 2018, 20(19): 227–228

[24] 朱亚军, 拥措, 尼玛扎西. 基于藏文BERT的藏医药医学实体识别. 计算机与现代化, 2023(1): 43–48

[25] 郭莉莉, 孙媛. 基于BP神经网络的藏语实体关系抽取. 软件导刊, 2019, 18(3): 7–9

[26] 夏天赐, 孙媛. 基于联合模型的藏文实体关系抽取方法研究. 中文信息学报, 2018, 32(12): 76–83

[27] 王丽客, 孙媛, 刘思思. 基于多级注意力融合机制的藏文实体关系抽取. 智能科学与技术学报, 2021, 3(4): 466–473

[28] 于韬, 尼玛次仁, 拥措, 等. 基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取. 中文信息学报, 2022, 36(10): 63–72

[29] 于韬, 拥措, 高兴, 等. 基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取. 中文信息学报, 2024, 38(3): 65–74

[30] Sankaran P G, Sunoj S M, Nair N U. Kullback-Leibler divergence: a quantile approach. Statistics & Probabi-lity Letters, 2016, 111: 72–79

[31] Eberts M, Ulges A. Span-based joint entity and relation extraction with transformer pre-training // ECAI 2020. Santiago de Compostela, 2020: 2006–2013

[32] Zhang Y, Yang J. Chinese NER using lattice LSTM // Proceedings of the 56th Annual Meeting of the Asso-ciation for Computational Linguistics (Volume 1: Long Papers). Melbourne, 2018: 1554–1564

[33] 关同峰. 面向医学文本的实体关系抽取研究[D]. 郑州: 郑州大学, 2021

[34] Zhang N, Chen M, Bi Z, et al. CBLUE: a Chinese biomedical language understanding evaluation bench-mark // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, 2022: 7888–7915

[35] Yang Z, Xu Z, Cui Y, et al. CINO: a Chinese minority pre-trained language model // Proceedings of the 29th International Conference on Computational Lingui-stics. Gyeongju, 2022: 3937–3949

[36] Liu S, Deng J, Sun Y, et al. Tibert: Tibetan pre-trained language model // 2022 IEEE International Conference on Systems, Man, and Cybernetics (SMC). Prague, 2022: 2956–2961

Entity Relation Extraction Based on Span Representation for Tibetan Medicine Literature

ZHOU Qing1,2,3, YONG Tso1,2,3,†, LAMAO Dongzhi1,2,3, NYIMA Trashi1,2,3

1. School of Information Science and Technology, Tibet University, Lhasa 850000; 2. Key Laboratory of Tibetan Information Technology and Artificial Intelligence of Tibet, Lhasa 850000; 3. Engineering Research Center of Tibetan Information Technology, Ministry of Education, Lhasa 850000; †Corresponding author, E-mail: yongtso@163.com

Abstract Due to the particularity of Tibetan medical terminology, the scarcity of text resources, and the complexity of language processing, traditional entity relation extraction methods are difficult to directly apply in the field of Tibetan medicine. This paper proposes a method for extracting entity relation from Tibetan medical literature based on span representation. By using span representation and TibetanAI_ALBERT_v2.0 pre-trained language model for encoding, potential candidate entities are enumerated to solve the problem of insufficient recognition of entity nesting. At the same time, KL divergence is introduced to constrain the model inconsistency during the training and inference stages. The experimental results on the entity relation extraction dataset TibetanAI_TMDisRE_v1.0 in the field of Tibetan medicine show that the proposed method achieves significant performance improvement, with accuracy, recall, and F1 values reaching 84.85%, 77.35%, and 80.81%, respectively.

Key words Tibetan; Tibetan medicine; entity relation extraction; joint extraction