北京大学学报(自然科学版) 第61卷 第3期 2025年5月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 61, No. 3 (May 2025)
doi: 10.13209/j.0479-8023.2025.038
四川省自然科学基金青年基金(25QNJJ3501)、藏语智能全国重点实验室开放课题(2024-Z-001)、科技创新 2030—“新一代人工智能”重大项目(2022ZD0116100)和国家自然科学基金(62306158)资助
收稿日期: 2024–04–22;
修回日期: 2024–09–02
摘要 语义角色标注作为通往语义理解的重要途径, 在机器翻译、信息抽取和问答系统中具有广泛的应用价值。本文通过借鉴英文和汉文中较为成熟的语义角色标注方法, 在已有藏文语义标注体系和方法的基础上, 提出一种基于图解析的端到端片段(span)藏文语义角色标注方法。该方法将基于片段的藏文语义角色标注转换成基于词的图解析任务, 可分为语义角色标注到图的转换和图至语义角色标注的恢复两个阶段。第一阶段采用藏文预训练语言模型(TiUniLM)进行动态词嵌入, 并通过引入谓词标识器 P, 自动指定谓词, 然后通过设计“门控”机制长短时记忆网络(GM-LSTM)对时序特征进一步建模。第二阶段使用 Viterbi 约束解码, 对不合法的图进行校正。最后, 通过在 TSRLD-Span 上的实验表明, 该方法在测试集上的最佳 F1 值可达 89.69%, 相比基线模型, 性能具有显著提升, 验证了该方法的有效性。
关键词 自然语言处理; 图解析; 片段; 藏文语义角色标注; 谓词标识器
语义角色标注(semantic role labeling, SRL)利用谓词–论元结构来表示句子的浅层语义, 是自然语言处理领域的一项基础且具挑战性的研究任务。由于语义角色标注可以提供翔实的语言表征, 在机器翻译[1]–[2]、信息抽取[3]–[5]、问答系统[6]–[8]和预训练语言模型[9]等许多自然语言处理的下游任务中有广泛的应用。
句法分析结果是传统语义角色标注的前提, 致使语义角色标注任务严重地依赖句法分析结果[10], 进而衍生数据获取困难、模型架构复杂以及训练和解析速度慢等问题。因此, 无需句法分析的端到端语义角色标注方法受到学者的广泛关注, 已取得与输入句法分析结果具有竞争性甚至更优的研究结果。目前, 端到端的语义角色标注采用的深度学习框架以堆叠式长短时记忆网络和自注意力机制为主。文献[11]–[14]中通过提出一些端到端的深度学习方法来完成语义角色标注任务, 取得较好的实验性能。文献[15]–[17]中通过引入预训练语言模型, 采用不同的微调方式, 实现端到端的语义角色标注工作, 并且实验性能得到大幅度提升, 在公开数据集CoNLL2005 和 CoNLL2012 上的 F1 值接近 90%。这些工作为研究其他语言(如藏文等)基于片段的语义角色标注方法提供了参考依据。
目前, 有关藏文语义角色标注研究成果报道的比较少。祁坤钰[18–19]通过分析传统藏文文法中的逻辑格以及接续特征的语义映射关系, 研制了藏文语义角色标注体系的雏型, 但未考查实验效果。龙从军等[20]采用统计和规则相结合的方法, 研究基于语义块的语义角色标注方法, 经测试, 藏文语义角色标注的准确率、召回率和 F1 值分别达到 82.78%, 85.78%和 83.91%。珠杰等[21]通过深入分析藏文语义角色标注方法, 定义了一种适合藏文的语义角色标注方式, 也未考查实验效果。上述研究结果为进一步研究藏文语义角色标注奠定了理论基础。藏文语义角色标注比英文和汉文等主流语言的研究起步较晚, 研究方法单一, 技术陈旧, 这些问题严重地制约了藏文语义角色标注技术的革新和应用, 进而影响藏语自然语言处理的发展。
现有基于片段的语义角色标注大多采取基于BIO 的序列标注方法, 需要首先识别谓词, 然后通过使用 BIO 标签(如“B-A0”或“I-A0”)标记每个单词, 独立地为每个谓词找到论元, 导致一个句子必须进行多次编码和解码, 降低了训练和推理效率[10–15]。
本文以提升模型性能的同时确保解析速度为目的, 借鉴英文和汉文中较为成熟的语义角色标注方法, 在已有藏文语义标注体系和方法的基础上, 提出一种基于图解析的端到端片段藏文语义角色标注方法。该方法将基于片段的端到端藏文语义角色标注转换成基于词的图解析任务进行处理, 其过程可以分为特征建模和解码两个阶段, 即特征建模阶段(语义角色标注到图的转换)和解码阶段(图到语义角色标注的恢复)。最后, 通过在TSRLD-Span上进行实验, 验证该方法的有效性。
为了提高模型的解析速度, 本文将基于片段的端到端语义角色标注任务转换成基于词的图解析问题进行处理, 关键问题是如何在词层面表示基于片段的藏文语义角色标注结构。通过参考序列标注任务中常用的标注形式 BIO, BMES 和 BIOES 等, 设计一种将基于片段的端到端藏文语义角色标注任务作为基于词的图解析问题进行处理的策略。该策略不仅可以将谓词及其对应的论元在同一个图中表示, 而且不会产生歧义。该图可以在没任何性能损失的情况下转换为与其对应的语义角色标注结构。
本文设计 4 种图标注模式 BES, BE, BIES 和BIE, 将基于片段的藏文语义角色标注任务巧妙地转换成基于词的图解析任务。4 种图标注模式通过连接所有谓词与论元中的词, 并根据语义角色标签和论元中词的位置标记边信息。
本文通过借鉴汉文分词和命名实体识别等序列标注任务中常用的标注形式, 将 4 种不同的图标注模式分成两类不同的标注策略: 边界连接和全连接。边界连接策略指谓词只连接论元首尾词的形式, 全连接指谓词连接论元中所有词的形式。如图1 所示, 对于句子 S=“ངས་ལྕགས་རྟ་ཞིག་ཞོན་ནས་སོང་། (译: 我骑着一辆自行车去了)”, 可以用 4 种图标注模式, 将基于片段的藏文语义角色标注转换为属性图, 直观地表示语义角色标注结构。
图1 不同图标注模式示意图
Fig. 1 Schematic diagram of different icon annotation modes
1)边界连接策略: BES 和 BE。这两种边连接策略的示意图见图 1(a)。当一个论元由多个词组成时, 该策略只将起始词和结尾词连接到对应的谓词上, 使用 S-r, B-r 和 E-r 作为边标签, 其中 r 表示原始的语义角色标签。BES 和 BE 标注模式的区别在于BES 用 S-r 作单个词组成论元的边标签, 而 BE 模式用 B-r 作单个词组成论元的边标签。
2)全连接策略: BIES 和 BIE。这两种边连接策略的示意图见图 1(b)。当一个论元由多个词组成时, 该策略将连接所有词到谓词。在 BIES 和 BIE标注模式中, B-r 作为起始词与谓词的边标签, I-r 作为中间词与谓词的边标签, E-r 作为结尾词与谓词的边标签。当论元由单个词组成时, BIES 标注模式用S-r 作为词与谓词的边标签, 而 BIE 标注模式用 B-r作为词与谓词的边标签。
从图 1 可以看出, 通过在句子开头添加伪根节点“Root”, 并以 PRD∈{VT, VI, VO}为边标签, 将句子中的所有谓词连接到 Root 中, 为模型以端到端的方式预测谓词–论元结构关系奠定了基础。
假设已训练好一个将基于片段的端到端藏文语义角色标注转换为基于词的图解析任务进行处理的模型, 则在解码阶段, 需要根据图解析模型恢复输入序列的语义角色标注结构。具体来说, 在评估和测试阶段, 给定一条输入句子, 图解析模型会根据4 种图标注模式输出一个最优图, 需要将其恢复成与之对应的谓词–论元结构。
如果图解析模型输出的图是合法的, 即标签结构关系没有冲突, 则恢复工作非常简单。以 BES 标注模式为例, 伪根节点“Root”指向的所有词(子节点)都被视为谓词, 然后, 对于每个谓词, 根据边标签恢复与之对应的所有论元, 并且标注语义角色标签B-r 和 E-r, 当论元由单个词组成时, 用 S-r 进行 标注。
本文参考基于 BERT 的语义角色标注框架[15]、基于图解析的语义角色标注框架[16]和一种端到端的藏文 La 格浅层语义分析框架[10], 设计一种基于图解析的端到端片段藏文语义角色标注模型(图2)。模型架构由特征编码层、GM-LSTM 特征学习层和 Viterbi 约束解码层组成。
近几年, 微调预训练语言模型在很多藏语自然语言处理任务中取得最先进的实验效果, 所以本文使用 TiUniLM[22]进行词嵌入。在语义角色标注工作中, 为了模型能够自主地指定谓词, 并对其类别语义特征进行编码, 引入谓词标识器 P。
2.1.1 TiUniLM词嵌入
由于 TiUniLM 的训练单元为藏文音节, 而本文将目标任务转换成基于词的图解析问题, 所以使用 TiUniLM 对输入序列进行编码时, 首先需要判断输入序列中的词是否由多个藏文音节组成, 若不是, 则直接使用 TiUniLM 对其进行编码, 生成对应的词嵌入向量, 否则, 需要根据藏文音节符“་”, 将其拆分成音节进行编码, 然后融合每个音节的嵌入向量作为当前词的嵌入。在训练过程中, 通过算法 1 可以使模型自动执行上述过程。算法 1 对应的功能示意图见图 3。
算法 1 基于 TiUniLM 的词嵌入算法
2.1.2 谓词标识嵌入
通常, 语义角色标注的任务需要提前给定输入句子中的谓词(目标词)。为了模型在训练和测试阶段自主完成谓词的给定, 在特征编码层, 通过引入图 2 所示的标识器 P, 将 TiUniLM 在每个时刻输出的词嵌入向量与其对应的谓词标识向量进行拼接,实现模型自动给定谓词的目标。上述过程的实现见算法 2。
图2 基于图解析的端到端片段藏文语义角色标注模型
Fig. 2 End-to-End Spanning Tibetan Semantic Role Labeling Model Based on Graph Parsing
图3 算法1的功能示意图
Fig. 3 Functional Schematic of Algorithm 1
算法2谓词标识嵌入算法
算法 2 中, emb(Mt)Î{0, 1, 2, 3}分别对应语义标签'O'、'VT'、'VI'和'VO', P 为本文作者研究团队前期工作中已训练好的谓词语义标识器, 输入为藏文句子, 输出为输入序列对应的语义标签序列。例如, 输入为 S={'ང', 'ས', 'ལྕགས་རྟ', 'ཞིག', 'ཞོན', 'ནས', 'སོང', '།'}, 输出则为Label={'O', 'O', 'O', 'O', 'O', 'O', 'VI', 'O'}。标识器P将面向藏文语义角色标注的谓词语义特征分成“VT”, “VI”和“VO” 3 类, 为进一步提高语义角色标注模型性能奠定了基础。
本文方法高度依赖模型对时序特征的学习能力, 而普通 LSTM 层数较多时容易产生梯度消失问题, 故为了减缓训练模型时出现梯度消失问题, 参照普通 LSTM 框架的设计思路, 本文设计一个新的门控机制 GM, 用“λ”表示。“λ”与 LSTM 的遗忘门“f”类似, 但作用方向不同, 主要用于平衡垂直方向信息的传递。GM-LSTM 的模型结构如图 4 所示。使用 GM 后, 隐藏状态 hl,t的计算可重新定义为
(1)
(2)
(3)
GM-LSTM 的模型结构中, xl,t表示第 l层的输入,
表示普通 LSTM 的输出, “c”表示复制操作。GM通过对
和 xl,t 进行线性连接, 可以帮助信息在垂直方向高速传递,λl,t=[0, 1]表示输入信息从 l 层传递至 l+1 层的系数。训练模型时, λl,t 越大, 表明传递至下一层的信息量越多, 当 λl,t=1 时, 输入将直接传递给输出。经过 GM, 信息可以更流畅地从底层传递至顶层。λl,t 越小, 表明传递至下一层的信息量越少, 当 λl,t=0 时, GM-LSTM 则会退化成普通 LSTM。因 GM 属于神经元内部操作, 故不影响信息在垂直方向上的传递。
为了减少训练模型时出现过拟合现象, 将失活率(dropout)Dl[13,23]共享于隐藏状态:
(4)
(5)
假如给定输入序列, 即藏文句子 s={w1, w2,…, wn}, 则谓词与相应论元间正确的边标签(语义角色标签)序列 y={l1, l2, …, ln}的对数似然为
图4 GM-LSTM的模型结构
Fig. 4 Model structure of GM-LSTM
(6)
根据 hl,t, 使用 Softmax 可以计算得到预测语义角色标签 yt 上的局部归一化分布:
(7)
其中, Wo 是 Softmax 的参数矩阵, dyt是维度等于语义角色标签个数的 Kronecker 函数。训练目标为最大化给定输入的正确标签概率。
在推理过程中, 采用端到端的方式一并预测谓词与论元之间的边及其语义角色标签。以BES标注模式为例, 使用“S-r”、“B-r”和“E-r”中的边标签S, B 和 E 来构建图框架, 然后将 r∈{R|R为藏文语义角色标签集}作为边对应的语义角色标签。利用图的结构特性, 通过对边标签的结构关系进行建模来检查生成的图是否合法。具体地, 规定“B-r”边后面必须跟有“E-r”, “S-r”和“E-r”边后可以跟一个“B-r”或“S-r”边, “B-r”和“E-r”边不能单独出现。若生成的图合法(即符合上述规定), 则可以根据1.2节中从图到语义角色标注的恢复过程, 直接恢复相应的语义角色标注结构。
Softmax 在预测每个边对应的语义角色标签时, 会独立计算每个时刻可能输出的边标签概率, 所以生成的图可能不合法。
图 5 为一个以 BES 标注模式生成不合法图的标注示例, 图中连续出现两条“E-A0”边, 在恢复生成图的对应语义角色标注结构时, 两条灰色的边会引起冲突, 无法恢复成与之对应的语义角色标注结果。图 5 中“Viterbi: ”字段对应部分是通过 Viterbi约束解码校正后的标注序列。具体来说, 在图到语义角色标注的恢复阶段, 若遇到不合法的图, Viterbi约束解码将会为谓词重新标注句子中相应的论元, 确保生成图的合法性, 达到约束解码的目的, 实现对输出语义角色标签之间结构关系的约束。
由于预测的谓词与相应论元之间的边标签
不包括表示论元内部标签和其他非论元标签“I”和“O”, 而在序列标注任务中这两个标签不可或缺, 因此, 在 Viterbi 约束解码阶段, 针对 BES 标注模式在标签集中添加伪标签“I”和“O”, 在预测时, 需按图 6 所示标签概率转换矩阵, 重新分配标签概率分布。本文以 BES 标注模式为例, 其他标注模式的过程类似。
3.1.1 实验数据
鉴于目前暂无公开的藏文语义角色标注数据集, 本文首先深入分析已有的藏文语义角色标注体系[18]–[21], 在沿用其中大部分语义角色标签的基础上, 新增离合、否定和疑问等语义角色标签后作为标注基于片段的藏文语义角色标注数据集的遵循规范; 然后采用人工标注的方式, 构建规模为 10537条句子的基于片段的藏文语义角色标注数据集TSRLD-Span (TSRLD-Span 的原文主要来自中小学藏语文课本和藏文网络文本); 最后, 将 TSRLD-Span 按 8:1:1 的比例划分成训练集、验证集和测试集, 用于训练基于片段的藏文语义角色标注模型和扩充数据集。
TSRLD-Span 中包含 28 种语义角色, 为了直观地观察数据集中各角色标签的分布, 统计 TSRLD-Span 中各语义角色标签的被标频次, 结果见图 7。
3.1.2 参数设置
采取基于 TiUniLM 的微调方式。实验中, 经过多次调参, 在有限的范围内选择当前最优的超参数组合[24], 主要参数列于表1。
图5 Viterbi约束解码示意图
Fig. 5 Schematic of Viterbi constraint decoding
行表示转换的开始, 列表示转换的结束, 带栅栏的方格表示禁止的转换, “I”和“O”表示两个伪标签
图6 BES标签转换矩阵
Fig. 6 BES label conversion matrix
表1 实验参数设置
Table 1 Experimental parameter setting
TiUniLM参数微调参数 参数名参数值参数名参数值 隐藏层数10隐藏层数4 词嵌入维度640隐藏层大小256 全连接维度1280失活率0.2 优化器Adam优化器Adam 学习率3.8×10−5学习率3×10−5 注意力头数10批处理大小16 最长序列150迭代次数50
3.2.1 基线方法
由于目前尚无公开的藏文语义角色标注数据集和模型, 本文选择业界公认且具代表性的语义角色标注方法和常用的基线模型为主要基线模型。为了便于比较, 将所选基线模型分成 3 类。第一类为基于统计的传统机器学习方法, 第二类为基于深度学习的机器学习方法, 第三类为基于预训练语言模型的微调方法。
3.2.2 评价标准
本文选择精确度(P)、召回率(R)、F1值和准确率(ACC)作为模型性能评价指标, 计算公式为
(8)
(9)
(10)
(11)
其中, TP 表示预测为正的正样本, FP 表示预测为正的负样本, FN 表示预测为负的正样本, TN 表示预测为负的负样本。
3.3.1 4种标注模式的性能对比
为了对比 4 种标注模式的性能, 我们在数据集TSRLD-Span 上对 4 种标注模式进行实验, 结果见表 2。可以看出, 不论是否使用预训练语言模型, 最佳实验性能均属于边界连接策略, 其精确度、召回率和 F1 值比全连接策略平均提高 1.42, 0.43 和0.94 个百分点, 表明边界连接策略可以取得更好的实验结果。原因可能是, BIES 和 BIE 标注模式会将组成论元的所有词和谓词连接起来, 形成一个图, 因此比 BES 和 BE 标注模式生成图的边更多。从表2 还能看出, 4 种标注模式的性能效果排序为 BES> BE>BIES> BIE。
图7 各语义角色标签被标频次
Fig. 7 Frequency of tagging for each semantic role label
表2 不同图标注模式的实验效果
Table 2 Experimental effects of different graph labeling modes
连接策略标注模式P/%R/%F1/% 无TiUniLM边界连接BES87.6187.8187.71 BE86.8086.9386.86 全连接BIES85.9787.2386.59 BIE85.0186.7685.88 +TiUniLM边界连接BES88.8790.5389.69 BE87.8989.8288.89 全连接BIES87.4390.0688.73 BIE87.0889.3188.18
说明: 粗体数字表示性能最佳, 下同。
通过分析不同图标注模式的实验性能, 发现相较于其他标注模式, BES 更适用于本文任务, 故其余实验都基于 BES 标注模式进行。
3.3.2 图解析策略的优越性
为了验证将基于片段的藏文语义角色标注转换为基于词的图解析任务进行处理的必要性和优越性, 在相同实验环境下, 对比基于 BIO 和 BES 标注方式进行建模时的解析速度。BIO 为序列标注任务中常用的标注形式, BES 是本文将目标任务转换为基于词的图解析任务进行处理设计的图标注模式。解析速度取 3 次运行的平均值, 结果见表 3。可以看出, 采用 BES 图标注模式时, 每秒可以解析 103条句子, 速度比 BIO 标注方式快约 2.5 倍, 从而验证了图解析策略的必要性和优越性。
表3 解析速度对比
Table 3 Parsing speed comparison
标注方式句子/s BIO 41 BES103
3.3.3 基于图解析的片段藏文语义角色标注性能
为了验证本文方法的有效性和优越性, 本文对比 3 类基线方法与基于图解析的片段藏文语义角色的标注效果, 实验结果见表 4。可以看出, 相较各类基线模型, 本文方法的性能均有不同幅度的提升。相比基线一, 精确度、召回率和 F1 值平均提高 11.45, 14.03 和 13.10 个百分点; 相比基线二, 精确度、召回率和 F1 值平均提高 1.87, 3.16 和 2.51 个百分点; 相比基线三, 精确度、召回率和 F1 值平均提高 1.33, 1.15 和 1.27 个百分点。说明本文方法在基于片段的藏文语义角色标注任务中表现更好, 验证了该方法的有效性。另外, 本文方法可以联合预测谓词和对应的语义角色标签, 并取得理想的实验结果, 精确度、召回率和 F1 值分别达到 88.03%, 89.96%和 88.98%, 验证了方法的优越性。
本文方法比基线方法性能更佳的原因主要有 3个方面。一是通过在特征编码层设计标识器 P, 巧妙地提前指定输入句子中的谓词, 并获取谓词的类别语义特征, 从而在避免谓词预测错误的同时, 还丰富了输入谓词的语义特征; 二是在普通 LSTM 的基础上新增 GM, 使信息在垂直方向的传递更加平衡, 能够有效地缓解梯度消失的现象; 三是解码时通过判断不同图标注模式生成图的合法性, 使用 Viterbi 约束解码对存在冲突的图进行校正, 得到更合理的语义角色标注结构。
表4 基于片段的藏文语义角色标注实验结果
Table 4 Experimental results of fragment-based semantic role labeling for Tibetan language
实验方法P/%R/%F1/%ACC/% 基线一HMM70.2868.3668.8070.62 CRF84.5784.6484.4184.96 基线二DBLSTM-Softmax[13]86.3986.8386.6187.16 DBLSTM-CRF[12]87.0287.4787.2487.69 Self-Attention-Softmax[14]87.1987.5287.3587.85 Self-Attention-CRF[14]87.3987.6687.5288.03 基线三TiUniLM[22]87.2288.9688.0889.25 TiUniLM-CRF[22]87.8689.8188.7789.83 本文TiUniLM-GM-LSTM+CV88.0389.9688.9890.52 TiUniLM-GM-LSTM+CV (P)88.8790.5389.6991.85
说明: 基线一是本文实现的基于统计机器学习的基线模型, 基线二是文献中的模型在本文数据集上进行实验的方法, 基线三是文献中的藏文预训练语言模型 TiUniLM 实现藏文语义角色标注的方法; TiUniLM-GM-LSTM+CV 和 TiUniLM-GM-LSTM+CV(P)为本文模型, 分别为联合预测谓词和引入谓词标识器 P 的藏文语义角色标注方法; 联合预测谓词的方法需要模型同时预测谓词和语义角色, 而非提前给定或标识。
经过分析模型的测试结果, 发现影响模型性能欠佳和引起错误的主要原因有三点。一是因数据样本不平衡, 导致部分样本偏少的语义角色在测试阶段容易出错; 二是因测试数据中一些结构复杂的藏文句子, 如“ལུ་གུས་དེ་ཐོས་མ་ཐག་ཏུ་ཧང་སངས་པ་དང་།སྐད་དམའ་མས་ཁྱོད་ཀྱི་འ ཐུང་ཆུ་ངས་བསྙོགས་པ་མིན།ཁྱོད་ཆུ་མགོ་དང་ང་ཆུ་རྔ་མ་ཡིན་ནམ་ཞེས་བཤད།”和“ཚོ་ཚོ་ ཡིས་མགོ་ལྕོག་ལྕོག་བྱེད་བཞིན།ཚོ་ཁྲུང་གི་བཤད་པ་ལྟར་བྱེད་དགོས་ཞེས་བཀའ་ཕེབས།”用“ཞེ ས”引导的论元片段较长, 甚至含多个藏文单垂符“།”, 使句型和句义都偏复杂, 导致容易出现误标的现象; 三是部分藏文句子中谓词对应的论元扮演的语义角色极易混淆, 如“རྩིས་རིག་ལ་མཁས།”中的“རྩིས་རིག”标为“范围”或“受事”都可以, “ཁོང་གིས་བོད་ཡིག་གིས་འཕྲིན་ཡིག་འབྲི།”中的“བོད་ཡིག”标为“工具”或“方式”也都可以, 而测试集中这类句子对应的语义角色只有一种, 从而影响了测试效果。
3.3.4 特征学习方式的有效性
1) TiUniLM 词嵌入的有效性验证。在特征编码层对比使用 TiUniLM 和 GolVe 进行词嵌入的效果, 在测试集上的实验结果如图 8(a) 所示。可以看出, 使用 TiUniLM 词嵌入进行特征编码时的准确率比使用 GloVe 进行编码时高 3.64 个百分点, 验证了TiUniLM 词嵌入的有效性。
2)谓词标识器 P 的有效性验证。对比调用谓词标识嵌入算法自动指定谓词和提前给定谓词时的实验效果。方式一是调用谓词标识嵌入算法的实验效果, 方式二是提前给定谓词的实验效果。两种方式在测试集上的实验结果见图 8(b)。可以看出, 调用谓词标识嵌入算法时模型的准确率比提前给定谓词时高 1.02 个百分点, 验证了谓词标识器 P 的有效性。
3) GM-LSTM 的有效性验证。对比使用 GM-LSTM 和 ResNet(残差网络)对输入序列的时序特征建模的效果, 在测试集上的实验结果见图 8(c)。可以看出, 使用 GM-LSTM 对时序特征进行建模的准确率比使用 ResNet 时高 0.79 个百分点, 验证了使用GM-LSTM 学习时序特征的有效性。
4) Viterbi 约束解码的有效性验证。对比使用本文设计的 Viterbi 约束解码进行解码和使用 CRF 进行解码的效果, 在测试集上的实验结果见图 8(d)。可以看出, 解码端使用Viterbi约束解码时, 模型的准确率比直接使用 CRF 解码时高 1.16 个百分点, 说明本文设计的 Viterbi 约束解码方式更有效。
3.3.5 不同图标注模式在相同论元长度上的实验 性能
本文设计的 4 种图标注模式会以不同的边界连接和标记方式表示相同长度的论元(论元长度指论元所包含的词个数)。为了探讨 4 种标注模式的优缺点, 将论元长度分成 4 类, 并分析不同图标注模式在每类论元长度上的准确率和每个类别在数据集TSRLD-Span 中的占比。不同标注模式在相同论元长度上的实验结果如图 9 所示。可以看出, 标注模式 BES 和 BIES 在论元长度为 1 时表现比较突出, 表明有必要单独使用“S-r”标注单个词组成的论元。当论元长度大于 1 时, 在不同论元长度上, BES和 BE 标注模式的性能均优于 BIES 和 BIE 标注模式, 而 BES 和 BE 属于边界连接策略, 更加关注论元的边界信息。因此, 边界信息更有助于识别多词 论元。
图8 TiUniLM词嵌入、谓词标识器P、GM-LSTM和Viterbi约束解码的有效性验证
Fig. 8 Validation of the validity of TiUniLM word embeddings, predicate indicator P, GM-LSTM and Viterbi constraint decoding
本文提出一种将基于片段的端到端藏文语义角色标注转换成基于词的图解析任务进行处理的方法。首先, 该方法在特征编码层根据输入序列使用TiUniLM 生成对应的动态词嵌入向量, 并将其与谓词标识嵌入进行拼接, 完成模型自主指定谓词的功能, 并捕获谓词类别语义特征, 体现了模型的优越性。然后, 在特征学习层设计 GM-LSTM, 在缓解梯度消失的同时, 进一步对时序特征进行建模, 捕获了更加丰富的时序语义表征。最后, 在解码层使用Viterbi 约束解码, 对模型预测的非法标注序列进行校正后再输出, 规范了输出语义角色标签之间的结构关系。实验结果显示, 在测试集上, 本文方法的藏文语义角色标注的 F1 值达到 89.69%, 性能均优于几种基线方法。
由于目前没有公开的藏文大语言模型, 且受限于计算和数据资源, 故尚未在大语言模型上考查基于片段的藏文语义角色标注性能。未来的工作中将通过扩充数据, 尝试研究基于藏文大语言模型的片段藏文语义角色标注方法。
图9 不同图标注模式在相同论元长度上的性能
Fig. 9 Performance of different graph annotation schemas on the same argument lengths
参考文献
[1] Liu D, Gildea D. Semantic role features for machine translation // Proceedings of the 23rd International Con-ference on Computational Linguistics. Beijing, 2010: 716–724
[2] Bazrafshan M, Gildea D. Semantic roles for string to tree machine translation // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Sofia, 2013: 419–423
[3] Surdeanu M, Harabagiu S, Williams J, et al. Using predicate-argument structures for information extrac-tion // Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, 2003: 8–15
[4] Christensen J, Mausam, Soderland S, et al. Semantic role labeling for open information extraction // Pro-ceedings of the NAACL HLT 2010 First International Workshop on Formalisms and Methodology for Lear-ning by Reading. Los Angeles, 2010: 52–60
[5] Lin Y K, Liu Z Y, Sun M S. Neural relation extraction with multi-lingual attention // Proceedings of the 55th Annual Meeting of the Association for Computatio- nal Linguistics (Volume 1: Long Papers). Vancouver, 2017: 34–43
[6] Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, 2013: 1533–1544
[7] He L H, Lewis M, Zettlemoyer L. Question-answer driven semantic role labeling: using natural language to annotate natural language // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, 2015: 643–653
[8] Yih W T, Richardson M, Meek C, et al. The value of semantic parse labeling for knowledge base question answering // Proceedings of the 54th Annual Mee- ting of the Association for Computational Linguistics (Volume 2: Short Papers). Berlin, 2016: 201–206
[9] Zhang Z S, Wu Y W, Zhao H, Li Z, et al. Semantics-aware bert for language understanding // Proceedings of the AAAI Conference on Artificial Intelligence. New York, 2020: 9628–9635
[10] 班玛宝, 色差甲, 才让加, 等. 一种端到端的藏文La格浅层语义分析. 中文信息学报, 2023, 37(2): 62–70
[11] Zhou J, Xu W. End-to-end learning of semantic role labeling using recurrent neural networks // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Bei-jing, 2015: 1127–1137
[12] He L H, Lee K, Lewis M, et al. Deep semantic role labeling: what works and what’s next // Proceedings of the 55th Annual Meeting of the Association for Com-putational Linguistics (Volume 1: Long Papers). Van-couver, 2017: 473–483
[13] 王明轩, 刘群. 基于深度神经网络的语义角色标注. 中文信息学报, 2018, 32(2): 50–57
[14] Tan Z X, Wang M X, Xie J, et al. Deep semantic role labeling with self-attention // Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans, 2018: 4929–4936
[15] Shi P, Lin J. Simple BERT models for relation extrac-tion and semantic role labeling [EB/OL]. (2019–04–10)[2024–02–03]. https://arxiv.org/abs/1904.05255
[16] Zhou S L, Xia Q R, Li Z H, et al. Fast and accurate end-to-end span-based semantic role labeling as word-based graph parsing // Proceedings of the 29th Inter-national Conference on Computational Linguistics. Gyeongju, 2022: 4160–4171
[17] Zhang Y, Xia Q R, Zhou S L, et al. Semantic role labe-ling as dependency parsing: exploring latent tree struc-tures inside arguments // Proceedings of the 29th Inter-national Conference on Computational Linguistics. Gyeongju, 2022: 4212–4227
[18] 祁坤钰. 基于依存关系的藏文语义角色标注研究. 西北民族大学学报(哲学社会科学版), 2014(1): 139–143
[19] 祁坤钰. 面向信息处理的藏语语义角色研究. 西北民族大学学报(自然科学版), 2014, 35(4):19–26
[20] 龙从军, 康才畯, 李琳, 等. 基于多策略的藏语语义角色标注研究. 中文信息学报, 2014, 28(5): 176–181
[21] 珠杰, 仁青诺布, 春燕, 等. 论元角色的藏语语义角色标注研究. 高原科学研究, 2018, 2(3):85–96
[22] 色差甲. 藏文律诗自动生成研究[D]. 西宁: 青海师范大学, 2022
[23] Gal Y, Ghahramani Z. A theoretically grounded appli-cation of dropout in recurrent neural networks // Pro-ceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, 2016: 1027–1035
[24] 班玛宝, 慈祯嘉措, 张瑞, 等. 融合La格虚词语义信息的藏文La格分类模型. 厦门大学学报(自然科学版), 2023, 62(4): 695–703
End-to-End Spanning Tibetan Semantic Role Labeling Based on Graph Parsing
Abstract Semantic role labeling, as an essential pathway to semantic understanding, has a wide range of appli-cations in machine translation, information extraction, and question and answer systems. This paper proposes a graph parsing-based end-to-end spanning semantic role labeling method for Tibetan, based on existing Tibetan semantic labeling systems and methods, by referring to the more mature semantic role labeling methods in English and Chinese. The method converts span-based semantic role labeling in Tibetan into a word-based graph parsing task, and the process is divided into two phases: semantic role labeling to graph conversion and graph to semantic role labeling recovery. In the first stage, a Tibetan pre-training language model (TiUniLM) is used for dynamic word embedding, and predicates are automatically specified by introducing the predicate indicator P. Then, temporal features are further modeled by designing a "gating" mechanism long short-term memory network (GM-LSTM). The second stage uses Viterbi constraint decoding to correct the illegitimate graphs. Experiments on TSRLD-Span show that the proposed method can achieve the best F1 value of 89.69% on the test set, which is a significant improvement in performance compared with the baseline model, indicating that the method is effective.
Key words natural language processing (NLP); graph parsing; span; Tibetan semantic role labeling; predicate indicator