摘要:
语义角色标注作为通往语义理解的重要途径, 在机器翻译、信息抽取和问答系统中具有广泛的应用价值。本文通过借鉴英文和汉文中较为成熟的语义角色标注方法, 在已有藏文语义标注体系和方法的基础上, 提出一种基于图解析的端到端片段(span)藏文语义角色标注方法。该方法将基于片段的藏文语义角色标注转换成基于词的图解析任务, 可分为语义角色标注到图的转换和图至语义角色标注的恢复两个阶段。第一阶段采用藏文预训练语言模型(TiUniLM)进行动态词嵌入, 并通过引入谓词标识器P, 自动指定谓词, 然后通过设计“门控”机制长短时记忆网络(GM-LSTM)对时序特征进一步建模。第二阶段使用Viterbi约束解码, 对不合法的图进行校正。最后, 通过在TSRLD-Span上的实验表明, 该方法在测试集上的最佳F1值可达89.69%, 相比基线模型, 性能具有显著提升, 验证了该方法的有效性。
班玛宝, 罗鹏, 头旦才让, 尼玛扎西, 才让加, 于永斌. 基于图解析的端到端片段藏文语义角色标注方法[J]. 北京大学学报(自然科学版), 2025, 61(3): 440-450.
BAN Mabao, LUO Peng, Thupten Tsering, Nyima Tashi, CAI Rangjia, YU Yongbin. End-to-End Spanning Tibetan Semantic Role Labeling Based on Graph Parsing[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2025, 61(3): 440-450.