检索结果

Select

1. 基于跨度表示的藏医药文献实体关系抽取

周青, 拥措, 拉毛东只, 尼玛扎西

北京大学学报（自然科学版） 2025, 61 (5): 860-868. DOI: 10.13209/j.0479-8023.2024.125

摘要（749）

HTML

PDF（pc）（608KB）（2090）

针对由于藏医药术语的特殊性、文本资源的稀缺以及语言处理的复杂性, 传统的实体关系抽取方法难以直接应用于藏医药领域的问题, 提出一种基于跨度表示的藏医药文献实体关系抽取方法, 该方法使用跨度表示和TibetanAI_ALBERT_v2.0预训练语言模型进行编码, 通过枚举潜在候选的实体, 解决实体嵌套不能充分识别的问题。同时, 引入KL散度来约束模型在训练和推理阶段不一致的问题。在藏医药领域实体关系抽取数据集TibetanAI_TMDisRE_v1.0上的实验结果表明, 该方法取得显著的性能提升, 精确率、召回率和F1值分别达到84.85%, 77.35%和80.81%。

相关文章 | 多维度评价 | 评论（0）

Select

2. 基于图解析的端到端片段藏文语义角色标注方法

班玛宝, 罗鹏, 头旦才让, 尼玛扎西, 才让加, 于永斌

北京大学学报自然科学版 2025, 61 (3): 440-450. DOI: 10.13209/j.0479-8023.2025.038

摘要（1831）

HTML

PDF（pc）（1808KB）（4348）

语义角色标注作为通往语义理解的重要途径, 在机器翻译、信息抽取和问答系统中具有广泛的应用价值。本文通过借鉴英文和汉文中较为成熟的语义角色标注方法, 在已有藏文语义标注体系和方法的基础上, 提出一种基于图解析的端到端片段(span)藏文语义角色标注方法。该方法将基于片段的藏文语义角色标注转换成基于词的图解析任务, 可分为语义角色标注到图的转换和图至语义角色标注的恢复两个阶段。第一阶段采用藏文预训练语言模型(TiUniLM)进行动态词嵌入, 并通过引入谓词标识器P, 自动指定谓词, 然后通过设计“门控”机制长短时记忆网络(GM-LSTM)对时序特征进一步建模。第二阶段使用Viterbi约束解码, 对不合法的图进行校正。最后, 通过在TSRLD-Span上的实验表明, 该方法在测试集上的最佳F1值可达89.69%, 相比基线模型, 性能具有显著提升, 验证了该方法的有效性。

相关文章 | 多维度评价 | 评论（0）

Select

3. 藏文的信息熵与输入法键盘设计

完么扎西, 尼玛扎西

北京大学学报自然科学版 2017, 53 (3): 405-411. DOI: 10.13209/j.0479-8023.2016.113

摘要（2541）

HTML （129）

PDF（pc）（1306KB）（2264）

在研究和分析藏文拼写文法的基础上, 对计算机藏文快速输入法键盘键位布局进行形式化描述, 推导计算机藏文键盘键位布局规则及方法。综合考虑藏文字符的字频统计结果、计算机藏文键盘键位布局规则、德沃拉克键盘键位击键方便指数以及为了便于记忆加以考虑的藏文字母与英文字母发音上的近似性, 设计一种能够实现藏文无重码快速输入的键盘键位布局。最后, 计算输入一个藏文字的平均击键数, 验证所设计的键盘键位布局比现有的输入法键盘键位布局更具科学性。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）