赵紫玉,徐金安,张玉洁,刘江鸣
ZHAO Ziyu, XU Jin’an, ZHANG Yujie, LIU Jiangming
摘要: 基于自定义知识库, 提出一种知识库强化规则集以及与统计模型相结合的日语时间表达式识别方法,旨在不断提高时间表达式的识别精准度。按照Timex2标准对时间表现的细化分类, 结合日语时间词的特点, 渐进地扩展重构日语时间表达式知识库, 实现基于知识库获取的规则集的优化更新。同时, 融合条件随机场CRF统计模型, 提高日语时间表达式识别的泛化能力。通过考察基于短语的翻译模型翻译时间词的精度, 提出统计机器翻译(SMT)结合规则翻译日语时间词的必要性。实验结果显示, 日语时间表达式识别的开放测试F1值达到0.8987, 基于《日汉时间词平行字典》与规则的翻译精度和召回率都略高于基于统计机器翻译模型。
中图分类号: