北京大学学报(自然科学版) ›› 2016, Vol. 52 ›› Issue (1): 25-34.DOI: 10.13209/j.0479-8023.2016.022
王巍巍, 王志刚, 潘亮铭, 刘阳, 张江涛
WANG Weiwei, WANG Zhigang, PAN Liangming, LIU Yang, ZHANG Jiangtao
摘要:
提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO), 将各个影视数据源对齐到BMO, 以保持异构数据源的语义描述一致性。在知识链接方面, 在充分挖掘和利用领域特征的基础上, 采用基于Word2Vec 和TFIDF 两种向量模型的实体相似度计算方法, 使相似度特征增加一倍, 大大提升了模型的链接效果。在实体匹配方面, 提出基于相似度传播算法的实体匹配算法, 并利用影视数据源之间的内在联系, 克服了跨语言实体之间计算相似度的语言障碍。实验结果表明, 当阈值取到0.75 以上时, 实体匹配的准确率都能达到90% 左右。此外, 还建立了影视知识图谱共享平台, 并提供开放性的数据访问和查询接口。
中图分类号: