A Word Representation Method Based on Hownet

doi:10.13209/j.0479-8023.2018.061

Acta Scientiarum Naturalium Universitatis Pekinensis ›› 2019, Vol. 55 ›› Issue (1): 22-28.DOI: 10.13209/j.0479-8023.2018.061

Previous Articles Next Articles

A Word Representation Method Based on Hownet

CHEN Yang¹, LUO Zhiyong^2,†

1. College of Information Science, Beijing Language and Culture University, Beijing 100083
2. Institute of Linguistic Information Processing, Beijing Language and Culture University, Beijing 100083

Received:2018-04-15 Revised:2018-08-18 Online:2019-01-20 Published:2019-01-20
Contact: LUO Zhiyong, E-mail: luo_zy(at)blcu.edu.cn

一种基于Hownet的词向量表示方法

陈洋¹, 罗智勇^2,†

1. 北京语言大学信息科学学院, 北京 100083
2. 北京语言大学语言信息处理研究所, 北京 100083

通讯作者: 罗智勇, E-mail: luo_zy(at)blcu.edu.cn

Abstract

Abstract:

Word embedding method based on pre-training still has some defects in the stability and the quality of low-frequency words. The authors propose a new word embedding method based on Hownet. First, based on the sememe independence assumption, all sememes of Hownet are specified in an Euclidean Space’s standard orthogonal basis to initialize all sememe vectors. Secondly, utilizing the relationship between word and sememe defined in the Hownet, each word vector representation can be regarded as a subspace projection by related sememes. Finally, a deep neural network model is put forward to learn word representations. The experimental results indicate that proposed word embedding method based on Hownet obtained comparable results in the two standard evaluation tasks including the word similarity computation and the word sense disambiguation.

Key words: word embedding, Hownet, word similarity computation, word sense disambiguation

摘要：

针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。

关键词: 词向量表示, Hownet, 词语相似性计算, 词义消岐

CHEN Yang, LUO Zhiyong. A Word Representation Method Based on Hownet[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 22-28.

陈洋, 罗智勇. 一种基于Hownet的词向量表示方法[J]. 北京大学学报自然科学版, 2019, 55(1): 22-28.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/10.13209/j.0479-8023.2018.061

https://xbna.pku.edu.cn/EN/Y2019/V55/I1/22

[1]	DUAN Jianyong, DAI Shiwei, WANG Hao, HE Li, LI Xin. Exploration of Knowledge Driven Event Hyperbolic Embedding Temporal Relation Extraction Method [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 76-82.
[2]	ZHANG Hongke, FU Zhenxin, REN Qianping, XU Hui, ZHAO Dongyan, YAN Rui. Automated ICD Coding Based on Word Embedding with Entry Embedding and Attention Mechanism [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 1-8.
[3]	LI Xiaojun, SHI Hanxiao, CHEN Nannan, LIU Hong, ZOU Yi. Research on Sentiment Analysis Based on Representation Learning [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 105-112.
[4]	SUN Jiawei, LI Zhenghua, CHEN Wenliang, ZHANG Min. Hypernym Relation Classification Based on Word Pattern [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 1-7.
[5]	An YANG, Sujian LI, Yun LI. Word Sense Disambiguation Based on Domain Knowledge and Word Vector Model [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 204-210.
[6]	WANG Baoxin, ZHENG Dequan, WANG Xiaoxue, ZHAO Shanshan, ZHAO Tiejun. Multiple-Choice Question Answering Based on Textual Entailment [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 134-140.
[7]	LI Dongchen;ZHANG Xiantao;FAN Yang;WU Xihong. Chinese Syntactic Parsing with Word Sense Disambiguation [J]. , 2015, 51(4): 577-584.

A Word Representation Method Based on Hownet

一种基于Hownet的词向量表示方法

RichHTML

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 7

Recommended Articles

Metrics