摘要:
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异, 提出两种定量比较方法, 即在任一空间中, 使用距离一个词最近的k近邻词集合表示其语义, 进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化; 将每个词与其k近邻词组成词对, 分析词对之间的关系。实验结果表明, 图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化, 可以更好地区分反义词, 发现更多的上下义词, 而文本单模态预训练模型更擅长发现同义词。另外, 图文多模态预训练模型能够建立更广泛的词之间的相关关系。
孙宇冲, 程曦苇, 宋睿华, 车万翔, 卢志武, 文继荣. 多模态与文本预训练模型的文本嵌入差异研究[J]. 北京大学学报自然科学版, 2023, 59(1): 48-56.
SUN Yuchong, CHENG Xiwei, SONG Ruihua, CHE Wanxiang, LU Zhiwu, WEN Jirong. Difference between Multi-modal vs. Text Pre-trained Models in Embedding Text[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 48-56.