基于分层融合策略和上下文信息嵌入的多模态情绪识别

湖南省自然科学基金(2022JJ30495)和湖南省教育厅重点科研项目(22A0316)资助

南华大学计算机学院, 衡阳 421200; †通信作者, E-mail: ouyangcp@126.com

摘要现有的多模态融合策略大多将不同模态特征进行简单拼接, 忽略了针对单个模态固有特点的个性化融合需求。同时, 在情绪识别阶段, 独立地看待单个话语的情绪而不考虑其在前后话语语境下的情绪状态, 可能导致情绪识别错误。为了解决上述问题, 提出一种基于分层融合策略和上下文信息嵌入的多模态情绪识别方法, 通过分层融合策略, 采用层次递进的方式, 依次融合不同的模态特征, 以便减少单个模态的噪声干扰并解决不同模态间表达不一致的问题。该方法还充分利用融合后模态的上下文信息, 综合考虑单个话语在上下文语境中的情绪表示, 以便提升情绪识别的效果。在二分类情绪识别任务中, 该方法的准确率比SOTA 模型提升 1.54%。在多分类情绪识别任务中, 该方法的 F1 值比 SOTA 模型提升 2.79%。

人类情绪可以通过面部表情、文本和声音等不同的载体来表达[1]。基于机器学习的方法能够有效地提取这些情绪信息, 并对情绪进行识别。在不同的情境中, 人们采用不同的方式来表达情绪。如图1 所示的对话场景中, 男性演员和女性演员利用多种方式来表达情绪, 包括利用语言、面部表情以及说话时的语调、语速和声音起伏等方式去传达丰富的情绪信息。

在对话中, 每段话语情绪并非独立存在, 而是受到上下文语境情绪影响。例如, 单独分析“今天下雨了, 不能去露营”这段话, 我们可能会倾向于将整体情绪解读为悲伤。然而, 将该句话置于整个对话的上下文中进行综合考虑, 最终分析得到这段对话的情绪是快乐。因此, 单个话语的情绪无法代表整体的情绪, 需要结合上下文信息进行综合分析, 才能更准确地理解整体情绪。

不同感知来源的多种信息称为多模态[2]。多模态情绪识别技术能够将来自不同模态的信息结合起来, 实现情绪的综合识别和理解[3]。通过训练模型, 可以更准确地捕捉和解释人类情绪的多样性和复杂性。虽然多模态情绪识别工作已经取得一些代表性成果, 但仍然面临一系列挑战。

1)不同模态具有独特的情绪相关信息, 并且每个模态内部存在一定的噪声干扰, 如何降低模态内部的噪声干扰, 有效地融合模态信息, 是多模态情绪识别面临的一个重要任务。

2)不同模态的数据形式和表达方式各不相同, 如何确保不同模态之间的数据语义和表示的一致性, 有效地实现模态之间的对齐, 是多模态情绪识别存在的困难。

3)单个话语的情绪表达往往受其前后语境中情绪影响。仅仅依靠单个话语的情绪判断整体情绪, 可能对整体情绪识别结果产生负面影响。如何理解单个话语情绪与其前后话语情绪之间的联系, 是多模态情绪识别面临的重要挑战。

基于上述分析, 本文提出一种基于分层融合策略和上下文信息嵌入的多模态情绪识别方法(hierar-chical fusion and contextual embedding, HFCE)。本文设计模态分层融合策略, 针对视频模态、音频模态和文本模态的特性, 选择不同的融合方式, 依次融合各个模态。在融合噪声干扰严重的视频模态和表征效果较弱的音频模态时, 采用矩阵加法来降低模态存在的噪声干扰, 增强融合模态的表征效果。在文本模态和视频–音频融合模态的融合处理中, 引入 Barlow Twins 模型[4]进行动态调整, 提升模态间的语义和表示一致。采用上下文信息嵌入方法, 将上下文语境信息融入多模态信息中, 充分考虑每段话语的前后语境之间的情绪传递, 从而更全面、更准确地理解单个话语情绪与其前后话语情绪之间的关系, 以便更准确地识别对话整体的情绪类别。

1 相关工作

情绪识别是自然语言处理领域中热门的研究课题[5]。基于文本的情绪识别任务旨在通过分析和理解文本中的情绪信息来推断人类的情绪状态。Yu等[6]利用常识知识来处理纯文本情绪识别问题。Wang等[7]将情绪识别任务视为序列标注任务, 对所有的情绪统一建模处理。然而, 由于情绪通常是通过语言、面部表情和声音等多种方式来表达, 只依赖文本模态难以捕捉非语言化的信息, 无法充分表达情绪的复杂性, 极大限制了情绪识别模型的性能。

由于语气、语调和面部表情含有丰富的情绪信息, 可以为情绪识别提供重要线索, 并为基于文本的情绪分析方法提供补充。因此, 学者们将基于文本的情绪识别方法逐渐扩展到多模态情绪识别领域, 以便更全面地把握和理解人的情绪表达。Pérez-Rosas 等[8]将视觉、听觉和语言模态直接拼接, 获得融合模态去训练模型。Datcu 等[9]通过融合视觉和听觉数据, 更全面地捕捉情绪的多模态特征, 提高情绪识别的准确性。这些早期的多模态方法只是将不同模态的特征进行简单的融合, 未针对单个模态的特性制定相应的融合策略, 导致在情绪识别任务中无法充分利用单个模态内部包含的丰富情绪信息, 从而限制了情绪识别的准确性和全面性。

随着深度学习的快速发展, 越来越多的学者将其应用于多模态情绪识别领域。Hazarika 等[10]利用对话历史, 通过多种模态及门控循环单元建模每个说话者的过去语句, 使用注意力机制来合并这些记忆, 捕捉说话者之间的依赖关系。张亚伟等[11]通过分层 LSTM 分别设置单模态模内特征提取层、双模态和三模态模间融合层, 进行文本、语音和图像模态的深度融合, 在考虑模态内部信息特征的同时, 捕获模态之间的交互信息。Shenoy 等[12]提出基于上下文感知的 RNN, 并使用注意力融合视频、音频和文本三种模态。Fu 等[13]利用面向会话语义和知识的图卷积网络, 利用语义和常识知识来解决情绪识别任务。Hu 等[14]通过在 T5 模型中加入多模态融合层, 实现文本特征与视频、音频特征的多模态融合。

上述方法充分挖掘不同模态的信息, 并设计了相应的多模态融合策略, 有效地提升了多模态情绪识别的效果。但是, 融合后的模态中还存在一些上下文语境信息, 能够帮助我们更全面地理解每个话语的情绪, 使得整体情绪能够更准确地反映整段对话的情绪状态。因此, 本文提出一种基于分层融合策略和上下文信息嵌入的多模态情绪识别方法, 可以根据不同模态的特性制定相应的融合策略, 解决模态内部噪声干扰和不同模态表达不一致问题。同时, 在融合后的多模态中嵌入上下文语境信息, 提高单个话语情绪与其前后话语情绪之间关系的理解度, 增强情绪识别任务的效果。

2 基于分层融合策略和上下文信息嵌入的多模态情绪识别模型(HFCE)

2.1 总体框架

如图 2 所示, 本文提出的基于分层融合策略和上下文信息嵌入的多模态情绪识别模型(HFCE)由多模态特征提取、多模态特征融合、上下文信息嵌入和情绪分类 4 个部分组成。

1)多模态特征提取。为了更好地提取模态中蕴含的特征信息, 本文采取不同的特征提取方式, 分别对文本模态、视频模态和音频模态进行特征提取。对于文本模态, 首先将文本对话模态拼接起来, 然后使用 Sentence-BERT 预训练模型[15]提取文本模态的信息作为文本特征; 对于音频模态和视频模态, 首先将对话音频模态和视频模态分别拼接, 然后分别使用 Transformer 模型[16]进行训练, 分别提取音频模态和视频模态的信息作为音频特征和视频特征。

2)多模态特征融合。在单独提取不同模态特征的基础上, 为了获得准确且全面的多模态特征表示, 需要对提取出来的不同模态特征进行融合。本文提出一种分层融合策略, 先将视频模态和音频模态融合, 再融合文本模态。首先利用矩阵加法来融合音频模态和视频模态, 从而有效地减少融合过程中的噪声干扰并增强融合后新模态的表征效果。然后, 利用矩阵拼接融合新模态和文本模态, 同时引入 Barlow Twins 模型, 确保不同模态之间的数据和语义一致性, 提升多模态特征的表达效果。

3)上下文信息嵌入。多模态特征融合后的多模态特征中蕴含丰富的上下文语境信息。本文首先使用 Transformer 编码器获取融合后模态内部的上下文信息, 再使用上下文信息嵌入来捕捉融合后模态间上下文的相关性, 并将每个模态作为节点, 在图中使用有向边来表示上文与下文之间的关系。最后利用 RGCN[17]对图中存在的边的类型和方向进行归一化, 并累积相邻节点的关系进行特定变换, 更好地捕捉图中模态特征中蕴含的上下文信息。

4)情绪分类。在获得更准确、更全面的多模态特征表示后, 将这些特征输入 softmax 分类器, 进行二分类和多分类情绪识别。softmax 分类器将输入的多模态特征映射到不同的情绪类别上, 并生成相应的情绪分类结果。

2.2 多模态特征提取

本文用四元组 D=(A, S, V, L)表示情绪的多模态特征。A, S, V 和 L分别代表音频、文本、视频和对话的情绪标签, 音频 ai∈Rda, 文本 si∈Rds, 视频 vi∈Rdv, da 是音频 a 的维度, dv 是视频 v 的维度, ds 是文本s 的维度。

为了丰富对话语境, 本文利用目标语句附近的语境信息, 将文本、视频和音频模态分别进行拼接融合, 以便更好地挖掘每个模态内部所蕴含的信息。以音频模态拼接为例, 首先设定窗口大小为 ρ, 步长为 1, 对所有音频模态(ai; i=1, …, N)进行滑动拼接, 形成音频模态表示(Ai; i=1, …, n)。音频模态拼接方式如下:

其中,

是拼接运算符; ρ 为超参数; width=56.55,height=18

为向上取整。

定义音频模态的组合特征矩阵为 A=[A1, A2, …, An]T, 视频模态的组合特征矩阵为 V=[V1, V2, …, Vn]T, 文本模态的组合特征矩阵为 S=[S1, S2, …, Sn]T。针对不同的模态的特性, 采取不同的特征提取方式。对于音频模态和视频模态的特征提取, 本文采用 Transformer 捕获模态信息。以音频模态为例: 本文定义 Query(查询)、Key(键)和 Value(值)向量对输入特征 width=40.3,height=14.55

进行编码:

计算自注意力时, 通过点积操作来捕捉 Query矩阵与 Key 矩阵之间的交互。然后, 通过 softmax函数将点积结果进行归一化, 得到每个 Query 对应Value 的权重分布。最后, 将这些 Value矩阵按照权重分布进行加权平均, 得到最终输出向量, 计算公式如下:

其中,

softmax 表示 softmax 函数, width=16.3,height=15.45

是为防止点积结果过大造成梯度爆炸或消失的数值缩放因子。

将 X′通过全连接前馈网络, 在每个子层周围采用残差连接, 再利用 layerNorm 独立地对网络每一层的输入进行归一化处理:

其中, σ 为 relu 激活函数。最终得到音频特征表示 width=125.15,height=18

视频模态也采用Transform 捕捉上下文信息, 得到视频特征表示 width=18.85,height=15.45

。

对于文本模态, 使用 Sentence-BERT(SBERT)来捕获文本模态的信息, 增强文本特征的表达能力。文本模态的组合特征为 width=82.3,height=16.3

, 相应的 mask 值为

再利用 Transformer 捕捉文本特征中蕴含的深层信息, 最后得到对应每个文本话语的文本特征 width=33.45,height=15.45

。

2.3 多模态特征融合

本文采取分层融合策略来融合不同模态之间的特征。针对不同模态的特性, 采取不同的特征融合方式。首先, 在音频模态和视频模态的融合过程中, 为了有效地减少融合过程中的噪声干扰, 以便获得更全面的信息表示, 采用矩阵加法进行模态融合:

得到视频模态和音频模态在融合后形成的视频–音频模态表示为 width=86.55,height=16.3

。

在进行文本模态和视频–音频模态融合时, 为了保持它们在语义和表达上的一致性和数据匹配, 本文引入 Barlow Twins 模型, 拉近同一样本, 推远不同样本, 动态地调整文本模态和视频–音频模态的融合过程。利用文本模态向量和视频–音频模态向量, 得到相应的多模态互相关矩阵, 并用sigmoid函数归一化该矩阵, 使其尽可能接近单位矩阵:

其中, C 表示多模态互相关矩阵, width=10.3,height=11.15

表示矩阵乘法, sigmoid 为 sigmoid 函数。

在对话数量为 n 的 batch 内, 迫使 C 矩阵对角线元素接近 1, 使非对角线元素接近 0, 从而使相同的向量更接近, 不同的向量更疏远, 最终获得语义一致、可区分的模态表示。损失函数定义如下:

然后, 将文本特征与视频–音频特征拼接起来, 得到多模态特征:

其中,

, d为多模态的维度。多模态组合特征矩阵为 width=86.55,height=16.3

。

2.4 上下文信息嵌入

将获得的多模态组合矩阵通过 Transformer 编码器, 获取融合后每个模态的上下文信息, 并得到对应的多模态特征 width=119.15,height=16.3

采用上下文信息嵌入, 挖掘融合后多模态特征中存在的上下文语义信息, 可以更好地捕捉融合后多模态特征之间的相关性。将每个多模态特征作为有向关系图中的一个节点, 节点之间存在上文关系和下文关系两种关系类型。定义多模态特征与其上下文关系为

定义多模态特征与其上下文的关系为

考虑构成上下文关系的多模态特征数量, 并使用 ρ作为拼接窗口来拼接每个模态的上下文话语, ←代表上文关系, →代表下文关系。

根据图中存在边的类型和方向, 用 RGCN 去捕获蕴含上下文语境信息的多模态特征表示:

其中,

表示关系 r∈R 下的节点 i 的邻居索引集, θr 是 RGCN 可学习的参数, width=25.7,height=16.3

是归一化常数, Uj代表图中节点 j的特征, σ 为 relu 激活函数。

2.5 情绪分类

将提取到的多模态特征向量映射到分类目标空间中, 通过训练多分类器, 将多模态特征与对应的情绪类别建立起关联, 并进行情绪分类预测。对话的概率分布如下:

其中, W 是权重矩阵, b 是偏置项, P 的取值范围为[0, 1], 取 P 的最大值作为最终的分类预测类别标签。在模型训练过程中, 采用 Adam 优化器, 选取交叉熵函数(cross entropy loss)作为分类损失函数:

其中, n 代表训练集中的样本总数, y 代表对话的真实标签类别。最终的损失定义如下:

其中, λ 是控制损失在总体损失中的权重系数。

3 实验

3.1 实验设置

为了全面地评估 HFCE 模型的性能和泛化能力,选用两个公开数据集 IEMOCAP[18]和 MOSEI[19]进行实验评估。IEMOCAP 是一个二元多模态情绪识别数据集, 由 7433 个样本组成, 包含 6 种情绪类别: 愤怒、悲伤、快乐、兴奋、沮丧和中性, 本文选取其中 4 种情绪分类(愤怒、悲伤、快乐和中性)进行实验。MOSEI 是一个多模态情绪识别数据集, 包含来自 YouTube 上的大规模多模态视频片段。由 22860个样本组成, 涵盖 7 种情绪类别(愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性)和 11 种情感强度等级。在 IEMOCAP 数据集上, 本文使用开源软件openSMILE 从音频信号中提取音频特征; 对于视频特征, 使用开源工具 OpenFace 进行特征提取; 对于文本特征, 使用 SBERT 进行特征提取。在 MOSEI数据集上, 对于音频特征, 采用 Delbrouck 等[20]使用的特征提取方法, 使用librosa库和 80 个滤波器组来提取音频特征; 对于视频特征, 直接使用 CMU-MOSEI 数据集中预提取的特征; 对于文本特征, 同样使用 SBERT 进行特征提取。本文将整个数据集按照比例划分为训练集、验证集和测试集, 统计数据如表 1 所示。

3.1.2 参数设置和评价标准

模型在训练过程种, 使用 ReLU 作为线性激活函数, 参数设置如表 2 所示。

在多分类情绪识别任务中, 本文使用加权平均F1 值(weighted average F1-score, w-avg)作为评价指标, 在二分类情绪识别任务中, 选取准确度(Accuracy) 作为评价指标。

3.2 基线方法

为了验证本文方法的有效性, 将提出的 HFCE模型与下述几个处理多模态情绪识别任务的基线模型进行对比实验。

1)BC-LSTM[21]: 利用长短期记忆网络(LSTM)捕获话语之间的上下文信息, 实现对多模态内容的情绪分析。

2)CMN[10]: 利用会话历史的上下文信息, 采用多模态方法, 将每个说话者过去的话语进行建模到统一的记忆空间, 使用双层门控循环单元来分析多模态内容中包含的情绪信息。

3)COGMEN[22]: 使用图神经网络 GNN 对对话中的说话者之间的相互依赖和全局情境信息进行建模, 预测每个说话者的每个话语的情绪。

4)LMF[23]: 是一种低秩多模态融合方法, 该方法利用低秩张量进行多模态融合, 通过在多模态数据中捕捉低维结构来实现多模态信息的整合。

5)MFN[24]: 是一种用于多视图顺序学习的神经结构, 通过特殊的注意机制, 在时间序列上进行连续建模, 并且利用多视图门控记忆对这些信息进行总结。

6)TFN[25]: 是一种张量融合方法, 在模态间进行动态建模, 在模态内动态地将 3 个模态嵌入子网络建模, 通过端到端学习两种动态。

7)TBJE[20]: 是一种利用 Transformer 架构, 并依赖于模块化的共同关注和一个展现层的方法, 共同编码一个或多个模态。

8)Multilogue-Net[12]: 是一种端到端的 RNN 架构, 利用所有模态对话上下文、听众和说话者情绪状态之间的依赖性以及模态间的相关性和关系来更好地理解潜在的情绪。

3.3 实验结果及分析

将 HFCE 模型与上述基线模型进行比较, 包括二分类情绪识别、七分类情绪和单标签情绪识别 3个部分。二分类情绪仅包括积极情绪和消极情绪, 七分类情绪由从高度消极(−3)到高度积极(+3)的情绪组成, 单标签情绪指话语中只包含一个情绪类别。实验结果如表 3 和 4 所示, 可以得出以下结论。

1)表 3 多分类情绪识别实验结果显示, HFCE 模型在多模态实验中取得比所有基线模型更高的 F1评分, 超过 SOTA (state-of-the-art)模型 2.79%, 表明HFCE 模型在多分类情绪识别任务中具有更好的性能。与采用张量融合的 TFN 模型和低秩融合的LMF 模型相比, HFCE 模型展现了更出色的性能。这进一步验证了分层融合策略的有效性以及矩阵加法能减少模态噪音干扰, Barlow Twins 模型能促进模态之间的对齐, 增强多模态表征效果。

说明: 实验结果均是在相同实验环境下复现所得, 粗体数字表示最优结果, 下同。

说明: “–”表示该模型的实验结果无法从文献中获取和复现。

2)在二分类情绪识别任务中, HFCE 模型在准确度评分方面优于所有基准模型, 表明 HFCE 模型在二分类情绪识别上具有很好的性能。与在多模态特征融合前使用上下文信息的 Multilogue-Net 模型相比, HFCE 模型表现出更卓越的性能, 进一步验证了融合后模态中蕴含的上下文信息对情绪识别性能提升的重要性。

3)在单标签情绪识别任务中, HFCE 模型在快乐、悲伤和愤怒类别上的 F1 值显著提升。由于厌恶和惊讶情绪不易表现, 并且样本中厌恶和惊讶类别的数量有限, HFCE 模型在这两个情绪类别上的提升效果受限。

综上所述, HFCE 模型不仅在多分类和二分类情绪识别任务中表现出色, 而且在单标签任务中也取得显著的成绩, 证明了 HFCE 模型的优越性能。

在相同实验环境下, 选择性屏蔽不同模块, 分析在 IEMOCAP 数据集上多分类情绪识别任务和MOSEI 数据集上二分类情绪识别任务中各模块的有效性。

去掉分层融合(–LF): 将视频、文本和音频模态直接拼接, 用于情绪识别预测。

去掉矩阵相加(–MA): 视频模态和音频模态采用直接拼接, 不做降噪处理。分析降噪处理对情绪识别任务的影响。

去掉 Barlow Twins 模型(–BLT): 不考虑模态对齐, 分析 Barlow Twins 模型对情绪识别的影响。

去掉上下文信息嵌入(–CIE): 分析上下文信息嵌入, 提取融合后多模态的上下文语境信息对情绪识别任务的影响。

实验结果如表 5 所示, 可以看出, 屏蔽模型的任意模块, 情绪识别的效果都会出现一定程度的降低, 证明了模型中各个模块的有效性。去掉分层融合后, 模型的多分类情绪识别和二分类情绪识别性能分别降低 4.31%和 2.73%, 说明使用分层融合策略, 针对单个模态固有特点设计融合策略, 能有效地提升情绪识别的性能。去掉 Barlow Twins 模型后, 将模态直接拼接起来, 并且不考虑模态间语义和数据的一致性, 导致模型在多分类情绪识别和二分类情绪识别性能分别降低 2.19%和 2.53%, 表明Barlow Twins 模型能够动态地调整模态融合过程, 使相同向量更加靠近, 不同向量更加疏远, 由此缩小了同一样本的情绪之间差距, 确保不同模态信息的一致性, 从而可以提升情绪识别的性能。去掉上下文信息嵌入后, 模型的多分类情绪识别和二分类情绪识别性能分别降低 5.20%和 3.94%, 说明使用上下文信息嵌入, 利用融合后模态的上下文信息能显著地提高情绪识别效果。

3.3.3 融合策略分析

在音频和视频模态融合策略的选择方面, 我们在 IEMOCAP 数据集上的多分类情绪识别任务和MOSEI 数据集上的二分类情绪识别任务中采用Concat, CrossAttention 和矩阵加法 3 种融合策略进行实验, 结果如表 6 所示。

在情绪识别任务中, 视频模态和音频模态融合过程中, 视频和音频这两种模态之间存在一定的内在对应关系和共性信息。通过矩阵加法, 不同模态的特征可以相互补充, 从而有效地平衡这两种模态的噪音, 使 HFCE 模型达到最佳性能。

本文实验的参数设置如下: 丢弃率(dropout)取值为 0.1～0.9; λ (控制在总体损失中的权重)取值为0.1～0.9; 学习率(lr)取值为 0.00001, 0.00005, 0.0001, 0.0005 和 0.001; ρ(控制拼接每个对话的上下文对话范围)取值为 1～6。使用 w-avg/%作为评估模型性能的指标, 进行多组参数实验来获取模型效果最优情况下的参数值, 实验结果如图 3 所示。

在情绪识别任务中, 当学习率为 0.0001, 丢弃率为 0.5, λ 为 0.5, ρ 为 5 时, HFCE 模型的 F1 评分为 86.42%, 模型达到最佳的性能。

4 结语

本文提出一种基于分层融合策略和上下文信息嵌入的多模态情绪识别方法(HFCE), 通过分层融合策略, 针对不同模态的特性, 采用层次递进的融合方式, 增强了融合模态的特征表示。同时, 利用上下文信息嵌入技术, 对融合后模态内的上下文语境进行建模, 有效地表示了单条话语的情绪类别, 提升了整体情绪识别效果。

本文在 IEMOCAP 和 MOSEI 数据集上分别进行实验, 结果显示, HFCE 模型在多分类情绪识别任务中性能比目前的 SOTA 模型提高 2.79%; 在二分类情绪识别任务中性能比目前的 SOTA 模型提高1.54%; 在单标签情绪识别任务中性能比所有基线模型提高 0.35%～3.46%, 达到最佳结果。未来, 我们将在多模态融合阶段探索更多的创新工作, 如保留单模态的固有特征以及与多模态特征进行迭代融合等。同时, 我们将发掘更多有益的模态信息来提升整体的情绪识别效果。

[1] 饶元, 吴连伟, 王一鸣, 等. 基于语义分析的情感计算技术研究进展. 软件学报, 2018, 29(8): 2397–2426

[2] O’Halloran K L. Interdependence, interaction and me-taphor in multisemiotic texts. Social semiotics, 1999, 9(3): 317–354

[3] 何俊, 刘跃, 何忠文. 多模态情感识别研究进展. 计算机应用研究, 2018, 35(11): 3201–3205

[4] Zbontar J, Jing Li, Misra I, et al. Barlow twins: self-supervised learning via redundancy reduction // Meila M, Zhang T. International Conference on Machine Learning. Online Meeting, 2021: 12310–12320

[5] Sharma G, Dhall A. A survey on automatic multimodal emotion recognition in the wild. Advances in Data Science: Methodologies and Applications, 2021, 189: 35–64

[6] Yu Zhou, Yu Jun, Cui Yuhao, et al. Deep modular co-attention networks for visual question answering // Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition. Long Beach: Computer Vision Foundation, 2019: 6281–6290

[7] Wang Yan, Zhang Jiayu, Ma Jun, et al. Contextualized emotion recognition in conversation as sequence tag-ging // Proceedings of the 21th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Seattle: Association for Computational Linguistics, 2020: 186–195

[8] Pérez-Rosas V, Mihalcea R, Morency L P. Utterance-level multimodal sentiment analysis // Proceedings of the 51st Annual Meeting of the Association for Com-putational Linguistics (Volume 1: Long Papers). Bul-garia: The Association for Computer Linguistics, 2013: 973–982

[9] Datcu D, Rothkrantz L J M. Semantic audiovisual data fusion for automatic emotion recognition. Emotion Recognition: A Pattern Analysis Approach, 2015: 411–435

[10] Hazarika D, Poria S, Zadeh A, et al. Conversational memory network for emotion recognition in dyadic dialogue vieos // Proceedings of the conference. Asso-ciation for Computational Linguistics. Melbourne, 2018: 2122

[11] 张亚伟, 吴良庆, 王晶晶, 等. 基于多层LSTM融合的多模态情绪识别. 中文信息学报, 2022, 36(5): 145–152

[12] Shenoy A, Sardana A. Multilogue-net: a context aware RNN for multi-modal emotion detection and senti-ment analysis in conversation [EB/OL]. (2022–04–22) [2023–05–30]. https://arxiv.org/abs/2002.08267

[13] Fu Yahui, Okada S, Wang Longbiao, et al. CONSK-GCN: conversational semantic-and knowledge-oriented graph convolutional network for multimodal emotion recognition // 2021 IEEE International Con-ference on Multimedia and Expo (ICME). Shenzhen, 2021: 1–6

[14] Hu Guimin, Lin T E, Zhao Yi, et al. Unimse: towards unified multimodal sentiment analysis and emotion recognition // Goldberg Y, Kozareva Z, Zhang Y. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dha- bi: Association for Computational Linguistics, 2022: 7837–7851

[15] Reimers N, Gurevych I. Sentence-BERT: setence em-beddings using siamese BERT-networks // Procee-dings of EMNLP. Hongkong, 2019: 3982–3992

[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017, 30: 5998–6008

[17] Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks // Gangemi A, Navigli R, Vidal M E, et al. ESWC 2018. Heraklion: Springer International Publishing, 2018: 593–607

[18] Busso C, Bulut M, Lee C C, et al. IEMOCAP: inter-active emotional dyadic motion capture database. Lan-guage Resources and Evaluation, 2008, 42: 335–359

[19] Zadeh A A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph // Gurevych I, Miyao Y. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volu-me 1: Long Papers). Melbourne: Association for Com-putational Linguistics, 2018: 2236–2246

[20] Delbrouck J B, Tits N, Brousmiche M, et al. A transformer-based joint-encoding for emotion recogni-tion and sentiment analysis [EB/OL]. (2020–06–29) [2023–05–30]. https://arxiv.org/abs/2006.15955v1

[21] Poria S, Cambria E, Hazarika D, et al. Context-dependent sentiment analysis in user-generated videos // Barzilay R, Kan M Y. Proceedings of the 55th annual meeting of the association for computational lingu-istics (Volume 1: Long papers). Vancouver: Associa-tion for Computational Linguistics, 2017: 873–883

[22] Joshi A, Bhat A, Jain A, et al. COGMEN: contex-tualized GNN based multimodal emotion recognition // 2022 Annual Conference of the North American Chapter of the Association for Computational Linguis-tics. Seattle, 2022: 4148–4164

[23] Liu Zhun, Shen Ying, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors // Proceedings of the 56th Annual Meeting of the Association for Computational Linguis-tics (Volume 1: Long Papers). Melbourne, 2018: 2247–2256

[24] Zadeh A, Liang P P, Mazumder N, et al. Memory fusion network for multi-view sequential learning. Procee-dings of the AAAI Conference on Artificial Intelli-gence, 2018, 32(1): 5634–5641

[25] Zadeh A, Chen Minghai, Poria S, et al. Tensor fusion network for multimodal sentiment analysis // Procee-dings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, 2017: 1103–1114

Multimodal Emotion Recognition Based on Hierarchical Fusion Strategy and Contextual Information Embedding

School of Computing, University of South China, Hengyang 421200; † Corresponding author, E-mail: ouyangcp@126.com

Abstract Existing fusion strategies often involve simple concatenation of modal features, disregarding persona-lized fusion requirements based on the characteristics of each modality. Additionally, solely considering the emo-tions of individual utterances in isolation, without accounting for their emotional states within the context, can lead to errors in emotion recognition. To address the aforementioned issues, this paper proposes a multimodal emotion recognition method based on a layered fusion strategy and the incorporation of contextual information. The method employs a layered fusion strategy, progressively integrating different modal features in a hierarchical manner to re-duce noise interference from individual modalities and address inconsistencies in expression across different mo-dalities. It leverages the contextual information to comprehensively analyze the emotional representation of each utterance within the context, enhancing overall emotion recognition performance. In binary emotion classification tasks, the proposed method achieves a 1.54% improvement in accuracy compared with the state-of-the-art (SOTA) model. In multi-class emotion recognition tasks, the F1 score is improved by 2.79% compared to SOTA model.

Key words hierarchical fusion; noise interference; context information embedding