北京大学学报(自然科学版)第61卷 第4期 2025年7月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 61, No. 4 (July 2025)

doi: 10.13209/j.0479-8023.2024.121

国家自然科学基金(61533018)、湖南省自然科学基金(2022JJ30495, 2025JJ50384)、湖南省教育厅重点科研项目(22A0316)、湖南省研究生科研创新项目(CX20240833)和中国中文信息学会社会媒体处理专委会(SMP)–智谱大模型交叉学科基金资助

收稿日期: 2024–05–30;

修回日期: 2024–07–25

基于多模态交叉注意力的阿尔茨海默症辅助诊断研究

李舟1 刘永彬1,† 欧阳纯萍1 张江涛2 潘雪1 江璐1 钟进1

1.南华大学计算机学院, 衡阳 421001; 2.解放军第三〇五医院, 北京 100017; †通信作者, E-mail: yongbinliu03@gmail.com

摘要 为了对阿尔茨海默症和轻度认知障碍患者进行准确的辅助诊断, 提出一种利用非对称交叉注意力机制进行多模态融合的阿尔茨海默症多分类诊断框架 MAMDF, 以便更好地揭示临床数据和医疗成像数据之间的关系。针对计算机辅助诊断工作中很少提及的两种轻度认知障碍亚型, 结合频域转换器和 Transformer, 提出一种新颖的深度特征提取方法, 用于处理特征融合。该方法能够捕获融合特征的内部联系, 获取更丰富的多模态联合表示, 从而使模型在两种轻度认知障碍亚型上的诊断表现更好。在 ADNI 数据集上实验结果表明, 与其他方法相比, 该模型取得更高的准确率和 F1 值, 可以更有效地处理多模态数据融合, 挖掘不同模态医疗数据间的深层特征关系, 从而能更好地整合并分析阿尔茨海默症患者的多模态信息。

关键词 多模态深度学习; 阿尔茨海默症诊断; 交叉注意力机制

阿尔茨海默症(Alzheimer’s disease, AD)是一种神经退行性疾病, 全球已有超过 4000 万人患有该疾病[1]。如何有效地治疗阿尔茨海默症是本世纪最大的医疗挑战之一。然而, 目前仍然没有针对该疾病的有效治疗方案, 仅用一些对症治疗手段来减缓疾病的进展[2]。轻度认知障碍(mild cognitive impair-ment, MCI)通常被认为是衰老认知变化与极早期痴呆之间的边界[3]。在这一阶段, 对 AD 的有效治疗可能使患者的认知功能保持在尽可能高的水平。对AD 以及 MCI 的有效诊断也有助于确认患者的疾病进展情况, 方便医疗机构对不同阶段的患者进行定制化治疗。

对 AD 研究的需要促成阿尔茨海默症神经影像计划(Alzheimer’s Disease Neuroimaging Initiative, ADNI)[4]的诞生。深度学习技术在利用该数据进行临床决策支持方面展现出巨大的潜力。早期研究者通常将单种生物标志物数据作为深度学习模型的输 入[5–8]。Zhang 等[5]将 DenseNet 中的连接方式改造为加权求和, 使用患者的磁共振成像(Magnetic Re-sonance Imaging, MRI)进行 AD 和 CN(cognitively normal, 认知正常个体)的二分类任务。Choi 等[7]使用多种深度卷积网络(Deep Convolutional Neural Network, DCNN)进行集成, 再通过深度集成泛化损失找到不同网络所输出特征间的最优融合权重, 进行 AD, CN 与 MCI 的三分类任务。Basheera 等[8]将经过头骨剥离预处理的 MRI 成像输入多层卷积神经网络, 用于二分类诊断。

随着多模态深度学习(Multi-modal Deep Lear-ning)技术的进步, 在阿尔茨海默症诊断中, 利用多种模态数据进行的诊断通常比利用单一模态的准确率高[9]。从临床治疗反馈中也发现, 阿尔茨海默症的病因复杂, 其引起的痴呆症状也容易与其他疾病引起的痴呆症状混淆。在诊断这类复杂病症时, 往往需要参考患者的医疗影像资料、神经系统评估数据以及实验室检验结果等多模态数据。

尽管基于多模态数据的深度学习技术在阿尔茨海默症诊断领域取得不错的进展, 但是如何有效地融合多模态数据, 充分发挥不同模态数据之间的相互作用仍然是研究热点。目前, 大多数研究只是简单地将多种模态数据的特征进行拼接[10–14], 导致模型无法充分地学习不同模态间的关联。也有研究者使用交叉注意力机制进行不同模态特征的交互[15]。这种对称的两两模态间的交叉注意力机制没有使模型充分地关注成像数据与非成像数据之间的关联关系。一些研究在处理融合后的多模态特征时, 往往选择直接将这些特征输入分类模型, 而没有对其进行更深层次的抽象和提炼, 这样就会忽略一些关键信息, 造成重要数据点的潜在丢失。如 Pena 等[16]使用分别基于 Attention 和 Inception 架构的两种子深度学习网络, 对患者的磁共振成像进行处理, 将得到的图像特征与临床数据特征进行拼接、合并, 作为分类层的输入。Ying 等[17]将阿尔茨海默症患者语音数据的常规声学特征、深度声学特征和深度语言特征拼接在一起, 用于完成诊断任务。

部分研究尝试利用注意力机制改善融合方法。Zhang 等[5]将 MRI 特征与正电子发射断层成像(posi-tronemission tomography, PET)特征进行拼接, 随后使用交叉注意力机制, 将拼接后的图像特征与脑脊液(CSF)生物标志物特征进行融合。Chen 等[18]将MRI 与 PET 图像特征合并为一个成像特征, 再将成像特征与医学检查和评估数据(MED)的编码特征输入通道注意力模块和空间注意力模块, 获取模态间的互补信息。上述研究通过各种方法改进多模态特征融合, 提升了阿尔茨海默症诊断分类效果, 但都没有对 MCI 的两种亚型(早期轻度认知障碍(early MCI, EMCI)和晚期轻度认知障碍(late MCI, LMCI))进行讨论。

为了更好地研究阿尔茨海默症, 在临床实践中将 MCI 区分为早期轻度认知障碍(EMCI)和晚期轻度认知障碍(LMCI)。绝大多数深度学习的研究仅对样本进行二分类(AD 和 CN)或三分类(AD, CN 和MCI)任务。与 LMCI 患者相比, EMCI 患者表现出更多的异质性特征, 并且更有可能显示阿尔茨海默症病理的负面指标[19]。本文尝试对样本进行四分类(AD, CN, EMCI 和 LMCI)诊断任务, 有助于辅助不同患病阶段患者的精准诊断, 及早干预以防止病情恶化, 有利于医疗机构为患者制定治疗方案。

本文提出一种多模态阿尔茨海默症多分类诊断框架(Multimodal Alzheimer Multi-classification Dia-gnosis Framework, MAMDF), 使用一种新颖的非对称融合策略, 以期更好地挖掘异构性较强的模态之间的关系, 增强不同模态信息之间的交互性, 改善深层特征处理, 提高诊断的准确性和可靠性。受SpectFormer 模型[20]启发, 本文的 MAMDF 框架中设计一种 FNet 与 Transformer 并行的网络结构。MAMDF 框架中的深层特征提取模块结合了频域转换器和多头注意力机制[20], 能够挖掘深层次多模态特征内部的关系, 从而增强多模态联合表示。

1 数据与预处理

1.1 数据集

本文采用的数据来自阿尔茨海默症神经影像学倡议数据库(ADNI, https://adni.loni.usc.edu), 选用该数据库中患者 3 种模态的数据: MRI, PET 和临床数据。MRI 数据可以以非侵入性方式提供关于内部解剖结构和脑组织形态的详细信息, 从而观测 AD患者脑萎缩的进展。即使在阿尔茨海默症早期阶段, MRI 数据也可以为自动 AD 诊断系统做出积极的贡献[21]。我们将 18F-AV-45 作为示踪剂的淀粉样, 将 PET 成像作为另一种影像学生物标志物。这种成像技术允许对淀粉样斑块进行无创的体内检测, 淀粉样斑块是阿尔茨海默症的主要神经病理学标志之一[22]。对于临床数据, 本文选择患者的神经系统检测数据和人口统计学数据。神经系统检测数据反映 AD 中不同中枢神经系统区域的受影响情况[23]。人口统计学数据有助于 AD 的诊断, 年龄、性别和教育水平可能会对大脑状态产生影响[24]

我们从 ADNI 数据库中选择 916 个样本, 其中有 AD 141 名, CN 386 名, EMCI 219 名和 LMCI 170名。为了使数据更加真实可靠, 根据 3 种模态数据的采集日期进行对齐, 即将采集日期最接近的 MRI成像、PET 成像和临床数据组合在一起, 形成一组多模态样本。

1.2 数据预处理

图像数据预处理: 本文使用的图像数据包含参与者的横断面 MRI 和 PET 图像。为了减少模型参数量和资源消耗, 我们只选择 MRI 和 PET 图像的中间位置切片。中间位置的脑部切片包含更多的脑部结构, 可以提供更丰富的信息, 有助于模型学习更多的特征。同时, 选择相同位置的 MRI 切片和 PET切片, 能够更直观地反映不同参与者的脑部萎缩和淀粉样蛋白沉积情况。

临床数据预处理: 本文将人口统计数据与神经系统检测数据结合在一起, 作为该参与者的临床数据模态。临床数据包含 38 项不同数据, 代表 38 种不同的属性或医疗检测结果。对临床数据的处理主要包括两个步骤: 处理缺失值和特征缩放。处理缺失值采用中位数策略, 即用中位数填补缺失值。特征缩放是对数据进行均值–标准差归一化, 将数据缩放到均值为 0、标准差为 1 的标准正态分布中。

2 模型框架

如图 1 所示, 多模态阿尔茨海默症多分类诊断框架 MAMDF 分为 4 个部分: 特征提取模块、多模态融合模块、深层特征提取模块和分类模块。在特征提取阶段, 根据不同模态数据的特性, 使用不同的特征提取方法, 分为医学成像特征提取模块和临床数据特征提取模块。在多模态融合阶段, 使用一种非对称交叉注意力机制将 3 种模态的特征表示进行融合和交互, 输出融合后的多模态特征。融合后的多模态特征不直接用于分类任务, 而是输入由自注意力机制与频域转换器组成的深层特征提取和分类模块, 以便聚合多模态信息, 使模型学习到多种模态之间的深层联系, 进行更可靠的分类。

width=478.85,height=213.95

图1 多模态阿尔茨海默症多分类诊断框架MAMDF

Fig. 1 Multimodal Alzheimer Multi-classification Diagnosis Framework (MAMDF)

2.1 特征提取

为了提取更丰富的图像特征, 本研究使用预训练模型 ResNet50[25], 对 MRI 和 PET 进行图像模态的特征提取(feature extraction module, FEM), 提取出的高级语义特征能够有效地反映图像的内容和结构。

临床数据包括患者的 38 项检测数据。对于离散数据, 将缺失值补充为一个常数, 将分类变量编码为整数。对于连续数据, 使用中位数进行缺失值填补, 并进行均值标准差归一化处理。本研究采用深度神经网络(deep neural network, DNN), 对编码后的临床数据进行特征提取, 并同时进行增维操作, 确保最终得到的临床数据特征、MRI 成像特征和 PET成像特征具有相同的维度。将临床数据特征与成像特征提取为相同的维度, 使它们在特征空间中具有相似的表达形式, 从而帮助模型更好地理解和处理两种不同模态的数据, 进而更有效地进行融合和联合学习。

2.2 多模态融合

医学成像特征和临床数据特征为阿尔茨海默症分类任务提供了互补且关联的信息。因此, 有效地融合这些数据的多模态注意力模块至关重要。作为结构化数据与医疗成像数据, 临床数据具有较强的异构性, 在多模态融合(multimodal fusion module, MFM)过程中应该更加关注具有较强差异性的不同数据之间的关系。因此, 本文提出一种非对称交叉注意力机制(asymmetric cross-attention module, ACM), 用于捕获临床数据与成像数据之间的跨模态信息交互。如图 2 所示, 跨模态交叉注意力机制通过位置编码, 将不同模态的特征映射为查询(Query)、键(Key)和值(Value)向量; 然后, 通过计算 Query 和Key 之间的相似度, 确定各个位置之间的关系; 最后, 通过对 Value 向量进行加权求和, 得到每个位置的表示向量, 该表示向量包含不同模态之间的关注度信息。

临床数据模态与 MRI 成像模态之间的融合称为 MRI-Clinical 融合分支。具体地, 在 MRI-Clinical融合分支中, 将经过位置编码后的临床数据特征作为 Query 向量:

width=50.25,height=16.3 (1)

其中, Qc 是临床数据特征经过转换得到的查询向量; C 为临床数据特征提取模块输出的临床数据特征; W 为可迭代优化的转换矩阵, 用于特征的线性变换。

MRI 成像特征映射为 Key 向量和 Value 向量:

width=110.7,height=14.95 (2)
width=96.45,height=16.3 (3)
width=304.3,height=228.9

图2 非对称交叉注意力机制ACM

Fig. 2 Asymmetric cross-attention mechanism (ACM)

其中, MP 分别 MRI 成像特征与 PET 成像特征; C, MP 的特征维度均为 100; MRI 成像特征与 PET成像特征被转换为键向量 KmKp 以及值向量 VmVp

对每个 Query 向量, 计算它与所有 Key 向量的点积, 然后除以其维度的平方根, 并应用 Softmax函数, 将结果转换为概率向量, 获得不同位置的特征之间的相关性矩阵, 最后使用该相关性矩阵与Value 向量, 得到经过注意力机制处理后的成像表示, 如式(4)所示。在 PET-Clinical 分支中同样使用上述方法, 进行 PET 特征与临床数据特征的融合, 如式(5)所示。

width=196.3,height=38.05 (4)

width=189.5,height=38.05 (5)

其中, Fmc 为 MRI 成像特征与临床数据特征的融合特征, Fpc 为 PET 成像特征与临床数据特征的融合特征, CMA 为跨模态交叉注意力(cross multimodal at-tention)。Concat 为拼接操作, 该模块的输出为

width=84.9,height=16.3 (6)

这种使用非对称交叉注意力的融合方式可使模型注重学习医疗图像与临床数据之间的对齐关系, 从而有效地理解成像块与临床数据之间的关联。该模块输出的混合特征为多模态特征, 其张量形状为(批次大小, 通道数, 特征维度), 即(32, 3, 100)。

2.3 深层特征提取

深层特征提取(deep feature extraction module, DFEM)模块的主要功能是进一步学习多模态特征内部的重要性, 促进不同位置特征之间的交互和信息传递, 从而更好地捕捉数据之间的内在关联。

深层特征提取模块分为自注意力模块和傅里叶模块。我们将 Transformer 与频域转换器结合, 利用频域分析来增强特征提取过程。

对于傅里叶模块, 我们引用 FNet 结构。在傅里叶变换层(Fourier layer), 利用离散傅里叶变换(DFT)进行多模态特征内部的信息传递。对于一个长度为N 的序列, 快速傅里叶变换公式如下:

width=180.7,height=25.15 (7)

具体来说, 对于特征的每一个位置 k, FNet 结构会对原始多模态特征沿着维度方向进行傅里叶变换, 将其转换为一个新的表示, 该表示包含该特征其他位置的信息。将序列的全局信息转换为频域表示后, 模型能捕获序列中不同位置之间的关系。与 Transformer 结构类似, 所输出的频域表示会馈送至全连接的前馈神经网络(feed forward layer), 并且在傅里叶变换层与前馈神经网络层后都会经过残差连接和层归一化(add & normalize layer)。

2.4 分类

分类(classification module, CM)模块由两层多层感知机(multi-layer perceptron, MLP)构成。具体来说, 先由全连接层对深层多模态特征进行线性变换, 然后使用 ReLU 激活函数(rectified linear unit)引入非线性变换, 最后输出 4 种分类结果: 正常对照组(CN)、早期轻度认知障碍(EMCI)、晚期轻度认知障碍(LMCI)和阿尔茨海默症患者(AD)。

训练过程中使用交叉熵(cross entropy loss)作为损失函数, 定义为

width=164.4,height=28.55 (8)

其中, i 为样本总量; M 为类别数(number of classes), 本文工作为四分类, 因此 M=4; y 为真实标签(true labels); p 为预测值(predictions)。

3 实验与结果

3.1 参数选择

图 3 展示在批次大小(batch size)为 32 且特征维度(feature dimension)为 100 时, 不同训练周期对最终模型分类准确率的影响。图 4 展示在训练周期为100 且特征维度为 100 时, 不同批次大小对最终模型分类准确率的影响。图 5 展示在训练周期为 100且批次大小为 32 时, 不同特征维度对最终模型分类准确率的影响。

width=224.15,height=135.85

图3 训练周期的超参数实验

Fig. 3 Hyperparameter experiment of training cycle

通过比较各个超参数配置对模型表现的影响, 本文选择表现最佳的一组超参数用于本文模型的训练, 具体设置如表 1 所示。

3.2 评价指标

在 ADNI 数据库的数据集上, 使用 MRI, PET和临床数据进行实验, 对比分析 MAMDF 模型与其他基线模型在阿尔茨海默症多分类预测任务上的性能。根据准确率(accuracy)、召回率(recall)、特异性(specificity)和 F1 分数(F1-score)这 4 个典型指标来评价模型的性能, 计算公式如下:

width=222.1,height=136.55

图4 批次大小的超参数实验

Fig. 4 Hyperparameter experiment of batch size

width=221.45,height=136.55

图5 特征维度的超参数实验

Fig. 5 Hyperparameter experiment of characteristic dimension

表1 参数设置

Table 1 Hyperparameter settings

参数 参数值 成像特征维度100 非成像特征维度100 图片大小224×224 学习率1×10–3 批次大小(batch size)32 迭代次数(epoch)100

width=185.45,height=14.95 (9)

width=101.9,height=14.95 (10)

width=121.6,height=14.95 (11)

width=132.45,height=14.95 (12)

其中, TP, TN, FP 和 FN 分别表示真阳性、真阴性、假阳性和假阴性值。

本文还引入 ROC 曲线用来评价消融实验中的模型。先获取每个分类的 ROC 曲线, 然后进行平均, 得到平均ROC曲线, 可以反映模型的敏感性和特异性。ROC 曲线通过比较真阳性率(TPR, 即灵敏度)和假阳性率(FPR, 即 1–特异性)的变化来展示分类器的效果。ROC 曲线下面积(area under the curve, AUC)用于量化分类器的性能, 面积越大说明模型性能越好。

3.3 多模态有效性实验

为了验证多模态数据可以为阿尔茨海默症(AD)的诊断提供互补信息, 本文研究中使用不同数量的模态数据进行阿尔茨海默症四分类任务(CN, EMCI, LMCI 和 AD)。在进行 MRI 成像或 PET 成像的单模态实验时, 使用 ResNet50 提取成像特征, 提取出的成像特征跳过多模态注意力模块, 直接输入深层特征提取模块, 以便获得具有自注意力权重信息的单模态特征表示。该单模态表示经过分类头完成最后的阿尔茨海默症分类任务。在仅使用临床数据时, 经过编码后的临床数据经过深度神经网络(DNN)提取出临床数据特征, 其后续处理与仅使用成像模态时相同。多模态有效性的实验结果如表 2 所示。

从表 2 可以看出, 在使用单一模态的实验中, 仅利用临床数据时效果最佳, 表明相对于单一的二维医学成像数据, 包含患者多项神经学检测数据以及人口普查数据的临床数据包含更丰富的信息。与单一模态相比, 利用多模态数据进行阿尔茨海默症诊断具有更好的性能。在使用临床数据加一种成像模态时准确率在 81%~82%之间, F1 分数在 76%以上, 高于所有的单一模态实验结果。使用 3 种模态可得到最高的分类性能, 表明来自不同模态的生物标志物可以从不同的角度捕捉与疾病相关的信息, 并提供补充信息, 进而提高模型的分类能力。

表2 不同模态的性能比较

Table 2 Performance comparison of the different modalities

模态 准确率召回率特异性F1 临床数据0.8100.7740.9400.753 MRI0.6350.5500.8540.577 PET0.6210.5600.8650.562 临床数据+MRI0.8350.8080.9500.787 临床数据+PET0.8410.7950.9500.794 临床数据+MRI+PET0.8650.8110.9540.823

说明: 粗体数字表示性能最佳, 下同。

3.4 性能对比实验

为了证明 MAMDF 模型具有较好的阿尔茨海默症诊断分类性能, 本文将其与 7 种基线模型进行比较。为了进行公平的性能比较, 我们将数据集中的EMCI 和 LMCI 合并为一个分类 MCI, 与其他基线模型一样进行三分类任务。

1)模型 1: Venugopalan 等[10]将提取的成像与非成像特征拼接在一起, 然后直接使用随机森林分类器进行阿尔茨海默症多分类任务。

2)模型 2(MCAD): Zhang 等[15]使用交叉注意力机制融合成像特征与非成像特征, 然后进行降维处理, 使用交叉熵损失与模态对齐损失来优化网络。

3)模型 3: Chen 等[18]同时将成像特征与非成像特征先后输入经过通道注意力与空间注意力模块, 进行模态融合, 融合后的特征馈送至卷积模块, 进行特征提取, 最后送至分类头。

4)模型 4(MADDi): Golovanevsky 等[26]将 3 种不同模态特征经过一个多头自注意力模块, 再经过交叉注意力模块, 最后将融合后的特征拼接用于分类任务。

5)模型 5(MADDi-ACM): 将 MADDi 模型中的多模态融合方式改为本文模型的非对称交叉注意力模块。

6)模型 6(MAMDF-CM): 将本文模型 MAMDF的非对称交叉注意力模块改为对称的交叉注意力。

7)模型 7(MAMDF-MCAD): 参照 Zhang 等[14]的工作, 将 MRI 与 PET 成像特征进行拼接, 再使用交叉注意力机制与非成像特征进行多模态融合。

本文模型与 7 种基线模型比较的实验结果如表3 所示。可以看出, 模型 1 仅将不同模态的特征进行简单的拼接, 不足以学习到不同模态之间的潜在关系。与模型 1 相比, MADDi, MAMDF 和模型 3 使用注意力机制对不同模态的特征进行处理, 分类准确率分别提升 9.9%, 11.9%和 6.1%, 说明使用注意力机制进行模态融合, 有助于模型理解多模态数据之间的关系。

实验结果也表明, MAMDF 中的非对称交叉注意力机制能更好地进行成像特征与非成像特征之间的融合。MADDi 模型在使用交叉注意力进行多模态融合时, 直接将两两模态进行对称的交叉注意力处理, 然后进行特征拼接。本文将对称交叉注意力机制更换为非对称交叉注意力机制, 更加注重成像特征与非成像特征之间的联系, 准确度得到 2.6%的提升。模型 2 先对成像特征进行拼接, 随后对拼接后的成像特征与非成像特征进行对称的交叉注意力处理。模型 6 将 MAMDF 的非对称交叉注意力更换为与模型 2 相同的处理方式, 分类性能有所下降。

表3 不同模型的性能对比

Table 3 Performance comparasion of different models

模型准确率召回率特异性F1 模型10.7800.7800.7700.780 模型2(MCAD)0.6400.6390.8200.619 模型30.8410.8470.8470.812 模型4(MADDi)0.8590.7610.9240.769 模型5(MADDi-ACM)0.8850.7980.9340.813 模型6(MAMDF-CM)0.8650.8100.9330.810 模型7(MAMDF-MCAD)0.8590.7870.9280.793 本文模型(MAMDF)0.8990.8650.9350.855

表4 消融实验结果

Table 4 Results of the ablation experiments

模型准确率召回率特异性F1AUC MAMDF-WCM0.7850.7240.9320.7220.910 MAMDF-WDE0.8050.7510.9390.7510.927 MAMDF-WFnet0.8250.7780.9450.7760.926 MAMDF-WTransformer0.8260.7820.9460.7780.938 本文模型(MAMDF)0.8650.8110.9540.8230.946

3.5 消融实验

为了证明 MAMDF 模型各个子结构的有效性, 使用本文模型与 4 种消融模型在同一数据集上进行阿尔茨海默症四分类诊断任务, 实验结果如表 4 所示。

1)MAMDF-WCM: 在 MAMDF 模型中, 去掉交叉注意力模块, 直接将成像特征与非成像特征输入到深层特征提取模块。

2)MAMDF-WDE: 在 MAMDF 模型中, 将非对称交叉融合注意模块输出的特征进行拼接, 随后直接进行分类任务。

3)MAMDF-WFnet: 在 MAMDF 模型中, 屏蔽深层特征提取模块中的傅里叶模块, 其他模块保持不变。

4)MAMDF-WTransformer: 在 MAMDF 模型中, 屏蔽深层特征提取模块中的自注意力模块, 其他模块保持不变。

消融实验结果表明, MAMDF 去掉非对称交叉注意力模块后, 性能明显降低, 说明非对称交叉注意力模块可以使模型更好地理解不同模态之间的联系, 使分类效果提升。与原模型相比, 去掉深层特征提取模块会使模型的分类性能有所降低, 说明深层特征提取模块对性能的提升起到重要作用。

图 6 展示消融实验中各模型的ROC曲线。可以看出, 去掉深层特征提取模块后, MAMDF 模型在阿尔茨海默症多分类任务中 AUC 下降 0.019; 仅去掉自注意力模块时, AUC 下降 0.008; 仅去掉傅里叶模块时, AUC 下降 0.02。这说明深度特征提取模块不能单纯进行网络堆叠, 合理的设计至关重要。

width=224.85,height=217.35

图6 非对称交叉注意力模块消融实验ROC曲线

Fig. 6 ROC curves of the asymmetric crossover attention module ablation experiment

表 5 为深度特征提取模块在两种 MCI 亚型分类中的有效性的实验结果。可以看出, 去掉深层特征提取模块及其部分模块后, 模型 MAMDF 对 EMCI和 LMCI 的分类性能下降。说明深度特征提取模块的各个子模块均能更有效地学习到 EMCI 与 LMCI之间的差异, 使整个模型更好地适应四分类任务。除此之外, 我们对 MADDi 模型进行改进(命名为MADDi-DE), 在进行多模态融合后, 添加深层特征提取模块。由表 5 可知, 与原始的 MADDi 模型相比, MADDi-DE 在区分 MCI 的两种亚型方面表现更好。这表明, 与直接将融合后的特征输入分类模块相比, 增加深层特征提取模块可以学习到更多有用的特征。

表5 深度特征提取模块对MCI亚型分类的影响

Table 5 Effect of deep feature extraction module on MCI subtype classification

模型准确率EMCI LMCI MAMDF-WDE0.7020.679 MAMDF-WFnet0.7030.714 MAMDF-WTransformer0.7300.607 MADDi0.6490.536 MADDi-DE0.6760.643 本文模型(MAMDF)0.7570.821

4 总结

本文提出一种多模态阿尔茨海默症多分类诊断框架(MAMDF), 该框架通过非对称交叉注意力, 着重学习成像特征与非成像特征之间的联系。利用结合了频域转换器与多头自注意力的深层特征提取模块, 进一步进行多模态特征学习, 最终实现对阿尔茨海默症 4 个阶段的分类。在 ADNI 数据集上的实验结果表明, 相较于其他多分类模型, MAMDF 能有效地捕捉不同模态之间的互补信息, 得到有效的多模态表示, 拥有更强的诊断能力。因此, MAMDF能够提高阿尔茨海默症诊断的准确性和早期检测能力, 可为临床医生提供更全面的患者状况分析, 进而优化个性化治疗方案。

在未来的工作中, 我们将继续研究如何充分利用医疗成像模态中的信息, 尝试更多的生物标志物(比如基因数据、血液成分和脑脊液成分等), 进一步增强模型的诊断能力。

参考文献

[1] Prince M, Bryce R, Albanese E, et al. The global pre-valence of dementia: a systematic review and meta-analysis. Alzheimer’s & Dementia, 2013, 9(1): 63–75

[2] Yiannopoulou K G, Papageorgiou S G. Current and fu-ture treatments in Alzheimer disease: an update. Jour-nal of Central Nervous System Disease, 2020, 12: 1–12

[3] Petersen R C. Mild cognitive impairment. Continuum: lifelong Learning in Neurology, 2016, 22(2): 404–418

[4] Mueller S G, Weiner M W, Thal L J, et al. Ways toward an early diagnosis in Alzheimer’s disease: the Alzhei-mer’s Disease Neuroimaging Initiative (ADNI). Al-zheimer’s & Dementia, 2005, 1(1): 55–66

[5] Zhang J, Zheng B, Gao A, et al. A 3D densely connec-ted convolution neural network with connection-wise attention mechanism for Alzheimer’s disease classify-cation. Magnetic Resonance Imaging, 2021, 78: 119–126

[6] Beheshti I, Demirel H, Matsuda H, et al. Classification of Alzheimer's disease and prediction of mild cognitive impairment-to-Alzheimer’s conversion from structural magnetic resource imaging using feature ranking and a genetic algorithm. Computers in Biology and Medici-ne, 2017, 83: 109–119

[7] Choi J Y, Lee B. Combining of multiple deep networks via ensemble generalization loss, based on MRI ima-ges, for Alzheimer's disease classification. IEEE Sig-nal Processing Letters, 2020, 27: 206–210

[8] Basheera S, Ram M S S. Convolution neural network-based Alzheimer’s disease classification using hybrid enhanced independent component analysis based seg-mented gray matter of T2 weighted magnetic resonance imaging with clinical valuation. Alzheimer’s & De-mentia: Translational Research & Clinical Interven-tions, 2019, 5: 974–986

[9] Khojaste-Sarakhsi M, Haghighi S S, Ghomi S M T F, et al. Deep learning for Alzheimer’s disease diagnosis: a survey. Artificial Intelligence in Medicine, 2022, 130: 102332

[10] Venugopalan J, Tong L, Hassanzadeh H R, et al. Multi-modal deep learning models for early detection of Alzheimer’s disease stage. Scientific Reports, 2021, 11 (1): 1–13

[11] Mirabnahrazam G, Ma D, Lee S, et al. Machine lear-ning based multimodal neuroimaging genomics de-mentia score for predicting future conversion to alzhei-mer’s disease. Journal of Alzheimer’s Disease, 2022, 87(3): 1345–1365

[12] Shen H T, Zhu X, Zhang Z, et al. Heterogeneous data fusion for predicting mild cognitive impairment con-version. Information Fusion, 2021, 66: 54–63

[13] Yang L, Wang X, Guo Q, et al. Deep learning based multimodal progression modeling for Alzheimer’s di-sease. Statistics in Biopharmaceutical Research, 2021, 13(3): 337–343

[14] Forouzannezhad P, Abbaspour A, Li C, et al. A Gaussian-based model for early detection of mild cognitive impairment using multimodal neuroimaging. Journal of Neuroscience Methods, 2020, 333: 108544

[15] Zhang J, He X, Liu Y, et al. Multi-modal cross-attention network for Alzheimer’s disease diagnosis with multi-modality data. Computers in Biology and Medicine, 2023, 162: 107050

[16] Pena D, Suescun J, Schiess M, et al. Toward a mul-timodal computer-aided diagnostic tool for Alzhei-mer’s disease conversion. Frontiers in Neuroscience, 2022, 15: 744190

[17] Ying Y, Yang T, Zhou H. Multimodal fusion for Alzhei-mer’s disease recognition. Applied Intelligence, 2023, 53(12): 16029–16040

[18] Chen H, Guo H, Xing L, et al. Multimodal predictive classification of Alzheimer’s disease based on atten-tion‐combined fusion network: integrated neuroima-ging modalities and medical examination data. IET Image Processing, 2023, 17(11): 3153–3164

[19] Edmonds E C, McDonald C R, Marshall A, et al. Early versus late MCI: improved MCI staging using a neu-ropsychological approach. Alzheimer’s & Dementia, 2019, 15(5): 699–708

[20] Patro B N, Namboodiri V P, Agneeswaran V S. Spect-Former: frequency and attention is what you need in a vision transformer // 2025 IEEE/CVF Winter Confe-rence on Applications of Computer Vision (WACV). Tucson, 2025: 9543–9554

[21] Alberdi A, Aztiria A, Basarab A. On the early diagnosis of Alzheimer’s disease from multimodal signals: a survey. Artificial Intelligence in Medicine, 2016, 71: 1–29

[22] Chételat G, Arbizu J, Barthel H, et al. Amyloid-PET and 18F-FDG-PET in the diagnostic investigation of Alzheimer’s disease and other dementias. The Lancet Neurology, 2020, 19(11): 951–962

[23] Huff F J, Boller F, Lucchelli F, et al. The neurologic examination in patients with probable Alzheimer’s disease. Archives of Neurology, 1987, 44(9): 929–932

[24] Liu M, Cheng D, Wang K, et al. Multi-modality casca-ded convolutional neural networks for Alzheimer’s disease diagnosis. Neuroinformatics, 2018, 16: 295–308

[25] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition // Proceedings of the IEEE Confe-rence on Computer Vision and Pattern Recognition. Las Vegas, 2016: 770–778

[26] Golovanevsky M, Eickhoff C, Singh R. Multimodal attention-based deep learning for Alzheimer’s disease diagnosis. Journal of the American Medical Informa-tics Association, 2022, 29(12): 2014–2022

A Multimodal Cross-Attention Model for Alzheimer’s Disease Diagnosis

LI Zhou1, LIU Yongbin1,†, OUYANG Chunping1, ZHANG Jiangtao2, PAN Xue1, JIANG Lu1, ZHONG Jin1

1. School of Computer, University of South China Hengyang, Hengyang 421001; 2. The 305th Hospital of the Chinese People’s Liberation Army, Beijing 100017; † Corresponding author, E-mail: yongbinliu03@gmail.com

Abstract In order to achieve accurate computer-aided diagnosis of Alzheimer’s disease (AD)and mild cognitive impairment (MCI) patients, this paper proposes a multimodal Alzheimer’s multi-class diagnostic framework (MAMDF) that uses an asymmetric cross-attention mechanism for multimodal fusion to better reveal the relationship between clinical data and medical imaging data. Moreover, to address the two MCI subtypes that are rarely mentioned in previous computer-aided diagnosis work, we combined frequency-domain transformers and Transformers to propose a novel deep feature extraction module for feature fusion. This method captures the internal connections of fused features and obtains richer multimodal joint representations, thus improving the diagnostic performance of the model on the two MCI subtypes. Experimental results on the ADNI dataset show that the proposed model achieves higher accuracy and F1 scores, compared with similar works. Thus the model can more effectively handle multimodal data fusion and mine the deep feature relationships between different modal medical data, thereby better integrating and analyzing the multimodal information of AD patients.

Key words multi-modal deep learning; Alzheimer’s disease diagnosis; cross-attention mechanism