Title
题目
Domain-specific information preservation for Alzheimer’s disease diagnosis with incomplete multi-modality neuroimages
基于不完整多模态神经影像的阿尔茨海默病诊断领域特定信息保留
01
文献速递介绍
阿尔茨海默病(Alzheimer’s Disease, AD)是一种进行性、不可逆的神经退行性疾病,其主要特征包括记忆衰退和认知功能障碍(Atri, 2019; Gauthier et al., 2022)。研究表明,早期识别认知状态对于AD的管理和治疗至关重要,而神经影像(如磁共振成像(Magnetic Resonance Imaging, MRI)和正电子发射断层扫描(Positron Emission Tomography, PET))在揭示疾病的结构和功能变化方面发挥了重要作用。因此,许多基于多模态机器学习的方法被开发,以提高AD诊断的精准度和效率(Wang et al., 2022; Eslami et al., 2023; Elazab et al., 2024; Yu et al., 2024)。
尽管多模态方法在AD诊断领域展现出良好的应用前景,但仍然面临两个主要挑战:如何处理因高成本、受试者退出等因素导致的模态缺失问题;
如何有效提取并学习多模态的判别性特征。
近期研究(Liu et al., 2023; Sauty and Durrleman, 2022; Xia et al., 2022)尝试使用数据填充技术解决模态缺失问题,其中生成对抗网络(Generative Adversarial Network, GAN)因其能够隐式建模目标模态(即缺失模态)的分布而受到广泛关注(Wang et al., 2023b; Yu et al., 2023; Wang et al., 2024)。通常,GAN 主要采用两种策略进行模态填充,即直接填充方式和循环一致填充方式(分别对应图 1(a) 和 1(b))。然而,这些方法通常将源模态特征解码为目标模态影像,但源模态特征中缺乏目标模态的特定风格,可能会影响合成影像的质量(Wang et al., 2023a; Pan et al., 2024)。此外,已有研究(Hesse et al., 2023; Chen et al., 2023; Wang et al., 2023c; Ning et al., 2023)指出,许多采样操作使用固定感受野处理体素,可能会削弱关键细节(由于小激活值)并导致特征图模糊,同时等权重假设可能导致局部特征丢失。此外,超出采样步长的特征可能被忽略,进一步导致上下文信息的缺失。
在多模态表示学习方面,当前研究提出了三种主流策略:(1)早期融合方式(early-fusion manner),(2)中期融合方式(middle-fusion manner),(3)后期融合方式(late-fusion manner)(El-Sappagh et al., 2021; Forouzannezhad et al., 2020; Odusami et al., 2023; Goel et al., 2023; Sheng et al., 2024; Shukla et al., 2023; Hl et al., 2024),如图 1(d–f) 所示。早期融合方式将多模态神经影像直接拼接作为输入,但可能难以学习复杂的多模态关系,导致性能受限。中期融合方式通常将多模态特征映射到共享空间,然而,这可能忽略各模态固有的特异性信息,例如 MRI 主要关注脑萎缩,而 PET 关注淀粉样蛋白沉积(Yao et al., 2023; Sheng et al., 2024)。后期融合方式通过分别学习模态特定表示来缓解上述问题,但此策略缺乏模态间的信息交互,仍可能导致性能下降(Li et al., 2024; Yao et al., 2024)。此外,研究表明后期融合方式在多模态任务中的鲁棒性较差,因为代理任务(如多模态输出间的一致性约束)可能与主要分类任务直接竞争,而弱模态的负迁移可能会降低强模态的性能(Jaritz et al., 2022)。
2. 研究动机
针对上述问题,我们的研究主要有以下两方面的核心动机:在模态填充过程中,弥合模态间风格差异,同时保留模态特定信息,并减少采样过程中模态特定细节的丢失。在确保模态特定信息保留的前提下,增强模态间的信息交互,提高模型在AD状态识别任务中的鲁棒性。
3. 研究方法
为此,我们提出了一种领域特定信息保留(Domain-Specific Information Preservation, DSIP)框架,用于基于不完整多模态神经影像的 AD 诊断。该框架由模态填充阶段和状态识别阶段两部分组成:模态填充阶段
我们提出了一种特异性引导生成对抗网络(Specificity-Induced Generative Adversarial Network, SIGAN),不同于以往研究,该方法引入模态风格迁移(Modality Style Transfer, MST)*模块,并结合*两条模态重建路径,以弥合模态间的风格差异,并保留模态特定信息,从而生成高质量影像(如图 1© 所示)。在影像重建过程中,我们设计了误差感知池化(Error-Aware Pooling, EAP)和上下文感知注意力(Context-Aware Attention, CAA)模块,以在采样过程中保留细粒度的模态特定信息。状态识别阶段,我们提出了一种特异性增强诊断网络(Specificity-Promoted Diagnosis Network, SPDN),该网络通过跨模态增强(Cross-Modality Enhancement, CME)*模块和*双头分类器(Dual Head, DH),在保证模态特定信息保留的前提下,增强模态间的特征交互,提高分类器的鲁棒性,从而准确识别AD状态(如图 1(g) 所示)。
4. 研究贡献
本研究的主要贡献总结如下:提出了一种双阶段 DSIP 框架,用于基于不完整多模态神经影像的 AD 诊断,在模态填充和状态识别阶段均保留模态特定信息。提出了一种 SIGAN 模型,用于模态填充,在重建路径中引入 EAP 和 CAA 以保留模态特定细节,并通过 MST 模块减少模态间风格差异。提出了一种 SPDN 模型,用于疾病状态识别,结合 CME 模块增强跨模态特征交互,并通过 DH 分类器降低代理任务与主要分类任务的冲突,提高模型鲁棒性。通过大量实验验证了所提出方法的有效性,在模态填充和状态识别任务上均显著优于现有最先进方法。
5. 论文结构
本文余下部分组织如下:
第 2 节 介绍相关研究工作;
第 3 节 详细介绍所提出的方法;
第 4 节 展示实验结果;
第 5-6 节 进行讨论和总结。
Aastract
摘要
Although multi-modality neuroimages have advanced the early diagnosis of Alzheimer’s Disease (AD), missingmodality issue still poses a unique challenge in the clinical practice. Recent studies have tried to imputethe missing data so as to utilize all available subjects for training robust multi-modality models. However,these studies may overlook the modality-specific information inherent in multi-modality data, that is, differentmodalities possess distinct imaging characteristics and focus on different aspects of the disease. In this paper,we propose a domain-specific information preservation (DSIP) framework, consisting of modality imputationstage and status identification stage, for AD diagnosis with incomplete multi-modality neuroimages. In the firststage, a specificity-induced generative adversarial network (SIGAN) is developed to bridge the modality gapand capture modality-specific details for imputing high-quality neuroimages. In the second stage, a specificitypromoted diagnosis network (SPDN) is designed to promote the inter-modality feature interaction and theclassifier robustness for identifying disease status accurately. Extensive experiments demonstrate the proposedmethod significantly outperforms state-of-the-art methods in both modality imputation and status identificationtasks.
尽管多模态神经影像技术在阿尔茨海默病(Alzheimer’s Disease, AD)的早期诊断中取得了显著进展,但缺失模态问题仍然是临床实践中的一大挑战。近年来,研究人员尝试对缺失数据进行填充,以利用所有可用的受试者来训练稳健的多模态模型。然而,这些研究可能忽视了多模态数据中固有的模态特定信息,即不同模态具有各自独特的成像特征,并关注疾病的不同方面。在本文中,我们提出了一种领域特定信息保留(Domain-Specific Information Preservation, DSIP)框架,用于处理不完整多模态神经影像的AD诊断。该框架包括模态填充阶段和状态识别阶段。在第一阶段,我们开发了一种基于特异性引导的生成对抗网络(Specificity-Induced Generative Adversarial Network, SIGAN),用于弥合模态间的差异,并捕捉模态特定的细节,以填充高质量的神经影像。在第二阶段,我们设计了一种特异性增强诊断网络(Specificity-Promoted Diagnosis Network, SPDN),以促进模态间特征交互,提高分类器的鲁棒性,从而准确识别疾病状态。广泛的实验表明,该方法在模态填充和状态识别任务上均显著优于当前最先进的方法。
Method
方法
In this paper, we propose a two-stage DSIP framework, consisting ofa SIGAN and a SPDN, for AD diagnosis with incomplete multi-modalityneuroimages. The SIGAN aims to preserve modality-specific information and further bridge inter-modality gap for modality imputation.With complete multi-modality data, the SPDN improves inter-modalityfeature interaction and model’s robustness for accurate disease statusidentification. The main symbols used in this paper are summarized inTable 1.
在本文中,我们提出了一种 两阶段领域特定信息保留(DSIP)框架,由 特异性引导生成对抗网络(SIGAN) 和 特异性增强诊断网络(SPDN) 组成,用于基于不完整多模态神经影像的阿尔茨海默病(AD)诊断。
SIGAN 旨在保留模态特定信息,并进一步弥合模态间的差异,以进行模态填充。SPDN 在完整的多模态数据基础上,增强模态间特征交互,提高模型的鲁棒性,从而实现精确的疾病状态识别。
本文使用的主要符号总结在 表 1 中。
Conclusion
结论
In this paper, we introduce a DSIP framework, consisting of a SIGANand a SPDN, for AD diagnosis with incomplete multi-modality neuroimages, focusing on preserving modality-specific information duringboth modality imputation and status identification tasks. The devisedSIGAN preserves modality-specific details in the reconstruction processes with an elaborate EAP and a CAA module. A MST module isfurther developed to bridge the modality gap and generate realisticimages. The SPDN is then designed to promote inter-modality interaction and classifier robustness via a CME and a DH classifier, accuratelyidentifying the disease status using the complete multi-modality datagenerated by SIGAN. Experiments on the ADNI dataset demonstratethat our model can generate realistic and reasonable neuroimages andachieve the SOTA performance in the brain status identification tasks.
在本文中,我们介绍了一个DSIP框架,包括SIGAN和SPDN,用于处理不完整的多模态神经影像以进行阿尔茨海默病(AD)诊断,重点是在模态插补和状态识别任务中保持模态特定信息。所设计的SIGAN通过精心设计的EAP和CAA模块在重建过程中保持模态特定细节。此外,还开发了一个MST模块,用于弥合模态间的差距并生成逼真的影像。随后,设计了SPDN,通过CME模块和DH分类器促进模态间的交互和分类器的鲁棒性,利用SIGAN生成的完整多模态数据准确识别疾病状态。在ADNI数据集上的实验表明,我们的模型能够生成逼真合理的神经影像,并在脑状态识别任务中实现了最先进的性能。
Figure
图
Fig. 1. Illustration of the previous studies on image imputation and status identification tasks. (a)–©: straightforward manner, cycle-consistent manner, and the proposedspecificity-induced manner for the image imputation task. Different from the first two manners, specificity-induced manner preserves the modality-specific information via areconstruction path and transfers modality style to mitigate the inter-modality gap. (d)–(g): early-fusion manner, middle-fusion manner, late-fusion manner, and the proposedspecificity-promoted manner for the status identification task. Different from the first three manners, the proposed manner, on the premise of modality-specific informationpreservation, enhances the interaction between multi-modality features and improves the robustness of classification results.
图 1.先前关于图像填充和状态识别任务研究的示意图。(a)–©:分别表示直接填充方式、循环一致填充方式以及所提出的特异性引导填充方式(specificity-induced manner)在图像填充任务中的应用。不同于前两种方式,特异性引导填充方式通过重建路径保留模态特定信息,并利用模态风格迁移来缓解模态间的差异。(d)–(g):分别表示早期融合方式、中期融合方式、后期融合方式以及所提出的特异性增强方式(specificity-promoted manner)在状态识别任务中的应用。不同于前三种方式,所提出的方法在保留模态特定信息的前提下,加强了多模态特征间的交互,并提升了分类结果的鲁棒性。
Fig. 2. Illustration of the proposed SIGAN. Two generators (i.e., 𝑀 and 𝑃 ) are used to generate missing images, and two discriminators (i.e., 𝑀 and 𝑃 ) are utilized toidentify real or fake images. Two reconstruction paths (i.e., MRI reconstruction path and PET reconstruction path) are constructed for preserving modality-specific information. AMST module is designed to mitigate the inter-modality style gap by transferring source domain features (i.e., {𝐅 𝑗 𝑀 } 3 𝑗=1) into target domain space (denoted as {𝐅 𝑗 𝑇 } 3 𝑗=1), under theassistance of target domain features (i.e., {𝐅 𝑗 𝑃 } 3 𝑗=1). And {𝐅 𝑗 𝑇 } 3 𝑗=1 is fed into another decoder that shares the parameters with the decoder of 𝑃 to generate the missing image.Moreover, all encoders are equipped with error-aware pooling (EAP) module to reduce resolution and all decoder are armed with context-aware attention (CAA) module to recoverresolution, which can help further preserve modality-specific details. The solid black lines represent the data flow present concurrently in both the training and testing stages,while the solid blue lines indicate the data flow present exclusively in the training stage.
图 2.所提出的 SIGAN(特异性引导生成对抗网络,Specificity-Induced Generative Adversarial Network)示意图。
双生成器(i.e., GM\mathcal{G}M 和 GP\mathcal{G}P)用于生成缺失的影像。双判别器(i.e., DM\mathcal{D}M 和 DP\mathcal{D}P)用于区分真实影像与生成影像。双重重建路径(MRI 重建路径和 PET 重建路径)用于保留模态特定信息。模态风格迁移(MST)模块 旨在通过将源域特征(i.e., {FjM}j=13{ \mathbf{F}jM }{j=1}^{3})转换到目标域空间(记作 {FjT}j=13{ \mathbf{F}jT }{j=1}^{3}),并借助目标域特征(i.e., {FjP}j=13{ \mathbf{F}jP }{j=1}^{3})的辅助,来缓解模态间风格差异。
解码器共享参数机制:{FjT}j=13{ \mathbf{F}jT }{j=1}^{3} 会被输入至另一个解码器,该解码器与 GP\mathcal{G}_P 的解码器共享参数,以生成缺失影像。EAP 和 CAA 模块:所有编码器均配备误差感知池化(Error-Aware Pooling, EAP)模块以降低分辨率,而所有解码器均配备上下文感知注意力(Context-Aware Attention, CAA)模块以恢复分辨率,从而进一步保留模态特定细节。数据流示意:黑色实线 表示在训练和测试阶段均存在的数据流。
蓝色实线仅在训练阶段存在的数据流。
Fig. 3. Illustration of the main components within the proposed SIGAN. (a) EAPmodule for modality-specific information preservation in the pooling process. (b) CAAmodule for modality-specific information preservation in the upsampling procedure. ©MST module for inter-modality style gap mitigation
图 3. 所提出的 SIGAN 主要组件示意图。
(a) EAP 模块(误差感知池化模块):用于在池化过程中保留模态特定信息。 (b) CAA 模块(上下文感知注意力模块):用于在上采样过程中保留模态特定信息。 © MST 模块(模态风格迁移模块):用于缓解模态间风格差异。
Fig. 4. Illustration of the regions (from seven representative subjects) with the mostsignificant difference between the source domain features (i.e., MRI features 𝐅𝑀 ) andthe target domain features (i.e., PET features 𝐅𝑃), in which the transferred features(i.e., 𝐅𝑇) exhibit a style more similar to the target domain features.
图 4.七名代表性受试者中源域特征(即 MRI 特征 FM\mathbf{F}M)与目标域特征(即 PET 特征 FP\mathbf{F}P)之间存在最显著差异的区域示意图。其中,迁移后的特征(即 FT\mathbf{F}_T)在风格上更接近目标域特征。
Fig. 5. Illustration of the proposed SPDN for status identification. Two modality-specific encoders (i.e., E𝑀 and E𝑃 ) are used to extract features (i.e., 𝐙𝑚 and 𝐙𝑝). A CME moduleis designed to promote inter-modality feature interaction while preserving modality-specific information. It first merges multi-modality features into an enhancement kernel ̃𝐊,then enhances the disease-related information to generate enhanced features (i.e.,* ̃𝐙𝑀 and ̃𝐙𝑃* ). Moreover, a DH classifier, which predict main classification results (i.e., ̂𝑝 𝑚 𝑀 and̂𝑝* 𝑚 𝑃 ) and auxiliary classification results (i.e., ̂𝑝 𝑎 𝑀 and ̂𝑝 𝑎 𝑃 ) for each enhanced feature, is devised to ease the conflict between the proxy task and the main classification task, therebyimproving the model’s robustness. A hybrid loss function is created, including a classification loss 𝑐 and an auxiliary loss 𝑎 . The former constrains the main predictions to beclose to the ground truth, while the latter encourages the distribution of auxiliary predictions to be close to the main classification results of another modality
图 5. 所提出的 SPDN(特异性增强诊断网络)用于状态识别的示意图。
两个模态特异性编码器(i.e., EME_M 和 EPE_P)用于提取特征(i.e., ZM\mathbf{Z}M 和 ZP\mathbf{Z}P)。CME 模块用于促进模态间特征交互,同时保留模态特定信息。其首先将多模态特征合并为增强核 K~\tilde{\mathbf{K}},然后增强疾病相关信息以生成增强特征(i.e., Z~M\tilde{\mathbf{Z}}M 和 Z~P\tilde{\mathbf{Z}}P)。
此外,DH 分类器用于预测每个增强特征的主要分类结果(i.e., pmM\hat{p}mM 和 pmP\hat{p}mP)以及辅助分类结果(i.e., paM\hat{p}aM 和 paP\hat{p}aP),以缓解代理任务与主要分类任务之间的冲突,从而提高模型的鲁棒性。
混合损失函数包括分类损失 Lc\mathcal{L}c 和辅助损失 La\mathcal{L}a,前者约束主要分类预测接近真实标签,后者促使辅助分类预测的分布接近另一模态的主要分类结果。
Fig. 6. For MRI and PET imputation tasks, visualization results of all competing methods on some representative cases in the ADNI-1 training and ADNI-2 testing scenario. GTdenotes the ground-truth.
图 6.在 MRI 和 PET 填充任务中,各对比方法在 ADNI-1 训练集和 ADNI-2 测试集部分代表性病例上的可视化结果。GT 表示真实影像(Ground-Truth)。
Fig. 7. For MRI and PET imputation tasks, visualization results of all competing methods on some representative cases in the ADNI-2 training and ADNI-1 testing scenario. GTdenotes the ground-truth
图 7.在 MRI 和 PET 填充任务中,各对比方法在 ADNI-2 训练集和 ADNI-1 测试集 部分代表性病例上的可视化结果。GT 表示真实影像(Ground-Truth)。
Fig. 8. (a) Visualization of the sampling locations of the EAP module and threetraditional pooling operators on a testing sample. (b) Visualization of the samplinglocations of the EAP module and its variant at different epochs. Red point: samplinglocation.
图 8.(a) EAP 模块 与三种传统池化算子在测试样本上的采样位置可视化对比。 (b) EAP 模块 及其变体在不同训练周期(epoch)的采样位置可视化。红点表示采样位置。
Fig. 9. Comparison results of all models (on the AD identification task) using two-folddataset-wise cross-validation strategy (denoted as dataset CV) and five-fold sample-wisecross-validation strategy (denoted as subject CV).
图 9.所有模型在 AD 识别任务 中的对比结果,使用了 二折数据集交叉验证策略(标记为 dataset CV)和 五折样本交叉验证策略(标记为 subject CV)。
Table
表
Table 1The list of symbols and their corresponding descriptions.
表 1. 主要符号及其对应描述
Table 2Demographic and clinical information of the studied four categories (Cate.) subjects from ADNI-1 and ADNI-2 datasets. Theeducation (Edu.) years and the mini-mental state examination (MMSE) values are reported in terms of mean-standard deviation.M/F: Male/Female.
表 2. 来自 ADNI-1 和 ADNI-2 数据集的四类受试者(Cate.)的人口统计学和临床信息。教育年限(Edu.,years)和简易精神状态检查(MMSE)值以 均值 ± 标准差 的形式报告。M/F 代表男性/女性。
Table 3Comparison results of the proposed SIGAN with other models in MRI and PET imputation tasks. The best results are represented in bold while thesuboptimal results are underlined
表 3. 所提出的 SIGAN 与其他模型在 MRI 和 PET 填充任务中的对比结果。最佳结果用 粗体 表示,次优结果用 下划线 表示。
Table 4Comparison results of the proposed SPDN with four diagnosis models in AD and MCI subtypes identification tasks tested on two testing dataset. 𝑤𝑜 represents trainingmodel without the synthetic images. The best results are represented in bold while the suboptimal results are underlined.
表 4.所提出的 SPDN 与四种诊断模型在 阿尔茨海默病(AD)和轻度认知障碍(MCI)亚型识别任务上的对比结果,测试于两个测试数据集。
𝑤𝑜 表示训练模型时未使用合成影像。最佳结果用 粗体 表示,次优结果用 下划线 表示。
Table 5Comparison results of the proposed SIGAN with four MST-variant models in the MRI and PET synthesis task tested on the ADNI-2 datasets.The best results are represented in bold while the suboptimal results are underlined
表 5.所提出的 SIGAN 与四种 MST 变体模型 在 MRI 和 PET 合成任务 上的对比结果,测试于 ADNI-2 数据集。最佳结果用 粗体 表示,次优结果用 下划线 表示。
Table 6Comparison results of the proposed EAP and CAA modules with traditional sampling operators in the MRI and PET synthesis tasks tested onADNI-2. The best results are represented in bold while the suboptimal results are underlined.
表 6.所提出的 EAP 和 CAA 模块与传统采样算子在 MRI 和 PET 合成任务 中的对比结果,测试于 ADNI-2 数据集。最佳结果用 粗体 表示,次优结果用 下划线 表示。
Table 7Comparison results of SPDN-variants (i.e., with or without CME module) in the ADdiagnosis task tested on the ADNI-2. The best results are represented in bold while thesuboptimal results are underlined
表 7.SPDN 变体(即,有或没有 CME 模块)在 AD 诊断任务 中的对比结果,测试于 ADNI-2 数据集。最佳结果用 粗体 表示,次优结果用 下划线 表示。
Table 8Comparison results of four multi-modality models with their variants that include orexclude the DH classifier. The best results are represented in bold while the suboptimalresults are underlined.
表 8.四种多模态模型及其包含或不包含 DH 分类器 变体的对比结果。最佳结果用 粗体 表示,次优结果用 下划线 表示。
Table 9Comparison results of SIGAN and SPDN with different hyper-parameters on both PET imputation and AD identification tasks.The best results are represented in bold while the suboptimal results are underlined.
表 9.SIGAN和 SPDN 在不同超参数下的对比结果,测试于 PET 填充 和 AD 识别 任务。最佳结果用 粗体 表示,次优结果用 下划线 表示。