Title
题目
Self-supervised graph contrastive learning with diffusion augmentation forfunctional MRI analysis and brain disorder detection
自监督图对比学习结合扩散增强用于功能性磁共振成像分析和脑部疾病检测
01
文献速递介绍
静息态功能性磁共振成像(rs-fMRI)专注于测量静息状态下的低频血氧水平依赖(BOLD)信号,无需执行特定任务,已成为神经影像学的重要工具(Shirer 等人,2015;Amemiya 等人,2016)。
rs-fMRI 描述的功能连接性(FC)可以捕捉脑活动模式以及感兴趣脑区(ROIs)之间的关系,越来越多地用于探索病理机制和自动诊断脑部疾病,如重度抑郁症(MDD)和自闭症谱系障碍(ASD)(Dai 等人,2023;Nebel 等人,2022;Mao 等人,2019;Fang 等人,2023)。
随着机器学习和深度学习的进步,越来越多的技术被开发用于 fMRI 生物标志物的发现和脑部疾病的自动检测(Bondi 等人,2023;Hou 等人,2023;Hebling Vieira 等人,2021;Wang 等人,2024)。然而,学习模型通常需要大量标注样本才能获得良好的泛化性能(Ingalhalikar 等人,2021;Cui 等人,2023;Wang 等人,2023;Weiner 等人,2013)。
自监督学习(如图对比学习)为此问题提供了一种有前景的解决方案,不需要标注数据,利用其强大的迁移能力来解决小样本问题(Fedorov 等人,2024)。图增强通常是图对比学习框架中的关键组成部分(Demirel 和 Holz,2024)。许多基于 fMRI 的对比学习研究通过窗口切片和窗口扭曲等技术增强 fMRI 时间序列,但这些方法可能破坏原始 BOLD 信号中嵌入的信息,从而影响后续的 fMRI 特征提取(Wang 等人,2022;Tang 等人,2022;Bijsterbosch 等人,2017)。一些最先进的(SOTA)图增强策略,如 AutoGCL(Yin 等人,2022)和 AD-GCL(Suresh 等人,2021)中使用的基于图神经网络(GNN)的方法,仍难以生成高质量样本,因为它们的生成器并非专门为图生成设计。扩散模型作为一种强大的深度生成模型,在图像合成、分子设计和医学数据分析等多个领域表现出色(Yang 等人,2023;Wu 等人,2024)。然而,很少有研究探讨如何基于脑功能连接网络(FCNs)实现扩散模型的数据增强,并将其与对比学习结合用于脑疾病检测。
本研究提出的方法本文提出了一种基于扩散增强的自监督图对比学习框架(GCDA),用于 fMRI 分析和脑疾病检测。GCDA 包括:预任务模型:学习通用且可迁移的 fMRI 特征。任务特定模型:微调预任务模型以适应下游任务。具体而言,预任务模型包含三个组件:图构建模块:基于 fMRI 数据构建功能连接网络/图。图扩散增强(GDA)模块:对图的边和节点进行扰动,同时保留原始 BOLD 信号的完整性,并生成高质量的增强图。图对比学习模块:通过具有共享参数的两个图同构网络(GINs)以自监督对比学习的方式提取通用 fMRI 特征。预任务模型基于无标注的 fMRI 数据进行优化,从而省去了繁琐的标注过程。任务特定模型通过调整预任务模型的参数,以监督方式适应下游任务。我们在包含 1230 名受试者的两个 rs-fMRI 数据集上评估了 GCDA 的性能,实验结果表明,GCDA 在自动诊断两种脑疾病方面优于多种 SOTA 方法。
主要贡献提出了一种基于扩散增强的自监督图对比学习框架,用于 fMRI 分析和脑疾病检测,能够有效解决 fMRI 研究中的小样本问题。设计了一种新的图扩散增强策略,能够修改脑图中的节点和边特征,极大地保留了原始信号的完整性并促进了 fMRI 特征提取。在两个 rs-fMRI 数据集上的实验表明,该方法在脑疾病诊断中优于多种 SOTA 方法。此外,该方法有助于识别与疾病相关的功能连接异常和脑区,从而促进 fMRI 在临床实践中的应用。
文章结构本文其余部分组织如下:第 2 节回顾相关研究;第 3 节介绍研究材料和提出的方法;第 4 节展示实验设置和结果;第 5 节讨论方法的几个关键组成部分及其局限性;第 6 节总结全文。
Aastract
摘要
Resting-state functional magnetic resonance imaging (rs-fMRI) provides a non-invasive imaging techniqueto study patterns of brain activity, and is increasingly used to facilitate automated brain disorder analysis.Existing fMRI-based learning methods often rely on labeled data to construct learning models, while the dataannotation process typically requires significant time and resource investment. Graph contrastive learningoffers a promising solution to address the small labeled data issue, by augmenting fMRI time series for selfsupervised learning. However, data augmentation strategies employed in these approaches may damage theoriginal blood-oxygen-level-dependent (BOLD) signals, thus hindering subsequent fMRI feature extraction. Inthis paper, we propose a self-supervised graph contrastive learning framework with diffusion augmentation(GCDA) for functional MRI analysis. The GCDA consists of a pretext model and a task-specific model. In thepretext model, we first augment each brain functional connectivity network derived from fMRI through agraph diffusion augmentation (GDA) module, and then use two graph isomorphism networks with sharedparameters to extract features in a self-supervised contrastive learning manner. The pretext model can beoptimized without the need for labeled training data, while the GDA focuses on perturbing graph edges andnodes, thus preserving the integrity of original BOLD signals. The task-specific model involves fine-tuning thetrained pretext model to adapt to downstream tasks. Experimental results on two rs-fMRI cohorts with a totalof 1230 subjects demonstrate the effectiveness of our method compared with several state-of-the-arts.
静息态功能磁共振成像(Resting-state functional magnetic resonance imaging,rs-fMRI)是一种非侵入性成像技术,用于研究大脑活动模式,并日益用于促进自动化脑部疾病分析。然而,现有基于 fMRI 的学习方法通常依赖标注数据来构建学习模型,而数据标注过程通常需要大量时间和资源投入。图对比学习为解决标注数据不足问题提供了一种有前景的解决方案,通过对 fMRI 时间序列进行增强实现自监督学习。然而,这些方法中使用的数据增强策略可能会破坏原始血氧水平依赖(BOLD)信号,从而阻碍后续的 fMRI 特征提取。
本文提出了一种结合扩散增强的自监督图对比学习框架(Graph Contrastive Learning with Diffusion Augmentation, GCDA),用于功能性磁共振成像分析。GCDA 包括一个 预训练模型 和一个 任务特定模型。在预训练模型中,我们首先通过图扩散增强(Graph Diffusion Augmentation, GDA)模块对由 fMRI 衍生的大脑功能连接网络进行增强,然后使用两个共享参数的图同构网络以自监督对比学习的方式提取特征。预训练模型的优化不需要标注训练数据,而 GDA 通过扰动图的边和节点来增强数据,同时保留原始 BOLD 信号的完整性。任务特定模型通过对训练好的预训练模型进行微调,以适应下游任务。在包含 1230 名受试者的两个 rs-fMRI 数据集上的实验结果表明,与多种先进方法相比,所提出的方法具有显著的效果优势。
Method
方法
3.1. Materials and data preprocessing
Two datasets with rs-fMRI scans are used in the experiments, including (1) REST-meta-MDD Consortium (REST-MDD)1 and (2) AutismBrain Imaging Data Exchange (ABIDE).2 For each dataset, we use thetop three largest sites in the experiments. Specifically, the largest siteis utilized to train the pretext model to acquire general fMRI featurerepresentations, and the remaining sites are utilized to fine-tune thepre-trained model. The demographic and category information of thesubjects included in this study is reported in Table 1.
3.1 材料与数据预处理
实验中使用了两个包含静息态功能磁共振成像(rs-fMRI)扫描的数据集,包括:(1) REST-meta-MDD Consortium (REST-MDD) 和 (2) Autism Brain Imaging Data Exchange (ABIDE)。针对每个数据集,实验中使用了排名前三的采集站点。具体而言,最大的采集站点用于训练预任务模型,以获取通用的 fMRI 特征表示;其余的采集站点则用于微调预训练模型。研究中包含的受试者的人口统计和类别信息详见表 1。
Conclusion
结论
This work presents a self-supervised graph contrastive learningframework with diffusion augmentation (GCDA) for functional MRIanalysis. The GCDA comprises a pretext model for pre-training anda task-specific model for fine-tuning. In the pretext model, we firstaugment each brain functional connectivity network derived from fMRthrough a graph diffusion augmentation module, and then use twograph isomorphism networks with shared parameters to extract features in a self-supervised contrastive learning manner. The task-specificmodel involves adjusting the pre-trained parameters of the pretextmodel to adapt to downstream tasks in a supervised manner. Experimental results on two datasets demonstrate that GCDA is superior toseveral state-of-the-art methods.
本研究提出了一种基于扩散增强的自监督图对比学习框架(GCDA),用于功能性磁共振成像(fMRI)分析。GCDA 包括用于预训练的预任务模型和用于微调的任务特定模型。在预任务模型中,我们首先通过图扩散增强模块对从 fMRI 导出的脑功能连接网络进行增强,然后使用共享参数的两个图同构网络以自监督对比学习的方式提取特征。任务特定模型通过调整预任务模型的预训练参数,以监督方式适应下游任务。实验结果表明,在两个数据集上,GCDA 的表现优于多种最新的先进方法。
Figure
图
Fig. 1. Illustration of the proposed self-supervised graph contrastive learning framework with diffusion augmentation (GCDA), which consists of (a) a pretext model and (b) atask-specific model*. In the pretext model, each FC network is first augmented through a graph diffusion augmentation (GDA) module, followed by two graph isomorphism networks(GINs) for fMRI feature extraction in a self-supervised contrastive learning manner. In the task-specific model, we fine-tune the GIN pre-trained in the pretext model to adapt todownstream disease detection tasks in a supervised task-oriented manner.
图 1. 提出的方法——基于扩散增强的自监督图对比学习框架 (GCDA) 的示意图,包括 (a) 预任务模型 和 (b) 任务特定模型。在预任务模型中,每个功能连接(FC)网络首先通过图扩散增强(GDA)模块进行增强,随后使用两个图同构网络(GINs)以自监督对比学习的方式提取 fMRI 特征。在任务特定模型中,我们微调在预任务模型中预训练的 GIN,以监督的任务导向方式适应下游疾病检测任务。
Fig. 2. Details of Graph Transformer network. (a) The overall architecture of the GraphTransformer network. (b) The self-attention module of the Graph Transformer block.𝐹𝑖𝐿𝑀(𝑀*1 ,𝑀2 ) = 𝑀1𝑊1 + (𝑀1𝑊2 ) ⨀𝑀2 + 𝑀2 for learnable weight matrices 𝑊1 and𝑊2
图 2. 图变换网络的详细结构。 (a) 图变换网络的整体架构。 (b) 图变换模块的自注意力机制。𝐹𝑖𝐿𝑀(𝑀1, 𝑀2) = 𝑀1𝑊1 + (𝑀1𝑊2) ⨀ 𝑀2 + 𝑀2,其中 𝑊1 和 𝑊2 为可学习的权重矩阵。
Fig. 3. ROC curves and corresponding AUC values obtained by twelve methods in (a–b) MDD vs. HC classification on REST-MDD and (c–d) ASD vs. HC classification on ABIDE.The horizontal axis is the false positive rate and the vertical axis is the true positive rate.
图 3. 由 12 种方法在以下分类实验中获得的 ROC(接收者操作特征)曲线及其对应的 AUC(曲线下面积)值: (a–b) REST-MDD 数据集上的 MDD(抑郁症)与 HC(健康对照)分类; (c–d) ABIDE 数据集上的 ASD(自闭症谱系障碍)与 HC(健康对照)分类。横轴表示假阳性率(False Positive Rate, FPR),纵轴表示真阳性率(True Positive Rate, TPR)。
Fig. 4. Visualization of graphs produced by the GDA module at every 100 steps in (a) the forward diffusion process and (b) the reverse denoising process.
图 4. GDA(图扩散增强)模块在每隔 100 步生成的图可视化: (a) 正向扩散过程中的图结构; (b) 反向去噪过程中的图结构。
Fig. 5. Visualization of the top 10 discriminative functional connections identified by the proposed GCDA in two classification experiments: (a) MDD vs. HC classification (Site20→Site 1) on REST-MDD, and (b) ASD vs. HC classification (Site NYU→Site UM) on ABIDE
图 5. 提出的 GCDA 方法在两个分类实验中识别出的前 10 个具有判别力的功能连接的可视化: (a) REST-MDD 数据集上 MDD(抑郁症)与 HC(健康对照)的分类(站点 20→站点 1); (b) ABIDE 数据集上 ASD(自闭症谱系障碍)与 HC(健康对照)的分类(站点 NYU→站点 UM)
Fig. 6. Results of GCDA and its three variants (i.e., GCDAw/oNODE, GCDAw/oEDGE, and GCDAw/oT) on REST-MDD (i.e., Site 20→Site 1)
图 6. GCDA 方法及其三个变体(即 GCDAw/oNODE、GCDAw/oEDGE 和 GCDAw/oT)在 REST-MDD 数据集(即站点 20→站点 1)上的实验结果。
Fig. 7. Results of GCDA with varying diffusion steps (T) on ABIDE (i.e.,Site NYU→Site UM)
图 7. GCDA 方法在 ABIDE 数据集(即站点 NYU → 站点 UM)上随扩散步数 (T) 变化的实验结果。
Fig. 8. Performance of GCDA and its two variants (i.e., GCDA-SimCLR and GCDAMoCo with different contrastive learning strategies) in MDD vs. HC classification onREST-MDD (i.e., Site 20→Site 1)
图 8. GCDA 方法及其两个变体(即 GCDA-SimCLR 和 GCDA-MoCo,分别采用不同的对比学习策略)在 REST-MDD 数据集(即站点 20 → 站点 1)上进行 MDD(抑郁症)与 HC(健康对照)分类的性能表现。
Fig. 9. Performance of GCDA and its two variants (i.e., GCDA-GCN and GCDA-GATwith different feature encoders) in MDD vs. HC classification on REST-MDD (i.e., Site20→Site 1)..
图 9. GCDA 方法及其两个变体(即 GCDA-GCN 和 GCDA-GAT,采用不同的特征编码器)在 REST-MDD 数据集(即站点 20 → 站点 1)上进行 MDD(抑郁症)与 HC(健康对照)分类的性能表现。
Table
表
Table 1Demographic information of studied subjects from two datasets. Age is reported as mean ± standard deviation. M/F: Male/Female
表 1:两组数据集中研究对象的人口统计信息 (年龄以平均值 ± 标准差表示。M/F:男性/女性)
Table 2Details of fully connected layers in the Graph Transformer. 𝑋𝑖 , 𝐸𝑖 , 𝑌𝑖 (𝑖=1,2): The 𝑖th fully connected operation performed on the node features, edge features, and global featuresin the input and output MLPs. 𝑊 𝑖 (𝑖=1,2): 𝑖th fully connected operation in the FiLM layers
表 2 图变换器中全连接层的详细信息。 𝑋𝑖、𝐸𝑖、𝑌𝑖 (𝑖=1,2):在输入和输出多层感知机(MLP)中,对节点特征、边特征和全局特征执行的第 𝑖 次全连接操作。 𝑊 𝑖 (𝑖=1,2):FiLM 层中执行的第 𝑖 次全连接操作。
Table 3Results of MDD vs. HC classification experiments on the REST-MDD dataset using twelve methods (shown as mean±standard deviation), highlighting the best results in bold. Thenotation ‘‘S→T’’ indicates that a model is pre-trained on a source domain (Site 20) and fine-tuned on a target domain (Site 1 or Site 21). ‘‘∗’’ denotes a statistically significantdifference between GCDA and a competing method
表 3 在 REST-MDD 数据集上进行的 MDD(抑郁症)与 HC(健康对照)分类实验结果。实验使用了 12 种方法(以均值±标准差表示),最佳结果以粗体标注。 符号 “S→T” 表示模型在源域(站点 20)上进行预训练,并在目标域(站点 1 或站点 21)上进行微调。 符号 “∗” 表示 GCDA 方法与竞争方法之间具有统计学显著差异。
Table 4Results of ASD vs. HC classification experiments on the ABIDE dataset using twelve methods (shown as mean±standard deviation), highlighting the best results in bold. The notation‘‘S→T’’ indicates that a model is pre-trained on a source domain (Site NYU) and fine-tuned on a target domain (Site UM or Site LEUVEN). ‘‘∗’’ denotes a statistically significantdifference between GCDA and a competing method.
表 4 在 ABIDE 数据集上进行的 ASD(自闭症谱系障碍)与 HC(健康对照)分类实验结果。实验使用了 12 种方法(以均值±标准差表示),最佳结果以粗体标注。 符号 “S→T” 表示模型在源域(站点 NYU)上进行预训练,并在目标域(站点 UM 或站点 LEUVEN)上进行微调。 符号 “∗” 表示 GCDA 方法与竞争方法之间具有统计学显著差异。
Table 5Influence of different trade-off parameters on GCDA for classifying MDD vs. HC onREST-MDD (i.e., Site 20 →Site 1), highlighting the best results in bold
表 5 不同权衡参数对 GCDA 在 REST-MDD 数据集(即站点 20 → 站点 1)上进行 MDD(抑郁症)与 HC(健康对照)分类的影响,最佳结果以粗体标注。
Table 6Performance of GCDA and GCDA-G in MDD vs. HC classification on REST-MDD (i.e.,
Site 20 →Site 1), highlighting the best results in bold.
表 6 GCDA 和 GCDA-G 在 REST-MDD 数据集(即站点 20 → 站点 1)上进行 MDD(抑郁症)与 HC(健康对照)分类的性能表现,最佳结果以粗体标注。
Table 7Performance of GCDA and four recent state-of-the-art fMRI analysis methods in MDDvs. HC classification on the REST-MDD dataset (i.e., Site 20 →Site 1), with best resultsshown in bold.
表 7 GCDA 方法与四种最新的 fMRI(功能性磁共振成像)分析方法在 REST-MDD 数据集(即站点 20 → 站点 1)上进行 MDD(抑郁症)与 HC(健康对照)分类的性能表现,最佳结果以粗体标注。
Table 8Performance of GGM, No Pre-train, and GCDA in MDD vs. HC classification on theREST-MDD dataset.
表 8 GGM(高斯图模型)、无预训练(No Pre-train)以及 GCDA 方法在 REST-MDD 数据集上进行 MDD(抑郁症)与 HC(健康对照)分类的性能表现。