Title
题目
SurfGNN: A robust surface-based prediction model with interpretability forcoactivation maps of spatial and cortical features
SurfGNN:一种用于空间与皮层特征共激活图、具备可解释性的稳健表面预测模型
01
文献速递介绍
脑皮层相关研究背景与SurfGNN模型设计动机 ## 一、脑皮层分析的重要性与核心应用 越来越多的证据表明,大脑发育/衰老轨迹以及脑部疾病的发展均可在大脑皮层上得以追踪(Hazlett等人,2017)。表征大脑皮层的常用方法是重建皮层表面并测量其形态学特征,例如皮层厚度、表面积、脑沟深度、髓鞘含量等(Dale等人,1999)。目前,皮层特征的一个重要应用是通过机器学习方法预测表型,如年龄(Liu等人,2020、2024)、性别(Besson等人,2021)以及脑部疾病状态(Barbaroux等人,2020),这有助于探索与皮层演化过程相关的重要生物标志物,并为脑部疾病诊断提供支持。 ## 二、现有基于表面的分析方法及其局限性 ### 1. 早期顶点特征分析与GNN方法的挑战 在基于表面的分析中,早期方法仅关注顶点特征,未考虑表面网格的拓扑结构(Gopinath等人,2019)。近年来,由于表面网格具有类图特征,研究人员开始采用基于图神经网络(GNN)的网络,综合分析皮层表面的节点特征与拓扑结构(Wu等人,2020)。然而,处理包含大量顶点的皮层表面网格时,图分析面临巨大的计算难题。解决该问题的常用方法是对表面网格进行下采样,在模型训练前大幅减少顶点数量(Liu等人,2020、2024;Besson等人,2021),但这可能会降低模型的预测精度,或削弱其生成有意义、可解释结果的能力。 ### 2. 球面框架方法的不足 另一种常用的皮层表面处理方法是在球面框架内进行(Zhao等人,2019、2021;Cheng等人,2022a、b)。该方法从大脑表面提取节点特征,按照皮层表面的层级球面结构依次下采样,最终融合特征进行预测。这类模型在处理节点密度高的大规模图时效率较高,但无法灵活识别对预测任务最有效的子图结构或重要节点。而这一点至关重要,因为不同区域对不同预测需求的响应存在差异(Gilmore等人,2018)。 ### 3. 特征层面异质性的研究空白 除了探索全局层面的空间异质性,目前的研究很少专门关注特征层面的异质性——即不同特征在预测任务中可能呈现出不同的空间模式。每种皮层特征都对应大脑皮层独特的宏观或微观结构。对大脑快速发育阶段(Gilmore等人,2018)、衰老过程(Fjell和Walhovd,2010)或病理状态(Ruiz de Miras等人,2017)的观察表明,不同皮层特征的区域变异可作为不同脑部状态的独特生物标志物。在模型中先分别处理每种皮层特征,再融合它们进行预测分析,可能会显著提升模型性能。我们假设,允许每种特征自主表达,模型能捕捉到更细微、更具影响力的信息以支持预测任务,这有助于区分不同皮层特征对预测的贡献,实现对每个受试者的模型空间-特征层面解释。 ### 4. 基于表面的模型在可解释性上的挑战 基于表面的模型面临的另一大挑战是可解释性,这涉及探索皮层表面的各种特征并识别与特定表型相关的生物标志物。事后显著性方法应用广泛,其通过分析网络内与特定输入相关的梯度或激活,确定对预测任务最具影响力的输入特征(Bass等人,2022)。然而,这类方法存在局限性(Eitel等人,2019;Böhle等人,2019),在神经影像和神经科学研究中可能并不总是适用——此类研究中的可用数据通常规模小且复杂度高(Bass等人,2022;Xue等人,2023)。 另一种策略是开发具有内在自解释性的深度学习模型(Qiao等人,2023),即构建端到端框架,助力识别详细的解释性因素,从而改进判别性表征的提取并获得更准确的结果。此外,这类模型支持实例级解释,能够捕捉受试者特异性特征,这在大脑发育和衰老研究中尤为重要——个体变异性在这类研究中起着关键作用。该领域先前的研究(如SiT(Dahan等人,2022)和NeuroExplainer(Xue等人,2023))已取得了良好成果。受这些发现的启发,构建具有内置可解释性的基于表面的预测模型,成为一个重要且富有前景的研究方向。 三、SurfGNN模型的提出与核心贡献 为满足上述需求并应对前述挑战,受基于GNN的网络和球面框架的启发,我们提出了一种表面图神经网络(SurfGNN),将其作为具有自解释性的预测模型。SurfGNN的整个框架包括:针对每种皮层特征的拓扑采样学习(TSL)和特定区域学习(RSL)结构,以及跨所有特征、用于预测的分数加权融合(SWF)结构。我们在脑龄预测任务中对该模型进行了评估——从结构性脑神经影像数据中预测脑龄,面临着与其他各类神经影像应用相似的挑战,是开发和测试深度学习算法的基础;此外,该任务因其潜在的临床和生物学意义而备受关注(Peng等人,2021)。 我们的贡献总结如下: 1. 设计了包含TSL和RSL结构的图分析流程,覆盖从低层级到高层级的表面网格(分别对应更多和更少的顶点数量)。TSL能高效地对稀疏图进行采样,保留大脑整体拓扑结构;RSL则能有效进行深入的图分析,区分不同脑区对预测的不同影响。这种多尺度特征处理机制,可有效捕捉大脑在多个空间尺度上的层级组织。 2. 提出了一种新颖的分数加权融合机制,在图学习框架内融合从单个皮层特征中提取的节点信息。该机制还能生成节点分数,为每种特征提供特异性的可解释结果。 3. 将SurfGNN应用于包含皮层厚度、脑沟深度和灰质/白质(GM/WM)强度比等形态学特征的新生儿数据集。结果表明,我们的模型性能优于现有最先进方法。针对每种皮层特征,我们基于节点分数构建了空间图谱。
Aastract
摘要
Current brain surface-based prediction models often overlook the variability of regional attributes at thecortical feature level. While graph neural networks (GNNs) excel at capturing regional differences, theyencounter challenges when dealing with complex, high-density graph structures. In this work, we consider thecortical surface mesh as a sparse graph and propose an interpretable prediction model—Surface Graph NeuralNetwork (SurfGNN). SurfGNN employs topology-sampling learning (TSL) and region-specific learning (RSL)structures to manage individual cortical features at both lower and higher scales of the surface mesh, effectivelytackling the challenges posed by the overly abundant mesh nodes and addressing the issue of heterogeneityin cortical regions. Building on this, a novel score-weighted fusion (SWF) method is implemented to mergenodal representations associated with each cortical feature for prediction. We apply our model to a neonatalbrain age prediction task using a dataset of harmonized MR images from 481 subjects (503 scans). SurfGNNoutperforms all existing state-of-the-art methods, demonstrating an improvement of at least 9.0% and achievinga mean absolute error (MAE) of 0.827 ± 0.056 in postmenstrual weeks. Furthermore, it generates featurelevel activation maps, indicating its capability to identify robust regional variations in different morphometriccontributions for prediction.
SurfGNN模型相关研究概述 当前基于脑表面的预测模型往往忽视了皮层特征层面区域属性的变异性。尽管图神经网络(GNNs)在捕捉区域差异方面表现出色,但在处理复杂、高密度图结构时仍面临挑战。在本研究中,我们将皮层表面网格视为稀疏图,并提出一种具备可解释性的预测模型——表面图神经网络(SurfGNN)。 SurfGNN采用拓扑采样学习(TSL)和特定区域学习(RSL)结构,在表面网格的低尺度和高尺度下对单个皮层特征进行处理,有效应对了网格节点过多带来的挑战,并解决了皮层区域的异质性问题。在此基础上,研究还提出一种新颖的分数加权融合(SWF)方法,用于合并与每个皮层特征相关的节点表征以进行预测。 我们将该模型应用于新生儿脑龄预测任务,使用的数据集包含481名受试者(503次扫描)的标准化磁共振(MR)图像。结果表明,SurfGNN的性能优于所有现有最先进方法,改进幅度至少达9.0%,在月经后周龄(PMA)预测中实现了0.827±0.056的平均绝对误差(MAE)。此外,该模型还能生成特征级激活图,表明其能够识别不同形态测量贡献中具有稳健性的区域变异,以辅助预测任务。
Method
方法
Fig. 1 illustrates the complete architecture of SurfGNN. We firstoutline the approach for extracting cortical surfaces and morphologicalfeatures from brain MR images. Then we provide a comprehensiveexposition of each module within SurfGNN. This includes specific graphconvolutional layers and graph pooling layers, utilized in the topologysampling learning and the region-specific learning structures, alongwith the score-weighted fusion structure incorporating a read-out layerto predict phenotypes. Additionally, we describe the employed lossfunctions during the network training process.
图1 展示了SurfGNN的完整架构 首先,图中阐述了从脑部磁共振(MR)图像中提取皮层表面与形态学特征的方法。随后,对SurfGNN内部的各个模块进行了全面说明,包括用于拓扑采样学习(TSL)和特定区域学习(RSL)结构的特定图卷积层与图池化层,以及集成了读出层(read-out layer)以实现表型预测的分数加权融合(SWF)结构。此外,图中还介绍了网络训练过程中所采用的损失函数。
Conclusion
结论
In conclusion, we have presented a novel graph neural network forphenotype prediction utilizing cortical surfaces. Specifically, our approach incorporates TSL and RSL structures tailored for graph analysisacross different resolutions of surface mesh. Additionally, the design ofmulti-graph input and the score-weighted fusion mechanism provideperformance optimization and effective interpretability for predictiontasks. In neonatal brain age prediction, the model has demonstrated superior performance alongside competitive interpretable outputs. Futureworks encompass validation on larger datasets, extension to diseasedcohorts, exploring models that strike a balance between prediction andinterpretability, and enhancing the precision of interpretable results.
综上,我们提出了一种基于皮层表面、用于表型预测的新型图神经网络。具体而言,我们的方法集成了拓扑采样学习(TSL)和特定区域学习(RSL)结构,二者专为不同分辨率表面网格的图分析设计。此外,多图输入设计与分数加权融合机制,为预测任务提供了性能优化与有效的可解释性支持。在新生儿脑龄预测任务中,该模型不仅展现出更优的性能,还能生成具有竞争力的可解释性输出。未来的研究方向包括:在更大规模数据集上进行验证、扩展至疾病队列研究、探索在预测性能与可解释性之间取得平衡的模型,以及提升可解释性结果的精度。
Results
结果
5.1. Comparison with the state-of-the-art methodsWe compare the proposed SurfGNN model with the following fourdifferent state-of-the-art methods. (1) SphericalUNet. A variation ofits original architecture (Zhao et al., 2019) for regression tasks byremoving the up-sampling decoder. (2) MoNet (Monti et al., 2017).The mixture model network utilizes the Gaussian mixture model convolutional operators to replace filters in SphericalUNet. (3) SiT (Dahanet al., 2022). The surface vision transformer treats the surface as asequence of triangular patches and encodes them with the transformermodel. (4) BrainGNN (Li et al., 2021). A GNN model on brain datawith the roi-aware graph convolutional layers and the roi-topk poolinglayers.In our experiments, we utilized sparse surfaces at various resolutions(as illustrated in Fig. 2) as inputs for the comparison models. It isimportant to note that sparse graphs featuring 81,924 nodes could notbe utilized with BrainGNN due to GPU memory limitations. The abovemethods are implemented based on the released codes with our bestefforts.Table 2 shows the performance of different models on the dataset,and several observations could be obtained: (1) Under identical hyperparameter, the SurfGNN model achieves optimal results when the inputis sparse graphs with 5124 nodes. Paired t-tests show that this configuration significantly outperforms both higher- and lower-resolutioninputs, except for the 20,484-node configuration, which shows no significant difference. Fig. 3 presents the detailed prediction of SurfGNNwith the sparse graphs input of 5124 nodes, demonstrating a relativelyconsistent performance in two cohorts, albeit with slight deviationprobably due to quantity imbalances. (2) SurfGNN consistently outperforms other algorithms across various sparse graph inputs withoutrequiring the most parameters compared to its counterparts. Notably,with 5124 nodes, SurfGNN shows the largest MAE improvement overother models, and these differences are statistically significant basedon paired t-tests. (3) Higher input resolution and a larger numberof nodes with cortical features do not always lead to better results.Although higher resolution provides finer details, it can also introduceredundant information and noise for brain age prediction due to localgeometric irregularities, interpolation artifacts, or subject-specific surface variations that may not be relevant for age prediction, potentiallyhindering model learning and performance. High-resolution inputs arenot inherently detrimental, but they may complicate optimization andintroduce irrelevant variability unless additional regularization or denoising mechanisms are incorporated. Models of SphericalUNet, SiT aswell as SurfGNN, have verified this. MoNet appears adept at distinguishing pertinent information from a larger node pool, but its overallprediction performance does not surpass that of our proposed model.
5.1 与现有最先进方法的对比 我们将所提出的SurfGNN模型与以下四种不同的现有最先进方法进行对比: 1. SphericalUNet:对其原始架构(Zhao等人,2019)进行改进以适配回归任务,具体修改为移除上采样解码器; 2. MoNet(Monti等人,2017):混合模型网络,采用高斯混合模型卷积算子替代SphericalUNet中的滤波器; 3. SiT(Dahan等人,2022):表面视觉Transformer,将皮层表面视为一系列三角形面片,并通过Transformer模型对其进行编码; 4. BrainGNN(Li等人,2021):针对脑部数据的图神经网络模型,包含感兴趣区域感知(roi-aware)图卷积层和感兴趣区域Top-K(roi-topk)池化层。 在实验中,我们采用不同分辨率的稀疏表面(如图2所示)作为对比模型的输入。需注意的是,由于GPU内存限制,包含81924个节点的稀疏图无法用于BrainGNN。上述所有方法均基于已公开的代码,我们已尽最大努力确保其实现准确性。 表2展示了不同模型在数据集上的性能表现,从中可得出以下几点结论: 1. 在相同超参数条件下,当输入为包含5124个节点的稀疏图时,SurfGNN模型取得最优结果。配对t检验显示,该配置的性能显著优于更高分辨率和更低分辨率的输入;仅与包含20484个节点的配置相比时,二者无显著差异。图3呈现了SurfGNN以5124个节点的稀疏图为输入时的详细预测结果,表明模型在两个队列中表现相对一致,仅存在微小偏差(可能由样本数量不均衡导致)。 2. 在不同稀疏图输入条件下,SurfGNN的性能始终优于其他算法,且相较于同类方法,其无需最多的参数。值得注意的是,当输入为5124个节点的稀疏图时,SurfGNN相较于其他模型的平均绝对误差(MAE)提升幅度最大,且配对t检验结果显示,这些性能差异具有统计学显著性。 3. 具有皮层特征的输入分辨率越高、节点数量越多,并不总能带来更优的预测结果。尽管更高分辨率能提供更精细的细节,但由于局部几何不规则性、插值伪影或与年龄预测无关的受试者特异性表面变异,可能会为脑龄预测引入冗余信息和噪声,进而可能阻碍模型训练并降低性能。高分辨率输入本身并非有害,但会增加优化难度并引入无关变异性,除非集成额外的正则化或去噪机制。SphericalUNet、SiT以及SurfGNN均验证了这一结论。MoNet虽在从大量节点中区分相关信息方面表现出一定优势,但其整体预测性能仍未超过我们提出的模型。
Figure
图
Fig. 1. Overview of the proposed network architecture and its key modules. N: the number of cortical features for each subject, input into SurfGNN. The modelshowcased above operates on an input mesh resolution of 5124 nodes, necessitating two TSL structures for each cortical feature. For node number of 81,924,20,484, 1284, the model requires four, three and one TSL structures, respectively
图1 所提网络架构及其关键模块概述 图中“N”代表输入至SurfGNN的每位受试者的皮层特征数量。 上方展示的模型基于5124个节点的输入网格分辨率运行,此时每个皮层特征需配备2个拓扑采样学习(TSL)结构;对于节点数分别为81924、20484、1284的输入网格,该模型则分别需要4个、3个和1个TSL结构。
Fig. 2. Multi-resolution mesh maps on cerebral cortical surface. N: the numberof nodes on the mesh.
图2 大脑皮层表面的多分辨率网格图
Fig. 3. The scatter plot of the predicted brain ages and postmenstrual ages onthe two cohorts with each input sparse graph consisting of 5124 nodes. R: thecorrelation coefficient between the two axes for each cohort
图 3 输入为 5124 个节点的稀疏图时,两个队列中预测脑龄与月经后年龄(PMA)的散点图
Fig. 4. Comparison of prediction performance of SurfGNN containing differentnumbers of TSL structures, corresponding to distinct resolutions of outputsparse graphs after all the TSL structures and also inputs of RSL structure.
图4 包含不同数量拓扑采样学习(TSL)结构的SurfGNN预测性能对比 该图对比的核心是:不同TSL结构数量对应的两类关键关联信息——一是所有TSL结构处理后输出稀疏图的分辨率,二是特定区域学习(RSL)结构的输入数据。
Fig. 5. Comparison between our model and two post-hoc approaches on the spatial activation maps for the three cortical features. The circles indicate areas ofhigher response within each feature. The various colors for each surface denote differences in qualitative importance. Maps from different approaches or distinctcortical features of the same approach are not directly comparable in terms of values.
图 5 本模型与两种事后分析方法在三种皮层特征空间激活图上的对比图中圆圈标记了每种特征中响应强度较高的区域;皮层表面的不同颜色代表定性重要性的差异。需要注意的是,不同方法的激活图,或同一方法在不同皮层特征上的激活图,其数值不具有直接可比性。
Fig. 6. The scatter plots between the scores from model and the referenceindexes on 324 nodes. CT: cortical thickness. SD: sulcal depth. G/W: GM/WMintensity ratio. R: the correlation coefficient between the two axes for eachfeature
图6 324个节点上模型生成的分数与参考指标的散点图 图中,CT代表皮层厚度(cortical thickness),SD代表脑沟深度(sulcal depth),G/W代表灰质/白质强度比(GM/WM intensity ratio);R代表每种特征对应的两轴数据(模型分数与参考指标)之间的相关系数。
Table
表
Table 1The information of datasets used for PMA prediction.
表 1 用于月经后年龄(PMA)预测的数据集信息
Table 2Performance comparison with different models on different resolution of the input sparse graphs
表2 不同输入稀疏图分辨率下各模型的性能对比
Table 3Performance comparison with different studies on the dHCP dataset.
表 3 在 dHCP 数据集上与不同研究的性能对比
Table 4Performance comparison on the UK Biobank dataset
表4 在英国生物样本库(UK Biobank)数据集上的性能对比
Table 5Performance comparison on model without the corresponding module and thecomplete SurfGNN
表 5 移除对应模块的模型与完整 SurfGNN 模型的性能对比

Table 6Performance comparison with interpretability methods
表6 与可解释性方法的性能对比