解耦生成式不确定性感知的多模态医学图像扩散分割文献速递/基于多模态的医学影像分割与理解

Oldlee

本文提出D-GUMM-DS，将解耦多模态融合、条件扩散分割和不确定性校准结合，用于更可信的医学图像分割。

Title题目

解耦生成式不确定性感知的多模态医学图像扩散分割

Disentangled generative uncertainty-aware multi-modal diffusion segmentation of medical images

文献速递介绍

论文从医学AI临床落地的可信性问题切入。虽然U-Net、V-Net、nnU-Net和Transformer类分割模型在医学图像分割中表现突出，但大多数模型只输出单一确定性分割，无法告诉医生哪些区域可靠、哪些区域可能错误。在肿瘤边界、坏死核心、水肿与肿瘤组织交界等高风险区域，缺少不确定性会限制医生对AI结果的审查和信任。另一方面，现代医学诊断常依赖多模态影像，例如脑肿瘤MRI中的T1、T1ce、T2和FLAIR，或者CT与PET、CT与MRI的组合；这些模态提供互补信息，但也会出现空间、强度或病灶可见性上的冲突。传统早期融合、特征拼接或后期决策融合通常是确定性的，容易把模态间歧义直接传播到输出中。作者认为，扩散模型等生成式模型天然学习输出分布，能够通过多次采样产生多个合理分割，从而更自然地刻画不确定性。基于此，论文提出D-GUMM-DS，将条件DDPM与解耦式、不确定性感知的多模态融合结合起来，目标是在提高分割精度的同时输出临床可解释的不确定性。

相关工作

相关工作部分回顾了四条研究线索。第一是医学图像分割，从U-Net、V-Net、nnU-Net、Attention U-Net到TransUNet、Swin-UNETR和医学基础模型，这些方法不断提升分割性能，但大多缺乏显式置信度表达。第二是不确定性量化，包括Bayesian Neural Networks、MC Dropout、Bayes by Backprop、Deep Ensemble、TTA和Conformal Prediction等，这些方法能提供一定置信度信息，但常伴随较高计算代价、架构限制或与像素级3D分割任务结合不够自然。第三是多模态医学图像融合，包括早期融合、特征级融合、决策级融合、注意力融合和解耦表示学习；尽管它们能提升多模态分割性能，但通常没有把模态冲突与不确定性作为一等建模对象。第四是生成模型在分割和不确定性中的应用，包括GAN、VAE、CVAE和DDPM。作者指出，已有生成式不确定性方法多关注单模态、2D或多标注者歧义建模，而本文的重点是3D多模态、单专家标注场景下的解耦融合与校准不确定性。

Aastract摘要

本文关注医学图像分割中两个临床关键问题：多模态信息如何可靠融合，以及模型预测的不确定性如何被显式、可解释地量化。作者提出D-GUMM-DS框架，使用模态专属编码器提取特征，再通过D-UACMF模块将多模态证据解耦为共享信息、模态特异信息和跨模态冲突信息，并将其作为条件输入驱动3D条件扩散U-Net生成分割。模型通过多次扩散采样得到多个合理分割结果，并从样本分歧中计算像素级和全局不确定性，同时引入冲突引导采样和学习式置信度校准。实验在BraTS 2021、MS-CMRSeg、内部TBI CT-FLAIR队列和头颈CT-PET数据上显示，该方法在Dice、HD95、ECE、AUROC-Error和NLL等指标上均优于U-Net、Probabilistic U-Net、Deep Ensemble、DEviS和MedSegDiff等基线。结果表明，D-GUMM-DS不仅提升分割精度，还能生成更局部、更校准、更具临床可解释性的不确定性图。

Method方法

方法部分提出D-GUMM-DS的完整架构，由三部分组成：模态专属特征提取、D-UACMF解耦不确定性感知跨模态融合、条件扩散分割网络。对于每个输入模态，模型使用独立的3D Vision Transformer编码器提取特征，保证不同模态在同一解剖空间中获得对齐的表征。核心模块D-UACMF把多模态特征分为三类：共享特征Fshared，用于捕捉跨模态一致的解剖和病理证据；模态特异特征Funique,m，用于保留每种模态独有的诊断信息，例如T1ce中的强化核心或FLAIR中的水肿信号；冲突特征Fconflict，用于显式表示不同模态在局部区域的差异、矛盾和不确定性。随后，模型通过一个Recompose模块将这些解耦特征重新组合成单个条件张量Fcond，并通过跨注意力和FiLM式调制注入3D扩散U-Net的多个尺度。扩散网络在训练时对真实分割掩膜逐步加噪，并学习反向去噪过程；推理时从随机噪声出发，在Fcond条件下生成分割掩膜。由于每次采样的初始噪声不同，模型可以为同一病例生成K个合理分割样本，进而通过预测熵等方式估计像素级不确定性。论文还提出推理阶段的冲突引导采样，即用Fconflict构造结构化扰动，使模型在模态冲突区域更充分地探索预测边界。训练目标由扩散去噪损失、解耦正则损失和置信度校准损失组成，其中解耦损失通过协方差约束减少共享、特异和冲突表示之间的冗余，校准损失促使模型输出的置信度与真实正确性一致。作者也强调，解耦损失只是软正则，不保证严格独立；冲突引导采样仅用于推理，不改变训练时的DDPM先验。

实验设置

实验使用四类多模态医学图像数据评估模型。BraTS 2021用于脑胶质瘤分割，包含T1、T1ce、T2和FLAIR四种MRI序列；MS-CMRSeg用于心脏MRI分割，包含bSSFP和LGE序列；内部TBI CT-FLAIR队列用于创伤性脑损伤病灶分割，包含非增强CT和FLAIR MRI；头颈CT-PET数据用于肿瘤、淋巴结或危及器官等结构分割。比较方法包括早期融合3D U-Net、Probabilistic U-Net、5模型Deep Ensemble、DEviS和MedSegDiff。评价指标覆盖分割准确性和不确定性质量：Dice越高越好，HD95越低越好；ECE衡量置信度校准，越低越好；AUROC-Error衡量不确定性能否定位错误区域，越高越好；NLL衡量概率预测质量，越低越好。模型以PyTorch实现，使用NVIDIA A100 GPU训练，扩散步数T为1000，推理时通常使用K等于8个扩散样本估计不确定性。

实验结果

整体结果显示，D-GUMM-DS在四个数据集上均取得最佳或最优水平的分割与不确定性表现。在BraTS 2021上，D-GUMM-DS的DSC为0.892，HD95为9.8，ECE为0.061，AUROC-Error为0.890，NLL为0.180，明显优于MedSegDiff、Deep Ensemble和Probabilistic U-Net。在MS-CMRSeg上，其DSC达到0.910，ECE降至0.055，AUROC-Error达到0.905，说明在心脏多序列MRI上也能保持较高精度和良好校准。在内部TBI CT-FLAIR和头颈CT-PET任务中，模型同样优于所有基线，尤其在跨模态差异较明显的场景中，冲突感知融合带来较大收益。消融实验进一步说明各模块的作用：去掉Dconflict会降低Dice并显著恶化ECE和AUROC-Error，说明显式建模模态冲突对不确定性很重要；去掉解耦机制、改用简单融合会带来最大性能下降，说明共享、特异和冲突信息的结构化分解是核心贡献；去掉冲突引导采样对Dice影响较小，但会让ECE和AUROC-Error略变差；去掉学习式置信度校准几乎不影响分割重叠，却明显增大ECE，说明校准损失主要改善置信度可信度。运行时间方面，D-GUMM-DS推理单个BraTS 3D扫描约1.3秒，训练成本约为单个U-Net的2.1倍，高于单一U-Net，但与Deep Ensemble和MedSegDiff等强不确定性基线处于可比范围。

定性分析

定性结果展示了D-GUMM-DS不确定性图和解耦特征的可解释性。在BraTS示例中，D-GUMM-DS的不确定性主要集中在肿瘤边界、坏死核心周围以及水肿和肿瘤组织难以区分的区域，与真实分割困难和潜在错误区域高度一致。与MedSegDiff、DEviS、Deep Ensemble和Probabilistic U-Net相比，其不确定性图更锐利、更局部化，更能指示需要医生复核的关键区域。D-UACMF产生的冲突图进一步显示了不同模态证据不一致的位置，例如T1ce边界清晰但FLAIR模糊的区域。图3和图4中的解耦表示说明，共享特征通常集中于稳定的肿瘤核心，冲突特征呈环状分布在边界附近，而模态特异图则分别强调不同影像序列独有的病灶子区域，例如T1ce突出强化核心，T2和FLAIR更关注水肿区域。这些观察支持作者的观点：模型并非只生成黑箱置信度，而是在一定程度上把多模态证据来源组织成可解释的结构。

Discussion讨论

讨论部分强调，D-GUMM-DS的价值不仅在于更高的分割精度，也在于能提供校准良好、局部化且与临床歧义相关的不确定性图。D-UACMF是框架的关键，通过解耦共享、特异和冲突信息提升融合质量；Dconflict使模型能够直接定位模态间分歧；冲突引导采样帮助在高歧义区域更充分地暴露预测方差；置信度校准使数值置信度更接近真实正确率。论文也承认若干局限：扩散模型的迭代采样带来计算开销，严格实时部署仍需DDIM、DPM-Solver或蒸馏等加速方法；当前解耦约束基于展平特征的全局协方差，约束较弱，不保证严格语义独立；冲突引导采样使用逐体积归一化，可能在极其干净的扫描中放大微弱冲突；模型泛化仍依赖训练数据覆盖的病理、设备和协议范围；当模态数极多时，D-UACMF的复杂度和冗余控制也需要重新设计。结论认为，D-GUMM-DS为多模态医学分割中的可信AI提供了一个有前景的生成式框架，未来可扩展到快速推理、少样本或半监督学习，以及多模态疾病预测和异常检测等任务。

Figure图

图1.

该图展示了方法的主流程：每个影像模态先经过独立编码器得到特征，D-UACMF模块再把这些特征分解为共享表示、模态特异表示和跨模态冲突表示。随后Recompose模块将这些表示融合为单个条件张量Fcond，并在3D条件扩散U-Net的多层去噪过程中作为条件输入。最终模型通过多次扩散采样生成分割样本集合，从样本分歧中得到不确定性图，并输出最终分割。该图是理解本文核心创新的关键：不确定性不是后处理，而是通过冲突感知融合和生成式采样内嵌在分割流程中。

图2.

该图比较了D-GUMM-DS与MedSegDiff、DEviS、Deep Ensemble和Probabilistic U-Net等方法在BraTS病例上的不确定性图。D-GUMM-DS的冲突图能突出多模态证据分歧区域，而其预测熵不确定性图更集中在肿瘤边界和疑难区域，相比其他方法更清晰、更局部化。图中结果支持论文的主张：D-GUMM-DS生成的不确定性更接近真实错误和临床模糊区域，因此更适合用于指导医生复核。

图3.

该图展示一个BraTS病例中共享特征、冲突特征和各模态特异特征的空间分布。共享图主要聚焦在肿瘤核心，说明模型捕捉到跨模态一致证据；冲突图在肿瘤边界形成高响应环，说明模型识别到边界区域的模态不一致和分割歧义；不同模态的unique图强调不同子区域，例如T1ce更关注强化边缘或热点，FLAIR更关注周围高信号区域。这说明D-UACMF学到的分解具有一定语义可解释性。

图4.

该图用第二个病例进一步验证解耦表示的稳定性。共享图仍集中于病灶内部，冲突图沿肿瘤边界呈环状高响应，T1ce特异图偏向强化核心，T2和FLAIR特异图更突出水肿相关区域。与图3一致，这表明模型在不同病例中都能把稳定证据、边界冲突和模态独有信息分离出来，从而提升分割和不确定性解释。