本文提出D-GUMM-DS,将解耦多模态融合、条件扩散分割和不确定性校准结合,用于更可信的医学图像分割。
Title题目
01
解耦生成式不确定性感知的多模态医学图像扩散分割
Disentangled generative uncertainty-aware multi-modal diffusion segmentation of medical images
文献速递介绍
02
论文从医学AI临床落地的可信性问题切入。虽然U-Net、V-Net、nnU-Net和Transformer类分割模型在医学图像分割中表现突出,但大多数模型只输出单一确定性分割,无法告诉医生哪些区域可靠、哪些区域可能错误。在肿瘤边界、坏死核心、水肿与肿瘤组织交界等高风险区域,缺少不确定性会限制医生对AI结果的审查和信任。另一方面,现代医学诊断常依赖多模态影像,例如脑肿瘤MRI中的T1、T1ce、T2和FLAIR,或者CT与PET、CT与MRI的组合;这些模态提供互补信息,但也会出现空间、强度或病灶可见性上的冲突。传统早期融合、特征拼接或后期决策融合通常是确定性的,容易把模态间歧义直接传播到输出中。作者认为,扩散模型等生成式模型天然学习输出分布,能够通过多次采样产生多个合理分割,从而更自然地刻画不确定性。基于此,论文提出D-GUMM-DS,将条件DDPM与解耦式、不确定性感知的多模态融合结合起来,目标是在提高分割精度的同时输出临床可解释的不确定性。
相关工作
相关工作部分回顾了四条研究线索。第一是医学图像分割,从U-Net、V-Net、nnU-Net、Attention U-Net到TransUNet、Swin-UNETR和医学基础模型,这些方法不断提升分割性能,但大多缺乏显式置信度表达。第二是不确定性量化,包括Bayesian Neural Networks、MC Dropout、Bayes by Backprop、Deep Ensemble、TTA和Conformal Prediction等,这些方法能提供一定置信度信息,但常伴随较高计算代价、架构限制或与像素级3D分割任务结合不够自然。第三是多模态医学图像融合,包括早期融合、特征级融合、决策级融合、注意力融合和解耦表示学习;尽管它们能提升多模态分割性能,但通常没有把模态冲突与不确定性作为一等建模对象。第四是生成模型在分割和不确定性中的应用,包括GAN、VAE、CVAE和DDPM。作者指出,已有生成式不确定性方法多关注单模态、2D或多标注者歧义建模,而本文的重点是3D多模态、单专家标注场景下的解耦融合与校准不确定性。
Aastract摘要
03
本文关注医学图像分割中两个临床关键问题:多模态信息如何可靠融合,以及模型预测的不确定性如何被显式、可解释地量化。作者提出D-GUMM-DS框架,使用模态专属编码器提取特征,再通过D-UACMF模块将多模态证据解耦为共享信息、模态特异信息和跨模态冲突信息,并将其作为条件输入驱动3D条件扩散U-Net生成分割。模型通过多次扩散采样得到多个合理分割结果,并从样本分歧中计算像素级和全局不确定性,同时引入冲突引导采样和学习式置信度校准。实验在BraTS 2021、MS-CMRSeg、内部TBI CT-FLAIR队列和头颈CT-PET数据上显示,该方法在Dice、HD95、ECE、AUROC-Error和NLL等指标上均优于U-Net、Probabilistic U-Net、Deep Ensemble、DEviS和MedSegDiff等基线。结果表明,D-GUMM-DS不仅提升分割精度,还能生成更局部、更校准、更具临床可解释性的不确定性图。
Method方法
04
方法部分提出D-GUMM-DS的完整架构,由三部分组成:模态专属特征提取、D-UACMF解耦不确定性感知跨模态融合、条件扩散分割网络。对于每个输入模态,模型使用独立的3D Vision Transformer编码器提取特征,保证不同模态在同一解剖空间中获得对齐的表征。核心模块D-UACMF把多模态特征分为三类:共享特征Fshared,用于捕捉跨模态一致的解剖和病理证据;模态特异特征Funique,m,用于保留每种模态独有的诊断信息,例如T1ce中的强化核心或FLAIR中的水肿信号;冲突特征Fconflict,用于显式表示不同模态在局部区域的差异、矛盾和不确定性。随后,模型通过一个Recompose模块将这些解耦特征重新组合成单个条件张量Fcond,并通过跨注意力和FiLM式调制注入3D扩散U-Net的多个尺度。扩散网络在训练时对真实分割掩膜逐步加噪,并学习反向去噪过程;推理时从随机噪声出发,在Fcond条件下生成分割掩膜。由于每次采样的初始噪声不同,模型可以为同一病例生成K个合理分割样本,进而通过预测熵等方式估计像素级不确定性。论文还提出推理阶段的冲突引导采样,即用Fconflict构造结构化扰动,使模型在模态冲突区域更充分地探索预测边界。训练目标由扩散去噪损失、解耦正则损失和置信度校准损失组成,其中解耦损失通过协方差约束减少共享、特异和冲突表示之间的冗余,校准损失促使模型输出的置信度与真实正确性一致。作者也强调,解耦损失只是软正则,不保证严格独立;冲突引导采样仅用于推理,不改变训练时的DDPM先验。
实验设置
实验使用四类多模态医学图像数据评估模型。BraTS 2021用于脑胶质瘤分割,包含T1、T1ce、T2和FLAIR四种MRI序列;MS-CMRSeg用于心脏MRI分割,包含bSSFP和LGE序列;内部TBI CT-FLAIR队列用于创伤性脑损伤病灶分割,包含非增强CT和FLAIR MRI;头颈CT-PET数据用于肿瘤、淋巴结或危及器官等结构分割。比较方法包括早期融合3D U-Net、Probabilistic U-Net、5模型Deep Ensemble、DEviS和MedSegDiff。评价指标覆盖分割准确性和不确定性质量:Dice越高越好,HD95越低越好;ECE衡量置信度校准,越低越好;AUROC-Error衡量不确定性能否定位错误区域,越高越好;NLL衡量概率预测质量,越低越好。模型以PyTorch实现,使用NVIDIA A100 GPU训练,扩散步数T为1000,推理时通常使用K等于8个扩散样本估计不确定性。
实验结果
整体结果显示,D-GUMM-DS在四个数据集上均取得最佳或最优水平的分割与不确定性表现。在BraTS 2021上,D-GUMM-DS的DSC为0.892,HD95为9.8,ECE为0.061,AUROC-Error为0.890,NLL为0.180,明显优于MedSegDiff、Deep Ensemble和Probabilistic U-Net。在MS-CMRSeg上,其DSC达到0.910,ECE降至0.055,AUROC-Error达到0.905,说明在心脏多序列MRI上也能保持较高精度和良好校准。在内部TBI CT-FLAIR和头颈CT-PET任务中,模型同样优于所有基线,尤其在跨模态差异较明显的场景中,冲突感知融合带来较大收益。消融实验进一步说明各模块的作用:去掉Dconflict会降低Dice并显著恶化ECE和AUROC-Error,说明显式建模模态冲突对不确定性很重要;去掉解耦机制、改用简单融合会带来最大性能下降,说明共享、特异和冲突信息的结构化分解是核心贡献;去掉冲突引导采样对Dice影响较小,但会让ECE和AUROC-Error略变差;去掉学习式置信度校准几乎不影响分割重叠,却明显增大ECE,说明校准损失主要改善置信度可信度。运行时间方面,D-GUMM-DS推理单个BraTS 3D扫描约1.3秒,训练成本约为单个U-Net的2.1倍,高于单一U-Net,但与Deep Ensemble和MedSegDiff等强不确定性基线处于可比范围。
定性分析
定性结果展示了D-GUMM-DS不确定性图和解耦特征的可解释性。在BraTS示例中,D-GUMM-DS的不确定性主要集中在肿瘤边界、坏死核心周围以及水肿和肿瘤组织难以区分的区域,与真实分割困难和潜在错误区域高度一致。与MedSegDiff、DEviS、Deep Ensemble和Probabilistic U-Net相比,其不确定性图更锐利、更局部化,更能指示需要医生复核的关键区域。D-UACMF产生的冲突图进一步显示了不同模态证据不一致的位置,例如T1ce边界清晰但FLAIR模糊的区域。图3和图4中的解耦表示说明,共享特征通常集中于稳定的肿瘤核心,冲突特征呈环状分布在边界附近,而模态特异图则分别强调不同影像序列独有的病灶子区域,例如T1ce突出强化核心,T2和FLAIR更关注水肿区域。这些观察支持作者的观点:模型并非只生成黑箱置信度,而是在一定程度上把多模态证据来源组织成可解释的结构。
Discussion讨论
05
讨论部分强调,D-GUMM-DS的价值不仅在于更高的分割精度,也在于能提供校准良好、局部化且与临床歧义相关的不确定性图。D-UACMF是框架的关键,通过解耦共享、特异和冲突信息提升融合质量;Dconflict使模型能够直接定位模态间分歧;冲突引导采样帮助在高歧义区域更充分地暴露预测方差;置信度校准使数值置信度更接近真实正确率。论文也承认若干局限:扩散模型的迭代采样带来计算开销,严格实时部署仍需DDIM、DPM-Solver或蒸馏等加速方法;当前解耦约束基于展平特征的全局协方差,约束较弱,不保证严格语义独立;冲突引导采样使用逐体积归一化,可能在极其干净的扫描中放大微弱冲突;模型泛化仍依赖训练数据覆盖的病理、设备和协议范围;当模态数极多时,D-UACMF的复杂度和冗余控制也需要重新设计。结论认为,D-GUMM-DS为多模态医学分割中的可信AI提供了一个有前景的生成式框架,未来可扩展到快速推理、少样本或半监督学习,以及多模态疾病预测和异常检测等任务。
Figure图
06

图1.
该图展示了方法的主流程:每个影像模态先经过独立编码器得到特征,D-UACMF模块再把这些特征分解为共享表示、模态特异表示和跨模态冲突表示。随后Recompose模块将这些表示融合为单个条件张量Fcond,并在3D条件扩散U-Net的多层去噪过程中作为条件输入。最终模型通过多次扩散采样生成分割样本集合,从样本分歧中得到不确定性图,并输出最终分割。该图是理解本文核心创新的关键:不确定性不是后处理,而是通过冲突感知融合和生成式采样内嵌在分割流程中。

图2.
该图比较了D-GUMM-DS与MedSegDiff、DEviS、Deep Ensemble和Probabilistic U-Net等方法在BraTS病例上的不确定性图。D-GUMM-DS的冲突图能突出多模态证据分歧区域,而其预测熵不确定性图更集中在肿瘤边界和疑难区域,相比其他方法更清晰、更局部化。图中结果支持论文的主张:D-GUMM-DS生成的不确定性更接近真实错误和临床模糊区域,因此更适合用于指导医生复核。

图3.
该图展示一个BraTS病例中共享特征、冲突特征和各模态特异特征的空间分布。共享图主要聚焦在肿瘤核心,说明模型捕捉到跨模态一致证据;冲突图在肿瘤边界形成高响应环,说明模型识别到边界区域的模态不一致和分割歧义;不同模态的unique图强调不同子区域,例如T1ce更关注强化边缘或热点,FLAIR更关注周围高信号区域。这说明D-UACMF学到的分解具有一定语义可解释性。

图4.
该图用第二个病例进一步验证解耦表示的稳定性。共享图仍集中于病灶内部,冲突图沿肿瘤边界呈环状高响应,T1ce特异图偏向强化核心,T2和FLAIR特异图更突出水肿相关区域。与图3一致,这表明模型在不同病例中都能把稳定证据、边界冲突和模态独有信息分离出来,从而提升分割和不确定性解释。