通过渐进式解耦感知对比学习进行多模态医学内镜图像分析-文献速递/多模态医学影像最新进展

Oldlee

2026.6.12

本文提出面向WLI与NBI双模态内镜图像的对齐、解耦、融合框架，用渐进式解耦感知对比学习提升喉咽肿瘤分割精度与泛化能力。

Title题目

通过渐进式解耦感知对比学习进行多模态医学内镜图像分析

Multimodal medical endoscopic image analysis via progressive disentangle-aware contrastive learning

文献速递介绍

论文从喉癌及喉咽部肿瘤的临床负担出发，强调肿瘤区域精确勾画对于区分病变组织与健康组织、优化放疗剂量和治疗方案的重要性。内镜成像具有高清晰度和真实色彩，是腔道肿瘤早筛的重要手段，其中WLI能够提供组织纹理、颜色和边界等宏观形态信息，NBI则利用血红蛋白对特定窄带光的吸收增强浅表血管结构，更适合观察早期肿瘤相关的微血管变化。问题在于，WLI对早期血管变化不够敏感，NBI又容易受噪声和低对比度影响且结构上下文不足，因此单模态方法很难在复杂临床场景下保持高精度和鲁棒性。作者指出，现有多模态医学分割研究多集中于MRI、CT、PET等3D场景，将3D融合模块强行迁移到2D内镜图像可能引入虚假的深度关系；而许多2D图像融合方法又主要做像素级融合，并非围绕分割目标优化，容易产生冗余或丢失关键判别信息。基于此，本文提出专门面向2D多模态医学内镜分割的框架，通过浅层分布对齐、高层共享与特有特征渐进解耦，以及任务导向的语义融合提升分割表现。

相关工作

相关工作首先回顾了医学图像分割的发展脉络，包括U-Net及其变体、CNN增强模块、基于Transformer的UNETR和TransUNet、CNN–Transformer混合架构、Mamba状态空间模型以及视觉语言模型在医学图像中的应用。对于头颈部肿瘤分割，已有研究多关注CT或PET/CT，或是单模态内镜图像，而较少显式利用WLI与NBI之间互补的视觉线索。其次，论文讨论多模态医学图像分析，指出早期方法常采用简单拼接，后续3D多模态方法虽引入专家混合、证据融合和不确定性建模，但直接用于2D内镜图像会造成不必要的计算复杂度和伪深度相关。已有2D多模态图像融合方法如SwinFusion、MACTFusion能生成融合图像，但其融合过程通常与下游分割任务分离，无法确保保留分割所需的判别信息。最后，论文梳理解耦表征学习在医学图像中的应用，包括解耦解剖结构、模态特征、频率成分或域特征等，并指出多数方法依赖较严格的跨模态对齐假设；本文则采用由分布对齐、初步解耦到解耦感知对比学习的阶段式策略，应对模态差异和轻微错位问题。

Aastract摘要

喉咽部肿瘤的精确分割对于早期诊断、治疗规划和减少正常组织损伤具有重要意义，但单一内镜模态难以同时刻画组织形态和微血管病变信息。本文面向2D白光内镜图像WLI与窄带成像NBI配对数据，提出一个基于Align–Disentangle–Fusion机制的多模态分割框架。方法首先在浅层编码特征上进行多尺度分布对齐，以缓解两种模态在光谱、照明和采集条件上的统计差异；随后通过初步解耦和解耦感知对比学习，将高层特征分为跨模态共享成分与模态特有成分。最终模型融合共享与特有表征并进行病灶预测，在三个真实临床内镜数据集以及跨数据集泛化评估中均优于多种先进多模态分割方法。

Method方法

本文方法整体是一个编码器–解码器式的多模态2D内镜分割框架，核心思想是Align–Disentangle–Fusion。首先，在多模态分布对齐阶段，模型从WLI和NBI两个编码器的多个浅层阶段提取特征，并沿通道维拼接得到多尺度表示。作者认为浅层特征更集中反映统计分布差异，因此使用全局平均池化捕捉整体激活分布，同时引入基于token重要性的加权聚合突出语义相关区域，两者相加形成全局表征。随后通过多核Maximum Mean Discrepancy损失对WLI和NBI的全局特征分布进行对齐，以减少由光谱、照明和采集条件带来的模态偏差。其次，在多模态特征解耦阶段，模型用轻量两层MLP投影头分别从每个模态中得到共享特征和模态特有特征。初步解耦通过三类几何约束完成：跨模态共享特征应尽可能相似，WLI与NBI的特有特征应尽可能不同，同一模态内共享与特有特征应近似正交。进一步地，作者提出Disentangle-aware Contrastive Learning，将同一样本的WLI共享特征与NBI共享特征作为正样本对，将模态特有特征和无关共享特征作为负样本，从而强化共享空间的紧凑性和共享/特有空间的分离性。最后，在融合阶段，模型先拼接并映射两种模态的共享特征形成统一共享表征，再与WLI特有特征和NBI特有特征经过非线性变换后相加，得到融合特征并送入分割解码器生成病灶掩膜。训练目标由分布对齐损失、特征解耦损失、交叉熵损失和Dice损失组成；其中分割损失保持较大且固定权重，分布对齐作为小权重辅助项，解耦损失采用渐进式权重，避免训练早期过强解耦破坏稳定的空间结构和共享语义形成。

实验

实验在三个来自中山大学附属医院的真实临床多模态内镜数据集上进行，均包含配对的WLI与NBI喉咽部图像。Dataset-I包含2209对图像，其中1808对训练、401对测试；Dataset-II包含333对，其中266对训练、67对测试；Dataset-III包含81对，其中64对训练、17对测试。数据按患者级划分，避免同一患者同时出现在训练集和测试集中。评价指标包括IoU、Dice、Sensitivity、G-mean、HD95以及基于Dice的显著性检验。实现方面，模型使用PyTorch，在单张48GB NVIDIA RTX 8000 GPU上训练，采用TransUNet作为骨干编码器，输入尺寸为224×224，Adam优化器学习率为0.001，batch size为24。与TransUNet单模态基线和ShapeConv、MTF、CMFNet、RS3Mamba、FTransUNet、DFormer、SerpMamba等多模态方法相比，本文方法在三个数据集上均取得最优或最有竞争力的结果。在Dataset-I上，本文方法达到IoU 0.6476和Dice 0.7575，超过最强基线MTF的IoU 0.6354和Dice 0.7448；在Dataset-II上达到IoU 0.8107和Dice 0.8827，并将HD95降至6.44；在Dataset-III上达到IoU 0.6404和Dice 0.7381，也取得最低HD95。跨数据集泛化实验采用留一数据集测试方案，模型在两个数据集训练、另一个未见数据集测试，本文方法在Dataset-I、Dataset-II和Dataset-III作为未见测试集时分别获得Dice 0.6885、0.7058和0.7556，均优于对比方法，说明解耦式多模态表征具有更好的域迁移能力。消融实验表明，单独加入分布对齐可明显提升IoU和Dice；进一步加入初步解耦后，共享与特有特征开始形成更清晰的空间分离；加入DACL后共享特征聚类更紧凑、与特有特征间隔更大；最终配合渐进训练策略取得最佳结果。超参数分析显示，α、β、γ取三分之一且δ取0.01时能较好平衡解耦约束和分割性能，分布对齐权重λ1取0.0001、交叉熵和Dice权重均取0.5时效果较优。

Conclusion结论

论文提出了一种面向2D医学内镜图像分析的多模态学习框架，通过整合WLI和NBI提升喉咽部病灶分割。其关键在于将多尺度分布对齐、渐进式特征解耦和解耦感知对比学习纳入统一训练过程，从而同时缓解模态分布差异、分离共享与特有语义，并实现更有效的任务导向融合。大量实验表明，该方法在多个临床数据集、可视化结果、消融实验和跨数据集泛化场景中都表现出较强的准确性和稳定性。作者未来计划引入视觉语言模型提供高层语义指导，并探索动态或难度感知的对比学习策略，使训练过程能根据样本和任务难度自适应调整。

Figure图

图1.该图比较了2D图像融合方法MACTFusion、3D医学分割方法MicFormer以及本文方法在多模态2D医学图像分割任务上的IoU和Dice。结果显示，前两类方法的IoU均约为0.36，Dice约为0.48至0.49，而本文方法达到约0.64的IoU和约0.74的Dice，说明简单套用2D像素融合或3D分割模块并不能充分建模WLI与NBI在2D内镜分割中的跨模态关系，本文专门设计的对齐、解耦、融合策略更适合该任务。

图2.该图展示了本文方法的完整流程。左侧输入配对的WLI与NBI图像，首先经过两个编码分支并在浅层阶段通过多模态分布对齐模块计算L_DA，以减少模态统计差异；中间部分将高层特征分别送入共享编码器和特有编码器，得到WLI共享、WLI特有、NBI共享和NBI特有特征，并用对齐、差异、正交和DACL损失约束其几何关系；右侧将共享特征拼接并与各自模态特有特征融合，最终经分割解码器输出病灶掩膜。该图清晰体现了论文的核心机制：先对齐，再解耦，最后融合。

图3.该图用向量夹角说明初步解耦阶段的三类相似性目标。跨模态共享特征Z_w,s与Z_n,s应方向接近，即夹角趋近0度；同一模态内共享特征与特有特征应近似正交，即夹角趋近90度；WLI与NBI的特有特征Z_w,p与Z_n,p应尽量相反或低相关，即夹角趋近180度。这个几何解释使特征解耦目标更直观，也说明模型如何显式区分共同病灶语义与模态独有线索。

图4.该图展示了多组WLI和NBI输入及不同方法的分割结果，橙色曲线为专家标注轮廓。对比FTransUNet、CMFNet、ShapeConv、MTF、RS3Mamba和DFormer，本文方法在小病灶、边界不规则区域和复杂背景下更接近真实轮廓，减少了漏分和误分。该图从定性角度验证了本文方法不仅提高区域重叠指标，也改善了临床上重要的边界定位质量。

图5：该图比较了Vanilla基线、仅加入DA、加入DA加PD以及完整方法的可视化结果。随着模块逐步加入，预测区域逐渐贴近橙色真实轮廓，尤其在病灶边缘、狭长结构和噪声干扰区域中，完整模型能够更好保留病灶形状并减少多余区域。该图说明分布对齐、初步解耦和解耦感知对比学习具有递进式互补作用。

图6：该图用t-SNE展示基线、加入DA、加入DA与PD、加入DA与PD与DACL后的特征空间变化。基线下特征簇较分散且共享与特有成分混杂；DA使跨模态分布更紧凑；PD开始拉近共享特征并分离模态特有特征；DACL进一步形成更统一的共享表征，并扩大共享与特有特征之间的边界。该图为方法的表征学习机制提供了直观证据，解释了为什么完整模型能获得更好的分割和泛化性能。