基于渐进解耦对比学习的多模态医用内窥镜图像分析/文献速递-多模态应用技术

Oldlee

2026.3.31

该研究提出了一种创新的基于对齐-解耦-融合机制的多模态学习框架，通过多尺度分布对齐、渐进特征解耦和解耦感知对比学习，有效整合白光和窄带内窥镜图像，显著提升了咽喉肿瘤分割的准确性和跨数据集泛化能力，为临床精准诊断和治疗规划提供了有力支持。

Title题目

Multimodal medical endoscopic image analysis via progressive disentangle-aware contrastive learning

基于渐进解耦对比学习的多模态医用内窥镜图像分析

文献速递介绍

喉癌是头颈部常见的恶性肿瘤，对公共医疗服务造成巨大负担。准确描绘喉咽肿瘤区域对于区分病理组织和健康组织、减少干预期间的意外损伤以及优化放疗剂量等治疗效果至关重要。内窥镜成像因其高清晰度、分辨率和真实的色彩，成为早期筛查腔内肿瘤的关键技术。白光成像（WLI）提供详细的形态信息，而窄带成像（NBI）通过增强浅表血管结构来提高早期肿瘤病变血管变化的可见性。然而，单一模态成像往往无法捕捉肿瘤的完整特征。多模态学习通过结合WLI的宏观结构背景和NBI的微血管精确性，有望实现对肿瘤特征更全面的理解。现有研究主要集中在3D图像或2D图像的像素级融合，未能有效处理2D内窥镜图像分割中复杂的跨模态关系，且简单融合策略难以捕获高阶跨模态关系。本研究提出了一种专为喉咽肿瘤识别量身定制的2D多模态医学图像分割框架，通过多尺度分布对齐和渐进式解耦感知多模态对比学习，有效集成WLI和NBI的互补优势，实现鲁棒且临床有效的病灶分割。

Aastract摘要

准确分割喉咽肿瘤对精确诊断和有效治疗规划至关重要。然而，传统的单一模态成像方法往往难以捕捉这些肿瘤复杂的解剖学和病理学特征。本研究提出了一种创新的多模态表征学习框架，其核心是“对齐-解耦-融合”机制，能够无缝整合2D白光成像（WLI）和窄带成像（NBI）对，以提升分割性能。该方法的一个关键在于多尺度分布对齐，通过在多个Transformer层对齐特征来减轻模态差异。此外，开发了一种渐进式特征解耦策略，包括初步解耦和解耦感知对比学习，以有效分离模态特异性特征和共享特征，从而实现鲁棒的多模态对比学习和高效的语义融合。在多个数据集上进行的全面实验表明，本方法在各种真实临床场景中持续超越了现有最新方法，取得了卓越的准确性。源代码已公开发布。

Method方法

本研究基于对齐-解耦-融合策略，设计并提出了一种新颖的编码器-解码器学习框架，用于多模态医用内窥镜图像分割。首先，进行多模态分布对齐，通过多尺度特征提取和全局特征聚合，利用最大均值差异（MMD）损失来弥合特征分布和语义差异，提高跨模态兼容性。其次，为了更有效地利用语义线索，将对齐后的特征进一步解耦为共享子空间和模态特定子空间。这包括一个初步解耦阶段，通过约束共享特征对齐、跨模态特定特征区分以及模态内正交性来建模特征关系。在此基础上，引入解耦感知对比学习（DACL）策略，通过将不同模态的共享特征视为正样本，并将共享特征与模态特定特征视为负样本，进一步强化解耦表示的判别能力。最后，设计了一个两阶段融合过程，首先聚合跨模态共享特征，然后将共享特征和模态特定特征进行融合，形成统一的特征表示，并通过分割解码器预测病灶掩膜。整个框架通过结合分布对齐、特征解耦和分割监督的统一损失函数进行优化，并采用渐进式损失加权策略，以实现稳定的训练和更优的表示学习。

Discussion讨论

本研究通过提出的对齐-解耦-融合机制，有效地解决了多模态内窥镜图像在喉咽肿瘤分割中的挑战。分布对齐模块成功地减轻了WLI和NBI模态间的分布差异和模态特异性偏差，这在浅层特征中尤为重要，因为它确保了更鲁棒的跨模态兼容性。初步特征解耦和解耦感知对比学习策略能够将特征明确地分离为模态共享和模态特定组件，这对于捕获复杂的病理学关联至关重要，并克服了传统像素级或简单融合方法在建模高阶跨模态关系方面的局限性。渐进式损失加权策略的引入是优化多目标学习环境的关键，它平衡了分割、对齐和解耦损失的贡献，避免了梯度冲突和过早过拟合，从而提高了训练的稳定性和最终的分割精度。此外，该方法在跨数据集泛化能力上的显著提升，尤其是在数据稀缺场景下的鲁棒表现，表明其具有强大的临床应用潜力。然而，未来的研究可能需要探索更动态或难度感知的对比学习策略，以进一步优化特征表示。

Conclusion结论

本研究提出了一种新颖的多模态学习框架，通过整合白光成像和窄带成像，用于2D医用内窥镜图像分析。该方法采用多尺度分布对齐和渐进式特征解耦，有效缓解了模态差异，并促进了鲁棒的语义融合。在多个数据集上进行的广泛实验证明了该方法卓越的准确性和泛化能力，凸显了其在推动自动化医学图像分割方面的潜力。未来工作计划将视觉-语言模型引入到多模态分割中，以提供高级语义指导，并探索在训练过程中自适应的动态或难度感知对比学习策略。

Results结果

实验在三个临床多模态内窥镜图像数据集上进行，包含WLI和NBI图像对。评估指标包括IoU、Dice系数、灵敏度（SE）、几何平均（G-mean）和95% Hausdorff距离（HD95）。结果表明，辅助NBI模态的引入显著优于单一WLI模态，证实了NBI提供补充信息的能力。在所有三个数据集的内部评估中，所提出的方法均取得了最佳性能，尤其在较小和更具挑战性的Dataset-II和Dataset-III上，IoU和Dice系数提升更为显著，HD95值更低，表明在数据稀缺条件下，基于解耦的多模态学习框架特别有效。在跨数据集泛化评估中，采用留一数据集出协议，本方法在所有三种评估设置下均表现出最强的泛化能力，Dice分数显著高于竞争方法，尤其是在Dataset-I作为未见测试集时表现出更强的训练稳定性和可迁移表示学习能力。消融研究证实了分布对齐（DA）、初步特征解耦（PD）和解耦感知对比学习（DACL）每个组件的有效性，它们的协同整合显著提高了分割准确性。T-SNE可视化进一步支持了这些发现，展示了各组件如何逐步改善特征分布和解耦。

Figure图

图1. 不同方法（2D融合方法、3D分割方法和我们提出的方法）在多模态2D医学图像分割任务上的性能。

图2. 所提出框架的概述。首先进行分布对齐，以弥合特征分布和语义差异，提高跨模态兼容性。其次，设计多模态特征解耦，显式建模互补和模态独有表示，以实现更有效的特征融合。

图3. 初步解耦学习中各种特征相似性几何属性示意图。

图4. 不同方法的视觉比较。橙色曲线代表真实轮廓。

图5. 消融可视化。橙色曲线代表真实轮廓。