基于SAM的交叉提示与自适应采样一致性用于半监督医学图像分割/文献速递-大模型与图像分割在医疗影像中应用

Oldlee

2026.3.16

本研究提出了CPAC-SAM，一个基于SAM的交叉提示框架，通过原型引导的网格采样和提示一致性正则化，有效利用未标注数据进行SAM微调，显著提升了半监督医学图像分割的性能，尤其在标注数据极度稀缺时表现优异。

Title题目

SAM-driven cross prompting with adaptive sampling consistency for semi-supervised medical image segmentation

基于SAM的交叉提示与自适应采样一致性用于半监督医学图像分割

文献速递介绍

分割是医学图像诊断和治疗规划的关键步骤。深度学习方法在分割任务中表现出色，但需要大量标注数据，这在医学领域成本高昂。半监督学习（SSL）通过利用少量标注数据和大量未标注数据来解决这一挑战。SSL成功的关键在于两点：从有限标注数据中快速学习通用判别信息，以及有效利用未标注数据进行优化。现有SSL方法主要关注后者，而忽略了前者。本文作者关注预训练在海量自然图像上的Segment Anything Model (SAM)，它具有在少量标注数据下快速适应新任务的潜力。之前的SAM医学图像分割方法多为全监督或将SAM作为独立模块，未能充分利用未标注数据。本文旨在将SAM无缝集成到SSL框架中，利用其提示机制，开发从未标注数据中学习的有效策略，提出了CPAC-SAM框架，包含SAM驱动的交叉提示、原型引导网格采样和提示一致性正则化，以实现SAM在半监督训练中的持续优化和更高精度。

Aastract摘要

半监督学习（SSL）在医学图像分割领域取得了显著进展。为实现有效的SSL，模型需要能够高效地从有限标注数据中学习，并有效利用丰富的未标注数据中的知识。视觉基础模型（如Segment Anything Model, SAM）的最新发展已显示出卓越的适应性和更高的样本效率。为将基础模型无缝整合到SSL中，我们提出了CPAC-SAM，一个基于SAM的交叉提示框架，结合自适应采样和提示一致性，用于半监督医学图像分割。我们的方法利用SAM独特的提示设计，在一个双分支框架内创新性地采用交叉提示策略，自动在两个解码器分支间生成提示和监督，从而有效利用少量标注数据和大量未标注数据进行学习。为确保未标注数据提示的质量并提供有意义的监督，我们提出了一种创新的原型引导网格采样策略，具有自适应间隔，以同时提高提示选择区域的可靠性，并确保足够的提示密度和完整的 T目标覆盖。我们进一步设计了一种新颖的提示一致性正则化来降低SAM对提示的敏感性，并增强不同提示下的输出不变性。我们在五个医学图像分割任务（包括2D和3D场景）上验证了该方法。在不同标注数据比例和模态下的广泛实验表明，我们提出的方法优于最先进的SSL方法，例如在乳腺癌和左心房分割任务上，Dice系数分别提高了4.1%和3.8%。我们的代码已开源。

Method方法

本文提出了CPAC-SAM，一个基于SAM驱动的交叉提示框架，结合自适应采样和提示一致性，用于半监督医学图像分割。该方法在SSL管道中直接微调SAM，以促进从有限标注数据中快速学习。基于SAM的可提示特性，开发了一个交叉提示双分支框架来充分利用未标注数据。具体来说，首先利用一个分支的无提示输出通过原型引导网格采样策略为另一个分支生成提示。然后，第二个分支生成的更可靠的提示输出用于指导第一个分支的学习，将SAM的提示机制作为一种自提升的细化步骤。此外，为解决SAM对不同提示敏感性可能带来的负面影响，进一步提出了提示一致性正则化（PCR）以增强在各种提示下的输出不变性。网络设计采用了共享图像编码器和提示编码器，以及两个结构相同但权重初始不同的掩膜解码器，以鼓励输出多样性。

Discussion讨论

本研究强调了SSL方法成功的两个关键：从有限标注数据中快速学习判别信息和有效利用未标注数据进行优化。现有SAM基SSL方法多将SAM作为独立组件，未充分利用未标注数据潜力。本文通过将SAM无缝整合到SSL框架中，提出了一个新颖的交叉提示模块，利用SAM的可提示特性有效利用大量未标注数据。实验证明，带有适当提示的输出比无显式提示的输出更准确。为解决未标注数据伪标签质量问题，引入了原型引导网格采样策略，通过双重检查机制选择更可靠的候选区域，并根据目标面积自适应采样网格点提示。针对SAM对不同提示的敏感性，提出了提示一致性正则化技术，增强了不同提示下输出的一致性。该方法通用性强，可扩展到其他医学特定基础模型或视觉基础模型。未来工作将探索更鲁棒的原型引导策略、更强的L类内异质性以及更先进的原型提取策略，如增加每类原型数量。还将通过记忆库增强多样性和鲁棒性，并采用强化学习自动优化超参数，以实现端到端SSL医学图像分割。此外，计划尝试更广泛的数据增强方法和更先进的微调策略，以进一步提升性能。

Conclusion结论

本文提出了一种交叉提示框架，集成了原型引导网格采样和提示一致性正则化，旨在将SAM无缝应用于半监督医学图像分割。该方法通过有效利用大量未标注数据，在三个数据集上展现出卓越的性能，尤其在标注数据极度稀缺时表现突出。本方法具有通用性，易于扩展到医学特定基础模型及其他视觉基础模型。未来工作将侧重于研究更鲁棒的原型引导策略和更强的数据增强方法，以进一步提升性能。

Figure图

图1. 各种基于SAM的SSL医学图像分割方法的总体比较。第一类方法 (a) 将SAM作为静态独立组件，用于为现成的半监督框架生成未标注图像的伪标签，而第二类方法 (b) 在SSL场景中利用标注数据微调SAM以提高输出质量。相比之下，我们提出的方法 © 通过配备了我们提出的交叉提示、自适应采样和提示一致性的双分支SAM架构，无缝集成到SSL框架中，并利用大量未标注数据对SAM进行进一步优化。

图2. 我们提出的方法的概述。采用原型引导的自适应间隔网格采样策略的交叉提示损失 Lcrossu 和提示一致性正则化损失 Lcu 在未标注数据上对经过改进的双分支SAM进行微调，同时在标注数据上使用监督损失 Lsl。Lcrossu 应用于一个分支使用原型引导网格采样策略生成的带提示输出与另一个分支的无提示输出之间。Lcu 减轻了SAM对不同提示的敏感性。Lsl 利用标注来监督标注数据的带提示和无提示输出。在此框架中，图像编码器使用LoRA进行微调，而提示编码器和掩膜解码器则进行完全微调。

图3. 在BUSI数据集（第1-2行）、ISIC数据集（第3-4行）和ACDC数据集（第5-6行）上分别使用10、5和1个标注数据进行分割的结果。

图4. 未标注图像的视觉示例，说明在ACDC数据集上使用一个标注患者数据进行训练早期（仅200次迭代）时，我们提出的原型引导网格采样策略的流程。第一行和第二行分别显示了我们双分支架构的第一和第二分支的结果，除了第一列。精度定义为正确预测的像素数与预测为给定类别的总像素数之比。

图5. (a) 训练过程中原始输出与原型引导交集之间的平均精度比较。(b) 不使用和使用原型引导交集进行网格采样的DSC结果。

图6. 在ACDC数据集上，使用一个标注患者的设置下，不同超参数的DSC性能。(a) 交叉提示模块系数 Î»1 的DSC性能，以及 (b) PCR系数 Î»2 的DSC性能。