2026.3.30
本文提出了AMA-SAM框架,通过引入条件梯度反转层实现多域对齐,并设计高分辨率解码器克服SAM的低分辨率限制,从而有效利用异构辅助数据集,显著提升了高分辨率组织学图像中细胞核分割的精度和鲁棒性。
Title题目
01
AMA-SAM: Adversarial multi-Domain alignment of segment anything model for high-Fidelity histology nuclei segmentation
AMA-SAM:用于高保真组织学细胞核分割的任意分割模型对抗性多域对齐
文献速递介绍
02
细胞核分割是数字病理学分析中的关键任务,在疾病诊断、组织学研究和个性化医疗中发挥核心作用,细胞核的形态、大小和空间分布为评估组织健康、识别病理改变和预测疾病进展提供了重要信息。尽管深度学习和计算机视觉技术推动了许多基于神经网络的组织学细胞核分割方法的开发,但现有方法通常在单一数据集上训练,容易对特定数据集的特征过拟合。此外,简单地融合多个数据集往往会导致性能进一步下降,因为不同数据集间的成像采集系统、染色方案和组织类型差异引入了显著的域偏移。因此,开发一个鲁棒的组织学细胞核分割模型,能够有效利用多源数据增强目标数据集(主数据集/域)的性能,同时高效利用来自不同来源(辅助域)的补充数据,至今仍是一个重大挑战,尚未有普适的解决方案。任意分割模型(SAM)在通用图像分割方面取得了显著进展,但其在组织学细胞核分割中存在局限性:一是SAM固定的256×256像素输出分辨率,需要通过插值上采样以匹配原始图像的高分辨率,这可能模糊细胞核边界并影响下游分析任务;二是跨数据集训练时,图像特征和注释标准的域差异会持续损害其性能。为应对这些挑战,本文提出了AMA-SAM框架,利用主数据集和辅助数据集的协同训练,实现高保真高分辨率的组织学细胞核分割。其贡献包括:1) 通过条件梯度反转层(CGRL)实现多域对齐,选择性应用梯度反转,将辅助域特征对齐到主域,同时保持主域特征的完整性,从而整合辅助数据集的补充信息,显著提高主数据集的分割性能;2) 设计高分辨率解码器(HR-Decoder),通过冻结SAM的原始解码器、引入额外切片令牌以及多令牌切片生成器和像素集成模块,直接生成高分辨率分割结果,保留精细的分割边界和结构细节;3) 全面验证,在多种数据集和实验场景下,AMA-SAM通过有效整合辅助信息,提升了主数据集的分割性能。
Aastract摘要
03
在组织病理学图像中精确分割细胞核对于众多生物医学研究和临床应用至关重要。然而,现有细胞核分割方法仅考虑单一数据集(即主域),未能利用来自不同来源的补充数据(即辅助域)来减少过拟合并增强性能。尽管整合多个数据集可以缓解过拟合,但通常会加剧由域偏移引起的性能下降。在这项工作中,我们引入了对抗性多域对齐任意分割模型(AMA-SAM),通过两项关键创新扩展了任意分割模型(SAM)以克服这些障碍。首先,我们提出了条件梯度反转层(CGRL),这是一个多域对齐模块,它协调来自不同域的特征以促进域不变表示学习,同时保留主数据集的关键判别特征。其次,我们通过设计高分辨率解码器(HR-Decoder)来解决SAM固有的低分辨率输出问题,该解码器直接生成精细的分割图,以捕捉高分辨率组织学图像中复杂的细胞核边界。重要的是,AMA-SAM被设计用于主目标多域设置,其中用户指定的主数据集通过异构辅助数据集进行优化,同时明确减轻了由域偏移引起的负迁移。我们在几个公开可用数据集上验证了我们的方法,结果表明其在性能上持续且显著优于现有最先进的方法。
Method方法
04
AMA-SAM模型包含三个关键组件:整体设计、条件梯度反转层(CGRL)和高分辨率解码器(HR-Decoder)。在训练过程中,预训练的任意分割模型(SAM)作为基础网络,多源数据集输入编码器。在每个Transformer层集成包含两个MLP层和ReLU激活函数模块以适应特征表示。为对齐主数据集和辅助数据集之间的特征分布并最大程度减少对主域的影响,引入CGRL进行多域对齐。此外,采用自动提示生成模块SPGen,处理对齐后的特征以生成粗略分割图作为提示。最后,设计高分辨率解码器直接生成全分辨率的细胞核分割输出,确保精确描绘边界和精细结构细节。训练期间,所有预训练SAM模型参数被冻结,仅优化新引入模块。在推理阶段,框架仅在主域上运行,输入图像直接生成高质量、高分辨率的细胞核分割结果,无需CGRL及其他域对齐组件。CGRL是主目标多域对齐策略,通过附加域判别器到编码器特征并通过条件梯度反转操作实现。它在正向传播中不改变特征,但在反向传播中选择性地反转来自域分类目标的梯度,仅对辅助样本进行梯度反转,以鼓励编码器学习域不变特征,同时保持主数据集特征空间的稳定和良好保存。HR-Decoder旨在解决SAM的固有分辨率限制。它冻结了原始SAM解码器的参数,并引入了16个新的切片令牌。这些令牌通过多令牌切片生成器和像素集成模块进行处理,其中切片令牌通过自注意力机制与所有其他令牌交互,捕捉全局和局部特征。编码器的输出特征经过上采样和卷积处理,与掩码特征结合,然后分解为16个独立的切片特征。最终,像素集成模块将这16个低分辨率切片重组为单一的高分辨率分割输出(1024×1024)。损失函数包括分割损失、CGRL对抗性损失和自动提示生成损失,通过加权平衡进行优化。所有实验使用PyTorch框架,在NVIDIA 4090 GPU上进行,采用Adam优化器,训练30个epoch,学习率采用与图像数量成反比的指数衰减策略。模型在MoNuSeg、TNBC、CryoNuSeg和cpm17等四个公共数据集上进行评估,涵盖语义分割和实例分割任务,并与多种基线方法(如U-Net、nnU-Net、UN-SAM、PathoSAM、Cellpose-SAM、CellViT等)进行比较。评估指标包括Dice分数、mIoU、F1分数、Hausdorff距离(语义分割)以及聚合Jaccard指数(AJI)、检测质量(DQ)、分割质量(SQ)、全景质量(PQ)(实例分割)。
Discussion讨论
04
本研究提出的AMA-SAM框架旨在实现高精度、高分辨率的组织学细胞核分割,并能灵活整合多个数据源以满足对主数据集高分辨率、精细分割的需求。该框架引入了条件梯度反转层(CGRL),有效实现了多域对齐,增强了辅助数据集特征与主数据集特征的对齐,同时保持了主域特征的完整性。此外,HR-Decoder通过集成多个切片令牌并结合多令牌切片生成器和特征非集成模块到SAM解码器中,显著提升了最终分割输出的分辨率和边缘细节质量。与在单一数据集上训练的传统方法相比,AMA-SAM在主数据集上表现出显著改善的分割性能,并增强了对细胞核结构精细解析的能力,为数字病理学的实际应用提供了强大的技术支持。尽管AMA-SAM通过有效对齐辅助数据集在主数据集上取得了强大的分割性能,但当前的训练策略仍有进一步改进的空间。首先,AMA-SAM需要定义一个主数据集,并利用辅助数据集来增强特定主数据集的性能。这意味着当引入新的主数据集时需要重新训练。尽管AMA-SAM训练相对较快(在单个NVIDIA 4090 GPU上约45分钟),但开发一个适用于所有数据集(包括主数据集和辅助数据集)的单一模型是更理想的。未来的工作可以考虑集成数据协调技术,将所有数据集对齐到统一分布后再输入AMA-SAM,这可能在不需要预定义主数据集的情况下提高所有数据集的性能。其次,在优化Transformer编码器时,我们主要采用了冻结骨干网络中大部分层并集成轻量级结构进行微调的策略。这种方法虽然表现出高效和稳定的训练性能,但最近的研究表明,SAM的适配器微调在不同任务和设置中不一定能持续带来改进,而对SAM编码器进行全面微调在某些情况下可能更有利。因此,除了参数效率方法之外,在我们的多数据集设置下系统地研究全面微调是未来工作的一个重要方向。此外,理论上,通过增强特定于微调的模块结构或采用更灵活的Transformer编码器调整方法,如实施低秩适应(LoRA)和视觉提示微调(VPT)等微调技术,可能会进一步挖掘模型的潜力。未来的工作还包括系统评估这些高级微调策略,并研究不同程度和模式的层解冻,以期在最小化参数修改的同时提高分割性能和适应性。
Conclusion结论
05
本文提出了一种名为AMA-SAM的新型多数据集训练框架,用于组织学细胞核分割,有效解决了高分辨率成像和多域数据整合的挑战。我们的方法建立在两项关键创新之上。首先,我们引入了条件梯度反转层(CGRL),它将辅助数据集的特征分布与主数据集的特征分布对齐。这种有针对性的对齐减轻了域差异,同时保留了主数据的内在特征,从而使模型能够利用多样化的训练信息来提高其性能。其次,我们开发了高分辨率解码器(HR-Decoder),通过冻结原始任意分割模型(SAM)的解码器并集成16个额外的切片令牌来增强它。这些令牌通过多令牌切片生成器和像素集成模块进行处理,直接生成分辨率为1024×1024的分割输出,有效消除了上采样伪影并增强了核边界的清晰度。大量的实验和消融研究证实,我们的框架显著提高了分割精度,特别是在跨多个数据集保留精细细节和核形态方面,从而使其成为生物医学应用中高分辨率细胞核分割的鲁棒解决方案。
Results结果
06
图2展示了不同方法在MoNuSeg和TNBC数据集上的细胞核分割结果的定性比较。对于MoNuSeg中的肝脏组织样本,UNet在所有可用数据集上训练时表现出显著的分割错误,出现大量假阳性分割和模糊的边界,Dice分数为0.6648。UN-SAM有所改善,但小细胞核精度较低。相比之下,AMA-SAM进一步优化了分割,达到了0.8461的最高Dice分数。在MoNuSeg的肺组织样本和TNBC的乳腺癌样本中也观察到类似模式,AMA-SAM始终提供更精确的边界描绘和更少的错误分割。表1提供了语义分割和实例分割的定量比较结果。在语义分割任务中,当MoNuSeg作为主数据集时,传统方法nnU-Net在单数据集训练下Dice为81.09%,而UN-SAM为84.17%。然而,当整合辅助数据集时,传统方法和UN-SAM的性能均有所下降,而AMA-SAM则从辅助数据中受益,MoNuSeg上的Dice从84.51%提高到85.12%,TNBC上从86.36%提高到87.10%。这表明AMA-SAM的定向多域对齐策略有效利用了辅助数据,提升了主数据集的分割精度。在实例分割任务中,类似趋势也得到了验证。在MoNuSeg上,UN-SAM的AJI从50.59下降到49.13,而AMA-SAM的AJI在单数据集训练下为51.23,在包含辅助数据后进一步提高到52.24。这证实了AMA-SAM通过有效整合多源数据和缓解域差异,提高了主数据集的分割精度。消融研究进一步证实了各组件的有效性。表2显示,多域对齐策略对MoNuSeg数据集的性能影响显著。与仅使用主数据集训练的基线(Dice 84.51%)相比,简单添加辅助数据而不进行对齐会导致性能下降(Dice 83.77%)。标准GRL略有改善(Dice 84.63%),而所提出的CGRL方法则带来了最大的性能提升(Dice 85.12%),这表明CGRL能有效利用辅助数据集并精炼主数据集的特征表示。表3展示了HR-Decoder的有效性。与原始SAM解码器(Dice 84.62%)相比,HR-Decoder将Dice分数提高到85.12%,并在mIoU、F1和HD上均有改善,这归因于HR-Decoder通过引入16个专业切片令牌捕捉局部图像细节的能力。表4通过增加辅助数据集数量的实验进一步证明,每个辅助数据集都提供了补充信息,逐步提升了AMA-SAM在MoNuSeg上的性能,最终在包含所有三个辅助数据集时达到最高性能,表明多域对齐策略在缓解域差异和利用多样化数据源方面的有效性。
Figure图
07

图1.AMA-SAM及其关键组件的训练和推理流程图。我们的AMA-SAM是第一个可以利用具有不同域分布的辅助数据集来增强主数据集上细胞核分割性能的模型。

图2.U-Net(第3列)、UN-SAM(第4列)和AMA-SAM(第5列)在MoNuSeg和TNBC数据集上的细胞核分割结果可视化比较。右侧报告了相应的分割误差,并给出了预测结果与人工标注(第2列)之间的Dice分数。