2025.12.17
这篇文章发表于《Medical Image Analysis》期刊(2026 年第 108 卷),由电子科技大学、上海人工智能实验室等机构学者撰写,聚焦医学图像分割中的单图像持续测试时自适应问题。
Title题目
01
SicTTA: Single image continual test time adaptation for medical image segmentation
SicTTA:医学图像分割的单图像持续测试时间适应
文献速递介绍
02
深度学习模型在医学图像分割领域取得了显著进展,但在真实世界应用中,由于成像技术、医疗中心和扫描仪类型等差异,模型性能常因域偏移而下降。无监督域适应(UDA)旨在通过对齐不同域的数据分布来解决此问题,但这通常需要访问源数据或对大量目标域数据进行训练,在数据隐私受限或需要实时推理的临床场景中不切实际。源无关域适应(SFDA)虽无需源数据,但通常仍需在大量目标域数据上进行多轮训练。测试时间适应(TTA)作为一种新兴解决方案,允许模型在无需修改训练过程或访问源数据的情况下,直接适应新的测试数据分布。然而,现有TTA方法面临两大主要限制:1)需要相对较大的测试批次;2)假设目标域分布是静态的。在实时诊断等临床环境中,需要处理单个图像且数据分布持续变化。基于反向传播的TTA方法常因伪标签不可靠导致错误累积和灾难性遗忘,而非反向传播方法则因特征分布调整能力有限而效果不佳。本文旨在解决单图像持续测试时间适应(SICTTA)这一具有挑战性的场景。研究观察到源模型对目标域测试图像的适应性存在显著差异,部分图像(称之为源友好目标,SFT图像)的预测效果较好,其特征空间接近源域的边界情况,可作为适应其他测试图像的中间参考。基于此,本文提出SicTTA,通过类别紧凑密度(CCD)准则筛选SFT图像,构建SFT图像和特征池。这些池被非SFT图像查询,以创建源对齐增强批次,从而提高批归一化统计的鲁棒性,并通过相似性驱动的特征融合进一步对齐特征。该方法无需反向传播更新模型参数,有效防止灾难性遗忘,提升实时推理效率,并兼容任何编解码器网络架构。
Aastract摘要
02
测试时间适应(TTA)通过在测试阶段适应未见领域来增强模型的鲁棒性。然而,现有TTA方法常依赖大批量数据或伪标签生成,这在临床环境中数据受限且分布持续变化的场景下不切实际。此外,伪标签可能无法与源域分布对齐,导致结果不可靠。为解决这些挑战,本文提出SicTTA,一种用于医学图像分割的单图像持续测试时间适应新方法。SicTTA引入类别紧凑密度(CCD)分析来评估不确定性并选择与源模型知识紧密对齐的源友好目标(SFT)图像。该方法维护一个SFT图像和特征池,采用先进先出策略管理大小限制。对于非SFT图像,源对齐批次增强(SABE)根据潜在特征相似性选择前K个图像,形成增强批次以改善统计归一化。此外,相似性驱动特征融合(SFF)将测试图像与增强批次的分布对齐,从而保留关键特征。SicTTA在眼底图像和心脏结构分割任务中优于七种最先进的TTA方法,在连续目标域上,相较于源模型,Dice分数分别提高了8.22和8.15个百分点。
Method方法
03
本文提出的SicTTA方法包含三个核心组件,旨在实现单图像持续测试时间适应。首先是“类别紧凑密度(CCD)”方法,用于高效筛选“源友好目标(SFT)”图像。CCD通过计算源模型对测试图像的预测概率(softmax输出)的类间相似性矩阵的熵来评估分割质量。较低的CCD值表示更高的类紧凑性和较低的分割不确定性,从而指示更好的分割质量。CCD的优势在于其能够捕捉语义信息,对不平衡类别更鲁棒,且仅需单次前向传播,计算高效。SFT图像及其特征和CCD值被维护在一个固定长度的池(队列)中,采用先进先出(FIFO)策略进行更新,以适应动态域分布并控制内存消耗。其次是“源对齐批次增强(SABE)”策略。对于每个新的非SFT测试图像,其特征被用作查询,从SFT特征池中选择与其余弦相似度最高的前K个SFT图像的特征。这些SFT图像与当前测试图像共同构成一个“增强批次”。然后,利用这个增强批次来计算更稳定和具有代表性的归一化统计量(均值和方差),替代单图像归一化带来的不稳定性,从而提供更可靠的批归一化参数。最后是“相似性驱动特征融合(SFF)”策略。SFF旨在通过动态融合测试图像特征与最相似的K个SFT特征来弥合领域差距。融合权重基于余弦相似度并采用指数加权函数,确保高相似度的SFT特征对融合结果贡献更大。融合后的特征会替换增强批次中的相应特征,并结合新的增强批次统计量,通过预测解码器生成最终的分割结果。这种非参数化的特征融合方式能够自适应地调整测试图像特征,使其更好地与SFT图像对齐,从而提高泛化能力和分割精度。
Discussion讨论
04
SFT图像分析通过T-SNE可视化表明,SFT图像的特征更接近源图像特征的边界,而非SFT图像特征则更远离,这支持了SFT图像可作为源域与目标域之间桥梁的直觉。经过SicTTA适应后,非SFT图像的特征与SFT图像更好地对齐,证实了特征融合对弥合域差距的有效性。类别紧凑密度(CCD)作为SFT图像筛选指标,其与真实Dice分数之间具有0.9506的高皮尔逊相关系数,远高于熵指标的0.0894,表明CCD能够准确评估分割质量并有效筛选高品质SFT图像。此外,CCD在UNet加入高斯噪声和SegFormer等不同骨干网络下均表现出鲁棒性和通用性。关于抗遗忘能力,SicTTA在多轮循环测试(B→C→D→B→C→D)和随机打乱域顺序的设置下,性能均保持稳定,没有出现显著下降,并且持续优于CoTTA等方法,证明了其强大的抗灾难性遗忘能力。在计算效率方面,SicTTA的单图像适应时间为0.063秒(眼底数据集),远快于CoTTA和InTEnt,虽然略慢于PTBN,但性能更高。GPU内存占用也相对高效。本工作主要针对中等程度的域偏移场景,如不同扫描仪厂商、采集协议或患者群体的差异,在此类情况下源模型性能虽下降但不完全失效,能够成功进行适应,且无需目标域标注或源域访问。然而,该框架目前主要针对基于CNN的分割架构设计,对于Transformer模型(如SegFormer),由于其LayerNorm特性和基于Token的表示,SABE和SFF的直接应用存在挑战。未来工作将探索扩展到基于Transformer的架构,开发兼容LayerNorm的注意力引导融合策略和归一化方案,并增强处理更严重域偏移的能力。
Conclusion结论
05
本文提出了一种名为SicTTA的单图像持续测试时间适应方法,专门针对医学图像分割中单测试图像持续分布变化的挑战。SicTTA首先开发了类别紧凑密度(CCD)过滤技术,以在测试期间识别源友好目标(SFT)图像。随后,建立并维护一个SFT图像和特征池,采用先进先出策略管理有限的池大小。针对当前测试图像,从SFT池中选取K个最相似的图像,与测试图像共同形成增强批次以进行更全面的归一化。此外,提出了一种相似性驱动特征融合(SFF)方法,该方法通过融合特征来使当前测试图像与领域特征对齐,同时保留其关键信息。在两个多领域数据集上的实验证明,SicTTA在性能上优于七种现有TTA领先技术。SicTTA还展现出对灾难性遗忘的强大抵抗力,同时在适应时间和GPU内存使用方面保持高效率,使其成为实时医学图像分割任务的高度实用解决方案。
Results结果
06
SicTTA在多域眼底图像分割和心脏结构分割任务中表现出卓越性能。在眼底数据集上,SicTTA的Dice分数达到80.24%,平均对称表面距离(ASSD)降至5.01mm,相较于源模型Dice分数提升了8.22个百分点,ASSD显著降低。与PTBN、TENT、MT、CoTTA、SAR、InTEnt和VPTTA等七种最先进的TTA方法相比,SicTTA在单图像持续TTA场景下表现显著优越。即使其他方法采用10的批次大小,其性能仍未能达到SicTTA单图像适应的水平。定性评估显示,SicTTA在眼底图像上实现了更准确的分割,有效避免了欠分割或过分割。在M&MS心脏分割数据集上,面对B、C、D域的顺序测试,基于反向传播的TTA方法(如TENT、MT、CoTTA)在域偏移下性能显著下降,甚至劣于源模型。而SicTTA的平均Dice分数达到77.88%,ASSD降至3.13mm,显著优于源模型和所有现有方法。消融研究证实了SicTTA中SABE和SFF每个组件的有效性,例如,单独引入SABE可使Dice分数从71.24%提高到73.62%,SFF也能将结果提升至72.92%,且本文提出的相似性融合方法优于简单平均或卷积融合。队列更新策略的比较显示,FIFO与无更新、随机删除、域重置等策略取得了相似的Dice分数(77.85%至77.88%),但FIFO在保持性能的同时,大幅提高了效率(处理单张图像时间从1.318s降至0.060s)。超参数敏感性分析表明,当池长度L大于10时,模型性能保持稳定;K=5在统计对齐、分割精度和计算效率之间达到最佳平衡;α=10在SFT图像质量和数量之间提供了最佳折衷。这些结果共同证明了SicTTA在复杂域偏移环境下的有效性、鲁棒性和效率。
Figure图
07

图1.单图像和时变数据分布的挑战。(a) 基于反向传播方法的局限性示意图。(b) 批次大小对TTA性能的影响,使用M&Ms数据集。© 在持续测试时间适应下,M&Ms数据集在域序列(B→C→D→B→C→D)上的抗遗忘性能,每次都从先前适应的模型继续。(d) 源模型在目标图像上的性能显示出显著差异。一小部分目标图像的直方图与源域和主要目标域的直方图相似,其特征空间位于真实源空间边界。

图2.SicTTA概览。对于每个测试图像,我们使用源模型的预测和类别紧凑密度(CCD)来识别源友好目标(SFT)图像,然后应用源对齐批次增强(SABE)和相似性驱动特征融合(SFF)进行最终预测。

图3.不同单图像TTA方法在眼底数据集(目标域C)上的性能演变比较。后期阶段的值对每20张图像进行了平均以进行平滑处理。

图4.SicTTA超参数在M&MS数据集Domain B上的敏感性分析。(a) 显示池长度L变化的影响。(b) 比较不同K值下的批次统计偏差(MAE)与源以及Dice分数。© 说明CCD阈值α的影响,其中较低的α值产生更高质量(和更少数量)的SFT图像。α=100对应于将所有样本视为SFT而不进行选择。

图5.SicTTA超参数在M&MS数据集Domain B上的敏感性分析。(a) 显示池长度L变化的影响。(b) 比较不同K值下的批次统计偏差(MAE)与源以及Dice分数。© 说明CCD阈值α的影响,其中较低的α值产生更高质量(和更少数量)的SFT图像。α=100对应于将所有样本视为SFT而不进行选择。

图6.SFT图像分析。(a) 源图像、SFT图像和非SFT图像特征的T-SNE可视化;(b) 应用SicTTA方法后目标图像的特征;© CCD与基于熵的预测质量估计和Dice分数之间的相关性分析。点通过每20个点平均进行平滑处理以减少噪声,r表示度量与Dice分数之间的皮尔逊相关系数。所有实验均在M&MS数据集的Domain B上进行。

图7.SicTTA上的抗遗忘性能。(a) 目标域的多轮顺序测试,模拟持续暴露于相同域。(b) “打乱目标域”设置,其中多个目标域合并为单个集合,并在每轮中随机打乱其顺序,因此相邻测试图像可能来自不同的域。