对抗一致性增强的隐式分割场用于弱监督三维心脏图像分割文献速递/基于多模态的医学影像分割与理解

Oldlee

2026.6.23

本文提出ACISF，将三维心脏弱监督分割从体素空间扩展到连续坐标空间，并用对抗一致性和SAM-Med3D标签增强提升稀疏标注下的分割精度。

Title题目

对抗一致性增强的隐式分割场用于弱监督三维心脏图像分割

Adversarial-consistency enhanced implicit segmentation field for weakly supervised 3D cardiac image segmentation

文献速递介绍

论文首先指出三维心脏解剖结构分割对心脏疾病诊断、功能评估和治疗决策具有重要意义，例如左室射血分数和右室形态异常都依赖准确的心腔分割。然而，三维心脏CT通常包含数百张切片，且边界常需多视角确认，体素级密集标注成本很高。弱监督学习，尤其是scribble级标注，能显著降低标注时间，并比图像级或框级标注更适合复杂心脏结构。作者认为三维心脏弱监督分割面临两个关键问题：一是心腔之间灰度分布高度相似，导致类别对比度低；二是scribble标签极其稀疏，模型难以学习可靠的类别边界。针对这些问题，本文提出ACISF，将推理路径从离散像素空间转移到连续坐标空间，通过隐式函数吸收心腔相对拓扑关系，并用自适应对抗一致性缓解标签稀疏带来的过拟合和边界不稳定。

相关工作

相关工作部分围绕三条线索展开。第一，scribble级监督医学图像分割通常通过正则化、伪标签学习或一致性学习来弥补监督不足，但伪标签容易含噪，一致性学习又依赖人工设定的数据增强范围，范围过大可能引入语义错误，范围过小则优化不足。第二，神经场通过连续坐标到信号的映射在三维重建、超分辨率和医学分割中展现出优势，可减少离散体素表示带来的边界细节损失，但既有神经场分割方法往往依赖已标注坐标，面对scribble级稀疏监督时容易过拟合。第三，SAM及其医学扩展SAM-Med3D具备用点或框等稀疏提示生成密集掩膜的能力，但其在复杂三维医学图像中容易因领域差异、器官间低对比和边界模糊产生泄漏或过分割，因而需要与任务特定模型和噪声过滤机制结合。

方法概述与问题定义

在弱监督三维心脏分割设定中，训练样本包含三维图像X和稀疏标注Y，其中只有少量坐标具有类别标签，大量坐标未标注。ACISF的核心是隐式函数Gν，它把三维坐标x映射到隐式表示ψ，再由隐式解码器输出类别概率。与传统卷积网络直接在体素网格上预测不同，ACISF在连续坐标空间中建模类别信息，利用心脏结构在空间中的相对拓扑一致性来辅助识别RV、Myo和LV。训练时，模型先在原始稀疏标注坐标和扩增标签坐标上进行交叉熵监督，再对未标注坐标引入对抗一致性约束，使模型不仅学习已有标签，还能在未标注空间中形成更平滑和更可靠的决策边界。

隐式分割场

隐式分割场ISF负责参数化坐标到分割概率的隐式函数。关键设计是自解码注意力ADA，它不简单使用插值从离散特征图中取值，而是对查询坐标邻域内的八个离散特征点进行语义和空间关系建模。具体而言，ADA输入邻域特征、邻域坐标与查询坐标之间的相对位置以及坐标本身，并使用位置编码捕捉高频空间信号，从而得到每个邻域点的权重和潜在代码，最后加权聚合为查询坐标的连续隐式表示。这一机制使模型在边界处不只依赖几何距离，还能根据邻域点与查询点的语义相似性分配权重，因此比普通插值更适合心肌薄壁和心腔边界等细粒度结构。

基于SAM-Med3D的标签增强

为避免隐式函数只在少量scribble坐标上训练而判别能力不足，作者设计了标签增强流程。由于SAM-Med3D能基于稀疏提示生成三维医学图像掩膜，论文将点标注直接作为提示，并将scribble标注通过Zhang-Suen骨架提取和离散采样转换为点提示，以适配SAM-Med3D。SAM-Med3D生成的初始密集掩膜可提供额外监督，但也会因心腔相似和边界模糊产生泄漏、过分割等噪声。为此，作者提出超像素响应过滤器：先用SAM-Med3D预测的前景区域进行超像素划分，再用隐式函数判断每个超像素质心是否属于可信前景，只有通过阈值筛选的超像素才被加入扩增标签集合。这样，SAM-Med3D的全局先验与隐式函数的空间判别能力被结合起来，用于构造更可靠的训练标签。

自适应对抗一致性

自适应对抗一致性AAC用于解决未标注空间中的边界优化问题。传统一致性学习常通过随机扰动或人工设定增强范围来约束输出一致，但手工范围不稳定：范围过大可能跨越类别边界，范围过小则无法提供足够多样性。AAC将自解码注意力中的确定性邻域权重扩展为服从高斯分布的概率注意力，由MLP根据局部上下文预测权重分布的均值和方差，并用局部重参数化技巧进行可微采样。训练目标包含两部分：负对数似然损失鼓励概率注意力偏离固定确定性权重，从而扩大局部特征分布的探索范围；置信交叉熵一致性损失则要求从该分布采样得到的特征与查询坐标在标签空间保持一致。该一致性在Mean-Teacher框架下实现，教师解码器由学生解码器的EMA更新，并且只对低熵高置信预测施加一致性约束，以降低错误伪标签传播和对抗训练模式坍塌风险。

网络实现与损失函数

网络由语义编码器、引导编码器、自解码/概率注意力模块和隐式解码器组成。语义编码器采用预训练SAM-Med3D编码器，并通过LoRA进行参数高效微调，以保留基础模型泛化能力同时适配心脏结构；引导编码器采用3D U-Net前两层，用于补充低层纹理和边界细节。两类特征上采样并拼接后形成离散特征图F，供隐式场在任意坐标处查询。模型包含教师和学生两个隐式解码器，学生还额外带有灰度重建头，用MSE重建原图灰度以增强自解码注意力对局部细节的捕获。总体损失由标注坐标交叉熵、未标注坐标一致性损失、重建损失和负对数似然损失构成，分别对应监督学习、边界平滑、细节保持和概率分布多样性建模。

实验设置

主实验数据包含683例三维心脏CT，其中533例来自暨南大学附属第一医院用于训练和验证，150例来自陆军军医大学西南医院作为独立测试队列。分割目标为右心室RV、左心室LV和心肌Myo。作者基于密集标注自动生成scribble和点标注，并报告人工scribble与自动scribble在统计上无显著差异。训练时图像强度归一化到0到1，随机裁剪128×128×128体块，保留体块内所有有标注坐标，并额外采样10000个未标注坐标。评价指标为三维Dice相似系数DSC和95% Hausdorff距离HD95。模型使用Adam优化器、初始学习率0.01、poly学习率调度，训练500个epoch；单个epoch约133.2秒，总训练约18.5小时，推理延迟约1.48秒，训练内存约6.2GB，显示出较好的部署效率。

与先进方法比较

论文将ACISF与七种弱监督方法和三种神经场方法比较，包括pCE、USTM、EM、S2L、CycleMix、DBMS、DMSPS、OSSNet、IOSNet和SwIPE，并设置全监督结果作为参考。在原始scribble标注下，ACISF取得平均DSC 89.07%和HD95 4.11 mm，优于当前最强弱监督基线DMSPS的87.80%和6.30 mm，也接近全监督模型91.61%和2.21 mm。更重要的是，在标注进一步稀疏时性能下降很小：scribble长度减半时平均DSC为88.16%，每类每层点标注减少到3个点时平均DSC仍为87.50%。可视化结果显示，ACISF相比其他方法能减少非目标区域误分割，获得更连续的三维结构和更准确边界。作者还报告LV和RV绝对体积误差分别为11.2±3.4 mL和13.3±4.1 mL，认为处于临床心脏评估可接受范围内。

消融实验

消融研究显示各模块均有明确贡献。仅用3D U-Net编码器和插值的基线平均DSC为71.49%；替换为SAM-Med3D语义编码器后提升到76.26%；加入引导编码器后提升到77.82%；使用自解码注意力构成ISF后达到78.60%。加入SAM-Med3D标签增强后DSC提升到81.74%，再加入超像素响应过滤器后提升到84.71%，说明噪声过滤对基础模型生成标签至关重要。概率注意力单独使用时优于宽范围和窄范围随机采样，证明自适应分布建模比人工增强范围更可靠；完整ACISF最终达到89.07%。特征分布可视化进一步说明，标签增强和对抗一致性使同类特征更紧凑、不同心腔之间间隔更大，决策边界也更平滑。

超参数分析与泛化实验

超参数分析主要考察重建损失权重β、负对数似然损失权重κ、超像素过滤阈值τ和一致性熵阈值ξ。结果显示重建损失与负对数似然损失均能提升性能，但权重过大会主导训练并导致退化，最终设定β为0.3、κ为0.1；超像素过滤阈值τ在0.5时最佳，一致性高置信门控阈值ξ在0.2时最佳。泛化实验覆盖SegTHOR、MM-WHS、AMOS 22、TotalSeg、ACDC和M&Ms六个公开数据集，包含CT和MRI、单中心与多中心设置。ACISF在这些数据集上均优于重新实现的弱监督SOTA模型，例如TotalSeg上平均DSC为87.5%，ACDC上为89.2%，并显著降低HD95，说明连续坐标空间中的拓扑先验有助于跨模态、跨中心泛化。SAM-Med3D微调策略消融还显示，LoRA适配使平均DSC从冻结编码器的78.10%提升到87.02%，证明参数高效微调对医学场景适配非常关键。

Aastract摘要

本文关注三维心脏CT/MRI中右心室、左心室和心肌等结构的自动分割问题，核心难点是全监督体素级标注昂贵，而scribble或点标注虽省时却存在标注稀疏和心腔灰度相似的问题。作者提出对抗一致性增强的隐式分割场ACISF，将离散像素/体素推理扩展为连续坐标空间中的隐式函数建模，从而利用心腔之间相对拓扑关系增强类别区分能力。方法还引入SAM-Med3D进行标签扩增，并通过超像素响应过滤器去除基础模型产生的噪声标签；随后用自适应对抗一致性估计局部潜在分布，为一致性正则提供更可靠的采样范围。实验在683例三维心脏CT及多个公开心脏数据集上验证，ACISF在四种稀疏标注设置下均优于十种先进弱监督或神经场方法，并在仅约1%标注量下接近全监督性能。

Conclusion结论

论文总结认为，ACISF通过连续坐标空间中的隐式函数显式利用心脏腔室相对拓扑关系，有效缓解了三维心脏弱监督分割中灰度相似和标签稀疏两大问题。SAM-Med3D标签增强与超像素响应过滤器为模型提供更可靠的初始监督，降低了基础模型噪声标签的负面影响；自适应对抗一致性则通过概率注意力估计局部潜在分布，为未标注坐标提供更合理的增强范围并优化决策边界。综合实验表明，该方法在极少标注条件下可取得接近全监督的心脏结构分割性能，并在多种公开数据集上保持较好的泛化性。

Figure图

图1.

该图概括了论文的核心问题和解决思路。上半部分显示scribble级标注能显著减少标注时间，同时仍可能接近全监督性能；中间部分说明心腔之间灰度分布相似和标签稀疏会导致低对比、特征混叠和边界难判；下半部分展示ACISF通过坐标空间中的相对拓扑关系提升心腔可分性，并用自适应对抗一致性优化潜在分布和决策边界。

图2.

该图用二维示意解释为什么传统方法不足。只依赖标签会使决策边界受稀疏标注限制，人工设定一致性采样范围则可能过宽而引入异类噪声，或过窄而无法充分优化。ACISF利用对抗学习自适应估计更可靠的采样范围，使一致性正则主要作用于语义一致但特征多样的邻域，从而得到更接近真实边界的分割面。

图3.

该图是论文最核心的方法图，展示了从三维图像和查询坐标到分割预测的完整流程。模型用SAM-Med3D编码器加LoRA提取语义特征，用U-Net浅层引导编码器补充细节，再通过自解码注意力将查询坐标对齐到连续隐式表示。下方展示标签增强流程：点标注或由scribble转换的点提示输入SAM-Med3D生成粗掩膜，再经超像素响应过滤器筛除噪声。右侧展示自适应对抗一致性：概率注意力拟合局部潜在分布，并在教师学生隐式解码器之间施加一致性约束。

图4.

该图从轴位、冠状位、矢状位和三维视角比较全监督、多个弱监督/神经场方法、ACISF和真实标签。可以看到，IOSNet、SwIPE、pCE、USTM等方法存在明显漏分割、误分割或结构破碎，DMSPS已有改善但边界仍不够稳定；ACISF的心室和心肌区域更完整，非目标区域误检更少，三维结构更接近真实标签。

图5：

该图展示ISF基线、加入标签增强、加入对抗优化以及完整方法后的心脏类别特征分布。随着模块逐步加入，Myo、LV和RV的特征由混叠逐渐变为类内更紧凑、类间更分离。该图支持作者关于标签增强改善初始判别性、对抗一致性扩大类间边界并平滑决策面的结论。

图6：

该图可视化查询坐标周围八个邻域点的权重分配。插值主要根据空间距离分配权重，难以处理边界附近语义变化；自解码注意力同时考虑位置和语义相似性，对同类邻域赋予更高权重，对异类邻域降低权重。因此，ACISF在薄壁心肌和心腔边界处能获得更准确、更连续的预测。

图7.

该图比较SAM-Med3D提示生成标签在过滤前后的质量。未经SRF过滤的预测存在明显前景泄漏和过分割，特别是在心腔边界或低对比区域；加入SRF后，错误前景被大量去除，生成标签更贴近真实掩膜。该图对应表3中前景准确率超过20个百分点的提升，说明SAM基础模型输出不能直接作为监督，必须进行结构化过滤。

图8.

该图解释AAC为何优于手工随机采样。宽范围随机采样虽有多样性，但容易包含类别外特征；窄范围随机采样保持一致性，却缺乏足够特征多样性，优化能力有限。概率注意力在局部邻域内学习分布，能同时兼顾标签一致性和特征多样性，为未标注坐标提供更合理的增强特征。

图9.

该图展示κ、β、τ和ξ对DSC与HD95的影响。结果表明重建损失和负对数似然损失需要适中权重，过大可能损害分割主任务；超像素过滤阈值τ过高会丢弃可用标签，过低会引入噪声；一致性熵阈值ξ控制未标注样本利用的质量与数量。最终设置κ为0.1、β为0.3、τ为0.5、ξ为0.2，体现了性能与稳定性的折中。