ProGIS：原型引导的病理图像交互式分割/文献速递-多模态应用技术

Oldlee

2026.3.23

ProGIS是一个原型引导的交互式分割框架，通过引入类别原型和监督对比损失，实现了高效、高精度的多类别病理图像分割，并能适应全玻片图像级别的任务，显著减少了医生交互成本和标注时间，达到了现有技术的最佳水平。

Title题目

ProGIS: Prototype-Guided Interactive Segmentation for Pathological Images

ProGIS：原型引导的病理图像交互式分割

文献速递介绍

计算病理学通过提高诊断效率、提供定量指标和支持个性化治疗，在精准肿瘤学中发挥关键作用。深度学习推动了病理诊断和分割的进步，其中组织分割是基础任务。然而，现有的自动分割方法严重依赖大规模像素级标注数据，其获取耗时耗力，且模型泛化性差。交互式分割能以少量人工交互实现高精度分割，对未见数据具有更好的泛化性。但现有交互式分割方法常限制于单个连通组件的分割，多类别分割效率低下，且难以区分相似组织。为解决这些挑战，本文提出ProGIS框架，通过原型学习范式实现多类别、高效的病理图像交互式分割，并支持全玻片级别任务。ProGIS包含原型初始化、原型导航和局部细化模块。

Aastract摘要

传统自动分割方法在计算病理学中常受限于对大规模像素级标注数据集的依赖，且难以满足病理学家的临床要求。交互式分割通过融入人工输入，有效弥补了这一不足，但现有方法在交互成本与分割性能之间难以平衡，且对全玻片图像（WSI）级别的分割适应性差。本研究提出了一种原型引导的交互式分割（ProGIS）框架，旨在以最少的交互信号高效实现精准分割。ProGIS通过一次交互即可识别所有相同类型的连通组织成分，并支持推理阶段无需预定义类别的多类别分割。此外，ProGIS易于适应全玻片图像级别的交互式分割。具体而言，ProGIS包含原型初始化、原型导航和局部细化三个模块。原型初始化模块识别类别原型，原型导航模块利用这些原型识别所有相同类型的组织连通成分。局部细化模块则利用详细的校正信号进一步优化分割结果，确保难以区分区域的准确性。在两个感兴趣区域（RoI）级别和两个全玻片级别病理分割数据集上的评估显示，ProGIS以更少的交互次数达到了现有技术的最佳性能。我们的代码已开源。

Method方法

病理图像分割：深度学习方法如U-Net和DeepLab系列在病理图像分割中取得了显著进展，特别是在肿瘤分割方面。Transformer架构也展现出在捕获长距离依赖方面的潜力。然而，这些自动分割模型需要大量训练数据且泛化能力有限。交互式分割：交互式分割分为基于优化方法（如GrabCut）和基于深度学习方法。深度学习方法通过结合交互信号和图像信息进行分割，例如BRS、f-BRS和RITM等点击型交互方法，以及Nuclick和ScribblePrompt等涂鸦型交互方法。MedSAM等基础模型在零样本分割中表现出潜力，但专业模型在特定任务上通常更准确。现有交互式方法在处理复杂病理图像和多类别分割方面仍面临挑战，特别是在精度和效率的平衡上。ProGIS方法论：问题设定定义了像素级和全玻片级交互式分割任务。原型初始化模块：ProGIS采用基于U-Net架构的P-RoISeg网络，接受6通道输入。在初始化阶段，通过裁剪以交互信号为中心的子图像，P-RoISeg预测前景区域作为初始类别原型。训练中采用CU-Training策略，每两次前向传播后进行一次反向传播，利用前一次预测结果作为下一次输入。损失函数为柔性Dice损失。原型导航与监督对比损失：使用编码器-解码器架构提取像素级特征，将P-RoISeg获得的预分割掩膜的前景区域像素特征进行平均池化，得到各类别原型特征。采用保真度进行像素特征与原型特征的相似度测量，以识别同类别连通组件。为增强不同类别像素特征的可区分性，引入监督对比损失，包括超像素级对比损失和像素级对比损失，促使同类别特征更接近，不同类别特征更可区分。局部细化模块：针对病理图像边界模糊和类间差异小等问题，通过多次交互进行校正。在交互信号中心裁剪局部区域，结合原始RGB图像、前一次预测掩膜和交互信号输入P-RoISeg，获取局部校正掩膜并更新到全局掩膜中，实现高精度分割。全玻片级交互式分割框架：针对WSI像素量大的挑战，ProGIS通过将WSI转换为图像块级嵌入来处理。设计了W-RoISeg网络，通过交互式注意力机制将图像特征与交互信号融合，并采用CU-Training策略进行训练，从而实现WSI级别的交互式分割。

Discussion讨论

在实际临床部署中，计算复杂度和内存消耗至关重要。ProGIS在ResNet-18作为骨干网络时，保持了相对较低的FLOPs和参数量，同时实现了SOTA性能。在全玻片级别交互式分割中，ProGIS的GPU内存消耗约为2GB，具有良好的计算效率和内存友好性，支持其在临床中的应用。对于复杂任务，虽然ProGIS显著缩短了标注时间，但分割精度仍略低于人工标注，这是现有交互式分割方法的普遍局限，也是未来改进方向。

Conclusion结论

本研究提出了ProGIS，一个原型引导的交互式分割框架，用于像素级和全玻片级病理图像分割。ProGIS通过引入类别原型解决了现有交互式分割方法缺乏类别感知建模、无法通过一次交互识别所有同类别组织组件以及对全玻片分割适应性有限的问题。该框架通过原型导航模块高效识别相同组件，显著减少交互需求，并通过融合交互信号与图像块特征提升全玻片级分割性能。在四个数据集上的广泛实验证明，ProGIS实现了SOTA性能，显著提高了病理图像标注效率和分割精度，并为推动全玻片级交互式分割研究提供了有价值的见解。

Results结果

数据集：在BCSS和GCTS两个RoI级别数据集，以及Camelyon16和Lung (TCGA-LU)两个全玻片级别数据集上进行实验。实现细节：所有实验在NVIDIA GeForce RTX 4090 GPU上进行，采用五折交叉验证。像素级任务中，P-RoISeg使用EfficientNet-B0作为骨干，原型导航模块采用ResNet-18、ViT-B和EfficientNet-B0。全玻片级任务中，使用CONCH和UNI作为预训练骨干网络。评估指标：采用NoI@80、NoI@85、NoF@85、Dice@20和IoU@20以及平衡准确率进行评估。像素级结果：ProGIS在BCSS和GCTS数据集上均实现了SOTA性能。相比现有SOTA方法，mIoU@20分别提高了2.58%和1.16%，mNoI@85分别减少了4.57和2.87次交互，显著提高了分割精度和交互效率，并减少了失败分割图像数量。单次交互结果显示，ProGIS结合ResNet骨干网络在mIoU@1上比同骨干网络模型提高了11.49%和6.76%，甚至比ViT骨干网络模型也高出4.08%和3.87%，表明其原型导航模块能有效识别远距离同类连通组件。基础模型（MedSAM、SAM-2、BioSAM-2）的微调结果显示，迭代式方法（SAM-2）优于非迭代式方法。全玻片级结果：在Camelyon16和Lung数据集上，ProGIS框架在Dice、平衡准确率和IoU分数上均显著优于MLP模型，验证了其在全玻片级交互式分割任务中的有效性。可视化：定性评估显示，ProGIS在单次交互后即获得优秀结果，20次交互后，其分割结果在组织边界和细节上与金标准更吻合。全玻片级别可视化也表明ProGIS优于基线模型。消融研究：实验证实原型导航模块结合对比损失、以及CU-Training策略的有效性。CU-Training显著提升了Dice和IoU分数（分别增加14.02%和19.78%）。原型导航结合对比损失在CU-Training基础上进一步提高了2.79%的Dice和3.11%的IoU。对于GCTS数据集中的外部类别（坏死），模型表现出良好的泛化能力。模型鲁棒性与用户研究：ProGIS对轻度和中度交互信号扰动具有鲁棒性。用户研究表明，ProGIS将注释时间减少了60%-91.98%，尤其在复杂任务中效果显著，但在复杂任务中分割精度仍略低于手动标注。

Figure图

图1现有框架和ProGIS的交互式分割流程。现有框架通过结合多个组织连通组件的分割结果来生成最终掩膜。相比之下，ProGIS在单次交互后通过基于原型的区分，识别所有可能属于同一类型的组织连通组件，并进行局部细化以生成最终掩膜。

图2ProGIS的整体框架。a, 原型初始化模块：RoI的RGB图像、前景和背景交互信号以及初始化掩膜被连接成六个通道，并输入P-RoISeg模型以生成类别原型。b, 原型导航模块：使用所有类别原型对像素特征进行保真度计算。c, 对比学习损失：包括像素级和超像素级损失。d, 局部细化模块：交互信号被添加到局部错误区域，并通过整合先前预测的掩膜进行掩膜校正。e, 全玻片级交互式分割框架。fg：前景交互信号；bg：背景交互信号。

图3BCSS和GCTS数据集中不同类别的实验结果。a, 各类别的IoU@20分数。b, BCSS数据集的mIoU分数随点击次数增加的变化趋势。c, GCTS数据集的mIoU分数变化趋势。d, 各类别达到85% IoU值所需的平均交互次数。ProGIS的骨干网络是ResNet-18。

图4样本图像块和样本全玻片图像的分割结果可视化。灰色代表背景区域。在像素级分割结果中，NuClick无法使用上一步预测的掩膜，分割结果通过组合多个分割结果形成。其他模型则基于上一步预测的掩膜逐步添加交互信号进行校正。