2026.1.5
本文提出PathoSeg模型,这是一种结合HRNet编码器和UNet++解码器的病理图像分割网络,并引入PathopixGAN生成合成数据以解决数据不平衡问题,最终在乳腺癌、肝脏脂肪变性和前列腺癌腺体分割任务上优于现有技术并提升了模型泛化能力。
Title题目
01
A robust image segmentation and synthesis pipeline for histopathology
一种用于组织病理学图像分割与合成的鲁棒流水线
文献速递介绍
02
组织病理学检查是病理诊断的临床金标准。数字病理学(全玻片图像 - WSI)提供了精确量化特征的能力,但诊断结果在病理医生之间仍存在显著差异。人工智能,特别是语义分割,通过精确描绘图像中的结构,在肿瘤描绘、疾病分级和治疗反应评估方面具有应用潜力。手动分割耗时且易受观察者变异性影响。组织病理学数据集中存在的类别不平衡问题严重影响了关键结构的准确描绘,传统算法难以有效学习和分割少数类别。此外,真实世界中带注释医学数据的稀缺性也是一大挑战。为应对这些问题,本文提出了PathoSeg分割方法和PathopixGAN图像合成框架,旨在通过语义控制生成合成图像。PathoSeg在真实和混合数据上均优于SOTA模型,并构建了一个包含乳腺癌小管、肝脏脂肪变性、前列腺癌腺体的语义分割数据集。主要贡献包括:基于HRNet编码器和UNet++解码器集成了CBAM模块的SOTA分割模型;一种用于语义控制合成多样化组织病理环境以对抗数据不平衡的GAN方法;以及三个新的公开分割数据集。
Aastract摘要
02
尽管数字载玻片图像提供了比传统方法更精确的特征测量和量化能力,但病理学诊断中观察者之间和内部的诊断变异性仍然存在。本文提出PathoSeg模型,该模型包含改进的HRNet编码器和集成CBAM模块的UNet++解码器,旨在实现癌细胞和组织区域的自动化精确分割。研究表明,PathoSeg在实例和语义分割的定量和定性评估方面均优于现有最先进(SOTA)网络。值得注意的是,该研究利用PathopixGAN生成的合成数据有效解决了组织病理学数据集中常见的数据不平衡问题,进一步提升了PathoSeg的性能。此外,作者还贡献了一个内部数据集,其中包含乳腺癌小管(BCT)、肝脏微/大泡性脂肪变性(MSL)和前列腺癌腺体(PCG)的语义分割掩码,并将该数据集、代码和预训练模型公开,以促进进一步研究。
Method方法
03
本研究使用了三个内部组织病理学数据集:乳腺癌小管(BCT)、肝脏微/大泡性脂肪变性(MSL)和前列腺癌腺体(PCG),这些数据集均带有像素级标注的真实(Ground Truth)分割掩码。整个流程设计包括两个主要阶段:PathopixGAN的生成器训练用于合成数据生成,以及PathoSeg模型在真实数据和混合(真实+合成)数据上的训练和微调。PathoSeg架构是一个编码器-解码器混合模型,结合了改进的HRNet编码器和UNet++解码器。HRNet因其能够耦合多分辨率信息的能力而被选用。主要的修改包括将ReLU激活函数替换为更平滑的GELU,将Batch Normalization替换为Layer Normalization以更好地保留空间信息并减少对批量大小的依赖,并在每个卷积块后集成CBAM块以引入通道和空间注意力机制。PathopixGAN生成器是一种条件GAN架构,灵感来源于GauGAN的SPADE归一化,并针对组织病理学数据进行了特定调整。它利用空间自适应去归一化、PathopixGAN残差块(使用GELU激活)和更密集的跳跃连接,从语义掩码生成逼真的图像。FastGAN用作掩码合成模块,用于生成多样化的语义掩码作为PathopixGAN的输入。训练策略分两阶段:第一阶段,PathopixGAN生成器在真实数据上训练,学习数据分布,然后为每个数据集生成5000张合成图像。第二阶段,PathoSeg模型进行训练和微调。实验2评估了PathoSeg在真实数据上与SOTA模型的比较性能。实验3则在混合(真实+合成)数据上对模型进行微调,以评估合成数据在解决类别不平衡问题方面的优势。所有分割架构的参数均使用ImageNet预训练权重进行初始化,并通过随机搜索方法对超参数进行优化。
Discussion讨论
04
组织病理学中的传统工作流程依赖于对组织切片感兴趣区域的手动评估和分析,这耗时且高度主观,且不同观察者之间存在诊断差异性。这种观察者内部和观察者之间的变异性因缺乏足够的标记数据而加剧,使得AI方法在作为诊断工具的潜力方面处于劣势。即使数据可用,由专家进行注释也是一项昂贵的挑战。组织病理学数据集中不平衡的数据分布是开发高效深度学习方法用于临床诊断的另一个障碍。本文提出了一种全面且鲁棒的分割流水线,包括经过技术优化的SOTA HRNet编码器和UNet++解码器配置,以及一种新颖的PathopixGAN生成器用于合成数据增强。这种机制不仅能解决组织病理学分析中与数据相关的问题,还提供了一个鲁棒的深度学习解决方案,为病理学家提供自动化诊断工具,加速传统工作流程。重要的是,PathopixGAN能够语义控制高分辨率组织病理学图像的合成,以避免数据可用性和不平衡问题。此外,PathopixGAN在三个不同复杂组织病理学数据集上的应用展示了其生成器的可扩展性,能够学习并有效生成不同组织和细胞微环境的数据分布。这种创新为更全面、更平衡的数据训练深度学习方法奠定了基础。PathoSeg分割架构在真实世界数据上表现出卓越的泛化能力,并且在PathopixGAN生成合成数据进行微调后显示出显著的性能提升。这些结果证明了PathoSeg和PathopixGAN结合在创建更鲁棒模型用于临床方面的潜力。作为改进和未来方向,可以结合伪标签(pseudo-labels)和软教师(soft-teacher)等自监督数据技术,补充PathopixGAN的合成数据生成,以训练更复杂架构处理更平衡、更全面的组织病理学数据集。这些算法的学习特征能力可以用于标记大型数据集,而无需高昂的手动注释成本。尽管自监督方法存在局限性,如需要大量负例和在数据不平衡情况下表现不佳,但这一潜在途径有助于提高深度学习架构在不同组织病理学环境中的泛化能力,从而可能提高诊断准确性。
Conclusion结论
05
本文提出PathoSeg,一种采用改进HRNet编码器和UNet++解码器的新型分割架构,以及PathopixGAN,一种基于GAN的框架,用于生成语义控制的合成组织病理学图像。PathoSeg在真实数据上持续优于现有最先进模型,并且在乳腺癌、肝脏和前列腺癌数据集上使用PathopixGAN生成的合成数据进行微调后,性能得到进一步提升。PathopixGAN有效解决了数据稀缺和类别不平衡问题,增强了模型的泛化能力,特别是对于代表性不足的类别和微小结构。本研究还向研究社区贡献了三个新的
Results结果
06
PathopixGAN在合成数据生成方面的性能优于GauGAN,在BCT、MSL和PCG数据集上均取得了更低的FID分数(例如BCT:15.50 vs 18.68)和更高的Inception分数(例如BCT:16.61 vs 20.90)。这归因于更密集的跳跃连接和GELU激活函数。定性结果也表明,合成的图像(如小管形成、脂肪细胞和前列腺癌)与真实组织病理学图像难以区分。在实验2中(仅使用真实数据训练),PathoSeg在BCT、MSL和PCG数据集上,在Dice分数、IoU分数、像素准确率、F1分数和MCC等各项评估指标上均持续优于其他SOTA的CNN和Transformer架构。例如,在BCT数据集上,PathoSeg在Dice/IoU/像素准确率上约有2%的提升,在F1/MCC上约有4%的提升。在MSL数据集上,各项指标约有3%的提升。在PCG数据集上,所有指标至少有2%的提升。在实验3中(使用真实数据+PathopixGAN合成数据进行微调),PathoSeg的性能得到了进一步提升。BCT数据集上,Dice分数至少提升3%,IoU分数、像素准确率、F1分数和MCC提升2%。MSL数据集上,Dice/IoU分数提升3%,像素准确率、F1分数和MCC提升2%。PCG数据集上,所有评估指标提升2%。定性分析显示,模型在推断中假阳性减少,泛化能力提高,尤其是在处理不平衡数据集中代表性较低的类别时表现更佳。PathoSeg的架构改进(CBAM、LayerNorm、密集跳跃连接)对于小尺寸结构的分割至关重要。
Figure图
07

图1.所提出流水线整体工作流程概述。来自真实数据的掩码被输入到FastGAN(Liu et al., 2020)掩码合成模块,该模块合成具有多样化组织病理学微环境的新语义掩码。增加数量的输入掩码被输入到PathopixGAN中,以生成相应的组织补丁。图1提供了PathopixGAN的高级视图,其架构灵感来源于GauGAN的原始实现(Park et al., 2019)。PathopixGAN残差块(ResBLK)用高斯误差线性单元(GELU)(Hendrycks and Gimpel, 2016)代替了原始实现中的修正线性单元(ReLU),因为它具有更平滑的微分特性,同时以GT语义掩码作为输入,执行语义自适应归一化以进行条件合成。采用了更密集的跳跃连接,以确保信息在生成器中更一致地流动。PatchGAN作为判别器,灵感来源于原始工作。PathopixGAN生成器通过其合成掩码学习数据集中不同类的语义信息,并合成与原始组织补丁相似的图像。合成图像在训练阶段被传递给判别器,判别器学习区分它们和真实图像,使PathopixGAN生成器在图像合成方面表现更好。合成图像及其对应的FastGANs生成的掩码与真实数据结合,用作训练队列,以训练新颖的PathoSeg架构,该架构输出输入组织病理学图像的推断语义掩码

图2.PathoSeg分割架构概述。所提出的编码器-解码器模型采用了HRNet和UNet++。HRNet编码器采用膨胀卷积,具有5×5的大核大小和2的膨胀率,以更好地保留组织病理学环境的全局上下文。此外,在不同分辨率下利用跳跃连接,以整合和加强低级信息在整个网络中的流动。如图所示,卷积分为五个阶段,第一阶段,即“瓶颈层”,包含图中指定的四个卷积和池化层块,随后是一个维度缩减的1×1卷积层。后续的“基本”阶段中的块数量增加4,而BatchNorm被LayerNorm取代,以减少小批量内样本的相互依赖性以及批量大小对模型性能的夸大影响。值得注意的是,这也降低了PathoSeg架构的计算复杂度。此外,作为一个主要引入,在编码器之后采用了CBAM块(Woo et al., 2018)来整合通道和空间注意力机制。这种添加使得对具有更高诊断潜力的特征和区域产生注意力。解码器是原始的UNet++,它接收注意力图并通过跳跃连接执行反卷积,以生成精确且可解释的分割掩码。

图3. 条件PathopixGAN图像合成的定性结果。PathopixGAN合成在BCT、MSL和PCG数据集的GT语义掩码指导下的定性结果。作为预处理例程,FastGans在所有数据集的真实GT语义掩码上进行训练,以合成具有高质量和多样化组织及细胞环境的掩码。然后,这些合成语义掩码被用于PathopixGAN生成器进行语义控制的图像生成,PathopixGAN生成器首先在真实数据上进行训练和优化。所提出的PathopixGAN合成方法被证明能够准确地根据GT输入掩码的语义信息重现小管形成、脂肪细胞和前列腺癌组织。该方法成功合成了不包含腔和间质的上皮成分。同样,对于前列腺,PathopixGAN也成功合成了具有真实且诊断相关的前列腺癌上皮和间质成分的图像。此外,脂肪肝中的脂肪滴几乎可以完全被掩盖。然而,一些小直径的脂肪滴,即微囊泡,很少能逃脱掩盖。

图4. 在BCT、MSL和PCG数据集上评估真实和合成图像的定性结果。对真实组织病理学图像和PathopixGAN合成图像的保真度进行定性比较。PathopixGAN首先在BCT、MSL和PCG数据集的真实数据上进行训练和优化,以获得准确的图像合成映射函数。在评估过程中,PathopixGAN展示了准确合成具有间质和上皮成分的小管图像的能力,而组织结构无法与真实数据分离。在脂肪肝中,合成图像中的纹理以及微囊泡和巨囊泡脂肪与真实数据兼容。同样,对于前列腺癌,合成图像是上皮性的,使其与真实的前列腺癌图像无法区分。

图5.PathoSeg在真实和混合数据队列上的推断定性分析。对PathoSeg在真实数据上训练的模型与在混合数据上微调的模型之间的推断质量进行定性比较。PathopixGAN生成的合成数据显示出提高模型性能的能力。与在真实数据上训练相比,当网络在混合(真实和合成)数据上进行微调时,推断性能显著提高。对于小管,在PathopixGAN生成的小管图像上优化的PathoSeg显示出更好的泛化能力,减少了假阳性,同时提高了预测GT小管区域的准确性。对于脂肪,PathoSeg在正确分类脂肪细胞方面表现出改进,同时减少了对微囊泡的错误预测数量。最重要的是,PathoSeg证明了对混合数据进行微调增加了不平衡前列腺数据集中低代表性类的泛化能力。该模型能够改进对不平衡的红色和蓝色类的预测,同时进一步提高了对绿色和黄色前列腺掩码区域的推断质量。BCT、MSL、PCG的假阳性减少量分别约为1.89%、1.66%和1.07%。