2026.6.8
PathoLIC利用病理基础模型生成内容重要性分数,并结合注意力建模相邻patch冗余,实现WSI的内容感知可变码率学习压缩。
Title题目
01
A content-aware variable-rate framework for pathology learned image compression (PathoLIC)
面向病理图像学习压缩的内容感知可变码率框架PathoLIC
文献速递介绍
02
本文关注数字病理中WSI的存储与传输瓶颈。40倍扫描的一张WSI可达80000乘80000像素,单文件常为1到4GB,大规模临床归档会扩展到PB级。当前常用Aperio SVS格式以多分辨率金字塔组织图像,并依赖JPEG或JPEG2000压缩,但仍然体积庞大,且传统压缩容易出现块效应或计算复杂度高。学习图像压缩LIC在自然图像上已表现出优于传统编码的率失真性能,但直接用于WSI仍有两个关键不足:一是通常把WSI切成patch后独立压缩,忽略相邻patch间相似组织形态带来的空间冗余;二是多采用固定率失真权衡,对肿瘤、炎症、背景、脂肪、间质等不同诊断价值区域使用近似一致的压缩强度。为此,作者提出PathoLIC,将patch级诊断相关性作为软先验来分配码率,并同时利用注意力机制建模跨patch相关性。论文声称这是首个将内容感知策略用于WSI压缩的深度学习框架,并进一步设计了区域级bitstream格式以兼容实际病理工作流。
相关工作
相关工作首先回顾了数字病理的多尺度计算任务,包括细胞级细胞核分割与表型分析、patch级组织分类与检索、WSI级癌症分型和预后预测。这些任务对图像细节和全局上下文的保留要求不同,因此单一压缩强度并不理想。传统图像压缩方面,JPEG基于DCT变换、量化和熵编码,速度快但易产生可见伪影;JPEG2000基于小波变换,保真度更好但计算成本更高,二者仍无法充分降低WSI体积。学习图像压缩方面,端到端自编码器、超先验熵模型、Transformer-CNN混合结构等已显著提升自然图像压缩质量,QmapCompression和I2C等方法支持可变码率,但往往依赖外部质量图或全局控制信号,不能自动依据WSI中每个patch的诊断重要性分配压缩率。PathoLIC的差异在于把病理基础模型的注意力输出转为内容分数,同时用Transformer建模邻近或相似patch间的冗余。
Aastract摘要
03
全视野病理切片图像WSI通常达到十亿像素级,给存储、传输和后续计算分析带来巨大负担,而传统SVS、JPEG、JPEG2000以及通用学习压缩方法未充分利用WSI中相邻或相似区域的冗余,也不能按诊断价值自适应分配码率。本文提出PathoLIC,一种面向WSI的内容感知可变码率学习图像压缩框架,先由CHIEF或TITAN等病理基础模型为patch生成诊断相关内容分数,再用质量控制模块QCM在编码器、超先验、熵模型和解码器中调制特征,使肿瘤等关键区域保留更多细节,背景、脂肪、间质等低信息区域被更强压缩。模型还用Transformer-CNN混合结构和通道上下文模型捕获邻近patch和相似patch间的相关性,从而压缩共享特征、减少冗余。实验显示PathoLIC在高保真码率区间优于JPEG、JPEG2000、QmapCompression和I2C,在标准Aperio SVS基础上可获得超过8倍的额外压缩,同时在WSI级癌症分型、生存预测、patch级分类、ROI检索和细胞核分割等下游任务中保持接近未压缩图像的性能。
Method方法
04
PathoLIC的整体流程是先将WSI划分为不重叠patch,再按4乘4相邻patch组成一个区域,每个区域包含16个patch并作为压缩单元。对于WSI级推理,作者使用预训练病理基础模型CHIEF或TITAN提取patch特征,并通过带Tanh-Sigmoid门控的注意力模块生成attention map,经归一化和指数映射得到patch级内容分数。高分区域通常对应肿瘤、炎症或细胞密集区域,低分区域通常对应脂肪、间质或背景。压缩网络以Transformer-CNN Mixture和Residual Blocks with Stride为主体,编码器将输入区域映射为潜变量y,超编码器生成侧信息z,超解码器估计潜变量分布的均值和方差,通道上下文模型进一步利用局部和非局部依赖提升熵估计精度。核心模块是Quality Control Module,QCM把内容分数输入轻量MLP,生成通道级缩放参数α和偏置β,并以残差式仿射变换调制中间特征,即在保持原特征稳定性的同时,根据目标质量增强或抑制特征表示。QCM被插入主潜空间、超先验路径、熵模型参数和解码端多个位置,使不同诊断价值区域获得不同重建保真度。训练时不直接使用基础模型生成的真实内容分数,而是在0到1均匀采样内容分数,并通过指数函数映射为λ,λ范围为0.0025到0.04,用于率失真损失中的失真权重。这种训练策略让模型学习连续质量控制能力,并通过设置质量下限避免低分区域被过度压缩。推理时,算术编码与解码将潜变量、超潜变量和内容分数写入二进制流。作者还提出区域级WSI bitstream格式,用文件头索引表记录空间坐标与字节偏移,从而支持整张WSI恢复为标准金字塔SVS,也支持按坐标或诊断分数进行局部解码,例如只解码最相关的10%区域以降低I/O延迟。
数据准备与实验设置
压缩模型训练使用73730个1024乘1024的40倍patch,另有1000个验证patch和3694个测试patch,数据来自TCGA-BRCA、TCGA-NSCLC以及云南省肿瘤医院的内部数据。作者强调用于训练压缩模型的patch不参与下游任务验证。下游评估覆盖多个层级和多种组织类型:WSI级任务包括TCGA-BRCA、TCGA-NSCLC、TCGA-RCC上的癌症分型,以及TCGA-BRCA和TCGA-NSCLC上的生存预测;patch级任务包括BACH和内部乳腺癌数据集上的组织分类,以及NCT-CRC-HE-100K上的ROI检索;细胞级任务包括PanNuke和由CoNSeP、Lizard、MoNuSeg、MoNuSAC合并构成的MNS细胞核分割基准。实现上,模型基于PyTorch,在单张80GB NVIDIA A100上训练,采用Liu等人的Transformer-CNN混合压缩框架,主潜变量和超潜变量维度分别为320和192,训练80000次迭代,学习率4乘10的负5次方。WSI预处理先在40倍下切成256乘256 patch,通过CLAM流程识别前景组织,再组合成1024乘1024区域。推理时采用两种模式:对于patch分类、ROI检索、细胞核分割等需要最大细节的任务,统一设置最高内容分数q等于1;对于WSI级分型和生存预测,则使用CHIEF或TITAN生成内容感知可变码率分数。比较方法包括JPEG、JPEG2000、QmapCompression和I2C,评价指标包括PSNR、MS-SSIM、BPP、编码解码时间、分类Accuracy、BACC、AUROC、AUPRC、生存C-index、检索ACC@K与MVACC@5,以及分割Dice、IoU、precision、recall和specificity。
Conclusion结论
05
本文提出PathoLIC,一种针对WSI的内容感知可变码率学习图像压缩框架。它通过病理基础模型产生patch级内容分数,并在网络多个阶段用QCM调制特征,使诊断关键区域获得更高保真度,低信息区域获得更强压缩;同时利用Transformer-CNN结构和通道上下文模型减少相邻或相似patch间冗余。大量实验证明,PathoLIC在标准SVS基础上可进一步实现超过8倍压缩,并在图像重建质量和临床相关下游任务上优于或匹敌传统与现有学习压缩方法。总体而言,该方法为大规模数字病理档案管理提供了高效方案,也有助于AI病理系统在存储受限、传输受限环境中的推广。
Results结果
06
在率失真表现上,PathoLIC在高保真区间0.23到0.46 BPP稳定优于所有对比方法。例如在0.28 BPP附近,PathoLIC达到40.6 dB PSNR和0.990 MS-SSIM,高于QmapCompression和I2C,也显著优于JPEG与JPEG2000。传统编码速度较快但保真度较低,I2C参数量大且推理很慢,PathoLIC在保真度、运行效率和可部署性之间取得较好平衡。存储统计显示,在TCGA-NSCLC上,PathoLIC由TITAN引导时总压缩比约8.99倍,高于JPEG的5.04倍;CHIEF引导版本约5.30倍,说明不同基础模型的注意力稀疏度会影响最终文件大小。定性图显示,增大λ会产生更清晰的重建和更低残差,同码率下PathoLIC比I2C、QmapCompression和JPEG保留更多结构细节、伪影更少。在WSI级癌症分型中,PathoLIC在BRCA、RCC、NSCLC上总体保持接近未压缩图像的表现。BRCA中,CHIEF引导版本在压缩训练与压缩测试条件下仍有0.956 AUROC;RCC中PathoLIC在多种设置下AUROC接近0.985未压缩基线;NSCLC中TITAN引导版本在原始训练、压缩测试下AUROC达到0.990,与JPEG相当但压缩率更高。生存预测方面,BRCA上PathoLIC CHIEF在压缩训练和压缩测试时C-index为0.696,高于JPEG的0.682;NSCLC上PathoLIC CHIEF为0.592,也高于JPEG的0.577,说明其更好保留了预后相关形态线索。patch级BACH分类中,PathoLIC在同等或更低码率下获得更高PSNR和MS-SSIM,并在多数组合中达到与JPEG相当或更好的AUROC;内部数据集较简单,PathoLIC基本保持接近未压缩和JPEG的性能,1024乘1024 patch下甚至在0.59 BPP维持很高准确率。ROI检索中,PathoLIC在NCT-CRC-HE-100K上ACC@1、ACC@5和MVACC@5几乎与未压缩上限一致,并在同等码率下比JPEG有更高PSNR;可视化显示它检索到的候选patch语义更一致。细胞核分割中,PathoLIC在PanNuke和MNS上的Dice和IoU几乎等同未压缩基线,并优于JPEG,尤其在MNS上以更低BPP达到更高PSNR。基础模型影响分析显示,CHIEF与TITAN虽然注意力机制不同,但均能突出肿瘤区域并抑制背景;TITAN产生更稀疏的注意力图,因此带来更高压缩率且下游性能不明显下降。消融实验表明,去掉任何QCM子模块都会降低MS-SSIM和PSNR,其中去掉主潜空间y和解码潜空间y帽上的QCM影响最大;去掉QCM中的残差连接也会显著损害低码率下的稳定性和重建质量。
局限性
作者指出PathoLIC目前还缺少完整的图形界面软件,尚不能把压缩、解压、WSI直接可视化整合成面向临床用户的一站式工具。此外,当前压缩文件尚不支持病理医生标注的直接集成或修改,例如肿瘤边界、肿瘤分类标签等。这意味着虽然算法层面已展示较强压缩和下游任务保持能力,但距离实际医院病理归档系统、阅片系统和交互式诊断流程的无缝部署仍有工程化差距。未来工作计划开发更完整、用户友好的GUI平台,支持交互式可视化、标注管理以及临床工作流部署。
Figure图
07

图1.该图展示从实体病理切片扫描为SVS格式WSI,到按区域切分、压缩为二进制文件,再解压重建WSI的完整流程。每个区域包含16个不重叠patch,网络利用patch间相关性减少冗余,使输出二进制文件显著小于原SVS,同时在解压后尽量保留细粒度组织学细节。

图2.该图是论文最核心的方法图。上半部分说明如何用CHIEF等基础模型从WSI patch生成注意力图,并转换为内容分数;下半部分展示编码器、超编码器、超解码器、解码器、通道上下文模型和多个QCM的连接关系。它表明内容分数并非只在输入端控制压缩,而是在潜变量、超先验和熵模型多个环节共同调制码率与重建质量。

图3.该图展示QCM的内部结构:内容分数经MLP生成缩放和偏置参数,对输入特征做通道级仿射调制。这个模块是实现内容感知可变码率的关键,使高诊断价值patch能得到更高保真度,低价值区域则更节省比特。

图4.该图比较两种病理基础模型生成的内容分数热图。两者都能把红色高分区域集中在肿瘤或诊断相关组织上,并压低背景区域分数,说明PathoLIC的内容感知机制对不同基础模型具有一定稳健性;同时TITAN热图更稀疏,有助于实现更高压缩率。

图5该图用BPP横轴比较MS-SSIM和PSNR,显示PathoLIC在多个码率下整体优于JPEG、JPEG2000、QmapCompression和I2C。尤其在病理图像常需要的高保真区域,PathoLIC以较低或相当BPP获得更高结构相似性和峰值信噪比,是本文压缩性能的主要定量证据。

图6该图展示同一区域在不同λ控制下的重建图、局部放大图和残差图。随着λ增大,模型分配更多比特,细胞和组织纹理更清晰,残差减小,直观验证PathoLIC确实学到了可连续调节的率失真控制能力。

图7该图在相近BPP下比较PathoLIC、I2C、QmapCompression和JPEG的重建效果。PathoLIC的局部细节更接近输入区域,差异图残差更低,说明它在相同存储预算下更好保留病理结构,并减少传统JPEG常见的块状伪影。

图8该图展示NCT-CRC-HE-100K中查询patch及Top-5检索结果。PathoLIC压缩后的图像更容易检索到语义一致的组织类别,例如肿瘤查询对应肿瘤候选,而JPEG在部分示例中出现语义不一致结果,说明PathoLIC更好保持了用于表征学习和检索的细粒度纹理语义。

图9该图比较未压缩输入、PathoLIC、I2C、QmapCompression和JPEG压缩后进行细胞核分割的结果。PathoLIC得到的分割掩膜最接近GT,并在示例中取得更高Dice分数,表明其对细胞核边界、染色纹理等细胞级细节的保留优于对比方法。

图10该图显示移除不同位置的QCM都会导致MS-SSIM和PSNR下降,其中移除主潜变量相关QCM影响最明显,说明内容分数对主编码和主解码特征的调制是性能提升的关键,同时超先验和均值方差调制也提供互补收益。

图11该图比较保留与移除QCM残差连接的率失真曲线。去掉残差连接后,MS-SSIM和PSNR在各码率下均下降,低码率区域尤其明显,说明残差式缩放有助于稳定特征调制并避免质量控制破坏原始表征

图12该图展示TITAN和CHIEF给出的高注意力与低注意力patch。高注意力patch多为肿瘤巢和细胞密集区域,低注意力patch多为脂肪、间质或背景,说明基础模型注意力与病理诊断相关性大体一致,为内容感知码率分配提供了可解释依据。