一种病理学内容感知变速率学习图像压缩框架 (PathoLIC)/文献速递-多模态应用技术

Oldlee

2026.3.27

PathoLIC是一种针对全玻片图像（WSI）的内容感知变速率学习压缩框架，通过为图像块分配内容分数并利用注意力机制减少冗余，实现了8倍以上的压缩率，同时在多种下游诊断任务中保持了图像细节和性能。

Title题目

A content-aware variable-rate framework for pathology learned image compression (PathoLIC)

一种病理学内容感知变速率学习图像压缩框架 (PathoLIC)

文献速递介绍

数字病理学将组织学玻片转换为高分辨率全玻片图像（WSIs），但其巨大体量对数据存储和管理构成挑战。标准SVS格式使用JPEG或JPEG2000压缩，但文件仍庞大且存在伪影。现有基于学习的图像压缩（LIC）方法忽略了WSI中相邻图像块间的空间冗余，且未考虑内容差异导致统一压缩。本文提出PathoLIC框架，通过内容感知和变速率压缩解决这些问题，旨在同时处理16个图像块，利用诊断相关性和空间关联性，显著降低存储需求并保留组织细节。

Aastract摘要

吉像素级全玻片图像（WSIs）的巨大体积给数据存储、传输和计算分析带来了巨大挑战。现有图像压缩方法由于忽略了相邻/相似图像块间的冗余，并对内容差异不图像块应用统一压缩，导致压缩率不佳。为解决这些问题，我们提出了PathoLIC，一种专为WSI设计的、新颖的、基于学习的变速率压缩框架。具体来说，PathoLIC首先为WSI中的每个非重叠图像块分配一个内容分数，以反映其诊断相关性。每个图像块的压缩级别根据内容分数确定，优先保留诊断重要区域（如肿瘤区域）的细节，而对信息量较少的区域（如基质和背景）进行更大幅度的压缩。此外，PathoLIC采用注意力机制捕捉相邻或相似图像块之间的关系，通过压缩共享特征来最小化冗余。实验结果表明，PathoLIC在保持图像细节的同时，实现了比标准Aperio SVS格式高8倍以上的压缩。此外，它在斑块级（WSI级）癌症亚型分析和细胞核分割等多种下游任务中保持了强大的性能。这些结果证明了其在大规模WSI数据管理方面的潜力。

Method方法

PathoLIC框架首先将输入WSI分割成非重叠图像块，并根据临床相关性分配内容分数。相邻图像块被分组为固定大小的区域，PathoLIC在内容分数引导下压缩每个区域。内容分数由预训练的病理学基础模型（如CHIEF）生成，反映诊断重要性。编码器ga将图像块区域映射为潜在特征，并由质量控制模块（QCM）根据内容分数进行调制。QCM通过MLP生成通道级缩放和偏置参数。超编码器ha提取侧信息，经过QCM调制后量化。解码器gs通过超解码器hs估计统计量，并结合内容分数和通道级上下文模型重建图像，重建保真度由内容分数引导。训练时内容分数随机采样以提高泛化性，推理时使用基础模型生成的内容分数。还设计了区域级WSI比特流格式以支持高效存储

Discussion讨论

PathoLIC的有效性对于引导先验的选择（如CHIEF和TITAN）表现出鲁棒性，不同模型生成的注意力图在语义上一致，能有效区分肿瘤区域和背景。框架能根据注意力图的稀疏性自动调整平均文件大小。TITAN驱动的版本在更高压缩率下仍能保持下游任务的准确性，这证实了PathoLIC在不同基础模型下均能保留诊断完整性。消融实验进一步验证了质量控制模块（QCM）及其残差连接在提升速率-失真性能方面的重要性。尽管PathoLIC表现出色，但目前缺乏一个集成的图形用户界面（GUI）软件解决方案，以支持WSI的压缩、解压缩和直接可视化，也未能直接整合或修改病理学家注释。未来的工作将专注于开发一个全面的、用户友好的GUI平台，将这些功能统一到端到端系统中，以实现交互式可视化、注释管理和临床工作流程的无缝部署。

Conclusion结论

PathoLIC是一个新颖的内容感知变速率全玻片图像压缩框架，通过内容分数调制压缩级别，有效减少数据冗余并保留视觉和结构细节。它实现了比标准SVS格式高8倍以上的压缩，同时在癌症亚型分类和细胞核分割等下游任务中保持了强大性能。PathoLIC为大规模病理档案管理提供了高效解决方案，并促进了AI在数字病理学工作流程中的更广泛集成。

Results结果

PathoLIC在所有比较方法中始终表现出卓越的速率-失真性能，尤其在高保真设置下。在诊断相关的0.28 BPP速率下，PathoLIC的PSNR和MS-SSIM均优于QmapCompression和I2C。它在保持高保真度的同时，实现了高效的运行时和适中的模型大小，适用于实际数字病理学工作流程。与标准JPEG相比，PathoLIC在相似或更低比特率下提供更高的重建质量和更少的可见伪影。在WSI级癌症亚型分类任务中，PathoLIC（CHIEF和TITAN引导）在TCGA-BRCA、TCGA-RCC和TCGA-NSCLC数据集上均表现出与未压缩数据相当或更优的性能，且压缩比高于JPEG。在WSI级生存预测任务中，PathoLICCHIEF和PathoLICTITAN在TCGA-BRCA和TCGA-NSCLC数据集上均优于JPEG，显示出对关键预后特征的更好保留。在斑块级组织学分类和ROI检索任务中，PathoLIC在固定高保真设置下表现出与未压缩数据相当的准确性，并在相同或更低比特率下提供比JPEG更高的重建保真度。在细胞级细胞核分割任务中，PathoLIC的Dice和IoU分数与未压缩基线几乎相同，优于JPEG，且所需比特更少。消融研究证实了质量控制模块（QCM）及其残差连接的重要性，每个组件都能提升速率-失真性能。

Figure图

图1. PathoLIC的工作流程。组织学玻片被数字化为SVS格式的WSI，然后被划分为非重叠区域，每个区域包含16个图像块。通过利用图像块级别的相关性，网络减少了冗余并生成了一个比原始SVS文件小得多的二进制文件。在解压缩过程中，PathoLIC以高保真度重建WSI，确保保留精细的组织学细节。

图2. 所提出的WSI压缩框架概述。(a) WSI级推理内容分数的生成。使用预训练的基础模型（例如CHIEF (Wang et al., 2024)）生成注意力图，突出显示诊断显著区域。该图被归一化并转换为图像块级内容分数。(b) PathoLIC的详细架构。该框架由编码器ga、超编码器ha、解码器gs、超解码器hs、通道级上下文模型和质量控制模块（QCM）组成。QCM被插入到多个阶段，以根据输入内容分数调整特征表示。在训练期间，AE和AD被排除，速率使用熵模型进行估计（*表示仅推理）。

图3. 所提出的QCM架构。内容分数Q通过MLP映射生成缩放（Î±）和偏置（Î²）参数，这些参数通过仿射变换调制输入特征图，实现内容感知压缩。

图4. 两种基础模型（CHIEF vs. TITAN）引导的框架可视化比较。两种模型都始终突出肿瘤区域（红色）并抑制背景。

图5. 速率-失真比较。与传统压缩方法（JPEG、JPEG2000）和其他LIC方法（QmapCompression、I2C）相比，PathoLIC在不同每像素比特数（BPP）范围内实现了优越的多尺度结构相似性指数（MS-SSIM）和峰值信噪比（PSNR）。

图6. 使用我们的模型在不同Î»值下的区域级可视化。第一行显示原始和重建区域，第二行显示放大的诊断相关图像块，第三行描绘原始图像和重建图像之间的差异图。

图7. 各方法间的区域级比较。所有模型均以相似的每像素比特数（BPP）速率显示。值得注意的是，即使在较低或相当的BPP下，我们的方法也能实现更高的感知质量并保留更多结构细节，这体现在更高的PSNR值和差异图中更小的残差。

图8. NCT-CRC-HE-100K数据集上的ROI检索可视化。该图显示了查询图像块（左列）及其前5个检索到的候选图像块。第1行和第3行显示使用PathoLIC的结果，而第2行和第4行显示使用JPEG的结果。显示的组织类别包括：STR（癌症相关间质）、TUM（结直肠腺癌上皮）、MUC（黏液）和NORM（正常结肠黏膜）。为每个图像块提供了类别标签（CLS）和距离度量（D）。PathoLIC展示了更强的语义一致性（例如，在第3行），而JPEG则表现出语义不一致性（例如，在第4行中为肿瘤查询检索到正常组织）。

图9. 细胞核分割鲁棒性对抗压缩伪影的定性比较。将基线预测（在未压缩输入上）与PathoLIC、I2C、QmapCompression和JPEG的结果进行比较。PathoLIC生成的分割掩膜与真实值（GT）最接近，并具有更高的Dice分数（例如，PathoLIC为0.927，JPEG为0.917）。

图10. QCM的组件级消融研究表明，移除任何子模块（QCMy和QCMy^{、QCMz或QCMÎ¼}&Ïƒ）都会导致所有BPP下的重建质量下降。

图11. 移除QCM中残差连接的影响。禁用残差路径会导致MS-SSIM和PSNR的显著下降，证实了其对于稳定和高保真特征调制的的重要性。

图12. 图像块级内容分数的可视化验证。显示了来自TITAN（顶部）和CHIEF（底部）的高注意力分数和低注意力分数的代表性图像块。高注意力区域始终对应于诊断性肿瘤巢和细胞区域。低注意力区域始终对应于脂肪组织、基质或背景。