SparseXMIL: 利用稀疏卷积实现数字病理学全玻片图像上下文感知和内存高效分类/文献速递-多模态医学影像最新进展

Oldlee

2026.4.15

本研究提出SparseXceptionMIL (SparseXMIL)，一种结合稀疏卷积与Xception架构的新型多实例学习模型，通过高效利用稀疏图像表示和多尺度空间交互，显著提升了全玻片图像（WSI）分类的GPU内存效率和预测性能，尤其在需要空间上下文的任务中表现优异，并具有良好的可解释性。

Title题目

SparseXMIL: Leveraging sparse convolutions for context-aware and memory-efficient classification of whole slide images in digital pathology

SparseXMIL: 利用稀疏卷积实现数字病理学全玻片图像上下文感知和内存高效分类

文献速递介绍

病理学通过显微镜检查组织样本，揭示疾病机制，对患者诊断和临床决策至关重要。数字病理学利用数字成像技术，通过全玻片图像（WSIs）实现组织样本的数字化和自动化分析，为提高诊断准确性开辟了新途径。然而，WSIs的巨大尺寸和精细的细胞级信息导致其难以直接应用常规卷积神经网络（CNN）。多实例学习（MIL）框架通过将WSI分割成小块（实例）进行处理，但现有MIL方法难以有效整合小块间的空间上下文信息。尽管一些方法尝试引入空间上下文，如基于Transformer和图神经网络（GNN）的方法，但它们各有局限，例如计算成本高昂、对图结构设计敏感或难以处理低放大倍数下组织内容不足的幻灯片。为了解决这些问题，本文提出SparseXMIL，利用稀疏卷积构建深度架构，以在多尺度上捕捉WSI数据的全局和局部空间交互，实现内存高效且能处理高分辨率信息的计算病理学分析，适用于资源受限的环境。主要贡献包括：引入结合稀疏卷积和Xception架构的新MIL模型SparseXMIL；在多个分类任务和数据集上展示其竞争性或最先进的性能；进行可扩展性分析证明其内存效率；进行消融研究和敏感性分析评估模型组件和空间上下文的重要性；并通过乳腺癌案例研究展示其可解释性。

Aastract摘要

全玻片图像（WSI）的计算机分析在病理学诊断中日益普及，但其庞大的数据量带来了巨大的挑战。多实例学习（MIL）通过将WSI分割成小块进行处理，成为一种可行的方案，但现有MIL方法未能充分捕捉小块间对准确诊断至关重要的空间上下文。同时，基于卷积神经网络（CNN）架构适应高分辨率图像的方法通常消耗大量GPU内存，限制了架构的规模和可扩展性。本文提出了一种名为SparseXceptionMIL (SparseXMIL) 的新框架，通过引入多维稀疏图像表示和新型池化操作符，旨在提高WSI数据中空间交互建模的GPU效率。该操作符将稀疏卷积与Xception架构相结合，实现了局部和全局尺度的有效空间信息建模。在乳腺癌和肺癌亚型分类、以及乳腺癌WSI中DNA损伤反应异常预测等多种分类任务上的实证评估表明，SparseXMIL在空间上下文重要的任务中优于最先进的MIL方法，并且在GPU内存需求方面与基于CNN的方法相比具有更好的折衷。这些结果强调了稀疏卷积架构在高效和可扩展WSI分析中的潜力。

Method方法

本文介绍了SparseXceptionMIL (SparseXMIL)，该方法扩展了传统的多实例学习框架，以整合WSI分析中的空间依赖性。首先，通过利用小块嵌入和坐标，将每个小块的信息投影到多维稀疏图像上，构建稀疏图像表示。其次，针对标准卷积在处理大规模稀疏数据上的局限性，提出了一个新的稀疏池化操作符，该操作符基于Minkowski卷积和Xception架构，适合处理大规模数据。SparseXMIL的全局设计包括两个核心部分：稀疏图像表示和稀疏池化操作符。稀疏图像表示通过从WSI中采样小块，提取其特征向量和原始坐标，并将坐标进行下采样和几何变换，生成一个反映小块实际空间分布的多维稀疏图像。稀疏池化操作符首先通过Adapt-Layer将嵌入通道降维，以减少后续卷积层的内存需求。然后，一个基于Xception架构和Minkowski子流形卷积的稀疏卷积网络对降维后的稀疏图像进行处理，该网络通过包含池化操作符和带步长的卷积，在保持稀疏性的同时捕捉局部和全局信息，最终通过全局平均池化和线性层生成预测。

Discussion讨论

本文通过一系列实验，深入探讨了SparseXMIL在处理全玻片图像（WSI）方面的性能和特性。研究结果表明，在乳腺癌和肺癌亚型分类以及BRACS乳腺组织病变亚型等需要强空间上下文的任务中，SparseXMIL的性能显著优于其他最先进的多实例学习（MIL）方法。这主要归因于其新颖的稀疏图像表示和专门设计的稀疏卷积架构，能够有效捕获局部和全局的空间交互。这一优势在乳腺癌亚型任务中尤为明显，证实了空间感知方法在特定病理学诊断中的关键作用。然而，对于肾细胞癌（RCC）亚型任务，各方法的性能差异不大，这可能暗示在该类任务中空间上下文的贡献有限，空间感知方法引入的额外参数反而可能增加过拟合风险。

内存效率是SparseXMIL的另一个显著优势。通过与基于CNN的方法（如神经图像压缩NIC）进行比较，尽管NIC在Xception架构下能达到与SparseXMIL相近的预测性能，但SparseXMIL在训练过程中所需的GPU内存显著减少。这使得SparseXMIL在处理大规模WSI数据时更具可扩展性，尤其适用于硬件资源有限的环境。

敏感性分析揭示了不同模型对空间扰动的不同依赖程度。图神经网络（GNN）方法对空间扰动最为敏感，这可能与其图构建算法（如k-NN）对采样实例数量的敏感性较低有关。而SparseXMIL在空间扰动下性能有所下降，尤其是在改变全局组织结构（第二种扰动）时，下降幅度大于SparseConvMIL，这表明SparseXMIL对全局组织结构较为敏感，与其在局部和全局尺度上进行建模的设计一致。TransMIL在实例采样下对扰动表现出较好的鲁棒性，说明其空间信息处理受处理小块数量影响较大。

消融研究强调了SparseXMIL训练中关键组件的重要性，如大批量训练、图像增强和测试时增强。图像增强在防止模型过拟合方面发挥了关键作用。此外，Interpretability分析通过GradCAM热图证明了SparseXMIL能够更精确地识别病变区域，其中模型中间层的激活提供了更精细的肿瘤分割细节，增强了模型的可靠性和可信度。然而，在面对较小队列或复杂任务（如BRCA tHRD预测）时，SparseXMIL的F1分数较低且方差较大，可能存在一定程度的过拟合，这提示在低数据量情况下仍需进一步优化模型鲁棒性。

Conclusion结论

本文提出了一种新型的多实例学习方法SparseXceptionMIL (SparseXMIL)，其核心在于将全玻片图像（WSI）表示为多维稀疏图像，并结合专门设计的稀疏卷积架构，以高效处理稀疏性并捕捉局部和全局空间交互。在多项分类任务中的全面实验表明，当空间上下文具有相关性时，SparseXMIL能显著提升分类性能；当空间信息不那么重要时，其性能也能与主流方法保持一致。研究还证明，尽管神经图像压缩（NIC）结合类似架构也能取得相似结果，但SparseXMIL在训练时所需的GPU内存显著减少，为硬件资源有限的机构提供了更可及的工具。通过敏感性分析和解释性分析，进一步验证了SparseXMIL在利用空间上下文和聚焦于相关信息以生成准确预测方面的有效性。未来的工作将探索替代采样策略、新的数据增强技术（尤其是那些能引入全局组织结构扰动的技术），以及通过迭代或在线策略对齐特征表示与空间增强，以进一步提升模型的性能和鲁棒性。

Results结果

本文在多种分类任务上对SparseXMIL与现有MIL和CNN方法进行了广泛比较。在乳腺癌（BRCA）、非小细胞肺癌（NSCLC）和肾细胞癌（RCC）的亚型分类任务中，SparseXMIL在BRCA亚型任务上表现出卓越的性能，AUC、MCC和F1分数均优于其他方法，凸显了空间上下文的重要性。在NSCLC任务中，SparseXMIL与TransMIL性能持平。RCC亚型任务中，各方法性能差异不大，表明空间上下文作用有限。实例采样在训练和测试阶段普遍提升了多数方法的性能。在DNA损伤反应（HRD）预测任务中，Attention MIL总体表现最佳，SparseXMIL在mHRD预测中取得了最佳AUC和次优MCC，但在小样本量复杂任务上F1分数较低且波动性大，可能存在过拟合。在BRACS乳腺组织病变亚型分类任务中，SparseXMIL在粗粒度分类中全面超越其他方法，在细粒度分类中F1分数最佳、MCC次优，再次验证了空间感知方法在空间上下文重要任务上的优势。与CNN方法比较，SparseXMIL在BRCA亚型任务上实现了与Xception架构NIC相当的AUC，但所需内存更少，突显了稀疏卷积在内存效率上的优势。可扩展性分析显示，SparseXMIL在处理大批量WSI时，内存消耗远低于TransMIL、GCN-MIL和NIC等方法，尤其在实例采样情况下，进一步证实了其在处理大规模数据时的内存效率优势。敏感性分析表明，空间扰动对GCN-MIL影响最大，而SparseXMIL和SparseConvMIL表现出更高的鲁棒性。SparseXMIL对全局组织结构更为敏感，第二种扰动导致其性能下降更显著。数据增强敏感性研究显示，GCN-MIL应用边缘删除效果不明显，而TransMIL在小块顺序打乱后性能有所提升，但SparseXMIL在保持空间上下文的同时，数据增强效果更佳。使用CONCH编码器作为小块嵌入器时，SparseXMIL性能仍具竞争力，验证了其与更强编码器结合的扩展性。消融研究显示，大批量训练、图像增强和测试时增强对SparseXMIL的性能至关重要，特别是图像增强能有效防止过拟合。解释性分析通过GradCAM热图显示，SparseXMIL在肿瘤分割方面比Attention MIL和GCN-MIL具有更高的F1分数和精确度，能够更准确地聚焦于相关组织区域，其中流（middle flow）激活提供了更详细的肿瘤分割。

Figure图

图1. 利用空间上下文进行WSI分析的重要性。以下示例考虑了一个将小块分类为肿瘤（红色方块）或非肿瘤（白色方块）的模型。在幻灯片级别显示了模型的两种不同结果，其中分类为阳性（红色）和阴性（白色）的小块数量相同。由于已知肿瘤细胞彼此靠近，右侧的预测可能比左侧的预测更能代表真实情况。然而，对于大多数MIL方法而言，由于它们不考虑空间上下文，这两种情况是无法区分的。

图2. a) 稀疏图像表示。从给定尺寸为(W, H)的输入WSI X中，我们采样一组r个坐标为Cr的实例Xr。这组实例被送入小块嵌入器f，从中提取每个实例的固定大小表示，得到矩阵VâˆˆRrÃ—l。同时，坐标被因子ds=(w,h)下采样，并通过变换矩阵M进行增强，得到Craug。最后，V中的嵌入与Craug中对应的坐标对齐，形成尺寸为Wâ€²=W/w和Hâ€²=H/h，l个通道的稀疏图像S={Craug,V}。b) 稀疏池化操作符架构。稀疏池化操作符架构接收稀疏图像表示作为输入，生成WSI的最终预测。它首先由Adapt-Layer组成，将l个通道映射到更小的维度。然后，一个基于Xception架构和Minkowski子流形卷积构建的稀疏模型从Adapt-Layer的输出构建最终预测。

图3. 在BRCA数据集上，使用所提出的方法和基准方法在不同批量大小下，十个训练周期内测得的峰值内存使用情况的条形图。峰值内存使用情况是使用Nvidia GPU监控工具对每个批量大小的三种不同种子计算并取平均值。顶行显示仅使用20%实例时的内存使用情况，而底行显示未进行实例采样时的内存使用情况。某些批量大小下未显示的方法超出了GPU内存的最大容量。

图4. 从BRCA样本幻灯片生成的各种基准方法的注意力分数热图。注意力分数由在乳腺亚型分类中表现最佳的模型生成。我们将地面真实肿瘤掩码（来自Gao et al., 2023）并置显示。从蓝色到红色的颜色梯度表示注意力分数增加，红色表示最高注意力。