基于对称选择性特征融合的免配准双期胰腺与胰腺肿块分割文献速递/基于多模态的医学影像分割与理解

Oldlee

2026.7.3

本文提出一种无需图像配准的双期CT胰腺与胰腺肿块分割网络，通过对称交叉注意力选择性融合动脉期和门静脉期信息，在多中心数据上提升精度并显著加快推理。

Title题目

基于对称选择性特征融合的免配准双期胰腺与胰腺肿块分割

Effective registration-free dual-phase segmentation for pancreas and pancreatic mass via symmetrical selective feature integration

文献速递介绍

论文首先指出胰腺可发生多种肿块或病变，包括PDAC、SPN、IPMN、MCN、PNET、SCN、PPC等，不同疾病预后差异很大，术前诊断和治疗决策高度依赖可靠的影像评估。胰腺肿块在CT图像中通常占比小，且与胃肠道、血管、胰腺实质等邻近结构灰度相似，因此自动分割面临小目标、低对比、边界模糊和类型异质性等挑战。临床上动脉期和门静脉期增强CT各有价值，动脉期有助于显示部分肿瘤增强特征，门静脉期则有利于观察与周围血管和结构的关系。既有双期分割方法通常先进行图像配准再融合，但配准会显著拖慢推理流程，也可能引入形变、插值噪声和配准错误。本文的核心动机是利用交叉注意力在特征层面寻找跨期对应信息，而不是在图像层面强制配准，从而构建一种更符合临床流程、更高效的双期分割方案。作者总结的贡献包括提出免配准双期胰腺与肿块分割问题，设计对称选择性特征融合网络，构建双路径编码器和渐进式融合解码器，并在多中心、多病种数据上验证其准确性、泛化性和速度优势。

相关工作

相关工作部分分为胰腺及胰腺肿块分割、多模态或多期医学图像融合两条线索。胰腺分割早期主要使用CNN、FCN和U-Net类结构，随后注意力U-Net、两阶段定位网络、nnU-Net、nnFormer、UNETR等方法提升了器官分割性能，但多数工作聚焦单期CT，尤其是门静脉期。胰腺肿块分割方面，已有研究覆盖胰腺囊性病变、PDAC以及多种胰腺肿瘤，方法从2D U-Net、图模型、半监督学习到Transformer逐步发展，但许多方法仍以单期图像为主。多期方法如双路径3D U-Net、M3Net等证明了动脉期和静脉期互补信息的价值，但通常依赖显式配准或简单拼接、线性融合，对错位和复杂跨期关系的处理有限。多模态医学图像分割中，早期融合、后期融合和混合融合等策略也常受到体素级错位限制。作者强调，本文不同于仅在训练阶段利用未配准多模态数据或推理时只用单期输入的做法，而是在训练和推理阶段都输入未配准的双期CT，并通过三维Transformer架构和对称交叉注意力进行语义层面的特征对齐与融合。

Aastract摘要

胰腺肿块类型多样、边界复杂，且常与周围组织灰度相近，使术前自动分割具有较高难度。双期增强CT能够提供互补诊断信息，但既有双期分割方法通常依赖动脉期到门静脉期的配准，带来计算开销、插值伪影和配准误差。本文提出一种免配准双期分割框架，利用双路径编码器中的对称、权重共享交叉注意力在未严格对齐的动脉期与门静脉期特征间进行选择性对齐和融合，并通过渐进式融合解码器在上采样阶段持续整合双期细节。实验在1个内部数据集和3个外部多中心数据集上进行，结果显示该方法在胰腺肿块整体DSC上达到81.86%，优于最佳对比双期方法的76.68%，推理时间为10.55秒每例，远快于依赖配准的双期方法。

Method方法

方法部分提出一个受U-Net启发的三维U形网络，由双路径编码器、中央瓶颈模块和渐进式融合解码器组成。问题被定义为：给定同一患者未配准的动脉期CT体数据和门静脉期CT体数据，模型输出在门静脉期空间中的三分类体素掩膜，即背景、胰腺和胰腺肿块。由于动脉期与门静脉期受呼吸运动、生理运动和扫描差异影响并不严格对齐，模型不能依赖像素级或体素级对应，而需要在特征层面学习跨期匹配。双路径编码器包含两条对称分支，分别处理门静脉期和动脉期输入。每条分支先通过卷积嵌入层将体数据转为高维token特征，再通过局部Transformer块进行特征提取。局部块中先使用局部多头自注意力建模单期内部依赖，再使用局部多头交叉注意力融合另一期信息。对门静脉期分支而言，门静脉期特征作为query，动脉期特征作为key和value；对动脉期分支则相反。两侧交叉注意力模块共享权重，使模型学习更一致、更稳健的跨期选择策略。中央瓶颈模块在多次下采样后使用全局Transformer块扩展感受野，在较低分辨率下捕获全局上下文，避免计算量过大。渐进式融合解码器最终只生成门静脉期分割结果，但在解码过程中依次通过交叉注意力整合动脉期编码特征和门静脉期编码特征，再用自注意力细化解码特征。这种设计使模型在恢复分辨率的每个阶段都能利用双期互补细节。训练损失采用加权交叉熵和多类别Dice损失的等权组合，以缓解背景、胰腺和肿块之间的类别不平衡。

实验

实验使用4个私有多中心数据集。内部数据来自北京协和医院，共312例，按时间划分为223例训练验证和89例内部测试；外部测试集来自广东省人民医院53例、金陵医院50例和新疆医科大学第一附属医院60例。数据涵盖SCN、MCN、IPMN或IPMC、SPN、PDAC、PPC、PNET或PNEC以及其他少见病变，且外部数据在扫描仪、卷积核、碘对比剂浓度和层厚方面存在差异，用于评估泛化能力。所有病例均经手术病理证实，标注在门静脉期图像上完成，并由资深放射科医生复核。评价指标包括胰腺和肿块的DSC、Hausdorff距离，以及肿块检测率，检测成功定义为平均IoU超过10%。实现上，作者使用PyTorch，输入双期CT重采样至0.75毫米乘0.75毫米乘1毫米，窗宽窗位为400 HU和40 HU，归一化到0到1。训练时先用单独的3D U-Net在门静脉期粗定位胰腺，再基于预测质心裁剪双期配对patch，主训练随机裁剪为256乘256乘96，batch size为1，Adamax优化器训练1200轮。与nnFormer、nnUNet、UNETR、TGPFN、DTS等单期方法，以及M3Net、CKD-Trans等双期方法比较，本文方法在4个测试集上总体取得最优或次优结果，尤其肿块分割表现突出。按病种统计时，本文方法在252个测试病例的肿块整体DSC达到81.86%，检测率95.63%，相对最佳对比方法的DSC提升5.18个百分点，检测率提升1.58个百分点；PNET或PNEC等稀有且增强模式明显的病灶提升尤其明显。定性结果显示，本文方法能减少将胃、扩张胰管或邻近胰腺组织误分为肿块的情况，并能更完整捕获囊壁或强化区域。速度评估显示，本文方法平均每例推理10.55秒，避免了双期图像配准带来的主要时间开销，显著快于M3Net和CKD-Trans等依赖配准的双期方法，并接近单期模型速度。

消融研究与可解释性分析

消融研究首先验证未配准双期输入的价值。仅使用门静脉期、将双期简单输入单路径模型、复制门静脉期作为双路径输入等设置均不如真正使用动脉期和门静脉期的完整模型，说明动脉期信息确实为肿块分割提供了额外增益。配准与否的比较显示，使用deedsBCV将动脉期配准到门静脉期后，胰腺DSC和肿块DSC分别为92.71%和83.26%；不配准时为93.05%和84.02%，略优于配准版本，提示显式配准并非必要，且配准插值和形变可能损害原始动脉期信息。结构消融表明，对称交叉注意力编码器相对无该模块的版本使胰腺和肿块DSC分别提升1.26和2.85个百分点；渐进式融合解码器使胰腺和肿块DSC分别提升0.46和2.01个百分点。进一步比较注意力串联与并联、交叉注意力是否共享权重、query来自同相还是异相，结果显示串联结构、共享权重、同相特征作为query均更优，但部分差异仅达到边缘显著，说明核心收益主要来自对称交叉注意力机制本身。超参数分析显示，256乘256乘96的训练裁剪尺寸较小尺寸有明显提升，而继续增大到256乘256乘128反而略降，可能因为引入过多无关z轴信息；推理滑窗重叠率从0%到75%对结果影响很小。交叉注意力可视化显示，当双期局部窗口存在明显空间偏移时，门静脉期query会对动脉期病灶边界区域赋予更高权重；当两期错位较小时，注意力分布更均匀。不同注意力头呈现固定位置关注、对角线式空间对应和混合模式，支持模型能在特征层面自适应寻找跨期互补信息。鲁棒性实验通过B样条变形模拟动脉期偏移，结果表明偏移小于40毫米时性能下降很小，50到100毫米时胰腺和肿块平均DSC降至86.35%和75.63%，超过100毫米后明显崩溃，因此极端错位场景仍建议预先配准。

Conclusion结论

论文结论认为，该研究提出的免配准双期分割框架能够通过对称选择性特征融合有效整合动脉期和门静脉期CT信息，避免传统双期方法中耗时且可能引入误差的显式配准。多中心实验证明，该方法在胰腺和多类型胰腺肿块分割中均超过现有单期和双期基线，在肿块分割、外部泛化和推理效率方面尤其具有优势。其临床意义在于更贴近真实工作流：多期CT常常存在呼吸运动和器官运动导致的错位，而模型可在无需严格空间对齐的情况下直接利用双期信息，从而有望辅助术前诊断、手术计划和随访评估。作者也讨论了局限性：当两期错位超过100毫米时模型性能显著下降；对于低对比、边界极不清晰或因胃肠蠕动导致形态差异很大的病灶仍可能失败；数据均来自私有手术病理确诊病例，病灶整体较大且恶性比例较高，因此结果未必完全代表常规临床筛查或诊断场景中的表现。未来工作包括将架构扩展到多期MRI或更多成像期相，构建和共享去标识化双期数据集，并进一步增强模型在困难成像条件下的鲁棒性。

Figure图

图1.

该图展示动脉期和门静脉期CT在胰腺及胰腺肿块显示上的差异。SPN在动脉期与胰腺实质的对比更明显，而胰腺与肠系膜上静脉或脾静脉等血管结构的边界在门静脉期更清晰。它直观说明了为什么单期CT信息不足，以及双期融合对胰腺肿块分割具有临床和算法价值。

图2.

该图对比传统双期融合和本文方法。传统方案需要先将动脉期图像配准到门静脉期，再在图像或特征层面拼接；本文则用注意力权重在特征层面选择与query匹配的跨期内容，通过加权求和获得互补信息。该图概括了本文免配准的核心思想：不强制体素级对齐，而是学习语义或局部特征对应。

图3.

该图给出本文模型的完整结构，包括分别处理门静脉期和动脉期的双路径编码器、中央瓶颈模块和单分支渐进式融合解码器。编码器中浅色模块表示自注意力，深色模块表示交叉注意力；双分支交叉注意力共享权重以实现对称选择性融合。解码器通过跳连逐级整合两期编码特征，最终输出门静脉期空间中的胰腺和肿块分割。

图4.

该图细化了编码器局部Transformer块的设计。门静脉期分支以门静脉期特征为query、动脉期特征为key和value；动脉期分支则以动脉期特征为query、门静脉期特征为key和value。两侧交叉注意力共享权重，使模型可以从两个方向学习跨期对应关系，并在未配准情况下选择有用的另一期特征。

图5：

该图展示了解码阶段如何逐步融合双期编码特征。解码特征先通过交叉注意力与动脉期编码特征交互，再与门静脉期编码特征交互，随后用自注意力进一步细化。这一设计使最终分割不仅依赖门静脉期主空间，也能在每个上采样层级利用动脉期提供的病灶增强信息。

图6：

该图用箱线图比较本文方法和多个基线模型在总体测试集上的胰腺与肿块DSC分布。本文方法在肿块分割中具有更高的均值和中位数，且分布更集中，说明其不仅平均精度更高，预测稳定性也更好。对于胰腺分割，各方法差距相对较小，但本文方法仍处于领先或接近领先水平。

图7.

该图展示SCN、MCN、IPMN、SPN、PDAC、PPC、PNEC等不同病种和不同中心病例的分割结果。与nnFormer、nnUNet、UNETR、TGPFN、M3Net和CKD-Trans相比，本文方法更少把胃、扩张胰管或邻近组织误分为肿块，也能更完整分割囊壁和实性肿瘤区域。该图支撑了方法在多类型胰腺病变上的泛化能力。

图8.

该图用绿色、红色和蓝色分别表示真阳性、假阳性和假阴性，比较TGPFN、CKD-Trans与本文方法在若干病例中的肿块分割。前两个PNET或PNEC病例显示，动脉期增强更明显时本文方法能更好利用双期信息并覆盖更多病灶区域。后两个病例展示局限性，包括将明显扩张胰管误判为病灶，以及在低对比且两期形态差异大的SPN中漏检。

图9.

该图比较各方法每例CT的平均推理时间，并将配准、分割和后处理耗时分开显示。本文方法每例约10.55秒，明显快于M3Net和CKD-Trans等需要双期配准的模型，后者的大部分时间消耗在配准步骤。该图说明免配准设计不仅提高精度，也显著提升了临床部署效率。

图10.

该图展示门静脉期query到动脉期key和value的交叉注意力分布。在存在跨期局部错位时，模型会对动脉期病灶边界或相关区域分配更高权重；在错位较小时，注意力更接近均匀或空间对应。下方不同注意力头的矩阵显示，模型同时学习了固定位置关注、空间对应和混合关注等模式，为免配准跨期融合提供一定可解释性。

图11.

该图通过人为增加动脉期B样条形变偏移，展示不同错位距离下胰腺和肿块平均DSC的变化。偏移小于40毫米时性能下降有限，说明模型对常见轻中度错位具有鲁棒性；偏移达到50到100毫米时精度逐步下降，超过100毫米后下降明显。该图明确了方法适用边界：极端错位情况下仍可能需要配准或其他预处理。