基于可变形注意力与邻域特征聚合的多对比度图像超分辨率方法（DANCE）：在解剖学和代谢MRI中的应用/文献速递-基于人工智能的医学影像技术

Oldlee

2026.1.30

本文提出了一种名为DANCE的深度学习方法，通过可变形注意力估计并消除多对比度MRI图像间的跨模态错位，同时采用邻域特征聚合机制，在IXI、FastMRI和内部APTW数据集上实现了优于现有方法的超分辨率性能和良好的错位鲁棒性，展现了重要的临床应用潜力。

Title题目

Multi-contrast image super-resolution with deformable attention and neighborhood-based feature aggregation (DANCE): Applications in anatomic and metabolic MRI

基于可变形注意力与邻域特征聚合的多对比度图像超分辨率方法（DANCE）：在解剖学和代谢MRI中的应用

文献速递介绍

磁共振成像（MRI）作为非侵入性医学成像技术，因其能提供丰富的软组织信息且避免电离辐射而广泛应用。然而，高分辨率MR图像的获取常面临扫描时间长、患者不适、运动伪影以及低信噪比等挑战。多对比度MRI能提供互补信息，其中一些模态易于获取，另一些则耗时较长（如T2加权、FSPDW、APTW图像），加速后者的HR成像对临床诊断至关重要。超分辨率（SR）方法，特别是基于深度学习（DL）的SR，因无需原始K空间数据且能从图像域数据提升图像质量而受到关注。多对比度MRI SR方法利用易于获取的HR参考图像（Ref）辅助超分辨率LR图像，取得了比单图像SR更好的效果。然而，跨模态错位是多对比度MRI SR中的一个重要问题，尤其是在长时间扫描（如APTW）中患者运动不可避免。虽然图像配准可部分解决错位，但其可靠性受对比度差异和病灶等因素影响，且可能需要手动干预。现有研究虽注意到错位影响，但缺乏系统性探索。本文提出的DANCE方法旨在解决多对比度MRI SR中的错位问题，通过可变形注意力估计并消除错位，再通过邻域特征聚合引导SR重建，旨在实现对错位不敏感且计算高效的性能。

Aastract摘要

多对比度磁共振成像（MRI）能从不同角度反映人体组织信息，具有广泛的临床应用。通过利用易于获取模态的参考图像（Refs）辅助信息，多对比度MRI超分辨率（SR）方法可以从难以获取模态的低分辨率（LR）图像合成高分辨率（HR）图像。本研究系统探讨了LR图像与Ref图像之间跨模态错位可能带来的影响，并在此基础上提出了一种名为DANCE的新型深度学习方法。DANCE采用可变形注意力和基于邻域的特征聚合，具有计算效率高且对错位不敏感的特点。该方法在IXI和FastMRI两个公共MRI数据集以及一个包含酰胺质子转移加权（APTW）图像的内部MR代谢成像数据集上进行了评估。实验结果表明，DANCE方法在各种场景下均持续优于基线方法，尤其在IXI数据集的错位组和临床数据集的前瞻性研究中表现出显著优势。鲁棒性研究证明，DANCE对错位不敏感，在Ref图像最大±9°旋转和±9像素平移的情况下，平均PSNR仍保持在30.67 dB。鉴于该方法理想的综合性能、良好的鲁棒性和适度的计算复杂度，其在临床应用中具有巨大潜力。

Method方法

本文提出的DANCE方法采用U形结构，包含特征提取、匹配与融合、输出重建三个主要模块。输入包括LR图像和Ref图像，LR图像经过K空间零填充以匹配Ref图像的表观分辨率。特征提取模块采用双分支共享参数，但层归一化层除外，以适应不同数据分布。该模块使用复合Transformer层（CTL）捕获长距离依赖，CTL包含窗口注意力块（WAB）、通道注意力块（CAB）和前馈块（FFB），其中CAB改进了转置注意力机制，采用金字塔结构以降低计算复杂度。匹配与融合模块是DANCE的核心，分为两阶段：首先，对Ref特征应用自适应实例归一化（AdaIN）以减少分布差异；接着，可变形注意力机制在最深层特征上进行，通过余弦相似度进行粗匹配，并利用可变形卷积层（Convoffset）估计并精炼错位；最后，邻域特征聚合机制根据估计的错位对Ref特征进行形变，然后在每个LR图像块的邻域内进行特征融合，通过软注意力策略加权求和，将相关Ref特征传递给LR，以指导SR重建，这种两阶段方案比传统全局交叉注意力更具计算效率。解码器由卷积层和像素重排层构成，用于处理和上采样特征。实验在IXI、FastMRI和内部T1W-APTW数据集上进行，采用回顾性和前瞻性研究设计，并使用L1损失和WGAN对抗损失进行网络优化，以PSNR和SSIM作为评估指标。

Discussion讨论

本研究系统性地探讨了多对比度MRI SR中跨模态错位的影响，并针对此问题提出了DANCE方法。在回顾性研究中，我们观察到在错位病例下，所有方法性能均下降，但匹配型方法通常能保持较好结果，这表明有限的感受野在特征融合时难以有效传递错位区域的参考纹理。DANCE在错位病例中的显著优势及其在代谢成像数据集上的前瞻性应用，是推动该方法临床应用的重要原因。前瞻性研究中，SANet作为非匹配型方法，其输出存在伪影，这可能源于APTW与T1W图像间显著的对比度差异导致的不完全配准。MTrans虽无伪影但存在过度平滑问题，而DANCE则能提供更清晰的边缘和接近真实值的输出。鲁棒性研究进一步验证了DANCE对不同程度错位的良好适应性，尤其在旋转和/或平移错位较大时，DANCE的性能下降幅度明显小于其他基线方法。此外，通过可视化可变形注意力机制，我们展示了DANCE如何有效估计并校正Ref特征的错位。消融研究和模型效率分析也证明了DANCE各组件设计的合理性及其在计算效率上的优势，特别是两阶段的匹配与融合方案显著降低了计算成本。

Conclusion结论

本文提出了一种新颖的多对比度MRI超分辨率方法DANCE，其核心在于可变形注意力和邻域特征聚合机制。可变形注意力用于估计LR和Ref图像之间的错位，而邻域特征聚合则负责在邻域内聚合Ref特征并传输相关纹理以指导LR图像的SR。在三个MRI数据集上进行的广泛实验一致显示出DANCE的优越性能和最先进水平。鲁棒性研究证明了该方法对跨模态错位的不敏感性，消融研究验证了网络架构设计的合理性。尽管DANCE的参数数量相对较大，但其计算复杂度适中。综合考虑其理想的综合性能（特别是在APTW代谢成像数据集上的前瞻性研究）、对错位的良好鲁棒性和可接受的复杂性，DANCE在未来的临床应用中具有巨大潜力。本研究仍存在局限性，例如方法中存在较多超参数，其调整可能对模型性能有显著影响。此外，本研究仅在脑部数据集上对错位进行了探索，未来应在腹部和胸部成像等更多临床场景中评估其对非刚性错位的处理能力。

Results结果

回顾性研究在IXI和FastMRI数据集上进行，DANCE在对齐的IXI和FastMRI病例中表现出适度优势，PSNR分别比次优方法Restormer高0.40 dB和0.66 dB，并在FastMRI数据集的定性比较中显示出最小的重建损失。对于IXI数据集的错位病例，所有基线方法的SR性能均显著下降，而DANCE表现出最先进的性能和显著优越性，其输出具有最高的整体质量、最清晰的解剖细节和最小的重建损失。前瞻性研究在T1W-APTW数据集上进行，DANCE在原始图像和量化图（MTRasym）上均优于基线方法Restormer、SANet和MTrans。SANet输出存在伪影，MTrans输出则过度平滑，而DANCE提供了视觉上令人愉悦且接近真实值的输出，显示出临床应用潜力。鲁棒性研究表明，DANCE对旋转和/或平移错位具有良好的不敏感性。在Ref图像最大±9°旋转和±9像素平移的情况下，DANCE的平均PSNR仍达30.67 dB，远优于基线方法。可视化结果显示，DANCE通过可变形注意力成功捕获并消除了Ref特征的错位。消融研究证实了复合Transformer层、可变形注意力和邻域特征聚合机制的有效性，证明了网络架构设计的合理性。DANCE的计算效率也优于其他匹配型基线方法，轻量级模型DANCE-tiny和DANCE-small在参数量较少的情况下仍能超越MINet和SANet，尤其在错位图像对上表现更佳。

Figure图

图1. 自然图像Ref-SR与多对比度MRI SR的相似点和不同点。自然图像Ref-SR的LR和Ref图像通常是从不同视角捕获的，导致方向和位置上存在明显差异。然而，在大多数多对比度MRI SR情况下，错位相对不那么显著。图像来源于CUFED5、IXI和FastMRI数据集。

图2. 所提出的DANCE呈现U形结构，包含三个模块：特征提取、匹配与融合以及输出重建。NBFA是基于邻域的特征聚合的缩写。LR和Ref特征提取分支共享参数。

图3. 复合Transformer层（CTL）由窗口注意力块（WAB）、通道注意力块（CAB）和前馈块（FFB）组成。每个编码器包含多个CTL，如下图右下角所示。

图4. 采用可变形注意力和邻域特征聚合的两阶段方案。(A) 在可变形注意力中，LR和Ref特征首先根据余弦相似度进行匹配以获得粗略错位，随后通过可变形卷积进行细化。(B) 估计的错位用于形变Ref特征。之后，一个邻域内的所有Ref特征被聚合，确保将相关的Ref特征传递给LR。

图5. FastMRI数据集中一个代表性病例的定性比较。第一行是输出，第二行是与真实值之间的残差。底部PSNR和SSIM指标中，红色为最佳，蓝色为次佳。

图6. IXI数据集中一个错位病例的定性比较。上排是输出，下排是与真实值之间的残差，中间两排放大显示详细结构。底部PSNR和SSIM指标中，红色为最佳，蓝色为次佳。

图7. 前瞻性研究的定性比较，来自T1W-APTW数据集的三个病例（分别在A、B和C中）。MTRasym图以伪彩色显示，通过减去I(-3.5 ppm)和I(+3.5 ppm)两个原始输出获得。

图8. 通过手动对Ref图像进行平移和旋转来研究错位对模型性能的影响。我们的方法对跨模态错位表现出良好的不敏感性。

图9. 本方法可变形注意力机制的可视化。错位估计后，Ref特征被形变以消除错位。

图10. 相关方法的性能、参数数量（PARAMs）和计算成本（FLOPs）之间的关系。灰色、蓝色和橙色分别代表通用SR方法、无匹配型和基于匹配型的SR方法。所提出的DANCE以及DANCE-tiny和DANCE-small用深红色填充。Restormer和DANCE-tiny的气泡重叠。