2026.1.28
本文组织了首届低剂量CT感知图像质量评估挑战赛,发布了首个由六位放射科医生标注的开源LDCT IQA数据集,并全面分析了多种深度学习算法的性能,展示了免参考IQA方法超越传统全参考方法的潜力,为CT图像质量评估研究奠定了基础。
Title题目
01
Low-dose computed tomography perceptual image quality assessment
低剂量计算机断层扫描感知图像质量评估
文献速递介绍
02
计算机断层扫描(CT)是重要的诊断工具,但其辐射剂量对患者健康构成潜在风险。为实现辐射剂量最小化,研究人员致力于开发去噪等图像重建技术以在低剂量下获得可接受的图像质量。目前,医学图像质量评估的“金标准”是放射科医师的主观评估,但这存在成本高、耗时和个体偏差等问题。虽然峰值信噪比(PSNR)和结构相似性指数(SSIM)等客观指标以及免参考IQA方法(如BRISQUE)已被提出,但它们多为自然图像设计,对医学图像诊断质量的细微差异表现力有限。已有研究尝试将主客观评估关联起来,并开发基于深度学习的CT IQA方法,如基于CNN的模型观察器和D2IQA。然而,CT IQA研究面临三大限制:难以获取高质量参考图像阻碍了全参考IQA发展;主观评估成本高昂导致缺乏公开数据集;数据稀缺导致研究多依赖私有数据集,缺乏可比性。为克服这些限制,LDCTIQAC 2023挑战赛应运而生,旨在开发与放射科医师评估高度相关的IQA方法,特别强调免参考深度学习算法的开发,并提供了首个开源低剂量CT IQA数据集,以期推动标准化CT图像质量评估指标的建立。挑战赛提供了训练数据,包含腹部图像及放射科医师评分,并自动化了算法测试。最终排名基于PLCC、SROCC和KROCC三个相关系数的总和。参与者需提交Docker容器和描述算法的简短论文。共122名参与者加入,6个团队提交了最终算法。
Aastract摘要
02
在计算机断层扫描(CT)成像中,平衡辐射剂量与图像质量至关重要,以避免对患者造成潜在危害。尽管放射科医师的主观评估被认为是医学成像的“金标准”,但其耗时且成本高昂。传统的客观评估方法,如峰值信噪比和结构相似性指数,最初为自然图像设计,可能无法充分反映放射科医师的感知。因此,开发与放射科医师感知更一致的深度学习图像质量评估(IQA)方法日益受到关注。然而,CT IQA领域一直缺乏开源数据集和基准模型。为解决这些挑战,本文组织了低剂量CT感知图像质量评估挑战赛,并发布了首个包含1000张不同质量CT图像及放射科医师评估分数的开源CT IQA数据集。本挑战赛对六种提交方法进行了全面分析,提供了宝贵的性能洞察。本文总结了这些方法和见解,并强调了开发免参考IQA方法超越全参考IQA方法的潜力,为医学影像研究界做出了重大贡献。
Method方法
03
本研究在获取数据集时遵循了三项原则:关注低剂量CT图像的主要伪影而非单一类型,以确保通用性;收集代表不同种族背景的数据集,涵盖广泛的诊断场景;确保主观评分反映诊断质量。因此,挑战赛着重处理稀疏视图条纹和噪声两种主要伪影,通过基于物理的伪影插入管道模拟。数据集来源于美国Mayo Clinic和韩国国家癌症中心(NCC),以确保种族多样性。采用专门设计的Likert五分制量表进行图像质量评分,该量表综合考虑了图像噪声、解剖结构和诊断解释,并由经验丰富的放射科医师进行评分。训练、验证和测试数据集通过引入不同噪声和条纹伪影生成,并确保患者之间独立。噪音伪影通过添加泊松噪声模拟,条纹伪影通过减少每转投影数生成。最终得到12种组合的图像失真类型。放射科医师评分的组内相关系数(ICC)显示出极高的一致性。基线模型包括基于任务的拟人模型观察器(CHO和NPWE)、直接噪声测量(SNR)、自然图像领域的BRISQUE和NIQE,以及常用的PSNR和SSIM。评估方法采用皮尔逊线性相关系数(PLCC)、斯皮尔曼等级相关系数(SROCC)和肯德尔等级相关系数(KROCC)的总和作为最终综合评分,以全面衡量算法与放射科医师评估的线性与非线性相关性。参与者以Docker容器提交算法,在Grand Challenge平台上进行匿名验证和测试。
Discussion讨论
04
本文首次提出了专门针对CT图像的IQA挑战,为CT IQA任务未来的研究方向提供了指导,并为医学IQA研究社区提供了首个开源数据集。本挑战赛提交的算法优于基线模型,且在不依赖参考图像的情况下,达到了与PSNR和SSIM等已建立的全参考IQA指标相媲美的结果。这些发现表明,新方法有望取代传统的全参考IQA指标。参赛者采用了多样化的方法,包括适应最先进算法、知识蒸馏或整合更适合医学图像的特征。多数算法采用回归方法,但也有分类和多任务处理方法。集成方法虽然常见,但在实际应用中的可行性仍需进一步研究,如gabybaldeon通过知识蒸馏降低了推理时间。与PSNR和SSIM在Mayo Clinic和NCC数据集之间没有显著分数差异相比,提交的算法显示出明显的差异,这可能因为PSNR和SSIM是依赖参考图像的全参考IQA方法,而提交的算法是免参考IQA方法。所有提交的算法均优于模型观察器CHO和NPWE,这归因于模型观察器主要关注特定病灶检测,而放射科医师和提交算法则评估整体诊断准确性。泛化性测试显示,算法在具有相似噪声伪影统计的头部CT数据集上表现良好,但在真实体模图像上的性能有所下降,表明需要提高泛化能力。Team Epoch算法在泛化性测试中表现持续良好,可能归因于其独特的噪声图提取和重度数据增强策略。本研究也存在局限性,包括放射科医师评估的主观性、数据集广度不足、未分析感知敏感性、未充分考虑评分不确定性以及评估指标适用性问题。此外,本研究侧重于预测医学图像的整体诊断性能,但未来的研究应纳入基于诊断任务的评分。
Conclusion结论
05
作为医学图像质量评估(IQA)领域的首次挑战,本次活动显著推动并提升了医学IQA研究。引入首个专门为CT IQA任务设计的开源数据集是一项关键成就。本研究强调了为CT图像量身定制的免参考IQA算法作为现有标准全参考IQA方法(如PSNR和SSIM)实用替代方案的可行性。尽管挑战赛中提出的算法展现出取代这些标准IQA指标的巨大潜力,但其在不同数据集和成像条件下的泛化能力仍需改进。这种改进对其最终被采纳为该领域的标准指标至关重要。因此,未来的CT IQA研究,以及其他有前景的研究方向,应侧重于开发强调泛化性的算法,以确保其在广泛临床场景中的适用性和有效性。
Results结果
06
本节总结了六个参赛团队的方法和结果。agaldran团队的方法性能最佳,综合得分2.7427,PLCC、SROCC和KROCC得分分别为0.9491、0.9495和0.8440。RPI_AXIS团队位居第二,CHILL@UK团队位居第三。所有提交的算法均优于基线模型观察器(CHO和NPWE)、SNR、BRISQUE和NIQE。在排除全剂量图像后,前三名算法表现优于PSNR,其中前两名算法同时超越了PSNR和SSIM。然而,尽管PSNR和SSIM与Mayo Clinic和NCC数据集的回归线几乎完美对齐,但高排名的算法在两个数据集之间也存在回归线对齐的差距。参赛团队主要采用常见的神经网络架构,如基于Vision Transformer和Swin Transformer的多维注意力网络(RPI_AXIS)、EfficientNetV2(CHILL@UK),以及agaldran、FeatureNet和gabybaldeon团队将这些网络作为其独特方法的基础。Team Epoch则构建了一个基于边增强密集连接卷积神经网络(EDCNN)的两阶段IQA网络。大多数算法采用基于回归的模型,但agaldran和Team Epoch也引入了分类范式。除了Team Epoch,所有团队都使用了ImageNet预训练权重,Team Epoch则使用AAPM数据集对EDCNN进行预训练。除了RPI_AXIS和FeatureNet,其他团队都采用了集成方法来提高模型鲁棒性。在泛化性测试中,算法在CQ500数据集上的表现良好,显示出模型有效学习了与解剖结构不同的纹理信息。Team Epoch的算法在此数据集上表现出色,获得了最高的综合评分。然而,在评估来自不同扫描仪的真实体模图像时,算法的性能普遍下降,除了Team Epoch的算法在东芝数据集上表现出异常鲁棒性。这可能归因于Team Epoch独特的噪声图提取和数据增强策略。
Figure图
07

图1. 结合噪声和条纹伪影生成的12种失真类型的图像示例。N和S旁边的数字分别代表噪声和条纹伪影的等级。图像显示在腹部软组织窗(宽度:350/水平:40)。

图2. 按失真类型和放射科医师评分划分的训练、验证和测试数据集的数据分布。N和S旁边的数字分别表示噪声和条纹伪影的等级。来自Mayo Clinic和NCC的数据分别用深灰色和浅灰色表示。

图3. 每张图像放射科医师评分标准差的分布。

图4. 各方法与放射科医师主观评分之间相关性的可视化,其中来自Mayo Clinic和NCC的数据分别用灰色和黑色标记。回归线表示每个数据集的分数与放射科医师对每种方法的评分之间的关系,使用Sheikh等人(2006)描述的五参数逻辑函数计算。

图5. 使用CQ500数据集生成的头部CT数据样本图像(Lee等人,2022),具有七个噪声级别,从左到右递增,可视化范围为[0, 80]亨斯菲尔德单位。

图6. 箱线图表示每种算法在CQ500数据集泛化性测试中的表现。x轴表示图像的噪声水平;y轴表示每种算法预测的图像质量评估分数。团队按其在挑战中的排名从左到右绘制。

图7. 来自西门子、GE和东芝三个数据集的域相关特征(对比度和纹理)的可视化。对比度通过平均像素强度测量,而纹理则由GLCM对比度值表示,这些值在每个特征分别随机选择的均匀ROI内获得。

图A.8. agaldran提交的方法架构;GN:组归一化(Wu和He,2018),ReLU:修正线性单元,AvgPool:平均池化,Conv:卷积。

图A.10. CHILL@UK采用的EfficientNetV2-L(Tan和Le,2021)模型架构,对第一层和最后一层进行了修改。第一层适应灰度图像输入,最后一层修改为输出单一数字质量分数。

图A.11. FeatureNet的模型架构;BN:批归一化(Ioffe和Szegedy,2015)。

图A.12. Team Epoch的架构,建立在基于边缘增强的密集连接卷积神经网络(EDCNN)之上(Liang等人,2020)。

图A.13. gabybaldeon采用知识蒸馏的架构;BN:批归一化(Ioffe和Szegedy,2015)。