E2AD在训练时利用MRI-PET配对数据蒸馏多模态知识,推理时仅用MRI实现更准确、泛化更强且可生成结构化报告的AD检测。
Title题目
01
E2AD:基于解剖与关系感知跨模态知识蒸馏的增强可解释阿尔茨海默病检测框架
E2AD: Enhanced and explainable Alzheimer’s disease detection framework via anatomy- and relation-aware cross-modal knowledge distillation
文献速递介绍
02
论文从AD早期检测的临床需求出发,指出MRI能够反映脑萎缩等结构改变,PET能够提供代谢或病理分子层面的信息,两者互补但PET常因费用、辐射和可及性限制而缺失。现有多模态方法通常假设测试时MRI和PET都存在,难以适应真实临床流程;MRI单模态方法虽然部署方便,却浪费了训练阶段可获得的PET监督;MRI到PET合成方法又主要追求图像重建质量,未必直接提升诊断判别能力;已有跨模态蒸馏多停留在logit或全局特征层面,容易压缩掉细粒度解剖知识和群体层级的疾病关系。为此,作者提出E2AD,核心思想是训练时利用MRI+PET教师模型,推理时只保留MRI学生模型,并将诊断知识分解为个体内的“疾病证据在哪里”和群体间的“病例如何组织”两个层次。论文贡献包括提出解剖感知蒸馏、关系感知蒸馏、面向结构化MRI报告的多智能体LLM流程,并在多个队列上验证性能、泛化和解释性。
Aastract摘要
03
本文针对PET昂贵且临床常缺失的问题,提出E2AD,使模型在训练阶段从MRI-PET多模态教师模型学习,而在部署时仅依赖MRI完成阿尔茨海默病诊断和MCI进展预测。方法在传统logit知识蒸馏基础上加入解剖感知蒸馏和关系感知蒸馏:前者通过解剖Mixture-of-Mappers学习ROI级别的个体内病变线索,后者通过Gram关系和CKA对齐学习受试者间稳定疾病结构。论文还设计了一个多智能体LLM工作流,将模型的解剖路由权重、人口学信息和相似病例检索结果转化为面向临床的MRI报告。在ADNI内部数据及AIBL、NACC外部队列上的实验表明,E2AD优于CNN、Transformer、解剖相关、生成式和蒸馏式SOTA方法,并表现出更快收敛、更好数据效率、更强跨队列泛化与更好的解释性。
Method方法
04
方法部分首先形式化传统知识蒸馏:多模态教师模型接收MRI和PET,MRI学生模型只接收MRI,训练损失包含硬标签交叉熵和教师学生logit对齐。然而作者认为logit和普通特征蒸馏过于粗粒度,因此提出两个互补模块。解剖感知蒸馏使用解剖Mixture-of-Mappers,先借助配准到脑图谱的ROI mask将3D特征图转化为56个ROI特征,再用ROI-specific mappers捕获局部区域特异性病变,用ROI-shared mapper捕获全局、跨ROI共享的萎缩负担或弥散性病变模式。为约束这些映射器,论文设计mapper regulation loss,使共享特征在不同ROI间更一致,特异特征在不同ROI间更可分,并通过重建损失保持信息完整。随后,差分解剖路由器DA-Router基于两组注意力分布之差计算ROI权重,抑制普通注意力噪声并突出判别性脑区,教师和学生的解剖路由权重通过交叉熵形式的解剖蒸馏损失对齐。关系感知蒸馏则关注batch内受试者之间的结构关系:用归一化Gram矩阵表示教师-教师、学生-学生以及经过共享/特异特征线性转换后的学生-教师和教师-学生关系,再用CKA将这些学生相关关系对齐到教师-教师关系,使MRI学生模型继承由PET辅助形成的疾病连续谱几何结构。完整E2AD分两阶段训练:先用MRI-PET配对数据预训练多模态教师,再用全部MRI数据和配对数据上的logit、解剖、关系三类蒸馏训练MRI学生。推理阶段仅需MRI,并输出诊断和ROI级解释。
临床报告生成流程
为提升可用性,论文在E2AD之上构建了一个面向3D MRI报告的多智能体LLM工作流。该流程包括四类代理:rephrase agent将人口学和模型输出整理成标准输入,knowledge agent整合医学背景、指南和PubMed相关知识,reference agent基于解剖路由权重在训练参考集中检索相似病例并统计诊断分布,report agent将这些信息合成为结构化影像报告。报告通常包含患者信息、检查技术、影像所见、AI辅助分析和诊断印象。与直接让视觉语言模型生成报告相比,该流程不直接让LLM“看图臆测”,而是让其基于模型的ROI权重、相似病例和医学知识进行受限生成,从而减少幻觉并增强临床可追溯性。
实验设置
实验使用三个公开队列:ADNI用于模型开发和内部测试,AIBL用于NC与AD外部测试,NACC用于pMCI与sMCI外部测试。MCI患者若36个月内进展为AD则标记为pMCI,否则为sMCI。MRI预处理包括AC-PC对齐、强度校正、去颅骨、异常值裁剪、归一化和中心裁剪;PET经过去颅骨、配准到MRI以及相同裁剪和归一化处理。脑区图谱主要采用Harvard-Oxford皮层与皮层下图谱,双侧合并并去除脑干后得到56个ROI。实现方面使用PyTorch和NVIDIA V100,体素编码器采用CNN残差块以增强局部空间建模并降低配准误差影响;教师模型训练50个epoch,学生模型蒸馏40个epoch。评价指标包括ACC、AUC、F1、precision和recall,并采用ADNI五折分层交叉验证。
与SOTA方法比较
论文在AD诊断和MCI进展预测两个任务上与13种SOTA或经典方法比较,包括3D ResNet、3D SeNet、I3D等CNN方法,3D Swin、MadFormer、M3T等Transformer方法,3D PIPNet、AAGN和E2AD单模态变体等解剖相关方法,JointFrame和ResDM等MRI到PET生成方法,以及DCFMnet和MDT-student等蒸馏方法。AD诊断结果显示,CNN在3D医学影像中因局部归纳偏置通常优于Transformer;显式引入脑图谱比隐式解剖建模更有效;生成式方法可能过度关注PET体素级还原而缺少稳定的判别能力;普通蒸馏方法虽较强,但主要捕获全局表征,忽略了解剖先验。E2AD在ADNI内部和AIBL外部测试上均显著优于第二名MDT-student,论文给出的双侧配对t检验p值分别为3.42×10^-2和1.36×10^-2。MCI进展预测中,E2AD同样在ADNI和NACC上取得最佳表现,并显著优于MDT-student,p值分别为1.96×10^-2和1.19×10^-2。
可解释性与报告分析
解释性分析显示,E2AD的群体级解剖路由权重集中在与AD病理相符的区域。AD诊断任务突出海马旁回、颞下回、颞枕梭状皮层、角回等与较晚期AD病变相关的区域;MCI进展预测则更关注海马旁回、扣带回、颞上回等与早期或细微认知下降相关的区域。个体层面示例表明,多数ROI权重接近均匀基线,而萎缩更明显的区域被赋予更高权重,额叶等通常在AD中相对较少受累的区域权重较低。报告生成评估中,一名有12年经验的神经放射科医生对20例随机病例进行双盲评分,E2AD生成报告在关键异常准确性、诊断推理、结构可读性和术语规范性四个维度均优于AutoRG-Brain。作者认为,利用解剖路由权重和检索增强参考病例能够让报告更贴近证据,减少误识别模态或编造肿瘤等幻觉,但其建议仍偏通用,个体化程度仍有提升空间。
消融研究
消融实验首先验证蒸馏组件贡献。仅使用传统logit KD只能带来有限提升;加入A-MoM和解剖感知蒸馏后,模型获得稳定的解剖表征增益;进一步加入关系感知蒸馏后,性能继续提升,说明AnaKD与RelKD是互补监督而非重复监督。在RelKD内部,教师到学生关系项由于能提供直接跨角色反向传播而最有效,三种关系项联合使用效果最佳。ROI粒度消融表明,过粗的5脑叶分区难以捕捉局部病灶,过细的116区AAL图谱会放大个体差异和配准误差,而默认56区Harvard-Oxford图谱在ADNI和AIBL上均表现最好且跨数据集AUC下降最小。A-MoM内部消融显示,DA-Router优于普通注意力,mapper regulation loss尤其是解耦损失能够显著提高性能;t-SNE可视化证明该正则使共享特征更聚合、ROI特异特征更分离。训练效率实验显示,即使不使用跨模态蒸馏的E2AD单模态版本也比3D ResNet和3D Swin收敛更快,在只用10%训练数据时仍保持较强性能。关系蒸馏的batch size分析显示,batch从2增至8时ACC和AUC提升,超过6后趋于平台;特征t-SNE按MMSE着色后呈现连续疾病谱,说明batch级关系对齐能够累积形成符合临床认知轨迹的全局流形。
Discussion讨论
05
论文将E2AD置于MRI型AD检测、多模态融合、模态补全和跨模态蒸馏的背景下讨论。相比要求测试时多模态齐全的融合方法,E2AD部署时只需MRI;相比MRI合成PET的方法,它更直接优化诊断表征;相比普通跨模态蒸馏,它显式引入解剖ROI和受试者间关系结构。作者强调E2AD的优势包括MRI-only部署、解剖感知疾病建模、群体关系层面的潜在空间稳定性、可转化为报告的临床解释性,以及适合PET不足机构和多中心研究的现实可用性。局限性方面,E2AD依赖预定义图谱和跨受试者配准,遇到非典型解剖、巨大病灶、术后改变或扫描协议显著变化时鲁棒性仍需验证;教师模型主要基于MRI-FDG-PET配对数据,其知识能否迁移到淀粉样蛋白PET、tau PET或其他神经退行性疾病尚不明确;LLM报告流程是回顾性验证,缺少形式化不确定性估计;蒸馏阶段仍要求MRI-PET配对样本,未来可探索半监督或联邦蒸馏以降低数据门槛。
Conclusion结论
06
论文提出E2AD这一增强且可解释的AD检测框架,通过解剖感知和关系感知跨模态知识蒸馏,在训练时充分利用MRI-PET互补信息,在推理时仅依赖MRI。个体内层面,A-MoM和DA-Router将教师的ROI级解剖依赖迁移给学生,使模型关注的脑区具有空间意义和临床可追溯性;个体间层面,RelKD通过对齐学生相关关系与教师-教师关系,提高跨队列泛化和潜在空间稳定性。结合多智能体LLM报告生成流程,E2AD不仅提升了诊断性能,也将模型证据转化为更接近临床工作流的结构化MRI报告。
Figure图
07

图1.
该图概括了E2AD的核心设定:训练阶段使用MRI-PET配对数据构建多模态教师,通过LogitKD、AnaKD和RelKD把知识迁移到MRI-only学生模型,推理阶段只需MRI。右侧柱状图展示E2AD相对3D ResNet基线的性能提升,在AD诊断中ACC从83.2提升到90.3,提升7.1个百分点;在MCI进展预测中ACC从66.6提升到75.0,提升8.4个百分点,直观说明跨模态蒸馏带来的实际收益。

图2.
该图是全文最关键的方法图,展示了三部分:整体教师学生蒸馏架构、解剖Mixture-of-Mappers和关系感知蒸馏。教师模型同时输入MRI和PET,学生模型只输入MRI;A-MoM把脑影像特征转化为ROI token,经共享和特异mapper以及DA-Router形成可解释的解剖权重;RelKD则将学生-学生、学生-教师和教师-学生关系对齐到教师-教师关系,从而学习更稳定的病例间结构。

图3.
该图说明A-MoM中共享和特异mapper如何被约束。共享损失促使不同ROI的共享特征彼此接近,表示全局共同疾病趋势;解耦损失促使不同ROI的特异特征相互区分,并减少同一ROI内共享与特异特征冗余;重建损失确保共享和特异特征合起来仍保留原始ROI信息。这一设计使模型同时表示弥散性脑萎缩和局部区域病变。

图4.
该图展示DA-Router如何计算解剖路由权重。模块从ROI特征中融合ROI内和ROI间信息,生成两组query和key,并通过两张注意力图的差分得到更尖锐、更抗噪的ROI重要性分布。该权重既用于加权融合ROI-specific特征,也作为模型解释和教师学生解剖蒸馏的对象。

图5:
该图展示E2AD如何从MRI和人口学信息生成结构化临床报告。流程先由E2AD提取解剖路由权重,再由rephrase、knowledge、reference和report四个LLM代理分别完成输入重写、医学知识补充、相似病例检索和最终报告撰写。该设计把模型证据、指南知识和参考病例整合到报告中,提高了报告的临床可读性和可追溯性。

图6:
该图展示群体级和个体级的解剖路由权重。在AD诊断中,模型重点关注海马旁回、颞枕梭状皮层、角回和颞下回等AD相关区域;在MCI进展预测中,模型关注海马旁回、扣带回、颞上回等较早期变化区域。个体示例显示萎缩更明显的脑区权重更高,说明E2AD的注意力并非纯粹依赖固定图谱,而是能随个体病变模式动态调整。

图7.
该图比较E2AD生成报告和AutoRG-Brain在四个维度的放射科医生评分。E2AD在关键异常准确性、诊断推理、结构化格式与可读性、术语标准化上均明显更高,尤其在关键异常和诊断推理方面差距较大。结果支持作者关于基于解剖权重和检索增强的报告生成更少幻觉、更符合临床证据的主张。

图8.
该图展示E2AD单模态变体中各解剖模块的贡献。DA-Router相对普通注意力提高AUC,mapper regulation loss进一步提升性能,其中解耦损失带来明显增益;t-SNE图显示加入正则后,ROI-shared特征形成更紧凑的共享簇,ROI-specific特征按ROI更清晰分离。这证明共享和特异特征的解耦对解剖感知建模至关重要。

图9.
该图比较E2AD单模态变体、3D ResNet和3D Swin的训练曲线与小样本性能。E2AD单模态版本在40个epoch内更快降低交叉熵损失,且在只使用10%训练数据时AUC仍明显高于3D ResNet和3D Swin。结果说明显式解剖建模不仅提升性能,也能提高训练效率和数据利用率。

图10.
该图分析RelKD对batch size的依赖以及学习到的潜在空间结构。随着batch size从2增大到8,ACC和AUC逐步提高并在较大batch时趋于稳定,说明足够的batch内样本关系有助于蒸馏。右侧按MMSE分数着色的t-SNE呈现连续梯度,表明E2AD学到的表示与认知下降程度相一致,而不是仅仅拟合离散标签。