2025.12.30
本文提出一种新颖的多模态深度学习模型,通过结合4D CTP影像和临床元数据并采用交叉注意力机制,能更准确地预测急性缺血性卒中患者的90天功能预后,优于单一模态和传统晚期融合方法。
Title题目
01
A cross-attention-based deep learning approach for predicting functional stroke outcomes using 4D CTP imaging and clinical metadata
一种基于交叉注意力深度学习方法,利用4D CTP成像和临床元数据预测卒中功能预后
文献速递介绍
02
急性缺血性卒中(AIS)由脑部血凝块引起,导致脑部缺氧和神经功能迅速恶化,因此及时治疗至关重要。神经影像技术,特别是时空(4D)CT灌注(CTP),在诊断和评估脑损伤(半暗带和梗死核心)方面扮演关键角色。然而,4D CTP数据由于其噪声和高维度特性,直接分析和解释面临挑战,通常需依赖后处理技术生成灌注参数,但这些参数计算可能受多种因素(如动脉输入功能选择不准确)影响。尽管4D CTP已被证明在评估组织活力方面有益,但其时空特性尚未被充分利用来预测卒中患者的功能预后,尤其是与临床元数据结合的潜力。以往的多模态深度学习方法多采用晚期融合策略,可能限制了对模态间复杂关系的探索。本研究首次结合完整的时空4D CTP影像和临床元数据来预测急性缺血性卒中患者的功能预后,并提出了一种新颖的基于交叉注意力机制的中间融合策略,旨在更有效地捕捉模态间复杂关系,实验证明该方法优于单一模态和传统晚期融合方法。
Aastract摘要
02
急性缺血性卒中(AIS)是全球性的健康挑战,若不及时干预会导致长期功能障碍。时空(4D)CT灌注(CTP)成像因其能够快速评估缺血核心和半暗带,在AIS的诊断和治疗中至关重要。尽管传统上用于临床评估急性组织状态,4D CTP也已被研究用于预测卒中组织预后。然而,其结合临床元数据预测功能预后的潜力仍未被充分探索。因此,本研究旨在开发和评估一种新颖的多模态深度学习模型,通过结合4D CTP和临床元数据来预测AIS患者的功能预后(具体为90天改良Rankin量表)。为此,我们引入了一种带有交叉注意力机制的中间融合策略,使其能够选择性地关注两种模态中最相关的特征和模式。在对70名接受血管内机械取栓的AIS患者数据集的评估中,所提出的模型达到了0.77的准确率(ACC),优于传统的晚期融合策略(ACC = 0.73)以及基于单一4D CTP(ACC = 0.61)或临床元数据(ACC = 0.71)的模型。结果表明,所提出的模型能够更好地利用复杂的模态间关系,强调了先进多模态融合技术在预测卒中功能预后方面的价值。
Method方法
03
本研究引入并评估了一种新颖的深度学习模型,旨在利用治疗前的4D CTP影像和临床元数据,预测急性缺血性卒中患者90天功能预后(有利或不利)的概率。模型架构包含三个主要部分:模态特定编码器,用于从各模态中提取高级特征嵌入;中间特征融合模块,利用自注意力和交叉注意力整合模态内部及模态间的依赖关系;以及分类模块,利用精炼和整合后的表示生成最终分类结果。4D CTP影像数据通过一个3D CNN编码器进行d维嵌入,并在所有时间点共享权重,同时加入位置编码。临床元数据中的分类特征使用嵌入层转换为d维向量,数值特征使用全连接层。每个模态的嵌入序列前都附加一个类令牌(CLS)。中间特征融合模块受Transformer结构启发,自注意力层用于细化各模态内部嵌入序列,交叉注意力层用于融合两模态的上下文嵌入,查询(Q)来自一个模态,键(K)和值(V)来自另一个模态,增强了模态间的动态交互。每个注意力层后接残差连接和层归一化,再通过前馈网络进一步处理。分类模块将两模态的CLS令牌拼接后输入全连接网络,通过Sigmoid激活函数输出最终概率分数(高于0.5表示预后不利)。实验目标是评估所提出的中间融合策略相比晚期融合的优势,并探索各模态对模型性能的影响。研究数据包括70名AIS患者的4D CTP影像和9项临床元数据,90天mRS评分被二值化。预处理包括4D CTP影像的运动校正、基线强度校正、时间重采样和Z-score归一化;临床元数据进行缺失值填补和0-1归一化。核心和半暗带体积也从灌注图中计算并归一化以进行比较。模型采用10折交叉验证进行训练和评估,使用二元交叉熵损失和Adam优化器,配合余弦学习率调度器和早停策略。
Discussion讨论
04
本研究结果表明,与单一模态方法相比,多模态学习能够更准确、可靠地预测卒中功能预后,特别是采用交叉注意力机制的中间融合策略优于传统的晚期融合方法。所提出的中间融合模型在预测卒中功能预后方面表现最佳,可能在于其能够有效捕捉4D CTP影像和临床元数据这两种异构输入数据之间复杂的交互关系。交叉注意力机制是实现这一目标的关键,因为它允许模型动态地关注各模态中最相关的特征,从而更有效地整合和利用互补信息。与晚期融合策略的比较表明,晚期融合可能无法捕捉对预测功能预后至关重要的细微模态间关系。在复杂任务中,利用多种模态的互补信息尤其有益,中间融合策略可能更受青睐以最大化预测准确性。单一模态与多模态模型的比较进一步证明了数据融合在预测卒中功能预后中的关键作用。单一临床元数据模型表现出有竞争力的性能,但未达到多模态模型的准确水平。即使向临床元数据中添加简单的影像衍生特征(如核心和半暗带体积),多模态模型仍然更优。单纯依赖4D CTP影像预测功能预后面临挑战,但当提供临床背景信息时,其预测价值得到增强。这些分析不仅验证了所提出的多模态模型的优越性,也强调了整合各种模态以更好地区分具有不同临床预后的卒中患者的重要性。本模型0.77的准确率与先前多模态研究的结果一致,超越了传统的以组织为中心的评估,支持开发个性化治疗方案,从而改善患者预后。本研究的局限性包括:样本量较小,可能影响结果的泛化性;模型内部4D CTP和临床元数据交互机制尚不完全明确,限制了模型的可解释性;以及对mRS90评分进行二值化处理降低了结果的细粒度。未来工作应关注探索更广泛的中间融合策略,比较不同影像模态的有效性,整合可解释性AI技术,以及将治疗类型纳入模型输入。
Conclusion结论
05
本文介绍了一种新颖的多模态深度学习模型,该模型利用时空4D CTP影像和临床元数据两者的优势来预测急性缺血性卒中患者的功能预后。通过采用带有交叉注意力机制的中间融合策略,所提出的模型能够有效捕捉复杂的模态间关系,从而提高预测准确性。研究结果也强调了单纯依赖4D CTP影像或临床元数据的局限性,表明全面审视可用的患者数据对于开发更可靠的卒中预后预测模型至关重要。
Results结果
06
本研究提出的中间融合模型在所有评估指标上均优于两种晚期融合模型和所有单一模态模型。具体来说,中间融合模型的准确率(ACC)为0.77(95% CI: 0.70–0.87),F1分数(F1-score)为0.79(95% CI: 0.70–0.88),以及受试者工作特征曲线下面积(AUC ROC)为0.75(95% CI: 0.64–0.87)。相比之下,晚期融合模型(设置1)的准确率为0.73,F1分数为0.77,AUC ROC为0.70;晚期融合模型(设置2)的准确率为0.71,F1分数为0.75,AUC ROC为0.69。单一临床元数据模型表现出较强的预测能力,准确率为0.71,F1分数为0.74,AUC ROC为0.73。在该模型中加入核心和半暗带体积后,结果相似,准确率为0.71,F1分数为0.74,AUC ROC为0.72,表明没有改善预测性能。仅使用4D CTP数据的模型表现最差,准确率为0.61,F1分数为0.68,AUC ROC为0.60。这些结果突出表明,临床元数据本身具有预测价值,同时也揭示了单纯依赖影像数据预测功能预后的局限性。多模态策略,特别是本研究提出的中间融合模型,在平均指标和更窄的置信区间上均优于单一模态模型,表明整合多种数据模态可以带来更准确和鲁棒的预测模型。
Figure图
07

图1.所提出的模型架构概述,旨在利用治疗前的4D CTP(顶部)和临床元数据(底部)预测功能预后为有利(mRS90为0-2)或不利(mRS90为3-6)。它由三个组件组成:(1)模态特定编码器,用于从每种模态中提取特征。(2)一个使用自注意力和交叉注意力来整合和分析模态内部及模态之间关系的中间特征融合模块。(3)一个生成最终预后评分的分类模块。

图2.两种单一模态基线模型的概述。

图3.晚期融合(设置1)基线模型的概述。

图4. 晚期融合(设置2)基线模型的概述。