Title
题目
Navigating the landscape of multimodal AI in medicine: A scoping review on technical challenges and clinical applications
《探索医学领域多模态人工智能的发展态势:关于技术挑战与临床应用的范围综述》
01
文献速递介绍
医疗保健领域格局正迅速演变,推动因素是以数据为中心、用于患者护理和决策的方法日益普及(Shilo 等人,2020年)。这一转变得到了诸如数字病理学(Niazi 等人,2019年)、生物传感器(Sempionatto 等人,2022年)和下一代测序(Steyaert 等人,2023年)等技术的补充,这些技术为临床医生在各个领域提供了新的见解。这些不同模态产生的数据通常具有互补性,每种模态都为患者的状况提供独特信息。有些模态在宏观层面提供全面概述,而其他模态可能在单细胞分辨率下提供详细信息(Steyaert 等人,2023年)。除了近期数据数量的增长外,可用治疗方案的质量和多样性也在同步提升。因此,选择最佳治疗方案变得愈发复杂,可能需要进一步采用以数据为中心的治疗选择方法。 将不同数据模态的信息整合到单一决策中的传统方法,体现为多学科委员会模式,在此模式中,每位专业临床医生针对特定模态或信息发表自己的观点,以达成共识(Mano 等人,2022年)。尽管建立这些委员会改善了疾病评估和患者管理计划(Mano 等人,2022年),但这些委员会的可扩展性存在可预见的限制。如果数据数量和多样性持续增加,将需要许多领域专家来有效整合这些不同的信息流。所幸,另一项在医疗保健领域站稳脚跟的技术进步是人工智能(AI)。尽管已发表的绝大多数研究成果聚焦于人工智能的单模态应用,但有几位作者强调了人工智能系统整合多信息流(即所谓的多模态人工智能)用于决策的潜力(Steyaert 等人,2023年;Acosta 等人,2022年;Lipkova 等人,2022年)。这些多模态人工智能模型经过训练,能够有效处理不同的多模态数据流,利用信息的互补性,并基于患者状况的更广泛背景做出有依据的预测。然而,尽管有这些有前景的成果,研究多模态人工智能模型的相关研究相对较少,单模态模型的开发仍是实际操作中的标准做法。 多模态人工智能模型发展滞后可归因于几个挑战。首先,在多模态人工智能开发的跨部门性质中,存在一个实际挑战。由于不同的数据模态可能源自不同的医学科室,为了实现有效的数据整合,可能需要咨询不同的医学领域专家。此外,医学科室在数据存储、检索和处理方面的经验可能各不相同,这限制了多模态人工智能开发的可能性。例如,如果放射科拥有全数字化的工作流程,而对应的病理科却没有,这实际上会阻碍将全玻片图像与放射成像数据相结合的多模态人工智能研究工作。 不同的数据模态可能具有截然不同的特征,如维度或色彩空间,这通常需要针对这些模态量身定制不同的人工智能模型架构,从而增加了模型设计的复杂性。例如,卷积神经网络(CNN)最初是为结构化数据(如二维和三维图像)提出的,但无法直接应用于非结构化数据。相反,Transformer 是适用于各种数据模态的可靠、灵活的编码器。不过,一种通用型架构是否能够有效捕捉各种医学数据模态,目前仍不清楚。在实际操作中,多模态数据整合通常是通过不同的(中间)模型输出来实现的。训练多个特定领域的人工智能模型(即编码器)并将它们有效整合到单一预测中,是多模态人工智能开发所面临的独特挑战。 最后,在多模态数据集中,每位患者的所有模态数据并非都能稳定获取,这增添了复杂性。患有不同疾病轨迹的患者会有各种不同的可用模态,导致数据集部分不完整。对于需要完整多模态数据来生成预测的人工智能模型而言,这可能会大幅减少合适的训练数据集规模。此外,这些问题也会延续到实际应用中。如果某些模态数据缺失,从可用于决策的可用数据减少以及可能引入人群选择偏差的角度来看,可能不清楚这会如何影响模型的性能(Acosta 等人,2022年)。简而言之,与单模态人工智能开发相比,开发多模态人工智能模型带来了几个新的挑战。 即便存在这些挑战,过去也有一些关于多模态人工智能应用的研究工作,通常涉及手工制作的特征。这些方法的一个关键问题在于,因需要特定领域专业知识而产生的难度被放大了,因为专家临床医生还需要参与特征设计阶段(Vaidya 等人,2020年;Tortora 等人,2023年)。Kline 等人(2022年)发表了一篇关于多模态人工智能应用的出色综述,指出与单模态模型相比,这些模型在曲线下面积(AUC)指标上平均提升了6.4% 。 近年来,人们对用于医疗任务的多模态人工智能开发的兴趣不断升温(Salvi 等人,2024年),因为使用无监督学习和深度神经网络作为编码器,极大地简化了特征提取步骤。在本综述中,我们全面总结了用于医疗任务的多模态人工智能开发的最新进展,并研究多模态数据整合在多大程度上实现了其宣称的优势。与以往聚焦于特定疾病、预测任务或模态组合的综述不同(Acosta 等人,2022年;Salvi 等人,2024年;Krones 等人,2025年),我们的分析涵盖了整个医学领域。具体而言,我们的综述旨在阐明以下几点:(I)多模态人工智能模型在不同医学学科和任务中的开发进展;(II)多模态人工智能开发中固有的技术挑战,包括模型架构、融合方法以及缺失数据的处理;(III)多模态人工智能模型进入临床应用的可预见路径,涉及监管审批和技术实施挑战等方面;(IV)推动多模态人工智能开发的因素以及促进该领域进一步成熟的潜在策略。最后,基于对过去六年(2018 - 2024年)发表的432篇论文的仔细分析,我们将对多模态人工智能开发的未来前景进行展望。
Abatract
摘要
Recent technological advances in healthcare have led to unprecedented growth in patient data quantity and diversity. While artificial intelligence (AI) models have shown promising results in analyzing individual data modalities, there is increasing recognition that models integrating multiple complementary data sources, socalled multimodal AI, could enhance clinical decision-making. This scoping review examines the landscape of deep learning-based multimodal AI applications across the medical domain, analyzing 432 papers published between 2018 and 2024. We provide an extensive overview of multimodal AI development across different medical disciplines, examining various architectural approaches, fusion strategies, and common application areas. Our analysis reveals that multimodal AI models consistently outperform their unimodal counterparts, with an average improvement of 6.2 percentage points in AUC. However, several challenges persist, including cross-departmental coordination, heterogeneous data characteristics, and incomplete datasets. We critically assess the technical and practical challenges in developing multimodal AI systems and discuss potential strategies for their clinical implementation, including a brief overview of commercially available multimodal AI models for clinical decision-making. Additionally, we identify key factors driving multimodal AI development and propose recommendations to accelerate the field’s maturation. This review provides researchers and clinicians with a thorough understanding of the current state, challenges, and future directions of multimodal AI in medicine.
医疗保健领域近期的技术进步使得患者数据在数量和多样性上都出现了前所未有的增长。虽然人工智能(AI)模型在分析单一数据模态方面已展现出有前景的成果,但人们越来越认识到,整合多种互补数据源的模型,即所谓的多模态人工智能,能够提升临床决策水平。本范围综述审视了医学领域中基于深度学习的多模态人工智能应用情况,分析了2018年至2024年期间发表的432篇论文。我们全面概述了多模态人工智能在不同医学学科中的发展情况,研究了各类架构方法、融合策略以及常见应用领域。我们的分析显示,多模态人工智能模型在表现上始终优于其单模态同类模型,在曲线下面积(AUC)指标上平均提升了6.2个百分点。然而,仍存在一些挑战,包括跨部门协调、异构数据特征以及不完整的数据集等问题。我们批判性地评估了开发多模态人工智能系统在技术和实际应用方面的挑战,并讨论了其临床实施的潜在策略,包括简要概述可用于临床决策的商用多模态人工智能模型。此外,我们确定了推动多模态人工智能发展的关键因素,并提出了加速该领域成熟发展的建议。本综述让研究人员和临床医生能够透彻了解医学领域中多模态人工智能的当前状况、面临的挑战以及未来发展方向 。
Method
方法
4.1. Importance of public data As stated in the introduction, data availability is a key challenge for the development of multimodal medical AI. This is why we see a strong correlation between the number of models for a specific organ system/modality combination and the availability of public data (see Fig. 3c). The utilization of publicly shared datasets in multimodal AI research for medical applications is widespread, with 61% of the data sources used in the model development coming from public data portals such as The Cancer Genome Atlas (TCGA, 14%), Alzheimer’s Disease Neuroimaging Initiative (ADNI, 8%), Medical Information Mart for Intensive Care (MIMIC, 5%) and The Cancer Imaging Archive (TCIA, 2%), 15% from data shared publicly through other means (e.g. GitHub, publisher’s website), and 24% from private datasets which were not shared publicly. We grouped all other data portals used by less than ten reviewed papers into ‘‘other data portals’’ (20%). A detailed breakdown of these public data sources can be viewed in the supplementary materials.
4.1. 公共数据的重要性 如引言所述,数据可用性是多模态医疗人工智能发展的关键挑战。这也是为什么我们发现特定器官系统/模态组合的模型数量与公共数据的可获得性之间存在强相关性(见图3c)。在医疗应用的多模态人工智能研究中,公开共享数据集的使用十分普遍——模型开发中使用的数据源有61%来自公共数据平台,例如癌症基因组图谱(TCGA,占14%)、阿尔茨海默病神经影像倡议(ADNI,占8%)、重症监护医疗信息库(MIMIC,占5%)和癌症影像档案(TCIA,占2%);15%来自通过其他方式公开共享的数据(如GitHub、出版商网站);24%来自未公开共享的私有数据集。我们将所有被不足10篇综述论文使用的其他数据平台归为“其他数据平台”(占20%)。这些公共数据源的详细分类可参见补充材料。
Conclusion
结论
In conclusion, this review provides one of the most comprehensive overviews of multimodal AI development, spanning various medical disciplines, tasks, and data domains. Although substantial evidence exists that multimodal AI models will incur significant performance boosts by taking a broader view of the patient, their development poses novel challenges. We hope this review elucidated some of these challenges, but more importantly, potential solutions to guide the field in the coming years.
总之,本综述对多模态人工智能的发展进行了最为全面的概述之一,涵盖了多个医学学科、任务和数据领域。尽管有充分证据表明,多模态人工智能模型通过更全面地审视患者状况,能够显著提升性能,但其开发也带来了新的挑战。我们希望本综述能够阐明其中一些挑战,更重要的是,能为未来几年该领域的发展提供潜在的解决方案作为指导。
Figure
图

Fig. 1. Overview of the screening process.
图1. 筛选流程概述

Fig. 2. Overview of the data modalities used in the reviewed articles. (A) Distribution of articles by year. Bar chart shows an exponential increment in the number of studies per year from 2018 to 2024. Extrapolating, the number of multimodal medical AI studies is expected to reach 199 by the end of 2024. (B) Pie chart shows the proportions of different modality groups and the respective data modalities used across studies. © Stacked bar chart illustrates the growth trends of data modality groups over the years. Note that the values used in this chart represent the counts of individual data modality uses, where multiple modalities could be presented in a single article. (D) Diagram shows the combination trends between data modalities per model. The diagram captures the unique modality combinations presented in each models the individual article has presented. The numbers in brackets indicate the total summation of models per category, whereas the numbers without brackets represent the count of models of each combination, visualized with the ribbon bands between the vertical nodes. The majority of the models used two data modalities, and a portion of the total used three and four modalities. Three multimodal models used data modalities that were grouped under ‘‘other non-image’’ category based on the definition used in this review.
图2. 综述文章中所使用的数据模态概述。(A)按年份划分的文章分布情况。柱状图显示,2018年至2024年间,每年的研究数量呈指数增长。据此推测,到2024年底,多模态医疗人工智能研究的数量预计将达到199项。(B)饼图展示了不同模态组的占比以及各研究中所使用的相应数据模态。(C)堆叠柱状图说明了多年来数据模态组的增长趋势。需要注意的是,本图表中的数值代表各数据模态的使用次数,单篇文章中可能会出现多种模态。(D)图表呈现了每个模型的数据模态之间的组合趋势。该图表捕捉了每篇文章中各个模型所采用的独特模态组合。括号中的数字表示每个类别的模型总数,无括号的数字则代表每种组合的模型数量,通过垂直节点之间的带状区域进行可视化呈现。大多数模型使用两种数据模态,还有一部分模型使用三种和四种模态。根据本综述中的定义,有三个多模态模型所使用的数据模态被归到了“其他非图像”类别下。

Fig. 3. A deeper dive into the medical tasks and data sources of the review. The numbers on the bars indicate the total summation per category. (A) Top: The number of articles per organ system. Bottom: Distribution of medical tasks across organ systems. Pie charts show diagnosis being the most prevalent medical task performed in studies of all organ systems. (B) The use trends of data sources in this review. Note that the values used in the chart represent the total count of uses of all the reviewed studies, where multiple data sources could be referred to in each study. About 61% of the total uses were sourced from data portals (e.g. TCGA, ADNI, etc.), 15% from research data shared publicly by publications, and 24% of the data uses were private datasets that were not made public. © Distribution of public data sources (excluding private datasets) across the studies of organ systems. Similarly, the nervous and respiratory systems are leading in the count of public data uses. A detailed breakdown of these public data sources can be found in the supplementary materials
图3. 对本综述中医疗任务和数据源的深入分析。柱状图上的数字表示每个类别的总数。(A)上方:每个器官系统的文章数量。下方:各器官系统中医疗任务的分布。饼图显示,诊断是所有器官系统研究中最普遍的医疗任务。(B)本综述中数据源的使用趋势。请注意,图表中的数值代表所有被综述研究的总使用次数,每项研究可能涉及多个数据源。约61%的总使用量来自数据平台(如TCGA、ADNI等),15%来自出版物公开共享的研究数据,24%的数据使用量来自未公开的私有数据集。(C)公共数据源(不包括私有数据集)在各器官系统研究中的分布。同样,神经系统和呼吸系统在公共数据使用次数上领先。这些公共数据源的详细分类可参见补充材料。

Fig. 4. Simplified schematic view of the different fusion stages. (a) Early fusion. The modalities (in this case, prostate cancer MRI (Saha et al., 2022) and histopathology whole-slide images (Weinstein et al., 2013) are combined before feature encoding. (b) Intermediate fusion. A feature extraction network is used before fusion, after which the (intermediate) features get combined to then be processed by a final model. © Late fusion. A feature extraction network is used to extract a result (e.g. prediction) from each individual modality, after which the results are combined. No deep learning is used after fusion.
图4. 不同融合阶段的简化示意图。(a)早期融合。在特征编码之前将模态(在本案例中为前列腺癌磁共振成像(Saha等人,2022年)和病理组织切片图像(Weinstein等人,2013年))进行组合。(b)中间融合。在融合之前使用特征提取网络,之后将(中间)特征进行组合,再由最终模型进行处理。(c)晚期融合。使用特征提取网络从每个单独的模态中提取结果(如预测),之后将这些结果进行组合。融合之后不使用深度学习。
Table
表

Table 1 A brief overview of all modality categories considered in this review with several examples (non-exhaustive) of corresponding data types.
表1 本综述所涉及的所有模态类别的简要概述,以及相应数据类型的若干示例(非详尽列举)。