Title
题目
Exploring the values underlying machine learning research in medical imageanalysis
探索医学图像分析中机器学习研究背后所蕴含的价值
Back
01
文献速递介绍
尽管人们普遍认为科学研究是完全客观的,但科学哲学家们长期以来一直认同,科学研究实际上在很大程度上依赖于非实证且往往是主观的考量因素,即研究价值观。在医学图像分析中,以下这些价值观无疑与机器学习(ML)相关: - 高准确性与稳健性; - 公平性和无偏差性; - 可解释性和可理解性; - 数据安全与隐私保护; - 对环境的最小影响。 其中一些价值观可以通过一个或多个定义明确的定性指标来实现客观化,尤其是当学术界在这些指标上达成高度共识时。例如,在图像分割、目标检测和分类中,“高准确性”这一价值观的客观化形式,很大程度上已通过诸如“指标流程图”(赖因克等人,2022)这样的框架达成了共识。对于其他价值观,比如公平性,已有多种可用的指标(例如,米恩耶等人(2024)描述了六组不同的公平性指标,这些指标与卡顿和哈斯(2024)确定的六组指标并不完全重叠,这表明仅在医疗保健领域的分类问题中就存在多样性),但学术界对于不同指标在不同情境下的适用性仍存在热烈讨论。其他一些价值观,如可解释性和可理解性,离客观化更远,因为它们还没有一系列被广泛认可的指标;不同的研究人员常常只是简单地将它们表述为系统的非实证属性。无论这些价值观能在多大程度上被客观衡量,它们更为主观的定义都会对研究的优先级设定和开展方式产生影响,尤其是在这些价值观被识别并得到更好理解之后。 的确,任何概念性工具(任何有助于研究的数学、理论或实践工具或标准,比如算法、设备、特定术语的定义等等)的出现,都会伴随着一些特定的价值观,这些价值观隐含在其设计中,进而影响其使用。这包括在各自领域被广泛一致认可的概念性工具,比如随机对照临床试验(爱德华兹等人,1998;布卢姆,2017;拉卢梅拉和凡蒂,2019),或者将研究转化为个性化医疗(格费纳斯等人,2011;萨瓦德,2013)。但它也包括一些不太明显的方面,比如如何理解和制定针对特别复杂的医学图像分析问题的方法的具体细节。现代机器学习,尤其是深度学习,作为一种概念性工具,无疑已经极大地改变了医学图像分析研究的许多方面。深度神经网络的广泛应用,使得众多不同的问题能够在一个统一连贯的框架(即基于梯度下降的大型人工神经网络学习)中,通过现成的技术工具得以解决。在某些情况下,相同的架构甚至无需任何修改,就能用于解决不同的问题,并且具有很高的性能(伊森塞等人,2018)。因此,有必要了解深度学习应用背后的价值观体系,以及这些价值观是如何影响在这个医学图像分析范式中所做出的具体决策的。 一些人已经注意到了医学机器学习的伦理影响,特别是在引入隐藏的内在偏差(格罗特,2021;巴克斯特和雅南,2022a;伊格尔森,2024)、高碳密集度(雅南,2021)以及数据/经济殖民主义(苏扎等人,2023)等方面。在支持哪些价值观以及支持到何种程度上存在的分歧,不应削弱医学机器学习研究中的讨论。相反,这些差异应该为关于特定研究应如何开展,或者在该研究中应构建何种类型的机器学习解决方案的批判性分析增添内容,前提是参与研究的人员理解这些价值观与研究过程中所做选择之间的因果关系。 然而,这并非一项简单的任务,因为在任何研究项目中都存在大量相互关联的技术决策,而且不同的研究人员可能会以不同的方式(或隐含或明确地)为这些决策提供动机。通常,某些技术决策因其动机而相互关联,而其他决策则或多或少相互独立。本文的目标是阐明在任何医学图像分析的机器学习项目中做出的一类特定技术决策的这种情况。 贡献 本文是我们之前会议论文(巴克斯特,2022)的扩展,有三个相互独立但又相关的目标,与文章的前三部分相对应。 第2部分从科学哲学的角度更严格地定义了“研究价值观”,然后探讨了一种价值观驱动一项技术决策意味着什么。我们观察到,通常所理解的价值观与其对特定技术选择的影响之间存在脱节。我们提出,可以通过考虑价值观如何产生其他价值观,并根据它们与技术决策的紧密程度对其进行排序来弥合这一差距。较低层次的价值观并非被普遍接受,但无疑会导致特定的技术决策。较高层次的价值观则相反:它们被更广泛地接受,但在与特定技术决策的关联方式上更加模糊。 第3部分探讨了一组特定的技术决策,这些决策定义了“端到端与可分离学习谱系”。这个谱系根据不同方法对“显式中间表示”的使用程度对它们进行了分组,“显式中间表示”将计算过程视为将数据结构或对象相互转换的行为。这个谱系的概念是,一些模型(即端到端模型)试图最小化这些表示,而其他模型(即可分离模型)则利用这些表示。 第4部分使用第2部分中概述的方法,以一种反映理想化机器学习研究流程的方式,探讨了与第3部分中谱系相关的价值观。这导致确定了十五种特定的价值观,以及与医学图像分析中机器学习核心技术决策相关的三个二分法,并倾向于谱系的某一端。为了完整起见,我们还讨论了一些似乎与谱系某一端相关,但又不完全相关的价值观。 第5部分和第6部分以一些假设和讨论作为结尾,内容涉及研究价值观在机器学习的历史发展中可能是如何产生的,以及关于研究价值观在理解医学图像分析方面的适用性的一般性评论。 本文试图面向两个截然不同的受众群体。对于已经熟悉研究价值观概念的科学哲学界人士,我们打算向他们介绍医学成像研究中机器学习的技术细节,这些细节可能是他们以前未曾接触过的。对于医学图像分析领域的成员,我们希望展示另一种视角,将他们的技术知识组织成与哲学相关的结构,以便进行更深入、更具批判性的分析。对于这两个群体,我们认为同样重要的是要说明研究价值观是如何贯穿整个技术研究过程的。对所有研究价值观和所有技术决策进行详尽的论述是不可行的:这样的研究至少需要好几卷的篇幅。因此,我们尝试引入了足够的哲学和技术概念,以激发并证明深入探讨一个特定元素的合理性,我们希望这两个群体都会对此感兴趣,并且这可能有助于引导机器学习研究朝着从根本上与其开发理念相一致的技术实现方向发展。
Aastract
摘要
Machine learning has emerged as a crucial tool for medical image analysis, largely due to recent developmentsin deep artificial neural networks addressing numerous, diverse clinical problems. As with any conceptual tool,the effective use of machine learning should be predicated on an understanding of its underlying motivationsjust as much as algorithms or theory — and to do so, we need to explore its philosophical foundations. One ofthese foundations is the understanding of how values, despite being non-empirical, nevertheless affect scientificresearch. This article has three goals: to introduce the reader to values in a way that is specific to medicalimage analysis; to characterise a particular set of technical decisions (what we call the end-to-end vs. separablelearning spectrum*) that are fundamental to machine learning for medical image analysis; and to create a simpleand structured method to show how these values can be rigorously connected to these technical decisions.This better understanding of how the philosophy of science can clarify fundamental elements of how medicalimage analysis research is performed and can be improved.
机器学习已成为医学图像分析的关键工具,这在很大程度上归功于近期深度人工神经网络的发展,它能够解决众多不同的临床问题。如同任何概念性工具一样,机器学习的有效应用不仅应基于对算法或理论的理解,同样也应基于对其潜在动机的理解。而要做到这一点,我们就需要探究其哲学基础。其中一个基础在于理解价值观,尽管其并非基于实证,但却依然会对科学研究产生影响。 本文有三个目标:以一种针对医学图像分析的特定方式向读者介绍价值观;描述一组特定的技术决策(我们称之为“端到端与可分离学习谱系”),这些决策对于医学图像分析的机器学习而言至关重要;创建一种简单且结构化的方法,用以展示这些价值观如何能够与这些技术决策紧密相连。 这样一来,我们就能更好地理解科学哲学如何阐明医学图像分析研究的基本要素,以及如何对其进行改进。
Conclusion
结论
There is ample literature illustrating the concrete benefits of discussing values during scientific decision making regarding medicine(Edwards et al., 1998; Douglas, 2000; Elliott and McKaughan, 2009;Lalumera and Fanti, 2019; Malinowska and Żuradzki, 2022) and science more generally (Popper, 1963; Rooney, 1992; Betz, 2013, 2017),but at this stage, it is worth taking account of the frequency with whichreasoning about values takes place in the literature regarding ML inmedical image analysis. We have already pointed out that discussions ofvalue-reasoning do account in technical research papers (Birhane et al.,although this is admittedly in to a smaller degree than researchpapers explicitly about values in ML in medicine (Jannin, 2021; Souzaet al., 2023; Topaloglu et al., 2021). There has been a proliferation inrecent years of frameworks for ethical artificial intelligence in medicineand medical imaging. Vandemeulebroucke et al. (2022) in their literature review compared a startling 57 ethical AI frameworks, indicatingthat ML researchers are indeed discussing values even if they do notfrequently make it into technical papers. Thus, one can assume thatsuch reasoning is beneficial given the sheer interest in it.The missing aspect, as stated in Section 2, is the connection betweenspecific values and specific technical decisions. This is not only an issuefor medicine, but more broadly as Prem (2023), in his review of over100 ethical AI frameworks, observed that ‘‘many of them are too abstract for being easily translated into concrete designs for AI systems’’.The goal of our paper is to help lay the theoretical foundations forexactly this kind of translation. This article makes three contributions:
1. the elucidation of the indirect nature in which values affecttechnical decisions, organising them by directness;
2. the identification of the end-to-end vs. separable learning spectrum as a collection of decisions regarding the use of explicitintermediate representations in structuring ML algorithms formedical image analysis; and
3. an exploration of the values associated with either end of thisspectrum beginning with the characterisation of these technicaldecisions, then advancing through layers of increasing indirectand high-level values
This culminates in the construction of Fig. 5 which shows the logicalchains connecting a plethora of different values at different levels of thehierarchy to each side of end-to-end vs. separable learning spectrum.Our analysis reveals many of the same technical values identifiedempirically by Birhane et al. (2022) and dovetails with Jannin’s (2021)analysis, illustrating that ML researchers are not ambivalent towardsexplicitly incorporating research values into their own research. Thismay indicate that our analysis might be generalisable to other fieldsthat make use of ML. One constraint is the reliance on the existenceand variability of EIR’s. Certain fields display this. Natural languageprocessing currently has models ranging from those based on representing words, grammatical structures, intentions, etc… to ones that do noteven segment individual words, let alone grammatical structures. Otherfields lack this variability. For example, ML for self-driving cars currently makes heavy use of explicit intermediate representations: theysearch for vehicles, signage, pedestrians etc… as well as represent trafficlaws and best practices, before determining the physical action the carshould take. ML in finance is the opposite — EIR’s are exceedingly rare.Similar analyses may be possible for other groups of technical decisions within medical image analysis. Future articles could examine thevalues behind the conceptual tools currently driving ML research, suchas open databases and federated learning, and some have already beenpublished (Souza et al., 2023; Topaloglu et al., 2021). We hope that thisarticle can introduce those in the medical image processing communityto how to understand research values in a structured manner as wellas to introduce members of the philosophical community to some ofthe nuances specific to ML in medical image analysis. The intersectionof these communities will hopefully yield deeper understandings intohow ML is applied in medicine.
有大量文献阐述了在医学相关的科学决策过程中讨论价值观所带来的具体益处(爱德华兹等人,1998年;道格拉斯,2000年;埃利奥特和麦考恩,2009年;拉卢梅拉和凡蒂,2019年;马林诺夫斯卡和祖拉兹基,2022年),以及更广泛意义上在科学领域中讨论价值观的益处(波普尔,1963年;鲁尼,1992年;贝茨,2013年、2017年)。但在现阶段,值得关注的是,在关于医学图像分析中机器学习的文献里,对价值观进行推理的频繁程度。我们已经指出,在技术研究论文中确实存在对价值推理的讨论(比尔哈内等人,2022年),尽管不可否认的是,这在程度上比那些明确讨论医学机器学习中价值观的研究论文要低(雅南,2021年;苏扎等人,2023年;托帕洛格鲁等人,2021年)。近年来,医学和医学成像领域中关于符合伦理的人工智能的框架大量涌现。范德梅勒布鲁克等人(2022年)在他们的文献综述中比较了多达57个令人吃惊的伦理人工智能框架,这表明机器学习研究人员确实在讨论价值观,即使这些讨论不常出现在技术论文中。因此,鉴于人们对此浓厚的兴趣,可以认为这样的推理是有益的。 正如第2部分所述,缺失的部分是特定价值观与特定技术决策之间的联系。这不仅是医学领域的问题,更广泛地说,正如普雷姆(2023年)在他对100多个伦理人工智能框架的综述中所指出的那样,“它们中的许多框架过于抽象,难以轻易转化为人工智能系统的具体设计” 。 我们这篇论文的目标就是为实现这种转化奠定理论基础。本文做出了三个贡献: 1. 阐明了价值观影响技术决策的间接性,并按照直接程度对其进行了梳理; 2. 确定了端到端与可分离学习谱系,将其作为在为医学图像分析构建机器学习算法时,关于使用显式中间表示的一系列决策集合; 3. 从对这些技术决策的特征描述开始,进而深入到越来越间接和高层次的价值观层面,探索与该谱系两端相关的价值观。 这最终体现在图5的构建上,该图展示了将层次结构中不同层次的众多不同价值观与端到端和可分离学习谱系的每一端相连接的逻辑链条。 我们的分析揭示了许多与比尔哈内等人(2022年)通过实证确定的相同的技术价值观,并且与雅南(2021年)的分析相契合,这表明机器学习研究人员并非对将研究价值观明确纳入自己的研究持无所谓的态度。这可能意味着我们的分析或许可以推广到其他使用机器学习的领域。一个限制因素是对显式中间表示(EIR)的存在和可变性的依赖。某些领域表现出了这种情况。自然语言处理目前有各种模型,从基于表示单词、语法结构、意图等的模型,到甚至不分割单个单词,更不用说语法结构的模型。其他领域则缺乏这种可变性。例如,用于自动驾驶汽车的机器学习目前大量使用显式中间表示:在确定汽车应采取的物理动作之前,它们会搜索车辆、标识、行人等,同时表示交通法规和最佳实践。而金融领域的机器学习则相反——显式中间表示极为罕见。 对于医学图像分析中的其他技术决策组,也可能进行类似的分析。未来的文章可以研究当前推动机器学习研究的概念性工具背后的价值观,比如开放数据库和联邦学习,并且已经有一些相关文章发表(苏扎等人,2023年;托帕洛格鲁等人,2021年)。我们希望本文能够向医学图像处理领域的人士介绍如何以结构化的方式理解研究价值观,同时也向哲学界的人士介绍医学图像分析中机器学习的一些特定细微之处。希望这两个领域的交叉能够带来对机器学习在医学中应用的更深入理解。
Figure
图

Fig. 1. Example of the end-to-end vs. separable learning spectrum: Subcortical anatomysegmentation for deep brain stimulation.
图1:端到端学习与可分离学习谱系示例:用于深部脑刺激的皮质下解剖结构分割。

Fig. 2. Example of the end-to-end vs. separable learning spectrum: Cardiac performance measurement
图2:端到端学习与可分离学习谱系的示例:心脏性能评估

Fig. 3. Example of the end-to-end vs. separable learning spectrum: Breast cancer screening
图3:端到端学习与可分离学习谱系示例:乳腺癌筛查

Fig. 4. Idealised ML research process.
图4:理想化的机器学习研究流程。

Fig. 5. Overall view of the research values differentiating end-to-end and separable learning. The acronyms indicate the section in which the concept is introduced: Problem design(PD - Section 4.2.1), Dataset considerations (DS - Section 4.2.2), Training and evaluation (TE - Section 4.2.3), Knowledge discovery (KD - Section 4.2.4), Clinical translation (CT -Section 4.2.5), Publication (P - Section 4.2.6), and External values (EV - Section 4.2.7).
图5:区分端到端学习和可分离学习的研究价值观概览。这些缩写表示引入相关概念的章节:问题设计(PD - 第4.2.1节)、数据集考量(DS - 第4.2.2节)、训练与评估(TE - 第4.2.3节)、知识发现(KD - 第4.2.4节)、临床转化(CT - 第4.2.5节)、成果发表(P - 第4.2.6节)以及外部价值观(EV - 第4.2.7节)。

Fig. 6. Prevalence of ‘‘end-to-end’’ as a keyword for ML in medicine papers (PubMed search string: ‘‘end-to-end’’[Title] AND (neural[Title/Abstract] ORlearned[Title/Abstract] OR learning[Title/Abstract] OR deep[Title/Abstract]) NOT(neurorrhapy[Title/Abstract] OR anastomosis[Title/Abstract] OR nerve[Title/Abstract]OR
esophagogastrostomy[Title/Abstract]), Search date: January 22, 2025). An equivalent search for ‘‘separable learning’’ yielded only two papers.
图6展示了在医学论文中“端到端”作为机器学习关键词的流行程度。通过PubMed搜索字符串“‘end - to - end’[Title] AND (neural[Title/Abstract] OR learned[Title/Abstract] OR learning[Title/Abstract] OR deep[Title/Abstract]) NOT (neurorrhapy[Title/Abstract] OR anastomosis[Title/Abstract] OR nerve[Title/Abstract] OR esophagogastrostomy[Title/Abstract])”进行搜索,搜索日期为2025年1月22日。而对“可分离学习”进行等效搜索仅得到两篇论文。这表明在医学领域的机器学习研究中,“端到端”学习的相关研究更为常见,而“可分离学习”的研究相对较少