作者:张利文,方梦捷,臧亚丽,朱永北,董迪,刘侠,田捷,中国科学院自动化研究所分子影像重点实验室
近年来大数据技术与医学影像辅助诊断的有机融合产生了新的影像组学方法,其通过从影像中提取海量特征来量化肿瘤等重大疾病,可以有效解决肿瘤异质性难以定量评估的问题,具有重要的临床价值。影像组学技术来源于计算机辅助诊断(computer aided diagnosis,CAD),目前已经发展成为融合影像、基因、临床等信息的辅助诊断、分析和预测的方法。
影像组学作为医工交叉的产物,其应用先进的计算机方法解决临床具体问题,将有广阔的应用前景。笔者将对新兴的影像组学技术进行介绍,阐述影像组学的相关概念、具体处理流程及其面临的挑战、应用领域及未来的发展方向。
一、影像组学的基本概念
影像组学的概念最早由荷兰学者在2012年提出,其强调的深层次含义是指从影像(CT、MRI、PET等)中高通量地提取大量影像信息,实现肿瘤分割、特征提取与模型建立,凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出最准确的诊断。影像组学可直观地理解为将视觉影像信息转化为深层次的特征来进行量化研究。
二、现阶段影像组学的具体流程和面临的挑战
影像组学的处理流程总结归纳为以下部分:(1)影像数据的获取;(2)肿瘤区域的标定;(3)肿瘤区域的分割;(4)特征的提取和量化;(5)影像数据库的建立;(6)分类和预测。下面对其流程和面临的挑战作相应的介绍。
1.影像数据的获取:现代医院影像设备包括CT、MRI、PET等在图像获取和重建协议上都有很大的差异,缺乏一个统一的标准规范这个流程。影像数据的收集以薄层数据最佳。影像组学的入组数据需要具有相同或相似的采集参数,保证数据不会受到机型、参数的影响。虽然国内肿瘤患者较多,但是具体到每家医院,肿瘤患者的数据就相对变少,而影像组学研究需要在众多的医院数据中查找严格符合入组条件的数据来保证一致性,这样做又会使数据量急剧减少。因此,影像组学的研究要从数据量和入组规范中寻找一个折中点,保障基本的数据量,为大样本、多特征、多序列和多方法的研究提供保障。
2.分割算法的实现:图像分割是影像组学方法的第一步,将肿瘤区域和其他组织分离,便于进行下一步肿瘤特征提取。由于肿瘤的异质性和不规则性,针对特定肿瘤的精准分割是一个巨大挑战。
近几年来,多种分割算法已应用到肿瘤区域标定中,其中效果较好的包括滑降区域生长法(region-growing methods)、图割法(graph cut methods)、半自动分割算法(semiautomatic segmentations)、基于容量CT的分割法(volumetric CT-based segmentation)等,人工跟踪分割方法(manually traced segmentations)常被用来作为金标准。对于不同的分割算法,都有其适用范围和条件。目前来看尚无认可度较高的通用分割算法,这将会是广大科研人员的一个重要研究方向。
总之,目前大部分算法均无法满足分割效果的要求,不能解决科研工作者的难题。因此高精度、全自动特定肿瘤分割算法将是未来的发展趋势。
3.特征提取与量化:从影像处理狭义概念来讲,分割算法将ROI分割完成后,就可以对其进行特征提取。目前文献常提到的特征包括肿瘤直方图强度(tumor intensity histogram),如高或低对照;肿瘤形状特征(shape-based features),如圆形或毛刺状;纹理特征(texture-based features),如同质性或异质性;小波特征等(wavelet features)。为了便于分析,我们从广义上进行特征选择和提取,要将特征降维。
基于以上考虑,可以采用机器学习或者统计学方法来实现;也可以通过最大相关最小冗余(maximum relevance and minimum redundancy,mRMR)或主成分分析法(principal component analysis,PCA)得到更具有代表性的特征。除此之外,特征的高度可重复性在临床生物标记发展的过程中同样重要。为了最大化收集各个层次和方面的信息,我们可以对患者临床特征和基因信息等进行提取,将影像组学特征和临床特征结合,为分类和预测提供更准确的信息。
虽然影像组学是目前一种比较前沿的方法,可从影像中挖掘到很多特征来进行分析,但这只是影像中的一部分信息。因此,更科学、更准确和更标准的特征提取方法和挖掘各层信息的手段是我们今后的突破难点。
4.数据库的建立:Gillies等认为影像不仅仅是图片,而是更重要的数据,数据库的建立是影像组学进一步发展的重要工作。一个高精度的预测模型必须要有庞大的数据库支持,所以多中心,标准化的数据库也是影像组学应用到临床的保证。文献中还指出,在二进制分类器中,每个特征需要10个样本来支持。此外,最佳的模型可以很好地包含临床和基因的变量,这样就需要依赖更大的数据样本。未来获取影像和其他数据资源时要有意识地把质量和标准化作为要求,可以避免数据的损失,有效提高影像组学流程的处理效率。
5.分类和预测:分类和预测是影像组学方法最终要实现的结果。大数据分类主要通过利用不同特征的相关性对已有数据进行分类。首先将数据分为训练集和验证集,使用训练集建立描述预先定义的数据类或概念集的分类器。这一步也可以看作是通过训练样本学习一个映射或者函数,建立起相应的分类模型后就可以应用该模型对新数据进行分类。
广东省人民医院和中国科学院自动化研究所展开医工合作,利用影像组学方法对非小细胞肺癌患者进行早期存活率预测,得出的结果非常有意义。还有研究验证,影像组学可以提高鳞癌和腺癌的分类正确率。该文献指出,在多变量分析中,发现53个影像组学特征和肿瘤组织相关。用小波特征建立的预测模型的曲线下面积可达到0.72。对于一个特定的模型而言,衡量其性能的主要指标是准确率,在分类中所面临的挑战就是如何在没有出现过拟合的情况下尽可能提高准确率,一个好的分类模型不仅要能够很好地拟合训练数据,而且应该对未知样本能够准确分类。
三、影像组学的应用
随着技术的进步、研究水平的提高,影像组学在CT、MRI、PET和基因融合方面有很多新的进展。多中心病例数已经达到上千例,提取一阶统计量、二阶统计量、纹理以及临床等特征数已经达到上百个,序列数也在不断增加,理论化方法也在不断增多。面对国家重大需求,临床生存期无突破,肿瘤异质性难以定量评估等情况,影像组学为实现精准诊断提供了新机遇。下面将详细介绍影像组学在CT、MRI、PET以及基因融合中的应用。
影像组学分析主要应用于医学图像并进行定量处理。在肺癌诊断中最广泛使用的成像方法是CT,肺肿瘤在CT图像中呈现很强的对比度,包括图像中肿瘤灰度值强度差异、肿瘤内纹理差异和肿瘤形状差异。影像组学处理流程与CAD相似,提取特征后进行分析,从而帮助医师做出治疗决策,但是在个别流程存在差异。CAD是检测和诊断病灶,而影像组学是从影像中提取海量特征来进行特征分析。例如,研究人员最近发现,影像组学的特征和肺癌预后高度相关。通过挖掘多维440个特征,得出癌症预后和个别影像组学特征的相关性。
一种基于CT图像的影像组学特征预测远端转移的方法表明:在635个影像特征中,有35个影像特征可以作为远端转移的预测指标,其中一致性指数在0.6以上,错误发现率在0.05以下。上述研究体现了影像组学特征作为一种预后指标来进行临床预测。MRI是医学影像的重要组成部分,从MRI中提取大量特征来进行研究已经成为现阶段的研究热点之一。例如在脑胶质瘤影像组学研究中,MRI作为首选的影像检查被应用于恶性胶质瘤(glioblastoma,GBM)的诊断、外科手术前方案的制定和治疗后的监测中。
随着乳腺癌发病率的逐渐上升,同样需要有一种有效的方法来实现乳腺癌的准确诊断和分析。为了解决这一难题,影像组学在乳腺癌的MRI诊断中也有广泛应用。PET 图像的影像组学分析流程与其他模态的图像类似,包含图像分割、特征提取及选择、信息分析和数据挖掘等环节。在PET图像中,纹理特征可以很好地描述组织,预测治疗效果和存活率。
基于影像组学模型的肺部转移的研究表明,纹理特征可以作为一种预后指标预测软组织肉瘤是否发生转移。同时用影像组学特征构建预测模型,纹理作为一种肿瘤内部异质性的生物标记物,可以帮助医师对病理进行更深入的分析。传统的影像诊断主要依赖于医师的判断,而影像组学基于数据进行分析,提取高维图像特征作为新的生物标记物来帮助临床决策。用影像组学特征预测突变型表皮生长因子受体(EGFR)的文献中提到,用5个影像组学特征集和病理分级、是否抽烟等临床特征相结合,可以将仅由临床特征预测突变得到的曲线下面积由0.667提高到0.709。
通常,大规模影像组学数据的提取依赖电脑视觉和图像处理技术,低层次的图像特征描述用于定义肿瘤的形状、清晰度、紧密度及视觉外观。因此,大量的影像组学数据可以实现常规影像学不能达到的医疗数据整合。
另一方面,影像组学将横断面影像阵列转化为可定量的特征,为构建影像基因组学框架奠定了基础。这个框架整合了不同领域的知识,进而得出它们之间因果关系的推论。影像组学的应用领域不仅局限于上述几个方面。有研究显示,非入侵式的影像组学和药物反应有一定相关性。近期,广东省人民医院与中国科学院自动化研究所合作,利用各自的优势把影像组学研究方法应用到了结直肠癌诊断治疗中,建立并验证一种基于影像组学标签的结直肠癌淋巴结转移术前预测模型。此外,影像组学可以实现肿瘤的全面量化分析,以及对不同时期肿瘤的生长状况进行直观检测,可以很容易地观察到肿瘤的转移情况和相关特性。
四、总结与展望
影像组学作为一种新兴的研究方法,通过从不同模态的影像中提取高通量的影像特征,一定程度上实现了肿瘤异质性的评估和肿瘤的预后评估,其方法来源于CAD,早期主要用于评估放疗效果,并逐步在影像领域应用,到目前已经发展成为融合影像、基因、临床等信息的辅助诊断、分析和预测的工具。与活检对比而言,它有明显的优势,不仅可以减少活检带来的痛苦,也在一定程度上提高了工作效率,减轻患者经济上的负担,为将来患者病情复查提供更健康和安全的途径。当然影像组学并不局限于肿瘤领域,其他疾病也可以将其应用其中。
虽然目前影像组学处理流程已经比较完善,但很多流程的优化仍是难题,例如其中关键的分割算法的改进仍是挑战性问题,人工分割耗时耗力,自动分割鲁棒性和精度难以保证。随着近期深度学习浪潮的推动,基于深度机器学习的分析预测方法将是影像学术未来的发展方向之一,为预测准确率的提高提供了突破方向。另一方面,由于目前医院患者人数众多,影像检查费时费力,影像组学也应尽可能与临床特征相融合,成为临床医师更加信赖和认可的方法,从真正意义上发展为一种辅助诊断的工具,提供便捷和放心的服务。
来源:中华放射学杂志2017年1月第51卷第1期