大家好,这里是平鑫而论专栏,我是鑫仔。前些日子,小糕老师提出了影像组学花式玩法的七重境界,包括入门篇(一到三重)和进阶篇(四到七重)。
可以这样说,在影像组学领域,领悟了以下这七重境界,完成从小白到大师的蜕变是绝对不成问题的!
影像组学的七重境界
我想我们接下来就按照这七重境界的难度,从最基础的讲起,一步一个脚印逐级进行学习,让大家次次有收获。最后达到<不畏浮云遮望眼,自缘身在最高层>的境界!
有任何疑问请务必提出来,鑫仔也会在鑫仔说部分尽量做足细节。还在等什么?每周花上几分钟,跟紧鑫仔,你的第一篇影像组学文章在向你招手呢~
说回正题,上期鑫仔为大家介绍了一篇2022年比较套路的影像组学研究,但有小伙伴反应还是有些难度。
所以呢,我想在七重境界主菜开始前,先来点开胃头盘。为此鑫仔挑选了一篇18年发表于
Journal of Magnetic Resonance Imagingogy(IF=4.813)题为“Novelradiomic signature as a prognostic biomarker for locally advancedrectal cancer“的单预测变量X(单模态,单靶区)+单结局变量Y+单分析方法(单模型)的文章。
相信看完这期文献分享,小伙伴们会对影像组学文章基础套路有一个最初的理解!
1
文章宏观要素分析
从题目中我们可以得到研究的类型是“预后型研究”,人群为“局部晚期直肠癌LARC”,预测变量X是“影像组学标签”。
研究对象(P:采用新辅助放化疗(nCRT)治疗后进行全直肠系膜切除术(TME)的局部晚期直肠癌(LARC)患者(108名纳入)---治疗方案统一,人群的同质性棒棒的;
预测模型(I/C:LASSO-cox回归模型构建的影像组学signature
结局指标(O:无病生存期DFS(生存终点,生存时间)
研究类型(S:回顾性队列研究
影像种类:3T磁场强度的LAVA动态增强扫描序列的横断面MR影像
研究目的:比较影像组学特征标签和LARC临床预后因子对目标患者DFS的预测能力
鑫仔说:
说起模型,其实也就是个数学公式,高端点可以叫算法,而预测模型就是通过已知的数据(预测变量X)来预测未知(结局变量Y)。
临床预测模型的本质就是通过回归建模分析,定量的描述X对Y影响的程度有多大。
常用的回归模型包括:多元线性回归(研究一个因变量和多个自变量之间的关系)、Logistic回归(研究终点结局出现与否)、Cox回归(研究生存结局+生存时间的影响)等。
本文用了LASSO-Cox回归模型,听起来挺高级,其实就是在Cox回归前用LASSO回归在进行一次特征筛选。
鑫仔说:
远期疗效介绍——无病生存期(DiseaseFree Survival, DFS)
定义:经过治疗后未发现肿瘤,结局指标为疾病复发或死亡,不关心死亡原因,只要有疾病的复发、转移、死亡,均定义为结局事件的发生。
优点:是临床获益的重要反应,因为增加了疾病复发这一节点,随访时间可以缩短,没有复发或没有死亡均可反应临床获益。
缺点:难以判断何时复发,对有无疾病复发如何明确定义?如何定义结局是我们需要重点关注的。
本文将DFS定义为TME手术和疾病进展之间的间隔,包括局部肿瘤复发、远处转移和任何原因导致的死亡,或最后一次随访的日期(失访)。
其中局部复发定义为盆腔复发,远处转移定义为局部与区域以外的新增病灶。
所有局部复发和远处转移病例均由多学科团队根据临床检查、血清癌胚抗原水平、胸部和腹腔CT和/或腹腔MRI、内窥镜检查和活检诊断。大体来看,还是比较明确的。
2
研究背景
全直肠系膜切除术(TME)前进行新辅助放化疗(nCRT)目前被认为是局部晚期直肠癌(LARC)患者的标准联合治疗方式。
但是,肿瘤的远端转移还是成为该治疗方案失败的主要原因。
因此,识别影响生存和术前风险分层的不良预后特征,并对nCRT后发生不良后果的高风险个体进行预测将有助于选择个体化治疗策略,增加患者临床获益。
目前,利用临床影像预后因子的风险分层,从而确定直肠癌患者是否能从nCRT中获益。
①术前直肠系膜筋膜(MRF)侵犯
②术前壁外静脉侵犯(EMVI)
③nCRT后EMVI阳性
④恶性肿瘤浸润超过固有基层外缘深度T3期(如图所示)
(图源:www.bowelcanceruk.org.uk)
⑤nCRT后的病理T分期(ypT)、N分期(ypN)
但问题在于这些临床影像预后因素的分层结果有显著的异质性。因此需要更有效的预后标志物改善LARC患者的风险分层,个性化治疗和预后。
本篇研究与上篇分享的文献类似,属于影像组学临床应用的典型研究类别④,远期疗效预测(详情见平鑫而论专栏上期推文)。
鑫仔说
提出一个问题远比比解决一个问题更重要。
本文针对特定的人群从临床问题发现科学问题,并用影像组学的方法解决。可见一个好的临床问题是一篇高质量影像组学文章的关键!
这也给我们提供了思路,利用影像组学解决新的临床问题或是老的未用影像组学解决过的临床问题,都是开展研究很好的方向。
3
影像组学模型构建
Figure 1
从流程图可以看出,本文的影像组学套路是非常常规的。
(a)高质量标准化MRI影像数据获取+感兴趣体积VOI分割
(b)影像组学特征提取,包括肿瘤直方图强度、形状特征、纹理特征、小波变换
(c)通过组内系数和LASSO-Cox回归模型选择特征选择与构建
(d)KM曲线进行生存分析和ROC曲线的预测模型性能评估
随后绘制了列线图,对结合了临床特征和影像组学特征的预测模型结果进行可视化。
1.纳入排除标准制定
纳入标准
①局部晚期直肠腺癌患者(>=T3,初始MRI显示淋巴结阳性或阴性)
②肿瘤起源于肛缘15厘米以内的患者
③在TME前接受nCRT治疗的患者
④在nCRT之前进行了盆腔MRI和胸部、腹部和盆腔CT可以进行肿瘤分期的患者
⑤接受文中Protocol规定的具体nCRT治理方案且在6-8周内进行TME的患者
⑥符合随访要求的患者
排除标准
①有恶性肿瘤病史的患者
②既往接受过盆腔放疗的患者
③有MRI禁忌症以及图像质量不足以进行分析的患者
最终,共纳入108名患者,按1:1随机分为训练集和验证集(中位DFS分别为34.5个月和22.5个月,P=0.847)。
鑫仔说
按照PICOS原则给大家做个梳理:
P
年龄:无限定;
性别:无限定;
疾病状态:首诊;
疾病分期:局部晚期;
治疗方案:nCRT+TME;
诊断标准:无;
新增条目:肿瘤部位(这个算疾病相关参数),限定了距离肛缘15cm以内;
I/C:术前的影像组学模型
影像设备:MRI;
扫描序列:LAVA动态增强扫面序列,T2自旋回波序列(SpinEcho,SE);
靶区:肿瘤区;
影像检查时间点:TME前,nCRT后;
层厚:3mm;
具体扫描参数:重复时间[TR]/回波时间[TE]:5160/151msec,翻转角:90°,回波链长度ETL,:19,编码矩阵512*512等;
O
DFS(规定了最短的随访时间>3年,避免因为一些随访时间短而未观察到结局事件的发生导致的假阴性;)
2.高质量标准化MRI影像数据获取及分析
在配备相控阵体线圈的3T扫描仪(SignaHDx,GeneralElectric,Milwaukee,WI)上进行MRI检测。执行常规临床成像方案,最终,获得T2加权影像序列。
.
MRI分期与分子特征判读(T分期、N分期和EMVI和MRF状态)由一位在直肠MR图像解读方面有20年经验的胃肠道医师盲法进行。
具有T3a和T3b疾病分期的患者被归类为低风险亚组,而具有T3c和T3d疾病分期的患者被归类为高风险亚组;EMVI0、1或2被归类为阴性,EMVI3 或4被归类为阳性;
MRF阳性被定义为原发性肿瘤、肿瘤沉积或阳性淋巴结邻接或延伸至MRF或在MRF1mm范围内。
3.感兴趣体积VOI分割+图像预处理+特征提取+特征的一致性评价
感兴趣体积VOI分割
利用ITK-SNAP软件(www.itk-snap.org)对多增强MRI的第五阶段(造影剂注射后60秒)的3Dpre-nCRT MR 图像进行手动分割。
所有手动肿瘤分割均由具有 15年直肠MR图像解读经验的胃肠道医师执行,并由具有20年经验的高级医师进行验证。
图像预处理
为了减少数据的可变性,并且易于计算定量影像组学特征。作者使用两步过程将原始图像转换为标准化输入:
①使用双三次重采样来标准化图像尺度;
②利用直方图匹配最小化患者MR图像之间强度分布的差异。
使得转换后的MR图像具有相似的强度分布。
特征提取
随后使用MatLabv. R2015b进行影像组学特征提取,最终得到485个特征。
包括一阶统计特征(能量,熵,平均数,标准差,最大值等)、基于形状和基于尺寸的特征(最大3D直径,体积,表面积等)、纹理特征(灰度共生矩阵GLCM和灰度游程矩阵GLRLM)、基于小波变换特征。
鑫仔说:
一般来说影像组学特征包含以下四个类别
①形态学特征,描述VOI/ROI大小的特征。包括体积、表面积、肿瘤直径等(包括2D和3D)。
②一阶灰度特征,VOI/ROI内不同灰度和概率分部的相关统计特征。包括最大值、最小值、平均数、标准差、方差、偏度和峰度、熵和能量等。
③二阶和高阶纹理特征,用于描绘VOI/ROI种灰度值的空间分部关系。包括绝对梯度(AbsoluteGradient)、灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)、灰度大小区域矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)、灰度依赖矩阵(GLDM)等。
④基于滤波器和变换的其他特征。如傅立叶变换、拉普拉斯变换(LoG)(图像预处理)、Gabor变换、小波变换(深层挖掘)等。

特征提取是影像组学的核心步骤,如果能提取到各个类别的特征,会增加影像组学特征的质量,便于得到差异显著的影像组学特征。
由于发文较早,本文的影像组学特征提取能力还比较差,我们在实践中涉及更多类别提取更多的特征,尤其是高阶特征,往往可以筛选到更具差异的特征。
鑫仔说
目前比较主流的影像组学特征提取工具包括IBEX、MaZda(基于C++和Delphi)、Pyradiomics(基于Python)、CERR(主要用于放疗)、LIFEx网站、MARLAB、Radiomics(基于R)等。
目前来讲,兼顾功能强大,开源,操作较为简单等特质的特征提取方式首推Pyradiomics。
特征的一致性评价
随后进行对提取特征一致性评价:具有15年直肠MR图像解读经验的胃肠道医师分割随机选择的25名患者的进行2次分割。
VOI中485个影像组学特征中有45%被纳入分析(组内相关系数ICC> 0.8),并用于后续研究。所有影像组学特征均通过z-score转换进行归一化。
Figure S1
鑫仔说:
一般而言,由于分割工作由两名或多名医师完成,大多数影像组学文章的特征一致性评价部分是不同医师同一时间进行勾画评价Inter-observer-ICC(观察者间间一致性)进行比较和同一个医生不同时间点多次勾画的Intra-observer-ICC(观察者内一致性)。
本文分割工作仅由一名医师完成,所以令其对相同的图像进行两次分割,进行Intra-observer-ICC的比较。
4.特征选择+模型构建
在特征提取和数据预处理后,研究者得到了217个“鲁棒性”较好的影像组学特征。
但是将所有模型直接纳入Cox模型显然是不合理的,因为过多的特征纳入既会产生过拟合问题,并使模型可解释性变弱,也会产生多重共线性问题使模型失真。
所以这里利用了机器学习中的LASSO回归算法(也是影像组学特征选择步骤有监督降维最经典的算法),使用L1范数进行收缩惩罚,将一些对结局贡献不大的特征排除在模型外。
Figure S2
从右图中我们可以看出,随着正则化系数λ的增大,各个特征的系数逐渐趋向于0,当然,也有部分特征迅速到0。
不同的λ区域对应了不同的特征数目,通过计算最合适的λ值从而确定选择的特征。最终,通过10倍交叉验证,筛选了三个强度特征和五个纹理特征。
所选特征的Cox模型的非零系数,组合成影像组学标签。然后使用所选特征的加权线性组合确定每位患者的Radscore。至此,LASSO-Cox模型建立完毕。
4
研究结果

1.患者基线

根据以往的文献,本研究将性别、年龄、肿瘤分期(IIA,IIIB,IIIC)、原发肿瘤的大小和范围T、局部淋巴结受累情况N、新辅助放化疗前癌胚抗原水平(<4.75,>=4.75)、新辅助放化疗后癌胚抗原水平(<2.11,>=2.11)、壁外血管侵犯(EMVI)(-,+)、直肠系膜筋膜侵犯MRF(-,+)、病理T分期N分期(ypTN)(ypT0N0,nonypT0N0)、肿瘤局部复发、远端转移、随访时间等因素进行基线的描述,评估变量在两个数据集之间的均衡性。

2.影像组学标签的性能评估

随后,利用构建的LASSO-Cox模型预测每位患者的影像组学风险组,将训练集影像组学评分中位数作为截断值(cutoff=-14)应用于训练集和验证集中进行分层。低于-14分的患者被分为低风险组,高于-14分的患者被分为高风险组。
Figure 2
LASSO-Cox模型按风险组分层得出的DFS的K-M曲线(左侧为训练集,右侧为验证集)
结果显示
训练集中LARC 患者的影像组学特征与DFS之间存在显着相关性(HR=6.83, 95% CI 3.65–12.79, P < 0.001),并在验证集中得到证实(HR=2.92, 95% CI 1.91–4.47,P< 0.001)。风险组生存率通过LoG-RANK检验进行比较。
作者随后对训练集和测试集所有的病例进行单因素分析,确定了具有潜在预测预后价值的临床影像学因子。
Figure3+ Figure S3根据不同亚组的影像组学特征分类的低风险和高风险组的DFS曲线(不同亚组P < 0.01)
结果显示
单因素分析结果得出的直肠癌复发和转移的临床影像危险因素包括:ypT(HR =1.37, 95% CI 1.07–1.74, P =0.009), ypN (HR =1.27, 95% CI 1.10–1.46, P < 0.001), EMVI (HR =1.33, 95% CI 1.06 –1.68, P =0.013) ,MRF(HR =1.53, 95% CI 1.24–1.90, P < 0.001) 。
基于单因素分析结果,使用确定的风险因素和影像组学标签进行基于Cox回归模型的多因素分析。
结果表明
9个特征中,MRF(P =0.032)、ypN(P =0.027) 和影像组学评分(P< 0.001) 是独立预测因子。
鑫仔说
这里作者均没有展示单因素分析和多因素分析的Table。

3. 列线图绘制与评价

然后根据上一步得到的DSF相关的独立预测因子MRF、ypN和影像组学评分构建列线图。
Figure 4
结果显示
  1. 训练集和测试集三年DFS的时间依赖型ROC曲线,相比于影像组学模型和临床影响特征模型,联合模型有更好的预测效果。
  2. 通过训练集的MRF、ypNRadscore和开发的列线图
二显示了三种模型的性能度量。
鑫仔说:
本文仅对列线图的区分度进行了评价(其实也不算评价了),并没有对列线图的校准度、临床获益等进行评价。
可见作者对列线图的评价体系认知是不完整的,这是几行代码就能出来的加分项目,大家写文章时千万不要忘了哦(参考平鑫而论专栏第一期:列线图的评价部分)。
全文总结
这是一篇17年的文章,挑选本文的目的是让大家能够了解到影像组学模型构建的最原始方式:单模态、单靶标、单模型、单结局变量,样本量也不大,100例出头。整个构建的过程也基本是固定的。
① 构建纳入排除标准
② 高质量影像数据获取
③ 感兴趣区ROI/VOI的分割
④ 图像预处理
⑤ 影像组学特征提取
⑥ 特征的一致性评价
⑦ 特征选择
⑧ 模型构建
⑨ 模型评价
但涉及到每一个具体的步骤,都有很多细节需要考虑,只有多了解不同类型的文章,才能做到融会贯通,领悟其中的精髓。最近几期的推文,鑫仔会继续影像组学小白入门系列,带你一同领悟影像组学的七重境界!
参考文献
MengY, Zhang Y, Dong D, et al. Novel radiomic signature as a prognosticbiomarker for locally advanced rectal cancer [published online aheadof print, 2018 Feb 13]. JMagn Reson Imaging.2018;10.1002/jmri.25968. doi:10.1002/jmri.25968
END

撰文丨鑫  仔
审核丨小糕老师
责编丨小张老师
往期推荐
继续阅读
阅读原文