大家好,我是鑫仔,下面一段时间平鑫而论专栏将会开启一个新的影像组学文章套路发掘系列。
由平鑫而论专栏的各位老师深度挖掘我们精选的影像组学文章的出彩之处,并总结成优质推文,逐渐构建一幅影像组学文章套路地图!
即使技术照别人略逊一筹,我相信开图打也是能打赢的。预祝大家可以早日总揽全局,发表优质文章!
那么鑫仔今天先抛砖引玉,开启本系列的第一篇文章套路解构。那么我们就开始吧~
整体感知 

1.题目要素拆解

文章题目提供了三条信息:
1)预测变量:术前MRI影像组学signature
2)结局:早期复发(ER)
3)研究对象:肝门胆管癌(pCCA)

2.文章基本信息

杂志
J Magn Reson Imaging
分区
2区
IF
5.12
发表时间
2022.03

3.核心要素

研究对象(P):早期复发的肝门胆管癌(pCCA)患者(n = 184)
预后模型(I/C):(LASSO)logistic回归模型和逐步向后Logistic回归构建的影像组学signature
结局指标(O):早期复发ER(主);总生存期OS(次)
研究类型(S):回顾性队列研究,预后预测类型
研究目的:基于pCCA的临床和/或MRI的影像组学特征开发新的signature,以预测ER
本文对ER的定义:从手术日期到首次局部区域复发、远处转移或最后一次随访日期的时间。局部复发和远处转移通过妇科检查和CT、MRI、PET-CT等影像诊断或病理证实(ref:PMID: 33376403)。
本文对OS的定义:手术日期与最后一次随访或死亡日期之间的时间间隔。中位生存时间 (MST) 是 OS 的中位值。

4.变量分析

预测变量(X):影像组学signature;
结局变量(Y:  早期复发ER;总生存期OS;
协变量(Z)
人口学因素:性别、年龄;
血液学指标:血糖水平、血小板计数、白细胞计数、中性粒细胞计数、淋巴细胞计数、单核细胞计数、白蛋白水平、球蛋白水平、白蛋白与球蛋白比例、中性粒细胞与淋巴细胞比例、单核细胞与淋巴细胞比例、血小板与淋巴细胞比例、TBIL(总胆红素)、DBIL(直接胆红素)、IBIL(间接胆红素)、ALT、AST、ALP、GGT、CEA、CA19-9;
病理指标:切除边缘、神经周围侵犯、病理分化、病理TNM分期;
影像征象:肿瘤最大径、临床N 分期、影像学肝动脉侵犯、环状显影、肝叶萎缩、HBV、动脉期增强、门静脉期增强、增殖模式;
小注:这里所有的影像征象识别分别由三名具有16、15、13年腹部诊断经验的放射科医生完成,并事先对征象做好明确定义;
利用Cohen kappa系数对影像组学征象进行一致性评价,Kappa 值区间定义为 0.41–0.60(一致性适中)、0.61–0.80 (基本一致)0.81–1.00 (一致性极好);
(抛砖引玉,第一篇文章我这里把方法写详细一点)基线资料表中(未展示),卡方 (χ2) 检验或 Fisher 精确检验用于比较分类变量。Mann-Whitney U 检验或 t 检验用于比较连续变量。

5.研究背景

临床问题:根治性手术切除是治疗能从手术获益pCCA的首选方案;然而该治疗方法的复发率依然很高,并且早期复发的pCCA患者有较差的预后;
因此,为了改善患者的预后,术前识别出术后 ER 风险高的患者必要性很大。
目前方法不足:TNM分期是可以预测ER风险,然而同一分期的患者仍然有较大的异质性;腹腔镜分期检测难以发现隐匿性转移性疾病;这些都会导致切除后早期复发。
本文解决方式:本文通过整合术前临床变量和基于 MRI 的影像组学特征,为 pCCA 患者开发和验证决策支持的预测模型。
科学假设:预测模型可以在术前准确预测 pCCA 患者的术后 ER。
模型构建 

1.workflow展示

Figure 1
我们先来看一下流程图:
① VOI分割(动脉期;门静脉期)
② 特征提取(直方图特征、形态学特征、纹理特征)
③ 特征选择(ICC+LASSO-Logistic)
④ 融合模型构建(影像组学模型+临床模型=融合模型)
⑤ 模型评价(ROC+DCA+K-M)

2.纳入排除标准建立

  • 第一部分:文章方法部分解读
  • 纳入标准
① 接受根治性切除手术;
② 经组织病理学证实为pCCA;
  • 排除标准
① 缺乏术前成像或图像上有运动和呼吸伪影;
② 在3T MRI 上检查或不进行MRI 检查;
③ 术前行经动脉化疗栓塞术;
④ 缺乏后续临床数据;
⑤ 术后90天内死亡;
⑥ 病理报告不完整或缺乏术前血清检测;
  • 第二部分:PICOS原则梳理
P
年龄:不限制,中位年龄,61.0 岁;四分位距:53.0-66.8 岁;
性别:不限制,男性(n=115),女性(n=69);
疾病状态:首诊初治;
疾病分期:早期-晚期(I, II, IIIA, IIIB, IIIC, IVA, IVB期);
治疗方案:接受根治性切除手术;
诊断标准:病理诊断;
I/C
影像设备:1.5T MRI ;
扫描序列:VIBE对比增强序列;
期相:动脉期AP(20-35s),门静脉期PVP(60-70s);
靶区:沿肿瘤边缘勾画全瘤VOI;
影像检查时间点:术前4周内;
层厚:2mm;
对比剂:0.1 mmoL/kg 造影剂以 2mL/s 的速度通过肘静脉注射;
O:
近期疗效:早期复发ER;
小注:本研究仅包括VIBE对比增强序列的AP和PVP期相,不包括DWI、T1WI和T2WI。
作者在这里提及的原因是pCCA肿瘤通常很小。不利于在非增强图像中对肿瘤进行勾画和区分肿瘤与正常组织的上下边界。
  • 第三部分:纳排及分组结果
最终,共纳入184名患者,将数据集按7:3的比例分为训练集(n=128)和测试集(n=56)。并从中获得MRI影像数据、病理特征及临床特征数据。

3.图像分割(+图像预处理)

  • 图像预处理
随后对获取的DICOM影像进行图像预处理:
Z值标准化
方法:利用z-score()公式标准化所有MRI影像强度(Ref: PMID: 32704007);
工具:Caret包;
目的:将影像强度转化为以0为均数,1为标准差的分布,通过影像标准化等操作,减少影像参数不一致等对影像组学特征变异的影响;
重采样
方法:将体素维度统一至1.0*1.0*1.0 mm3以标准化体素间距;
工具:Simple ITK包;
目的:最小化影像组学特征对体素大小的依赖性;
小注:本文采用MR影像,在图像预处理过程中并没有采用N4偏置场的校正(校正MRI影像的低强度不均匀性)
  • 图像分割
分割过程由具有 16 年腹部诊断经验的放射科医生执行,并选择随机30名患者由该医生和一名具有 15年经验的放射科医生进行重新分割。
使用 ITK-SNAP软件在每位患者的 AP 和 PVP 图像的轴向层上,沿肿瘤轮廓手动勾画出 VOI 。得到全瘤感兴趣体积VOI。

4.特征提取

工具:采用A.K.平台软件分别对AP以及PVP影像分割的VOI进行特征提取;
特征类型+提取结果:从每个 VOI 中提取了 402 个影像组学特征,包括 42 个直方图特征、15 个形状因子特征、144 个灰度共生矩阵(GLCM)特征、180 个游程长度矩阵(RLM)特征、11 个灰度大小区域矩阵(GLSZM) 特征和 10 个 Haralick 特征。
小注:A.K. (Artificial Intelligent Kit)平台由GE医疗生命科学中心推出的软件,能够提取一系列常见的影像组学特征。
包括直方图特征,形态学特征,共生矩阵特征,游程矩阵特征,灰度连通大小矩阵特征,基于梯度图的特征等。

5.特征选择

  • 过滤法
① 特征的一致性评价
工具:irr包(文中方法部分写的icc包)
方法:利用ICC评估提取特征的可重复性,ICC>0.7的影像组学特征被保留到下一阶段进行分析;
结果:保留来自AP期相中的325个特征和PVP期相中的254个特征;
② 异质性分析及缺失值处理
工具:mice包,VIM包;
方法:剔除方差小于 1.0 的特征,然后用中位数替换缺失值;
结果:保留来自AP期相中的167个特征和PVP期相中的117个特征;
③ 相关性分析
工具:caret包,findCorrelation函数;
方法:findCorrelation函数可以自动找到具有高度共线性的变量,并给出建议删除的变量
目的:去除冗余特征并降低特征的共线性;
Cut-off:相关性系数<0.7;
结果:保留来自AP期相20个特征 & PVP期相13个特征(PMID: 25028781);
小注:建议删除变量原理:假如有n*n维度的相关矩阵,每个变量有n-1个相关系数(除了自己),对这n-1个相关系数取平均值,这样每个变量都会得到一个平均值,删去平均值最高的变量。
  • 嵌入法
④ 10折交叉验证+(LASSOlogistic回归
工具:glmnet包
目的:交叉验证选择压缩参数λ,(LASSO)logistic回归筛选特征
Figure 2
FigureA:AP期相中,通过10-折交叉验证压缩参数λ,当压缩到12个特征时的AUC最大,对应log(λ) = -4.055x;
小注:左边的虚线对应AUC时最大值的点,代表最佳的λ值;+1倍标准差得到右边的虚线,代表具备优良性能但特征数最少的模型,log(λ)在条线之间选取都是合理的。
FigureB:以最佳log(λ)值作为截断值,最终得到了12个影像组学特征;
FigureC:PVP期相中,通过10-折交叉验证压缩参数λ,当压缩到1个特征时的AUC最大,对应log(λ) = -3.093;
FigureD:以最佳log(λ)值作为截断值,最终得到了1个影像组学特征;
小注:与以往介绍的文章不同,本文运用的是AUC参数来确定λ的值,在(LASSO)logistic回归的λ值的确定比较常见,是现在比较流行的综合考量模型性能的一种参数。
结果:最终保留来自AP期相中的12个特征(log (λ) = -4.055)和PVP期相中的1个特征(log (λ) = -3.093);
  • 包装法
⑤ 最小信息准则(AIC)的反向逐步逻辑回归
选择构建逻辑回归模型的特征,并使用方程式推导出影像组学得分 (ScoreAP 或 ScorePVP);
AP期相有4个特征与ER相关,PVP期相无特征显示关联;
影像组学模型ScoreAP方程如下:
X1: MajorAxisLength;
X2: Inertia_- angle135_offset7;
X3: ShortRunHighGreyLevelEmphasis_- AllDirection_offset1_SD;
X4: ShortRunHigh GreyLevelEmphasis_AllDirection_offset4_SD;
小注:AIC(最小信息准则)建立在熵概念的基础上,可以权衡估计模型的复杂度和模型拟合数据的优良性。
为了尽量避免数据出现过度拟合的情况,优先考虑的模型应该是AIC值最小的那一个。基于此,找到最好的解释结局但包含最少自由参数的模型。
至此,基于影像组学特征的预后模型构建完毕。

6.模型建立

  • 临床模型
通过单因素logistic回归(P < 0.1)和反向逐步多因素logistic回归分析(最低AIC标准)依次选择预测的术前临床因素;(单因素、多因素分析结果这里我没有展示)
小注:为了在单因素分析中不遗漏有意义的变量,P值“显著”一般设为P<0.1,也可设为P<0.05或者P<0.2,需根据样本量大小做出调整,样本量够大可以把P值调小,样本量不足则需要更保守一点,把P值设大。
简单来说,这样做可以给多因素分析更多说话的权力 (PMID: 32042812) 。
最终保留了9个临床因素用于预测,临床模型Scoreclinic方程式如下:
X1: blood glucose level;
X2: white blood cell count;
X3: globulin level;
X4: ratio of monocyte to lymphocyte;
X5: total bilirubin;
X6: γ-glutamide transpalase;
X7: CEA;
X8: CA19-9;
X9: invasion of hepatic artery in images.
随后画列线图:
至此,临床模型构建完毕。
  • 融合模型
随后,基于ScoreAP和Scoreclinic构建融合线性模型:
随后画列线图:
至此,融合模型构建完毕。
模型评价 

1.性能度量

性能度量是衡量模型泛化能力的一系列评价标准,作者首先对临床模型(Model1)、影像组学模型(Model2)、融合模型(Model3)、TNM评价系统(Model4)在训练集和测试集中预测ER的AUC值、准确度、特异度、灵敏度、阴性预测值和阳性预测值进行了计算,并绘制了四个模型的ROC曲线。
Table 3
Figure 3
结果显示
相比临床模型在训练和测试集中的 AUC 分别为 0.841 (95% CI, 0.770–0.912) 和 0.821 (95% CI, 0.712–0.931)和其它两个模型的AUC,融合模型在训练集 (AUC = 0.868, 95% CI, 0.807–0.928) 和测试集 (AUC = 0.835, 95% CI, 0.727–0.943) 中均具有较高的AUC值。显示出更好的预测性能和泛化能力。
同时我们可以看到,各模型间的95%置信区间是几乎没有交叉的,更说明了模型泛化能力的实质差距。
小注:不同的AUC指标进行比较,即使95%CI重合也是不能完全说明模型的预测能力是相同的,需要进一步进行Delong’s test比较P值
这里多说一句,基于表格中的敏感度和特异度,可以计算出约登指数(约登指数=敏感度+特异度-1)。
约登指数越大,说明真实性越大,约登指数最大值也就对应着该方法的最佳评分cut-off值,按最佳cut-off值可以将人群分为高风险组和低风险组。
基于训练集的最大约登指数得出ScoreAP = -0.806,得到的cut-off值将被同时应用于训练集和测试集(患者ScoreAP高于-0.806被分至高风险组,ScoreAP低于-0.806被分至低风险组)。
同理,临床模型的cut-off值为-0.256,融合模型的cut-off值为-0. 472。这些cut-off值在随后的K-M曲线风险分层会用到,通过pROC包实现。
小注:此外,连续变量也可以基于K-M曲线的log-rank检验(survMisc包的cutpoint函数)和限制性立方样条(RCS)(rms包)计算cut-off值
随后,作者进一步利用Delong’s test进行显著性检验,比较各模型性能的差异:
Table 4
结果显示
临床模型和融合模型在训练集性能明显优于影像组学模型和TNM系统;在测试集中,临床模型和融合模型性能都明显优于TNM系统,但是只有融合模型明显优于影像组学模型。
临床模型和融合模型的AUC 之间没有显着差异(训练集 P = 0.156,测试集 P = 0.439);影像组学模型和TNM系统的AUC也没有显着差异(训练集 P = 0.484,测试集 P = 0.418)。
随后作者对模型的校准度进行了评估(rms包):
FigureS3(文章补充资料中提供图片的清晰度都很差,但我为什么一点要展示呢?是叫大家要看补充材料!)
结果显示:
朦胧中我们可以看出:
Figure S3A: 训练集中ER的预测值和观察值表现出较好的一致性(都比较接近对角线);
Figure S3B: 验证集中,绿色的线和粉色的线都是起飞的,只有Modelclinic与Modelcombine模型展现出了预测值与观察值较好的一致性。

2.生存分析风险分层

作者随后在补充材料展示了由模型分层的高风险和低风险组的Mean Score和 MST(survminer包),如前文提到,cutoff值由约登指数确定:
FigureS(文章补充资料中提供图片的清晰度都很差,但我为什么一点要展示呢?是叫大家要看补充材料!)
TableS4
结果显示
Figure S4ACE: 训练集中的影像组学模型(A)、临床模型(C)和融合模型(E)高风险组的存活率与低风险组相比有显著差异;
Figure S4BDF: 测试集中的影像组学模型(B)、临床模型(D)和融合模型(F)高风险组的存活率与低风险组相比有显著差异;
Figure S4FH: 而训练集中的TNM系统(G)(P=0.095)和测试集中的TNM系统(H)(P=0.068)中未观察到高低分组之间的生存率差异。

3.临床意义

作者随后详细比较解读了评价四种模型在训练集和测试集中的DCA曲线(rmda包):
Figure 5
结果显示
Figure 5A: 对于训练集,如果患者或医生选择的高风险阈值在 10%–90% 的范围内,融合模型(紫色曲线) 和临床模型(蓝色曲线)曲线位于NONE曲线和ALL曲线上方。
且使用融合模型(紫色曲线) 或临床模型(蓝色曲线)在当前研究中预测 ER 的临床净获益明显高于影像组学模型(红色曲线)、TNM 系统(粉色曲线)。
Figure 5B: 对于测试集,DCA 曲线显示,在 10%–78% 的高风险阈值范围内,融合模型(紫色曲线) 和临床模型(蓝色曲线)曲线位于NONE曲线和ALL曲线上方。
且融合模型(紫色曲线)和临床模型(蓝色曲线)预测ER的临床净获益明显高于影像组学模型(红色曲线)、TNM 系统(粉色曲线)。
在训练和测试集中,临床模型和融合模型具有相似的净收益,影像组学模型与 TNM 系统具有相似的净收益。
全文总结 
本文开发基于影像组学特征和临床特征的非侵入模型,术前预测pCCA患者术后早期复发。
与最广泛采用的 pCCA AJCC 分期系统相比,构建的临床模型和融合模型具有更优的预测能力。
文章套路性十足,能在2022年轻松上2区我认为有以下优势:
① 多期相提取特征:利用了动脉期相和门静脉期相提取影像组学特征,虽然最终没有门静脉期的影像组学特征被纳入构建模型,但这样的尝试更符合临床工作认知;
② 文章纳入的临床变量非常多,且包括影像学征象,数据较为完整;
③ 对影像的判断,结局,随访都有很明确的定义;
④ 文章整体框架完整,写作逻辑很强,3年发了将近40篇影像组学文章,作者也是影像组学方面的老鸟;
⑤ 在特征选择部分,利用了最小信息准则AIC结合反向逐步逻辑回归,对模型构建时的拟合情况进行了比较全面的考虑,该方法具有可移植性。
此外同样是LASSO回归,作者的因变量(纵坐标)用的AUC,这个方法确定LASSO(logistic)回归的λ值比二项式偏差更为热门;
⑥ 在模型评价部分对各模型进行的多个角度的比较,且证明模型预测效果好于现有临床标准的预测效果,这也是可以学习的;
⑦ 与同样具备完整套路的文章相比,文章的数据展示做的比较好,每一步得到什么都有迹可循,并对所用到的cutoff值都进行了明确的定义;
同时我还发现,本文2021年7月发表电子版,基本是同一个队列和类似的临床问题,作者在2021年三月发了另一篇文章。短短4个月,两篇2区文章 (在2020年12月还有一篇)。
uu们是不是眼馋了呢?奉劝大家赶紧抓住这波红利,早日实现0到1的突破,发出自己的第一篇影像组学文章!
不过呢,文章还是有一些在能力范围内可以加强的点:
① 首先是图像预处理时可以进行N4偏置场的校正;
② 虽然说对于预测模型来说,如果最终预测效果比较好的模型纳入的变量如果有共线性是不用消除的。但是本文纳入的血液指标还是太多了,存在的混杂因素很难厘清;
② 在模型间的比较时,如果能加入最近比较流行的净重新分类指数(NRI)和整体鉴别指数(IDI)进行进一步比较,会更加丰富;
④ 最后,我还是要吐槽一句,文章的补充材料Figure的清晰度实在是TCL,图片全部打码,我给作者发了邮件也在researchgate上问了补充材料信息,还没得到回复。
原来精读一篇文献可以提取到这么多有用的信息!好啦,本期的文献分享到这里,我们随后将会有一大波影像组学精读推文拆解来袭,篇篇都是精华,是不是很期待呢?继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~
参考文献
[1] Zhao J, Zhang W, Zhu YY, et al. Development and Validation of Noninvasive MRI-Based Signature for Preoperative Prediction of Early Recurrence in Perihilar Cholangiocarcinoma. J Magn Reson Imaging. 2022;55(3):787-802. doi:10.1002/jmri.27846
[2] Zhao J, Zhang W, Fan CL, et al. Development and validation of preoperative magnetic resonance imaging-based survival predictive nomograms for patients with perihilar cholangiocarcinoma after radical resection: A pilot study. Eur J Radiol. 2021;138:109631. doi:10.1016/j.ejrad.2021.109631
[3] Zhao J, Zhang W, Zhang J, et al. Independent Risk Factors of Early Recurrence After Curative Resection for Perihilar Cholangiocarcinoma: Adjuvant Chemotherapy May Be Beneficial in Early Recurrence Subgroup. Cancer Manag Res. 2020;12:13111-13123. Published 2020 Dec 22. doi:10.2147/CMAR.S289094
[4] Zhou ZR, Wang WW, Li Y, et al. In-depth mining of clinical data: the construction of clinical prediction model with R. Ann Transl Med. 2019;7(23):796. doi:10.21037/atm.2019.08.63
[5] Carré A, Klausner G, Edjlali M, et al. Standardization of brain MR images across machines and protocols: bridging the gap for MRI-based radiomics. Sci Rep. 2020;10(1):12340. Published 2020 Jul 23. doi:10.1038/s41598-020-69298-z
[6] Mazurowski MA, Zhang J, Grimm LJ, Yoon SC, Silber JI. Radiogenomic analysis of breast cancer: luminal B molecular subtype is associated with enhancement dynamics at MR imaging. Radiology. 2014;273(2):365-372. doi:10.1148/radiol.14132641
END
撰文丨鑫      仔
审核丨小糕老师
责编丨小张老师
往期推荐
号外号外,针对0基础小白的21天沉浸式影像组学讲席营要来了,就在8月31号,开营在即,还不快上车?
继续阅读
阅读原文