今天为大家带来一篇 Eur J Radiol 的文章,题目是“ Computed tomography-based radiomics for predicting lymphovascular invasion in rectal cancer”。基于计算机断层扫描的影像组学模型预测直肠癌淋巴管浸润。
01
左中括号
整体感知
左中括号
1.1
题目要素拆解
文章地址
文章题目提供了3条信息:
1.预测变量是:计算机断层扫描 (CT) 的影像组学模型;
2.因变量是:淋巴血管浸润 (LVI);
3.研究人群是:直肠癌 (RC) 患者.
1.2
文章基本信息
1.3
核心要素
再阅读摘要,可知:
研究对象(P) :直肠腺癌(RC)的患者(n = 351);
预后模型(I/C)Logistic回归模型构建的影像组学signature;
结局指标(O)淋巴血管浸润 (LVI);
研究类型(S)回顾性队列研究,预测类型;
研究目的开发基于计算机断层扫描 (CT) 的影像组学模型,预测直肠癌 (RC) 患者治疗前的淋巴血管浸润 (LVI)模型.
补充:本文对LVI的定义:内皮层观察到肿瘤细胞或肿瘤细胞血栓,或有肿瘤细胞破坏淋巴管壁时,就可以诊断为LVI.
黏膜下层存在 LVI和/或肌层记录为壁内侵犯,超出固有肌层被记录为壁外侵犯。
仅有壁内侵犯的患者分为壁内侵犯组,一旦有壁外侵犯的患者分为壁外侵犯组。
1.4
变量分析
预测变量(X)影像组学signature(瘤内+瘤周)、CA19-9、cT和cN;
结局变量(Y):  淋巴血管浸润 (LVI);
协变量(Z):性别,年龄,体积,肿瘤位置,临床/病理T分期,肿瘤分期,肿瘤组织学分级,临床/病理N 分期,新辅助治疗,CEA,CA19-9,CA125等;
1.5
本文研究背景
临床问题: 直肠癌 (RC) 是最常见的癌症之一,淋巴血管侵犯(LVI)可根据解剖位置确定为壁内侵犯或壁外侵犯。
壁内 LVI 与淋巴结转移的风险增加有关。此外,壁外 LVI 是众所周知的肿瘤复发、转移和预后的预测因子,因此,早期识别LVI对于评估治疗方案和预后具有重要意义。
目前方法不足: LVI的诊断仍以术后病理检查为主,不利于肿瘤特征的早期评估。MRI 不能正确识别壁内侵犯和壁外小血管侵犯。CT 也无法确定是否存在LVI。
研究GAP:其实预测RC淋巴转移的文章在2020年已经被别人发过了,但是它竟然2年后还能发出来,主要原因在于它是前人的”升级版”。
前人研究的不足:1.组学特征提取过少;2.靶区只画了肿瘤;3.未研究壁内LVI的预后价值;4.缺乏内部验证或外部验证报告。
本文解决方式:作者在多中心数据库中开发和验证基于 CT 的放射组学模型,用于术前预测 RC 患者的 LVI, 以期为临床诊治决策提供参考。
02
左中括号
模型构建
左中括号
2.1
Work flow
我们先来看一下流程图,重点关注下侧影像组学部分:
1. VOI分割: (黄:主要肿瘤大小, 红: 肿瘤周围组织)。
2. (特征提取):作者这张图没写,这部分是软件自动完成的.主要是画好靶区.
1. 使用小波滤波器、高斯拉普拉斯滤波器等对原始图像进行预处理;
2. 使用 PyRadiomics 从每个 VOI 中提取了 2107 个涉及一阶统计、形状特征和纹理特征的特征。
3. 特征选择: 6种方法:这部分主要筛选具有预测意义的变量,也就是筛选有意义的组学特征.
1. 方差分析;
2. pearson相关系数筛选;
3. 基于互信息的特征选择;
4. 基于 L1范数正则化(LASSO)的特征选择;
5. 基于决策树的特征选择;
6. 特征递归消除;
4. 模型构建与评价:
1. 建立诺莫图
2. ROC曲线+检验
3. 校准曲线
4. 决策曲线
2.2
纳入排除标准建立
2.2.1 纳入排除标准
纳入标准:
1. 手术标本病理证实为直肠腺癌的患者(n=449)。
排除标准:
1. CT扫描前接受治疗(如放化疗)的患者(n = 9);
2. 缺乏肿瘤标志物(n = 77);
3. CT图像不佳(n=12);
将符合条件的患者分为训练队列(n = 239,来自医院 1)、内部验证队列(n = 60,来自医院 1)和外部验证队列(n = 52,来自医院 2 和 3)。
2.2.2 按照PICOS原则梳理纳入排除标准
P(Population)
年龄不限制(本文平均年龄58岁),作者并未对年龄进行限制;
性别:不限制;
疾病状态: 术前未接受放化疗的患者;
疾病分期: 不限制;
治疗方案: 手术治疗;
诊断标准: 病理证实为直肠腺癌;
I/C(Intervention/Comparison):
影像设备: 增强 CT ;
扫描期相: 动脉+门脉+延迟期;
靶区: 2个,肿瘤和肿瘤周围组织;
影像检查时间点: 术前;
层厚: 三甲医院略有区别: 2.0 mm;0.6-1.3mm;1.0-1.5 mm;
对比剂: 碘海醇 ,使用方法有2种:
  • 医院1(训练集)和医院3(外部验证集):350 mg/ml, 给药剂量为1.5 mL/kg体重, 3 mL/s的速度进行静脉注射。
  • 医院2(外部验证集):400 mg/ml, 给药剂量为1 mL/kg体重, 3 mL/s的速度进行静脉注射。
O(Outcome):
结局指标:淋巴管浸润LVI;
2.2.3 最终的纳入结果和训练集划分方式
最终,共纳入351名患者,按8:2的比例(未明确说明分组方法)分为训练集(239例:医院1), 内验证集(60例:来自医院1) 和外部验证集 (52例: 来自外部2个医院)。并从中获得CT影像数据、病理特征及临床特征资料。
2.3
图像分割/图像预处理
图像的放射学特征由具有 10 年和 5 年腹部CT成像经验的放射科医师执行,主要评估定性特征,例如位置、基于 CT 的 T 分期 (cT) , 和 N 阶段 (cN)。
肿瘤的位置分为低(距肛缘 0-5 cm)、中(距肛缘 5.1-10 cm)和高(距肛缘 10.1-15 cm)。
医生在阅片时无法得知临床信息, 由于 CT 区分它们的能力有限,cT1 和 cT2 病变被整合为一组。
分割过程:
1. 将所有患者的肿瘤和瘤周区域逐层分别绘制,以获得瘤内(VOI1)和瘤周(VOI2)特征。
2. 图像在三个解剖方向上重新采样到 1.0 mm 的像素间距。
3. 使用小波滤波器、高斯拉普拉斯滤波器等对原始图像进行预处理;
最终生成瘤内(VOI1)和瘤周(VOI2)二个感兴趣区
2.4
特征提取/数据预处理
特征提取
工具:PyRadiomics.
特征类型+提取结果从2个 VOI 中分别提取了 2107 个涉及一阶统计、形状特征和纹理特征的特征.
数据预处理
工具:文中未描述,一般可以使用R的caret包的preProcess函数功能.
处理方法:对提取的特征值进行z-score标准化处理;
特征一致性评价
评判提取的特征是否稳定: 随机选择20名患者进行靶区的重勾画
1. 组内比较,即比较同一医生相隔1周的2次VOI特征;计算ICC;
2. 组间比较,即比较两个医生的2次VOI特征;计算ICC;
3. 有 1490 个瘤内和 1605 个瘤周特征具有良好的信度(ICC>0.75)
注:ICC, 组间相似系数, 相关系数越接近1, 表示特征越稳健(robust);ICC < 0.5,可靠性差;0.5-0.75,中等信度;ICC > 0.75,可靠性好
2.5
特征选择
特征选择方法过程:

  • 通过相关性分析ICC,筛选了阈值大于0.51的特征。
  • 其余特征使用六种方法选择(作者未详细描述每种方法的结果):
§ 方差分析;
§ pearson相关系数筛选;
§ 基于互信息的特征选择;
§ 基于 L1的特征选择;
§ 基于决策树的特征选择;
§ 特征递归消除;
§ 最终根据L1方法选择了 12 个瘤内和 10 个瘤周特征;
  • 随后,使用 14 种机器学习方法构建了 84 个分类器,调整参数以增加接受者操作特征(ROC)曲线(AUC)下的面积并输出最佳分类器(Rad-score)。
    作者这一部分没有说明特征选择以及分类器构建的详细结果,可能是考虑到过于繁琐,而且不同机器学习方法选择的变量都是较为稳定的变量。
§ 最终使用了逻辑回归方法建立 Rad 评分
至此,预测模型的最佳的Radscore构建完毕。
2.6
模型建立
将Rad评分和临床因素进行单因素逻辑回归分析, 得到的具有统计学意义的风险变量(Rad-score、CA19-9、cT 和 cN), 然后输入多因素分析,建立临床模型和融合模型。
为可视化模型生成了列线图。
  • 列线图的逻辑回归模型(方程)
03
左中括号
模型评价
左中括号
主要涉及预测模型评价方面
3.1.1 拟合度评价
  • 使用Hosmer-Lemeshow检验和校准曲线
§ Hosmer-Lemeshow检验的P值(0.467 > 0.05),表示组合模型具有良好的拟合度;
§ 校准曲线显示了Nomogram模型在三个队列中拟合效果均比较好;
§ 在训练集和总验证集中预测概率 > 60% 的患者中,该模型低估了 LVI+ 的实际风险(最多分别约为 7% 和 10%)
注:校准曲线用来表示实际发生率和预测发生率的散点图。越靠近对角线说明模型预测效果越好.
3.1.2 临床实用性评价
  • 使用决策曲线
§ 图AB分别代表训练集和验证集.决策曲线说明所有的模型模型都可以产生临床获益;但融合模型临床获益最高
3.1.3 模型比较
  • 使用ROC曲线和AUC进行评价,为了凸显融合模型的区分度准确度更好.
作者做了如下比较:
1. 在不同患者中验证同一模型: 分别在训练集,外部验证集,内部验证集,总体患者 总计4个数据集中验证了融合模型/临床模型/组学模型的AUC。
主要结果是:融合模型AUC都在0.8以上,表示组合模型在预测 LVI 方面具有良好的性能;其次是组合模型AUC大于临床模型AUC,当然外部验证集除外.
2. 在同一患者中比较不同模型: 分别在训练集,外部验证集,内部验证集总计3个数据集中分别验证了影像组学模型临床特征模型融合模型总计3个模型的AUC,
1. 除了外部验证集中临床特征模型>融合模型,(AUC = 0.807 vs. 0.735,P = 0.325)
2. 其他数据集中融合模型的曲线下面积均属于最大, 显示出了融合模型具有更好的区分度.
3.1.4 敏感性分析
  • 在不同亚组中使用ROC和AUC评价组合模型的效果. 
§ 肿瘤的部位亚组: 中低位,高位,AUC均>0.8,并且其AUC相似,无统计学差异.
§ 后续接受和不接受放化疗组的患者: AUC相似,无统计学差异.
§ 肿瘤分期亚组: Ⅲ期组的AUC高于Ⅱ期组, 无统计学差异.
§ LVI的位置亚组: 壁内和壁外 LVI 阳性的患者,AUC无统计学差异.
注:敏感性分析是增强证据力度,主要是为了证明结论的稳定性.
比如说,我们得出了组学+临床的融合模型能够很好的预测直肠癌LVI的时候,但是我们发现它只在上段肿瘤中预测效果较好,在下段肿瘤中预测效果一般,那么说明我们的模型并不能适用于”直肠癌”,可能只适合用在”上段直肠癌”中.
因此,敏感性分析主要是从不同角度来看结果是否稳定.这是一个思辨的过程. 常用的敏感性分析思路如下:
1. 从数据来说:删掉离群值或者缺失值,对缺失值进行插补等之后,重新做一次分析;
2. 从人群亚组来说,基于基线特征,选择不同的亚组,考量亚组中的效应是否变化;
3. 从暴露/结局来说,根据不同的暴露/结局定义,考量效应是否变化;
4. 从统计方法来说,校正不同的协变量,进行倾向性匹配评分,竞争风险模型等重新考量效应是否稳定.
本文的这一步的主要目的在于,在不同亚组中,组合模型AUC没有显著差异,说明在不同亚组,组合模型的表现很稳定,即不会因为分组不同而产生了不同的预测效能.
04
左中括号
全文总结
左中括号
4.1
一句话文章总结
本文开发基于计算机断层扫描 (CT) 的影像组学特征,用于预测直肠癌 (RC) 患者治疗前淋巴血管浸润 (LVI)模型,并分别对个影像组学影像组学模型,临床模型,组合模型进行了比较。
4.2
本文优点
  • 可能你有些不敢相信,就在 9 月前刚刚发表的2区影像组学文章,本文的套路框架竟然与我们之前分析的单单单套路框架如出一辙?
    文章是做到了什么让整个过程给人感觉更具高级感呢?我认为原因在以下几点:
1. 多靶区的应用,尤其是选择了肿瘤和肿瘤周围的2个VOI提取的影像组学特征进行比较,是对工作量的加码,也是对论证逻辑的加码。
不过作者没有具体说明肿瘤周围究竟是怎么界定的,一般来说都是通过工具自动获得的,论证逻辑都是平行逻辑,难度并不大;
2. 多中心的数据,尽管外部数据集只有52例,但也是外部验证集,这提醒我们如果仅仅是为了进行"多中心验证"结果, 那么对于验证集数量的要求大可不必过于苛求;
3. 临床问题较为重要,毕竟提出一个良好的问题是一篇文章得以发表最主要的原因,而作者研究的问题恰恰是目前亟需解决的;
4. 模型特征选择和机器学习方法丰富多样,同时使用了多种方法,这样使选择的特征在结果表现上很稳定;
5. 即使想到的临床问题被发了,也可以关注已发表的研究的缺点,思考如何增加自己的创新点,只要符合逻辑,就有发表的希望, 
本文套路应有的步骤,文章基本都具备了,实现了比较完整的论述, 甚至还做了敏感性分析,这样论证层次更加丰富,结论更加可靠;
6. 与同样具备完整套路的文章相比,文章的逻辑清楚, 数据展示做的比较好,图文并茂,使明明比较骨感的流程看起来很丰满。
4.3
本文局限性
从文章总体的内容来看,做的比较规范、系统,质量佳,是个学习的好的模板,工作量也并不小,但是仍然可以改进:
1. 多中心的资料中,CT的机器,以及层厚,造影剂等都有所不同,这可能会造成提取质量的偏倚; 同时,回顾性的研究设计,本身也会造成偏差;
2. 部分过程没有详细说明,比如图像处理方面,图像分割的具体方法, 具体软件, 特征提取的具体细节(作者表示从2个VOI中都提取了2107个特征)等;
3. 模型评价过程中,融合模型并非在所有样本中表现的更好,这提示验证的样本量可以更多一点;
4. LVI的病理诊断过程,也是由于医院的不同,医院 1 仅使用 HE 染色,而医院 2-3 使用 HE 染色和免疫组化染色, 导致LVI的诊断可能存在些许差异;
5. 模型评价过程中还可以加入NRI,IDI等, 还可以分别按照肿瘤和肿瘤周围的特征再构建2个模型进行比较,这样,比较的丰富度要更高。
4.4
可行性
本研究的样本量不是很大,自己中心的只有不到300例,外部验证一共只有52例,数量并不是很多, 而且研究的结局是病理诊断,这些资料是常规都可以收集到的,在病历中就可以检索。
可以说这篇文章数据最麻烦的地方主要在于影像资料的收集以及随后的图像划分和特征提取部分,但这和基础实验要简单太多。
而且本文的模型构建也比较简单, 尽管作者使用了多种特征筛选方法,可是实操过的小伙伴都知道,使用lasso回归之后,基本上也就只剩下10来个特征,可以不需要花费太多的精力像作者一样学习那么多算法。
文章从投稿到见刊只用了4个月不到,有意想投影像组学的小伙伴也可留一下这个二区的杂志。
4.5
结语
好啦,本期的文献分享到这里,对于追求2区的小伙伴是不是又一次的冲击呢?继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~
参考文献
1. Li M, Jin Y, Rui J, et al. Computed tomography-based radiomics for predicting lymphovascular invasion in rectal cancer. European Journal of Radiology. 2022;146:110065. doi:10.1016/j.ejrad.2021.110065

通知通知!针对临床小白的21天理论与实操集训讲席营来啦!教你用超快速度复现3-5分临床SCI,分分钟秒杀同组师兄师姐~就在10月10日下午3点,满满干货,抓紧上车咯~
识别下方海报二维码
即刻开启21天通关之旅
END
撰文丨权      Z
审核丨鑫仔老师
责编丨小张老师
往期推荐
继续阅读
阅读原文