一、整体感知
01
题目要素拆解
文章题目提供了三条信息:
1) 预测变量:影像组学signature
2) 研究对象:局部晚期乳腺癌(LABC)
3) 研究类型:预后研究
02
文章基本信息
03
核心要素
研究对象(P):接受新辅助放疗(NAC)和术后化疗(PORT)的局部晚期乳腺癌(LABC)患者(n = 278)
预后模型(I/C):LASSO回归得到的的影像组学Rad-score
结局指标(O):无病生存期DFS;无复发生存期RFS
研究类型(S):回顾性队列研究,预后预测类型
研究目的:构建并验证基于 MRI 的影像组学评分 (RS),以评估 NAC 和 PORT 后局部晚期乳腺癌患者的 DFS。 
通过将影像组学与基因组和计算组织病理学数据相结合,评估影像组学与肿瘤细胞及其微环境的异质性之间的关联。
本文对DFS的定义从治愈性手术日到疾病复发、继发性恶性肿瘤、死亡或最后一次随访的时间间隔;
本文对RFS的定义:从治愈性手术日到疾病复发死亡或最后一次随访的时间间隔。
04
变量分析
预测变量(X):影像组学signature;
结局变量(Y):  无病生存期DFS;无复发生存期RFS;
协变量(Z):年龄、临床T分期、临床N分期、接受新辅助化疗后的术后病理分期、是否完全病理缓解、雌激素受体(ER)状态、孕激素受体(PR)状态、是否接受内乳淋巴结照射(IMNI)、是否接受抗HER2治疗、是否进行激素疗法;
NAC后原发瘤的pCR定义:乳房和区域淋巴结中所有侵袭性疾病的根除。
05
研究背景
临床问题:局部晚期乳腺癌(LABC)由不同阶段和预后的乳腺癌组成,需要综合治疗。
新辅助化疗(NAC)是LABC的标准治疗,放疗(RT)是LABC综合治疗的重要组成部分。但是由于治疗的发杂性和肿瘤的异质性,很难精确预测LABC的预后。
目前方法不足:目前,对这些患者的预后评估主要依赖于TNM分期和分子亚型方面的临床和病理学评估(没提不足)。
因此,开发一种评估接受新辅助化疗和术后放疗的 LABC 患者预后的新方法非常重要。
本文解决方式:本文构建并验证基于 MRI 的影像组学评分 (RS),以评估 NAC 和 PORT 后局部晚期乳腺癌患者的 DFS。 
通过将影像组学与基因组和计算组织病理学数据相结合,评估影像组学与肿瘤细胞及其微环境的异质性之间的关联。
科学假设:
影像组学特征评分能反应肿瘤和肿瘤微环境的异质性;
影像组学特征评分反应的肿瘤异质性是干细胞分化的肿瘤组织形态学的结果。
二、模型构建
01
影像组学workflow展示
Figure S1
我们先来看一下影像组学部分的流程图:
① 分割,特征提取
② 特征选择(ICC,LASSO)
③ 模型验证(共表达矩阵,生存分析K-M曲线)
④ 模型评价(ROC+DCA+K-M)+亚组分析
02
纳入排除标准建立
本文对患者的随访计划以及NAC和PORT的治疗方案有明确的定义;而文章的纳排标准文章中表明会在补充材料中展示,但补充材料中并没有纳排标准的相关信息。
所以下面我们只能按PICOS原则为大家梳理一下——
P:
年龄:不限制;
性别:女性;
疾病状态:首诊初治;
疾病分期:临床分期(II-III期);
治疗方案:接受新辅助化疗(NAC)以及术后放疗(PORT);
诊断标准:病理诊断;
I/C:
影像设备:MRI ;
扫描序列:T1对比增强序列;
靶区:沿病变边缘勾画全瘤VOI;
影像检查时间点:NAC前4周内;
层厚:未提及;
对比剂:未提及;
O:
远期疗效:DFS, RFS;
最终,共纳入 278 名患者,并以 1:1 的比例随机分为训练集和内部验证集。
外部验证集中排除了来自 TCIA TCGA-BRCA 队列中没有增强 MRI 或在 MRI 上没有明显病变的乳腺癌病例。共纳入91名患者。
03
图像预处理+图像分割+特征提取
图像预处理、肿瘤分割和特征提取通过 3D Slicer及其插件slicer radiomics(基于pyradiomcis)执行。
分割过程由两位经验丰富的影像科医生进行,肿瘤的感兴趣区域 (ROI) 由第一名医生沿每个切片中的病灶边缘手动分割,然后由第二名医生审阅。
随机抽取20名患者对靶区进行重新勾画。
04
特征选择+预后模型建立
① 特征的一致性评价:
利用组内相关系数intra-ICC和组间相关系数inter-ICC评估提取特征的可重复性,ICC>0.75的影像组学特征被保留到下一阶段进行分析;
Figure S2 B
从训练集提取的850个特征,有616个特征被保留;
② 单因素Cox分析:
然后利用单因素 Cox 分析在 616 个特征中识别出 250 个特征(p<0.05)。
Figure S2 A
③ LASSO(COX)回归:
使用 LASSO 从 250 个特征中选择了 15 个具有非零系数的特征,计算rad-score(未展示)。
Figure S2 C,D
至此,基于影像组学特征的预后模型构建完毕。
05
预测模型的建立
作者随后构建了三个预测模型来评估Rad-score的附加预后价值。
① 基于cTNM分期构建TNM模型;
② 基于多因素分析筛选的的临床病理数据构建临床模型(TNM分期、ER状态、PR状态和亚型);
③ 基于Rad-score和临床病理数据构建影像组学预后模型。
基于影像组学模型绘制列线图:
Figure 3 A
//
正片开始
三、模型评价
01
Rad-score预后价值分析
Cutoff值的确定
训练集预测患者5年生存的ROC曲线以及AUC指标如图所示:
Figure S2 E
结果显示
AUC=0.891,并根据时间依赖性ROC曲线得出cutoff 值 = −51.7682。据此将训练集和内部验证集的rad-score分为high-score组(cutoff > −51.7682)和low-score组(cutoff  <= −51.7682)。
使用来自 TCIA 的 TCGA-BRCA 队列进行外部验证。应用相同的Rad-score公式,并使用相同的cutoff值将队列分为high-score组和low-score组。
Rad-score预后模型K-M曲线风险分层
根据Rad-score的cutoff值将队列分为high-score组和low-score组进行K-M生存分析,并采用log-rank检验计算p值。
Figure 2
Figure S3
结果显示
Figure 2 A,C :在训练集中,与high-score组相比,low-score组患者的DFS( p<0.001)与OS(p=0.034)的改善有统计学意义;
高分组DFS的中位生存时间为 74.0 个月(95% CI 62.8-82.3),而低分组DFS的中位生存时间未达到。
Figure 2 B,D :在验证集中,结果与训练集一致,与high-score组相比,low-score组患者的DFS( p=0.014)与OS(p=0.13)的改善有统计学意义。
Figure S3 A :在外部验证集中,分层结果与训练集和验证集结果一致(P=0.041)
Rad-score的多因素分析
多因素分析变量包括年龄、cTNM 分期、HR 状态、HER2 状态、pCR、IMNI 和Radscore。
结果显示
Rad-score是训练集中 DFS 的独立预后因素(p<0.001,HR 3.866,95% CI 2.537-5.891);
验证集中观察到相似结果( p=0.042,HR 1.002;95% CI 1.000–1.005)。
02
三个模型的性能评估
三模型的区分度评价
列线图中训练集和测试集的 C 指数分别为 0.820(95% CI 0.744–0.896)和 0.612(95% CI 0.528–0.696);
仅Radscore的模型训练集和测试集的C指数为0.810(95% CI 0.743–0.877)和 0.614(95% CI 0.522–0.706);
cTNM模型在训练集和测试集的C 指数分别为 0.620(95% CI 0.504–0.700)和 0.516(95% CI 0.426–0.606)。
列线图评价
Cox回归生存分析的列线图评价大家比较熟悉了,区分度(时间依赖性ROC)+校准度(校准曲线/HL检验)+临床获益(DCA决策曲线分析)。
Figure 3 B,C,D
Figure S4
结果显示
Figure 3 B+Figure S4:校准曲线图显示在训练和验证队列中观察和预测之间的一致性很好;
Figure 3 C:1年和5年的时间依赖性 ROC 曲线显示出良好的预测准确性;
Figure 3D:列线图、临床模型、TNM模型均表现出临床获益,且基于Radscore的列线图的临床净收益远高于临床模型和TNM模型。
模型比较
利用IDI (整体判别提升指数)和 NRI(净重新分类提升指数) 评估Rad-score模型相对 TNM 模型的增量预测值。 
在 TNM 模型中包含Rad-score在训练和验证集中产生的 IDI 分别为 0.247(95% CI 0.126–0.343,p<0.01)和 0.027(95% CI 0.002–0.058,p<0.01)。
 在训练和验证队列中,NRI 分别为 0.539(95% CI 0.244–0.682,p<0.01)和 0.127(95% CI 0.029–0.346,p=0.07)。加入Rad-score后均有增益。
小注:与AUC类似,但IDI和NRI可以定量的计算新旧模型预测准确路的改善程度。,若IDI/NRI > 0,则为正改善,说明新模型比旧模型的预测能力有所改善,若IDI/NRI < 0,则为负改善,新模型预测能力下降,若IDI/NRI = 0,则认为新模型没有改善。总体来说IDI/NRI值越大,则提示新模型预测能力越好。
03
亚组生存分析风险分层
在分别在训练集和测试集的非病理完全缓解(non-pCR)亚组和风险比(+/-)HR+/HR-亚组中以Rad-score cutoff值进行风险分层绘制K-M曲线。
Figure 3 E-I
结果显示
Figure 3 E,F:Rad-score可以对non-pCR 亚组中的肿瘤复发进行风险分层(训练集p<0.001;验证集:p<0.001);
Figure 3 G,H,I:Rad-score对 HR+亚组中的肿瘤复发进行风险分层(训练集 p < 0.001;验证集p = 0.022)。
04
生物学意义

Workflow展示

Figure S5
探究生物学意义说白了也就是影像组学+生信分析+病理组学相关性分析拼一起了,相当于又建立了n个科学假设,我们看看这部分的Workflow:
① Rad-score的构建 & 验证(已完成);
② 从TCGA数据库获取多组学数据,进行基因集与Rad-score的富集分析;
③ DEGs的GO & KEGG富集分析;
④ DEGs的生存分析;
⑤ 影像组学计算病理学相关性分析;

Rad-score和基因集表达的相关性(圈)

科学假设:Rad-score可以反应肿瘤异质性(通过与基因集相关性证明);
目的:使基因集存在于不同Rad-score的分组中(将基因组数据和Rad-score结合),通过表达差异、功能注释探讨影像组学的生物学意义;
步骤:
① 数据获取:在TCGA数据库下载外部验证集TCGA-BRCA 队列患者的基因组数据,最终具有 RNA-seq 和 microRNA-seq数据的患者被纳入(n = 64 );
② 分组:根据放射组学评分将患者分为三组:
高Rad-score的患者(前 1/3;21 例)定义为高分组;
低Rad-score的患者(后1/3;21 例)定义为低分组;
不属于任一类别的被定义为中等分组(中间22 例);
③ 生物学意义探索:GSEA分析富集高分组和低分组相关的生物途径(cutoff值设置为FDR<0.1 和 p<0.05 );
Figure 4 A,B
结果显示
Figure 4 A:DNA 修复、G2/M 检查点和 PI3K/Akt/mTOR 通路在高分和低分组中均被富集;
Figure 4 B:免疫相关性通路也被富集(干扰素γ通路、干扰素α通路),干扰素γ通路被富集在高分组(有一小点低分组),干扰素α通路完全被富集到低分组;同时展示了高分组富集到的G2M通路和低分组富集到的mTor通路。

差异表达基因的识别和功能注释(挑+圈)

完成了对基因集的分析后接下来就是对单个基因的分析。
科学假设:Rad-score可以反应肿瘤异质性(通过与基因表达相关性证明);
步骤:
① 差异基因(DEGs)获取:利用“lemma”和“edgeR”包识别高分和低分组之间的 DEG(mRNA、lncRNA 和 miRNA)(cutoff值设置为Log2|FC|>1 和 adjusted p<0.05 );
② 富集分析:利用Metascape和“clusterProfler”R包基于表达差异基因进行了GO & KEGG富集分析(cutoff值设置为 adjusted p<0.05 );
Figure 4
结果显示
Figure 4 C共鉴定出174个DEGs,其中低分组93个DEGs上调,81个DEGs下调;
Figure 4 D,E: GO & KEGG富集结果的可视化;
Figure 4 F,G:GO分析显示,DEGs与角化、角质化和角质形成、表皮细胞分化和生物代谢有关,提示低分组与高分组在细胞分化方面存在差异。

差异表达基因的生存分析风险分层(靠)

基于高Rad-score组具有较差的预后,低Rad-score组具有较好的预后。
假设低分组中上调的DEGs可能与良好的预后有关,而低分组中下调的DEGs可能与预后不良有关;对DEG 进行生存分析以进一步证实假设。
Figure 5
Figure S6
结果显示
Figure 5 A,B:在低分组中下调的 DEG,如皮肤分化标志物 SLURP1 和转录因子 PAX7,与预后不良相关(分别为 p = 0.045,p = 0.016);
Figure 5 C,D:而在低分组中上调的 DEG 组,如 UCP1 和 ABCA10,与良好的预后相关(分别为 p = 0.017,p = 0.020);
Figure S6:无论结局是DFS还是RFS都能得到类似的结论;
Table S1:大多数 (24/28, 85.7%) DEG s均符合假设。

Rad-score与肿瘤微环境和免疫表型的关联(联)

前面提到,免疫相关通路,如干扰素-α通路和干扰素-γ通路,在低分和高分组中被GSEA富集,而细胞因子-细胞因子相互作用通路在低分组中被下调。
结果表明,肿瘤免疫和肿瘤微环境在低分组和高分组之间存在差异。所以作者接下来对肿瘤免疫和肿瘤为患者与影像组学的相关性进行了分析,据此提出假设。
科学假设:Rad-score可以反映肿瘤微环境异质性;
步骤:
① 使用 ESTIMATE 方法计算高分组和低分组的肿瘤纯度;
② 评估参与肿瘤逃逸机制的分子的肿瘤免疫表型(https://tcia.at/tools/toolsMain),计算每个病理的免疫表型分数(IPS),并使用 Kolmogorov-Smirnov 检验比较高分组合低分组差异;
③ 利用 TILs Map (从 TCIA :
https://cancerimagingarchive.net/datascope/TCGA_TilMap下载)的数据评估高分组和低分组TILs 的空间分布;
④ 利用CIBERSORTx 表征肿瘤环境中的22种免疫细胞类型的丰度(卡方检验,p<0.05);
小注:虽然都叫TCIA,但此TCIA的全称是The Cancer Immunome Atlas与彼TCIA(The Cancer Imaging Archive)不同,关于这个TCIA以后鑫仔会专门写文章为大家讲解。
Figure 6
Figure S7
结果显示
Figure 6 A:结果显示两组之间肿瘤纯度差异不具有统计学意义,表明两组之间免疫细胞和基质细胞的数量相似;
Figure 6 B + Figure S7A-C:高分组显示出显著降低的 MHC分子分数,表明能够避免 T 细胞识别。而免疫调节剂 (CP),效应细胞 (EC),抑制细胞 (SC)两组相比差异均不具有统计学意义;
Figure 6 C:高分组和低分组TILs 的空间分布差异不具有统计学意义;
Figure 6 D,E:通过计算了 22 种免疫细胞类型组的比例,提示低分组具有较高的活化NK 细胞(p = 0.047)。

计算组织病理学和影像组学之间的关联(联)

先前研究表明,来自不同影像亚型的肿瘤细胞存在组织病理学特征的变化;
功能注释结果表明,来自不同评分组的肿瘤细胞经历了不同的表皮细胞分化阶段,低分组中的肿瘤细胞表现出较少的“鳞状细胞/角质细胞”表型,细胞具有不同的形态;
然而肿瘤细胞表型不能完全由腺癌转移到鳞癌;
科学假设:高分组和低分组影像亚型的细胞分化会导致细胞细微的形态学变化;
验证方法:计算病理学从患者HE染色病理切片定量提取特征;
步骤:
① 数据获取:从GDC网站(https://portal.gdc.cancer.gov/)在线下载全视野病理切片(WSI)数据;
 通过开源软件 QuPath 定量提取能表征肿瘤细胞分化和肿瘤形态的水平的计算病理学特征;
特征提取过程如下:
1) 将 WSI 上的 ROI 分割成宽度和高度均为 100 µm 的tiles;
2) 考虑到ROI 内肿瘤细胞和 TIL细胞之间的大小差异,应用 QuPath 自动细胞检测功能来检测肿瘤细胞;
3) 阈值(threshold)设置:像素大小,0.3 µm;背景半径,8 µm;中值过滤器半径,0 µm;sigma, 1.5 µm;最小细胞面积,24 µm2;最大细胞面积,1,000 µm2;阈值:0.1;
4) 自动检测结果由病理学家确认;
5) 最终定量提取了基于肿瘤细胞和肿瘤tiles的 85 个特征;
③ 共提取了 44 名患者的 440 个特征并用于进一步分析。按特征值的最小值、中值、最大值、上四分位数和 下四分位数在病例水平的tiles上分组,53例计算病理学资料完整的患者中,低分组18例,中分组18例,高分组17例。评估影像组学特征与计算病理学特征之间的相关性(低分组vs中等组,低分组vs高分组)(cutoff值设置为FDR<0.1 和 p<0.05)。
Figure 7
Figure S8
Figure S9
Figure S10
结果显示
Figure 7 A + Figure S8 + Figure S9 +Figure S10:建立计算病理学和影像组学特征之间的相关图;
Figure 7 B,C + Table S2:23 个计算病理学特征在高分组和低分组之间差异具有统计学意义;
高分组和低分组在细胞离心率、核粗度和直径方面存在差异;
但是,中等分和低分组之间的特征差异无统计学意义。
因此,高分组的肿瘤在形态上与低分组的肿瘤不同,证明了科学假设。
四、全文总结
Figure 1
我们来看一下本文的总流程图:
① 对获取影像数据进行分割、特征提取、特征选择得到基于影像MRI的影像组学评分;
② 结合临床变量,将病例分为两个数据集:训练集和内部验证集,并将TCIA下载影像数据的TCGA-BRCA队列作为外部验证集;
③ 利用训练集构建影像组学模型(列线图),临床模型和TNM模型,验证集验证,并进行生存分析和亚组分析;
④ 通过基因集富集和DGEs富集讨论全瘤的异质性;
⑤ 通过肿瘤纯度、肿瘤成分、肿瘤免疫浸润图探讨肿瘤微环境的异质性;
⑥ 通过计算病理学和影像组学关联探讨肿瘤细胞分化异质性;
本分通过影像组学+生信分析+病理组学的方法,相比单纯按影像组学套路走的文章来说,通过基因组学、病理组学探讨了影像组学特征的生物学意义,蹭上了免疫的热点,可以说一环套一环;
但无论如何,本文在2022年,通过给近几年将要被玩烂的影像组学和已经被玩烂的生信分析构建了一条桥梁,稳稳发在了1区8分+。
而且后面的生信分析基本上都是白嫖数据,流程上是十分值得我们学习的!
然而,不得不说,这篇文章的写作逻辑真的很迷,先不说大量数据没有在补充材料中显示,就连原文对应Figure的ABCD都有错误,OS写成了OFS,就已经看出文章在校对上是非常不细心的。虽然影像组学部分各种要点其实也没有提到,但是可以看出作者在生信部分的写作上是个高手。
综上,我们看出,文章的总体流程生物学意义十足,但却由很大的提升空间。200例左右的病例,看到这篇2022年的文章是不是跃跃欲试了呢?赶紧抓紧时间,批量复制这个套路!
好的,我们本期的文献分析就到这里,继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~
参考文献
[1] Wang X, Xie T, Luo J, Zhou Z, Yu X, Guo X. Radiomics predicts the prognosis of patients with locally advanced breast cancer by reflecting the heterogeneity of tumor cells and the tumor microenvironment. Breast Cancer Res. 2022;24(1):20. Published 2022 Mar 15. doi:10.1186/s13058-022-01516-0
[2] https://tcia.at/home
END
撰文丨鑫      仔
审核丨小张老师
责编丨小张老师
往期推荐
继续阅读
阅读原文