各位小伙伴,大家好,我是点儿。
上一节分享中我们初步了解了什么是变量以及预后型研究的变量有哪些特点,并通过一篇例文向大家展示了在预后型临床研究中,如何初步筛选与预后相关的变量,缩小包围圈,快速锁定嫌疑人。
这次我将通过示例数据带大家沉浸式实践操作变量筛选的过程。快学起来吧!!
前情回顾:
预后研究的变量有其独特性:预后研究需要提供患者的生存时间生存状态
(1) 生存时间 (survival time):是从规定的观察起点某终点事件出现所经历的时间长度。
观察起点可以是发病时间、初次确诊时间,接受某种治疗的时间或手术时间等。终点事件是我们感兴趣的结局,可以是进展、复发、死亡或并发症的出现等。
(2) 生存状态 (survival status):最后一次随访时患者的现状,进展与否、复发与否、生或死、并发症有无。
本期预告:
通过本期学习,我们将手把手带你:
1. 熟悉SPSS操作界面和变量设置操作
2. 借助SPSS实现连续变量转换为分类变量
3. 借助SPSS实现分类变量的单因素Cox回归及结果解释
4. 借助SPSS实现连续变量的单因素Cox回归及结果解释
案例文献:
题目:中性粒细胞/淋巴细胞比值(NLR)在接受免疫治疗的晚期肿瘤患者中的预后价值。
文于2021年6月发表于Clinical & Translational Oncology,IF 3.405。
背景:免疫治疗是肿瘤领域新兴的治疗方法。PD-1和PD-L1抗体,CTLA-4抗体等显著延长了部分肿瘤患者的生存期,但大部分患者并不能从中获益。
寻找能够预测免疫治疗疗效的有效标志物可以辅助筛选潜在获益人群,降低医疗成本,提高免疫治疗疗效。中性粒细胞和淋巴细胞与全身炎症和免疫系统密切相关。
因此,中性粒细胞/淋巴细胞比值NLR是一个预测免疫治疗反应和生存的有吸引力的指标。
有文献报道,基线时NLR低的患者预后更好。本文创新点在于不仅记录了治疗前的NLR(bNLR),在治疗2周期后也记录了NLR(NLR2),并且将NLR前后的变化NLR trend也纳入了分析,突出了动态监测NLR对免疫治疗疗效的预测作用。
本文主要的研究变量是bNLR,NLR2和NLR trend,其他可能与免疫治疗预后相关的变量有性别、年龄、白蛋白、LDH、肿瘤类型和治疗方案。其中NLR、bNLR、NLR trend、白蛋白和LDH是连续变量,表现形式是连续的数值。
肿瘤类型和治疗方案是分类变量,表现形式是不同属性,每个属性之间互不相容,也无等级之分。
为了便于结果的解释,作者以6个月时是否出现肿瘤进展,将患者划分为两群,绘制ROC曲线,采用约登指数最大法计算bNLR和NLR2最佳截断值,≥截断值为高水平,<截断值为低水平。
主要观察的结局事件是复发和死亡。远期疗效评估采用无进展生存期(progression-free survival,PFS)和总生存期(overall survival,OS)评价。
首先看一下作者筛选与PFS和OS相关变量时用到的单因素分析表:
我们前次提到,研究变量纳入越多,就需要越多的样本来支持我们得出可靠的结论。同时,纳入的变量越多,变量之间复杂的相互作用对结果的影响也越大。
因此,一方面考虑节约成本,一方面降低假阳性/假阴性结果的发生,我们需要对变量进行一定筛选。最常用的单因素分析就起到了初筛的作用。
那么如何进行单因素分析呢?首先,我们看一下,这样一份数据在SPSS中的录入格式:
【1. 熟悉SPSS操作界面和变量设置操作】
具体操作:
1.在变量视图界面,设置变量:
每一行是一个变量,第一列为变量名称,我们的变量有bNLR,NLR2,年龄,性别,分期,肿瘤类型,治疗方案,PD-L1状态,几线治疗,生存时间,生存状态,进展状态。
数据设置完成后,点击数据视图,就可以看到全部数据了。这里看到分期,肿瘤类型等分类变量的实际意义都是我们刚才设计好的数字来代替。
点击“值标签”按钮,可以看到数字背后代表的临床信息。
bNLR,NLR2,白蛋白和LDH等是连续变量,直接进行单因素cox回归分析,结果不利于解释,也无法绘制生存曲线,按照作者原文“Materials and methods”部分的描述:
作者以6个月时是否出现肿瘤进展,将患者划分为两群,绘制ROC曲线,采用约登指数最大法计算bNLR和NLR2最佳截断值,bNLR≥4.71(截断值)即为“bNLR高水平”;bNLR< 4.71(截断值)即为“bNLR低水平”。NLR2≥3.83即为“NLR2高水平”;NLR2< 3.83即为“NLR2低水平”。
如何将连续变量转换为分类变量呢?
【2. 借助SPSS实现连续变量转换为分类变量】
点击“转换”→“重新编码为不同变量”
弹出对话框:
接下来设置“bNLR高水平组”
全部设置完成后点击“继续”
回到最初的界面,选择“确定”:
这样我们就得到了一个新的变量:“bNLR分组”,NLR2、NLR trend,LDH和白蛋白分组也按上述方法设置即可:
全部变量设置完成后,我们就可以开始进行单变量cox回归分析了:
【3. 借助SPSS实现分类变量的单因素Cox回归及结果解释】
1.“分析”→“生存分析”→“Cox回归”
2.在弹出的对话框中,将左侧变量栏中“生存时间”和“生存状态”分别放入右侧“时间”和“状态”中
3.
定义事件!定义事件!定义事件!...重要的事情说三遍,这里是个坑。一是有些同学会忘记设置,二是此处设置的事件为死亡/进展等,因此要填入与之相对应的数字代号。此前我们设置死亡为1,存活为0,此处单值填入1。

4.将要研究的变量放入协变量中,如NLR2分组:
5.设置参数
(1)Categorical分类:设置比较的顺序
将左侧协变量栏中的变量“NLR2分组”放入右侧框中。
设置参考类比:选择“最后一个(L)”代表以代号最大的那个分组为对照,我们在最开始设置变量的时候NLR2< 3.83为低水平,设置代号1;NLR2≥3.83为高水平,设置代号2,所以如果我们参考类别选择“最后一个(L)”,就代表要用1与2对比,即低水平vs高水平。
如果我们参考类别选择“第一个(F)”就代表以代号最小的那个分组为对照,要用2与1对比,即高水平vs低水平。
设置完毕后点击“变化量(H)”,选择“继续”。
(2)Plot图:图类型选择“生存分析”和“风险”,如果想绘制一张生存曲线图可以将下方左侧“协变量值的绘制位置(C)”中的协变量“NLR2分组”放入到右侧框绘制单独的线条。
(3)Save保存:选择“生存分析”和“风险”。
(4)Options选项:模型统计选择“Exp(B)的置信区间(95%)”,其他选项默认即可。
全部参数设置完毕后,选择“确定”。
结果解读
1. 首先是对数据的整体描述:event代表发生结局事件即死亡的病例有22例,censored删失代表未死亡即存活的病例有8例,total总共30例。
2. 分组特征描述:NLR2分组,组1为低水平,共21例患者;组2为高水平,共9例患者。
(1)下面是分组比较的顺序,0是参照组,1是比较组,我们前面设置过以代号大的为参照,因此这里代号为2的高水平组就是参照,即低水平组vs高水平组。
3. cox回归分析重中之重要汇报3个结果Sig即显著性 p值,Exp(B)即HR值,95%CIfor Exp(B)即HR值的95%置信区间。P=0.126,p>0.05, HR=0.513 (95%CI 0.218-1.207)
4. 30例患者的累计生存率(上),NLR2低水平vs NLR高水平患者的生存曲线(下)。生存曲线呈阶梯样变化,曲线越高、下降越平缓,表示生存率越高或存活期越长
5. 30例患者的累计死亡率(上),NLR2低水平vs NLR高水平患者的死亡曲线(下)。死亡曲线自左下角开始向右上角延伸,代表不断升高的死亡率。曲线呈阶梯样变化,曲线越高、坡度越陡峭,表示死亡率越高或存活期越短
得出结论
本次研究纳入30例患者,死亡22人。与NLR2高水平的患者相比,NLR2低水平的患者发生结局事件(即死亡)的风险增加0.513倍(95%CI 0.218-1.207)。两组差异无统计学意义p>0.05。
通过HR值可以看出NLR2低水平是保护性因素,NLR2低水平的患者死亡风险更低,不过这些推论需要建立在有统计学差异的基础之上。
补充:
【4. 借助SPSS实现连续变量的单因素Cox回归及结果解释】
如果我们不对NLR2进行处理和分组,直接将原始的NLR2作为协变量进行分析,结果的展示和解读会有什么不同呢?
1.“分析”→“生存分析”→“Cox回归”。
2. 设置“时间”、“状态”和“协变量”:
3.设置参数
(1)Categorical分类:不用选择
(2)Plot图:选择“生存分析”和“风险”:
(3)Save保存:选择“生存分析函数”和“风险函数”:
(4)Options选项:模型统计选择“Exp(B)的置信区间(95%)”,其他选项默认即可。
(5)全部参数设置完成后返回,选择“确定”
结果解读
1. 和前面一样,首先是对数据的整体描述:event代表发生结局事件即死亡的病例有22例,censored删失代表未死亡即存活的病例有8例,total总共30例。
2. 我们未设置分组,因此没有分组情况。
3. cox回归分析重中之重要汇报3个结果:Sig即显著性 p值,Exp(B)即HR值,95%CI for Exp(B)即HR值的95%置信区间。P=0.154,p>0.05,HR=1.217 (95%CI 0.929-1.595)。
得出结论
本次研究纳入30例患者,死亡22人。NLR2每增加1个单位,患者发生结局事件(即死亡)的风险增加1.217倍(95%CI 0.929-1.595),p=0.154。
由此我们可以看出连续变量和分类变量分别进行单因素cox回归分析在结果解释上的差异。连续变量进行单因素cox回归分析后关注的是变量每变化一个单位,相应风险增加多少倍。
这在临床诊疗中可借鉴程度较低,我们知道每个指标都有一个可以接受的参考范围,在一定范围内波动,并不会引起疾病,因此一个指标上下变动一个单位的临床意义并不是很大。
但当这个指标变化到某一临界值以上,就会由量变积累成质变,引发疾病。这个临界值,对临床诊疗活动有一定辅助价值,也是临床医生较为关注的。因此,我们经常将连续变量处理成分类变量后进行cox回归分析。
最后按照上述操作对研究变量逐个进行单因素cox回归分析,并提取HR值(95%CI)P值到excel表格中,就可以得到案例文献Table2的单因素分析表了。
总结
我们为了筛选与预后相关的变量进行单因素cox回归分析,通过HR值和P值判断变量对预后的影响及影响程度。一轮单因素分析做下来,能够影响预后的变量就逐渐浮出水面了。
然而单因素cox回归分析每次只纳入一个变量,忽视了其他变量的存在对结局的影响,也忽视了变量之间相互作用对结局的影响。在之后的旅程中,我将和大家一起分析解决这两个问题的办法,咱们下期再见吧!
[引文]
Viñal D,Gutierrez-Sainz L, Martinez D, et al. Prognostic value of neutrophil-to-lymphocyte ratio in advancedcancer patients receiving immunotherapy. Clin Transl Oncol. 2021Jun;23(6):1185-1192. doi: 10.1007/s12094-020-02509-1. Epub 2020 Nov 23. PMID:33226553.
END

撰文点儿
审核丨Epione老师
责编丨小张老师
往期推荐
继续阅读
阅读原文