本文选自《中国统计》2022年第3期文章,原文已获出版社和作者授权。

触类旁通的灵感

生存与健康无疑是人类生活中最为关心的事情,作为研究不确定性现象的统计学在这个领域发挥着不可替代的作用。我们试图以较为通俗的语言阐述一个医学实际研究案例,揭示统计学在其中的作用。使读者能从更加广泛的领域了解统计学,进而能够在自己感兴趣的问题中找到触类旁通的灵感。
卵巢肿瘤是女性常见的三大恶性肿瘤之一,死亡率居妇科恶性肿瘤首位。因卵巢癌早期无症状,发病隐匿,且缺乏有效的诊断方法,发现时多为晚期,生存率较低。为提高患者生存率,研究者做了许多努力和尝试,特别是提高和改善患者预后。

案例背景

当一个人生了病,都急于知道这种疾病的严重程度,以及有什么治疗方法,这也是我们去找医生看病的原因。医生也会通过病人自述,医学影像和其它诊断方法给出判断。但影响卵巢癌预后的因素很多,在疾病进展过程中,多种因素共同影响患者预后。如何根据患者的不同情况,综合判断患者预后状况,预测生存率是非常重要的问题,但不是一个简单的问题,需要根据统计方法和医学资料加以建模分析,给出较为准确的预测方法。
这个案例采用的数据集是从全国7家医院5年搜集的近900例卵巢癌患者临床随访数据。数据集包括存活期、年龄、原发灶大小、病理类型、临床分期、淋巴是否转移、病理分级、手术残余灶大小、化疗方法、化疗方案、CA125等风险因素。
这些风险因素大多是描述疾病严重程度的多类别变量,这在做建模分析时往往需要引入更多取两个值的变量来替代它们,否则无法将其纳入模型。当变量个数和它们描述的类别较多时,需要引入的二值变量数目与样本量相比较会很大。如果变量过多,它们之间的共线性会导致模型参数估计失真甚至反序等诸多不合理现象,这也是我们在解决实际问题中遇到的最大困难。

Cox模型

能够描述生存率的统计模型有很多种,其中比较流行的是Cox模型。这个模型的特点是既有能够适合多种情况的不限定函数形式的非参数部分,又有可以直观展示危险因素作用的指数线性部分,这让研究者和医生都非常喜欢。既可以用一个模型来统一处理很多问题,又可以在实际工作当中加以运用,用于指导实践。在模型建立之后,可以了解哪些因素影响大,哪些影响少。还可以根据病人的病情资料,较为准确预测病人的存活时间的概率分布。

数据合理性分析及处理

在进行建模分析之前,需要对数据的合理性进行分析,特别是分析每个协变量分层是否合理。原始数据各变量水平的划分是按临床危险程度由低到高排列的,所以若协变量水平划分合理,它们的回归系数应该单调递增。即变量描述的危险程度越高,则模型中的危险率应该越大。由于样本具有随机性和不均衡性,以及样本量不足等情况,反常现象在实际数据分析时会经常遇到。另外,还需要判定每个变量的影响是否显著。
对于数据中的所有变量都要仔细分析。每个变量的情况不同,处理方法也不同。对有些变量我们需要进行合并,有些变量不得不剔除,有些变量需要剔除些样本,有些变量不用做重新处理。
原始数据中临床分期按国际惯用的FIGO分期,共有10个水平。最初按照这种分层做Cox回归,发现系数不单调,并且反复出现波动。分析原因,由于该变量水平划分非常细致,且划分标准对医生的临床经验程度依赖很高,实际数据可能不是非常客观,也有可能是样本量偏小或者不均衡所致。所以在保证每层系数显著且保序的前提下,根据医生建议,合并了一些相邻项,重新划分了临床分期,最后归结划分为三大期。
原始数据中淋巴结是否转移分为三个水平,未转移,转移,未清。Cox回归时发现未清这一水平的系数是负值,也就是说,手术未清情况下的危险率比淋巴未转移的低,这与常识相违背。重新翻查病例资料并与医生讨论得知,部分病人淋巴结未清不是因为病变范围广,无法进行淋巴结清除术,而是病情并不严重才没有清除,这部分患者生存期相对较长。这对生存期的预测是一种干扰。理论上讲应当将这部分病人按照淋巴结是否转移重新分,但这种操作无法实现。未清病例占总样本比例较大(30%),不能删除所有未清样本,所以后面的分析不再考虑该变量。
原始数据中化疗分为三层,规范化疗,不规范化疗,未化疗。按照这三个水平Cox回归时发现,未化疗组的危险率与规范化疗组接近,并且数据显示未化疗组的平均寿命几乎是不规范化疗组的2倍!这是一个非常可疑的结果。经过分析发现,化疗的分层同淋巴结是否转移有相似的问题。未化疗组实际上包括两类病人,一是病情严重,病人认为没有必要从而放弃化疗;二是手术成功,病情轻微,病人觉得可以不用做化疗。这一水平的存在严重干扰了分析化疗对生存率的影响作用。所幸未化疗组仅占总样本2.38%,征得医生同意,我们删除了未化疗组样本。最后化疗变量只包括两个水平,规范化疗与不规范化疗。
年龄,病理分级,术后残余灶直径这三个变量在原始数据中的分层比较合理,不用再重新划分。

模型估计

在数据得到合理性分析和处理后,则可以使用估计方法对整个模型进行估计了。在进行估计时也考虑了两种方法,一种是分类回归树方法,一种是两步法。两种方法的结果是近似一样的。我们这里只叙述两步估计法。
按照道理说在进行了数据的预处理之后直接代入数据利用成熟的模型估计方法就应该可以了。但计算之后还是发现了问题。就是单个变量分析时各个变量都是显著的,且单调性也都是合理的。但把所有变量放在一起进行分析时则又出现了不合理的现象。有些变量的有些分层不显著有些又违反单调性规律。出现这种现象的原因可能是变量间的共线性导致。一般地,逐步回归等变量选择方法可以解决共线性,但此时的协变量是引入的二值变量,即需要一组二值变量来表示一个风险因素,不能简单地删除某个不显著和不单调的变量。
面对这种情况,我们采取了两步分析方法。第一步我们利用单变量分析方法获得每个变量每种情况的第一步估计系数。第二步将此第一步系数作为这个变量的连续值,代入统一模型估计,估计出第二步系数。最后将第一步和第二步的系数相乘,最后得到每个变量每种情况的指数危险率估计值。
在获得了估计模型之后,还进行了整个模型的合理性分析和拟合优度检验,最后确定模型结果和数据是吻合的,模型是合理的。

预测展示

最后的分析结果展示可以分为两个部分。第一个部分要建立一个危险评分系统。根据这个评分系统,医生就可以根据患者的具体情况,给出他的危险评分。最高分为100,最低分为0。评分越高危险越大。其中的方法主要是根据Cox模型中幂指数中的线性部分。把最高得分规范为100分,其余情况是估计值的相应比例。第二个部分是生存率估计。医学中通常要给出1年、3年和5年的生存率。对于每个患者的具体情况,有了估计模型之后,就可以计算出相应的生存率。可以做成计算机程序展示,也可以对所有情况组合进行制表列出。

总结与展望

在医学研究中的统计方法很多。Cox模型是生存分析中常见的模型,可用来描述一个寿命类变量和若干因素之间的关系。虽然核心方法是成熟的,但面对实际数据时还会出现各种各样的问题,需要根据具体情况进行灵活处理。在处理的时候既要合理又不至于损失太大信息。我们这里介绍的主要是卵巢癌的预后分析工作。通过这个案例,大家可以看到医学数据分析的严谨性和复杂性。可喜的是,这项工作的成果对医学实践具有现实的指导意义。
卵巢癌的早期诊断问题还是一个医学难题,现在有很多学者在这个领域进行工作。由于早期临床表现不明显,影响因素很难获得。人们试图通过某些生化指标的异常表现来获得诊断方法,但都没有获得突破性进展。尽管如此,统计模型和估计方法都进行了前瞻性研究,有一些著作获得了发表。文末祝愿治愈癌症的方法早日诞生,让人们都永葆青春与健康。

作者简介

房祥忠教授 在北京大学数学科学学院曾任概率统计系主任,中国现场统计研究会理事长,IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员,中国统计学会副会长,全国应用统计专业学位研究生教育指导委员会委员,北京企业评价协会理事长等职。研究兴趣包括:生存分析,可靠性,纵向数据,基尼系数,时空统计,人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖(2011)、北京市科技进步二等奖(2002)和教育部第六届高等教育国家级教学成果二等奖(2012)。
敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
编辑|李萧纹
继续阅读
阅读原文