一文学会Lasso回归
在临床上,对于医生们来说,如果有某种“特定功能”来预测患者是否会有未知结果,那么许多医疗实践模式或临床决策都会改变。在临床工作中,我们总会听到这样的叹息:“如果我能提前知道,我当然不会这样做!”。举个简单的例子,如果我们可以预测患有恶性肿瘤的患者对某种化疗药物耐药,那么我们将不会选择给患者服用该药物;如果我们可以预测患者在手术过程中可能出现大出血,那么我们将谨慎操作并为患者准备足够的血液制品;如果我们可以预测高脂血症患者不会从某些降脂药物中受益,那么我们可以避免许多无意义的医疗干预。
作为一种评估风险和收益的定量工具,临床预测模型可以为医生,患者和卫生管理人员的决策提供更客观,准确的信息,因此其应用变得越来越普遍。在这种刚性需求下,临床预测模型的研究方兴未艾。
今天,小洋就向大家介绍一个在临床预测模型中经常用到的方法——Lasso回归。
背景介绍
Lasso最早是由加拿大多伦多大学的Robert Tibshirani于1996年提出的,全称Least absolute shrinkage and selection operator。Lasso 是一个本身具有特征筛选功能的模型,其本质是在线性模型上加了一个 L1 惩罚项。这极大的避免了过拟合,还可以将冗余预测变量的回归系数压缩到0,或者说将其权重变成0。相比于线性回归的易过拟合、岭回归的将权重降至接近0,Lasso 模型实现了降维,进而发挥筛选特征的作用,获得更精确更有效的特征集合。
尤其是医学一些尚未确定影响因素的疾病,以及影像组组学这种“组学”相关特征庞大,变量选择非常困难的情况,Lasso 具有的这种特性在一定程度上解决了这些难题。相较于传统模型的需要单独做特征工程,使得模型好坏直接取决于选取特征的好坏,Lasso 反而便捷许多。尤其对于新的疾病症状,可以自行筛选症状特征而减少主观判断的缺失性。因此,将 Lasso 模型应用到临床预测上是非常有研究意义的。
特点
LASSO 回归的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整。因此,不论目标因变量是连续的,还是二元或者多元离散的,都可以用 LASSO 回归建模然后预测。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合。
对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型,通常效果很差。一般来说,变量数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能过度拟合。LASSO 回归复杂度调整的程度由参数λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而最终获得一个变量较少的模型。
局限性
Lasso 回归求解时,假设样本数据是一个 M×N 的矩阵,则 Lasso 最多只能筛选出min(M,N)个特征。当 N>M 的时,min(M,N)=M,即最多只能筛选出 M 个系数不为零的特征。也就是说,在样本数据 N>>M 这种情况下,Lasso 模型会漏掉很多重要特征,容易产生欠拟合。而当特征之间存在群组效应时,Lasso 模型只能筛选出其中的一个特征,其它的特征都会被剔除掉。
以上就是有关Lasso回归的内容介绍,如果想要进一步掌握Lasso回归的相关知识,还可以登录解螺旋官方网站-生信体系课下篇-段位四:临床模型-知识模块3进行深入的学习和探索!
文献解读
下面让我们来看一篇2021年7月发表在“Frontiers in Genetics”(IF= 4.599)杂志上的一篇文章。题名为“Esophageal Cancer Associated Immune Genes as Biomarkers for Predicting Outcome in Upper Gastrointestinal Tumors”。
期刊简介
背景介绍
食管癌(Esophageal cancer, EC)是世界上第七大最常见的肿瘤,在癌症死亡原因中排名第六,5年生存率为15-25%。因此,需要可靠的预后生物标志物来有效预测食管癌的预后。本文经过单因素cox、多因素cox和lasso回归分析,建立了免疫风险的预后模型。下面就让我们来复现一下文章中的Lasso回归部分。
复现工具
仙桃学术工具(https://www.xiantao.love/products
文章复现
图1C LASSO 回归中参数选择的十次交叉验证
进入仙桃学术,点击【生信工具】
【高级版】 → 【立即使用】
【临床意义(靠)】 → 【预后分析】 → 【[云]Lasso系数筛选】 → 【TCGA-ESCA】→【输入分子list】→ 【确认】→保存结果
图1D LASSO系数分布图
【临床意义(靠)】 → 【预后分析】 → 【Lasso变量轨迹图】 → 选择刚刚得到的lasso结果 → 【确认】
保存结果:
本期有关Lasso的相关内容就介绍到这里啦,希望对大家的科研工作有所帮助。我是小洋,我们下期再见~
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨小   洋
排版丨四金兄
主编丨小雪球
继续阅读
阅读原文