影像组学模型建立之逻辑回归

Hello大家好我是高高，今天我来给大家带来一个新的主题：影像组学模型的建立之逻辑回归篇。

模型建的好，从此没烦恼；模型没建好，烦恼少不了。

那么，在进行完特征选择和降维之后，我们要选择什么样的方法来建立起影像组学模型呢？

目前，有许多方法可被用于建立基于影像组学特征的预测和分类模型。

在影像组学建模中，逻辑回归模型（logistics regression）因其简单易行，成为最受欢迎且常用的监督分类器；

另外，常用的机器学习模型还有随机森林（Random Forest）、支持向量机（support vector machines, SVM）、AdaBoost（Adaptive Boosting)，XGBoost，K邻近算法（K- Nearest Neighbor）等等。

今天我们首先来简单聊聊逻辑回归模型。

在正式介绍算法前，我们先把采用逻辑回归算法的影像组学的流程简单地梳理一下：

①研究目的是预测结局变量Y（例如肿瘤是否发生转移，肿瘤对免疫治疗的反应性）；

②研究的主变量X是影像组学特征（基于CT、MRI或超声等的影像组学特征）；

③还可以纳入协变量Z（如患者的年龄、性别的临床基线信息）——即输入主变量X和协变量Z的数据，通过逻辑回归算法，输出结局变量Y的结果。

在逻辑回归算法中，我们可以把以上的X、Y与Z整合成一个公式：y=f(x+z)，其中y为需要预测的结局变量Y，x是自变量X，z是协变量Z，f就是所建立的模型了。

这公式瞧着眼熟吗，是不是梦回被高数支配的日子（哭唧唧）。

莫慌莫慌，咱们志不在学废会这些公式。我们先初步了解算法的基本原理并知晓应用场景即可，后续还将有推文具体介绍算法的实操方案（傻瓜式软件操作与升级版代码练手）。

逻辑回归模型是什么

逻辑回归模型是一种广义的线性回归分析模型。那么，什么是线性回归呢。线性回归是我们平时接触到的最简单的模型之一，它就是通过训练出一条直线来拟合样本的数据。

这条直线只能预测连续值，而无法完成二分类的任务。

逻辑回归虽然被称为回归，但其实际上是分类模型，并常用于二分类。逻辑回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计，用于估计某种事物的可能性。

比如某用户购买某商品的可能性，某病人患有某种疾病的可能性等。注意，这里用的是“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当作概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘。

逻辑回归的假设函数形式如下：

这个函数称为Sigmoid函数，也称为逻辑函数（Logistic function)，其函数曲线如下：

从上图可以看到sigmoid函数是一个s形的曲线，它的取值在[0, 1]之间，在远离0的地方函数的值会很快接近0/1。这个性质使我们能够以概率的方式来解释，当x>0时h(x)大于0.5，x<0时h(x)小于0.5，x=0时x=0.5，我们以此判定样本属于一个类的几率。逻辑回归=线性回归＋Sigmoid函数。

逻辑回归模型的应用场景

在实际运用中，我们要面对的情况远比这个要复杂，我们毕竟不是专门搞机器学习的，这么写纯理论知识对我们来说也太过于晦涩，让我们举个通俗易懂的例子：

比如我们想要机器通过“观察”某个患者的一些特征从而来诊断这个人有没有感染，那么我们就可以设输出值y为0表示没有感染，1表示有感染，那么判断这个这个患者是否感染其实就是一个分类问题，输出值就是离散的（仅为0或者1）。

这就是分类问题中最简单的二元分类，顾名思义，就是输出值只有两个，就像上面那个例子，结果只有感染了和没感染，不会”感染了又没感染“这种莫名其妙的结果。

在二元分类中，我们常常用0和1来限定y值，继续套用上面那个诊断感染的例子，我们假设x(i) 表示患者的特征，那么y就被称作患者的标签（也就是类别），y的0值往往被称作患者的“负类”，1值便称作患者的“正类”。有时候我们还会用“+”和“-”来代替1和0，像是在图上的时候，这样会表现的更清楚。

那如果我们现在不只有两类呢？比如说，如果对于诊断有感染的患者，我们还想知道，该患者的感染程度是“轻”还是“重”，也就是说，把患者分类成“无感染”，“有轻度感染”和“有重度感染”三类。这就不属于二分类问题了，而变成了多分类问题。

这个时候，我们还可以使用逻辑回归来进行分类判断吗？当然是可以的，我们只需要转变一下我们的思维，把多分类问题转变成多次的二分类问题。

继续使用刚才的例子，比如我们就可以先判断患者是否有感染，再对有感染的患者进行二分类，判断是轻度还是重度。

这种方法在逻辑回归里，就叫做一对多（One VS ALL）或者一对余（One VS Rest）。先定义其中一类为类型1（正类），其余数据为负类（rest）；接下来去掉类型1数据，剩余部分再次二分类，分成类型2和负类。

如果需要继续细分，方法也是一样的，所以当有n类的时候，一共需要分类n-1次。

逻辑回归模型于影像组学中的应用

通过刚才的例子，我们可以很明显的看出来，在影像组学实践中，如果所预测的结局变量y是分类变量，比如说预测对免疫治疗的反应性，预测是否发生了转移，或者鉴别诊断等，逻辑回归可以很好的满足我们的需求。输入筛选后的影像组学特征，采用逻辑回归算法，可以输出预测的结果。下面就是几篇应用了逻辑回归方法建立模型的文章，同学们可以读一下巩固一下上面的内容：

1、Development and Validation a Nomogram Incorporating CT Radiomics Signatures and Radiological Features for Differentiating Invasive Adenocarcinoma From Adenocarcinoma In Situ and Minimally Invasive Adenocarcinoma Presenting as Ground-Glass Nodules Measuring 5-10mm in Diameter（10.3389/fonc.2021.618677）

2、Extended Texture Analysis of Non-Enhanced Whole-Body MRI Image Data for Response Assessment in Multiple Myeloma Patients Undergoing Systemic Therapy （10.3390/cancers12030761）

敬请期待下期的推文——基于逻辑回归算法的影像组学文章套路拆解

那么这一期关于逻辑回归在影像组学中的简单了解和介绍到这就结束啦，后面我会继续给大家带来更多的模型介绍以及大家更想要的代码实操部分，请大家继续关注~

我是高高，大家下次再见~

—

END

—

撰文丨高高

审核丨小糕老师

责编丨小张老师

往期推荐

继续阅读

阅读原文