化繁为简！一文帮你彻底搞懂机器学习！想发高分文章，这篇是基础！

一文弄懂机器学习的背景知识

帮助我们快速构建宏观框架

HI，大家好，我是晨曦
今天的晨曦碎碎念迎来了第八期的内容，我们的主题聚焦在了——机器学习，这也是讲席营中部分小伙伴们很感兴趣的内容。

那么，考虑用几期推文来给大家介绍一下常用的机器学习算法以及如何用R语言进行实现

鉴于晨曦也在机器学习的道路上行走，所以本期推文内容带有个人强烈的主观认识，如果各位小伙伴对于推文中某些观点有自己的见解，也欢迎大家在评论区进行交流~

晨曦碎碎念系列传送门

想白嫖单细胞生信文章？这五大源头数据库，是你发文章的源泉！高频预警！你一定要收藏！

盘活国自然的新思路！你研究的热点真的是热点吗？大数据帮你定位！

好家伙！90%以上审稿人都会问到的问题，今天帮你解决！就是这么齐齐整整！

没想到！生信分组还有这个大坑！你被坑过吗？！

关于富集分析这件事，我有话想说。。。

好御好高级！CNS级别美图是如何炼成的？看这篇就懂了！

话说Machine Learning

首先，当我们看到机器学习的时候肯定有第一个问题会自然而然的映入我们的脑海中

晨曦解读

提问：什么是机器学习？机器学习和数据挖掘是一个东西么？

回答：这里说一下晨曦的观点，机器学习其实本质上属于人工智能领域，其创立的初衷其实就是为了得到拥有自主思考能力的模型。举个例子：机器学习的本质其实更像是培训员工，而并不是抚养孩子，你需要让员工具备某种技能从而解决更多的问题；

但是数据挖掘则不是，虽然机器学习和数据挖掘存在着重合，但是其中一个潜在的区别在于，机器学习倾向于执行一个已知的任务，并且通过学习去执行未知的操作，而数据挖掘则不同，数据挖掘的本质是去搜索隐藏在海量数据中被隐藏的细节，也就是说我们还可以举一个例子，机器学习更像是教一个机器人开车，而数据挖掘则是为了探索哪种汽车的性价比最高。

比如说，我们在进行降维聚类、拟合贝叶斯模型等等一系列操作，甚至于热图的行列聚类，其实本质上都在应用着机器学习的算法，所以我们如果想要让我们的分析能力更上一层楼，机器学习是你如何也不跳不过的一道学习门槛。

机器学习的分类

那么接下来，我们了解了为什么后，我们来看一下机器学习的分类，毕竟机器学习是一个大概念，其下有很多分支，下面这个分类来自己黄海广老师的授课PPT

从这个分类我们可以很直观的看到，机器学习分为三大类，分别是有监督学习、无监督学习以及强化学习，然后这里我们终点掌握有监督学习和无监督学习，那么现在，我们首先需要解决第一个问题

晨曦解读

提问：什么是有监督学习？什么是无监督学习？

回答：有监督学习即知道正确答案，无监督学习即不知道正确答案。

好了，这个概念说完，肯定还会有很多小伙伴不明白，那么我们依旧举一个例子，比方说我有一只猫，我告诉模型这是一只猫（至于模型是如何构建的我们后面会介绍很多算法来告诉大家），然后模型知道了这是猫，然后我再拿出一只狗，我告诉模型这是狗，模型也知道了这是狗，经过不断的训练，等我下次再拿出来一只动物，我不告诉模型这是什么，模型自己告诉我，这是猫，好了，这就是有监督学习，前期的训练工作都是提供了正确答案给模型

那么什么又是无监督学习呢，我这里再举一个例子，比方说我有一群动物，里面分别有猫、狗、兔子等等，这时候我直接给模型，告诉模型你给我把它们分类，好了，模型把猫、狗、兔子分别单独分了出来，但是实际上，模型并不知道猫、狗、兔子，甚至于在模型的认知中，这些无异于就是A、B、C，这就是无监督学习，这个在哪里用的比较多呢？其实在我们热图绘制的时候，我们的行列聚类其实就是这种无监督学习的算法，模型并不知道你的列样本是正常组还是实验组，只不过是通过基因表达量（观测）把样本进行了聚类，也就是说在模型的认知中，其实和A、B和C这种纯粹的标志没有任何区别

好了，说到这里，各位小伙伴应该知道了什么是有监督学习，什么是无监督学习了

我们下面继续把我们的概念细分下去

有监督学习，我们需要掌握的就是两类：1.回归；2.分类

无监督学习，我们需要掌握的就是两类：1.降维；2.聚类

好，到这里小伙伴又会有疑问了

晨曦解读

提问：预测模型是什么？

回答：这是一个很常见的问题，因为很多小伙伴可能不知道机器学习，但是知道预测模型，这里我说一下我的看法，首先我们的有监督学习都是可以生成预测模型的，举个例子，我们从书本上获得知识，这个知识其实相当于我们的数据，也可以说是训练集，然后我们通过把知识学习到我们的大脑，这个大脑，可以理解为是算法，也就是有监督或者是无监督或者是其它类型的算法，然后我们会获得一种处理事物的准则，这个准则就是模型，我们通过这个准则来处理别的事情，这个别的事情就是我们常用的验证集，不知道说到这里小伙伴们明白了没有，预测模型其实就是机器学习的一个我们最终想要得到的产物，当然基本上都是有监督学习会产生预测模型

晨曦解读

提问：有监督学习中的分类和回归可以具体说一下有什么区别么？

回答：其实我们可以粗暴的理解，如果我们的结局变量可以穷举，则是分类，比如说判断是或者不是，或者判断正常和肿瘤，但是如果我们的结局变量不可以穷举，比如说预测一下房屋的价格或者是股市今天会上涨多少个百分点，那么这个就是回归

晨曦解读

提问：曦曦，既然你说预测模型是我们机器学习的产物，那么你能在说一下临床预测模型都有哪些分类么？

回答：首先我们常见的临床预测模型根据建模方法，也就是算法的不同分为参数化模型、非参数化模型以及半参数化模型，参数化模型我们主要需要掌握的是线性回归和广义线性回归，但是这里需要注意，有些书籍也讲线性回归划分到了机器学习的算法中，但是我们只要知道其构建的模型属于参数化模型就可以，然后广义线性模型下面包括了主要的logistic回归和泊松回归

半参数化模型包括cox比例模型以及竞争风险模型，而非参数话模型则是主要是机器学习的算法，包括支持向量机、KNN等等，所以其实临床预测模型和机器学习一个是一个互相交叉的状态

总结

讲到这里，让我们来做一个小总结

机器学习我们主要学习两大类，分别是有监督学习和无监督学习，其中的有监督学习，我们主要掌握的就是回归和分类，无监督学习我们主要掌握降维和聚类

掌握上面这些以后，我们对于机器学习的前期背景知识应该是有一个比较基础的认识了，我们下面再来预告一下我们可能会学到的一些算法

首先是有监督学习，我们在后续的推文中可能会学到：KNN、贝叶斯、决策树、线性回归、逻辑回归、神经网络、这些比较常见但是实用的算法

无监督学习我们可能会学习到PCA、K-means聚类、高斯混合模型、限制波尔兹曼机、最大期望算法等

所以在这里我们先有一个学习的方向，后续的学习内容，晨曦也会用尽可能直白的话语给大家进行讲述，方便大家的理解

预告一下：下期的内容我们首先对KNN算法进行开刀，来看一下这个算法究竟是什么？

参考资料：

1.黄海广老师的机器学习课程

2.吴恩达老师的机器学习课程