27场机器学习面试后，来划个概念重点吧

机器之心报道

编辑：小舟

机器学习面试宝典，有这一本就够了。

在机器学习和数据科学岗位的面试中，机器学习领域的概念是经常考察的内容。一位近期经过 27 次 AI 领域面试（包括 Google 等大型公司和一些初创公司）的开发者根据自己的面试实战经验撰写了一份机器学习资料。

这份资料适用于机器学习初学者，包含机器学习中经典常用的基础概念。值得一提的是，每个章节的末尾还附带教程和练习题，帮助读者进一步掌握书中讲解的概念知识。

下载地址：https://www.confetti.ai/assets/ml-primer/ml_primer.pdf

这本书包括监督学习、机器学习实践、无监督学习和深度学习四章。

第一章：监督学习

该章节介绍了线性回归、logistic 回归、朴素贝叶斯、支持向量机、决策树和 K - 近邻算法。

线性回归

线性回归是最常见且使用范围最广的一种机器学习技术。它是一种非常直观的监督学习算法。顾名思义，线性回归是一种回归方法，这意味着它适用于标签是连续值（如室温）的情况。此外，线性回归试图寻求与线性数据的拟合。

logistic 回归

现实世界中绝大多数问题都涉及到分类，比如图像标注、垃圾邮件检测、预测明天是否为晴天等。这里介绍的第一个分类算法是 logistic 回归。

朴素贝叶斯

朴素贝叶斯是一种优秀的机器学习模型。它之所以优秀，是因为它的核心假设可以用一句话来描述，但它在许多问题中都很有效。在深入了解朴素贝叶斯之前，这里首先探讨了判别模型和生成模型这两种机器学习模型的区别。

支持向量机

这部分探讨了支持向量机这种分类算法。21 世纪初深度学习兴起之前，支持向量机是人工智能领域的主流技术。即使在今天，支持向量机依然是用于新分类任务的最佳算法之一。这是因为它具有表示数据中多种类型统计关系的能力，并且易于训练。

决策树

决策树是一种出色的模型，它不仅功能强大，而且易于解释。实际上，该模型的基础结构与人类做出决策的方式非常相似。一些机器学习开发者认为决策树在新的问题域上提供了最佳的开箱即用性能。

K - 近邻算法

K - 近邻算法是一种监督学习模型。它没有正式的训练程序，因此它在模型中显得有些异常。正因如此，K - 近邻算法是一个解释和实现都相对简单的模型。

第二章：机器学习实践

控制模型偏见

构建监督学习模型背后有哪些理论支撑呢？这里探讨了偏差 - 方差权衡，这是机器学习中最重要的原则之一。

如何选择模型

模型选择过程中有哪些细节？这通常需要评估多个模型的泛化误差。这里主要关注的是，如何使用现有数据和建立的模型来选择最佳模型，而不考虑模型的具体细节如何。

你需要什么特征

特征选择与模型选择紧密相关。

模型正则化

模型正则化在机器学习中极为重要，也是 AI 从业者最强大的工具之一。

模型集成

顾名思义，集成的核心思想是将一组模型组合在一起，以获得性能更高的模型，就像在管弦乐队中组合乐器一样。这一部分就讲述了如何在机器学习中获得和谐的「声音」。

模型评估

模型评估对于训练和交叉验证尤其重要。

无监督学习

购物篮分析

购物篮分析是无监督学习算法的一个示例，它要解决的问题是分析不同物品组合之间的关系及其在特定篮子中出现的频率。

K-Means 聚类算法

这一部分从数据聚类的角度进一步介绍了无监督学习。这里介绍了 K-means 聚类算法，这是 AI 从业者最常用的聚类算法之一。

主成分分析

主成分分析是这本资料介绍的首个数据降维技术。听起来有点复杂，但其核心降维技术是一个相当直观的想法。

深度学习

前馈神经网络

从前馈神经网络开始，作者开始深入探讨深度学习。由于深度学习主要是对神经网络的研究，因此在资料中作者也详细介绍了神经网络模型，首先就从前馈神经网络展开。

神经网络实践

上一节介绍了前馈神经网络的示例，但漏掉了一些细节，如激活函数、权重设置以及神经网络理论的其他方面。本节将对这些问题进行总结。

卷积神经网络

2012 年，来自多伦多大学的研究团队提出世界上第一个完全使用神经网络构建的图像识别系统 AlexNet，并在 ImageNet 竞赛中脱颖而出。这一里程碑事件对今天的人工智能浪潮起到推动作用，卷积神经网络架构是这一转折点的核心。

循环神经网络

卷积神经网络与视觉任务相关，而循环神经网络曾经是语言相关问题的标准模型。实际上，很长一段时间以来，自然语言研究者认为，循环网络能够在任何自然语言问题上取得 SOTA 结果。对于单个模型来说，这是很高的要求。但时至今日，循环神经网络仍然在自然语言任务上表现出色。

作者介绍

这本资料的作者是亚马逊 Alexa AI 的机器学习科学家 Mihail Eric，其主要研究方向是对话式人工智能。Mihail Eric 此前在斯坦福大学获得了计算机科学硕士学位。Mihail Eric 花了数年的时间建立面向目标的对话机器人，并从事计算语义和文本推断方面的研究。

Amazon SageMaker实战教程（视频回顾）

Amazon SageMaker 是一项完全托管的服务，可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型。Amazon SageMaker 完全消除了机器学习过程中各个步骤的繁重工作，让开发高质量模型变得更加轻松。

10月15日-10月22日，机器之心联合AWS举办3次线上分享，全程回顾如下：

第一讲：Amazon SageMaker Studio详解

黄德滨（AWS资深解决方案架构师）主要介绍了Amazon SageMaker的相关组件，如studio、autopilot等，并通过在线演示展示这些核心组件对AI模型开发效率的提升。

视频回顾地址：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715443e4b005221d8ea8e3

第二讲：使用Amazon SageMaker 构建一个情感分析「机器人」

刘俊逸（AWS应用科学家）主要介绍了情感分析任务背景、使用Amazon SageMaker进行基于Bert的情感分析模型训练、利用AWS数字资产盘活解决方案进行基于容器的模型部署。

视频回顾地址：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d38e4b0e95a89c1713f

第三讲：DGL图神经网络及其在Amazon SageMaker上的实践

张建（AWS上海人工智能研究院资深数据科学家）主要介绍了图神经网络、DGL在图神经网络中的作用、图神经网络和DGL在欺诈检测中的应用和使用Amazon SageMaker部署和管理图神经网络模型的实时推断。

视频回顾地址：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d6fe4b005221d8eac5d

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

继续阅读

阅读原文

关键词

机器学习

问题

数据

神经网络

视频回顾地址