机器学习自学者必读的20篇顶级论文导读（内附下载链接）

编译丨温璐菲

来源丨kdnuggets

作者丨Thuy T. Pham

近些年来，机器学习（尤其是深度学习）方面的研究已取得惊人的进展，突破性的革新技术改变了亿万人的生活。该领域的研究发展非常迅速，为了帮助我们的读者把握发展进程，我们列下了该领域自2014年以来最重要的20篇科学论文。排名的标准是论文在三大学术搜索网站：scholar.google.com、academic.microsoft.com和semanticscholar.org上的被引用量。由于被引用量在不同来源网站上不一致，并且只是估计值，所以我们仅列出来自academic.microsoft.com的结果。

在每篇论文后，我们会标明它的发表年份，高影响力引用数(Highly Influential Citation count, HIC)以及引用速率(Citation Velocity measures)（由 semanticscholar.org提供）。CV表示最近三年来每年被引用数的加权平均数，有些数据的CV是0，表示数据缺失，或者semanticscholar.org无法提供。虽然绝大多数的论文主题是深度学习，然而多样性仍然非常显著——只有一名学者（Yoshua Bengio）有两篇论文入围；这些论文发表的期刊也较为分散：CoRR (3), ECCV (3), IEEE CVPR (3), NIPS (2), ACM Comp Surveys, ICML, IEEE PAMI, IEEE TKDE, Information Fusion, Int. J. on Computers & EE, JMLR, KDD, 还有 Neural Networks. 其中，排名第二的论文在去年才刚刚发表。

文末点击

“阅读原文”

即可在网页中获得论文的下载链接。祝大家学习愉快~

1.《Dropout: a simple way to prevent neural networks from overfitting》

译：防止神经网络过度拟合的简单方法——Dropout

Hinton, G.E., Krizhevsky, A., Srivastava, N., Sutskever, I., & Salakhutdinov, R. (2014). Journal of Machine Learning Research, 15, 1929-1958. 被引用2084次，HIC：142，CV：536

核心观点：通过在训练时随机地从神经网络中剔除单元及其连接，可以防止单元过度拟合。这种做法显著减少了过度拟合现象，并且改进了许多其他的正则化方法。

2.《Deep Residual Learning for Image Recognition》

译：用于图像识别的深度残差网络

He, K., Ren, S., Sun, J., & Zhang, X. (2016). CoRR, abs/1512.03385. 被引用1436 次, HIC: 137 , CV: 582

核心观点：本文提出了一种残余学习框架来简化深度神经网络的训练，这些网络的工作方式是引入跨层堆栈的快捷连接，让优化器可以学习更「容易」的残差映射（residual mapping）而非更为复杂的原映射（original mapping）。

3.《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift Batch Normalization》

译：分批标准化：通过减少内部协变量位移（Covariate Shift）加速深度网络训练

Sergey Ioffe, Christian Szegedy (2015) ICML. 被引用 946 次, HIC: 56 , CV: 0

核心观点：深度神经网络由于在训练过程中每层的输入都会随着上层参数的改变而改变，变得非常复杂。我们把这种现象称为内部协变量位移，可以通过泛化层输入来解决这个问题。

4.《Large-Scale Video Classification with Convolutional Neural Networks》

译：论使用卷积神经网络做大规模视频分类

被引用865 次, HIC: 24 , CV: 239

核心观点：卷积神经网络(CNNs)是一种解决图像识别问题的强大模型。基于此，我们让CNNs使用100万个来自487个种类的YouTube视频数据库进行大规模视频分类，并对此进行了广泛的实证评估。

5.《Microsoft COCO: Common Objects in Context》

译：Microsoft COCO：环境中的一般对象

Belongie, S.J., Dollár, P., Hays, J., Lin, T., Maire, M., Perona, P., Ramanan, D., & Zitnick, C.L. (2014). ECCV. 被引用830次, HIC: 78 , CV: 279

核心观点：为了推动对象识别科技的最新发展，我们通过在更广阔的场景理解问题中放置对象识别问题，给出了一个新的数据集。该数据集包含了91个4岁小孩可以轻松识别的对象种类。最终，我们用可变形部分模型（Deformable Parts Model）对边界盒（bounding box）以及分割检测（segmentation detection）结果进行了基准绩效分析。

6.《Learning deep features for scene recognition using places database》

译：使用places数据库来学习场景识别的深度特征

Lapedriza, À., Oliva, A., Torralba, A., Xiao, J., & Zhou, B. (2014). NIPS.

被引用 644 次, HIC: 65 , CV: 0

核心观点：我们介绍了一种叫做Places的全新场景中心数据库，其中包含700多万种分好类的场景图片。我们提出了对比图片数据库的密度和多样性的新方法，结果显示，Places数据库跟其他的场景数据集具有同等密度，并具有更高的多样性。

7.《Generative adversarial nets》

译：产生式对抗网络

Bengio, Y., Courville, A.C., Goodfellow, I.J., Mirza, M., Ozair, S., Pouget-Abadie, J., Warde-Farley, D., & Xu, B. (2014) NIPS. 被引用 463次, HIC: 55 , CV: 0

核心观点：本文通过对抗过程，提出了一种新的框架来预测产生式模型，我们同时训练两个模型：一个产生式模型G，该模型可以抓住数据分布；还有一个判别式模型 D 可以预测来自训练样本　而不是G的样本的概率．训练G的目的是让D尽可能的犯错误，让其无法判断一个图像是产生的，还是来自训练样本。

8.《High-Speed Tracking with Kernelized Correlation Filters》

译：使用KCF进行高速跟踪

Batista, J., Caseiro, R., Henriques, J.F., & Martins, P. (2015). CoRR, abs/1404.7584. 被引用 439次, HIC: 43 , CV: 0

核心观点：在大多数现代跟踪器中，要处理自然图像的变化，人们会用被翻译、衡量过的样本修补程序(patches)来训练分类器(classifier)。我们提出了一种用于包含了上千种翻译后的修补程序的数据库的分析模型。

9.《A Review on Multi-Label Learning Algorithms》

译：多标签学习算法回顾

Zhang, M., & Zhou, Z. (2014). IEEE TKDE. 被引用 436 次, HIC: 7 , CV: 91

核心观点：本篇论文旨在提供对多标签学习研究问题的回顾。每个例子都会配合单个建议和一系列的标签。

10.《How transferable are features in deep neural networks》

译：深度神经网络的特点的可转移程度

Bengio, Y., Clune, J., Lipson, H., & Yosinski, J. (2014) CoRR, abs/1411.1792. 被引用 402次, HIC: 14 , CV: 0

核心观点：我们量化了每一层深度卷积神经网络的神经元普遍和个体之比，并且有了惊人的发现。可转移程度受两方面负面影响：（1）更高层神经元针对原本任务的专门化，牺牲了其在目标任务上的表现；（2）共适应的神经元之间分裂网络的优化困难。

11.《Do we need hundreds of classifiers to solve real world classification problems》

译：我们是否需要上百个分类器来解决现实世界的分类问题？

Amorim, D.G., Barro, S., Cernadas, E., & Delgado, M.F. (2014). Journal of Machine Learning Research.被引用 387次, HIC: 3 , CV: 0

核心观点：我们评估了17个领域中的179个分类器。这17个领域包括：判别分析、贝叶斯神经网络、支持向量机、决策树、基于规则的分类器、推进（boosting）、装填（bagging）、堆叠（stacking）、叠加、随机资料林和其他集合、广义线性模型、nearest-neighbors、偏最小二乘回归和主成分回归、物流和多项式回归、多元自适应回归样条函数和其他方法。我们使用了来自UCI数据库的121个数据集来研究分类器行为，不依赖于数据集合。

12.《Knowledge vault: a web-scale approach to probabilistic knowledge fusion》

译：Knowledge vault，一种网络规模的概率性知识融合方法

Dong, X., Gabrilovich, E., Heitz, G., Horn, W., Lao, N., Murphy, K., ... & Zhang, W. (2014, August). In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining ACM. 被引用 334 次, HIC: 7 , CV: 107

核心观点：我们介绍了一种网络规模的概率知识库Knowledge Vault，它集合了从网页内容中提取的信息（通过对文本、列表数据、页面结构和人工注释的分析中获取），运用了从建造知识库(knowledge base)的知识仓储(knowledge repositories)中衍生出来的现有知识。

13.《Scalable Nearest Neighbor Algorithms for High Dimensional Data》

译：用于高维数据的可伸缩最小邻域算法

Lowe, D.G., & Muja, M. (2014). IEEE Trans. Pattern Anal. Mach. Intell., 被引用324次, HIC: 11 , CV: 69

核心观点：我们提出了针对近似最小邻近匹配(nearest neighbor algorithms)的全新算法，并与之前的算法进行了评估和对比。

14.《Trends in extreme learning machines: a review》

译：回顾：极端学习机的趋势

Huang, G., Huang, G., Song, S., & You, K. (2015). Neural Networks, 被引用 323 次, HIC: 0 , CV: 0

核心观点：本文报告了极端学习机(ELM)的理论研究和实践进展的现状。目前除了分类(classification)和回归(regression)，ELM还可以用于分类归并(clustering)，属性选择(feature selection)，表征学习(representational learning)和许多其他的学习任务。

15.《A survey on concept drift adaptation》

译：对适应概念漂移的调查

Bifet, A., Bouchachia, A., Gama, J., Pechenizkiy, M., & Zliobaite, I. ACM Comput. Surv., 2014, 被引用 314 次, HIC: 4 , CV: 23

核心观点：本文旨在简要介绍概念漂移(concept drift)，即一种在输入的数据与目标变量的关系随着时间变化时的在线学习场景技术。

16.《Multi-scale Orderless Pooling of Deep Convolutional Activation Features》

译：深度卷积激活特征的多尺寸度无序池化

Gong, Y., Guo, R., Lazebnik, S., & Wang, L. (2014). ECCV. 被引用293 次, HIC: 23 , CV: 95

核心观点：为了在不降低辨别力的前提下，提高CNN的激活能力，本文提出了一种多尺度无序池化卷积神经网络，简称MOP-CNN。

（参考：http://blog.csdn.net/lhaof/article/details/50831963）

17.《Simultaneous Detection and Segmentation》

译：同时检测与分割

Arbeláez, P.A., Girshick, R.B., Hariharan, B., & Malik, J. (2014) ECCV, 被引用 286 次, HIC: 23 , CV: 94

核心观点：我们旨在检测一张图片中某个分类的所有的实例(instance)，并且在每个实例中标识出下属的像素。我们称这种任务为同时检测与分割（SDS）。

18.《A survey on feature selection methods》

译：属性选择方法的调查

Chandrashekar, G., & Sahin, F. Int. J. on Computers & Electrical Engineering, 被引用279次, HIC: 1 , CV: 58

核心观点：当前文献中已经记载了许多属性选择方法，本文中，我们概述了文献记录中的部分方法，旨在介绍可应用于大范围机器学习问题上的变量消除方法。

（根据论文本身摘要进行了翻译，并非文章中给出的内容）

19.《One Millisecond Face Alignment with an Ensemble of Regression Trees》

译：用集成回归树实现一毫秒面部匹配

Kazemi, Vahid, and Josephine Sullivan, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2014. 被引用 277 次, HIC: 15 , CV: 0

核心观点：本文解决了单张图片中的面部匹配问题。我们展示了如何用回归树来直接估计面部标志位置，获得超实时的表现和高质量的预测。

20.《A survey of multiple classifier systems as hybrid systems》

译：多分类器系统作为混合系统的调查

Corchado, E., Graña, M., & Wozniak, M. (2014). Information Fusion, 16, 3-17. 被引用269 次, HIC: 1 , CV: 22

核心观点：目前，多个分类器系统的结合是模式分类的研究重点，这些分类器系统可以根据同样或不同的模型/数据库来建造。

后台回复“资源”即可下载海量免费学习资源

你可能错过了：

继续阅读

阅读原文