npj：机器学习的四个方面：神、人、用、梦

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

近年来，大数据集的可用性融进了算法的改进、计算能力的指数增长，一时间成妖成仙，成就了机器学习，同时也迷住了大批科学家，让他们朝思暮想，难于自拔。如今，机器学习算法已被成功用于大量特高维输入数据的分类、回归、聚类或降维研究。实际上，机器学习已被证明在许多领域具有超人（神）的能力（如娱乐、自驾、图像分类等）。因此，我们日常生活中的大部分内容，如图像和语音识别、网络搜索、欺诈检测、电子邮件/垃圾邮件过滤、信用评分，等等，均来自机器学习算法提供的支持。

虽然数据驱动的研究，更具体地说是机器学习，已经在生物学或化学领域有着悠久的历史，但它们最近在固态材料科学领域的应用，才刚崭露头角。计算方法的出现推动了材料科学的第一次计算革命，特别是密度泛函理论（DFT）、蒙特卡罗模拟和分子动力学，使研究人员能够更有效地探索相位和成分空间。实际上，实验和计算机模拟的结合使得材料设计的时间和成本大大减少。计算能力的不断提高和更高效代码的开发，也允许对大型材料组进行高通量计算研究，以筛选理想的实验候选者。这些大规模的模拟和计算以及实验性高通量研究正在产生大量数据，使机器学习方法可用于材料科学。

随着这些算法开始找到它们的应用位置，它们预示着第二次计算革命即将到来。由于估计可能的材料数量与googol（10100）一样高，因此毫无疑问需要进行这场革命。材料基因组计划（材料基因组计划）等项目旨在弥合实验与理论之间的差距，促进数据更密集、更系统的研究方法，从而进一步推动这种范式变革。现可找到许多机器学习在材料科学中成功应用的例子，如，新稳定材料的预测、多种材料特性的计算、第一原理计算的加速，等。

机器学习算法已经彻底改变了其他领域，例如图像识别。然而，从第一个感知器到现代深度卷积神经网络的发展是一个漫长而曲折的过程。为了在材料科学中产生显着的成果，人们不仅须要发挥机器学习技术的优势，还应运用已经在其他领域学到的经验教训。

由于机器学习方法向材料科学的引入仍处鸿蒙之期，许多已发表的应用程序在性质和复杂性方面都是相当基础的。它们通常将模型拟合到极小的训练集，甚至将机器学习方法应用于可能在数百个CPU小时内绘制出来的合成空间。当然可以使用机器学习方法作为小型低维数据集的简单拟合程序，但这并没有发挥其巨大潜力，也不能证明机器学习方法在其他领域的成功可以复制。

此外，与进入不同的科学领域一样，必须正确应用命名法。一个例子是表达“深度学习”，其描述的是机器学习方法新近成功的大部分（如，在图像识别和自然语言处理）。将一个人的工作描述为深度学习当然很诱人，但将具有一个或两个完全连接的隐藏层的神经网络，表示为深度学习对于刚接触该主题的研究人员来说是混乱的，并且错误地表达了深度学习算法的目的。深度学习的成功源于深度神经网络，在没有人为干预的情况下，学习具有不同抽象层次的数据描述符的能力。当然，这不是双层神经网络的情况。

机器学习算法在科学中的主要批评之一是缺乏使用它们的新法则，理解和知识。这是因为机器学习算法通常被视为黑匣子，因为机器制造的模型太复杂和太陌生，人类无法理解。来自德国马丁路德大学物理研究所的Miguel A. L. Marques教授，专注于详细讨论和分析固态材料科学（特别是最新的固态材料科学）机器学习的各种应用。由于机器学习算法在几个不同的科学和技术领域中取得了无与伦比的成功（神一般的成功），这些应用在过去几年中一直在蓬勃发展。该综述首先介绍了机器学习，特别是材料科学中的机器学习原理、算法、描述符和数据库（人的理论贡献）。

然后，介绍了固态材料科学中机器学习的众多应用（应用是目的和推动力）：新稳定材料的发现及其结构的预测、材料特性的机器学习计算、材料科学模拟的机器学习力场的发展、通过机器学习方法构建DFT功能、通过主动学习优化自适应设计过程，以及机器学习模型的可解释性和物理认识。最后，讨论了机器学习在材料科学中面临的挑战和局限，并提出了一些克服或规避它们的研究策略。作者坚信，这一系列高效的统计工具确实能够大大加快基础研究和应用研究的速度（梦想）。因此，它们显然不仅仅是一种短暂作用于材料科学的方式，而肯定一直是未来几年塑造材料科学的力量。

该文近期发表于npj Computational Materials 5: 83 (2019)，英文标题与摘要如下，点击左下角“阅读原文”可以自由获取论文PDF。

Recent advances and applications of machine learning in solid-state materials science

Jonathan Schmidt, Mário R. G. Marques, Silvana Botti & Miguel A. L. Marques

One of the most exciting tools that have entered the material science toolbox in recent years is machine learning. This collection of statistical methods has already proved to be capable of considerably speeding up both fundamental and applied research. At present, we are witnessing an explosion of works that develop and apply machine learning to solid-state systems. We provide a comprehensive overview and analysis of the most recent research in this topic. As a starting point, we introduce machine learning principles, algorithms, descriptors, and databases in materials science. We continue with the description of different machine learning approaches for the discovery of stable materials and the prediction of their crystal structure. Then we discuss research in numerous quantitative structure–property relationships and various approaches for the replacement of first-principle methods by machine learning. We review how active learning and surrogate-based optimization can be applied to improve the rational design process and related examples of applications. Two major questions are always the interpretability of and the physical understanding gained from machine learning models. We consider therefore the different facets of interpretability and their importance in materials science. Finally, we propose solutions and future research paths for various challenges in computational materials science.

扩展阅读

npj: 机器学习探寻无铅钙钛矿—太阳能电池专用

npj: 机器学习——无机材料合成的科学“炒菜法”

npj: 超导转变温度——机器学习作预测

机器学习：分子动力学模拟探测原子力的新方案

npj：材料信息学——进化出机器学习的翅膀

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方

继续阅读

阅读原文