数据中心散热难？看谷歌和 DeepMind 如何用 AI 搞定它

By 超神经

场景描述：谷歌和 DeepMind 合作，使用机器学习的方法，优化数据中心的能耗问题，成功的实现了数据中心自动化散热管理。

关键词：机器学习数据中心散热控制

随着互联网技术的发展，人们对计算能力需求的增加，大型的数据中心也越来越多。但这也对环境和能源带来了一丝威胁。

在大规模的商业和工业系统中，数据中心消耗的能源占了很大的比例。从环境角度来说， 2017 的数据显示，数据中心使用量占据了全球能源总消耗量的 3％，排放量占全球温室气体总量的 2％。

另一份报告中指出，数据中心每年使用的电量估计为 200 太瓦时( TWh )，这大概相当于伊朗国家能源总消耗量。

谷歌的一个数据中心

如果能够对数据中心的能源使用作出优化，就算是一些细微的改进，也能很大程度上减少温室气体的排放量，有效地缓解能源和环境问题。

而谷歌，一直在用 AI 技术做这样的事情。

不散热就烧钱

数据中心大部分的额外能耗来自于降温冷却。而如何进行有效的散热管理一直是企业头疼的问题。

就像笔记本运行时需要散热一样，谷歌的数据中心为谷歌搜索， Gmail ，YouTube 等热门应用提供服务器，必须及时的将巨大的发热量处理掉，以保证它们正常的运行。

数据中心的散热系统

然而，常规使用的降温方法，在数据中心这样的动态环境中却很难发挥功效，主要的阻力来自于以下几个方面：

工程师如何操作设备，以及把握环境对设备产生的复杂影响。传统的方式和人类直觉，在数据中心的复杂环境中，往往无法捕捉到这些细节

系统无法快速适应内部或外部的变化（如天气）。这是因为工程师不可能对所有的环境制定规则。

每个数据中心都有独特的架构和环境。一个系统的自定义调整模型可能不适用于另一个系统。因此，更需要一个通用的智能框架。

百行代码节省上亿美元

为了解决以上问题，谷歌和 DeepMind 一起尝试用机器学习（ ML ）的方法，来提高谷歌数据中心的能源使用效率。

2016 年，谷歌和 DeepMind 推出了一个基于 ML 的推荐系统，利用数据中心内的不同操作场景和参数，来训练神经网络系统，创建了一个高效和自适应的框架。

而他们训练的数据，则是数据中心内数千个传感器收集的历史记录，包括温度，功率，泵速，设定点等数据。

由于其目标是提高数据中心的能源效率，因此以平均 PUE（电力使用效率）为参数，对神经网络进行训练。然后通过对 PUE 的趋势进行预测，对制冷设备的配置优化进行指导，减少了闲置的制冷电力消耗。

PUE（ Power Usage Effectiveness ）被定义为总建筑能耗与 IT 能耗的比率，PUE 为 1.0 是完美的分数。传统数据中心的 PUE 通常约为2.0，对于超大规模计算中心，PUE 已经削减到大约 1.2 。谷歌通过优化后平均 PUE 达到了 1.12。

Google 数据中心 PUE 测量范围

另外，他们还训练了两个深度神经网络，以预测未来一小时数据中心的温度和压力。这些预测的目的是模拟 PUE 模型中的推荐操作，以确保不会超出任何操作约束。

其中的一次测试，预测何时开启和关闭控制模型

通过 ML 方法的使用，系统能持续将用于冷却的能量减少 40％ ，排除掉电气损耗和其他非冷却效率低下的原因后，总体 PUE 开销减少了 15％。相当于节省了上亿美元的资金开支。这也带来了最低的 PUE （随着不断地优化，还在持续降低）。

Google 的所有大规模数据中心的 PUE 数据

AI 即将取代人力

在 2018 年，他们将这个系统提升到了新的水平。

在新技术里，AI 得到了更大的自主权，系统可以直接控制数据中心的降温，但为了安全，还是处在专业人员的监管之下。

这种技术是基于云服务的方法，及时提供分析和策略方案。

每隔五分钟，基于云的 AI 就会从数千个传感器中，提取数据中心冷却系统的快照，并输入深度神经网络，预测潜在操作的不同组合将如何影响未来的能源消耗。

接着，AI 系统在满足安全约束的情况下，识别出会带来最小的能量消耗的操作组合，并将它们发送回数据中心，最后的操作由本地控制系统验证然后实施。

<< 滑动查看具体步骤 >>

这个想法源于使用 AI 推荐系统的数据中心运营商的反馈。运营商表示，虽然系统已经学会了一些最佳方案，例如在操作员的帮助和监督下，系统能够正确的将冷却负荷分散到更多的设备上，以实现更高的效率。但他们在好奇，AI 是不是可以做的更多？

然后，AI 就完全接管了这一切，几乎不再需要操作员的协助。

新的系统中，他们重新设计了 AI agent 和底层的基础设施，同时也重点考虑了安全性和可靠性，使用多种机制来确保系统始终按预期运行。

其他安全控制模式

而且，最高的控制权属于操作员，而不是 AI 。工作人员可以随时选择退出 AI 控制模式，通过限制系统的优化边界，将 AI 的使用控制在安全可靠的范围之内。

谷歌的负责人员说到，「我们希望以更少的人力开销实现节能。自动化系统能够以更高的频率实施更细致的操作，同时避免错误。」

AI 说：没有最强，只有更强

在试用新系统的几个月中，他们已经实现了平均 30％ 的持续节能。而且随着时间的推移，积累了更多数据，系统的性能也在逐步提升，如下图。

该图描绘了 AI 系统随着时间的变化情况，蓝色代表数据量，绿色是性能的变化

在图中记录的六个月里， AI 控制系统的性能，从 12％的改进（自动控制的初始启动）增加到大约 30％的改进（上图绿色曲线表示和过去相比的结果，曲线越低，性能提升的幅度越大）。

随着技术的成熟，系统的优化范围也将得到扩展，从而进一步减少能耗。

而谷歌的技术人员表示，数据中心仅仅是个开始。从长远来看，这项技术有潜力应用于其他工业领域，在更广泛的场景中改善环境和能源问题。

超神经小百科

归纳偏好 Inductive bias

归纳偏好是在进行归纳过程中进行选择的考量。对应了学习算法「什么样的模型更好」的假设。

归纳偏好可以看作学习算法自身在一个庞大的假设空间中，对假设进行选择的启发式或者「价值观」。

在具体的现实问题中，判断算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

历史文章（点击图片阅读）

每年 13 亿吨食物遭浪费，

如何用 AI 助餐厅后厨省粮？

人工智能+建筑，

会产生什么？

机器学习用在楼宇能源管理，

连帝国大厦都服气

AI 百科

教程

数据集

商店

http://hyper.ai

继续阅读

阅读原文