↑点击上方蓝色字关注硅谷高创会~

DeepMind又带来AI可控核聚变震撼消息！

继去年DeepMind宣称，首次成功用AI控制托卡马克内部等离子体（此重磅成果已登上Nature）之后，时隔一年，谷歌AI团队在这一领域再次取得突破。在最新实验模拟中，将等离子体形状精度提高了65%！

反馈控制对于「托卡马克装置」的运行至关重要，而控制系统会主动管理磁线圈，以控制拉长离子体的不稳定性，防止破坏性的垂直事件发生。此外，人类若能实现对等离子体电流、位置和形状的精确控制，还可以实现热排放，甚至对其能量的管理。

（图源DeepMind发布Twitter）

一、DeepMind揭开核聚变奥秘

如果人类能成功实现核聚变有望提供无限、可持续的清洁能源，但只有掌握反应堆内部发生的复杂物理变化过程，我们才能实现这个不可思议的梦想。几十年来，科学家们一直在朝着这个目标采取渐进的步骤，但仍然存在许多挑战。核心障碍之一是成功控制反应堆中不稳定和过热的等离子体——但一种新方法揭示了我们如何做到这一点。

此前，在EPFL的瑞士等离子体中心 (SPC) 和DeepMind的共同努力下，科学家使用深度强化学习（RL）系统来研究聚变托卡马克（fusion tokamak）内等离子体行为和控制的细微差别。聚变托卡马克（fusion tokamak）是一种甜甜圈形状的装置，使用一系列放置在反应堆周围的磁线圈来控制和操纵其内的等离子体。

（图源网络）

这不是一个简单的平衡动作，因为线圈需要大量细微的电压调整，高达每秒数千次，才能成功地将等离子体限制在磁场内。因此，为了维持核聚变反应——包括将等离子体稳定在数亿摄氏度，甚至比太阳核心还要热——需要复杂的多层系统来管理线圈。然而，在一项新研究中，研究人员表明，单个人工智能系统可以自行监督这一任务。

“使用结合深度 RL 和模拟环境的学习架构，我们生产的控制器既可以保持等离子体稳定，又可以用于将其精确地雕刻成不同的形状，”该团队解释道。

（DeepMind在Nature发表的研究成果）

DeepMind团队基于上次的研究，对智能体架构和训练过程提出了算法改进。研究发现，等离子形状精度提高的同时，还降低了电流的稳态误差。甚至，学习新任务所需的训练时间减少了3倍还要多。

最新论文中，研究人员采用与Nature那篇论文相同的基本实验。RL通过与模拟环境的交互，学习特定实验的控制策略𝜋，然后TCV上部署由此产生的放电策略。

具体来讲，使用自由边界模拟器FGE进行动态建模，并添加了额外随机性，以模拟传感器值和电源的噪声，并改变等离子体的参数。传感器噪声适用于每个环境步骤，而等离子体参数变化（等离子体电阻率𝑅𝑝、归一化等离子体压力𝛽𝑝、等离子体轴安全系数

）则经过简化，因此其值在一个事件内是恒定的，但在两个事件之间随机取样。

然后，研究人员使用最大后验优化（MPO）算法来制定控制策略。MPO依靠两个神经网络：一个是输出当前策略𝜋的actor网络，另一个是近似该策略预期累积奖励的critic网络。智能体与1000份FGE环境进行交互，收集看到的观察结果、采取的行动，以及获得的奖励。每一步获得的奖励，都是根据等离子体状态与参考值中包含的目标值的接近程度来计算的，并辅以其他因素，如避免不良等离子体状态。从最优控制范式到强化学习的直接转换是，为每个要最小化的误差项设置一个奖励分量，其中每个分量𝑖都被映射为一个标量值𝑥𝑖。

然后将这些值合并为一个标量奖励值。根据观察、行动和奖励的记录序列，智能体使用正则化损失函数上的梯度下降交替更新策略和critic网络。更新后的actor网络参数将用于未来与环境的交互。对于等离子体放电，actor网络被限制在一个能以10kHz频率执行的小型架构中，但critic网络只在训练过程中使用，因此可以足够复杂地学习环境动态。

在具体任务实操中，研究人员演示了智能体具体训练过程。首先讨论了通过奖励塑形来提高控制精度。然后介绍了通过积分观测来减少稳态误差的工作，讨论了使用「episode chunking」来改善现实的训练时间。最后探讨了迁移学习作为提高训练效率的手段。

（图源论文）

二、核聚变距离商用还远吗？

几十年来，世界各地的科学家一直在研究核聚变，位于英国牛津的欧洲联合环状反应堆于1983年投入使用，是"国际热核聚变实验堆"（ITER）的关键先遣设施。ITER旨在展示聚变能源的科学技术可行性，包括中国、欧盟、印度等国家和地区组织均参与其中。科学家们希望用一种新的能源来重新创造核聚变，这种能源可以提供无限的、无碳的能源，而不像目前的核反应堆那样产生核废料。核聚变项目主要使用氘和氚两种元素，它们都是氢的同位素。一杯水中存在的氘，再加上一点氚，可以为一所房子提供一年的电力。不过尽管可以被合成，氚更稀有，获取起来也更困难。

（图源网络）

当然，由于长开发周期及高资金消耗，核聚变实验的有效性长期以来饱受争议。也有反对者认为，核聚变技术的开发时间太长了，无法及时扭转气候变迁。相关资金应用于风能、太阳能等可再生能源以及智能传输网络上。支持者则认为，未来无法通过分散式的可再生能源覆盖人类的全部能源需求。因此将永远需要大型发电设施。

目前为止，在可控核聚变上取得的最好成绩来自欧洲联合环状反应堆（JET），JET中的聚变反应在5秒内以中子的形式释放出总共59兆焦耳的能量——这个数值并不高，大概只能烧开几十壶开水而已。人类早已实现了输出能量小于输入能量的可控核聚变，以JET创下的世界纪录为例，其Q值（聚变能增益系数，输出能量与输入能量之比）约为0.33左右。要实现真正可用的核聚变清洁能源，需要通过新的范式的研究，不断提高核聚变的Q值。

圣地亚哥能源研究中心的副研究科学家 Dmitri Orlov 此前表示，「托卡马克装置越复杂，性能越高，就越需要通过越来越高的可靠性和准确性来控制更多数量。」AI 控制的托卡马克装置可以通过优化，以控制热量从反应中转移到容器壁上，并防止破坏性的「等离子体不稳定性」。反应堆本身可以重新设计，以利用强化学习所提供的更严格控制。

（图源网络）

DeepMind 团队坚信：他们的深度强化学习系统为托卡马克装置中的等离子体磁约束提供了一个新的范式。人工智能将赋能我们探索人类无法探索的东西，因为我们可以使用自己不敢冒险的控制系统来达到目标。「如果我们确定自己有一个控制系统，让我们接近极限但不会超出极限，则实际上可以用来探索那些不存在的可能性。」

对此，大家怎么看？

参考资料来源：

https://arxiv.org/abs/2307.11546

https://twitter.com/GoogleDeepMind/status/1684217852289601541

End

联系我们>>

｜点击关注我们 👇 记得星标｜

欢迎添加小编微信，链接一线创业者、投资人，进入全球高端科技创投交流群！