硬核！继DeepMind之后，首个中国AI挑战《星际争霸II》

来源：启元世界

整理编辑：张佳

“二十年后，伴你遨游太空、探索星际的是人？还是AI？

或许是这位星际指挥官。”

《星际争霸II》作为游戏玩家心目中即时战略游戏的经典之作，它的“即时”和“战略”特性，使其成为深度强化学习和博弈决策智能算法研究的重要平台。

包括DeepMind在内的世界顶尖AI团队也在攻坚《星际争霸II》。其背后拥有一个共同的终极目标——进一步拓展AI边界，并为最终达到通用人工智能（AGI）探索道路。

AI打星际有多“硬核”？

星际是有史以来电子竞技领域最经典的游戏之一，也被认为是最有挑战的即时战略（RTS）游戏。今天，之所以成为AI研究的主要平台和工具，是因为其蕴含了下述多方面的挑战，一旦取得技术突破，将拥有广泛的应用场景。

那么，用AI打星际有多“硬核”？难点和挑战在哪？

挑战一：层次化的体系博弈

星际实质上蕴含了一套层次化的博弈体系，它包括宏观经济实力的比拼、科技与兵种的相互克制、战役战术上的指挥对战、各编队单位的微观操控等。如何能让AI学会并进行上述多层次的决策，而不是在某一层级上进行学习，是个非常大的挑战。

挑战二：决策空间复杂度巨大

围棋的决策动作空间不超过361，而星际的决策动作空间是10的26次方，由决策时机、决策指令、决策主体、决策目标等多维度的决策因素组合而成。

挑战三：非完全信息动态博弈

对比围棋或者象棋等完全信息下的博弈，星际拥有“战争迷雾”机制，你无法在任意时刻得知对手完整的信息，必须通过主动侦察和对手建模来推测对手策略。相对于德扑的非完全信息博弈，星际又体现了动态性，上一时刻侦察所获取的信息，下一时刻又可能变化了。

挑战四：大规模多单位协作

星际的战斗部分需要指挥多兵种、上百个单位进行协作配合。相对来讲，《DOTA2》、《王者荣耀》游戏AI只需要5个单位进行协作配合。

挑战五：毫秒级实时决策

星际作为即时战略游戏，要和职业选手（平均每分钟300次操作）进行对抗，要求AI能够在一秒钟之内做出多次快速决策，这对AI算法模型的性能、工程实现的效率带来非常大的挑战。

中国的“星际之王”是谁？

通过游戏研究AGI技术，英国有DeepMind，美国有OpenAI，中国呢？

启元世界希望是一个答案。

启元世界自2017年成立，便开始基于《星际争霸II》研究决策智能、开发智能体，探索AGI之路。

继2018年5月在北大ACM总决赛期间发布基于星际的人机协作对抗赛、11月在加拿大AIIDE策略博弈研讨会展示自学习战术指挥官、12月获得NeurIPS多智能体竞赛Learning组冠军之后，2019年以来启元星际指挥官又实现了重要突破。

目前启元“星际指挥官”（简称“星指”），已能够在全场游戏（full game）中与业余高手过招较量，从宏观到微观博弈上展现出若干智能行为：如因地制宜地发展经济与科技、有条不紊地安排建造与布局、审时度势地进行侦察和攻击、指挥上百个单位进行协同作战等。

启元与星际指挥官成长历程

简要回顾星际指挥官成长历程后，再和大家分享“星际指挥官”的几个精彩片段：

"星指"镜头一：建筑布局大师

“星际指挥官”（绿方）正在采集资源进行建造，在合适的时机合适的位置建造房屋、造兵厂、飞机厂等，并在合适的时机开出第二基地进行扩张。

"星指"镜头二：迅捷突击手

“星际指挥官”（绿方）抓住时机派出死神进行骚扰（Reaper Rush），打对手一个措手不及，多个死神利用高台地形腾挪跳跃，攻击阵型灵活多变。

"星指"镜头三：隔山打牛阵

“星际指挥官”（绿方）展示“隔山打牛”战术，先将山上的巨石击落堵路，在山后方架上坦克阵，同时派出解放者诱敌深入，雷神进入坦克射程后被歼灭。

这位“星际指挥官”是不是很厉害？

“星指”要挑战职业玩家，你敢不敢来？

实现高水平的《星际争霸II》对弈，代表了AI在复杂电子游戏中取得的重大突破。但对于启元世界来说，星际AI的作用远不止于打打游戏如此简单，最终的目标是将其中研发的技术应用到现实世界，从博弈决策到网络调度，从数字娱乐到机器人控制，都不乏应用场景。

启元“星际指挥官”今年9月正式在北京亮相，开始挑战职业玩家！届时将举办一系列线下比赛和线上直播，现场抽取星际发烧友与"星指"面对面切磋，感受AI智能体的激情与魅力，感兴趣的朋友可以点击阅读原文报名哦~

本文经授权转载自“启元世界”

继续阅读