新智元推荐  

来源:启元世界
整理编辑:张佳
【新智元导读】《星际争霸II》作为游戏玩家心目中即时战略游戏的经典之作,它的“即时”和“战略”特性,使其成为深度强化学习和博弈决策智能算法研究的重要平台。通过游戏研究AGI技术,英国有DeepMind,美国有OpenAI,那么中国呢?
“二十年后,伴你遨游太空、探索星际的是人?还是AI?
或许是这位星际指挥官。” 
《星际争霸II》作为游戏玩家心目中即时战略游戏的经典之作,它的“即时”和“战略”特性,使其成为深度强化学习和博弈决策智能算法研究的重要平台。
包括DeepMind在内的世界顶尖AI团队也在攻坚《星际争霸II》。其背后拥有一个共同的终极目标——进一步拓展AI边界,并为最终达到通用人工智能(AGI)探索道路。
AI打星际有多“硬核”?
星际是有史以来电子竞技领域最经典的游戏之一,也被认为是最有挑战的即时战略(RTS)游戏。今天,之所以成为AI研究的主要平台和工具,是因为其蕴含了下述多方面的挑战,一旦取得技术突破,将拥有广泛的应用场景。
那么,用AI打星际有多“硬核”?难点和挑战在哪?
挑战一:层次化的体系博弈
星际实质上蕴含了一套层次化的博弈体系,它包括宏观经济实力的比拼、科技与兵种的相互克制、战役战术上的指挥对战、各编队单位的微观操控等。如何能让AI学会并进行上述多层次的决策,而不是在某一层级上进行学习,是个非常大的挑战。
挑战二:决策空间复杂度巨大
围棋的决策动作空间不超过361,而星际的决策动作空间是10的26次方,由决策时机、决策指令、决策主体、决策目标等多维度的决策因素组合而成。
挑战三:非完全信息动态博弈
对比围棋或者象棋等完全信息下的博弈,星际拥有“战争迷雾”机制,你无法在任意时刻得知对手完整的信息,必须通过主动侦察和对手建模来推测对手策略。相对于德扑的非完全信息博弈,星际又体现了动态性,上一时刻侦察所获取的信息,下一时刻又可能变化了。
挑战四:大规模多单位协作
星际的战斗部分需要指挥多兵种上百个单位进行协作配合。相对来讲,《DOTA2》、《王者荣耀》游戏AI只需要5个单位进行协作配合。
挑战五:毫秒级实时决策
星际作为即时战略游戏,要和职业选手(平均每分钟300次操作)进行对抗,要求AI能够在一秒钟之内做出多次快速决策,这对AI算法模型的性能、工程实现的效率带来非常大的挑战。
中国的“星际之王”是谁?
通过游戏研究AGI技术,英国有DeepMind,美国有OpenAI,中国呢?
启元世界希望是一个答案。
启元世界自2017年成立,便开始基于《星际争霸II》研究决策智能、开发智能体,探索AGI之路
继2018年5月在北大ACM总决赛期间发布基于星际的人机协作对抗赛、11月在加拿大AIIDE策略博弈研讨会展示自学习战术指挥官、12月获得NeurIPS多智能体竞赛Learning组冠军之后,2019年以来启元星际指挥官又实现了重要突破。
目前启元“星际指挥官”(简称“星指”),已能够在全场游戏(full game)中与业余高手过招较量,从宏观到微观博弈上展现出若干智能行为:如因地制宜地发展经济与科技、有条不紊地安排建造与布局、审时度势地进行侦察和攻击、指挥上百个单位进行协同作战等。
启元与星际指挥官成长历程
简要回顾星际指挥官成长历程后再和大家分享“星际指挥官”的几个精彩片段
"星指"镜头一:建筑布局大师
“星际指挥官”(绿方)正在采集资源进行建造,在合适的时机合适的位置建造房屋、造兵厂、飞机厂等,并在合适的时机开出第二基地进行扩张。
"星指"镜头二:迅捷突击手
“星际指挥官”(绿方)抓住时机派出死神进行骚扰(Reaper Rush),打对手一个措手不及,多个死神利用高台地形腾挪跳跃,攻击阵型灵活多变。
"星指"镜头三:隔山打牛阵
“星际指挥官”(绿方)展示“隔山打牛”战术,先将山上的巨石击落堵路,在山后方架上坦克阵,同时派出解放者诱敌深入,雷神进入坦克射程后被歼灭。
这位“星际指挥官”是不是很厉害?
“星指”要挑战职业玩家,你敢不敢来?
实现高水平的《星际争霸II》对弈,代表了AI在复杂电子游戏中取得的重大突破。但对于启元世界来说,星际AI的作用远不止于打打游戏如此简单,最终的目标是将其中研发的技术应用到现实世界,从博弈决策到网络调度,从数字娱乐到机器人控制,都不乏应用场景。
启元“星际指挥官”今年9月正式在北京亮相,开始挑战职业玩家!届时将举办一系列线下比赛和线上直播,现场抽取星际发烧友与"星指"面对面切磋,感受AI智能体的激情与魅力,感兴趣的朋友可以点击阅读原文报名哦~
本文经授权转载自“启元世界”
继续阅读
阅读原文