决策智能，新一代人工智能的发展方向——首届智能决策论坛圆满闭幕

作者 | AI科技评论

编辑 | 青暮

9月19~20日，由中国科学院自动化研究所（以下简称“自动化所”）主办的「首届智能决策论坛」成功召开。论坛通过多方视角，试图廓清「决策智能」的边界与内涵，探究「决策智能」的发展与应用。

在会议开幕发言中，自动化所徐波所长认为，针对「如何定义人工智能」这一重要问题，尽管目前有多种回答，但由于我们对人类智能的机理仍缺乏系统了解，若想对人工智能做内涵式、学科式的定义仍然困难重重。

他认为，智能是能在一种不确定的环境中做出合适的行动，或者做出合适的选择和决定的能力，也就是决策智能。他认为这个定义将更多地强调智能产生于与其所处环境的交互，尤其是智能应具备对不确定性环境的探索和发现；这里的环境，即指我们试图用人工智能更好地了解、探索、建模和驾驭的物理世界、人类社会等系统。

自动化所成立于1956年，与人工智能诞生同年。目前拥有模式识别、复杂系统管理与控制两个国家重点实验室、国家集成电路工程技术中心等三个国家级平台，并在国内率先开展人工智能与脑科学交叉研究，率先建立国内第一个人工智能学院。自动化所把自主进化智能作为重点投入、发展和突破的方向，已汇聚所内外优势力量，组织二十余个团队开展决策智能基础理论、算法、环境、评价、应用等研究。自动化所组织本次论坛目的之一便是与国内外同行一起，加强学术交流，探寻发展方向，寻求合作机会，共同为国家新一代人工智能发展贡献力量。

在「首届智能决策论坛」中，自动化所邀请了多位国际一流的学者及许多新起之秀，共同交流博弈论、复杂环境下的合作、博弈动力学、大规模智能体、策略优化、迁移强化学习、不完全信息博弈等领域的最新研究进展。除此之外，与会学者也共同探讨了「决策智能」的现状与未来发展等问题，并得出以下三点共识：

一、决策智能最大的特点是反馈机制。

有别于感知智能，决策智能主要基于对不确定环境的探索，因此需要获取环境信息和自身的状态，从而来进行自主决策，并使得由环境反馈的收益最大。这一反馈形成的系统闭环，将使人工智能拥有更完整的表现形式。相较于感知智能，决策智能的研究难度要大得多；事实上，感知智能是决策智能的一部分，它可以辅助决策，而最终目的还是感知后通过决策达到目标。

因此，决策智能带有强烈的“行为主义”流派的色彩，而同时又能吸收当前符号主义和连接主义的精华。这种特点，使得决策智能将涉及计算机、控制、数学、认知心理学、神经科学等诸多学科。目前基于强化学习等方法的决策智能，主要还是在学习「状态」到「动作」的映射，离可解释的、因果关系的、可以互动的决策还有很远距离。

二、博弈论在多智能体系统研究中将扮演理论基础的角色，同时人工智能的发展也给博弈论学科本身产生了深远的影响。

博弈论是刻画和分析多智能体相互之间竞争最好的理论框架。相较于多智能体系统的研究，博弈论发展较早，学科内包含更为丰富的研究成果，且理论性较强。现在很多基于强化学习的多智能体研究方法并不够成熟，往往难以收敛。在多智能体研究中，许多看似复杂的问题往往最终能够简化为博弈论中的均衡计算。从博弈论已有的理论中借鉴想法指导设计强化学习方法，常常能够获得较优的结果；而反之，如果没有相应的理论作为指导，研究者们容易产生“脚踩西瓜皮，滑到哪了算哪儿”的尴尬局面。因此，与会学者们认为，从科学的角度，多智能体系统学习若想有更好地发展，需要有相应的理论基础，而博弈论正充当了理论基础的角色。

而另一方面，人工智能技术的发展对博弈论学科本身也同样产生了深远的影响。邓小铁教授在其报告中提到几点，包括：（1）Q-Learning为计算均衡提供了新的思路；（2）人工智能在围棋等博弈场景中的应用，颠覆了传统博弈论对均衡的关注，使得“必胜策略”重新得到关注；（3）博弈中的动力学逐渐成为一个新兴的有趣的研究方向；（4）强化学习为博弈论中价格战、拍卖等场景中的问题提供了新的助力；（5）一些传统被认为难的问题，如均衡计算等问题，人工智能技术为解决此类问题提供了潜在的新思路。

三、决策智能落地不明显，学术界应主动去推动

在互联网经济场景中，作为决策智能的核心方法，强化学习当前最大问题是样本有效性（sample efficiency），通常的解决方式是构建模拟器训练，一旦模拟出的数据不精确，数据意义便大打折扣。而当前模拟多数是机械模拟环境，且常用高斯过程的混合模型模拟，仍然处于相对初级的阶段，因此当前强化学习的技术在较难的场景中往往不能很好地工作；只有当序列性强、动作空间简单的场景（如快手、网易云等的推荐）才比较容易刻画。而在工业场景，目前的做法一般是先在平台上模拟，再到现实中进行适应；这种场景下的强化学习一般可以相对准确地进行模拟和应用。此外，虚实混合、数字孪生、教育场景下的搜索推荐等场景也都是强化学习有可能产生应用的地方。

此外，作为「首届智能决策论坛」，与会学者基本涵盖了国内决策智能领域的佼佼者，学者们的报告内容将在很大程度上代表国内当前决策智能的研究主流。

论坛首日的报告主要从宏观层面探讨决策智能的研究路线和进展问题：

北京大学邓小铁教授的报告提纲挈领，广泛探讨了人工智能技术在博弈论中的应用和影响，并力荐博弈论和决策智能两学科之间的借鉴和融合。
清华大学交叉信息科学院张崇洁助理教授的研究主要聚焦于合作模式的多智能体系统。张崇洁认为目前这一领域仍然存在许多挑战，包括：大规模多智能体系统中的可扩展性问题；每个智能体的贡献评估问题（credit assignment）；部分观测与环境不确定性问题（uncertainty）；复杂系统中存在异构智能体的问题（heterogeneous）等等。张崇洁针对这些问题提出了大量方法，但他认为这些研究目前仍处于起步阶段。
新加坡南洋理工大学校长委员会讲席副教授安波主要聚焦于大规模博弈计算方面所面临的挑战、进展及应用。他总结了两种把博弈论用于解决AI问题的方案。一类是完全基于博弈的，即把整个问题建模成博弈问题，然后求解均衡；另一类是基于强化学习技术来求解问题。他指出，当问题不能建模成博弈问题，或者问题规模过大，或者问题本身是非凸等难以优化的问题时，基于强化学习的方法是最合适的。
浙江大学王志坚研究员介绍了博弈的动力学结构。在博弈中，如果将所有参与者的策略选择看做策略空间中的一个点，那么这个点将随着策略的调整而形成的时间序列将构成运动轨迹，而这些轨迹往往有具体的几何构型，这是博弈的动力学结构的研究对象。报告中介绍了二种元博弈的速度场、周期运动和马尔科夫过程的特征向量的驻波特征等动力学结构。
上海财经大学信息管理与工程学院陆品燕教授分享了最优拍卖机制评估的研究。他们定义了一个竞争比（competitive ratio）的参数作为评估标准，在“一个卖家，N个买家，一件无限量供应的商品（例如搜索关键词）”场景下，他们证明了竞争比 2.42 是一个紧下界。
西安交通大学自动化学院柯良军教授聚焦在无人机集群对抗研究中。针对传统多智能体强化学习可能面临的维度灾难、组内合作组间对抗问题、防撞避障策略学习等问题，柯良军等人采用平均场理论、智能体之间状态共享、回馈共享等方法使问题得到了很好的解决。
伦敦大学学院（UCL）汪军教授从信息论视角下探讨了多智能体学习。汪军认为，机器学习系统本质上只是信息处理系统的一个子集，目前的机器学习系统与信息理论是紧密结合的，未来将有越来越多的信息学理论被应用到机器学习以及多智能体系统之中。

9月20日，有来自多所高校单位的 10 位青年学者围绕智能体、策略、强化学习等关键词，对他们的最新研究进行了汇报：

上海交通大学副教授张伟楠认为决策环境不仅可以正向建模，也可以通过一种逆转，反向来建模。因此他提出了基于双向模型的策略优化。基本动机便是，复合误差会随着仿真的步数增加而显著增加，所以通过正反双向的建模，可以更有效地限制这种误差。
南京大学副教授章宗长认为，迁移强化学习的核心思想是将迁移学习中的学习方式应用在强化学习的学习过程中，从而帮助强化学习在学习目标任务时，借鉴其相似任务上的知识，从而提高在目标任务上的学习效率。章宗长介绍了他们基于策略重用的策略迁移框架——PTF，以及深度贝叶斯策略重用——深度BPR+。
中山大学余超副教授指出完备信息下的决策问题目前已经得到基本解决，许多蕴含隐藏信息的决策问题，也即非完全信息决策问题，逐渐成为智能决策的一个挑战性焦点。余超介绍了近年来用于解决非完全信息博弈的两大类方法：计算博弈方法和强化学习方法。
上海交通大学助理教授温颖认为，近几年强化学习在单智能体任务上已经取得不错的成绩，研究重心正逐渐向更复杂的多智能体系统转变。他认为这种转变主要有两种形式，一种是直接扩展，即“中心化训练，分布式执行”，学习一个中心评论者来评估每一个智能体，而每一个智能体的策略相互保持独立；另一种是基于博弈论的方法，即使用博弈理论分析不同智能体的交互，从方法上将博弈理论融合到强化学习中以指导智能体的学习。
上海科技大学赵登吉研究员认为，合理的社交网络机制设计可以帮助企业或机构实现更大的利益。赵登吉在报告中阐述了信息扩散机制（Information Diffusion Mechanism）的原理，即通过给中间关键节点的参与者以恰当的奖励作为激励机制，可以鼓励他们去积极寻找潜在的更高出价者，从而提高组织者的利润。
北京理工大学刘正阳助理教授报告了顺序张贴定价（Sequential Posted Pricing ，SPM）的复杂性问题。SPM，即买家按顺序购买商品，刘正阳认为其复杂性问题非常重要。他基于对SPM定义的抉择问题SPMRev，得出当估价概率分布中支持（即概率非零的样本集合）数量为3时，该问题是NP完全的；而当数量为2时，该问题则具有多项式时间的算法。
伦敦大学学院杜雅丽博士后提到了多智能体学习中面临的两大挑战，包括如何控制任意数量的智能体；如何将共享的团队奖励合理分配给不同的智能体。针对第一个问题，杜雅丽提出空间网格化结构的方案，针对网格世界环境提出了网格控制（Grid-wise control）来组织多个智能体；针对第二个问题，杜雅丽加入了内在奖励的机制，从而兼顾了可扩展性和效率，在奖励塑造和批评者学习之间建立了联系。
北京大学博士生钟方威认为如何构建一个智能体通过视觉感知环境，同时又能自主与物理世界交互以完成任务，是一项基础而又有挑战性的工作。钟方威在报告中以主动目标跟踪任务为例，介绍了如何利用多智能体博弈机制实现鲁棒的视觉智能体。
伦敦大学学院博士生田政指出，沟通有显性沟通和隐性沟通两种，后者往往是通过行动来传递信息。以往的智能体学习沟通主要是聚焦在显性沟通的研究上，田政则尝试利用PBL算法解决多智能体学习中的隐性沟通。
上海交通大学博士生阎翔研究了互联网价格战的问题。价格战是互联网企业常有发生的事情，阎翔将这一问题建模为博弈论模型，这一模型是非完美信息、非完全信息的博弈模型。阎翔提出了隐式狄利克雷分布（Latent Dirichlet Allocation）模型以解决这一难题。

与会学者们普遍认为“人工智能还处在对环境没有适应、认知和学习能力的发展初级阶段”，决策智能作为人工智能的三个流派的融合入口，在接下来将成为研究的主流。我国应当将决策智能作为重点投入、发展和突破的方向。

点击阅读原文，直达“CCF-NLP走进高校之郑州大学”直播页面！

继续阅读

阅读原文

关键词

智能体

强化学习

多智能体

策略

问题