游戏风口之后，这场圆桌让我们探索决策智能、强化学习的更广阔天地

过去数年，以强化学习为代表性技术的决策智能在游戏领域取得了一系列令人瞩目的成就，战胜人类玩家的新闻屡屡进入人们的视野，比如棋类游戏的 AlphaGo、AlphaZero 和 MuZero，电子竞技类游戏中的 OpenAI Five 和 AlphaStar、赛车游戏中的 GT Sophy 等。游戏领域直观地展示了这种技术赋予 AI 的强大智能。

那么何谓决策智能呢？在人工智能时代，作为一门新的学科，决策智能综合利用社会科学、决策理论和管理科学等多学科的理论来增强数据科学，进而形成智能决策。随着强化学习等 AI 技术的高速发展与广泛应用，决策智能已然成为了业内发展最快、应用最广泛的领域。现在，越来越多企业和个人意识到决策智能的重要性，技术研究和咨询公司 Gartner 甚至将决策智能确定为 2022 年的首要战略趋势。

同时，在现实世界中，除了在游戏领域的应用，决策智能在业界的探索和应用也越来越广泛，如企业运营、工业管理、智慧城市、智能制造、金融服务、电商推荐、调度系统等领域。但是，作为一种新兴技术和学科，强化学习及决策智能仍然面临大量挑战，需要进一步改进和完善。

北京时间 5 月 24 日 14:00-17:00，机器之心将举办以「决策智能产业应用」为主题的在线圆桌论坛，邀请来自学界知名教授，阿里、腾讯、第四范式国内领军技术公司的技术负责人分享和探讨相关技术的进展和落地应用。届时，他们将围绕决策智能技术现状、未来发展以及典型产业应用案例等展开探讨。

特邀嘉宾与主题介绍

苏奎峰：智能决策与实时孪生

苏奎峰，腾讯交通平台部总经理、自动驾驶总经理，清华大学计算机科学博士、中国自动化学会智能自动化专业委员会委员、全国汽车标准化技术委员会智能网联汽车分技术委员会委员。主要研究领域包括多传感器信息融合、不确定性状态估计、物联网、软硬件协同设计以及自动驾驶相关技术等，具有多年地面无人作战平台、空地协同作战系统以及自动驾驶研究开发和项目管理经验。

2016 年加入腾讯，组建自动驾驶团队，带领团队敏捷开发快速迭代，在自动驾驶、智慧交通领域取得突破性进展和产业合作。

分享摘要：数字孪生利用物理模型、传感器更新、运行历史等数据，在虚拟空间中完成映射，实时反应物理系统的状态，因此，数字孪生系统能够基于真实状态改善性能，提升决策的实效性和准确性。针对自动驾驶、智能交通以及工业自动化等领域的动态特征，分享实时孪生在智能决策系统训练以及验证等方面的应用。

陈雨强：决策 AI——企业智能化转型「新生产力」

陈雨强，第四范式联合创始人、首席研究科学家，负责带领团队研究、实验、转化最尖端的人工智能技术，并将其产品化，着力打造多项人工智能平台级产品，助力企业实现智能化转型。在百度期间，陈雨强参与构建了商用深度学习系统 “凤巢深度学习系统”；在今日头条，主持设计了新闻推荐系统与信息流广告系统，服务数亿用户。

其研究领域包括人工智能、迁移学习、AutoML 等，多次在 NeurIPS、AAAI、ACL、KDD、SIGKDD 等人工智能顶会上发表论文，获 APWeb2010 Best Paper Award 等学术研究成绩，并被全球著名科技杂志 MIT Technology Review 报道。

分享摘要：智能化转型已成为企业降本增效、寻找新增长曲线的必要手段，在转型过程中，企业所需要 AI 能力逐步攀升，以进一步提升企业决策的智能化水平，由人工智能驱动的智能决策正在成为企业转型的核心推动力。而强化学习、环境学习将是数据驱动的智能决策体系中最为重要的技术支撑。该演讲将从决策的本质出发，介绍强化学习如何通过环境学习发挥产业应用的价值，并通过供应链、疫情防控、芯片制造等典型场景，介绍两项技术在产业界的应用实践。

杨超：SafeRL 在电网调度中的应用

杨超，阿里巴巴达摩院智能决策实验室算法专家，现研究领域包括深度学习、强化学习、数值计算等，拥有多篇授权专利，并于 2021 年带队获得国家电网举办的电力调度 AI 大赛冠军。

分享摘要：随着深度强化学习（DRL）在游戏领域的突出表现，DRL 在工业界的探索和应用也越来越受到广泛关注。近几年来，在电商推荐、供应链装箱以及航运路径规划等领域，DRL 已经展现了一些成功落地的案例，但在更广泛的行业应用上，DRL 仍然面临着一些技术挑战，例如学习成本高，缺乏健壮性或安全性等问题。

电力系统是人类有史以来构造的最复杂的工业系统之一，传统电网调度更多的是依靠人工经验与数学模型来进行调控，但随着「碳中和」战略的要求以及可再生能源的不断发展，电网调度需要有更加高效的调度算法来进行辅助和协作。本次演讲将从安全性的角度出发，介绍安全强化学习（SafeRL）的基本概念、常用方法类别，以及针对高安全性要求的电网调度应用所提出的一种将强化学习与数学模型相结合的 SafeRL 训练框架。

汪军：智能决策大模型

汪军，伦敦大学学院（UCL）计算机系教授，阿兰 · 图灵研究所 Turing Fellow。主要研究智能信息系统，主要包括机器学习、强化学习、多智能体，数据挖掘、计算广告学、推荐系统等等。已发表了 200 多篇学术论文，出版两本学术专著，多次获得最佳论文奖。

分享摘要：在过去的十年左右，人工智能研究得到了长足的进步。在有些领域，特别是计算机视觉，自然语言处理，数据挖掘，和信息检索，等等方向上，我们看到了质的飞跃，涌现出新的功能，产品，甚至是崭新的产业。值得注意的是，纵观人工智能落地场景和具体应用任务上，我们可以广义的认为，目前成功的案例还是仅仅停留在所谓的 “模式识别”（(Pattern Recognition) 为主体的任务上。这里的模式识别指的是识别隐藏在数据内部的规律和模式 (Pattern) 的任务。就是通过神经网络为映射的函数，把数据输入映射到知识结构上。

另一方面，我们认为下一个人工智能的高峰是机器决策。也就是说，不光是从数据到知识的简单映射的学习(模式识别)，更重要的是获得知识后，再把优化决策反馈到数据里，并对其产生影响，形成闭环的过程。我的演讲聚焦在智能决策的问题和方法，阐述机器在有较复杂的决策空间中怎样学习，讨论当前自然语言处理的大模型思路给智能决策的泛化性带来什么样好处。同时，单纯一个智能系统已经远远不能满足实际的需要了。在当前社会中，我们已经见到多个用神经网络驱动的智能体，我会介绍学术和和工业界怎样探索多智能体的互动合作的研究，和怎样成为通用人工智能的一个必不可少的课题。

加群看直播

直播间：识别下方二维码立即预约，北京时间5月24日14:00开播。

交流群：本次直播有QA环节，欢迎加入本次直播交流群探讨交流。

继续阅读

阅读原文