MIT、哈佛、斯坦福联合开发了一套物理仿真模拟系统

Esther｜编辑

去年青亭网曾报道，宝马利用Omniverse平台的虚拟仿真引擎Isaac Sim，将线下工厂进行复制，并在虚拟场景中训练机器人的导航算法。据了解，通常训练机器感知系统需要大量有标签的数据，然而手动标记数据的成本高、费时而且可能存在误差。因此，人们开始思考如何去合成这种训练数据，也就是在计算机中进行训练，然后将训练结果应用于真实的机器人系统中。

与真实训练方案相比，在计算机合成的虚拟场景中训练机器人有多种好处，比如不受时间、地理位置限制，而且低成本、自动化等等。

不仅如此，MIT、哈佛、斯坦福和IBM组成的科研团队现有的仿真技术基础上，还开发了一种更加灵活、合成内容更丰富的虚拟场景合成系统：ThreeDWorld。该系统不仅能合成虚拟空间的视觉效果，还能模拟高度物理交互以及空间中的动态音效。

科研人员表示：TDW这是一个基于Unity的多模式、交互式物理模拟平台，其特点是可以在各种3D场景中模拟高保真的感知数据和物理交互，而场景中的参数支持完整设置和访问。

目标是模拟现实中任何交互

创建逼真的虚拟世界来研究人类行为和训练机器人一直是人工智能和认知科学研究人员的梦想。现在大多数人工智能都是基于监督学习，它依赖于人类注释图像或声音的巨大数据集，数据集的成本很高，给研究造成了瓶颈。而且物体的质量等特性难以标记。为了解决这一问题，TDW中所有的参数和标记都是合成的，也就是已知的。

TDW论文的主要作者、麻省理工学院-IBM 沃森人工智能实验室研究科学家Chuang Gan表示：团队成员都对建立一个虚拟世界的想法很感兴趣，目的是训练接近大脑模型的人工智能系统，我们认为这种虚拟环境可以让物体相互交互，然后从中呈现真实的感官数据，这将是开始研究它的一种有价值的方式。

我们的目标是建设一个通用的模拟平台，以模拟现实世界中丰富的交互，可用于各种应用场景、培训多样化的AI程序。也就是说比其他3D物理模拟平台更加通用、灵活，支持更广泛的应用场景，比如模拟3D室内设计、3D导航、3D实验、3D目标检测、3D物理预测、推测婴儿行为、任务与运动预测。

经过测试表明，将音频和视觉结合在一起是识别物体物理特性的最佳方式，因此科研人员决定在视觉模拟基础上，加入音效模拟。

灵活的应用场景

在TDW系统中，可以采用虚拟代理来代替机器人等感知系统，这些代理就像是虚拟空间的居民，可以与周围的场景互动。具体来讲，它有以下几种功能：

1）生成用于训练AI网络的大量合成图像数据：

可将椅子、狗、苹果、大象等有标记的3D模型加载到虚拟场景中，场景的观察角度、位置参数、阳光角度、视觉材料等参数是随机的。

2）模拟交互效果：

通过学习动力、几何结构对于碰撞效果的影响，AI可通过TDW平台来模拟虚拟物体之间的交互。

3）培训具象化的AI：

这个应用的目的是训练AI与虚拟环境互动，甚至改变虚拟环境的状态。可用来培训AI规划任务和运动路线，在虚拟空间导航以及获取目标对象。

类似方案对比

多模式渲染

与市面现有的模拟框架相比，TDW可以同时发送多个指令，因此可模拟任意的复杂行为。TDW不仅可以在笔记本电脑端本地运行，也可以在远程服务器、Docker容器中运行。

其渲染效果有两大特点：

1）照片级、写实的图像观感

可模拟高保真的照明和渲染效果，3D场景和对象模型数据的质量也足够高。100%实时全局照明，无光照贴图烘焙。TDW的光照模型采用单一的主要光源，代表太阳光。3D模型和场景中的光照和阴影可根据光源的角度来动态调节。

通用的场景照明则采用HDR图像，或HDRI天空盒（skybox），类似于高保真的场景投影（包含一天中任意时刻，特定场景的光照条件）。此外，室内和室外场景均可渲染，其中一些场景是通过摄影测量法扫描而成。

场景中的3D模型来自于高质量数据库，尺寸是标准化的，符合真实比例，而且配备语义注释、元数据。而且这些模型为实时3D渲染进行了优化，采用PDR材质，可对光线变化产生反馈，模拟自然的物理效果。此外，也可以模拟在物理交互时产生的声音变化（比如撞击声）。

2）高保真的声学渲染（PyImpact）

基于Unity内置音频和Resonance Audio的3D空间化功能，可通过头部数据相关的传递函数，来实时渲染高质量的回响、定向声音等模拟音效。

换句话说，就是可以模拟空间音频，合成的声音会因距离而衰减，而且也可以被物体或环境结构遮挡。回声模型会根据空间几何形状而变化，受到多种因素影响，比如：虚拟场景中墙壁、地板、天花板的材质，以及虚拟空间的体积、空间内固体物品（如家具）的占比等等。

一大亮点是TDW基于物理的冲击声合成功能，可根据碰撞物体的重量、材料，以及撞击速度和角度等参数来动态渲染。可模拟模板纸箱、金属碗、陶瓷、塑料纸板、石头等14种材料撞击时的脉冲回响，也就是不同材料撞击时产生的特有声响。

经试验证实，体验者们难以区分合成的音效和真实音效，而且可以根据合成音效来判断模拟的物理性质。

效果展示

为了展示TDW多模式渲染效果，科研人员开发了一项挑战，即在多模式虚拟场景中训练AI代理。AI代理的任务是，根据声音和视觉，来寻找掉落在房间某处的物体。目标物体可能在沙发后面、柜子顶上、容器内部或被其他物体遮挡，因此AI代理需要判断是否移开一些物品来获取目标。

此外，科研人员还测试了TDW的其他一些模拟效果：

1）模拟物品之间的交互

为了模拟逼真的物理交互，TDW包含了两个不同的物理引擎：Unity基本的物理引擎PhysX+V-HACD创建网格、NVIDIA Flex+用粒子表示底层模型变形和交互。这两个引擎可实现高端的物理模拟，一个用于模拟硬性物体，一个用来模拟柔软物体和流体，比如布料、流体等材质的物理特性。

机器学习模型可通过TDW模拟交互而产生的物理效果和合成图像，来学习世界的物理和视觉表现，从而模仿人类对于物理学的直觉。比如区分物体是在滑动还是滚动、柔性材质碰到不同物体时不同的物理表现、流体的物理变化特性，或是在目标物体离开AI模型的观测区域时持续预测运动。

2）AI代理与物体交互

在这个演示中，动作和交互完全由物理驱动，没有预设动画。科研人员创造了36个可交互的3D室内设计场景，通过为AI代理提供空间占用地图（显示没有障碍物的空区），来帮助训练AI在空间中导航。

科研人员还开发了一个demo，挑战在模拟的住宅场景中随机生成AI代理，并命令AI收集散落在住宅内的一些物品，并送到指定的地点。AI代理需要在有限数量的动作内完成挑战，也可以使用住宅中的容器来提升物体运输的效率。

还可以训练人形的AI代理，号称合成的身体运动像实时动捕那样逼真，而且可模拟拼图等精细的动作。训练数据还可能导入到现实的机械臂中。

3）人与物体交互

这是一个由AI驱动的虚拟世界合成系统，可模拟丰富的交互式视听场景，可用于人类培训、机器人算法训练、实验研究等场景。一些在日常生活中出现的场景或动作，在这个逼真的世界中也可以模拟。

人可以和TDW合成的VR场景直接交互，目前TDW支持Oculus Rift S头显，未来还将支持Quest 2，以及Quest 2的手势追踪功能。

（ END）