基于单目摄像头的BEV实例预测（ICCV 2021）

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/422992592

编辑丨3D视觉工坊

ICCV‘21论文 “FIERY: Future Instance Prediction in Bird’s-Eye View from Surround Monocular Cameras“，作者来自英国的自动驾驶创业公司Wayve和剑桥大学。

驾驶需要与道路智体互动并预测他们未来的行为，以便安全导航。FIERY是一种单目摄像头中BEV未来概率预测模型。其预测动态智体的未来实例分割和运动，转换为非参数未来轨迹。结合传统自动驾驶栈的感知、融合和预测组件，直接从RGB 单目相机输入估计BEV预测。

FIERY 以端到端的方式学习根据摄像头驾驶数据对未来的固有随机性进行建模，不依赖于高清地图，预测多模态未来轨迹。

代码开源：https://github.com/wayveai/fiery

博客地址：https://wayve.ai/blog/fiery-future-instance-prediction-birds-eye-view/

如下两图是BEV网络多模态未来预测的示意图：前两行：RGB 相机输入；预测的实例分割投影到地平面，将动态智体的平均未来轨迹可视化为透明路径；底行：在 100m × 100m 大小的自车周围鸟瞰图，未来实例预测由中心黑色矩形表示。

模型FIERY概览如图：一个摄像头输入的BEV未来预测模型

·1. 过去时刻 {1, ..., t}，预测像素的深度概率分布并根据已知的相机内参和外参，将相机输入 (O1, ..., Ot) 提升到 3D；

·2. 特征投影到BEV (x1, ..., xt)。用空间变换器模块 S ，根据过去的自运动 (a1, ..., at−1)，将BEV特征转换为当前参考系（时间 t）。

·3. 3D卷积时域模型学习时-空状态 st。

·4. 参数化两个概率分布：当前和未来分布。当前分布以当前状态 st 为条件，未来分布以当前状态 st 和未来标签(yt+1 , ..., yt+H )为条件。

·5. 从训练中的未来分布和推理中的当前分布，采样一个潜代码 ηt。当前状态 st 和潜代码 ηt 是未来预测模型的输入，递归地预测未来状态 (s^t+1,...,s^t+H)。

·6. 状态被解码为BEV未来实例分割和未来运动(yˆt,...,yˆt+H)。

这里深度概率（depth probability）作为一种自注意的形式，根据特征预测深度平面来调制特征。用已知的相机内外参（相对于车辆），来自每个相机（u1t，...，unt）的张量在一个共同的参考坐标系（时间 t 自车的惯性中心）提升到 3D 。

仿照ECCV‘20论文“Probabilistic future prediction for video scene understanding“的工作，采用条件变分（variational）法来模拟未来预测的固有随机性。引入了两种分布：当前分布 P 只能访问当前时空状态 st，以及未来分布 F 还可以访问观察到的未来标签 (yt+1,...,yt+H)，其中H是未来的预测范围。

在训练期间，用未来分布的样本 ηt 来强制执行与观察未来一致的预测，用覆盖KL-发散损失的模式鼓励当前分布覆盖观察的未来。在推理中，从当前分布采样 ηt，其中每个样本编码一个可能的未来。

未来预测模型是一个卷积GRU网络，将当前状态 st 和训练中未来分布 F 或当前分布 P 采样的潜代码 ηt 作为输入，进行推理，递归地预测未来状态。

输出特征是鸟瞰图解码器 D 的输入，其送入多个输出头：语义分割、实例中心和实例偏移（指向实例中心的方向），以及实例未来流（运动）。如图是模型输出示意图：

其中实例分割结果：(i) 实例中心通过非极大值抑制获得；(ii) 用偏移向量将像素分组到最近的实例中心；(iii) 未来流允许一致的实例识别，采用从 t 到 t + 1 的未来流和时间 t + 1 的中心来比较warped center。

实验测度采用：Video Panoptic Quality (VQP) 和Generalised Energy Distance(DGED) 。

基准方法包括：

·VPN（“Cross-view semantic segmentation for sensing surroundings,” IEEE Robotics and Automation Letters, 2020）

·VED（“Monocular semantic occupancy grid mapping with convolutional variational encoder–decoder networks,” IEEE Robotics and Automation Letters, 2019.）

·PON（“Predicting semantic map representations from images using pyramid occupancy networks,” CVPR 2020）

·Lift-Splat（“Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d,” ECCV, 2020）

·STA（“Enabling spatio- temporal aggregation in birds-eye-view vehicle estimation,” ICRA, 2021）

·Fishing Net（“Fishing net: Future inference of semantic heatmaps in grids. CVPR‘20 workshop）

实验结果如下：

其中Setting 1，2，3 定义为

·设置 1：100m × 50m，25cm 分辨率。当前时间范围的预测。

·设置 2：100m × 100m，50cm 分辨率。当前时间范围的预测。

·设置 3：32.0m × 19.2m，10cm 分辨率。预测未来2.0s。其中将模型与 Fishing Net的两种变体进行比较，一种使用相机输入，一种使用激光雷达输入。

如图是FIERY Static（无时间上下文）和 FIERY（过去1.0s）在 NuScenes 数据当前帧BEV实例分割任务结果的比较：FIERY 可以预测部分可观察和遮挡的元素，如蓝色椭圆突出部分。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

继续阅读

阅读原文

基于单目摄像头的BEV实例预测（ICCV 2021）

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款 圈里有高质量教程资料、答疑解惑、助你高效解决问题觉得有用，麻烦给个赞和在看~

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~