每天一分钟,带你读遍机器人顶级会议文章
标题:Deep Online Correction for Monocular Visual Odometry
作者:Jiaxin Zhang, Wei Sui, Xinggang Wang, Wenming Meng, Hongmei Zhu, Qian Zhang
来源:2021 IEEE International Conference on Robotics and Automation (ICRA)
编译:姚潘涛
审核:Zoe,王靖淇
这是泡泡一分钟推送的第 888 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
       本文提出了一种用于单目视觉里程计的新型深度在线校正 (DOC) 框架。整个pipeline分两个阶段:首先,深度图和初始位姿是从自监督方式训练的卷积神经网络(CNN)获得。其次,通过在推理阶段梯度更新位姿来最小化光度误差,进一步改进了 CNN 预测的位姿。我们提出的方法的好处有两个:1)与在线学习方法不同,DOC 不需要计算 CNN 参数的梯度传播。因此,它在推理阶段节省了更多的计算资源。2)与将 CNN 与传统方法相结合的混合方法不同,DOC 完全依赖于深度学习(DL)框架。尽管没有复杂的后端优化模块,但我们的方法在 KITTI Odometry  Seq.09基准测试中取得了出色的性能,相对变换误差 (RTE) = 2.0%,它优于传统的单目 VO 框架,可与混合方法相媲美。
图1 我们的方法在 KITTI Seq. 09 建图结果。3D 点首先通过深度和相机内参的逆投影获得,然后通过相机位姿转换为全局坐标。绿点代表 LiDAR 点,仅供比较。蓝色曲线描述了我们方法的轨迹。
图2 我们的单目 VO 方法的推理流程。(1) 将一对连续的帧送入 DepthCNN 和 Pose-CNN 以获得深度图和姿态初始化。(2) 光度误差图是通过前向和后向翘曲计算的。(3) 相对变换 T i-1i 通过最小化光度误差进行优化。灰色箭头表示误差计算路径。红色箭头指的是梯度反向传播。
图3 在线校正前后光度误差的可视化。子图(a)和(b)分别是原始图像和对应的深度图。深度图中的暗到亮代表从近到远。子图(c)和(d)是在线校正前后的重建图像。子图(e)和(f)是在线校正前后的光度误差。从深到红色代表错误从小到大。请注意,在错误图中,路缘和井盖周围的错误(在错误图中圈出)在在线校正期间已减少。
图4 DOC(两帧)和 DOC+(三帧)框架的插图。蓝色框表示 DOC,它仅最小化两个连续帧的光度误差。橙色框表示 DOC+,它使用来自三帧中的帧对的重投影误差。
图5 可视化。从上到下:扭曲图像、遮挡(黑色)和可解释性(灰色)蒙版的组合、光度误差图。在顶部,我们可以看到在后向扭曲过程中由遮挡产生的扭曲图像中的双交通杆。遮挡遮罩成功计算了发生遮挡的像素区域。结果,在光度误差中未计算遮挡区域。CNN 产生的中间可解释性掩模通常会减少屋顶和植被等高频区域的光度误差。
图6 我们的方法与传统方法和混合方法的比较。在 KITTI Odometry Seq 上进行了比较实验。09(左)和序列。10(右)。(a) 中的图显示了我们的方法和传统方法的结果,而 (b) 中的图显示了我们的方法和混合方法的轨迹。
表1 KITTI Odometry Seq.09 和 Seq.10 的单目视觉里程计比较,采用不同的方法,包括传统方法、基于 DL 的方法和混合方法。RTE、RRE 和 A TE 分别是相对平移误差、相对旋转误差和绝对平移误差的缩写。
表2 在 KITTI Odometry Seq.09 上评估消融结果。Me和Mo分别指的是explainability mask和occlusion mask。“损失”是指在线修正方法中使用的损失。“Frames” = 2 或 3 代表两帧或三帧优化。
表3 EuRoC MAV 数据集上的单目视觉里程计比较。绝对轨迹误差 (ATE) 的 RMSE 用作评估指标。
Abstract
In this work, we propose a novel deep online correction (DOC) framework for monocular visual odometry. The whole pipeline has two stages: First, depth maps and initial poses are obtained from convolutional neural networks (CNNs) trained in self-supervised manners. Second, the poses predicted by CNNs are further improved by minimizing photometric errors via gradient updates of poses during inference phases. The benefits of our proposed method are twofold: 1) Different from online-learning methods, DOC does not need to calculate gradient propagation for parameters of CNNs. Thus, it saves more computation resources during inference phases. 2) Unlike hybrid methods that combine CNNs with traditional methods, DOC fully relies on deep learning (DL) frameworks. Though without complex back-end optimization modules, our method achieves outstanding performance with relative transform error (RTE) = 2.0% on KITTI Odometry benchmark for Seq. 09, which outperforms traditional monocular VO frameworks and is comparable to hybrid methods.
如果你对本文感兴趣,请点击点击阅读原文下载完整文章,如想查看更多文章请关注【泡泡机器人SLAM】公众号(paopaorobot_slam)
百度网盘提取码:4he3
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/bbs/
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系[email protected]
继续阅读
阅读原文