点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
转载自:北京大学前沿计算研究中心
导  读
本文是国际机器人和自动化顶级会议 ICRA 2023入选论文 RLAfford:End-to-end Affordance Learning for Robotic Manipulation 的解读。这项研究通过使用强化学习训练过程中产生的接触信息来预测物体可操作性信息,更好地实现机器人操纵任务,并对各种算法以及环境具有即插即用的能力。
项目主页:
https://sites.google.com/view/rlafford/
01
研究背景
随着生活逐渐智能化,通过机器人与物体交互变得越来越重要。如何让机器人学会操纵不同形状的物体并且学会稳定有效的交互策略成为了当前的研究热点。近年来,强化学习(RL)为这一问题提供了解决方案。然而,在互动环境中学习操纵不同形状、不同结构、不同功能的三维物体一直是强化学习的挑战。特别是,我们往往很难训练出一个能够处理不同语义类别、不同几何形状和多样功能的物体的策略。
最近,视觉可操作性(Visual Affordance)学习技术在提供以物体为中心的信息先验和有效的可操作语义方面展现出巨大的潜力。例如,一个理想的策略可以通过了解到把手的可操作性来打开一扇门。然而,学习视觉可操作性往往需要人类定义的原子动作(抓、握、推、拉等动作),这限制了适用任务的范围。
在本文中,我们提出了 RLAfford。在研究中,我们抓住了智能体与世界交互的最本质信息:接触点信息,来预测 RL 系统感兴趣的物体上的接触位置(也即物体的可操作性),预测的信息又反过来指导 RL 进一步训练。这样的接触预测系统实现了端到端(End-to-end)的 Visual Affordance 学习框架,它可以广泛地适用于不同类型的操纵任务中。令人兴奋的是,我们的框架甚至在多阶段(Multi-stage)和多智能体(Multi-agent)的任务中也能保持有效性。我们在八种类型的操纵任务上测试了我们的方法。结果显示,我们的方法在成功率上远远超过了基线(Baseline)算法,同时,我们的方法成功地在现实世界中成功完成了这八种操纵任务。部分 VisualAffordance 学习结果如图1所示。
图1. 输入一个物体的点云信息,我们利用 RL 交互过程中的接触信息来预测以物体为中心的可操作性信息。图中颜色越深意味着可操作性越强。可以看出,这样的信息对于完成物体操作非常有意义。
02
方   法
图2. 框架结构。
如图2所示,我们的方案包含两个主要模块。其中 1)操作模块(Manipulation Module)生成交互轨迹,2)视觉可操作性模块(Visual Affordance Module)用来学习生成基于实时点云的可操作性信息(Affordance)接触预测器(Contact Predictor)在两个模块中共享,作为它们之间的桥梁。
操作模块使用接触预测器的预测结果作为输入观察的一部分,同时预测的最大值点参与操作模块的奖励函数计算(MPR),以激励 RL 算法去探索最感兴趣的点附近的区域;
操作模块通过收集交互中的碰撞信息实时生成动态的 Visual Affordance 学习目标(Dynamic Ground Truth)来训练视觉可操作性模块
具体算法结构如图3所示。
图3. 算法结构。
03
实   验
图4. 顶部:模拟器中的任务设置。中间:在端到端训练期间,Visual Affordance Map 的变化以及部分 Visual Affordance 学习结果。底部:真实世界实验示意图。
如图4所示,我们设计了三种类型的操纵任务:单阶段、多阶段和多智能体。在所有的任务中,都要求一个或两个机械臂来完成对不同物体的特定操纵任务。我们使用了 Isaac Gym 物理模拟器、PartNet-Mobility 数据集和 VAPO 数据集来完成虚拟环境的实验。我们也利用了数字孪生方法在真实世界中完成了我们设计的任务。最终,我们进行了一些消融实验,实验结果表明我们的方法在成功率上远远超过了基线算法,包括基于 Visual Affordance 的方法和 RL 方法。
04
总   结
据我们所知,这是第一项将 Visual Affordance 与 RL 完成端到端的结合的工作。在 RL 训练中,Visual Affordance可以通过提供额外的观测和奖励信号来提高策略学习的效果。我们的框架通过 RL 训练自动学习 Visual Affordance语义,而不需要额外的演示或人工标注。我们方法的简单性、比所有基线更出色的性能以及广泛灵活的适用场景,证明了我们的方案的有效性以及对各种算法、环境具有即插即用的能力,同时也为解决更多复杂任务打开了一种新的思路。
图文 | 耿逸然、安博施
PKU Hyperplane Lab
点击进入—>CV微信技术交流群
CVPR/ECCV 2022论文和代码下载
后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集
后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
继续阅读
阅读原文