机器之心最新一期线上分享邀请到了清华大学智能视觉实验室组博士生郑文钊,为大家分享他们近期工作 TPVFormer。
当前以视觉为中心的自动驾驶感知主要集中于三维目标检测,然而预测出的三维框描述物体过于粗糙,忽略了物体的几何形状;且仅完成了对前景物体的预测,而忽略了背景环境信息。受此启发,我们主要研究了基于视觉的三维语义占有预测这一新型任务,其输入为环视图片,目标通过对每个体素进行语义标签的预测,生成密集预测的环境表示,使环境感知更加可靠、稳定。本次分享主要介绍纯视觉三维语义占有预测的最新进展,基于 CVPR 2023 的最新论文 Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction。
目前的纯视觉自动驾驶感知方法广泛采用鸟瞰图 (BEV) 表示来描述 3D 场景。尽管它比体素(Voxel)表示效率更高,但单独的 BEV 平面难以描述场景的细粒度 3D 结构,难以很好地完成三维语义占有预测这个任务。针对这个问题,论文提出了一种新型的三维空间表示方法 Tri-Perspective View (TPV),其在 BEV 平面的基础上新增了两个平面,从而可以描述整个三维场景的细粒度结构。为了将图像特征提升到 TPV 空间,我们进一步提出了 TPVFormer 来有效地获得 TPV 特征。
以环视图像作为输入,TPVFormer 仅使用稀疏 LiDAR 语义标签进行训练,但可以有效地预测空间中所有体素的语义占有。此外,TPVFormer 也是首个仅使用图像输入在 nuScenes LiDAR Segmentation 上取得良好性能的方法。代码已经开源 GitHub 仓库,后续将支持更多的三维语义占有预测模型、方法和数据。
分享主题:TPVFormer:面向自动驾驶场景的纯视觉三维语义占有预测
分享嘉宾:郑文钊,清华大学 IVG 组博士生,师从周杰教授和鲁继文副教授,研究方向是计算机视觉和机器学习,主要兴趣包括自动驾驶感知、相似性度量学习和可解释性人工智能,在 TPAMI、CVPR、ICLR 等顶刊及顶会上发表相关论文 17 篇。
分享摘要首先介绍纯视觉三维语义占有预测这个任务的背景及意义,接下来介绍所提出的 Tri-Perspective View(TPV)三维场景表示方法,最后是基于该场景表示方法的 TPVFormer 网络结构以及其在三维语义占有、点云分割、场景语义补全任务上的应用。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/tpvformer
2)论文链接:
https://arxiv.org/abs/2302.07817v1
3)代码仓库:
https://github.com/wzzheng/TPVFormer
https://github.com/wzzheng/OpenOcc
4)项目主页:
https://wzzheng.net/TPVFormer/
加群看直播
直播间关注机器之心机动组视频号,北京时间 4 月 4 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「TPVFormer」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
继续阅读
阅读原文