1.3 万字聊聊 ADS 算法技术演进、面临挑战及视觉感知产品设计痛点
中国古人追求的梦想是“拓地三千里,往返速若飞”,现代人类衣食住行的理想境界,也无非是“健康、快乐、富足、平安”。
然而,从联合国的统计数据可以看到,全球每年道路交通事故受伤者约 5000 万人,死亡人数 125 万,经济损失高达 1.85 万亿美元左右,而 94% 交通事故均来自可以避免的人为因素,且 90% 发生在中低收入的国家。
研究表明,将有效预警提前 1.9 秒,事故率可下降 90%,而提前 2.7秒,事故率可下降 95%,所以 AI 算法的感知认知领域的技术进展推动了辅助ADAS以及自动驾驶 ADS 技术的行业落地也是势所必然。
2021 年统计数据表明,一个美国司机在自然驾驶环境 NDE 下每英里的车祸发生平均概率约在百万分之一的水平。
而 2021 年美国加州自动驾驶车辆 AVs 最好的 disengagement rate 也只能做到十万分之一,这一定程度表明 AVs 的安全性能估计比人类明显要差一个数量级,虽然可以适应仿真和简单的不密集的约束真实场景,但仍难以应对城市的复杂道路交通场景。
场景适应能力问题,以及最核心的安全差异问题也就是所谓“ Long-Tail Challenge 长尾挑战”,依旧是 ADS 当前亟待解决的最大难题之一。
图1. ADSv2.0典型系统分层架构 (Khan, 2022)
图2. ADS分层核心部件 (Khan, 2022)
ADS 算法的典型系统分层架构如图 1 和图 2 所示,目前已经从多模数据结构化+决策层后融合 ADSv1.0 演进到了一个全新的多模感知与融合推理的特征级前融合 ADSv2.0 阶段。
如上文所述,ADS面临的挑战具体体现在:
- 能够在统一空间支持多模传感器感知融合与多任务共享,在提升有限算力的计算效率的同时,确保算法模型在信息提取中对极端恶劣场景(雨雪雾、低照度、高度遮挡、传感器部分失效、主动或被动场景攻击等)的泛化感知能力,降低对标注数据和高清地图的过度依赖;
- 预测与规划联合建模,离线与在线学习相结合,监督与自监督学习相结合,从而能够处理不确定性下的安全行驶与有效决策,提供认知决策行为的可解释问题,通过持续学习解决新场景问题。
ADS场景适应能力的挑战
图3. ADS场景适应能力问题 (Khan, 2022)
Camera:可以提供 360 环视和远距前后视角的环境语义表征,但需要一个照明环境,单目和多目摄像头可以提供一定程度的目标深度信息;受恶劣场景影响严重;镜头脏污会严重影响图像质量。 LiDAR:可以提供场景的空间信息;但难以检测有反光效应的或透明的物体;当雨速高于 40mm/hr 到 95mm/hr,信号反射密度严重损失并产生雨枕现象;大雪天气下可视距离缩短并产生反射干扰波形;浓雾场景会产生鬼影现象;温差会产生额外时间延迟。 Radar:对周围车辆检测准确率高,可以提供目标的速度信息,4D Radar 还可以提供目标高度的可靠信息;不适合做小目标检测;大雨、浓雾和暴风雪会产生接收信号强衰减和斑点噪声,总体对环境的适应性高。
ADS长尾问题的挑战
多模感知:主要是针对 Camera/LiDAR/Radar 海量数据流进行特征提取,DL 网络主流趋势是卷积 CNN 或者贝叶斯 NN+Transformer 的组合架构,在统一的特征空间实现多模感知,特征融合共享以及多任务来提升算力的整体效率与安全可靠的环境感知能力。 融合推理:主要是基于模型与基于数据的双学习模式,DL 网络主流趋势是基于目标交互 GNN 或基于统计模型的贝叶斯RL学习或 On-Policy 应急学习,实现 ADS 安全可信的预测规划类决策与控制。
感知层的特征高维提取和降维融合重建:DNN 网络多采用梯度下降 Gradient Descent(GD) 来做网络参数调优,对应的视觉任务包括 3D 目标检测跟踪、交通路标检测分类、场景与可驾驶区域分割、分道线检测或分割等,AI 模型多采用CNN、Transformer、Bayesian NN、RNN、GNN 等; 决策层的策略(decision-making policy)学习:DNN 多采用 Policy Gradient (PG) 理论、Bootstrapping、Monte Carlo Tree Search 来做优化策略,将高维变量空间转换到 NN 的参数空间,对应的视觉任务包括目标行为建模与运动轨迹预测、运动规划与定位控制等。AI 模型多采用 Deep Reinforcement Learning (DRL),Graph Convolution Network (GCN), Transformer, 结合贝叶斯学习、模仿学习 Imitation Learning (IL)、Inverse RL、Off-Policy 和 On-Policy 应急学习等。
图4. ADS中CoR问题的呈现图 (Khan, 2022)
ADS-RL安全学习的挑战
Indirect RL:可以分成 Policy Iteration 和 Value Iteration 两种,其基本原理是通过求解问题的最优性条件得到最优策略,针对连续时间问题,多采用哈密顿-雅可比-贝尔曼方程(HJB equation)求解;针对离散时间问题,采用贝尔曼方程(Bellman equation)求解
Direct RL:其最优策略是寻找最大化目标函数的参数化策略,将最优控制问题看成一个优化问题,采用数值优化方法进行求解,可以采用一阶优化方法,即策略梯度 Policy Gradient 法,它沿着目标函数上升的梯度方向,不断地更新策略参数,直到找到最优解,最新的策略多采用将 ADS 行驶安全也做为一个约束项
Deep Safe-RL的挑战
Deep Safe RL 作为 DRL 的一种,通过一些先验假定(例如受限扰动集)与安全约束,来提升安全性能保证。
Safe-RL 通常可以建模成受限的马尔可夫决策过程 CMDP,对应的可行策略集需要满足安全约束边界,优化目标是在累计约束下提供最大奖励性能和用最小的代价来满足安全。
太约束的先验假定会导致部署时决策过于保守,反之则容易导致车祸发生,而且这些先验约束会与场景相关,仍难以应对不确定性的超级复杂场景,尤其是 CoR 和 CoD 问题的组合场景。目前对 safe multi-agent RL 的研究也处在刚起步阶段。
Safety Under Uncertainty:对 ADS 决策来说,知道我们什么时段不知道什么非常重要,同时我们也需要识别决策是否是确定可行的,一种常用的做法是对不同的路径规划提供安全性的概率估计来帮助决策。决策的确定性分析与可解释性,也有助于开发与验证工作。
CoR稀缺问题的挑战
图5. ADS协同CAV的呈现图 (Khan, 2022)
关于 ADS 场景适应能力、长尾问题以及 CoR 稀缺问题在下面文章还会继续介绍。
自动驾驶 ADS 是新世纪产业革命即行业数字化 AI 化的第二个发力市场,近几年来具备 L2/L2+ 功能的车型纷纷成功上市并占领市场,特定场景的 L3/L4 级功能的车型也开始落地。
对于 ADS Auto-Pilot 纯视觉感知产品应用,现有市场上频频爆发出来的严重或者致命的交通事故,反而多发生在这类比较正常的天气和一些认为很容易处理的交通场景下。
如图 6 所示(备注:图片都来自官方报告或者官网新闻),事故原因大体包括:
- (2022 年 7 月) 台湾某市,天气良好,Auto-Pilot 模式,与高速公路的路边桥墩相撞,导致车辆起火,人员重伤
- (2022 年 7 月) 美国佛州,天气良好,Auto-Pilot 模式,与洲际公路的路肩停车位的卡车相撞,导致车辆起火,2 人死亡
- (2022 年 x 月) 美国多州,夜晚行驶,Auto-Pilot 模式,与抛锚车辆 ( 抛锚现场设置有 warning lights, flares, cones, and an illuminated arrow board ) 相撞,16 次车祸中,15 人 伤 1 人亡
- (2021 年 7 月 20 日-2022 年 5 月 21 日) 美国多州,Auto-Pilot 模式,总共 392 起 EV 车祸,273 次车祸来自纯视觉感知产品应用
- (2018 年 3 月) 美国加州,天气良好,Auto-Pilo t模式,与高速公路的边界栅栏相撞,导致车辆起火,人员死亡
- (2016 年下月) 美国威州,天气良好,Auto-Pilot 模式,(第一起)与洲际公路的路肩停车位的卡车相撞,导致车辆起火,1 人死亡
如图 6 所示,事故分析原因比较复杂,人为疏忽因素猜测应该是主因(例如系统感知决策能力不满足应用场景时责任人主体未能及时接管车辆等等)。
有关系统感知决策能力问题,目测分析有可能来自于感知层目标识别,其原因可能包括:未能准确识别倒地的货车、路边桥墩、可行驶的区域,或者摄像头脏污,器件突然失灵等等。
从上述分析可以看出,从 2016 年的第一起,到 2022 年的相同事故发生,纯视觉方案未能有效识别路肩停车位的卡车还是有很大可能性的。
我们的出发点是希望能够更好的解决 ADS 行业落地的众多难题,当然不希望这些前沿技术探讨误导了行业专家和消费者心理,也特别注明不会对文中任何敏感领域的问题探讨承担任何法律责任,完整的事故分析结果请读者以官方出台的报告为事实依据。
对比 US 全国 1 in 484,000 miles 的事故率,来自某著名T车厂发布的 2021 年自产车交通事故安全评估的分析数据如下:
自动驾驶 ADS 主要是由高速场景向城市道路场景演进来落地领航辅助 NOA 功能,AI 与场景的深度融合,推动 ADS 逐步实现从低速到高速,从载物到载人,从商用到民用,从阶段一提供 L2 高级辅助驾驶和 L3 拥堵高速公路副驾驶,发展到阶段二可以提供 L3 拥堵公路自动驾驶和 L4 高速公路自动驾驶,最终实现阶段三的 L4 城郊与市区自动驾驶和 L5 商用无人驾驶等等。
极端恶劣场景问题
优势:
- 可以提供 360 环视和远距前后视角的环境语义表征。
- 单目和多目 Camera 可以提供一定程度的目标深度信息。
不足:
- (如图 9 和图 12 所示)受恶劣场景影响严重:雨雪、浓雾、强光等场景。
- 镜头脏污会严重影响图像质量。
- 需要一个照明环境。
优势:
- 可以提供场景的空间信息。
不足:
难以检测有反光效应的或者透明的物体。 (如图 10 所示)当雨速高于 40mm/hr 到 95mm/hr,信号反射密度严重损失并产生雨枕现象。 (如图 10、图 11 所示)大雪天气下可视距离缩短并产生反射干扰波形。 (如图 10 所示)浓雾场景会产生鬼影现象。 温差会产生额外时间延迟。
优势:
总体对环境的适应性高。 对周围车辆检测准确率高,可以提供目标的速度信息。 4D Radar 还可以提供目标高度的可靠信息。
不足:
不适合做小目标检测。 不能检测塑料袋等材料。 (如图 11 所示)大雨浓雾和暴风雪会产生接收信号强衰减和斑点噪声。
ADS 感知层的一个主要挑战是恶劣场景的挑战。
如图 13 所示,对比 LiDAR 和 Camera,4D 高清 Radar 发送的毫米波,可以有效穿越雨滴和雪花,不受低照与雨雪雾天气影响,但会受到多径干扰问题影响,总体来说对环境的适应性高,单独或者组合应用对 2D / 3D 目标检测非常有优势,同时还可以提供高精度的目标高度和速度信息,可以有助于 ADS 的预测规划性能提升。
遮挡场景问题
与此对应的核心产品特性包括:碰撞预警,紧急刹车,车道偏离预警,传感部分失效预警;车道变道,车道并道,路口通行,行为预测,轨迹预测,轨迹规划;车速控制,转向控制等等。
目标可感知和小目标的问题
ADS 感知层的一个挑战是可感知目标距离的挑战。
远距离 ( 250 - 300 米 ) 小目标感知任务对高速行驶 AVs 的安全响应速度是至关重要的。
对 3D 目标识别等视觉任务可说,随着感知距离增加,抽取高密度特征的 AI 主干网络的计算复杂度会按照二次元速度增加,对算力需求也加速度增加。
从图 17 的对比还可以看出,采用长距 LIDAR 可以提升感知距离,特征点可以覆盖更大的区域但更稀疏,同时也会产生 “ Centre Feature Missing(CFM) ” 即点云空心化或者叫黑洞的问题,极端场景包括近距离的超大车辆的中心特征缺失。
解决 CFM 挑战问题的一般方法是在 BEV 特征空间依赖卷积操作通过特征发散来提供中心区域的感知场,或者通过点云中非空的区域来预测中间空心区目标,代价是目标预测误差和不确定性的输出结果,或者通过连通域打标签 CCL 进行 Instance Point Group 进行插值和滤波,以及整个点云的超分变率 Super-Resolution 来改善性能。
立体盲Stereoblindness的问题
从 UN 的统计数据可以看到,全球每年道路交通事故都约有 5000 万人伤,125 万人亡,经济损失可以高达约 1.85 万亿美元,而9 4% 交通事故均来自可以避免的人为因素,且 90% 发生在中低收入的国家。
稀缺目标检测的问题
前文我们提到 “ 长尾问题 ” 没有一个很明确的定义。业界对如何实现一个通用的任意目标种类的检测器或者是一个通用的运动目标检测器,依旧是一个未解的技术难题。
如何定义和分析这些稀有场景,也可以有助于更好理解目标检测识别语义理解预测决策算法性能的提升,从而加速安全可靠的 ADS 解决方案的开发与部署。
如同图 20 和本文前面所提到的交通事故原因分析所述,CoR 问题中稀有(小样本)目标的场景比比皆是,这里简短罗列一些供大家参考:
- Traffic Cone,Traffic Barrels, Traffic Warning Triangles 未能被准确识别导致的二次车祸场景
- 不容易被检测到的公路上飘逸的塑料袋
- 山体滑坡导致公路路面障碍物
- 公路上行走的各类动物
- 车前方正常行驶交通车辆,如果装载了交通交通标志物体如何有效检测和决策
- 有一定坡度的路面如何有效进行 2D / 3D 物体检测
如图 21 所示,CoR 稀缺问题总体有很多中解决方法,但在机器人、ADS 领域的一个关键挑战是系统安全性能的保证。
一个解决的思路是采用仿真来产生上述所提的大量稀少的安全事件场景,但仍然远远不够,原因在于多数仿真环境采用手工设计的规则很难模仿现实驾驶场景的高复杂性与不确定性,安全相关的真实事件数据非常难以采集,实际路况中人车交互和车车交互也很难建模,安全度量和评估也同样异常艰难。
从 AI 算法角度,可以在仿真数据基础上继续结合 Importance Sampling 和 Importance Splitting 方法,Importance Sampling 方法可以根据输入的概率分布来对输出的 Likelihood Ratio 释然比进行加权来产生无偏置的估计,这只适合简单的场景。
Importance Splitting 方法强激励的通道可以继续分解,可以将稀有事件的估计分解成条件概率分布序列从而减少估计方差,但人工设置的阈值选取是一个挑战,也很难评估 Policy 空间的性能敏感性,尤其是针对 near-miss 事件和交通事故等各类不确定性。
涉及交通安全的事件场景数据是非常稀缺的。
假定上亿英里里程数可能碰到一次 AVs 的致命事件,需要上万亿英里的里程数估计才能积累足够的数据。
从工程实践来看是非常不现实的,虽然 2022 已有几个国家先后开通了 ADS L4 车辆上路的法规,但这个僵局严重影响了 AVs 安全性能的提升和部署进程。
一个可行的方案是通过收集人驾驶的车辆数据,例如 US 交通部的统计,每年全国有 3 万亿英里的里程数累计,其中包括 6 百万次车祸,2 百万人受伤,3 万人致命伤亡事件。
避开数据采集的隐私问题不谈,这类自然驾驶环境 NDE 海量车辆轨迹数据,可以有助于建立高保真 NDE 模型,从而通过仿真环境来构建大量合成数据,这样的思路在过去对其它行业感知类视觉任务已经证明是非常行之有效的。
业界第二种思路是将这类涉及交通安全事件的发生概率降低到人类可以接受或者可以忽略的水平。
如图 16 所示,解决问题的途径包括协同 CAV 技术,即通过对道路基础设施部署大量的多模传感设备 ( Camera, LIDAR, Radar),通过 V2V,V2I ( 例如路边边缘计算设备RSD ) 和 V2X 通信技术来提供车车或者车路协同来实现知识与信息共享,有效解决单个 AVs 由于遮挡和有限视野问题产生的难决策的僵局。
相对而言,单AV的多摄像头、多模融合感知多任务共享,以及 CAV ( V2V , V2I ) 之间跨摄像头、跨模感知融合技术目前已经有非常明显的进展。
目标检测置信度问题
对目标检测任务而言,一个主要的发展趋势,是从 CNN ( Compute-bound ) 向Transformer ( memory-bound ) 演进。
CNN 目标检测方法包括常用的 Two-Stage Candidate-based 常规检测方法 ( Faster-RCNN ) 和 One-Stage Regression-based 快速检测方法 ( YOLO, SSD, RetinaNet, CentreNet)。
Transformer 目标检测方法包括 DETR, ViT, Swin Transformer, Detection Transformer (如 Error! Reference source not found. 所示)等等。
两者之间的主要差别是目标感知场的尺寸,前者是局部视野,侧重目标纹理,后者是全局视野,从全局特征中进行学习,侧重目标形状。
对于这些目标检测识别的 SOTA 深度学习 DL 模型而言,采用 Softmax 或者 Sigmoid 层做预测输出,一个常见的问题是,由于遮挡等多因素原因,会导致网络层产生过高的置信度预测,会远偏离实际的概率分布 score,如图 22 所示。
而且 DNN 网络越深,神经元越多,这种叫做 Overconfidence 的交叉效应也越明显。对应感知输出结果会极大影响 ADS 决策甚至会产生错误决策。
一种可行的技术策略是在 DNN 中添加一个基于贝叶斯最大似然率 ML 或最大后验概率 MAP 的推理层,这种基于目标识别的概率特性可解释性强,更值得信赖。
推 荐 阅 读
点击 ↑ 文字进入详情
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。