1.3 万字聊聊 ADS 算法技术演进、面临挑战及视觉感知产品设计痛点

说明：转自佐思汽车研究（作者 Dr.Luo），本仅供学习和交流，不代表个人观点及立场，版权归原作者，若有任何问题请联系小编六耳（微信号：adas_miao），跳过“嘘寒问暖”，请直说来意 & 备注“姓名+职业/专业方向”。

中国古人追求的梦想是“拓地三千里，往返速若飞”,现代人类衣食住行的理想境界，也无非是“健康、快乐、富足、平安”。

然而，从联合国的统计数据可以看到，全球每年道路交通事故受伤者约 5000 万人，死亡人数 125 万，经济损失高达 1.85 万亿美元左右，而 94% 交通事故均来自可以避免的人为因素，且 90% 发生在中低收入的国家。

研究表明，将有效预警提前 1.9 秒，事故率可下降 90%，而提前 2.7秒，事故率可下降 95%，所以 AI 算法的感知认知领域的技术进展推动了辅助ADAS以及自动驾驶 ADS 技术的行业落地也是势所必然。

2021 年统计数据表明，一个美国司机在自然驾驶环境 NDE 下每英里的车祸发生平均概率约在百万分之一的水平。

而 2021 年美国加州自动驾驶车辆 AVs 最好的 disengagement rate 也只能做到十万分之一，这一定程度表明 AVs 的安全性能估计比人类明显要差一个数量级，虽然可以适应仿真和简单的不密集的约束真实场景，但仍难以应对城市的复杂道路交通场景。

场景适应能力问题，以及最核心的安全差异问题也就是所谓“ Long-Tail Challenge 长尾挑战”，依旧是 ADS 当前亟待解决的最大难题之一。

图1. ADSv2.0典型系统分层架构 (Khan, 2022)

图2. ADS分层核心部件 (Khan, 2022)

ADS 算法的典型系统分层架构如图 1 和图 2 所示，目前已经从多模数据结构化+决策层后融合 ADSv1.0 演进到了一个全新的多模感知与融合推理的特征级前融合 ADSv2.0 阶段。

如上文所述，ADS面临的挑战具体体现在：

能够在统一空间支持多模传感器感知融合与多任务共享，在提升有限算力的计算效率的同时，确保算法模型在信息提取中对极端恶劣场景(雨雪雾、低照度、高度遮挡、传感器部分失效、主动或被动场景攻击等)的泛化感知能力，降低对标注数据和高清地图的过度依赖；
预测与规划联合建模，离线与在线学习相结合，监督与自监督学习相结合，从而能够处理不确定性下的安全行驶与有效决策，提供认知决策行为的可解释问题，通过持续学习解决新场景问题。

ADS 算法面临的挑战

ADS场景适应能力的挑战

图3. ADS场景适应能力问题 (Khan, 2022)

如图 3 所示，ADS 部署的传感器在极端恶劣场景(雨雪雾、低照度、高度遮挡、传感器部分失效、主动或被动场景攻击等)的影响程度是不一样的。

所以传感器组合应用可以来解决单传感器的感知能力不足问题，常用的几种组合是：

➤ Camera+LiDAR;

➤ Radar(3D,4D)+Camera+LiDAR(LD,HD);

➤ Radar+Camera。

统计数据表明 Radar+Camera 是最常见组合。ADS 传感器特性总结如下：

Camera：可以提供 360 环视和远距前后视角的环境语义表征，但需要一个照明环境，单目和多目摄像头可以提供一定程度的目标深度信息；受恶劣场景影响严重；镜头脏污会严重影响图像质量。
LiDAR：可以提供场景的空间信息；但难以检测有反光效应的或透明的物体；当雨速高于 40mm/hr 到 95mm/hr，信号反射密度严重损失并产生雨枕现象；大雪天气下可视距离缩短并产生反射干扰波形；浓雾场景会产生鬼影现象；温差会产生额外时间延迟。
Radar：对周围车辆检测准确率高，可以提供目标的速度信息，4D Radar 还可以提供目标高度的可靠信息；不适合做小目标检测；大雨、浓雾和暴风雪会产生接收信号强衰减和斑点噪声，总体对环境的适应性高。

AVs 使用体验数据显示，在暴风雨雪天气，车辆的控制由于打滑和 oversteering 等原因，目前是远低于用户期望的。

ADS长尾问题的挑战

“长尾问题”没有一个很明确的定义，一般指 AVs 即使经历了交通公路百万公里数的路况测试，对每个 AI 算法模块而言，包括感知层和决策层(预测+规划)，仍不能完全覆盖各种各样的低概率安全至关重要的复合驾驶场景，即所谓的“ Curse of Rarity (CoR) 稀缺问题”。

如何定义和分析这些稀有场景，可以有助于更好理解算法性能的提升，从而加速安全可靠的 ADS 解决方案的开发与部署。

对于大部分视觉任务而言，问题复杂度增加，对应维度也在增加，意味着数据在特征空间更加稀疏，为了一个可靠的结果，数据需求会随维度增加而指数增长，而性能只可能线性增长，R. Bellman 统一定义这类问题为“Curse of Dimensionality(CoD) 高维问题”。

ADS 领域的 CoD 高维问题显然来自上述所提的各类天气状况，道路基建，人车混杂，城市乡村各类路况，道路设施（高速、路口、转盘、隧道、高架桥），人车交互，车车交互等。

针对 CoD 问题，深度学习 DL 算法在 ADS 领域确实带来了很多长足的进展，包括：

多模感知：主要是针对 Camera/LiDAR/Radar 海量数据流进行特征提取，DL 网络主流趋势是卷积 CNN 或者贝叶斯 NN+Transformer 的组合架构，在统一的特征空间实现多模感知，特征融合共享以及多任务来提升算力的整体效率与安全可靠的环境感知能力。
融合推理：主要是基于模型与基于数据的双学习模式，DL 网络主流趋势是基于目标交互 GNN 或基于统计模型的贝叶斯RL学习或 On-Policy 应急学习，实现 ADS 安全可信的预测规划类决策与控制。

对于上述 CoD 高维问题的解决，可以简单分成两种应用方式：

感知层的特征高维提取和降维融合重建：DNN 网络多采用梯度下降 Gradient Descent(GD) 来做网络参数调优，对应的视觉任务包括 3D 目标检测跟踪、交通路标检测分类、场景与可驾驶区域分割、分道线检测或分割等，AI 模型多采用CNN、Transformer、Bayesian NN、RNN、GNN 等；
决策层的策略(decision-making policy)学习：DNN 多采用 Policy Gradient (PG) 理论、Bootstrapping、Monte Carlo Tree Search 来做优化策略，将高维变量空间转换到 NN 的参数空间，对应的视觉任务包括目标行为建模与运动轨迹预测、运动规划与定位控制等。AI 模型多采用 Deep Reinforcement Learning (DRL)，Graph Convolution Network (GCN), Transformer, 结合贝叶斯学习、模仿学习 Imitation Learning (IL)、Inverse RL、Off-Policy 和 On-Policy 应急学习等。

图4. ADS中CoR问题的呈现图 (Khan, 2022)

如图 4 所示，上述几类方法可以部分解决 CoR 稀缺问题，但在机器人、ADS 领域的一个关键挑战是系统安全性能的保证。

一个解决的思路是采用仿真来产生上述所提的大量稀少的安全事件场景，但仍然远远不够，原因在于多数仿真环境采用手工设计的规则很难模仿现实驾驶场景的高复杂性与不确定性，安全相关的真实事件数据非常难以采集，实际路况中人车交互和车车交互也很难建模，安全度量和评估也同样异常艰难。

从 AI 算法角度，可以在仿真数据基础上继续结合 Importance Sampling 和 Importance Splitting 方法，Importance Sampling 方法可以根据输入的概率分布来对输出的 Likelihood Ratio 释然比进行加权来产生无偏置的估计，这只适合简单的场景。

Importance Splitting 方法强激励的通道可以继续分解，可以将稀有事件的估计分解成条件概率分布序列从而减少估计方差，但人工设置的阈值选取是一个挑战，也很难评估 Policy 空间的性能敏感性，尤其是针对 near-miss 事件和交通事故等各类不确定性。

ADS-RL安全学习的挑战

对于 ADS 的决策层算法而言，最早采用的基于手工设计的规则的方法，应用场景受限难以应对现实驾驶场景的高复杂性与不确定性，其典型案例是开源自动驾驶系统 Autoware 和仿真平台 CARMA，采用有限状态机来产生车辆轨迹，为了确保 AVs 行驶安全，在高复杂度交互场景会产生车辆减速或停车现象即所谓的 ” Freezing Robot ” 问题。

工业界采用的基于数据的监督学习的方法，仍然难以解决 CoR 和 CoD 中数据总量和数据不平衡的问题，现有的真实驾驶里程标注数据总量，估计只有期望数据量的 1% 以下。

第三类最有希望的 DRL 方法是一种模仿动物学习行为的自学习方法，通过状态 State 不断地与环境的行为交互 Action 带来的奖励 Reward 积累来寻求最优策略Policy，最大化未来累计奖励的一个随机过程，来应对不确定性。

按照最优策略的获得方式，可以将 RL 分成间接式 Indirect RL 和直接式 Direct RL 两种：

Indirect RL：可以分成 Policy Iteration 和 Value Iteration 两种，其基本原理是通过求解问题的最优性条件得到最优策略，针对连续时间问题，多采用哈密顿-雅可比-贝尔曼方程（HJB equation）求解；针对离散时间问题，采用贝尔曼方程（Bellman equation）求解

➤ 算法案例：Deep Q-Learning, DQN, D3QN, A3C, GAE, DDQN

Direct RL：其最优策略是寻找最大化目标函数的参数化策略，将最优控制问题看成一个优化问题，采用数值优化方法进行求解，可以采用一阶优化方法，即策略梯度 Policy Gradient 法，它沿着目标函数上升的梯度方向，不断地更新策略参数，直到找到最优解，最新的策略多采用将 ADS 行驶安全也做为一个约束项

➤ 算法案例：TRPO，PPO， DPG， DDPG

DRL采用的 Policy Gradient 方法，其目标函数可以表示为：

其中 𝜃 为神经网络参数, 𝐽(𝜃) 为目标函数, 𝑆𝑡 and 𝐴𝑡 为 state 和 action，策略policy 𝜋，以及 q𝜋(𝑆𝑡, 𝐴𝑡) 表示 state-action 值。

Policy Gradient 方法中最重要的一个步骤是计算目标函数的梯度值，可以采用Monte Carlo 方法来计算。

值得一提的是，上述 A3C（Actor Critic）是 DRL 的一个案例，实际上它既可以从间接方法推导得到 ( Critic 是一步策略评价，Actor 是一步策略更新)，也可以从直接方法推导得到 ( Actor 本身是 Policy Gradient 的估计过程，而 Critic 则是该梯度内部的一项，即 Value 函数的估计)。

DQN 方法不同与上述参数化 Policy 直接进行学习模式，其目标是通过对 action 值进行学习，通过基于预估值来选取，主要步骤是更新能够预估 action 值的NN参数。

显而易见，稀有事件问题仍难以解决。

采用 DRL 学习的方法，由于 CoR 和 CoD 问题，同样存在稀疏奖励 Reward 问题和 Policy Gradient 估计的方差过大等瓶颈问题。

在数据比较充分的情况下，深度模仿学习 Deep IL 通过行为克隆、直接策略学习、和 Inverse IL 来模仿人类的驾驶行为，这种监督模式的知识学习方式对大多数场景是比较有效的，而且学习效率高于 DRL。

但同时缺陷也非常明显，其一是模仿学习永远难以超越人类的驾驶水平，其二是涉及交通安全的场景，CoR 问题依旧存在，存在数据集偏置不平衡和实验与真实场景不匹配 “ Covariate Shift ” 的问题。

现在一种比较通用的方法是把 Deep IL 与 DRL 相结合来提升学习效率。

这里值得一提的是将图神经网络 Graph attention-based Network (GAT) 与 DRL 结合，利用自关注 GAT 来对异构交通信息(路面结构和车辆状态)进行编码和对车辆交互进行隐形建模，DRL 的策略网络综合了基于像素的和基于状态的知识信息来无监督训练 AVs 来适应动态变化的城市交通场景，减少了对标注数据的依赖。

Deep Safe-RL的挑战

Deep Safe RL 作为 DRL 的一种，通过一些先验假定(例如受限扰动集)与安全约束，来提升安全性能保证。

Safe-RL 通常可以建模成受限的马尔可夫决策过程 CMDP，对应的可行策略集需要满足安全约束边界，优化目标是在累计约束下提供最大奖励性能和用最小的代价来满足安全。

太约束的先验假定会导致部署时决策过于保守，反之则容易导致车祸发生，而且这些先验约束会与场景相关，仍难以应对不确定性的超级复杂场景，尤其是 CoR 和 CoD 问题的组合场景。目前对 safe multi-agent RL 的研究也处在刚起步阶段。

Safety Under Uncertainty：对 ADS 决策来说，知道我们什么时段不知道什么非常重要，同时我们也需要识别决策是否是确定可行的，一种常用的做法是对不同的路径规划提供安全性的概率估计来帮助决策。决策的确定性分析与可解释性，也有助于开发与验证工作。

CoR稀缺问题的挑战

涉及交通安全的事件场景数据是非常稀缺的。

假定上亿英里里程数可能碰到一次 AVs 的致命事件，需要上万亿英里的里程数估计才能积累足够的数据。

从工程实践来看是非常不现实的，虽然 2022 年已有几个国家先后开通了 ADS L4 车辆上路的法规，但这个僵局严重影响了 AVs 安全性能的提升和部署进程。

一个可行的方案是通过收集人驾驶的车辆数据，例如美国交通部的统计，每年全美有 3 万亿英里的里程数累计，其中包括 6 百万次车祸，2 百万人受伤，3 万人致命伤亡事件。

避开数据采集的隐私问题不谈，这类自然驾驶环境（NDE）海量车辆轨迹数据，可以有助于建立高保真 NDE 模型，从而通过仿真环境来构建大量合成数据，这样的思路在过去对其它行业感知类视觉任务已经证明是非常行之有效的。

图5. ADS协同CAV的呈现图 (Khan, 2022)

业界第二种思路是将这类涉及交通安全事件的发生概率降低到人类可以接受或者可以忽略的水平。

如图 5 所示，解决问题的途径包括协同 CAV 技术，即通过对道路基础设施部署大量的多模传感设备 ( Camera、LiDAR、Radar)，通过 V2V，V2I (例如路边边缘计算设备 RSD )和 V2X 通信技术来提供车车或者车路协同来实现知识与信息共享，有效解决单辆自动驾驶汽车由于遮挡和有限视野问题产生的难决策的僵局。

相对而言，单 AV 的多摄像头、多模融合感知多任务共享，以及 CAV(V2V,V2I) 之间跨摄像头、跨模感知融合技术目前已经有非常明显的进展。

小样本数据问题，一直是业界的一个大难题。

零样本或者小样本学习，持续学习或者终身学习，也一直是学术界的研究重点，从人类常识角度来说，也是可行的。

人类的推理学习模式是两种的融合：从底往上推理（感知数据驱动建模）+由上往下推理（知识学习与认知期待驱动推理）。

ADS 在知识推理层面演进也应该能够解决 CoR 和 CoD 的综合难题。

DL 算法演进能够有效解决 CoD 问题，稀有事件的仿真也许可以有效解决 CoR 问题，通过有限数据与数学物理模型的组合应用在液体动态力学有了一些长足进展，期待类似思路能够应用到 ADS 领域。

关于 ADS 场景适应能力、长尾问题以及 CoR 稀缺问题在下面文章还会继续介绍。

ADS纯视觉感知产品设计的痛点观察

自动驾驶 ADS 是新世纪产业革命即行业数字化 AI 化的第二个发力市场，近几年来具备 L2/L2+ 功能的车型纷纷成功上市并占领市场，特定场景的 L3/L4 级功能的车型也开始落地。

L3 是有关安全责任归属的临界点，L3 以上才可以被称为是自动驾驶，驾驶主体将变成车辆的自动驾驶系统，人类驾驶员只在必要时接管。

随着 AI 技术与驾驶场景的深度融合，智能车 AVs 将按照大众的预期逐步实现从低速到高速、从载物到载人、从商用到民用的落地节奏。

领航辅助驾驶（Navigation On Autopilot）做为 L2+ 级功能也受到大众广泛的欢迎，在自动巡航控制 ACC、车道居中控制 LCC、匀速保持控制 ALC 等初级功能基础上，允许汽车根据导航信息，自主完成上下匝道、高速巡航、换道超车等智能化操作。

半封闭、道路结构化的高速场景复杂度较低，易于智能驾驶功能量产落地，商业化落地主要为车道保持辅助 LKA、ACC、车道居中辅助 LCA、高速 NOA 等功能。

城市路况复杂度高，行人、非机动车、机动车等道路因素较多，开发 NOA 功能挑战性显然更大。

上述所说的针对 L2 的场景应用，可以解放人的双手和双脚，但驾驶员做为责任主体，必须负责监督路况并在需要时能够迅速接管驾驶任务，责任主体的分心或者打盹可以说仍是当前一个非常致命性的因素之一，需要车辆销售人员的正确宣传与算法的技术有效检测这类事件，并配合用户进行改善。

大量的分析已经表明，目前在很大的程度上 AVs 的安全性能估计比人类驾驶(也可以说人类自身的最好能力或者是人类心理可接受的期望值)明显要差一个数量级以上，虽然可以适应仿真和简单低遮挡的约束真实场景，但仍难以应对城市的复杂道路交通场景，包括恶劣天气环境，定位信号缺失，目标高度遮挡，有限全局视野，人车交互，车车交互，以及小尺寸目标或干扰目标等。

场景动态适应能力问题，即所谓 “ Long-Tail Challenge ” 长尾挑战，依旧是 ADS 当前待解决的主要难题之一。

为了提升 ADS 的时空 4D 感知能力和人身安全等特性，市场上 AVs 类似配置 29 个摄像头，6 个 Radar 和 5 个 LiDAR 多模多传感器的设计已经非常常见。

对比昂贵的 LiDAR 设备，摄像头一个最大的优势是高分辨率和低成本，纯视觉的多摄像头组合设计可以提供充分的场景语义信息。

针对当前市场上所采用的纯视觉感知的产品设计，除了上述极端场景外，本文在这里将重点交流一下我们的总体深度洞察，尤其是包括应用的主力场景，即非恶劣天气下被大众认为不容易被干扰或者是认为目标不容被易漏检误检的行驶场景等等。

图6：交通事故现场 (online media, 2022)

对于 ADS Auto-Pilot 纯视觉感知产品应用，现有市场上频频爆发出来的严重或者致命的交通事故，反而多发生在这类比较正常的天气和一些认为很容易处理的交通场景下。

如图 6 所示(备注：图片都来自官方报告或者官网新闻)，事故原因大体包括：

(2022 年 7 月) 台湾某市，天气良好，Auto-Pilot 模式，与高速公路的路边桥墩相撞，导致车辆起火，人员重伤
(2022 年 7 月) 美国佛州，天气良好，Auto-Pilot 模式，与洲际公路的路肩停车位的卡车相撞，导致车辆起火，2 人死亡
(2022 年 x 月) 美国多州，夜晚行驶，Auto-Pilot 模式，与抛锚车辆 ( 抛锚现场设置有 warning lights, flares, cones, and an illuminated arrow board ) 相撞，16 次车祸中，15 人伤 1 人亡
(2021 年 7 月 20 日-2022 年 5 月 21 日) 美国多州，Auto-Pilot 模式，总共 392 起 EV 车祸，273 次车祸来自纯视觉感知产品应用
(2018 年 3 月) 美国加州，天气良好，Auto-Pilo t模式，与高速公路的边界栅栏相撞，导致车辆起火，人员死亡
(2016 年下月) 美国威州，天气良好，Auto-Pilot 模式，(第一起)与洲际公路的路肩停车位的卡车相撞，导致车辆起火，1 人死亡

如图 6 所示，事故分析原因比较复杂，人为疏忽因素猜测应该是主因(例如系统感知决策能力不满足应用场景时责任人主体未能及时接管车辆等等)。

有关系统感知决策能力问题，目测分析有可能来自于感知层目标识别，其原因可能包括：未能准确识别倒地的货车、路边桥墩、可行驶的区域，或者摄像头脏污，器件突然失灵等等。

从上述分析可以看出，从 2016 年的第一起，到 2022 年的相同事故发生，纯视觉方案未能有效识别路肩停车位的卡车还是有很大可能性的。

我们的出发点是希望能够更好的解决 ADS 行业落地的众多难题，当然不希望这些前沿技术探讨误导了行业专家和消费者心理，也特别注明不会对文中任何敏感领域的问题探讨承担任何法律责任，完整的事故分析结果请读者以官方出台的报告为事实依据。

对比 US 全国 1 in 484,000 miles 的事故率，来自某著名T车厂发布的 2021 年自产车交通事故安全评估的分析数据如下：

可以看出十倍的提升，依旧满足不了大众对智能出行安全的期望值。

如果定位在上百倍或上千倍的提升为目标值或者说大众可以接受的程度，对行业设计者来说，前方的路依旧是任重而道远，更需要上下而求索，在 5 - 10 年内交付一个比较完美的答案。

ADS的场景不确定性

自动驾驶 ADS 主要是由高速场景向城市道路场景演进来落地领航辅助 NOA 功能，AI 与场景的深度融合，推动 ADS 逐步实现从低速到高速，从载物到载人，从商用到民用，从阶段一提供 L2 高级辅助驾驶和 L3 拥堵高速公路副驾驶，发展到阶段二可以提供 L3 拥堵公路自动驾驶和 L4 高速公路自动驾驶，最终实现阶段三的 L4 城郊与市区自动驾驶和 L5 商用无人驾驶等等。

ADS 算法的典型系统分层架构如图 7 所示，一般包括传感层，感知层，定位层，决策层(预测+规划)和控制层。

每个层面会采用传统算法模型或者是与深度学习 DNN 模型相结合，从而在 ADS 全程驾驶中提供人类可以认可的高可靠和高安全性，以及在这个基础上提供最佳能耗比、最佳用车体验、和用户社交娱乐等基本功能。

图7：ADS技术栈案例 (Nageshrao,2022)

极端恶劣场景问题

ADS 部署的传感器在极端恶劣场景(雨雪雾、低照度、高度遮挡、传感器部分失效、主动或被动场景攻击等)的影响程度是不一样的。

所以传感器组合应用可以来解决单传感器的感知能力不足问题，常用的多模传感器包括 Camera ( Front-View or Multiview; Mono or Stereo；LD or HD )，毫米波Radar ( 3D or 4D ) 和激光雷达 LIDAR ( LD or HD )。

图8：ADS传感层的不确定性与性能对比(Khan, 2022)

如图 8 所示，ADS 传感器特性可以总结如下：

优势：

可以提供 360 环视和远距前后视角的环境语义表征。
单目和多目 Camera 可以提供一定程度的目标深度信息。

不足：

(如图 9 和图 12 所示)受恶劣场景影响严重：雨雪、浓雾、强光等场景。
镜头脏污会严重影响图像质量。
需要一个照明环境。

优势：

可以提供场景的空间信息。

不足：

难以检测有反光效应的或者透明的物体。
(如图 10 所示)当雨速高于 40mm/hr 到 95mm/hr，信号反射密度严重损失并产生雨枕现象。
(如图 10、图 11 所示)大雪天气下可视距离缩短并产生反射干扰波形。
(如图 10 所示)浓雾场景会产生鬼影现象。
温差会产生额外时间延迟。

优势：

总体对环境的适应性高。
对周围车辆检测准确率高，可以提供目标的速度信息。
4D Radar 还可以提供目标高度的可靠信息。

不足：

不适合做小目标检测。
不能检测塑料袋等材料。
(如图 11 所示)大雨浓雾和暴风雪会产生接收信号强衰减和斑点噪声。

图9：Camera(RGB, Thermal) 和LiDAR的强光场景(Zhang 2022)

图10：Camera和LiDAR的浓雾暴雨场景(Zhang, 2022)

图11：LiDAR的暴风雪场景(Zhang 2022)

图12：Camera和LiDAR的雨天场景(Zhang 2022)

ADS 感知层的一个主要挑战是恶劣场景的挑战。

如图 13 所示，对比 LiDAR 和 Camera，4D 高清 Radar 发送的毫米波，可以有效穿越雨滴和雪花，不受低照与雨雪雾天气影响，但会受到多径干扰问题影响，总体来说对环境的适应性高，单独或者组合应用对 2D / 3D 目标检测非常有优势，同时还可以提供高精度的目标高度和速度信息，可以有助于 ADS 的预测规划性能提升。

图13：4D Radar，Camera，LiDAR点云的3D目标检测识别对比案例 (Paek, 2022)

遮挡场景问题

ADS 感知层的主要应用场景包括高速公路，城郊与市区道路；十字路口，交通环岛，潮汐公路；隧道，停车场等，其主要任务是基于多模的 2D / 3D 人车物目标识别，动态目标跟踪与速度识别，交通标志识别，车道线识别，红绿灯识别，路面可行驶区域语义分割，路面障碍检测，盲区检测，交通事件检测，司机打瞌睡检测等。

与此对应的核心产品特性包括：碰撞预警，紧急刹车，车道偏离预警，传感部分失效预警；车道变道，车道并道，路口通行，行为预测，轨迹预测，轨迹规划；车速控制，转向控制等等。

ADS 感知层的一个挑战是目标遮挡即感知盲区的挑战。

单纯依赖 AVs 自身 360 全方位近距感知和远距感知，很难能够让 ADS 从理论上完全超越人类的驾驶水平，通过预测预警达到更低的交通事故率和提供更好的人身安全。

如图 14 所示的典型前方遮挡场景，Camera 画面相对影响较小，LiDAR 前方有大片区域由于遮挡出现空白，严重影响感知决策。

一个可行的策略是利用这类 3D 阴影特性进行障碍目标检测，即将阴影与遮挡目标关联，通过这种先验假定来降低目标漏检率(Haul, 2022)。

图14：近场目标遮挡场景（Haul, 2022)

如图 15 所示的对比案例，可以看出车路协同可以有效解决盲区与上述所说的长距感知的挑战，但对应的缺点也不言而喻，部署的成本与长期可靠运营费用以及如何防网络攻击问题，这决定了对乡村和偏远地区的场景，需要寻求 AVs 自身的多模感知认知决策能力提升。

图15：独立感知与车路协同感知对比案例(Mao, 2022)

图16：多视觉的目标多模感知与融合识别案例(Mao, 2022)

如图 16 所示，V2X 的可行解决方案包括交通要道部署的 RSU Camera，LiDAR，或者 Radar，对算法设计来说，需要解决海量点云数据的压缩与实时传输，以及针对接收数据的时间轴同步，多模感知与特征融合目标识别等。

目前这个领域基于 Transformer 在 BEV 空间进行多任务多模态的融合感知已经有了一些长足进展，融合的方式也可以自由组合，包括多视觉的 Camera 视频融合，以及 Camera 与 LiDAR 或者 Radar 的组合融合模式，对点云数据的超分变率会改善融合效果，但融合对延迟非常敏感。

目标可感知和小目标的问题

ADS 感知层的一个挑战是可感知目标距离的挑战。

远距离 ( 250 - 300 米 ) 小目标感知任务对高速行驶 AVs 的安全响应速度是至关重要的。

对 3D 目标识别等视觉任务可说，随着感知距离增加，抽取高密度特征的 AI 主干网络的计算复杂度会按照二次元速度增加，对算力需求也加速度增加。

从图 17 的对比还可以看出，采用长距 LIDAR 可以提升感知距离，特征点可以覆盖更大的区域但更稀疏，同时也会产生 “ Centre Feature Missing(CFM) ” 即点云空心化或者叫黑洞的问题，极端场景包括近距离的超大车辆的中心特征缺失。

解决 CFM 挑战问题的一般方法是在 BEV 特征空间依赖卷积操作通过特征发散来提供中心区域的感知场，或者通过点云中非空的区域来预测中间空心区目标，代价是目标预测误差和不确定性的输出结果，或者通过连通域打标签 CCL 进行 Instance Point Group 进行插值和滤波，以及整个点云的超分变率 Super-Resolution 来改善性能。

图17：短距LIDAR点云(红色，75米)与长距LIDAR点云(蓝色，200米)对比案例 (Fan, 2022)

立体盲Stereoblindness的问题

人类是通过双目视差来进行 2D / 3D 目标的识别与定位，纯视觉感知设计，通过跨摄像头部署或者希望通过单目视频信息进行 3D 目标识别，总体性能在实际驾驶环境中有产品应用体验。

立体盲的问题，可以对比参考一下这些场景分析来定义，如图 18 所示的两个事故案例：纯视觉感知算法错把 2D 宣传画当成真实的 3D 目标，不停地针对假想的在前方飞奔的行人进行紧急刹车，彻底是一种逻辑混乱状态，严重的话也会因为采取了错误决策导致车祸。

设想一下，如果类似宣传画、交通障碍标志 ( 宣传画或者实际物品 ) 在行驶车辆上，也许通过点云来识别目标是否运动，纯粹靠单目或跨摄像头融合感知 3D 或者所谓活体目标，困难重重。

一种解决的思路是采用 Few-shot Learning-based 的方法来消除立体盲问题带来的致命安全威胁。

如图 19 所示，EyeDAS 案例是对检测到的目标抠图进行四种属性的非监督概率估测，通过一个宏分类器来决策是否是 2D / 3D 目标。

类似这样的实现策略，相信如果有足够的数据，一个 DNN 网络同样可以基于单目做很好的活体或者 3D 目标识别，可以见到类似的这样设计，但立体盲问题需要重点评估。

图18：两个事故案例：错把2D宣传画当成真实目标(Levy 2022)

图19：EyeDAS 后处理算法案例(Levy 2022)

ADS的感知算法不确定性

从 UN 的统计数据可以看到，全球每年道路交通事故都约有 5000 万人伤，125 万人亡，经济损失可以高达约 1.85 万亿美元，而9 4% 交通事故均来自可以避免的人为因素，且 90% 发生在中低收入的国家。

研究表明，将有效预警提前 1.9 秒，事故率可下降 90%，而提前 2.7 秒，事故率可下降 95%，所以 AI 算法的感知认知领域的技术进展推动了辅助 ADAS 以及自动驾驶 ADS 技术的行业落地也是势在必然的。

2021年统计数据表明，一个 US 司机在自然驾驶环境 NDE 下每英里的车祸发生平均概率约在百万分之一的水平。

而 2021 年 US 加州自动驾驶车辆 AVs 最好的 disengagement rate 也只能做到十万分之一。

由于篇幅原因，本文不准备全面展开讨论感知算法中众多不确定性问题，只重点讨论 1 - 2 个大家比较关注的技术难点。

稀缺目标检测的问题

前文我们提到 “ 长尾问题 ” 没有一个很明确的定义。业界对如何实现一个通用的任意目标种类的检测器或者是一个通用的运动目标检测器，依旧是一个未解的技术难题。

如何定义和分析这些稀有场景，也可以有助于更好理解目标检测识别语义理解预测决策算法性能的提升，从而加速安全可靠的 ADS 解决方案的开发与部署。

如同图 20 和本文前面所提到的交通事故原因分析所述，CoR 问题中稀有(小样本)目标的场景比比皆是，这里简短罗列一些供大家参考：

Traffic Cone，Traffic Barrels, Traffic Warning Triangles 未能被准确识别导致的二次车祸场景
不容易被检测到的公路上飘逸的塑料袋
山体滑坡导致公路路面障碍物
公路上行走的各类动物
车前方正常行驶交通车辆，如果装载了交通交通标志物体如何有效检测和决策
有一定坡度的路面如何有效进行 2D / 3D 物体检测

图20：CoR小样本目标场景(Li 2022)

图21：ADS中CoR问题的呈现图 (Khan, 2022)

如图 21 所示，CoR 稀缺问题总体有很多中解决方法，但在机器人、ADS 领域的一个关键挑战是系统安全性能的保证。

涉及交通安全的事件场景数据是非常稀缺的。

假定上亿英里里程数可能碰到一次 AVs 的致命事件，需要上万亿英里的里程数估计才能积累足够的数据。

从工程实践来看是非常不现实的，虽然 2022 已有几个国家先后开通了 ADS L4 车辆上路的法规，但这个僵局严重影响了 AVs 安全性能的提升和部署进程。

一个可行的方案是通过收集人驾驶的车辆数据，例如 US 交通部的统计，每年全国有 3 万亿英里的里程数累计，其中包括 6 百万次车祸，2 百万人受伤，3 万人致命伤亡事件。

避开数据采集的隐私问题不谈，这类自然驾驶环境 NDE 海量车辆轨迹数据，可以有助于建立高保真 NDE 模型，从而通过仿真环境来构建大量合成数据，这样的思路在过去对其它行业感知类视觉任务已经证明是非常行之有效的。

业界第二种思路是将这类涉及交通安全事件的发生概率降低到人类可以接受或者可以忽略的水平。

如图 16 所示，解决问题的途径包括协同 CAV 技术，即通过对道路基础设施部署大量的多模传感设备 ( Camera, LIDAR, Radar)，通过 V2V，V2I ( 例如路边边缘计算设备RSD ) 和 V2X 通信技术来提供车车或者车路协同来实现知识与信息共享，有效解决单个 AVs 由于遮挡和有限视野问题产生的难决策的僵局。

相对而言，单AV的多摄像头、多模融合感知多任务共享，以及 CAV ( V2V , V2I ) 之间跨摄像头、跨模感知融合技术目前已经有非常明显的进展。

目标检测置信度问题

对目标检测任务而言，一个主要的发展趋势，是从 CNN ( Compute-bound ) 向Transformer ( memory-bound ) 演进。

CNN 目标检测方法包括常用的 Two-Stage Candidate-based 常规检测方法 ( Faster-RCNN ) 和 One-Stage Regression-based 快速检测方法 ( YOLO, SSD, RetinaNet, CentreNet)。

Transformer 目标检测方法包括 DETR, ViT, Swin Transformer, Detection Transformer (如 Error! Reference source not found. 所示)等等。

两者之间的主要差别是目标感知场的尺寸，前者是局部视野，侧重目标纹理，后者是全局视野，从全局特征中进行学习，侧重目标形状。

对于这些目标检测识别的 SOTA 深度学习 DL 模型而言，采用 Softmax 或者 Sigmoid 层做预测输出，一个常见的问题是，由于遮挡等多因素原因，会导致网络层产生过高的置信度预测，会远偏离实际的概率分布 score，如图 22 所示。

而且 DNN 网络越深，神经元越多，这种叫做 Overconfidence 的交叉效应也越明显。对应感知输出结果会极大影响 ADS 决策甚至会产生错误决策。

一种可行的技术策略是在 DNN 中添加一个基于贝叶斯最大似然率 ML 或最大后验概率 MAP 的推理层，这种基于目标识别的概率特性可解释性强，更值得信赖。

图22：Softmax过高置信度分布VS概率密度分布的案例(Melotti 2022)

ADS 算法设计的一个艰巨任务是如何减少 Overconfidence 预测，如何捕获这种预测的不确定性。

然而这类不确定性估计和对应基于安全的设计是一个很大的挑战，不确定性与采用的算法形态(模块化的或者端到端的；多模态实现；深度融合或者部分模块联合建模的策略)、数据规模、不确定性的量化表征(熵、交互信息、KL Divergence、预测方差)、多智能体的交互状态和行为都非常相关，也不容易建模，所以有改善，仍待从理论的角度进行提高，这也是当前学术研究的一个最大热点，即如何有效对 ADS 系统进行概率估计，确保 AVs 车辆在行驶中保持在一个安全状态。

一些有效的尝试包括采用 Generalized Polynomial Chaos ( GPC ) 混沌学 GPC 模型来取代感知模型中的复杂度感知分量，并用来评估加入不安全状态的状态分布或者是概率，评估的准确度很接近 Monte Carlo 仿真，并有几倍计算速度提升。

ADS 感知的数据驱动 DDM 模型，其安全可信某种程度上其实是来自与训练数据中隐含的行为定义，这对实现 ADS 安全至上的感知带来了大挑战。

实际行驶应用中(可以认为是随机的、部分可观察的交互环境)可以通过对当前运行状态的不确定性进行估计，进而调整系统随后的行为，和基于这些估计决定 AVs 的安全距离控制。

参考文献：

【1】M. Khan, and etc., “Level-5 Autonomous driving – are we there yet?”, https://www.researchgate.net/publication/358040996

【2】H. Liu, and S. Feng,“Curse of rarity for autonomous vehicles”, https://arxiv.org/ftp/arxiv/papers/2207/2207.02749.pdf

【3】Z. Wu and etc., “DST3D: DLA-Swin Transformer for Single-Stage Monocular 3D Object Detection”, https://ieeexplore.ieee.org/document/9827462

【4】W. Wang and etc., “Towards Data-Efficient Detection Transformers”, https://arxiv.org/abs/2203.09507

【5】S. Nageshrao and etc., “Robust AI Driving Strategy for Autonomous Vehicles”, https://arxiv.org/pdf/2207.07829.pdf

【6】M. Khan and etc., “Level-5 Autonomous driving – are we there yet?”, https://www.researchgate.net/publication/358040996

【7】D. Paek and etc., “K-Radar: 4D Radar Object Detection Dataset” https://arxiv.org/pdf/2206.08171.pdf

【8】R. Mao and etc., “perception Enabled Harmonious and Interconnected Self-Driving”, https://arxiv.org/pdf/2207.07609.pdf

【9】L. Fan and etc., “Fully Sparse 3D Object Detection”, https://arxiv.org/pdf/2207.10035.pdf

【10】Z. Hau and etc., “Using 3D Shadows to Detect Object Hiding Attacks on Autonomous Vehicle Perception”, https://arxiv.org/pdf/2204.13973.pdf

【11】Y. Zhang and etc., “Autonomous Driving in Adverse Weather Conditions: A Survey”, https://arxiv.org/pdf/2112.08936v1.pdf

【12】N. Li and etc., “Traffic Context Aware Data Augmentation for Rare Object Detection in Autonomous Driving”,https://arxiv.org/pdf/2205.00376.pdf

【13】G. Melotti and etc., “Reducing Overconfidence Predictions in Autonomous Driving Perception”, https://arxiv.org/pdf/2202.07825.pdf

【14】E. Levy and etc., “EyeDAS: Securing Perception of Autonomous Cars Against the Stereoblindness Syndrome”, https://arxiv.org/pdf/2205.06765.pdf

推荐阅读

[复盘] ADS 智库 Y22Q2 自动驾驶相关发布内容梳理

37 个 ADAS / ADS 功能及对应自动驾驶等级梳理

2022 年以来 130+ 中国自动驾驶相关企业融资事件

8家Top主机厂（18款重点车型）智能驾驶进程及ADAS/ADS功能梳理

一文总结自动驾驶中的激光雷达（LiDAR）

自动驾驶域控制器研究：AI芯片选型方案详解

自动驾驶相关知识星球『免费版』正式上线（2天300+人加入）

点击 ↑ 文字进入详情

欢迎“点赞 + 在看”

继续阅读

阅读原文