纯视觉+端到端，虚晃一枪？

2022年10月，特斯拉开始在北美、中东、欧洲等部分市场取消在售Model 3和Model Y两款车型的超声波传感器，再加上此前已经取消的毫米波雷达，正式在全球开启纯视觉高阶智驾“Tesla Vision”。

今年初，特斯拉的FSD Beta 12.3.2在美国实现OTA升级，正式释放基于纯视觉的Autopark自动泊车功能，并且该公司计划在下个月正式发布基于纯视觉的高阶泊车-智能召唤功能。

这被视为特斯拉迈向真正全场景（高低速行泊）纯视觉智驾时代的关键一步，也为整个汽车智驾行业树立了新的追赶目标。

在这背后，还有从2022年开始启用的全新端到端感知决策框架。包括，基于占用网络和车道检测的感知增强，以及由此延伸的决策规划算法重构，首次去除人工规则实现决策规划的代码。

而在硬件层面，真正纯视觉架构的好处，也有自身显而易见的优势。

比如，合并来自同一种传感器的数据比不同类型的传感器更有效和简化。对于后者，算法层面还需要匹配异构输入，以便系统能够实现交叉验证。

原因是，不同类型的传感器，由于物理形态的差异导致输入数据的不同，甚至可能带来“冲突”，这对于关键安全系统来说是潜在风险。

比如，去年理想L9曾被曝出存在部分场景感知的幽灵现象（误报），而官方给出的解释是：激光雷达和视觉摄像头融合感知，受限于当前市场上传感器识别能力的局限性，车辆在某些场景下会出现显示异常。

而从成本角度来看，去除毫米波雷达和超声波传感器，至少可以降低两三百美元的成本。同时，视觉技术的迭代升级，还进一步降低了对激光雷达的需求，这又是一笔大几百美元的潜在成本。

尽管此前特斯拉已经开始在尝试导入4D成像雷达，不过，对于L3级以下的高速、城区NOA来说，由于驾驶员仍是第一责任人，这显然并非刚需。

当然，纯视觉+端到端的背后，还有一个核心的要素：大量的实际道路数据采集+高效的后端数据训练。前者需要车企销售足够多的标配感知硬件车型，后者则是投入巨额资金构建超算中心（当然也可以借助第三方服务）。

在业内大部分人看来，如果真正实现端到端，可以大幅提升数据的利用规模和效率，解决效率低且泛化性差（尤其是城区NOA）的痛点。

同时，端到端可以进一步优化实时高精地图生成模型，而后者是几乎没有车企在寻求高阶智驾降本道路上都不可回避的成本问题。

而在中国市场，特斯拉的追随者不少。不过，到目前为止，真正实现纯视觉+端到端方案落地的，几乎没有。

以最早布局全栈智驾自研的小鹏为例，2022年首次发布BEV+Transformer技术框架的XNET架构，去年该系统升级为XNet2.0，做到了动态BEV、静态BEV和占用网络三网合一。

在今年初的一次对外活动上，小鹏汽车曾对外透露，最快今年底之前实现端到端大模型全面上车。此外，今年该公司的目标还要实现自动驾驶的BOM成本下降超50%。

不过，对于控制与规划，此前，原小鹏自动驾驶VP吴新宙曾透露，“端到端的控制，我们肯定不会上大模型。但，规划会开始用，但也是作为原有模型的增量部分。”

此外，在传感器配置上，实现真正的纯视觉，似乎还有难度。此前，小鹏为2024年制定的智驾目标是，“全场景、轻地图、轻雷达”。原因是，“依靠纯视觉方案还是比较困难的，”何小鹏直言。

而作为目前国内具备L4级自动驾驶最大车队规模、数据积累（超过7000万公里的Robotaxi采集的原始数据）的百度Apollo，也寻求在极越01突破技术量产的制高点。

极越表述，这套“BEV+OCC+Transformer”的纯视觉高阶智驾系统，在对障碍物的识别上，可以做到比肩甚至超越激光雷达的精度。

不过，这套所谓的纯视觉方案，在车端依然还是在11V（摄像头）基础上搭载了5颗毫米波雷达以及12颗超声波雷达。

而在昨天，随着小米首款车型的上市，在发布会上，雷军也喊出了纯视觉方案。“全系标配智能辅助驾驶，上市即交付高速NOA。”

不过，从实际传感器配置上，依然搭载了毫米波雷达。此外，自研全球首个可量产端到端大模型，目前也只是实现5cm精度的极窄库位泊入和23km/h巡航的代客泊车。

此外，小米自研的自适应变焦BEV技术、「超分辨率」占用网络技术等加持之下，雷军喊出的「全国都能用的城市领航」，2024年目标也仅仅是覆盖全国主要城市。

而之所以到目前为止，除特斯拉之外的其他车企都不愿意放弃融合感知或者说备份冗余，原因也很明确，谁都无法保证100%安全。

“激光雷达最重要的是城市场景下各种障碍物的识别能力，因为那些障碍物是各种各样的，甚至是不可枚举的，视觉解决有难度，”吴新宙表示。

不过，从目前车企的智驾配置来看，除极个别采取全系统一硬件配置（大部分30万元以上车型），一旦进入20万元区间，差别化减配已经是大趋势。

以小米SU7为例，Polit Pro和Max，除了算力芯片降级，前者还少了两个后向角雷达，一个激光雷达。「对于从不打价格战，上来直接卖成本价」的小米来说，显然也无法迈过「智驾陷阱」。

从目前来看，高速NOA配置大概率会趋向于单颗前向雷达，继续减配两颗后向角雷达。实际上，去年车企降本压力持续放大，已经让曾经的5R配置减配为3R。

高工智能汽车研究院监测数据显示，2023年中国市场（不含进出口）乘用车前装标配毫米波雷达（不含舱内）2217.93万颗，同比仅增长23.54%，相比于上年同期增速下滑近8个百分点。

而在激光雷达部分，目前几乎肯定的是，并不是高速NOA的刚需。这意味着，从基础L2到L2+的进化，激光雷达几乎没有任何市场红利。

因为，从技术开发层面来说，还存在不确定性。此前，极氪智能驾驶负责人陈奇向媒体透露，“不采用激光雷达的方案，天花板也未必很低，这要看如何去做——做得好，天花板一样可以很高。”

按照陈奇的介绍，目前，关于激光雷达版和无激光雷达的纯视觉版本，极氪的两套方案都在同步开发。而目前，智驾堆叠的成本，也是车企最大的心病之一。

高工智能汽车研究院监测数据显示，2024年1-2月，中国市场（不含进出口）乘用车前装标配激光雷达新车交付量同比增长124.65%，但由于基数增加，增速显然已经大幅放缓。

此外，在月度环比增速方面，在去年第四季度出现大幅度拉升后，今年前两个月已经出现下滑迹象。除了终端车市销量影响，差异化高低配也是关键因素。

而随着纯视觉+端到端的技术进入快速迭代期、以及新车价格战延续，不排除现有的硬件尤其是传感器架构配置会出现重大变化。

继续阅读