“未来的竞争只会更激烈,领先的公司可能都会选择闭源路线,这是必须要认清的现实。”
中国自动驾驶行业的端到端模型竞速又有新动向。

3 月 17 日和 3 月 20 日,元戎启行 CEO 周光先后参加中国电动汽车百人会论坛和英伟达 GTC,宣布两项公司的端到端模型进展:
  • 搭载元戎启行端到端自动驾驶方案的量产车型,今年就会投入市场。据了解,元戎启行已经谈下至少 4 款量产车型。
  • 元戎启行与英伟达达成合作,其端到端模型将会第一时间适配英伟达明年量产的下一代自动驾驶芯片 Thor。
周光在 GTC 上介绍元戎启行自动驾驶端到端方案。
自动驾驶领域的 “端到端” 是指:只用一个模型,就能把摄像头等传感器收集到的感知信息变成车辆方向盘怎么转、油门踩多少等操作信号,让汽车自动行驶。
这之前,自动驾驶的更常见实现方法是模块化方案,把感知、预测、规划分为三个独立模块,其中感知部分使用数据驱动的深度学习模型方法较多,规划部分则需要较多使用传统编程方法写明确定的规则。
“用海量数据训练出来的一个端到端模型,可以让机器拥有自主学习、思考和分析的能力,高效处理道路上各种场景。” 周光认为,端到端模型将会吸引更多车主使用自动驾驶功能。
进入 2024 年,随着特斯拉在北美推送基于端到端的自动驾驶系统 FSD v12,小鹏、理想、蔚来等中国车企跟着加大端到端模型研发力度,试图尽快上车,增加产品竞争力。
在周光看来,端到端模型不只是让汽车拥有效果更好的新版自动驾驶系统,因为汽车就是一种特殊的机器人,端到端模型也会是未来空间更大的通用机器人的基础,是 AI 2.0 时代的驱动力之一:“在端到端模型的基础上,有可能做出一套物理世界通用的人工智能系统。”
“端到端是自然而然的选择”
现在主流的模块化自动驾驶方案,优点是技术较为成熟,开发起来的确定性更强。但这种技术架构下,自动驾驶车辆在扩大使用区域、适应不同地区的道路和环境时会遇到阻碍:尤其是在规控环节,需要依赖工程师编写大量代码去制定行驶规则,以应对极端案例(corner case)。单靠数据训练出来的各个模块,它很难处理没碰到过的情况。
这会挑战自动驾驶系统的安全性。“每一个坑都需要用规则去填,但万一没填到,一个坑可能就是一次事故。” 一位 AI 从业者说。
编写大量规则也带来了极大的开发和维护成本。据了解,为了迅速扩大量产车上自动驾驶系统覆盖范围,华为的规控团队招募了上千名工程师。
“基于规则,必然会有一些情况处理不了,量产车有十万台、百万台,行驶的区域不同、道路不同,很难靠规则覆盖所有区域。” 周光说。
过去这些年,自动驾驶方案中的模块在持续变少:
  • 2017 年前,开发自动驾驶系统需要 9 个模型,仅感知环节就要有 3 个,分别负责检测、目标跟踪和融合数据。
  • 2017 年,自动驾驶方案模型减少到 7 个,3 个感知模块变成 1 个多传感器融合模块。
  • 2022 年,自动驾驶方案的模型减少到 3 个,分别负责感知、预测和控制。
自动驾驶方案中的模块变得越来越少。
端到端模型是这一趋势的完成形态:只用一个模型就能完成自动驾驶任务。
在周光看来,如果相信数据驱动是大趋势,“端到端模型是一个自然而然的选择”。元戎启行从 2023 年初开始投入资源研发端到端模型,当年 8 月完成道路测试。
这次测试让他们看到了端到端模型的潜力。“基于规则的传统模型,核心指标是安全,然后才考虑乘客的舒适。而对其他道路参与者的感受并不在意。” 周光印象最深的例子是,一次测试端到端模型时,车辆要直行,但停在右转、直行车共用的车道上,堵住了后方要右转的车,模型发现前方还有路,就控制车往前开了一点,让后面右转的车先走,“就像一个老司机。”
但端到端模型 “下限很低”,如果训练不好,在安全、舒适等指标上,效果可能还比不上传统模型。这意味着,开发一款合格的端到端模型需要投入更多资源。
周光认为,由于端到端模型入局门槛高,未来几年,不同自动驾驶公司间的差距将会变得更大。
端到端模型竞争,比拼的是系统能力
想做好端到端自动驾驶模型,需要一套系统化能力,其中每个环节都有新挑战。
获得海量的行车数据,是训练端到端自动驾驶模型的入场券。特斯拉 CEO 埃隆·马斯克(Elon Musk)去年在财报会上谈到了数据对自动驾驶模型的重要性:“用 100 万个视频 case 训练,勉强够用;200 万个,稍好一些;300 万个,就会感到 Wow;到了 1000 万个,就变得难以置信了。”
并不是所有的行车数据都可以用来训练端到端模型。一位自动驾驶工程师说,他们训练端到端模型时发现,原本积累的路测数据只有 2% 可以用。想让端到端模型具备通用能力,必须用不同场景中的高质量数据训练模型。
周光告诉《晚点 LatePost》,元戎启行从合作车企那里获得脱敏数据时,会优先筛选出驾龄超过 6 年、3 年内没违章的司机在不同复杂路段的行车数据,采集他们方向盘的转角和速率,踩踏板的开度和速率,配合当时的行车环境训练模型。他说,元戎启行最大的优势是处理数据的能力,这是他们过去多年坚持开发数据驱动的量产自动驾驶模型积累下来的。
为了给模型打好基础,元戎启行把 80~90% 的精力放在数据工程上,包括但不限于采集、清洗、分类和标注高质量数据。
元戎启行测试自动驾驶端到端方案。
把海量的数据变成端到端模型,还需要大量算力。马斯克近期在财报会上说,为了训练更强的 FSD 模型,今年要花 10 亿美元采购英伟达、AMD 的芯片,组建超算中心。
周光说,元戎启行也为训练端到端模型采购了一批 GPU 搭建数据中心,训练模型时如果需要大量 GPU ,会去租赁云计算资源。在他看来,仅有算力也是不够的,而是怎么在训练过程中,尽可能利用好海量数据,做出来符合预期的模型。
模型训练出来后,并不能直接用到车上。因为用大量的数据训练出来的模型,参数会比较大,只有车上有高算力芯片才能带得动。但目前在售产品中,单芯片算力最高的自动驾驶芯片是英伟达 Orin,算力在 254 TOPS。而且车端自动驾驶芯片间带宽较小,很难并联使用以增加整体性能。
前不久马斯克在一场活动上说,FSD v12 的难点就在于,需要在有限的算力条件下进行优化、精简模型,要解决的问题又复杂了一个数量级。
周光称,他们精简后的模型端到端模型可以在 Orin 芯片上运行,如果用算力更强的芯片,比如单颗芯片算力达到 1000 TOPS 的 Thor,端到端模型的效果还会更好。他认为,作为第一批能把端到端模型与 Thor 芯片适配的公司,元戎启行会在这波浪潮中具备更多优势。
下一个赛点:机器人领域的 Scaling Laws
体会到端到端模型的效果后,周光重新审视了公司的发展路径。他认为,端到端模型的潜力,远不止让汽车实现无人驾驶,继续迭代下去,可能会做出物理世界的通用人工智能。
2023 年,元戎启行经历了成立 4 年来的战略调整:短期目标是,推动端到端模型上量产车,积累数据;长期目标是,找到一条通往物理世界通用人工智能的路线,实现 AGI in Robot。
虽然自动驾驶端到端模型也是用海量数据训练更大模型,实现更好效果。但与 GPT-4 这类大语言模型不同的是,训练机器人模型需要的不是规则简单的文字数据,而是从物理世界采集大量复杂的 “临界态数据”,即物体运动时,受物理世界影响,发生变化时的数据,如汽车在拥挤道路上行驶时,需要时不时调整速度和方向,这些运动行为会被采集下来构成一组数据。
当前大语言模型扩展时依赖的 “Scaling  Laws”(比例定律)可能无法直接迁移到机器人大模型中。
OpenAI 研究者在 2020 年提出的 Scaling Laws,让研究者可以用少量数据训练小模型,较为准确地预测,随着大语言模型数据量、参数和训练所用算力的增长,模型性能会达到什么程度,解决大语言模型规模扩展的难题。
因为 Scaling Laws,大语言模型领域逐步形成共识:用更多 AI 算力和数据,训练参数规模更大的模型,效果会更好,甚至可以“涌现”出智能。
“在自动驾驶,或者说机器人场景,因为训练数据类型不同,单纯用更多高质量数据训练更大的模型,可能会遇到瓶颈,效果可能不会变好,甚至还会下降。” 周光说,机器人领域需要在模型架构上创新,找到它自己的 “Scaling  Laws”,才能让模型效果有质的提升。
周光说,找到机器人领域的 Scaling Laws,就是元戎启行接下来几年的重点研究方向,这是实现公司长远目标,即 AGI in Robot 的关键。
到目前为止,还没有哪家公司提出了自动驾驶端到端模型,或者机器人领域的 Scaling Laws。
“特斯拉或许会有,但不一定会对外说。” 周光认为,AI 2.0 时代的竞争会更激烈,领先公司可能都会选择闭源路线,这是必须认清的现实。
题图来源:元戎启行
·  FIN  ·
继续阅读
阅读原文