2025智驾VLA上车，元戎启行率先抢跑

NE时代新能源/张鑫阅读: 2946更新于: 2025-02-08 09:01:35

2025年智驾已成为主流配置，根据NE时代统计，全年搭载L2及以上的车型销量已经达到了55.7%。不仅如此，NOA更是得到了快速应用，全年高速+城区场景装机比例达到了12%。

与市场快速发展的还有技术方案。随着2022年特斯拉FSD V11更新的发布，BEV+Transformer取代CNN成为智驾技术发展的新方向。之后，随着2024年3月特斯拉推出V12，端到端接棒成为新趋势。

端到端打开了一个全新的赛道，算法在这个赛道中得到了快速的迭代。以特斯拉为例，在距离V12发布9个月后，便发布了最新的V13。

01.

端到端2.0-VLA

VLA是Vision-Language-Action Model的首字母缩写，即视觉语言动作模型。对比VLM（VisualLanguage Models），VLA模型不仅考虑环境建模，重点需要关注规划和控制问题。因此VLA模型可以一定程度上可以达到此前VLM+端到端组成的双系统智驾模型的表现能力。

VLA最早由DeepMind提出（RT-2），起初面向机器人领域的应用，通过输入给定的文本和视觉数据，输出机器人可执行的动作。DeepMind成立于2010年，2014年被谷歌收购后仍保持高度独立性，继续推进通用人工智能研究。

元戎启行CEO周光曾经通俗的解释过VLA和VLM两种技术的差异。VLM更像一个教练通过语言的方式指导驾驶员开车，无法直接干预，而VLA则是教练直接开车。因此VLA模型在推理方面的能力要远高于VLM+端到端组成的双系统。周光透露，基于规则可能只能推理未来1秒钟内即将发生的情况；现阶段的端到端能推理未来7秒钟可能发生的情况；而基于VLA模型的端到端的推理能力能够长达几十秒。推理时间越长，意味着在应对复杂、长尾场景时，表现更好，比如施工现场，潮汐车道、交通指挥手势等。

正因如此，VLA被认为是端到端2.0的主要技术形态。

图片来源：元戎启行

VLA目前还处于发展阶段，除DeepMind的RT-2外，还包括OpenVLA 模型、Waymo的EMMA、Wayve的LINGO-2、英伟达NaVILA等。

这其中，Waymo的EMMA和Wayve的LINGO-2主要面向的是车载领域，RT-2、OpenVLA和NaVILA则主要面向机器人领域。

图片来源：Waymo

此外，国内企业元戎启行宣布VLA是其下一代技术重点。

元戎启行VLA技术中输入包括两个编码器，分别为文本编码器和视觉编编码器。视觉编码器是对图像进行编码并提取高级特征、上下文。文本编码器，主要是用户与汽车的交互，解释下一步动作的原因。典型的便是路侧有行人，文本编码器会提示行人可能会横穿马路，提前做出减速动作。

输出是通过轨迹编码器生成规划路径，重点是告诉系统接下来的几十秒中车辆需要做什么，形势的方向以及速度等。这也是VLA的核心优势所在。

02.

VLA同样将应用于RoboTaxi

当前的L0-L5的自动驾驶等级标准是十年前提出的。标准主要有两个方面，一是自动驾驶场景的延伸拓展，二是无人驾驶情况下的责任划分，两者互有约束。如今随着AI技术发展的突飞猛进，场景方面已经取得较大突破。在2024年底，高阶智驾已经可以实现车位到车位的领航驾驶，但碍于责任方，驾驶员依然是第一责任人，等级也一直停留在了L2+的阶段。

周光认为，L4和RoboTaxi是两种完全不同的产品形态。L4是基于规则的技术实现，基于模块化、高精地图等手段实现有限区域的自动驾驶。

RoboTaxi则是基于AI模型、数据驱动的技术路线。而高精度地图一直存在高成本、难以保持鲜度的问题，因此在可扩展性和泛化性方面存在严重不足。而AI则非常容易能够解决场景泛化问题。

从这个方面来看，传统L4的技术路线存在很大的挑战，而以VLA代表的AI技术将成为RoboTaxi实现的新方向。并且由于AI技术的通用性，高阶智驾和RoboTaxi将实现一定程度的技术共用。元戎启行表示，未来其端到端技术也将会应用于RoboTaxi车型上。

03.

VLA技术的关键是模型本身

高阶智驾由于其技术壁垒，至今为止依旧只有少数玩家。除了整车企业自研外，第三方供应商仅有引望、momenta、元戎启行、小马智行等少数几家企业。

元戎启行量产车型，来源：元戎启行

而在VLA技术的进展方面，当前仅有元戎启行、理想汽车以及海外的Waymo和Wayve透露采用。这其中除了VLA模型提出时间较短之外，很大的一部分原因在于其模型参数较大，车端部署比较困难。以RT-2模型为例，其参数量高达50亿以上。作为对比，此前理想汽车透露，其VLM模型的参数量为22亿，不到RT-2的一半。此外，Waymo还透露，VLA的挑战还包括空间推理能力、可解释性和闭环仿真方面。

此前，元戎启行也表示，对于VLA模型的应用而言，当前的主要挑战还是在于模型本身，其对算力的要求也高于现有的智驾模型。这也是元戎启行选择英伟达Thor作为其芯片方案的核心原因。据透露，元戎启行是首批获得Thor芯片的企业，基于该芯片进行VLA模型开发，计划今年年中部署上车。数据使用方面，元戎启行更倾向采用真实数据，而非合成数据。一方面是因为真实数据中包括了大量的环境变化，另一方面元戎已经成功交付多款量产车型，在真实数据应用方面拥有了大量的积累。