JavaScript is required

英伟达机器人主管“锐评”VLA,大佬博弈世界模型路线

一边开源押注,一边公开存疑?

近日,英伟达机器人主管Jim Fan在社交媒体上发表了对具身智能机器人领域的年度“锐评”。

“当业界普遍为“氛围编程”(vibe coding)热潮感到兴奋之时,恰逢岁末年初的佳节节点,我想借此机会,分享对机器人这一尚处蛮荒探索阶段领域的些许思考与焦虑。”

图片

以下,便是Jim Fan在2025年深耕机器人领域所收获的三条核心经验与教训:

一、硬件发展超前于软件能力,可靠性制约迭代效率

当下,我们已然见证了Optimus、e-Atlas、Figure、Neo、G1等一系列具备精湛工程水准的机器人产品问世。即便如此,当前最先进的人工智能技术,仍未能充分释放这些前沿硬件的全部潜能——机器人本体的机能上限,显著高于其“大脑”的指令输出能力。

更为关键的是,维持这些机器人的稳定运行,往往需要一整支专业运维团队的支撑。

与人类不同,机器人不具备自我修复能力,过热、电机故障、各类非常规固件问题等故障场景,每日都在实践中反复出现。一旦故障发生,往往会造成不可逆的损失,且难以通过简单干预实现恢复。在这一过程中,唯一得以增长的,便是从业者的耐心。

二、机器人领域基准测试体系仍深陷混乱

在大模型领域,MMLU、SWE-Bench等基准测试已成为行业共识,成为衡量技术水平的通用标尺。

但这一成熟范式,尚无法直接迁移至机器人领域。从硬件平台的选型、任务目标的定义、评分标准的设定,到模拟器的搭建与真实场景的部署,整个行业尚未形成统一的规范与共识。

在此背景下,几乎所有从业者都宣称自身技术达到“最先进水平”(SOTA),但这一“最先进水平”的定义,往往是为适配每次技术发布而临时设定的基准。

更普遍的现象是,多数从业者会从数十次甚至上百次的尝试中,筛选出效果最优的演示样本(demo)用于对外发布。

展望2026年,机器人领域必须打破这一乱象,不再将可复现性与科学规范置于次要地位,推动行业朝着更严谨、更有序的方向发展。

三、基于VLM的VLA路线或非最优解

VLA(视觉-语言-动作模型)已成为当前机器人大脑方案的主流选择,其核心实现逻辑是:基于预训练的VLM(视觉-语言模型)检查点,接入动作生成模块。

但深入剖析后不难发现,这一技术路线存在先天局限。VLM模型在训练过程中,过度针对视觉问答等“爬坡式”基准测试进行优化,这直接导致了两个核心问题:

其一,VLM模型中的大部分参数,主要服务于语言理解与知识处理任务,而非适配物理世界的交互需求;

其二,为适配问答任务对高级语义理解的需求,视觉编码器被主动调校为舍弃低级视觉细节——但对于机器人灵巧操作而言,这些细微的视觉细节恰恰是决定任务成败的关键。

基于这一逻辑,VLA的性能提升,并不具备随VLM参数规模增加而同步提升的合理性,核心症结在于预训练目标与机器人的实际需求存在根本性错配。相较之下,视频世界模型更符合机器人策略学习的预训练目标,这一判断已成为我深耕领域后的坚定认知。

针对此番“锐评”,也有网友表示质疑。

一网友认为,若视频世界模型是更优的预训练目标,为何Helix、GR00T N1及π0等模型仍以VLM(视觉语言模型)为骨干网络进行构建,并成功交付实际成果?与此同时,世界模型方法为何主要应用于策略评估与合成数据生成场景,而非直接用于运动控制任务的执行?此外,关于“硬件瓶颈限制迭代速度”的观点,似乎同样适用于各类预训练方案——除非机器人数据缺口这一核心问题得到解决。

Jim Fan回答道,上述提及的Helix、GR00T N1及π0均为2025年推出的模型,对于更贴合视频世界模型预训练目标的技术方案,可期待2026年下一代大型模型的表现。

01.

英伟达:物理AI战略下的智驾VLA布局

Jim Fan的锐评精准戳中了当前机器人领域的核心争议与痛点,尤其是关于VLA技术路线的优劣之争,成为行业关注的焦点。

值得注意的是,就在业界围绕这一争议展开讨论之际,英伟达近日开源最新自动驾驶VLA模型Alpamayo-R1,这一动作不仅是全球首个面向智能驾驶的开源VLA模型发布,也是其汽车事业部负责人吴新宙入职后的首份智驾领域答卷。

图片

更核心的是,这也印证了黄仁勋此前提及的英伟达在物理AI赛道的战略布局:在计算基础设施之外,打造链接AI与物理世界的底层“安卓”生态,覆盖机器人、自动驾驶等核心场景。

从行业影响来看,此次开源意味着AI巨头英伟达正式加入VLA技术路线,为VLA阵营注入重量级力量。

此次开源内容包含VLA架构及100TB数据集(覆盖美国、欧盟多国道路数据,不含中国数据),向全球开发者开放了其相关技术方法论。

但需明确的是,英伟达尚未实现VLA技术的商业化落地,此次开源更多是技术思路的示范,并非可直接应用的成熟VLA方案,开源架构的商业化价值仍有限。

技术层面,Alpamayo-R1虽归属VLA模型范畴,但与业内主流的“端到端+大语言模型外挂”VLA存在本质区别,其核心是原生多模态模型,基座源于英伟达年初CES发布的Cosmos基础世界模型中的Cosmos Reason。

作为链接AI与物理世界的“中间层”,Cosmos本质是“通才”型世界模型,为千行百业提供基础物理AI“安卓”模板,而Alpamayo-R1正是Cosmos AI推理模型的扩展,核心能力在于通过思维链推理理解视频数据。

具体来看,Alpamayo-R1的预训练依托Chain of Causation“因果链”(CoC)数据集展开,其基座模型Cosmos的训练则采用扩散模型与自回归模型两种方法:前者包含“文本到世界生成预训练”“频到世界生成预训练”,后者涵盖“下一个token生成”“文本条件的视频到世界生成”。

这一技术路径也契合黄仁勋多次强调的物理AI核心逻辑——构建AI与物理世界的“中间层”,让缺乏强AI算法能力的企业与个人,也能借助强大基座模型和工具打造专属产品。

总的来看,Alpamayo-R1的开源并非单纯的技术输出,而是英伟达物理AI战略在智能驾驶领域的具体落地,标志着其在计算基础设施之外,进一步向自动驾驶等物理AI场景的底层生态延伸,试图构建覆盖千行百业的物理AI基础体系。

然而,这与前文Jim Fan提及的机器人领域“基于VLM的VLA路线或非最优解”的观点有所出入。

02.

宇树王兴兴:VLA是相对“傻瓜式”的架构

一边是英伟达智驾押注VLA的实践探索,一边是Jim Fan对该路线的存疑。而在这场争议中,宇树科技创始人、首席执行官兼首席技术官王兴兴和Jim Fan的观点高度一致。

在2025世界机器人大会主论坛上,王兴兴发表主旨演讲,抛出核心论断:当前智能体机器人整机硬件已能满足需求,行业最关键的挑战并非数据而是模型问题,机器人大模型的临界点或将在未来3-5年到来。

图片

王兴兴指出,现阶段人形机器人硬件、灵巧手整机等核心硬件虽未达到完美成熟的状态,但已能适配当前发展阶段的使用需求。

未来硬件领域的核心发展方向将集中于三个维度:一是持续完善硬件细节设计,提升产品体验;二是着力降低制造成本,为规模化应用铺路;三是增强设备的使用寿命与运行可靠性,夯实商业化基础。

在王兴兴看来,机器人大模型是当前及未来限制智能体机器人(尤其是人形机器人)大规模应用的最大阻碍。在9月 的2025 外滩大会上,王兴兴再次强调,现有的硬件(甚至一两年前的硬件)足够用,核心问题是AI模型能力不足,无法充分利用硬件(比如难用好灵巧手,数据采集及实现灵巧动作具挑战性)。

从发展进度来看,当前机器人大模型的发展阶段类似ChatGPT发布前1-3年的状态——业界已明确大致的技术方向与路线,但尚未有成熟的落地成果。

他明确了机器人大模型“ChatGPT时刻”的临界点标志:机器人能在完全陌生的环境中精准听懂指令并流畅完成任务。具体场景包括比如在全新会场中完成“向指定观众传递水瓶”,或在陌生房间内按指令整理环境等。

王兴兴预判,这一临界点最快1-2年可实现,慢则需要3-5年。

针对行业普遍关注的数据问题,王兴兴提出不同看法:当前全球对数据的关注度偏高,反而忽视了更核心的模型问题,这也是机器人尚未达到上述临界点的关键原因。

王兴兴认为,数据存在采集、质量、类型、规模无标准的问题,现在还处于比较模糊的阶段;需提高数据利用率,让模型本身对数据的理解能力更强,可识别高价值数据,比如说语言模型需特征性的数据而非单纯看量。

对于当前热门的具身智能模型——VLA模型,王兴兴持怀疑态度。他认为该模型实用性存在明显局限,属于相对“傻瓜式架构”,在与真实世界交互时存在数据质量不足的问题;即便叠加RL(强化学习)技术,其架构仍需进一步升级优化。

与之相对,王兴兴认为“世界模型”是更值得关注的技术路线,甚至可能比VLA模型更快落地。

世界模型被视为迈向通用人工智能(AGI)的重要阶梯,核心价值在于通过学习环境的时空动态,实现对未来状态的预测及自身行动后果的评估。

以谷歌DeepMind发布的第三代通用世界模型Genie 3为例,其可为机器人等智能体提供低成本虚拟训练环境,支持复杂任务的长时程模拟。

此外,王兴兴还指出,当前机器人存在“学习新技能需从头训练、无法复用旧知识”的痛点,亟需实现类似大模型的持续学习能力。

“如今多模态的融合不太理想,尽管单纯的语言或多模态模型表现优异。”王兴兴补充道,但在机器人领域,用语言或图像、视频生成内容来控制机器人仍存在重大挑战。

王兴兴总结了未来2-5年智能机器人技术的三大发展重心:其一,构建统一的端到端智能机器人大模型,突破核心技术瓶颈;其二,攻坚更低成本、更高寿命的硬件产品,并实现超大批量制造,推进规模化落地;其三,搭建低成本、大规模的算力体系,尤其要发力分布式算力领域。

03.

写在最后

“VLA就是自动驾驶最好的模型方案。”理想自动驾驶负责人朗咸朋表达了与王兴兴、Jim Fan 看法不一致的观点,他强调具身智能最终拼的是整体的系统能力。

朗咸朋解释,理想的VLA本质是生成式模型,区别于生成文本Token的传统生成式模型,其生成的是轨迹与控制信号。从用户反馈来看,该VLA在部分场景下已呈现出对物理世界的认知涌现,具体体现为拟人化行为表现优异。

针对世界模型与VLA的对比,朗咸朋指出,世界模型更适合扮演“考场”角色——用于仿真环境构建与强化训练,而非作为“考生”直接部署于车端。

核心原因在于世界模型的算力需求远高于VLA,这决定了其更适配云端场景,可用于数据生成、高逼真度仿真测试及强化训练。他同时透露,理想汽车已在云端应用世界模型,规模达数E flops级别。

另外,真实数据被朗咸朋视为理想研发VLA的核心底气。目前理想已构建起由数百万辆车组成的闭环数据体系,为VLA的落地实现与持续优化提供了关键支撑。

图片

关于VLA的未来应用,朗咸朋透露,该技术不仅将服务于当前的理想汽车,还将延伸至未来的汽车类具身机器人领域。不过,两者是否会采用同一套技术架构,他并未给出明确答案。

可以预见的是,Jim Fan的锐评与行业内的实践探索相互印证,清晰揭示了当前具身智能机器人领域的核心矛盾与发展瓶颈。硬件的相对成熟与软件的滞后性、技术路线的分歧与基准体系的缺失,共同构成了行业前进路上的主要障碍。

未来数年内,随着世界模型等新兴技术路线的探索深入、统一基准体系的逐步构建以及端到端机器人大模型的持续突破,具身智能机器人领域或将迎来从蛮荒探索到有序发展的关键转折。

至于VLA是“最优解”还是“过渡品”?这场关乎技术路线选择与行业生态构建的探索,不仅将决定相关企业的竞争格局,更将深刻影响人工智能与物理世界交互的最终形态。

点击查看全文
评论赞0分享
轨迹
人形机器人英伟达VLA

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4