过去,机器人领域通常把模型能力拆成几类:VLM 负责理解图像和语言,VLA 负责把视觉、语言指令转化为动作,世界模型则负责预测环境接下来可能发生什么。它们分别对应理解、行动和预测,再通过不同模块连接起来。
但英伟达近两年的技术路线,正在模糊这几类模型之间的边界。
从第一代 Cosmos 世界基础模型,到 Cosmos Policy、DreamGen、DreamZero,再到最新的 Cosmos 3,英伟达试图推动世界模型从“生成训练数据的工具”,进一步延伸到机器人策略学习、未来状态预测和动作规划之中。
这并不意味着世界模型已经在短期内取代 VLA,也不意味着机器人已经获得了通用智能。更准确地说,英伟达正在探索一条新的机器人基础模型路线,让模型不只是根据眼前画面输出下一步动作,还要理解当前状态、预测动作后果,并在多个可能的未来中选择更接近目标的路径。
这也是世界模型、VLA 和机器人策略开始走向统一框架的原因。
01.
从“生成世界”到“辅助机器人行动”
2025 年初,英伟达发布第一代 Cosmos 世界基础模型时,首先解决的是 Physical AI 的数据问题。
机器人和自动驾驶系统需要大量包含物体运动、空间变化和物理交互的视频数据,但真实数据采集成本很高,危险场景、长尾事件和复杂交互场景尤其稀缺。Cosmos 可以根据文字、图像和视频生成新的物理世界视频,再用于训练感知模型和机器人策略。
在这一阶段,Cosmos 更像一座数据工厂。
它的核心作用,是通过生成具有物理一致性的合成视频,扩大机器人和自动驾驶模型的训练数据来源。相比单纯收集真实数据,这种方式可以更灵活地构造边缘场景、稀有场景和任务变化条件。
随后,英伟达继续补充世界模型的两类能力。
一类是推理能力。Cosmos Reason 开始面向空间关系、动作过程和物理常识进行理解,使模型不只是生成一段“看起来合理”的视频,而是能够对场景中的物体关系、运动趋势和任务目标进行判断。
另一类是可控生成能力。Cosmos Transfer 利用深度、分割、边缘和高清地图等条件控制生成过程,使生成结果更接近特定任务要求,而不是随机生成开放式视频。
这意味着,世界模型的角色开始发生变化。它不再只是生成素材,而是逐渐成为一种可控的训练环境和任务模拟工具。
这条路线首先在 DreamGen 上得到体现。
DreamGen 使用视频世界模型生成机器人执行新任务的视频,再将这些视频转化为策略训练数据。模型可以改变背景、物体、任务条件和动作过程,从而扩大真实示范数据覆盖不到的范围。
在这里,世界模型生成的不再只是视觉素材,而是能够影响机器人能力边界的训练轨迹。它帮助机器人模型看到更多任务变化,进而提高策略泛化能力。
但这仍然没有解决一个更核心的问题:机器人能不能在行动时直接利用世界模型?
多数直接动作预测式 VLA,通常根据摄像头画面和自然语言指令,输出关节、末端执行器或移动控制指令。经过足够多机器人示范数据训练后,一个模型可以完成抓取、摆放、整理等多种任务。
这类模型的优势在于动作预测直接、部署路径相对清晰。但它们也存在一个问题:模型更擅长学习“看到什么之后应该做什么”,却不一定显式预测“做完之后世界会变成什么”。
在简单任务中,这种差异并不明显。
例如,桌上有一个杯子,指令要求机器人拿起来。只要训练数据足够,VLA 可以直接输出抓取动作。模型未必需要明确预测杯子被抓起后的状态,也可以完成任务。
但在复杂任务中,机器人必须考虑动作后果。
移动障碍物是否会碰倒旁边的物体?
抓住柔性材料的一端后,另一端会如何变化?
抽屉被卡住时,是继续用力,还是调整方向?
执行多步任务时,前一个动作是否破坏了后续操作条件?
如果模型只是学习图像到动作的映射,它容易复制训练数据中最常见的反应,却未必真正掌握环境变化规律。面对新物体、新位置、新接触关系和意外中断,策略可能迅速失效。
世界模型提供了另一种思路:机器人在行动之前,先预测一种或多种未来状态,再根据预测结果选择动作。
这也是英伟达看重视频世界模型的原因。
机器人操作数据昂贵且分散,而互联网视频包含大量人类与物体交互的信息。视频模型虽然无法直接获得精确的机器人控制信号,却可以学习物体运动、接触变化、遮挡关系和动作过程。
当然,这种学习不能直接替代机器人示范数据。人类动作、视频运动和机器人关节控制之间仍然存在巨大差异,模型还需要通过逆动力学、跨本体适配和少量目标机器人数据,把视频中的交互规律转化为机器人可执行的动作。
但方向已经很清楚:VLA 主要从机器人示范中学习动作,世界模型则可以先从海量视频中学习世界如何变化。英伟达希望把这两类能力连接起来。
02.
Cosmos Policy:让世界模型参与策略规划AI
Cosmos Policy 开始把这种设想转化为机器人策略。
它的关键不是重新设计一套独立的动作生成架构,而是把机器人动作、未来画面和任务价值编码进视频模型能够处理的潜在序列中。经过机器人示范数据后训练后,Cosmos-Predict2 可以同时输出三类结果:动作、未来状态图像和价值预测。
动作告诉机器人下一步怎么做;
未来画面显示动作可能带来的环境变化;
价值预测则判断这条轨迹完成任务的可能性。
这使机器人不只是被动输出一个动作,而是可以生成多条候选轨迹,再选择预期结果更好的一条。
在这个框架中,世界模型不再只是位于策略训练外围的数据生成工具,而是开始参与测试时规划和动作选择。
这一步的意义很重要。
过去,世界模型常常被用于离线生成训练数据,帮助策略模型扩充样本。Cosmos Policy 则进一步把未来预测、动作生成和任务评估放进同一个后训练框架中,使视频模型具备了向机器人策略模型转化的可能。
不过,这仍然需要注意边界。
Cosmos Policy 代表的是一种研究路线和实验系统,并不意味着世界模型已经大规模进入真实机器人商业系统。它证明的是,视频世界模型可以被后训练为具备动作输出能力的策略模型,并在一定任务范围内参与规划与评估。
这与“已经实现通用机器人控制”不是一回事。
03.
DreamZero:从离线生成走向闭环控制
DreamZero 又向前走了一步。
它将这类模型称为世界行动模型,也就是 WAM。模型联合生成未来视频和机器人动作,并根据机器人执行后的新画面持续更新决策。
换句话说,DreamZero 不是只在训练阶段生成视频,而是尝试让视频世界模型进入机器人控制循环:模型观察当前画面,生成未来状态和动作;机器人执行动作后,模型再根据新的观察重新规划。
论文显示,在特定实验设置和系统优化条件下,一个 140 亿参数的视频扩散模型可以以 7Hz 进行闭环控制。DreamZero 还尝试利用人类视频和其他机器人视频改善新任务表现,并通过少量目标机器人数据完成跨本体适配。
这说明大型视频模型不再只能离线生成视频,也开始被用于机器人实时决策实验。
但这里同样不能过度解读。
7Hz 闭环控制已经是重要进展,但它距离大量真实机器人任务所需的高频、稳定、安全控制仍有差距。灵巧手操作、动态平衡、碰撞响应和精密装配,通常需要更高的控制频率和更可靠的底层控制器。
因此,DreamZero 的价值更像是证明了一件事:视频世界模型有可能从“看世界、生成世界”,进一步走向“预测世界并作用于世界”。
它打开了方向,但还不是终点。
04.
Cosmos 3 究竟统一了什么?
Cosmos 3 是英伟达这条路线的集中体现。
它并不是简单把语言、图像、视频、音频和动作五种模态放进同一个模型,而是在统一架构下,让模型同时服务于世界理解、世界生成、未来预测和动作推理。
从公开资料看,Cosmos 3 采用 MoT(Mixture-of-Transformers) 架构,由两个互补的 Transformer tower 组成。
一部分偏向自回归建模,负责处理离散 token 和语义推理任务,可以理解文字、图像和视频中的对象关系、运动过程和任务意图。它回答的是:当前发生了什么?接下来可能发生什么?任务目标是什么?
另一部分偏向扩散式连续多模态生成,负责生成图像、视频、音频和动作等连续模态。它以世界表征为条件,生成符合任务要求的未来状态或动作序列。
这与传统 VLA 存在明显差异。
传统 VLA 通常将视觉和语言特征直接映射为动作,核心目标是提高动作预测准确率。Cosmos 3 则试图在输出动作之前,增加对世界状态和未来变化的建模:模型既要判断机器人应该做什么,也要预测执行动作后可能出现的结果。
英伟达目前公布了不同规模的 Cosmos 3 版本。Cosmos 3 Nano 拥有 160 亿参数,更接近机器人推理、工作站部署和边缘侧实验需求;Cosmos 3 Super 拥有 640 亿参数,更适合高质量世界生成、物理推理和数据中心场景。
两种版本对应世界模型的不同定位:一类追求更轻量的推理和策略实验,另一类追求更强的世界模拟和数据生成能力。
更关键的是,Cosmos 3 支持动作后训练。
按照英伟达开发者资料的划分,动作后训练大致可以分为三种模式。
第一种是正向动力学 (Forward Dynamics):输入当前观察和机器人动作,预测动作执行后的未来状态。它回答的是“这个动作会带来什么结果”。
第二种是逆向动力学(Inverse Dynamics):输入动作前后的观察,反推机器人采取了什么动作。它回答的是“这个结果可能由什么动作产生”。这种模式为从人类视频或其他机器人视频中提取动作信息提供了可能。
第三种是联合视频与动作预测 (Policy / Joint video-action prediction):根据当前观察和任务指令,同时生成未来画面与动作序列。它回答的是“为了达到目标,机器人应该执行什么动作”。
这三种模式分别对应动作后果预测、动作原因推断和目标导向动作生成。英伟达试图让它们共享同一套世界表征,使物理预测和动作学习相互增强。
Cosmos 3 加入音频,可以将 48kHz 的原始立体声音频编码为每秒 25 个 Token,当然也不只是为了扩大多模态概念。
从机器人应用角度看,电机声、碰撞声、摩擦声和环境声音,都可能成为视觉之外的重要状态信息。当物体被机械臂遮挡时,音频可能帮助判断接触是否发生;当设备发出异常声音时,音频也可能提供故障或风险信号。
这说明机器人基础模型正在从单纯“看见世界”,走向更接近真实物理系统的多感知融合。
在评估方面,英伟达推出 HUE 框架,将生成视频拆解成可验证的是非问题,从语义一致性、物理规律、几何推理和视觉完整性等维度进行检查。
这意味着,世界模型的评价标准也在变化。
过去,视频生成模型更多追求画面是否逼真;而面向机器人和自动驾驶时,更重要的问题变成:生成的视频是否符合物理规律?预测的未来是否满足任务约束?模型是否理解空间关系和接触变化?
因此,Cosmos 3 的专业意义不只是支持更多模态,而是试图用一个统一模型家族,把理解世界、生成世界、预测世界和作用于世界连接起来。
05.
世界模型不会取代VLA
Cosmos 3 展示了一条清晰路线,但这并不意味着世界模型会在短期内取代 VLA。
首先是计算成本。
视频生成需要同时处理时间和空间信息,推理负担远高于直接输出动作的 VLA。DreamZero 实现 7Hz 闭环控制已经是重要进展,但大量机器人任务仍需要更高频率、更低延迟和更稳定的控制能力。
对灵巧手、移动机器人和高动态任务来说,控制系统必须快速响应接触、碰撞、姿态变化和外部扰动。单靠大型视频生成模型,目前还难以承担全部控制任务。
其次,生成合理视频不等于掌握真实物理规律。
视频模型可以生成视觉上合理的未来画面,但物体形变、摩擦、遮挡、接触力和材料特性仍可能出现错误。对于机器人来说,预测错误不是简单的画面瑕疵,而可能直接导致抓取失败、碰撞或安全风险。
如果模型根据错误的未来进行规划,想得越多,偏差反而可能越大。
第三是长时稳定性。
生成几秒钟的未来,与完成几分钟的多步骤任务,不是同一件事。机器人执行复杂任务时,每一步都会改变环境,预测误差会不断积累。模型必须根据真实执行结果持续校正,而不能只依赖初始预测。
因此,更现实的方案可能是快慢系统结合。
轻量 VLA、传统控制器或专用策略模型,负责高频、确定性的底层动作;世界模型负责低频规划、异常判断、未来评估和任务级决策。
另一种方向,则是像 Cosmos Policy 和 DreamZero 那样,直接把视频世界模型后训练为 WAM,在一个模型内完成未来预测和动作生成。但即便如此,底层控制、安全约束和实时反馈系统仍然不可或缺。
所以,VLA 不会突然消失。更可能的趋势是,VLA 逐渐吸收世界模型的预测、规划和评估能力,世界模型也逐渐向机器人动作生成延伸。二者之间的界限会越来越模糊。
这也符合英伟达的平台布局。
Cosmos 提供世界知识、合成数据和未来模拟;GR00T 面向通用机器人策略;Isaac 负责仿真、训练和评估;Thor 则承担机器人端侧计算。
当 Cosmos 具备动作生成与未来预测能力后,英伟达的 Physical AI 平台链路就变得更加清晰:从数据生成、仿真训练、策略评估,到实体机器人部署,形成一套相互支撑的开发体系。
它争夺的不只是某个机器人模型的领先,而是机器人开发的技术入口。
不过,Cosmos 3 距离通用机器人智能还有很远。
它能否持续预测真实物理过程,能否在有限算力下实时运行,能否在陌生环境中保持安全,能否跨越不同机器人本体稳定迁移,都需要更多实体机器人实验验证。
当前论文结果也不能直接等同于大规模商业落地。
但英伟达的演进路线已经明确:第一代 Cosmos 负责生成世界,DreamGen 把生成结果转化为训练数据,Cosmos Policy 开始同时预测未来与动作,DreamZero 尝试进入闭环控制,Cosmos 3 则进一步把理解、模拟和行动推向统一模型框架。
05.
写在最后
过去,机器人模型竞争的核心是动作的执行完成度。
谁能收集更多高质量机器人示范数据,谁就可能训练出能力更强的 VLA。模型的主要任务,是根据当前视觉输入和语言指令,预测下一步应该执行什么动作。
世界模型加入后,问题开始改变。
机器人不仅要根据眼前画面输出动作,还要理解动作会怎样改变环境,并在多个可能的未来中选择更接近目标的一条路径。
这正是英伟达推动世界模型、VLA 和机器人策略走向统一框架的原因:理解世界、预测世界和作用于世界,本来就是一个连续过程。
如果 Cosmos 3 代表的路线能够成立,未来的机器人基础模型或许不再被严格划分为 VLM、VLA 和世界模型。它会同时理解当前状态、模拟未来变化,并生成相应动作。
届时,机器人模型的竞争也将从“谁能更准确地输出下一步动作”,转向“谁能更准确地预见动作之后的世界,并把这种预见转化为可靠行动”。



沪公网安备31010702008139