为什么VLA与世界模型都不是具身智能的终局？

NE时代智能体更新于: 2026-05-29 09:32:27

◎ 像素不是物理，语言无法触觉。

△ 撰文：DONG

“VLA和世界模型，两条路线都不会是终局，未来一定会有物理世界独有的模型出现。”蚂蚁灵波科技首席科学家沈宇军AIGC峰会对谈中表示，VLA和世界模型解决的是不同问题。

VLA依托多模态模型演进而来，侧重人机交互能力，相当于将成熟的多模态技术落地到真实物理场景中；

世界模型则由视频生成技术延伸至物理世界，核心优势体现在对未来状态的推演与预判上。

在沈宇军看来，现阶段VLA落地门槛更低、运行效率更突出，因此成为产业界的主流选择，研发与应用布局也更为广泛。

但他同时认为，一旦世界模型能够实现精准的未来预测，也会为机器人技术发展提供关键助力。

因此，沈宇军判断，当机器人场景的数据积累达到一定规模后，这两条技术路线必然走向深度融合。

这种融合并非简单把数字领域的模型照搬至物理场景，更有可能催生一类扎根物理世界的全新模型。

这类模型从底层设计阶段，就围绕物理环境的多维度感知模态打造，完全服务于机器人作业需求。

它或许不具备人机对话的能力，却能在实际任务执行中展现出更强的适配性与执行力。

01.

被误读的VLA ，“头重脚轻”的智能

要想看清具身智能的未来，必须先审视它是如何走到今天的。

从2020年GPT-3开启的预训练浪潮，到2022年InstructGPT通过监督微调（SFT）和强化学习（RLHF）实现与人类意图对齐，大语言模型（LLM）的成功让整个AI行业坚信一条真理：

深度学习的Scaling Law（规模定律）能够荡平一切系统性障碍。

正如大模型领域的先驱Ilya Sutskever所言：“如果你相信深度学习，那它也会相信你。”

在语言模型系统（LMS）逐步逼近其终局阶段的时刻，机器人学者们自然而然地选择“打不过就加入”，试图直接复制语言模型的成功策略。

这，便催生了VLA（视觉-语言-动作）模型的繁荣。

『VLA到LVA，参数量的结构性欺骗』

过去两三年里，以Pi和Google的Gr00t、RT-2等为代表的VLA模型几乎成为了具身智能的代名词。

从表面上看，VLA模型的逻辑十分清晰：它将视觉状态、语言指令和机器人动作统一建模，其核心公式可以表达为：

p(a | o, l)

即根据当前的视觉观测o和人类的语言指令l，直接生成机器人下一步需要执行的动作a。

这种设计让机器人破天荒地具备了理解开放词汇（Open-Vocabulary）指令的能力。

然而，Jim Fan在今年的演讲中尖锐地指出，当下的VLA模型本质上都是“LVA”（Language-Visual-Action）。

在架构设计上，研发人员通常会直接沿用一个功能强大的预训练VLM（视觉语言模型），然后在其上方“缝合”一个轻量化的动作头（Action Head）。

这就导致了一个致命的后果：模型中绝大部分的参数量都倾注在了语言处理上，语言成了高高在上的，而视觉和动作只能屈居其后、靠边站。

这种结构导致VLA模型表现出严重的“头重脚轻”症状。

它们非常擅长编码人类社会中的常识、概念和名词，但在面对基础的物理规律和具体的动词执行时，却常常遭遇惨烈翻车。

在RT-2的经典论文中，有一个广为人知的成功案例：机器人被要求“把可乐移动到泰勒·斯威夫特（Taylor Swift）的图片上”，尽管模型在训练中从未同时见过这两个实体，但由于其庞大的语言参数蕴含了丰富的互联网知识，它成功实现了泛化。

“但这并不是我们真正想要的具身预训练能力。”Jim Fan坦言。

一个能在一堆照片中准确认出泰勒·斯威夫特的机器人，在实际走向厨房去抓取一把稍微有些变形的汤匙、或者在药房分拣一袋松散的软包装药剂时，往往会因为无法精确控制力量和运动轨迹而彻底失败。

『互联网数据红利的“毒药”』

蚂蚁灵波的沈宇军博士从数据的维度，对VLA模型的这一先天缺陷进行了更深层的解构。

沈宇军认为，AI 2.0时代的突破（从ChatGPT的写作、画画到最近 Coding 能力的爆发）本质上是“踩中了互联网过去几十年积累的数据红利”。

互联网空间充斥着海量的文字、精美的图像以及连续的视频素材，这些高度标准化、数字化的数据恰好在算力大爆发的节点被完美利用。

Coding、对话这些领域，互联网已经搞得非常好了，现在的AI 2.0上半场更多是在享受前人栽树的红利。

然而，当智能试图从数字世界摆脱束缚、跨入物理世界时，数据红利戛然而止：

自动驾驶行业发展了将近十几年，伴随着车载传感器的升级，人类驾驶员在各种路况下的每一次转向、踩刹车的数据都被自动、完整地记录了下来，从而积累了属于自己的高带宽数据飞轮。

机器人行业目前正面临着一个巨大的数据空白。它既没有几十年的互联网图文积累，也没有自动驾驶那样积累了十年的标准化行为沉淀。

更核心的问题在于，大模型的成功很大程度上还得益于互联网数据的“标准化”。

但物理世界是五花八门、随机且充满噪声的。

VLA模型试图用文本token去强行对齐、规范高度连续且高维的物理控制信号，这种用数字世界的逻辑去“曲解”物理世界规律的方法，正是导致其在复杂交互场景下短板暴露无遗的根源。

『模态的缺失：视觉与语言无法触及的“力”』

从物理学的第一性原理来看，物理世界相比数字世界拥有两个无法逾越的独特优势，而这两点恰恰是VLA模型的盲区：

数字世界的多模态再怎么演进，也始终逃不开文本、图像、视频和声音的组合。

但真正的物理智能不仅需要听觉和视觉，更需要温度、触觉和本体感受。

沈宇军强调：“你能让一个纯粹的语言或多模态大模型感受到「力」吗？不太能。”在真实的物理操作中，智能的实现往往高度依赖这些感知模态的叠加。

在数字世界里，任务的损失函数（Loss Function）或奖励函数（Reward Function）是人类工程师主观定义的，模型给出的输出是否优秀，需要通过人类的指标去评判。

但在物理世界中，规律是大自然定义的。

例如，一个苹果只要松手就一定会落向地面，不需要任何人的程序去定义它。

这种来自大自然的绝对规律和真实反馈，是无法通过冰冷的文本Token或者离散的语言符号来完全替代的。

正因如此，VLA 模型的生命周期在2026年走到了分水岭。

行业逐渐清醒地意识到，仅仅依靠一个会读书、会说话的“大脑”，是无法在现实世界的复杂泥潭里操控好一个实体的。

02.

世界模型，画饼的“预言家”

当VLA模型的局限性成为行业共识后，“世界模型（World Model）”顺理成章地成为了承载全行业集体焦虑的下一个重磅范式。

作为卷积神经网络（CNN）的奠基人之一，杨立昆在Meta担任首席AI科学家期间，始终是行业内大语言模型至上共识的坚定反对者。

他多次在公开场合严厉批判LLM路线是实体智能领域的“死胡同”，因为LLM只能通过海量文本学习语言的表面模式，根本无法真正理解物理世界的因果逻辑。

2025年11月，杨立昆宣布即将离开Meta，并在同年12月迅速确认创办AMI Labs，其核心定位不言自明——All in世界模型，不做LLM。

『世界模型的核心第一性原理』

在杨立昆的思维坐标系中，世界模型与大语言模型有着本质的区别：

LLM是“读了海量书本后学会说话的AI”，而世界模型则是“在真实世界里跌打滚爬后学会行动的AI”。

大语言模型依赖低带宽的文本令牌进行训练，而世界模型则通过摄像头、传感器等渠道直接获取超高带宽的感官输入。其核心目标可以概括为以下公式：

p(o' | o, a)

即在给定的当前观测状态o和机器人预备做出的动作a的前提下，去准确预测未来世界的下一个状态o'。

这种预测未来状态的能力，正是自动驾驶、具身智能及机器人领域最渴望的核心底座。

杨立昆曾打过一个生动的比方：一个刚出生几个月的婴儿，能够轻而易举地理解物体的永久性、重力规则以及因果关系，而一个LLM即便喂入了几万亿个token，依然无法自发理解这些。

问题的关键不在于参数的多寡，而在于训练范式从根源上就存在偏差。

到了2026年，沿着世界模型这条赛道，行业内部迅速分化出了多流派。

『AMI Labs的LeWM』

2026年，伴随着AMI Labs创纪录的10.3亿美元融资落地，支撑杨立昆技术转向的核心学术成果——LeWorldModel（简称LeWM）正式亮相。

这篇由杨立昆联合米拉实验室（Mila）、纽约大学、三星的研究人员共同撰写的论文，展现了一种极具优雅美感的极简主义技术哲学。

在此之前，传统的联合嵌入预测架构（JEPA）类世界模型在产业化落地时，长期面临一个令人头疼的“表征坍塌（Representation Collapse）”难题。

简单来说，如果不对模型进行极其精细的调优，模型在面对纷繁复杂的物理世界输入时，就会倾向于偷懒——它会忽略世界的复杂细节，将截然不同的输入画面映射为完全相同的latent隐层表征，靠这种“投机取巧”的方式去强行降低预测损失。

为了防止坍塌，此前的PLDM模型不得不依赖极其复杂且脆弱的训练目标，甚至需要同时用到七种不同的损失函数；

而DINO-WM等模型则选择直接通过大规模冻结预训练编码器的方式来强行避免坍塌，这在本质上相当于将模型的“视觉能力”全盘外包给了外部的基础大模型。

LeWM打破了这一桎梏。

它是全球首个仅用两种损失函数就能从原始像素稳定实现端到端训练的JEPA世界模型：

第一个是标准的下一嵌入预测损失；

第二个是新型正则化项SIGReg（草图各向同性高斯正则化器）。

SIGReg的精妙之处在于，它通过数学手段强制隐层嵌入特征在分布上服从各向同性的高斯分布。

在不需要任何额外的启发式技巧或辅助监督的情况下，它极其高效地防止了表征坍塌，极大地提升了特征的多样性。在这套架构中，正则化权重λ成为了唯一需要人工调优的超参数，极大地简化了世界模型的训练流程。

从技术架构图来看，LeWM 将世界模型的结构精简到了本质，仅包含两个核心组件：编码器（Encoder）与预测器（Predictor）。

编码器负责将高带宽的画面压缩成一串精简的数字（Latent 特征），预测器则根据当前特征和预设的动作，在特征空间中直接预测下一刻的特征。

在实际测试中，由 Lucas Maes（Mila 博士生）、Quentin Le Lidec（纽约大学博士后）、Damien Scieur（三星研究员）和 Randall Balestriero（布朗大学助理教授）组成的黄金团队发现，LeWM 展现出了出色的物理常识感知能力。

它能够自动忽略诸如地毯纹理的无规则变化、灯光的随机闪烁等像素级噪声，精准聚焦于任务背后的因果物理规律。

在严苛的“预期违背（Violation of Expectation）”测试中，当画面中出现物体突然瞬移等违背经典物理规律的诡异事件时，LeWM 能够非常可靠地识别出异常。

在Push-T（推箱子）机器人基准测试中，LeWM取得了 96% 的控制成功率，超越了PLDM；

在Reacher（机械臂够目标）和OGBench-Cube（3D 机械臂抓方块）任务中，它的表现全面优于此前的端到端方法，与依赖庞大预训练权重的DINO-WM打成平手。

然而，强如LeWM也有其难以掩盖的短板。研究人员坦言，目前 LeWM 依然面临两大待突破的行业障碍：

一是在类似于Two-Room（2D 导航）这种极简、死板的环境中，如果输入的数据多样性过低，高斯正则化项（SIGReg）就会因为缺乏足够的方差刺激而无法有效发挥作用；

二是与目前市面上所有的纯世界模型一样，LeWM在进行特征空间预测时的规划时域（Planning Horizon）依然相对较短，无法应对长时程的连续任务。

『魔芯科技的“第三条路”』

杨立昆的AMI Labs深耕JEPA架构理论，李飞飞的World Labs坚定采用3D高斯（3D Gaussian Splatting）等显式三维几何路线，Google DeepMind 推出Genie 3实时交互模型……

在世界模型这个赛道，由一位浙江大学的00后在读博士生陈天润及其团队，带头杀出了世界模型的“第三条路”——纯隐式方法。

这种方法摒弃手工设计的先验规则，以纯数据驱动的方式堆叠模型能力，对数据的质与量要求极高。

这一技术路线的选择，源于团队在2024年底的一次意外发现。

师从中国工程院院士潘云鹤的陈天润，深受其“要把数据转化为视觉知识让 AI 去学习”理念的影响。

当时魔芯团队在研究3D AI建模时，测试某一网络结构时发现，去掉中间表示环节、直接进行端到端训练，惊奇地发现模型的空间重建效果反而出现了显著提升，且呈现出极强的数据伸缩性。

这让他们率先洞察并定义了空间智能的 Scaling Law（空间规模定律）：

当训练数据在视角覆盖率、时序跨度、场景多样性等维度持续扩展，且场景尺度、模型参数和算力需求同步增长时，模型对几何一致性、细节完备度及空间关系理解的能力会呈现可预测的提升。

基于此，魔芯科技推出了国内首个基于全国产算力基座（华为昇腾 910C）的数分钟级交互式视频世界模型——KOKONI-World。

该模型拥有14B的参数规模，比部分同行的世界模型大出了将近十倍。

为了在庞大的体量下解决推理速度与端侧部署的成本难题，魔芯团队设计了一套极具工程创造力的级联式知识蒸馏方案，将原本复杂的多步推理硬生生蒸馏为了少步推理，同时创造性地加入了相机感知记忆结构。

这确保了用户或机器人在虚拟场景中任意移动视角时，场景的几何结构和视觉细节绝对不坍塌。

目前，KOKONI-World已实现了2000帧（约两分钟）的超长连续动态预测1080P全高清实时交互输出以及6自由度（6-DoF）的精确相机控制，多项关键指标达到行业领先水平。

魔芯科技即将推出参数规模为现有版本两倍的新模型，核心改进在于提升输入分辨率，可处理更大尺寸图像，重建细节更丰富，预计在3D建模准确度和泛化能力上超越市面同类模型。

对于世界模型赛道的现状与未来，陈天润有着清醒的认知。

他认为，当前世界模型行业仍处于类似大语言模型BERT时代的能力爬坡期，距离真正的产品化爆发还需一到两年打磨，而且中美赛道存在明显差异：

美国投资人愿意为“通往AGI的门票”买单，国内则更保守，等待确定路径出现。

『高举高打的产业巨模派』

除此之外，以极佳视界和它石智航为代表的巨头流派，则在用最雄厚的资金和最大规模的场景进行高举高打。

极佳视界作为国内首个世界模型百亿独角兽，以世界模型为绝对中心，陆续发布了 GigaWorld-0、GigaWorld-Policy、GigaWorld-1 等行业开创性成果。

其自研的通用机器人Maker H01已经切入了汽车制造、3C电子、仓储物流以及家庭服务等多个高价值标杆场景，在2026年全年正在疯狂冲刺千台的真机交付量，试图通过大规模的商业落地来强行构建“场景-数据-模型”的闭环进化飞轮。

而它石智航则推出了通用具身大模型AWE3.0，号称是全球首个真正“能干活”的通用具身基模。

其硬件侧推出的轮式工业机器人A系列与双足通用机器人T系列，主攻亚毫米级精密装配操作。

在2026年3月的测试中，其A1机器人甚至在1小时内连续完成了百余次亚毫米级的柔性线束完整装配，创下了工业精密操作领域的首个吉尼斯世界纪录。

然而，无论这些流派在2026年将故事讲得多么动听，纯粹基于视觉输入的世界模型依然无法摆脱其底层的“致命硬伤”——像素并不等于真实的物理世界。

尽管像英伟达测试的Veo-3视频生成模型，能够在前向像素空间模拟中完美“脑补”出水面的折射、物体的浮力或者重力下坠。

但Jim Fan却在演讲中无情地拆穿了这种表面的繁荣，他将其称之为“物理垃圾（Physics Slop）”。

在Veo-3渲染出的高保真未来画面中，蕴含着一个投机取巧的底层逻辑：模型超聪明地发现，如果视角没有看向某个物体，那么该物体的显式几何结构在隐空间里其实是“可选的（Optional）”。

这意味着，视频世界模型所学到的物理规律，本质上只是一套“视觉上看起来合理”的统计学拟合，它根本没有真正约束真实物理世界中不可磨灭的质地、刚性、摩擦力与绝对空间位置。

一旦机器人需要处理严重遮挡、多材质形变或者接触极其密集的复杂任务时，纯视觉世界模型的预测就会瞬间漂移，导致动作执行发生灾难性的失败。

像素是虚幻的影子，实体才是冰冷的现实。

03.

新范式，WAM？

既然纯粹依靠指令输出动作的 VLA 已经走入了死胡同，而只管预测未来像素却不管现实动作控制的世界模型也无法单独支撑大局，那么，世界动作模型（World Action Models，简称 WAM）会不会是一个答案？

就像英伟达 Jim Fan 在红杉大会上所高呼的那样：VLA已死，WAM当立。

Jim Fan强调，机器人领域的新范式，核心是“抄LLM的作业”：

预训练模拟下一个世界状态，对应LLM的next token prediction；动作微调校准对真实机器人有价值的部分，对应supervised finetuning；最后由强化学习完成最后一里路。

英伟达推出的Dream Zero就是WAM的典型代表，它能先“梦”到未来几秒钟的世界状态，再据此做出动作，同时解码下一刻的世界状态和下一步动作，实现零样本（Zero-Shot）完成未见过的任务。

是不是听起来比较抽象？

就在最近，由复旦大学可信具身智能研究院、上海创智学院、新加坡国立大学联合发表的全球首篇 WAM 详细综述论文《World Action Models: The Next Frontier in Embodied AI》，为这个新兴领域画出了一张清晰、严密的“技术导航地图”。

我们再次回顾，同样是通过最核心的公式，直观地看清VLA、WM与WAM三者之间的进化脉络与底层差异：

WAM（世界动作模型）的公式为p(o', a | o, l) ，也就是在同一个模型内部，将未来状态的预测与具体的动作生成进行大一统的联合建模。

WAM绝不仅仅是给VLA模型挂上一个世界模型的“外部辅助外挂”，而是推进到了模型底层的结构融合：

它不再是被世界模型增强的策略，而是一个同时攻克“世界会如何变化”与“我应该如何行动”的终极基础模型。

论文中提到，世界动作模型（WAM）的设计思想彻底分化为两大阵营：级联式 WAM 与联合式 WAM。

级联式WAM采取务实的“两步走”解耦策略，将“脑补计划”与“动作执行”分离。它由世界模型先生成未来的预期计划，再由动作模型解码执行。

其中，显式生成路线通过高保真视频生成像素级计划，可解释性强但计算成本高且易引入误差；隐式生成路线则将计划压缩在隐空间（Latent Space）特征中直接指导行动，牺牲了可读性却换来了极低的推理延迟与极佳的实时部署潜力。

相比之下，联合式 WAM 则是追求极致端到端（End-to-End）的大一统架构，将“预测世界”与“生成动作”熔铸于同一个底层框架。

该阵营内部主要分为两大流派：

自回归路线将所有模态组织为 Token 序列，复用大语言模型的上下文与少样本能力，但存在生成慢和长序列误差累积（State Drift）的问题，其内部又衍生出显式解耦、统一离散和预测隐层三种特征处理方式；

扩散生成与流匹配路线则更受控制专家青睐，天然适配连续、多峰且平滑的物理动作控制。

在追求高频实时控制（100Hz以上）的工程落地中，扩散联合 WAM 进一步演化出了不同的架构策略。

单流融合策略让状态和动作在完全共享的底层中一起去噪，包含强调可解释性的“显式未来预测”和极度适配轻量化部署、推理时不显式生成表征的“隐式未来对齐”；

多流耦合策略则让视频与动作分支在独立网络中建模，通过“交叉注意力”或“隐状态单向传递”高频交换信息；

此外还有共享表征策略，让多模态信息融合为统一底层表示后，再由独立解码头分别输出未来状态与动作。

那么，WAM就是终局吗？

WAM 虽然把两者结合了，但目前的 WAM 很大程度上依然是从数字世界的既有模型、既有架构往物理世界去生搬硬套。

现有的 WAM 并没有从根本上解决“机器人需要从第一步开始就基于物理世界的多模态设计”这一灵魂拷问。

它依然高度依赖纯视觉的输入，在面对遮挡、高触觉依赖的接触密集型任务时，单凭扩散去噪或者Transformer自回归，依然是在像素的影子里摸索物理的实体。

就像Jim Fan说的，目前，Dream Zero 尚无法实现所有任务的百分百稳定执行。

但它的表现类似GPT-2，虽难以做到次次精准，却总能把握动作整体形态。

“而Dream Zero，也是我们落地机器人开放式任务与开放词汇提示能力的起点。”Jim Fan坦言。

04.

写在最后

无论技术架构进化得多么精妙复杂，在具身智能的宏大版图中，数据永远是高悬在所有人头顶的达摩克利斯之剑。

大模型的范式再怎么变，把数据这条路搞通、摸明白，才是最核心的门槛。

面对机器人行业数据极度短缺的残酷现实，全行业在2026年掀起了一场极其惨烈的数据突围战。

沈宇军表示：“不管技术路线如何演进，数据是逃不开的，我们要把机器人需要的数据研究明白，甚至推动制定标准。”

在他看来，当人人都能为机器人产生数据的时候，那就是具身智能的 ChatGPT 时刻。

Jim Fan也聊到了下一代数据策略，他预测，“未来一到两年，遥操的占比会降到几乎可以忽略不计，机器人的「主食」会变成第一视角人类视频，整个数据范式转向Sensorized Human Data（人类传感器数据）。”

那么，下一期，我们再聊聊数据。

点击查看全文

评论赞0分享

版权所有：	上海恩翌信息科技有限公司
联系人1：	NE时代-小恩
联系电话：	188-1775-0862
备案许可号：	沪ICP备17041240号-4

NE时代

为什么VLA与世界模型都不是具身智能的终局？

地瓜机器人联合谋先飞、影眸科技发布具身智能仿真训练方案

乐聚机器人与哈金森达成战略合作，共拓具身智能工业落地新路径

50.8亿元项目落地无锡！具身智能机器人创新中心开工！

超越 Vision Banana！商汤开源 SenseNova-Vision：视觉任务大统一，经典视觉并入大模型

兆易创新的具身智能打法：不是单颗MCU，而是全栈芯片协同

华为云与亿嘉和签约深入合作，加速具身智能商用化落地

上海嘉定携手它石智航，推动千台级工业具身智能机器人集群落地

上半年投了十几家公司，“小米系”资本押注具身智能的逻辑变了吗？

Demo之后：姚卯青谈具身智能的部署、数据与下一轮竞争

NE时代武慧：具身智能是汽车产业的新机会，但不是简单复制

NE专栏

NE活动

快讯

欢迎关注我们！