JavaScript is required

VLA不会死,但世界模型才是未来?

图片

◎ 世界模型与VLA,非黑即白?

现在的机器人有了一个聪明的“大脑”,但这个大脑完全缺乏对真实物理世界常识、因果和基本物理规律的理解。

大模型在经历了文本、视觉和多模态的狂飙之后,要想真正从虚拟的数字世界走向真实的物理世界,就必须跨过这道坎。

在刚刚落幕的2026北京智源大会上,这场关于人工智能下一代基座的讨论被彻底摆到了台面上。

大家都在试图回答几个问题:世界模型究竟该怎么做,它又将如何指挥机器人的身体?世界模型和VLA,真的非黑即白吗?

01.

“世界模型”,到底该长什么样?

既然所有资源都在往世界模型倾斜,那这到底是个什么技术?

有意思的是,目前的行业其实挺撕裂的,大家都在喊世界模型,但底子里的技术路线千差万别,远没有到收敛的阶段。

“VLA不会死,但世界模型才是未来。”智源研究院院长王仲远表示,眼下全球围绕世界模型的探索,基本被撕扯成了四条截然不同的分岔路:

第一条是以语言为中心的路子(比如各种VLM、VLA或者类似Gemini的方案)。

这类模型在文本空间里去预测下一个词,它确实能感知多模态数据,通过语言去思考并做决策。

但问题在于,它学到的依然是“语言描述出来的世界”,它并不能真正理解动作背后的物理后果。

第二条是以像素为中心的路子。这就不得不提Sora或者Seedance这类视频生成模型了。

现在很多人喜欢把视频生成直接等同于世界模型,王仲远对此非常不认同。

他觉得这类模型在视觉空间里学习图像,学到的只是“像素描述的世界”。它们可以生成看起来很逼真的视频,但根本不懂物理因果。

比如,视频生成模型可能会生出一群在天上违背重力乱飞的猪,但在真实物理世界中这根本不可能发生。

如果给机器人装上这种大脑,它可能会误以为自己是钢铁侠,这在现实操作中是极其危险的。

第三条线是以三维结构为中心。包括各种3D重建技术以及李飞飞团队World Labs搞出的Marble模型。

这条路瞄准的更多是元宇宙、游戏等数字虚拟世界的仿真。但重建一个3D空间并不等于理解了世界,物体的几何结构也代表不了它的物理状态。

第四条则是以视觉表征为中心。最具代表性的就是前Meta首席AI科学家杨立昆(Yann LeCun)力推的JEPA系列模型。

这种路线主张预测视觉表征的压缩,但视觉嵌入的演化,同样不完全等同于物理规律的演化。

图片

面对这四条路,智源研究院自己选择的是一条融合的“第五条路”——以“预测下一物理状态”为核心,在统一的「潜空间表征」(Latent Space)中去学习世界知识。

你可以把这个潜空间理解成给机器人大脑准备的一张“万能草稿纸”。

不管机器人是看到了视频画面,还是听到了文字指令,甚至是感受到了力觉触觉,所有这些全模态的数据都会被压缩进这个隐空间里,变成一种只有AI懂的标准化状态。

等需要输出的时候,再由不同的解码器,按需还原成语言、视觉画面或者具体的物理动作。

王仲远认为,语言模型时代的核心是预测下一个词,而世界模型必须跃迁到预测下一个物理状态。

它不仅要有物理正确性(符合光学、重力、流体规律),要有长时间序列的一致性(镜头移开再移回来,模型得知道时间已经流逝了),还得懂动作的因果溯源(明白没盖盖子的水杯掉下去会怎样),最后还得具备极强的通用泛化能力。

图片

而在星源智团队看来,尽管当前具身智能世界模型演进出了不同的技术分支,但它们最终都在试图解答同一个命题。

在他们看来,目前行业内主要形成了三条各具特色的技术路径:

第一条路径以未来生成增强策略学习为核心。这类方法通过生成未来视频或状态序列,为模型预训练、联合训练与策略蒸馏提供额外监督信号,进而提升策略的学习效率与跨场景泛化能力。

Motus、DreamZero、LingBot-VA、Fast-WAM 等研究均属于这一技术脉络,不同方案的差异主要在于推理阶段是否生成高清晰度的未来表征,可根据实际部署的推理效率、策略成功率要求灵活权衡。

第二条路径聚焦隐空间的未来表征学习。与显式生成未来画面的思路不同,这类方法将预测过程置于隐空间中完成,通过学习未来状态的嵌入向量,构建对环境动态更敏感、物理一致性更强的表征能力。

VLA-JEPA、DINO-World、WoG、BeingH0.7 等代表性工作均验证,未来预测的价值远不止于内容生成,更能帮助模型掌握世界运行的底层逻辑,从根源上强化决策基础能力。

第三条路径围绕轨迹推演、仿真模拟与数据引擎展开。这类路线将世界模型定位为数据生产与环境模拟平台,依托可控轨迹生成、大规模仿真与数据闭环机制持续迭代模型能力。

其中 World-Env、Ctrl-World、PlayWorld 等工作侧重可控轨迹推演与环境仿真能力,GigaWorld-0 则进一步向数据引擎形态演进,为具身智能搭建规模化的数据供给体系。

多元的技术探索共同推高了世界模型的能力边界,但星源智团队指出,当前研究体系仍存在一处尚未被充分挖掘的关键缺口:世界模型与策略模型在单次决策流程中的实时交互机制。

针对这一问题,星源智团队提出了交互式动作反馈(Interactive Action Feedback)框架。

该框架打破了策略模型直接输出最终动作的传统模式:策略模型首先输出行动预案,世界模型即时推演该方案对应的潜在结果,并将反馈信息回传至动作生成模块,在同一次决策循环内完成动作的修正与优化。

这一机制补上了具身世界模型落地真实控制场景的关键交互链路,形成了 “候选动作→动作条件化世界模型推演结果→修正后动作” 的完整闭环。

借助这种实时交互模式,世界模型不再局限于训练阶段的辅助工具,而是进化为深度参与实时决策的 “思考伙伴”,让机器人能够在执行动作前预判后果、动态调整策略,最终实现更高质量、更稳定可靠的决策表现。

02.

智源研究院,从“悟道”到“悟界”

自2018年成立以来,智源研究院先后发布了“悟道”系列大模型和“悟界”系列大模型,从2021年让AI“学会语言” 的悟道系列,到2024年让AI“懂世界” 的悟界系列,构建了自底向上的全栈大模型开源技术体系。

无论是在大模型发展的早期,还是在物理 AI 的全新时期,智源研究院始终在引领人工智能大模型的前沿研究探索。

在2026年的智源大会上,智源交出的核心答卷是悟界・Physis-v0.1与悟界・RoboBrain Orca双引擎架构。

作为全球首个通用世界基座模型,悟界・Physis-v0.1 跳出了传统 AI 面向垂类场景定制开发的技术路径,以 “下一物理状态预测” 为底层核心范式。

图片

凭借独创的技术架构,模型采用物理隐空间表征方案替代传统的像素级、帧级预测模式,实现了跨场景的通用物理规律强化学习。

其搭载的专属物理状态编码器,可对视频、深度RGB、3D点云、力触反馈等全模态信息进行压缩处理,统一转化为标准化的隐空间物理状态。

目前该模型已支持50余种复杂物理场景的长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心特质,从底层提升 AI 物理推理的真实性与可靠性,可广泛落地于工业生产、具身智能、物理仿真、科学研究等各类真实物理场景。

正在研发的悟界・RoboBrain Orca是一款以下一物理状态预测为核心的具身大脑,它构建了 “统一表征-建模-预测-交互” 的完整技术闭环。

图片

将AI的预测逻辑从传统的下一Token、下一帧、下一动作预测,升级为下一物理状态预测,突破了传统AI仅能理解文本信息的局限,推动AI从文本理解阶段,迈向对物理世界的感知、预测与交互阶段。

该模型融合了大量第一视角交互数据,强化世界模型的具身表征能力,有效提升下游任务的少样本适配效果与跨场景泛化能力。

凭借统一表征、因果推演、模态解码三大核心能力,悟界・RoboBrain Orca可同步生成语言思考、视觉预测与动作决策,实现 “想、看、动” 三位一体,赋予具身智能机器人打通 “认知-预测-行动” 完整链路的能力,支撑机器人在物流、酒店服务等真实环境中开展长期自主作业。

智源的野心不止于机器人。在这个“物理基座”之上,智源还衍生出了一系列极具穿透力的智能体和垂直模型矩阵:

在医疗与脑科学方面,智源联合清华推出的悟界·Brainμ1.0,是全球首个多模态神经科学大模型。

图片

它能将跨物种、全模态的脑信号统一编码为标准Token,解决数据孤岛问题,其支撑的研究成果甚至登上了Science。

在新药研发方面,悟界·OpenComplex2.5重点攻克了固有无序蛋白(IDP)动态构象解析的难题。

图片

它精准覆盖了药物研发的四个关键步骤:从靶点蛋白中定位可成药口袋的“口袋识别”,到为化合物寻找潜在靶点的“反向筛选”,再到高精度复合物的“结构预测”,最后是泛化至不同化学空间的“亲和力预测”。

在智能体矩阵方面, 智源推出包括能达到顶尖心血管医生诊断水平的心脏磁共振辅助诊断智能体(BAAI Cardiac Agent),致力于让AI自主搞科研的AREX智能体,能实现高私密、长期记忆留存的个人专属数字专家SoulAgent,甚至还有首次打通干湿实验闭环、能主动模拟绕过生物安全筛查以获取有害蛋白基因序列的风险发现智能体。

图片

当然,所有这些上层建筑,都离不开底层算力的统一调度。智源与开源社区共建的FlagOS 2.1智算系统软件栈,堪称当前的“适配之王”。

它支持18家芯片厂商的32款芯片(涵盖NVIDIA、NPU、RISC-V等架构),拥有超600个算子,支持90%以上主流开源大模型(如DeepSeek V4、Qwen3.6等)的“发布即多芯适配”。

通过其统一AI编译器、自动算子生成工具以及FlagCX通信库,智源正在打造一个普适、高效、智能的底座。

03.

星源智ω-EVA,把后果“想清楚”再动手

在理解了世界模型的底层逻辑后,接下来的核心问题就是:这套东西到底怎么在机器人身上跑起来?

本届大会上,由智源研究院重点孵化的明星企业“星源智”,给出了一个非常具象的答案。

他们用一块被随机打乱的华容道棋盘,展示了具身世界模型进入机器人行动决策的真实状态。

华容道对人类来说是逻辑推理,对机器人来说则是一连串的连续决策:每动一步,局面就会变,也会影响后面的路能不能走通。

机器人不能光看“现在是什么样”,还得想“如果我这么推,接下来会发生什么”。

为了解决这个问题,星源智联合创始人、智源研究院具身交互世界模型研究中心负责人 孙振国在现场发布了全球首个具身交互世界模型——ω-EVA。

图片

EVA这个名字很有深意,它代表了Envision(预演)、Verify(验证)、Act(行动)。这其实是一种“以终为始”的动作生成方式:

机器人在真正动手之前,先在潜空间里把动作可能造成的后果“脑补”出来(预演),然后看看这个后果会不会导致碰撞、失衡或者任务失败(验证),最后再根据这个后果反馈,修正自己的动作并真正执行(行动)。

这套逻辑是怎么来的?孙振国分享了团队之前的两个项目线索。

一个是做心脏超声导航的Cardiac Copilot项目。

他们发现,有经验的医生拿着超声探头,绝对不是瞎比划,而是脑子里早就预判了“如果探头这么转,接下来屏幕上会出现什么切面”。

图片

于是团队做了一个能预测探头移动后果的模型,结果发现导航误差大幅降低。

另一条线索是双臂灵巧操作项目DECO,他们发现触觉、视觉等信息不能简单拼接,必须结构化地参与决策,哪怕触觉模块参数很小,也能带来巨大的性能提升。

图片

把这两点结合起来,就有了现在的ω-EVA。

它最大的技术突破在于,它并没有把世界模型当成一个单纯的“未来画面生成器”,而是让世界模型成为了策略模型(Policy)在单次决策里的“思考伙伴”。

图片

ω-EVA 总体架构图

在具体的训练中,ω-EVA走了一个严密的三阶段闭环:

第一阶段,先训练一个能在给定动作下预测未来特征的潜在世界模型,让它知道哪些区域(比如机械臂末端、被操作物体)是跟物理动力学相关的。

第二阶段,在这个基础上,训练一个生成初始候选动作(Action Proposal)的生成器。

第三阶段才是最核心的。系统把生成的候选动作扔回给世界模型,让世界模型想象出后果。

然后,一个交互修正模块(Refiner)会同时拿着“当前状态”、“想象的后果”和“原始候选动作”这三样东西,直接重写出一个修正后的完整动作片段。

图片

ω-EVA 模型结构细节图

这里的精妙之处在于,这一切全是在紧凑的隐空间特征层完成的,根本不需要去生成什么像素级的预测视频。这就让这套复杂的“预演-修正”机制能够以极低的成本在端侧跑起来。

星源智团队在Libero、Libero-Plus和RoboTwin 2.0等仿真基准上做了测试,结果相当惊人。

在仅仅1.2B参数规模、甚至没用额外机器人数据预训练的情况下,ω-EVA在Libero上拿到了98.6%的平均成功率。

图片

消融实验更是证明,如果抽掉“想象的未来”或者“原始动作提案”,模型表现就会立刻下滑。

这说明,真正起作用的不是参数堆叠,而是这种“当前状态、候选动作、想象后果”三方交互的闭环机制。

04.

世界模型的另一个死穴:数据从哪来?

星源智解决的是“模型怎么和动作交互”的问题,而大会上发言的另一家公司“智在无界”(BeingBeyond),则把焦点对准了世界模型的另一个死穴:数据从哪来?

图片

所有人都知道,大语言模型能有今天,靠的是几乎把全互联网的文本都吃了一遍。但到了物理世界,高质量的交互数据少得可怜,全是一个个孤岛。

智在无界的创始人、北京大学计算机学院长聘副教授卢宗青在论坛上分享了他们的破局思路。

成立不到一年,这支团队就已经跑通了以“大规模人类视频数据”来训练通用具身模型的路径。

从最早依赖真机采集数据,到后来的UMI(通用操作接口)数据,再到现在的海量第一人称人类视频,数据规模的爆发正在推动模型能力的跃迁。

智在无界相继发布了基于一千小时、一万小时,一直到二十万小时人类视频预训练的具身模型Being-H系列。

其中,Being-H0.7在多项权威评测里拿下了综合排名第一。它同样采用了Latent World Action Model架构,在隐空间里联合建模。

图片

而且,这个模型不仅仅停留在理论上,它已经实现了在英伟达以及国产芯片上的全面适配,在百TOPS级别的端侧算力平台上,硬是跑出了接近20FPS的实时效果。

图片

卢宗青提到,下一代通用具身基础模型的训练密码,就是“大规模人类视频+多模态序列建模”。

他特别强调了触觉等模态的重要性,对于很多精细的物理操作来说,光靠看是不够的,必须要有触觉反馈的接入。

这其实也呼应了前文提到的,要想从“只能在见过的地方干活”变成“在没见过的场景里也能干各种活”,模型的泛化能力必须依赖这种系统性的数据与模态突破。

05.

世界模型和VLA,真的非黑即白吗?

那么,世界模型是不是马上就能迎来它的“ChatGPT时刻”?

王仲远给出的答案是冷静的。他认为,现在的世界模型和具身智能,大概就处在深度学习2012年左右的阶段。

路线没有完全收敛,Benchmark(基准测试)还在互相打架,真实物理世界的高质量数据更是极度匮乏。

即便仿真数据能顶一部分缺口,但人类构造的仿真环境精准度有限,完全靠它能不能训出真正懂物理的模型,还需要打个问号。

“我们期待未来世界模型能成为真正的机器人大脑,但这会是一个长期过程,可能需要三年甚至更长时间。”王仲远表示。

但在短期内,行业并不会停摆。具身智能会选择一条“沿途下蛋”的路径:先去特定的工厂里分拣打包,去酒店里送外卖。

在这些具体的B端场景里把商业闭环跑通,同时在这个过程中源源不断地积累真实的人类指令、动作轨迹和环境反馈数据。

这些在车间和走廊里流淌的数据,最终反哺的,正是那个庞大而复杂的下一代世界基座模型。

在本次智源大会上,智平方创始人兼CEO郭彦东则提出了另外一个观点:世界模型与VLA并非对立竞争关系,而是天然统一的整体,世界模型是VLA体系的核心组成部分。

图片

郭彦东指出,当前行业普遍讨论的世界模型,本质上并非由物理规律驱动推演,而是依托海量数据训练形成的统计认知。

他也对VLA给出了新的定义:VLA是多模态融合、大数据驱动的端到端模型架构的统称。

在这一定义框架下,世界模型与VLA不存在本质差异,更不存在相互替代的关系。

在这套逻辑中,二者有着清晰的能力分工与强互补性:世界模型专注于对物理环境进行带时间维度的稠密4D预测,是性能优异的空间基础模型,承担VLA体系中空间感知的核心职能;完整的VLA体系则负责最终对物理世界输出动作指令。

二者深度融合是完成复杂具身任务的必要前提:语言模型擅长长程的任务逻辑推理与步骤规划,比如泡茶、制作咖啡的工序先后判断;世界模型则擅长短程的物理动态预测,比如物体靠近桌边的掉落风险。

只有将二者整合,机器人才能同时具备长程任务拆解能力与短程实时环境预判能力。

除了能力层面的互补,世界模型还能为VLA的训练提供数据侧的支撑。

针对真实场景中边缘案例采集难度高、覆盖不全的痛点,可以通过世界模型生成真实环境中难以采集的corner case数据,补足真实采集的场景盲区。

比如日常采集的杯子交互数据多集中在桌面中央,桌边掉落这类极端场景样本不足,就可以通过世界模型生成对应样本,优化VLA的泛化能力。

基于这一技术判断,智平方早已布局世界模型与VLA的融合研究,技术路线持续迭代:

从早期的端到端VLA技术,到2025年联合北京大学推出融合4D世界模型的Video2Act架构,性能达到行业领先水平,入选国际权威综述的代表性成果;

图片

再到近期发布的全球首个 “皮层-小脑-脊髓” 三级类脑架构NeuroVLA,成为目前唯一同时具备主动感知、故障自恢复与时序记忆三大类生物运动能力的具身智能系统。

具体来看,这套三级类脑架构各司其职:皮层负责语义理解与高层任务规划,小脑负责高频运动协调与动态修正,脊髓则承担毫秒级的运动执行与安全反射。

图片

这套分层设计让机器人首次拥有了类似生物系统的层级智能能力,从底层架构层面提升了机器人在真实物理环境中的运行稳定性、实时响应性与能效水平。

实验数据显示,NeuroVLA 可将机器人运动抖动降低 75% 以上,碰撞发生后 20 毫秒内即可完成反射响应,同时系统功耗也得到显著下降。

因此,在这一思路下,NeuroVLA 解决的早已不是单一模型的优化问题,而是机器人大脑的底层架构设计问题。

简单来说,世界模型负责理解世界,而VLA负责作用于世界。

06.

写在最后

当机器人的硬件组件正在快速标准化、差异不断收窄的今天,真正决定谁能在物理世界中立足的,已经不再是机械的躯壳。

尽管当前具身智能的技术路线尚未完全收敛,且面临高质量真实数据短缺的挑战。

但是,当前行业也在一边打磨底层基座的技术能力,一边在工业分拣、服务机器人等具象场景中积累真实数据、跑通商业闭环。

这场通往物理AGI的硬仗,才刚刚开始。

点击查看全文
评论赞0分享
轨迹
AI模型VLA世界模型

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4