杨立昆的世界模型构想迎来「轻量化引擎」。
前不久,图灵奖得主杨立昆(Yann LeCun)创办的AMI Labs(先进机器智能实验室)正式宣布完成10.3亿美元种子轮融资,估值达35亿美元,创下欧洲史上最大种子轮融资纪录。
这场备受瞩目的融资背后,是产业界对杨立昆所倡导的“世界模型”路线的重磅押注,而就在融资落地后不久,支撑这一技术转向的核心学术成果——LeWorldModel(简称LeWM)正式亮相,为世界模型的产业化落地提供了坚实的技术支撑。
01.
All in 世界模型
作为卷积神经网络(CNN)的奠基人之一,杨立昆在Meta担任首席AI科学家的12年间,始终是行业内“唯大语言模型(LLM)至上”共识的坚定反对者。
他多次公开表态,LLM仅能通过海量文本学习语言模式,无法真正理解物理世界的因果逻辑,是实体智能领域的“死胡同”。
2025年11月,杨立昆宣布即将离开Meta,同年12月便确认创办AMI Labs,定位明确——押注世界模型,不做LLM,由他担任执行董事长,CEO则是从法国健康科技公司Nabla挖来的Alexandre LeBrun。
此次融资远超预期,最初计划融资5亿欧元、估值30亿欧元,最终吸引了英伟达、贝索斯家族投资机构、新加坡淡马锡等顶级资本,以及万维网之父Tim Berners-Lee、前谷歌CEO Eric Schmidt等重量级个人投资者。
其中,英伟达作为LLM浪潮的最大受益者,其参与投资也印证了物理世界AI的巨大市场潜力。
杨立昆对世界模型的执着,源于其对通用人工智能的深刻认知:世界模型与LLM的核心区别在于,LLM是“读了海量书本后学会说话的AI”,而世界模型是“在真实世界里跌打滚爬后学会行动的AI”。
前者依赖低带宽文本令牌训练,后者则通过摄像头、传感器等获取高带宽感官输入,核心目标是预测“如果做出某个动作,世界会发生怎样的变化”,这种能力正是机器人、具身智能、自动驾驶等领域最核心的需求。
杨立昆曾打过一个生动的比方:一个婴儿几个月内就能理解物体永久性、重力和因果关系,而LLM即便喂入几万亿个token,依然无法做到这一点,问题的关键不在于参数多少,而在于训练方式从根源上存在偏差。
02.
单卡可跑!
极简架构解锁世界模型落地可能
LeWM的推出,正是杨立昆这一理念的落地实践。
这篇由杨立昆联合米拉实验室(Mila)、纽约大学、三星的研究人员共同撰写的论文,提出了一套精简框架,将联合嵌入预测架构(JEPA)优化升级,有望弥合高层理论与机器人“复杂现实”之间的鸿沟。
与以往JEPA类模型不同,LeWM实现了不依赖任何启发式技巧的端到端训练,仅需1500万参数,单GPU即可运行,完整规划耗时不足1秒,大幅降低了世界模型的应用门槛。
LeWM的核心突破的是JEPA类世界模型长期面临的“表征坍塌”难题——若不精细调优,模型常会忽略世界的复杂性,将不同输入映射为完全相同的表征,靠“投机取巧”完成预测任务。
此前,PLDM模型依赖复杂且“脆弱”的训练目标,最多需用到七种损失函数;DINO‑WM等模型则通过大规模冻结预训练编码器避免坍塌,相当于将“视觉能力”外包给基础模型。
而LeWM走出了全新路径,它是首个仅用两种损失函数就能从原始像素稳定端到端训练的JEPA模型:一是标准的下一嵌入预测损失,二是名为SIGReg(草图各向同性高斯正则化器)的新型正则化项。
SIGReg通过强制隐层嵌入服从高斯分布,在无需额外启发式技巧或辅助监督的情况下,有效防止表征坍塌,提升特征多样性,而正则化权重λ是唯一需要调优的超参数,极大简化了训练流程。
从技术架构来看,LeWM将JEPA简化到本质,仅包含两个核心组件:编码器与预测器。
编码器负责将画面压缩成一串数字(latent特征),预测器则根据当前特征和预设动作,预测下一刻的特征,全程实现极简稳定的端到端训练。
这种精简设计不仅让模型更轻量化,更带来了出众的性能表现,论文公布的核心指标令人瞩目:
规划速度比DINO‑WM等基于基础模型的世界模型快48倍,不到1秒即可完成完整规划;
硬件门槛极低,所有训练与规划实验均在单张NVIDIA L40S显卡上完成,几小时即可训完;
在Push‑T机器人基准测试中,控制成功率达96%,超越PLDM与计算成本更高的DINO‑WM。
更值得关注的是,LeWM已具备基础的物理“常识”感知能力。它能忽略灯光闪烁、地毯纹理等像素噪声,聚焦任务背后的因果物理规律。
在“预期违背”测试中,模型能可靠识别物体突然瞬移等不符合物理规律的事件;在后续实验中,研究人员在LeWM后接入简单探测器,其对机器人/方块位置的预测准确率接近100%,角度预测也表现出色,与DINO-WM不相上下。
为直观展示学习效果,团队还训练了可视化小解码器,清晰呈现了真实视频、模型“看到”的还原视频以及未来预测视频,证明LeWM不仅能理解当前场景,还能准确预测物体运动规律。
在四个经典机器人/控制任务的测试中,LeWM的表现全面优于此前的端到端JEPA方法(PLDM),与依赖大模型预训练的DINO-WM打成平手甚至更强:
在Push-T(推箱子)任务中,成功率96%,比PLDM高18%,甚至超过带体感输入的DINO-WM;
在Reacher(机械臂够目标)任务中,表现优于PLDM,接近DINO-WM;
在OGBench-Cube(3D机械臂抓方块)任务中,虽略输DINO-WM,但依旧保持出色表现;
在Two-Room(2D导航)任务中,虽稍显薄弱,但仍能很好地学习物理信息。
其规划速度之所以能达到DINO-WM的48倍,核心原因在于LeWM能将观测数据缩小约200倍,让基于特征的世界规划几乎实现实时运行。
03.
那些世界模型的“追随者”
LeWM的研发团队汇聚了多方学术与产业力量,核心成员包括:
一作Lucas Maes,Mila三年级博士生,目前在布朗大学担任访问研究员,专注于JEPA改进研究;
Quentin Le Lidec,纽约大学博士后研究员,与杨立昆合作研究机器人世界模型,曾为多个开源项目做贡献;
Damien Scieur,三星研究员,前普林斯顿大学博士后,主攻优化算法;Randall Balestriero,布朗大学计算机科学助理教授,师从杨立昆,其技术曾应用于NASA火星车火星地震探测。
尽管LeWM取得了显著突破,但研究人员也坦言,目前仍有两大障碍待突破:
一是在TwoRoom这类极简环境中,数据多样性过低会导致高斯正则化无法有效发挥作用;二是和现有所有世界模型一样,其规划时域仍相对较短。
不过,随着AMI Labs联合丰田、英伟达等伙伴推进技术落地,LeWM的成功已传递出明确信号:通往通用人工智能的下一个重大突破,或许并非来自更大的数据集,而是更智能、更稳定的架构设计。
值得注意的是,世界模型赛道已不再是AMI Labs一家独跑。
李飞飞的World Labs估值已达50亿美元,专注于物理世界的视觉推理;Google DeepMind的Genie 3项目,在实时模拟3D世界方面也取得了重要进展。
2026年,世界模型正从一个学术研究方向,快速转变为一条真实的创业赛道。
杨立昆也从LLM路线的“批评者”转变为世界模型的创业者,用10.3亿美元融资和LeWM的技术成果,给出了他对通用人工智能的正式答案,也为AI从文本世界走向“物理现实”开辟了全新路径。



沪公网安备31010702008139