JavaScript is required

不用人形,也不用灵巧手,自变量靠Wall-B把机器人做进了家庭,5月25号即交付

家庭缺的不是硬件,是大脑

刚获小米投资的自变量最近搞出了一个大动作,宣布5月25号将搭载WALL-B模型的机器人交付至家庭应用场景。

(申请地址

https://x2robot.feishu.cn/share/base/form/shrcnRAWxFr72miG4gJO5JgXqDh)

图片

家庭场景一直被认为是“这个时代最难的技术问题之一”,和表演、科研甚至是工厂场景相比,家庭场景对机器人的泛化性要求最高。用自变量王潜的话说,家庭场景是“一万个动作每个可能只做一次,但每次的环境条件都不一样。”

值得一提的是,本次自变量家庭场景的机器人并未采用灵巧手,更未采用双足,而是采用夹爪和轮式底盘的方案。

01.

WALL-B并不是WALL-A的下一个版本,而是一次全面的重写

2024年底,自变量便发布了其首个具身基础模型WALL-A,并在2025年9月将同样思路架构下的轻量化模型版本WALL-OSS开源。如今,自变量通过与58同城合作,已经将WALL-AS模型的机器人送入真实家庭,与保洁阿姨协同作业。

WALL-A首创了 VLA 与世界模型深度融合的系统范式,而且率先实现了具身多模态思维链。它不仅能输出动作,还能用语言和人对话,能根据图片重建三维环境,能像世界模型一样预测未来。

但也正是因为WALL-A在真实家庭场景中的部署应用,让王昊看到了VLA 架构的“天花板”。对此,王昊解释道,

VLA架构本质上是三个独立模块的拼接:视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹。数据在这三个模块之间逐级传递,每经过一次模块边界就会发生信息损耗和延迟。更根本的问题在于,VLA模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律。“它不理解杯子为什么会掉,不理解为什么盘子悬在桌边需要推回去。它只是在重复见过的东西。”

为此,自变量决定进行一次从底层架构到训练范式的全面重写,也就是WALL-B。

WALL-B采用与WUM相同的理念,将视觉、语言、动作、物理预测等所有能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运耗。具体来看,WALL-B有以下几个显著优势:

一是原生多模态。WALL-B 从训练第一天起,即对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练,实现“多模态进、多模态出”。这就意味着,当他看到杯子的同时就已经在准备伸手,感觉到重量的同时就已经在调整力度。除此之外,还首次赋予了模型一种被称为“原生本体感”的能力,即WALL-B 无需持续观察自身全身或依赖大量外部传感器,即可内在地感知自身的空间尺寸,如高度、宽度、手臂伸展范围,并判断能否通过某个空间或触及某个物体。这也是和当前类似扫地机器人之类的家庭智能用品的核心差异点之一。

二是具有物理世界的“世界观”,即对物理规律的理解能力。WALL-B 能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中,例如一个盘子一半悬空在桌沿外,模型也可以推断出盘子掉落摔碎,从而采取预防动作。正是这种对物理规律的理解也为零样本泛化提供了基础,日常生活中,物理规律在不同环境中均保持一致,WALL-B在任何一个它从未去过的家庭中,都能利用对基本物理常识的理解来应对新场景,不需要针对每个家庭重新训练。

三是与世界交互并自我进化。WALL-B在失败后会调整策略再次尝试,如果成功,则将这次成功的经验直接更新到模型参数中。而VLA模型在任务失败之后只能停止,返回错误信息,无法持续进化。这也就意味着,WALL-B已经克服了Transformer 架构难以进行长期内化记忆的问题,其所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。

02.

数据从实际家庭场景中来

模型之外是数据的来源方式。WALL-B走的是实验室数据+家庭实际场景数据的组合方式。实验室数据用于建立基本能力,比如识别常见物体、执行基础动作。而真实家庭场景数据可以让模型学会在不确定环境中生存。

为了获取真实家庭场景数据,自变量团队进入了数百个志愿者的真实家庭进行模型训练。这其中,每一户家庭的布局、灯光、物品摆放和混乱程度各不相同。王昊表示,真实随机、不可预测的现实数据所驱动的数据飞轮,才是真正的壁垒。

图片

03.

隐私保护

技术之外,家庭场景还会伴随隐私的问题。对此,王潜给出了自变量的解决方案。

首先是视觉脱敏。机器人在设备端对原始图像进行实时大码处理,原始图像不离开设备,机器人看到的已经是去除个人特征的场景数据。

其次是透明授权。用户主动按下同意键后方可开机,不存在“默认同意”,用户不同意则不开机。

最后是用途限定。绝不共享第三方,机器人只认一个主人,发现可疑指令立即锁定。

04.

写在最后

当前机器人进入家庭还处于早期探索阶段,从WALL-A到WALL-B,自变量也在不断优化自己的模型方案。但同时更应该重视的是,当前模型进化的速度之快,给予了更多不断试错的机会。也正是这种快速迭代的速度,让未来充满了想象。

点击查看全文
评论赞0分享
轨迹
家庭机器人自变量

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4