◎ 自变量把WALL-B送进真实家庭。
△ 撰文:DONG.ZY
两个多月内,自变量连续完成4轮融资,且已经确定性地完成交割,投后估值超过200亿元。
自变量多轮融资的特殊之处,先体现在速度和确定性上。
今年4月下旬,自变量宣布完成由小米战投领投的B轮融资。此后两个多月,公司又连续完成B+、B++和C轮融资,并完成全部交割。
投资方覆盖互联网巨头、产业资本、国家队和头部VC,包括中国移动、中保投资、红杉中国、IDG资本、源码资本、达晨财智、中金资本等30多家机构。
在更早轮次中,美团、阿里、字节跳动、小米分别领投过自变量不同融资轮次,小米战投还连续参与多轮融资。
58集团、沈阳汽车相关基金、奇瑞集团相关资本、荣耀相关基金等产业方,也出现在其融资阵容中。
过去,具身智能行业很容易围绕机器人形态展开讨论:轮式还是足式,双臂还是人形,家用还是工业。
但机器人进入现实世界后,硬件形态只能决定它能不能做某些动作,底层模型才决定它能不能理解环境、预测变化,并在陌生任务中调整动作。
自变量获得集中下注,核心在于资本愿意押一套基础模型能力。
融资之外,自变量还有一个动作更值得拆开看:
4月21日,自变量发布基于世界统一模型架构WUM的具身智能基础模型WALL-B,并宣布新一代机器人进家庭计划;约35天后,搭载WALL-B的新一代机器人进入首批真实家庭。
家庭,不是一个轻松场景。
按照自变量在发布会上的说法,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,甚至可能把拖鞋放到厨房,或擦桌子擦到一半停下来“思考”。
自变量没有把它包装成成熟家用机器人,而是把一个仍在学习的具身大模型放进真实家庭,去面对混乱、失败和反馈。
01.
WALL-B不是WALL-A的常规升级
自变量这条技术线,核心在于从VLA走向WUM。
在WALL-B之前,自变量已经发布过基于VLA架构的WALL-A。
VLA对应视觉、语言、动作,通常把机器人能力拆成几个模块:视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹。
这种架构在工程上更容易拆解,也方便分别优化。但到了家庭场景,模块拆分带来的问题会被放大。
数据需要在视觉、语言、动作模块之间逐级传递,每经过一次边界,都可能产生信息损耗和延迟。
机器人看到一个盘子,不能只识别“盘子”,如果盘子一半悬在桌沿外,它还要判断盘子可能掉落,并据此调整动作。
机器人看到拖鞋,也不能只知道它是拖鞋,还要判断它被卡在沙发底下时,机械臂是否够得到,拉出来时会不会碰到旁边物体。
这些判断需要视觉、语言、动作和物理预测一起工作。
按照自变量的说法,WALL-B不是WALL-A的下一个版本,而是一次从底层架构到训练范式的重写。
它基于世界统一模型WUM,把视觉、语言、动作、物理预测等能力放到同一个网络中联合训练,试图减少模块之间的信息搬运。
自变量将WALL-B称为全球首个基于世界统一模型架构的具身智能基础模型。
相比这个称呼,更值得展开的是它背后的技术目标:让机器人在同一套模型中理解动作会如何改变物理世界。
机器人进入家庭后,任务不会像实验室测试那样干净,它要面对一连串状态变化:杯子被推一下会怎样,拖鞋被拉出来会不会带倒旁边的东西,水杯靠近桌沿时是否需要先挪回去。
WALL-B要处理的,正是这些连续变化中的判断。
02.
三项能力对应家庭里的长尾问题
自变量在介绍WALL-B时,提到三项区别于行业现有模型的核心技术特征:原生多模态、物理世界的“世界观”、与世界交互并自我进化。
第一项是原生多模态。
WALL-B从训练初始阶段就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注和联合训练,目标是实现“多模态进、多模态出”。
它不是先把视觉结果转成语言,再交给动作模块处理,而是在同一套模型里处理感知和动作。
对家庭机器人来说,这一点很具体。
机器人看到一个杯子时,下一步可能已经涉及伸手、避障和抓取力度;它感受到重量变化时,也要调整动作。
家庭任务很难等待系统在多个模块之间反复“传话”,因为环境随时会变。
原生本体感也属于这一能力的展开。
WALL-B无需持续观察自身全身,也不依赖大量外部传感器校准,就能感知自身高度、宽度、手臂伸展范围、关节极限等空间尺寸,并判断能否通过某个空间或触及某个物体。
家庭空间不会主动为机器人让路,机器人需要知道自己能不能通过狭窄过道,机械臂够不够得到桌边物体,转身时会不会碰到家具。
第二项是物理世界的“世界观”。
WALL-B强调对重力、惯性、摩擦力、速度等基本物理规律的感知和预测。一个盘子一半悬在桌沿外,模型不能只完成识别,还要判断它存在掉落风险,再采取预防动作。
这类能力比“识别物体”更接近具身智能的核心。
家庭里有大量未在训练集中完整出现过的组合:快要倾倒的水杯、散落在地毯上的拖鞋、被宠物打乱的物品、半遮挡的玩具。模型如果只模仿训练数据中的轨迹,很难处理这些变化。
第三项是与世界交互并自我进化。
按照自变量的描述,WALL-B在任务失败后会调整策略再次尝试。如果尝试成功,模型会把这次经验用于后续更新。这个机制指向真实环境中的持续学习能力。
这部分不能直接等同于“机器人已经成熟自主进化”。更准确地说,自变量希望WALL-B不只依赖实验室训练,也能从真实环境中的失败和成功中获得反馈。
这三项能力放在一起,解释了为什么自变量要把WALL-B送进家庭。
家庭不会只考一个标准动作,它会持续制造长尾问题;模型能不能处理这些问题,发布会展示给不出答案。
03.
真实家庭是WALL-B的数据场
4月21日,自变量宣布新一代机器人进家庭计划。约35天后,搭载WALL-B的新一代轮式双臂家用机器人进入首批真实家庭,执行物体收纳、基础清洁、物品递送等日常家务任务。
家庭可能是具身智能最难处理的场景之一。
工厂产线要求稳定和精度,但流程相对明确,环境也更可控。
而家庭完全不同,拖鞋可能被踢到沙发底下,孩子的书包可能扔在地上,宠物可能打翻水杯,刚整理好的客厅,几分钟后又可能被重新打乱。
对具身模型来说,家庭不是一个固定任务集合,而是一组持续变化的非结构化问题。
真实家庭的价值也不只在于验证机器人“会不会做家务”,还在于提供实验室很难生成的数据。
自变量把实验室数据比作“糖水数据”:干净、可控、量大,但与真实家庭差距明显;真实家庭数据则更像“牛奶数据”:嘈杂、多变、充满随机性。
自变量团队进入数百个志愿者家庭进行模型训练,每户家庭的布局、灯光、物品摆放和混乱程度都不同。
有的家庭地上散落拖鞋、快递箱、玩具和袜子,有的家庭会出现宠物突然跳上桌子这样的随机事件。
这些变量很难在实验室里完整模拟,但家庭机器人每天都会遇到。
自变量的数据策略可以概括为“实验数据打底,真实场景提质”。
实验室数据用来建立基本能力,比如识别常见物体、执行基础动作;真实家庭数据则让模型学习如何应对不确定环境。
这也解释了为什么自变量愿意让一个“实习生”阶段的机器人进家庭,它还会犯错,需要远程协助,但这些错误和协助本身,可能成为后续模型迭代的一部分。
对WALL-B来说,家庭不是产品验证的终点,而是模型继续学习的现场。
家庭入户还绕不开隐私问题,自变量给出的方案包括端侧实时视觉脱敏、用户主动授权、用途限定等机制,强调原始图像不离开设备,用户不同意则不开机。
这类设计说明,家庭场景的落地不只是模型能力问题,也涉及用户信任和数据边界。
如果机器人要长期在家庭中工作,它不仅要理解物理世界,也要适应生活空间中的规则。
04.
闭环能否跑起来,才是后续考验
WALL-B进入家庭,是自变量近期最值得关注的动作。
但从更长周期看,自变量要验证的不只是一个模型,而是一套“模型、数据、本体、场景反馈”的闭环。
在模型端,自变量已经形成多项技术成果:WALL-B是闭源旗舰模型,WALL-OSS-0.5是开源具身基础模型,WALL-WM则强调世界模型的事件级预测能力。
WALL-OSS-0.5在17个真机任务中,有4个任务自主完成率超过80%。
WALL-WM通过事件而不是均匀时间采样来对齐语言、视觉、动作等多模态数据,试图让模型理解物理世界中“事件”如何发生和演化。
这与WALL-B的方向可以形成呼应,家庭机器人需要理解的不是一帧一帧的画面,而是连续事件:杯子被推了一下会怎样,盘子悬空后会怎样,拖鞋卡在家具下该如何处理。
在数据端,自变量自建数采工厂,研发数据采集、清洗、标注、质检等完整数据管线。
其6月开源的XRZero-G0,强调跑通“全身无本体采集、自动质检、混合训练、真机评测”闭环。相关方案将有效训练数据获取成本降低95%,约为传统真机采集方案的1/20。
在本体端,自变量有量子一号、量子二号等机器人平台,也有搭载WALL-B进入家庭的新一代轮式双臂机器人。
尤其面向家居环境做了硬件适配,任务范围覆盖物体收纳、基础清洁、物品递送等日常家务。
本体不是孤立硬件,而是模型训练、测试和场景反馈的载体。
自变量也已经把机器人放进具体服务流程。
在与58同城合作的人机协同家政服务中,机器人负责客厅区域收纳与基础清洁,人工负责沟通、协调和深度清洁,服务已在深圳、北京等地上线,定价与同档位纯人工保洁持平。
工业场景则给了另一类样本,自变量方案已在汽车零部件产线等场景进行验证。
产线看重稳定性、节拍和流程适配,和家庭服务里的户型差异、物品摆放、用户习惯不是同一种难题。
这些场景放在一起,构成自变量全栈路线的不同侧面:家庭验证泛化能力,家政服务验证人机协同和服务边界,工业场景验证稳定性和流程适配。
200亿元估值给自变量带来了更高关注度,但估值之后,验证才刚开始。



沪公网安备31010702008139