JavaScript is required

遥操已死?具身智能「数据」供给争夺战

“数据”的竞争。

在今年的红杉AI Ascent 2026上,英伟达机器人方向负责人Jim Fan用一场题为《机器人联盟:终局之战》的演讲,给整个具身智能行业带来了一场「范式革命」。

图片

在短短20分钟内,他接连宣告“VLA已死,世界动作模型当立”、“遥操已死,人类的传感器数据长存”,直指当前具身智能发展的核心症结:

旧有技术路径难以突破数据瓶颈,而数据,正是决定具身智能能否从实验室走向规模化落地的关键。

Jim Fan的演讲不仅重构了行业对机器人研发的认知,更将具身智能数据推到了竞争的核心舞台。

这场演讲背后,是整个行业的共识:具身智能的竞争,早已从模型算法的比拼,转向了高质量、规模化数据供给能力的较量。

NE时代智能体 ,赞4

01.

VLA、遥操已死?

作为英伟达机器人领域的核心负责人,Jim Fan在演讲中提出了一个极具颠覆性的“平行”理念:

“我们不再模拟字符串,而是模拟物理世界的下一个状态,然后通过动作微调校准模拟中对真实机器人有价值的部分,并让强化学习完成最后一里路。”

这一理念的核心,正是复刻大语言模型(LLM)的成功路径——从预训练、监督微调到强化学习,将机器人的进化与GPT的发展实现同频同步。

而这一切的前提,离不开海量、高质量的具身智能数据支撑。

Jim Fan直言,过去三年统治具身智能领域的VLA(视觉-语言-动作模型)存在致命缺陷:

“在VLA里,语言才是一等公民,视觉和动作只能靠边站,它更擅长编码知识和名词,但在物理和动词方面表现不足,有点「头重脚轻」。”

他以VLA原论文中的例子调侃:“把可乐移动到泰勒·斯威夫特的图片上,它从未见过她,却能泛化,但这并不是我们想要的预训练能力。”

图片

此前, Jim Fan就曾公开 “锐评”VLA(点击链接回顾) 。

取代VLA的,是Jim Fan口中的WAM(世界动作模型),而WAM的崛起,本质上是数据策略的胜利。

图片

Jim Fan强调,机器人领域的新范式,核心是“抄LLM的作业”:

预训练模拟下一个世界状态,对应LLM的next token prediction;动作微调校准对真实机器人有价值的部分,对应supervised finetuning;最后由强化学习完成最后一里路。

英伟达推出的Dream Zero就是WAM的典型代表,它能先“梦”到未来几秒钟的世界状态,再据此做出动作,同时解码下一刻的世界状态和下一步动作,实现零样本完成未见过的任务。

图片

而支撑这一能力的,正是全新的数据策略——人类传感器数据。

在Jim Fan的演讲中,“遥操已死”的论断震撼了全场。

他毫不避讳地指出,过去三年的遥操黄金时代,本质上是一场“高成本、低效率”的徒劳:“遥操的数据产能从物理上就有上限,理论上一台机器人一天最多也就24小时的数据,但现实里能稳定采到3小时就已谢天谢地,而且机器人还会隔三差五闹脾气。”

他甚至调侃实验室里Bill Dally亲自进行遥操的数据:“考虑到他的薪水,这大概是我们整个数据集里成本最高的一条遥操作轨迹。”

图片

Jim Fan预测,“未来一到两年,遥操的占比会降到几乎可以忽略不计,机器人的‘主食’会变成第一视角人类视频,整个数据范式转向Sensorized Human Data(人类传感器数据)。”

为了实现数据的规模化供给,Jim Fan提出了两条核心路径:UMI(通用操作接口)和第一视角人类视频规模化。

UMI的理念简单而高效:“把机器人穿在自己手上,你的手怎么动,机器人就怎么动,同时把机器人其余身体部分从数据采集闭环里拿掉。”

英伟达推出的DexUMI外骨骼系统,能与五指灵巧机器人手实现1:1映射,佩戴者直接完成动作即可同步采集数据,训练出的机器人策略甚至可以实现“零遥操数据”。

图片

而第一视角人类视频的规模化,则以EgoScale为代表——在EgoScale中,99.9%的训练数据来自人类第一视角视频,仅用2.1万小时的预训练数据,就实现了机器人从“看见”到“动手”的端到端映射,甚至能完成整理扑克牌、操作注射器等精细任务。(英伟达最新力作EgoScale,2万小时人类数据直接「喂」出机器人神级操作!

NE时代智能体 ,赞55

更重要的是,研究发现了“机器人灵巧性”的神经scaling law,“预训练时长与最优验证损失之间呈现出完美的对数线性曲线,这意味着人类数据量提升,机器人零样本灵巧操作能力会随之单调提升。”

图片

除了人类传感器数据,生成式仿真技术是Jim Fan眼中突破数据瓶颈的另一大关键。

他提出,通过iPhone扫描生成程序化环境,构建“Real→Sim→Real”的闭环,让iPhone成为“口袋世界扫描仪”,实现物理世界到数字世界的规模化迁移。

而终极目标,则是Dream Dojo神经模拟器——“它接收输入的不再是传统物理参数,而是一连串连续的动作信号,输出的是机器人下一刻将会看到的RGB视频画面以及对应的传感器状态,没有任何物理方程和图形学引擎介入,完全靠数据驱动。”

这一技术的落地,让机器人能在虚拟推演空间中开展强化学习,而支撑这一切的,正是Jim Fan反复强调的核心等式:“如今算力等同于环境,等同于数据。”

算力转化为虚拟环境,环境生成海量数据,数据又反哺算力投入,形成自我强化的飞轮,这正是具身智能突破的关键。

Jim Fan在演讲结尾描绘了机器人“科技树”的终极愿景:

“未来2-3年,机器将通过物理图灵测试——执行任务的流畅度与人类毫无二致;2040年,实现物理自主研发,机器人开始自主设计并迭代下一代自身。”

而这一愿景的实现,离不开具身智能数据的持续供给。Jim Fan的演讲,本质上是给整个行业敲响了警钟:具身智能的终局之战,核心是数据之战。

02.

具身智能数据,价值凸显

随着Jim Fan的演讲引发行业共鸣,具身智能数据的重要性被提升到前所未有的高度。

事实上,当前具身智能数据领域已分化出清晰的种类,形成了不同的技术路线,每种数据都有其独特的价值与局限,共同构成了具身智能的数据体系。

被Jim Fan“判刑”的遥操作数据,堪称具身智能数据体系中的高质量标杆,它以高昂的成本换取极致的真实度,被视为数据生产的“重工业模式”。

遥操作数据的核心的是人类远程操控机器人本体完成具体任务,通过VR设备、动作捕捉系统、主从机械臂等设备,将人类的动作、决策与环境反馈完整映射到机器人执行层面。

图片

不仅记录关节轨迹、力反馈、触觉信息和视觉画面,还保留了人类在复杂环境中的决策过程。

这等同于人类“手把手”教机器人做事,精度高、信息密度大,是模型训练最扎实的基础样本。

但遥操作数据的缺陷同样突出,“高成本、低泛化”成为其规模化发展的桎梏。

硬件上,高自由度机器人本体单价超50万元,精密动捕设备单套数十万元;场景与人力上,搭建逼真物理场景需要巨额场地、物料投入,操作维护设备需要专业团队,培训周期长;效率上,数据采集速度受限于人工,难以爆发式增长。

此外,遥操作数据与具体机器人本体高度绑定,难以跨本体迁移,泛化能力受限。

作为数据体系中的“规模担当”,仿真合成数据以低成本、高效率的优势,成为弥补真机数据缺口的关键力量。

仿真数据是通过物理仿真引擎,在虚拟环境中生成机器人与环境交互的数据,无需真实机器人和人工参与,仅受算力和参数设定约束,虚拟机器人可7×24小时持续训练,场景参数、物理条件和任务难度可精确控制,适合大规模训练与算法验证。

其核心优势在于规模无限、成本低廉,单条数据成本仅为真实采集的1/100,数据生成效率是传统真机采集的上千倍。

图片

银河通用创始人王鹤认为,当前人形机器人仍停留在千台级出货规模,真实数据产出能力与自动驾驶百万级车队的数据量存在数量级差距,“仅靠真机数据,难以支撑具身大模型所需的训练规模,仿真因此成为补齐数据缺口的现实选择。”

但仿真数据的局限性也不容忽视,核心问题是“Sim-to-Real Gap”(虚实迁移误差)。

虚拟环境过于理想化,物理参数与感知反馈高度稳定,而现实世界充满传感器延迟、光照变化、硬件误差等干扰,模型在仿真中学到的最优策略,迁移到实体机器人时性能容易衰减。

此外,若要追求虚拟环境与真实世界的高度贴合,高精度物理建模、复杂场景重建等投入会大幅增加,甚至超过真实采集成本。

因此,仿真数据更适合作为模型预训练与算法探索的辅助工具,需与真机数据结合,才能实现性能突破。

再者就是,人类操作视频数据,可以作为“贴近现实的规模补充”,它兼顾了真实性与规模化,同样也成为当前行业的重点布局方向。

人类操作视频数据分为两类:一类是场景丰富但缺乏标注的互联网海量视频,另一类是针对特定任务录制的高质量示范视频。

其核心优势是贴近真实生产生活场景,保留了人类的行为逻辑和任务流程,成本远低于遥操作。

图片

尽管优势明显,人类操作视频数据仍有难以回避的局限:

比如仅视觉维度无法复刻完整物理交互过程,互联网视频缺乏力觉、触感、关节状态等重要信息,让模型难以吃透各类精细操作逻辑。

此外,非结构化场景中存在大量遮挡与冗余信息,数据噪声严重,大幅抬高了后端 AI 感知与数据清洗的技术难度。

因此,人类操作视频数据需与其他类型数据结合,才能充分发挥其价值。

除此之外,还有一种相对有潜力的技术路线——UMI数据。

UMI(通用操作接口)是2024年斯坦福大学、哥伦比亚大学与丰田研究所联合提出的低成本数据收集与策略学习框架。

图片

核心优势是低成本、便携、效率高、可规模化,且与硬件解耦,可跨本体迁移,无需机器人本体参与,仅需使用者佩戴简易设备在真实世界完成任务即可采集数据。

而在此基础上,为实现数据规模化供给,Jim Fan 所提出两大核心路径就是:通用操作接口 UMI、第一视角人类视频规模化。

03.

数据,该怎么采?

行业内还形成了清晰的数据金字塔结构:

顶层是真机数据,以遥操数据为代表,质量最高、成本最贵,是机器人落地的关键;

中层是仿真数据,成本低、可规模化,用于模型冷启动;

底层是互联网文本和视频数据,来源广泛、成本低,用于模型预训练,帮助机器人理解世界语义,但缺乏物理信息。

这一金字塔结构,也决定了当前具身智能数据的核心应用逻辑——多种数据协同使用,根据模型训练的不同阶段,搭配不同类型的数据,实现效率与性能的平衡。

正如千寻智能创始人韩峰涛所言:“目前不存在一种数据类型可以独立支撑具身大模型训练,更合理的做法,是将不同数据用于不同阶段。”

数据的价值在于采集与应用,而采集方式的创新,正是推动具身智能数据规模化、高质量发展的核心动力。

当前,行业内已涌现出多种成熟的采集方式。比如鹿明机器人的无本体采集“全家桶”、章鱼动力的全模态采集等。

鹿明机器人拥有在国内最早从事无本体数采领域的技术团队,并率先布局数据基建,通过“无本体数采”技术,形成“数据-模型”的高效飞轮,提升模型泛化能力、加速算法快速迭代,让机器人快速习得工业级的通用技能。

鹿明推出的 FastUMI无本体采集“全家桶”,堪称为UMI而生的软硬件生态体系。

FastUMI PRO,是一套面向具身智能模型训练的多模态无本体数据采集软硬件系统,旨在为高质量模型训练提供数据基础设施。

该系统以三层架构构建核心能力:

硬件层凭借1mm空间精度、快速适配能力、多模态采集能力、超广角多视场感知系统与强光遮挡场景适配性,保障数据时序一致性;

数据层通过标准化、高质量数据生产管线,只交付100%可复现的轨迹;

训练层则支持主流模型训练框架,实现数据向可部署技能的快速转化。

同时,其打造的全球首个具身数据超市,覆盖10大场景、40+种任务、百万小时级数据量,搭配8道工业级质量评估体系,让数据能力成为可交付的基础设施,加速具身智能的Scaling Law。

围绕UMI数据采集需求,鹿明构建了完整的硬件生态体系。除 FastUMI PRO 的多版本设备(含非平动/平动、全功能/便携、力控等版本)外,还推出多款专用数采设备:

FastUMI Ego是全球首款即插即用、无需建图的第一人称数采方案,专为机器人训练打造的视角系统,可实现姿态变化实时映射、左右手独立追踪,以水平 / 垂直约 180° 的超大视角避免数据失真,同时以235g轻量化设计保障佩戴舒适度,通过SLAM+RGB+TOF融合实现3mm级高精度三维轨迹实时获取。

图片

FastUMI Touch是适配UMI的专用机械臂,依据UMI轨迹设计机械结构,以高自由度、近乎无限位的设计实现极致灵活的运动表现,不限制算法能力、完整还原轨迹;同时支持高精度轨迹复现,保障训练结果可重复、可验证、可规模化,助力算法真正落地。

图片

FastUMI Go是全球首款背包版 UMI 数采设备,适配真实环境作业场景,提供3mm精度的数据保障;它兼具稳定续航(4h+连续录制、可换电池)、弹性存储扩容、实时数据处理评估能力,且仅4.6kg轻量化设计、一键启动,让真实世界成为高质量机器人训练数据源。

图片

此外,面向工业场景,鹿明机器人自研了Lumos Nexcore物理AI引擎。融合世界模型与VLA联合训练,内置工业视觉注意力优化,搭配延迟晚融合架构与MOE专家网络,兼顾动作精度、物理安全与复杂场景适配,驱动工业具身智能高效落地。

目前,搭载Lumos Nexcore泛工业场景物理AI引擎的机器人已经形成了落地案例,并且形成持续的数据回流。

整体来看,与传统遥操作采集相比,FastUMI Pro无需依赖昂贵的机器人本体,使用者仅需佩戴夹爪式采集设备或背包版设备,在真实场景中自然完成操作,即可同步采集视觉、动作、力触觉等多维度数据。

其最大的创新的是实现了数据与硬件的解耦,通过统一指尖套件,让一份数据可适配多种不同构型的机器人,大幅提升数据通用性。

同时,将数据处理流程前置,实现“采完即⽤”,数据有效率从行业常见的70%提升至95%以上。

此外,鹿明构建的六道数据检测与校验流程,进一步保障了数据质量,而背包版设备的推出,更是打破了采集场景的限制,可在多个城市、多种行业场景中开展系统性采集。

章鱼动力则以“全模态、高精度、大规模、零干扰”为核心,推出了面向灵巧操作的全模态数据采集系统SYNData。

该系统包含三大核心硬件模块:头部Ego、肌电(EMG)手环和仿生外骨骼数据手套。

图片

其中,头部Ego采用四目视觉布局,由前视双目鱼眼和左右两侧鱼眼组成,负责采集第一视角视觉数据;

EMG则作为Bio2Robot的核心输入之一,与视觉共同作为 AI 模型的输入,使得在遮挡场景下仍能恢复手部位姿与接触力分布,从而实现全模态人手操作数据的生成;

而五指仿生外骨骼数据手套则可实现高精度位姿、全掌接触力和近距视觉的采集。

与传统采集方式不同,SYNData的核心不是堆叠传感器,而是通过AI模型,基于 Bio2Robot 的机制,将人类生物学信号转化为机器人可学习的数据,真正实现了全模态数据的高效采集。

图片

基于这一系统,章鱼动力打造了三大采集方案,覆盖不同规模化需求:

SYNData-DexUMI可实现10倍规模化,采集头部视觉、手部位姿、全掌接触状态、力分布及肌电信号,实现多维度数据的时间轴对齐;

图片

SYNData-EgoBio可实现1000倍规模化,采集Ego视觉和肌电信号,并利用 Bio2Robot 机制,通过AI模型计算得到手部位姿、接触状态和接触力分布,实现全模态数据的零干扰、日常化、规模化采集;

图片

SYNData-Ego则是最轻量化的采集形态,以最低成本采集最大规模的视觉操作数据,捕捉人手操作与环境变化的核心信息。

图片

在章鱼动力看来,具身智能的竞争,最终不是单点能力的竞争,而是系统能力的竞争。

真正决定上限的,不是单个模型或单项任务,而是能否围绕基础模型、策略模型、数据体系建立起持续进化的完整闭环:

“基础模型决定能力底座与泛化边界,策略模型决定任务落地与执行效率,数据体系决定能力演进的速度与方向。”

04.

“数据能解决现阶段几乎所有问题”

当前,具身智能数据的采集仍面临诸多挑战:全模态采集的难度、高精度数据的保障、大规模采集的效率、零干扰采集的实现,这些都是行业需要持续突破的难题。

但随着技术的不断进步,越来越多的企业开始布局数据采集体系,形成了多路线并行、协同发展的格局。

正如Jim Fan所言,“算力等同于环境,等同于数据”,随着算力的提升和采集技术的创新,具身智能数据的供给能力将不断增强,推动具身智能从Model-Based(基于规则控制)向Data-Driven(数据驱动)的范式转移。

与此同时,行业内的争论也从未停止。

银河通用坚持“合成数据是基本盘,真实数据是补丁”,星海图则认为“真实世界原生数据才是具身智能的底座,过度依赖仿真是捷径陷阱”,乐聚机器人则看好训练场获取的真机数据。

但无论争论如何,所有人都达成了共识:数据能解决现阶段具身智能的几乎所有问题,未来具身智能的竞争,将从模型能力转向数据供给能力。

Figure AI创始人兼CEO Brett Adcock的判断更为激进:“数据能解决现阶段几乎所有问题。”

据行业预测,具身智能真正实现规模化应用,至少需要1000万小时级别的数据量,而要实现跨任务、跨场景的泛化能力,数据规模可能达到万亿级别。

当前,现有具身智能数据集的总量仅为几十万量级,且受限于标准、硬件不统一,数据有效性难以保障。

深圳市人工智能与机器人研究院具身智能中心主任刘少山认为,破解数据困境的关键在于数据资产化与标准化,需要“统一数据格式与接口,打破孤岛实现对齐;将数据转化为可评估、可定价的资产;建立共享与交易机制,让数据在不同主体间流动”。

回望Jim Fan的演讲,他所描绘的2040年终极愿景,离不开具身智能数据的持续支撑。

从VLA到WAM,从遥操到人类传感器数据,从传统仿真到Dream Dojo神经模拟器,具身智能的每一步进化,都伴随着数据策略的升级。

不管是鹿明机器人的无本体采集“全家桶”,还是章鱼动力的全模态采集等等,这些不同的采集方式,共同构成了具身智能数据的供给体系,推动着行业向终极目标迈进。

我们这一代人,正如Jim Fan所说,“生于探索地球已晚、探索星辰太早的时代,但恰逢攻克机器人难题的最佳时机”。

而攻克机器人难题的核心之一,就是攻克数据难题。

谁能掌握高质量、规模化的具身智能数据供给能力,谁就能在这场竞争中占据主动,率先解锁机器人“科技树”的终极成就。

点击查看全文
评论赞0分享
轨迹
具身智能数据

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4