JavaScript is required

别「挑食」式学习!银河通用推出LDA,超越VLA、世界模型

重构具身智能数据利用逻辑。

在语言模型领域,GPT-2的里程碑意义在于首次系统性解决了互联网规模异构数据的利用问题,推动语言模型进入全量数据驱动的规模化发展阶段。但这一突破在具身智能领域长期未能实现。

不同来源的数据彼此割裂,真实与仿真数据难以融合、有动作标注与无动作标注素材无法协同、高低质量数据被割裂使用,导致具身智能始终处于“数据稀缺驱动”状态,难以实现规模化学习。

银河通用机器人联合清华北大、英伟达等机构发布的跨本体「隐式世界-动作基础模型」LDA,正是针对这一核心痛点的系统性解决方案,让具身智能首次具备类似GPT-2的规模化学习能力。

,时长03:44

01.

五层数据金字塔+WAM框架

LDA系列模型的核心突破,首先体现在数据利用范式的革新,这一突破依托银河通用构建的完整数据基础设施——银河星数(AstraData),以及在此基础上搭建的自下而上的“五层数据金字塔”结构。

该金字塔从底层到顶层依次为:

底层:规模最大、成本最低的互联网图像/视频/文本数据,用于构建基础感知与语义理解能力;

次底层:提供动作先验与任务理解的人类行为数据;

中间层:银河自研合成数据管线产出、实现认知到执行过渡的多本体合成仿真数据;

高层:提供高质量动作示范但规模有限的真实遥操作数据;

顶层:反映真实部署表现、驱动系统优化的真实机器人自主运行数据。

图片

为支撑1.6B参数的LDA模型,研究团队还基于该体系构建了包含超3万小时人机轨迹的通用具身交互数据集EI-30K,并将所有数据转换为标准LeRobot格式。

针对数据质量良莠不齐的问题,LDA系列模型采用按质分配的利用策略,让各类数据各尽其用:

◎高质量专家数据同时用于策略与动力学建模,定义“最优动作”;

◎低质量与噪声数据用于前向与逆向动力学学习,刻画真实世界演化,实验显示加入30%低质量轨迹后,模型任务成功率提升10%;

◎无动作标注视频则用于视觉预测,提取行为结构与潜在意图。

这种数据利用方式打破了传统行为克隆仅依赖高质量数据的局限,实现了虚实共融、人机混合、质量参差、有无动作标签数据的统一有效利用。

随着数据规模从数千小时扩展至数万小时,模型性能持续稳定提升,即便引入大量低质量甚至失败数据,性能也不降反升。

图片

模型架构的统一的是LDA系列实现规模化学习的另一关键支撑。

银河通用采用的WAM(World-Action Model)框架,将World Model(世界模型)与Action Model(动作模型)深度融合。

这一框架并非临时创新,早在2025年3月,银河通用就发表了DyWA: Dynamics-adaptive World Action Model,在全球范围内首次对WAM概念进行结构化定义,并在复杂接触动力学任务中验证成功。

图片

图片

基于这一框架,LDA系列模型在同一体系中同时学习四类能力:从当前观测生成动作的策略学习、预测动作改变世界的前向动力学、从结果反推中间行为的逆向动力学,以及无动作条件下推演世界未来的视觉预测,形成完整的“感知-决策-反馈”闭环。

图片

02.

多维统一,解锁跨本体长程灵巧操作

基于此,LDA将策略学习、前向动力学、逆向动力学以及视觉预测四类任务统一规整为「预测未来状态与未来动作」的通用范式。

该模型引入任务嵌入与寄存器Token两大机制,实现用单一网络承载全部任务需求,只需启用不同的任务嵌入,就能在四种任务模式中灵活切换。

例如进行策略控制时,借助视觉寄存器Token预留未来画面位置,专注推演动作;开展视觉预测时则采用相反逻辑。

这种设计打破了控制与建模的生硬界限,通过Token的灵活调配,把各类任务转化为同一种填空形式的不同变体,使其能够在同一套基础网络架构中顺畅运行。

此外,为实现跨本体泛化,LDA系列模型还解决了视觉表征与动作对齐的核心难题。

在视觉表征方面,模型放弃传统VAE派生的像素级表示,转向DINO结构化潜空间。

图片

该空间能过滤光照、纹理等外观冗余,保留物体级语义与空间结构,使不同机器人、不同环境的数据具备一致表达形式,避免了VAE潜空间数据难以对齐、规模化收益停滞的问题。

消融实验显示,将DINO隐空间换回VAE像素级重构后,模型在RoboCasa-GR1基准测试中的成功率从55.4%降至20.0%。

在动作对齐方面,模型首次系统性提出统一的hand-centric action space,将所有动作统一映射到“手如何作用于世界”的物理本质,而非机器人关节定义。

具体包括末端执行器的位姿变化和手部接触形态,实现了不同执行器(两指夹爪、多指灵巧手等)动作语义的共享。

完成任务与表征的统一后,LDA选用多模态扩散 Transformer(MM-DiT)作为学习模型。

图片

该模型并行处理动作序列与未来视觉两条信息链路,借助共享注意力机制让二者相互作用、彼此关联。

简单来说,动作与视觉信息各自独立,却共用一套底层推理逻辑。这一架构让模型预测动作时能预判环境后续变化,推演未来视觉场景时也会兼顾动作产生的影响,从根本上把因果关联内嵌到了注意力结构当中。

通过整合统一任务形式、统一表征空间、统一模型架构这三大核心设计,LDA得以在一套完整框架中,同步掌握行为决策与环境变化预测两大能力。

这也让模型形成了一体化的智能内核,既能灵活自主地做出行动决策,又能精准预判外界环境的演变规律。

LDA系列模型的实战表现充分验证了其核心能力,在RoboCasa-GR1基准测试中,LDA-1B以55.4%的成功率超越GR00T-N1.6(47.6%)和π₀.₅。

图片

△在各类任务中使用二指夹爪操作的成功率对比

图片

△在具体任务中使用灵巧手操作的成功率对比

在少样本跨本体泛化测试中,面对未出现在预训练数据中的机器人本体,模型在工业搬运、零售取放、家庭日常等任务中均能稳定执行。

图片

即便引入未见位置、新物体、背景变化等扰动,成功率仍保持较高水平,而传统行为克隆模型性能则显著下降。

在长程灵巧操作中,模型能完成煎牛排、叠纸杯塔等复杂任务,具备长时序规划和精细接触建模能力,即便中途受到干扰也能随机应变、自主纠偏。

图片

图片

值得注意的是,加入含大量失败和不稳定操作的低质量真机数据后,π₀.₅性能明显下降,而LDA系列性能反而持续提升,证明其能从失败中学习真实世界动力学。

03.

写在最后

LDA系列模型的发布,标志着具身智能正式进入以数据规模驱动性能持续提升的新阶段,其相关研究论文已被机器人领域顶级会议RSS接收(今年仅210篇录用),且核心算法与代码体系已全面开源,推动行业从封闭优化走向开放共建。

更重要的是,该模型能力并非孤立存在,而是嵌入在银河通用「银河星脑(AstraBrain)」完整技术体系中,与「银河星数」数据基础设施、真实场景部署反馈闭环形成完整的具身智能技术管线。

图片

未来,银河通用将进一步探索视觉表示与隐空间动力学的端到端联合学习,引入更丰富的感知模态,优化不同质量数据的训练分工,推动具身智能从「可演示能力」走向「可持续运行能力」,逐步应用于工业制造、零售服务等真实场景,成为新一代生产力基础设施的重要组成部分。

点击查看全文
评论赞0分享
轨迹
具身智能银河通用LDA

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4