JavaScript is required

机器人开始攒Skill了,英伟达把Coding Agent搬进具身智能

图片

◎ 机器人也开始攒Skill了。

△ 撰文:DONG.ZY

机器人训练的产物,开始不只是一组模型权重。

NVIDIA最近展示的ASPIRE,全名是Agentic Skill Programming through Iterative Robot Exploration。

图片

论文里,它被定义为一个机器人持续学习系统:机器人用代码执行任务,失败后读取执行轨迹,定位问题,修改控制程序,再把跑通后的修复经验写进Skill Library。

图片

01.

机器人训练开始留下“经验”

过去谈机器人学习,绕不开数据、模型、权重、仿真、真机采集和sim-to-real。

ASPIRE没有绕过这些基础能力,它多加了一层:机器人执行失败之后,系统要把失败拆开、看清、修好,然后把这次修复留给下一次任务。

这很像软件工程里的Coding Agent。写代码的Agent会读仓库、跑测试、看报错、改实现。

ASPIRE把这套循环搬进机器人系统:写控制程序,进环境执行,读取感知、导航、抓取、碰撞和运动规划轨迹,修改程序,再把成功经验存成技能。

,时长00:40

机器人不再只是重复试错,它开始积累“下次别再这么写”的经验。

论文里有个例子很直观:机器人要拿起一个红色收音机。

执行轨迹显示,它已经找到了收音机,目标识别没有出问题,失败卡在导航上,规划器给出的目标点落进桌子的碰撞缓冲区,运动规划器返PLANNING_ERROR。

ASPIRE修复程序后,总结出一个“多角度接近”技能:如果某个接近方向被障碍物挡住,就从45度、90度、180度等方向重新接近目标,直到找到一条无碰撞路径。

图片

这条Skill不是一句空泛提示词,它来自一次失败、一次诊断、一次程序修复和一次重新验证。

下次机器人遇到类似桌边物体,不管目标换成收音机、微波炉还是别的家具,这条经验都有机会被检索出来。

02.

机器人版Coding Agent怎么跑

机器人任务失败后,最难的不是重试,而是判断到底是哪一环出了问题。

一个任务没完成,背后可能是感知错了,可能是抓取姿态不稳,也可能是路径规划撞上约束。

长程任务还会多一层麻烦:前一步动作看起来成功,后面恢复动作接不上,整条任务链照样断掉。

论文指出,过去很多机器人coding agent只能拿到粗粒度反馈,比如任务成功或失败。

这个反馈对调试不够,系统只知道“没完成”,却不知道该改感知、改抓取、改导航,还是改任务流程。

ASPIRE的第一块拼图是robot execution engine。

,时长00:36

这个执行引擎记录每次perception、planning、grasping、control调用的输入、输出、返回状态和视觉证据。论文里提到的trace包括感知overlay、抓取候选、运动轨迹、碰撞反馈等信息。

这等于把“机器人失败了”拆成一串证据。Agent不必盲猜,它可以沿着每个primitive的输入输出往回查,判断失败到底出在哪一段。

第二块拼图是Skill Library。

,时长00:12

ASPIRE会把验证过的修复策略写入一个不断扩展的技能库。后续任务可以检索这些技能,把它们作为上下文,指导新的控制程序生成。

图片

关键在于“验证过”。如果只是把大模型建议堆起来,技能库很快会变成一堆未经检验的文本。

ASPIRE的Skill来自执行环境。程序跑不通,Agent修改;程序跑通,系统再把修复模式留下来。

这种技能更像机器人程序员的踩坑笔记:目标点什么时候会落进碰撞缓冲区,桌边物体什么时候要换角度接近,抽屉把手什么时候要过滤假检测,平面物体推动时该换哪种motion primitive。

第三块拼图是evolutionary search。

,时长00:20

ASPIRE不只沿着单条修复路径往下试。论文显示,系统会生成多条候选任务序列和控制程序,让它们进入执行环境,再根据成功程序和失败轨迹继续迭代。

单个Agent沿着一个失败程序反复修改,容易卡在局部路径里。多条候选程序并行尝试后,系统可以把成功经验和失败证据都交给下一轮搜索。

所以ASPIRE更像一个闭环:执行引擎暴露失败,Agent诊断和修复,技能库留下经验,进化搜索扩大试错范围。循环跑得越久,技能库越厚,后面的任务越不像从零开始。

03.

技能库越厚,机器人越不像新手

实验结果也围绕“经验能不能累积”展开。

论文显示,ASPIRE在LIBERO-Pro扰动任务上,相比既有方法最高提升77个百分点;在Robosuite双臂handover任务上提升72个百分点,项目页面给出的成功率是从20%提升到92%;在BEHAVIOR-1K长程家务任务上最高提升32个百分点。

图片

更能说明问题的是未见任务迁移。论文显示,研究者先让ASPIRE在LIBERO-90上积累技能库,再把它迁移到LIBERO-Pro Long的代表性未见长程任务,中间不针对新任务继续训练,也不更新技能库。

结果是ASPIRE达到31%成功率,先前方法为4%。

图片

这个设置考验的不是单个任务调参能力,而是旧经验能不能在新任务里继续派上用场。

对具身智能来说,这条线值得盯住。

很多机器人系统缺的不是一次演示能力,而是经验沉淀能力。工程师在一个场景里修好导航、抓取或恢复动作,换一个场景又要重新排查。一个人知道的坑,很难自动传给下一条任务链。

ASPIRE尝试把这些调试经验写进系统,它没有替代大模型、底层控制器和仿真训练,而是在它们之外加了一层可读、可查、可复用的工程经验。

这也是它像机器人版Coding Agent的地方。

软件工程Agent不只依赖模型参数,也依赖仓库上下文、测试反馈、错误日志和历史修复模式。

ASPIRE对机器人做了类似的事:感知结果、运动规划、抓取反馈和碰撞日志,变成机器人世界里的trace;修好的控制程序,变成后续任务能调用的Skill。

论文还给出了仿真技能迁移到真实双臂机器人的初步证据。仿真中发现的技能可以作为真实机器人编程时的上下文指导,减少真实机器人编程工作量。

图片

这对机器人落地有现实意义。部署现场最耗人的部分,常常不是跑通一次demo,而是处理遮挡、碰撞、抓取失败、路径不可达和长程任务中断。团队今天修好的经验,如果不能被系统保存,明天还要重新付一次调试成本。

04.

第100个任务,不该再从零开始

英伟达机器人主管Jim Fan在社媒上把这件事说得更直白:机器人做第 100 个任务时,不该再像第一次上手那样空白。

图片

ASPIRE要做的,就是让机器人在一次次任务里看执行轨迹、改控制程序、筛出有效经验,再把这些经验写进一个持续增长的技能库。

在他的表述里,ASPIRE也重新解释了几个机器人训练里的老词。

训练,不只指梯度下降,也可以指skill refinement;训练好的模型,不只是一组浮点权重,也可以是一整个sensorimotor skills repo;分布式训练也不一定是切minibatch,而是一组Agent各自练不同技能,最后把经验汇到同一个库里。

这个说法放到sim-to-real和cross-embodiment transfer上更明显。

传统端到端策略从仿真迁移到真实机器人,要同时吃下视觉差异和接触物理差异。

ASPIRE迁移的不是像素,也不是权重,而是know-how。真实机器人仍然要练,但它不必重新摸索策略;从单臂迁移到双臂硬件,也可以复用已有技能。

按Jim Fan的说法,ASPIRE最高能把迁移学习所需token降低约10倍。

当然,ASPIRE还不是完全自主的真实世界学习器。

项目页面列出的限制很清楚:系统仍依赖前沿大模型,仍受限于预定义primitive API,长期记忆管理还不完整,搜索循环的计算成本也高。primitive API覆盖不到的动作,ASPIRE很难凭空获得底层能力;技能库变厚之后,检索、冲突和过期经验也会变成新问题。

但它给出了一条清晰路线:机器人可以把失败后的调试过程,保存成长期资产。

真实世界不会只考验机器人会不会做标准动作。它会不断制造偏差、遮挡、碰撞和中断。机器人要进入更复杂的场景,就不能每次都像新手一样从头试错。

所以,ASPIRE最值得讨论的地方,不是它又给机器人加了一个技能库,而是它让“机器人学到了什么”这件事有了另一种载体。

机器人学到的东西,可以不只藏在模型权重里。它也可以是一页网页、一个技能仓库、一套能被下一台机器人继续调用的经验。

点击查看全文
评论赞0分享
轨迹
人形机器人英伟达

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4