JavaScript is required

人形机器人,学会「爬梯子」了

图片

◎ LadderMan,解锁机器人“爬梯&作业”新技能。

过去几年,人形机器人从最初步履蹒跚地在实验室的平地上行走,到如今能够跑酷翻越, 似乎已经攻克了无数关于动态平衡的底层难题。

然而,在诸多复杂的刚性工业场景中——比如大型建筑工地、仓储物流中枢以及高危灾害救援现场,有一项人类的日常技能却长期成为极具挑战性的任务。

那就是攀爬梯子。

早在著名的DARPA机器人挑战赛(DRC)时期,攀爬工业梯子就被主办方列为评估机器人高阶机动性的核心且最具挑战性的任务之一。

近期,由亚马逊前沿人工智能与机器人技术团队(Amazon FAR)、南加州大学(USC)、加州大学伯克利分校(UC Berkeley)、斯坦福大学(Stanford University)以及卡内基梅隆大学(CMU)的顶尖研究人员组成的联合队伍,在一篇名为《LadderMan: Learning Humanoid Perceptive Ladder Climbing》的论文中给出了令人瞩目的破局之法。

这支由Siheng Zhao、Guanya Shi等人领衔的团队,首创了名为LadderMan的统一化系统框架。

图片

该系统不仅让人形机器人(论文主要基于Unitree G1进行验证)能够在零样本的条件下,稳健地攀爬各种尺寸、材质不同的梯子,更打破了仅能“移动”的限制,首次实现了在梯子踏板上稳定悬停,并通过VR遥控完成高难度、重力变化的双手协同作业。

NE时代智能体 ,赞

6

01.

为什么传统的控制算法“爬”不上梯子?

要理解LadderMan系统的革命性意义,必须首先明确人形机器人攀爬梯子的底层物理约束。

与在地面行走或爬楼梯不同,梯子的核心特征在于其极度的稀疏性与空间非连续性。

在梯子上,机器人脚底不再有宽阔的支撑,每一次接触都仅仅依赖于一根窄小的踏板和有限的扶手面积。

这种设定要求机器人进行极其精确且持续的全身多肢体协调——手部的抓握拉力必须与脚部的踩踏推力构成严密的闭环。

在这种极端受限的接触环境中,容错率几乎为零。

极其微小的感知环境深度误差或者关节控制的精度漂移,都会导致机器人发生致命的踏空或抓漏,进而引发坠落损毁。

过往的学术研究和工程实践通常高度依赖于“基于模型的控制”策略。

往往假定机器人已经获得了一个环境三维几何模型,并由工程师针对特定的梯子间距进行轨迹参数预设和接触点调优。

由于没能将前置视觉感知真正融入到极高频的底层控制闭环中,这类传统系统在面对真实世界里倾斜角度、踏板间距千变万化的各类梯子时,表现得极其脆弱,泛化能力几乎为零,且攀登动作极为缓慢僵硬。

即便是近年来通过强化学习(RL)训练的地形感知人形移动策略,在面对爬梯这一考题时也常常败下阵来。

目前主流的强化学习算法配合通用奖励塑形,往往会催生出一种“下肢主导”的生存本能。

它们倾向于像四足狗一样单纯依靠双脚去匹配地形,而完全忽略了人形机器人上肢的抓握与动态协调能力。

因此,LadderMan研发团队要攻克的核心命题就是:能否纯粹通过学习的范式,构建一个完全基于视觉与本体感觉的运动系统,让人形机器人在不增加任何机械改装的前提下,熟练攀爬未知的梯子并在上面工作?

02.

“混合运动追踪技术”

面对复杂的全身动态序列生成,LadderMan并没有选择让强化学习在一个完全空白的仿真空间中盲目探索,而是构建了一个极具扩展性的“两阶段学习管道”。

在第一阶段,研发团队需要为模型注入“如何爬梯子”的先验知识。

但是,现实世界中存在无数种梯子,如果要人类穿上光学动捕服去为每一种角度和间距的梯子录制演示数据集,这个工作显然是无法穷尽的。

因此,LadderMan引入了混合运动追踪技术。

整个系统的一开始,仅仅就依靠单条参考运动轨迹:人类在一条特定倾角(65.5度)和特定踏板间距(24.8厘米)的梯子上所录制的唯一一段单次攀爬动作数据。

拿到这唯一的参考动作后,系统必须学会将其泛化。

团队通过在奖励函数上的深度创新实现了这一点:他们摒弃了传统模仿学习中要求全身每个关节都死死贴合人类数据的死板设定。

相反,LadderMan引入了非对称追踪公式——对于机器人的下半身(核心稳定性与节律来源),施加严格的运动追踪惩罚;而对于上半身(尤其是手臂与躯干的舒展度),则进行大幅度的追踪松绑。

配合专门设计的“以目标梯子踏板为中心的接触奖励”,机器人的上半身如同获得了自主意识,能够灵活地伸长手臂或调整俯仰角,去主动搜寻和适配全新几何构型下的踏板着力点。

「形散神不散」,这种的学习机制使得那唯一的一段人类参考运动轨迹,在仿真环境中成功裂变,孵化出了数十个能够应对不同几何梯子的状态基专家策略。

图片

03.

融合模仿学习与强化学习

尽管各个分支的专家策略已经掌握了针对某一款梯子的技能,但当机器人被丢进真实场景时,它不可能有机会先拿着卷尺去测量梯子的参数然后再切换算法。

因此,在第二阶段的核心任务,是将这些各自为战的“单项专家”蒸馏、熔炼为一个具备全局泛化能力、且仅依靠前置摄像头深度图输入的“全能视觉策略”。

单纯套用DAgger(一种常见的行为克隆算法)在这种高动态且容错率极低的任务中是不太可行的。

这是由于专家策略在训练时并未经历所有潜在的危险微小偏差状态。当单一的模仿网络在执行过程中积累了哪怕是一点的预测偏离,系统就可能发生脱轨,最终导致机器人滚落梯架。

基于此,研究团队大胆采用了DAgger融合传统强化学习(PPO算法)的混合目标函数架构。

在长达数千个回合的迭代中,模仿学习的KL散度权重被设计为动态退火下降的模式。

这意味着,机器人在训练的早期阶段就像一个学徒,模仿专家的攀登轨迹;但随着训练的深入,它开始基于自己眼前的三维深度视野逐渐独立思考,为了追求高额的攀爬成功奖励,它在无数次的坠落边缘学会了自我修正、借力与动态补偿。

这种学习过程,最终得出的策略不仅完美继承了专家的物理直觉,而且还拥有了比较强的纠错韧性。

图片

04.

借助视觉基础模型

拥有了仿真策略后,挡在部署面前最后的拦路虎是巨大的Sim-to-Real Gap。

比如在仿真环境中表现完美的传感器,在真实世界中面对细长、镂空、且极易反光的梯子踏板时,往往会输出大量残缺的死像素点与伪影噪点。

主流学界以往多依赖暴深度图域随机化加高斯白噪声来覆盖这些情况,但这往往需要数周的人工调参且治标不治本。

LadderMan团队祭出的“杀手锏”,是引入了视觉基础大模型(VFM)——Fast-FoundationStereo网络,用以接管机器人的双目深度估计。

图片

这个大模型如同一双“慧眼”,它能够无视那些无结构的传感器干扰,实时重构出异常干净、边缘锐利且几何一致性极佳的深度拓扑地图,从根本上扫除了视觉伪影带来的失误风险。

而在面对那些仿真环境中无法提前预见的多变梯子外设(例如奇形怪状的防滑纹理、加固斜撑或是金属扶手)所导致的结构化感知鸿沟时,团队极具想象力地引入了一项名为“踏板聚焦掩码”的对抗训练机制。

在策略网络训练时,系统以10%的概率随机用“黑布”将除了梯子核心踏板之外的所有视觉区域全部遮盖。

这在本质上强迫控制大脑抛弃对特定梯子整体外貌特征的死记硬背,将全部注意力100%集中在那唯一决定攀爬生死的物理支撑点上。

这种剥离机制,让机器人在面对全然陌生的折叠梯或原木工程梯时,依然能够从容辨认着力点,实现了跨域鲁棒性。

除视觉感知外,物理引擎底层关于碰撞几何体的逼真度往往是被忽视的暗角。

研发团队在测试中发现,诸如TWIST2和HDMI等开源项目中对于机器人(尤其是小腿与足底)碰撞体积的简化包裹,在面对梯子边缘那仅有几厘米的尖锐接触面时,会引发物理偏差失真。

他们果断切入了高保真的OmniRetarget碰撞拓扑,打磨每一个多边形的接触反弹系数与摩擦边缘,从而彻底堵死了由于仿真中“脚底打滑”所引发的迁移溃败。

05.

不止于攀爬

稳稳地爬上几米高的梯子是一回事儿,在梯子上执行复杂的人类指定作业又是另一回事儿。

当机器人双脚踩在悬空的细梯上,其动态支撑基底被压缩到了极限,重心的些微偏移就会打破这一平衡。

如果直接套用全身远程操作策略(如TWIST2),随着人类操作员转动上身或伸长手臂去够某样物品,机器人的上身发力会立刻与双腿抓地产生运动学冲突,表现就是机器人瞬间僵直并向后栽倒。

LadderMan为了攻克这一难题,首创性地构架了“双智能体学习模型”。

这种设计将原本混沌的全身神经网络从架构底层一刀切为两半,实现控制逻辑的完美解耦:

下半身智能体的唯一使命和奖励来源就是死死咬住脚底板的接触力矩,确保骨盆处于静力学位置,就像“定海神针”;

而上半身智能体则专注于高保真地还原来自人类通过VR头显(如PICO 4 Ultra)和手柄传达的空间意图。

在这套各司其职的双网架构下,上身的巨幅运动不再对下盘稳定构成威胁。

在论文的呈现中,Unitree G1机器人在梯顶完成系列任务,无论是调整墙面巨幅油画的倾角,还是去高出自己头部的灯罩内旋转拧紧灯泡,亦或是在半空中稳稳接住人类递过来的巨大纸箱,都能一气呵成。

图片

06.

数据不会说谎

数据不会说谎,在IsaacSim高强度矩阵评估中,面对倾角在55度到70度之间游走、踏板间隙从20厘米到30厘米疯狂跳变的海量梯子矩阵,LadderMan以超过95%(在核心操作区间)的稳定成功率横扫全场。

反观剥离了感知系统的“瞎子”基线模型,只要梯子稍微偏移其参数,成功率便会呈现断崖式下跌,近乎全军覆没。

更具有颠覆性商业价值的指标在于效率。在一次直面人类的挑战中,系统记录了机器人与一男一女两位人类测试者攀爬同一段测试梯的极速耗时。

结果来看,人类平均每跨越一格踏板需要耗时约3.2秒,而由于保留了严格防滑余量而采取相对保守步伐的LadderMan机器人,其攀登配速竟也达到了极高水准的3.4秒/踏板。

图片

实机验证中,机器人踏上了比如原木A字梯、商用宽阶铝合金折叠梯等三款极具代表性的工业设备,零样本并实现稳健攀爬。

总而言之,LadderMan系统绝非仅仅是教会了一台机器人如何攀爬梯子。

而是在具身智能赛道验证了一套方法论:如何利用混合轨迹克隆技术激活极端受限的样本,如何借助视觉大模型无缝弥合虚实鸿沟,以及如何通过智能体解耦化解多肢体作业的内耗风险。

但是,研究人员并未回避未来的挑战:目前的模型仍旧依赖存在一定倾角的斜梯(最大支持约75度),当面对完全90度垂直、需要反人类摩擦抓力裕度的直筒型检修梯时,机器人的攀爬步态需要推翻重构。

同时,由于缺乏具备多自由度指节的灵巧手加持,机器人在梯顶的复杂作业类型依然受限。

但在不远的将来,当拥有更强核心力矩和触觉感知网的新一代人形本体面世时,基于LadderMan这一算法框架,也许就会看到人形机器人在比如大楼的脚手架、风力发电塔顶上代替人类工作。

点击查看全文
评论赞0分享
轨迹
人形机器人爬梯子LadderMan

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4