JavaScript is required

李飞飞等大佬署名!Sharpa 解锁「触觉」双突破

图片

◎ Sharpa 解锁「触觉」双突破。

△ 撰文:DONG

如今的机器人可以精准地识别桌面上的物品,理解复杂的自然语言指令,甚至能够通过观察人类的视频来模仿动作。

然而,当机器人真正伸出手去执行那些需要精细操作的任务时,比如在口袋里摸索出一把钥匙、剥开一个生鸡蛋的壳,或者把一张薄薄的卡片插进卡槽等,它们往往显得「笨拙」。

这种笨拙的根源在于“触觉的缺失”。

人类的灵巧操作并不仅仅依赖于眼睛,更多地依赖于指尖传来的微小形变、摩擦力的变化以及接触力的反馈。

但长久以来,将触觉赋予机器人面临着极大的工程与算法挑战。

近期,两篇重量级的研究论文在这两个方向上取得了突破性进展。

第一篇是由清华大学、Sharpa、UC Berkeley、ETH Zurich、复旦大学等机构联合提出FTP-1(Foundation Tactile Policy 1),它解决了触觉传感器硬件碎片化导致的「跨设备泛化」难题,首次验证了触觉能力可以像视觉一样构建通用基础模型。

图片

第二篇是由UC Berkeley、NVIDIA、Stanford等联合发布的T-Rex ,它直击视觉处理延迟过高的问题,提出了一套视觉-触觉协同的高频反应框架,让机器人获得了真正的「触觉反射神经」。

图片

值得一提的是,该论文一作为EgoScale的二作Dangtong Niu,更有李飞飞,Jim Fan、Yuke Zhu等大佬署名,Trevor Darrell尾作。

仔细研读这两项前沿研究,我们会发现一个共同的支撑点——Sharpa。

作为硬件平台的提供方之一,Sharpa的灵巧手和机器人平台在这两场触觉算法的革新中扮演了不可或缺的物理基础设施角色。

本文将从触觉感知与操作的视角,深入拆解这两项研究的核心突破,并探讨硬件与算法是如何在这一过程中交织演进的。

01.

触觉感知的三座大山

在探讨具体的解决方案之前,我们需要先理解为什么机器人的触觉发展远远落后于视觉。这主要归结为三个难以逾越的障碍:

首先是硬件的极度异构性。

所有的摄像头输出的都是像素矩阵,但触觉传感器却千奇百怪:

有的传感器输出的是图像(比如通过摄像头观察弹性体形变),有的输出的是阵列信号(比如压力分布矩阵),还有的输出的是状态数据(比如单点的力矩大小)。

这种硬件底层逻辑的差异,就导致过去的研究只能为特定的传感器量身定制算法,一旦换了硬件,模型就必须从头训练。

其次就是反应频率这一点。

视觉处理是一个相对缓慢的过程。人类视觉的反应时间在几百毫秒级别,目前的视觉-语言-动作模型(VLA)的控制频率通常也只有5赫兹左右。

但是,当物体发生滑动时,留给机器人的反应时间只有几十毫秒。用低频的视觉大脑去处理高频的触觉反馈,根本来不及 。

再一个就是高质量数据的极度匮乏。

互联网上有海量的图像和视频数据可以用来训练视觉模型,但互联网上没有触觉数据。每一次真实的接触、摩擦和形变,都必须在现实世界中通过物理交互来收集。

这种数据收集的高昂成本,导致现有的大规模预训练模型几乎全是视觉主导的。

而FTP-1和T-Rex正是分别针对这些痛点,给出了极具创造力的解答。

02.

FTP-1,打破传感器壁垒的通用触觉底座

FTP-1的研究团队提出了一个极具野心的问题:我们能不能训练一个单一的触觉策略模型,让它能够吸收各种不同硬件的触觉经验,并且迁移到它从未见过的传感器和机器人上?

为了实现这个目标,FTP-1没有去强求硬件的统一,而是从算法层面构建了一个形态感知触觉Token空间(MTTS)。

图片

既然不同传感器的形状和数据格式不同,FTP-1就从人类手部的功能区域出发,将触觉信号标准化。

图片

MTTS将任何灵巧手或夹爪的触觉输入划分为24个固定的功能区域槽位。例如

◎槽位0到14代表手部的不同物理接触区域(如指尖、指腹、手掌等)。

◎槽位15到20用于表示手腕和手指关节处的力与力矩信号。

◎对于最简单的两指平行夹爪,它的两个传感器会被直接映射到“大拇指尖(槽位0)”和“食指尖(槽位1)”,因为它们在抓取功能上是等效的。

图片

通过这种功能性的映射,无论传感器是圆的还是方的,是高分辨率的还是单点的,它们采集到的数据都会被各自专属的异构触觉编码器翻译成统一格式的特征Token,并被贴上代表位置的功能区标签。

对于图像类传感器,模型使用轻量级视觉Transformer提取特征;对于阵列类传感器,使用卷积神经网络压缩空间结构;对于状态类传感器,则通过多层感知机进行处理。

在融合视觉和触觉时,过去的很多做法是直接把触觉信号“塞”进视觉-语言大模型中。但FTP-1发现,这种做法会干扰模型原本已经学得很好的视觉和语言常识。

因此,FTP-1采用了一种多专家架构。它保留了预训练的视觉-语言专家,同时独立设置了一个拥有3亿参数的共享“触觉Transformer专家”。

动作专家在生成指令时,会同时向视觉专家和触觉专家“请教”,但触觉专家本身保持独立。

这种设计不仅提高了处理效率,还使得模型在面对未见过的传感器时,只需重新训练一个简单的输入编码器,就能复用庞大触觉专家中蕴含的通用操作知识。

图片

为了“喂饱”这个基础模型,研究团队汇聚了来自26个数据源的约3000小时触觉操作数据,涵盖了人类手部、灵巧手和夹爪的演示,总共涉及了多达21种不同的触觉传感器。

在这之中,Sharpa发挥了核心作用,团队利用Sharpa North硬件平台收集了包含4000条长程灵巧操作演示的全新数据集。

FTP-1的实验结果具有里程碑意义。在全球5个不同机构的独立评估中,FTP-1在处理精细接触任务(如画气球、修补模型手、拧瓶盖、翻书等)时,不仅在预训练见过的传感器上提升了17.2%的成功率。

更令人惊叹的是,它在完全未见过的两种触觉传感器(Flexiv Xense 和 TactileUMI)上实现了成功率的大幅跨越——提升了高达31.6%。

图片

这意味着,FTP-1真正理解了「接触」的物理本质,而不是「死记硬背」某一种传感器的读数。

它能够在插入精密部件时,通过触觉感知到微小的偏移,并自主减缓插入速度进行位置修正,这种反应能力在单纯依赖视觉的模型中是极难见到的。

03.

T-Rex,赋予机器人高频的“触觉反射神经”

刚刚提到的FTP-1解决的是触觉数据「跨语言沟通」的问题,而T-Rex则解决的就是机器人操作时的「反应迟钝」问题。

人类在执行诸如扣扣子、摸黑插钥匙等任务时,视觉主要负责大概的方位引导,真正起决定作用的是高频的触觉微调。

T-Rex团队意识到,现有的基于扩散模型或自回归的动作生成框架太慢了。如果强行把触觉和视觉绑在一起,触觉的反应速度就会被视觉的低频处理拖垮。

图片

T-Rex提出了一种极具启发性的异步架构,它将机器人的大脑分成了两个相对独立的通道:

低频规划通道(慢脑):动作专家(Action Expert)以大约5赫兹的频率运行。

它结合摄像头的画面和人类的语言指令,生成一个粗略的动作轨迹。在这个阶段,动作信号被看作是完全充满噪声的,动作专家负责将这些噪声“去噪”到一半,给出一个大方向。

高频反射通道(快脑):触觉专家(Tactile Expert)以大约20赫兹的高频运行。

图片

它不需要重新处理繁重的视觉图像,而是直接“重用”慢脑缓存的视觉和语言上下文。它接收高频传来的触觉数据,接管剩下的一半去噪工作,实时生成最终的精确动作。

这种设计既保留了视觉模型在宏观环境理解上的强大优势,又打破了频率瓶颈,让触觉能够以条件反射般的速度介入控制流程。

为了让快脑能够迅速理解触觉信息,T-Rex设计了一个独特的时空触觉编码器。触觉不仅有当下的受力大小,力随时间的变化趋势同样关键。

其一是时间维度的力觉编码。

T-Rex使用了一个VQ-VAE(向量量化变分自编码器)网络,对过去15帧的力觉历史进行压缩。它能将连续的、容易产生漂移的力觉数据,提炼成离散的、具有抗干扰能力的特征Token 。

其二是空间维度的形变编码。

对于触觉传感器表面产生的形变图像(比如按压物体时产生的凹陷和纹理),T-Rex使用卷积网络提取当前帧的空间特征,以捕捉边缘、滑动和剪切等无法单纯用力觉向量表示的几何接触信息。

这两部分信息被拼接到一起,源源不断地送入触觉专家,指导机器人进行微操。

由于高质量触觉数据收集极其昂贵,T-Rex采取了三阶段训练法:

第一阶段是海量人类视频预训练。先用 EgoScale 数据集中的22889小时人类第一视角视频,教模型理解世界的常识和基本的手部动作逻辑(此时不加入触觉)。

图片

第二阶段是触觉对齐的中期训练。这是T-Rex的核心。研究团队收集了100小时的真实机器人双臂遥操作数据。这100小时并非针对某个特定任务,而是涵盖了200多种日常物品和22种基础的“运动基元”(如捏、推、拉、滑、擦等),并且每一帧都完美同步了高频触觉信号。这一步让机器人真正把“看”到的动作和“摸”到的物理反馈关联起来。

第三阶段是任务微调。针对特定的复杂任务,只需要极少量(约100条)的演示数据进行快速微调 。

在真实世界的验证中,T-Rex展示了其精细操作能力,评估包含了12项接触丰富型任务:

◎力控敏感任务(Transfer Egg):机器人需要从托盘中夹起一个生鸡蛋并转移。纯视觉模型由于无法感知夹持力,极易将鸡蛋捏碎。而T-Rex能够根据指尖反馈精准控制力度。

◎形变感知任务(Split Cup/Sort Mahjong):在分离叠在一起的塑料杯时,机器人需要一只手握住底座,另一只手通过旋转和摩擦精确分离出一个杯子。在“分拣麻将”任务中,机器人需要将一张背面朝上的麻将牌抓起,通过指尖触觉“摸”出它是“红中”、“发财”还是“白板”,然后用另一只手滑开对应的收纳盒将其放入。

◎复合协调任务(Acid-Base Neut/Extract Card):机器人甚至能执行酸碱中和滴定,用右手持滴管吸取液体,左手持烧杯,边滴边摇晃,直到液体变色。在抽取卡片时,它能用右手大拇指将卡片从套中搓出,然后用拇指和食指将底下的卡片推回,仅抽出最上面的一张。

图片

面对这些极为精细的任务,T-Rex的平均成功率超过了最强基线模型30%以上,证明了高频触觉反馈在物理交互中的绝对价值。

图片

04.

Sharpa 与下一代硬件底座

在这两篇顶级研究的背后,Sharpa 提供的硬件系统成为了算法落地不可或缺的物理引擎。

在传统的研究中,为了简化问题,很多所谓的“灵巧操作”使用的是只有两三个自由度的平行夹爪。

即使使用了仿人灵巧手,也经常因为硬件的控制死区、关节耦合问题,而在算法层面对某些关节进行屏蔽或锁定。

在T-Rex的真实世界实验中,研究团队选用了搭载两只 Sharpa Wave 灵巧手的 Dexmate Vega-1 双臂移动机器人。

Sharpa Wave 最大的特点在于其1:1人手尺寸设计,单手具备22个自由度。

值得注意的是,T-Rex在部署基线模型和自身策略时,由于硬件具备全驱动能力,团队没有像以往的研究那样对机械耦合关节进行屏蔽,而是直接对所有手指关节进行绝对位置的端到端预测控制。

这种全自由度的开放,是T-Rex能够完成“搓麻将”、“单指翻书”、“捏取生鸡蛋”等高难度精细动作的物理前提。算法的上限,很大程度上是由硬件的自由度下限决定的。

图片

此外,算法的泛化能力来自于高质量的数据。

在FTP-1的研究中,为了构建涵盖广泛操作意图的基础模型,团队不仅整合了已有的开源数据,还专门使用Sharpa North硬件平台收集了包含4000次长程灵巧操作演示的专用数据集。

图片

另外,Sharpa自主研发的 Sharpa DTC 指尖触觉传感器也被作为预训练和微调阶段的核心设备之一深度参与了FTP-1的评估,每个指尖内置超1000个触觉传感单元,压力灵敏度0.02N,可分辨克级微小受力。

从硬件本体(Sharpa North)到末端执行器(Sharpa Wave),再到触觉感知神经(Sharpa DTC),Sharpa提供了一套完整的软硬件闭环。

整体来看,在具身智能数采中,Sharpa 具备「形态」与「生态」的双重优势。

首先,在形态方面,Sharpa 人手同构设计高度拟人,能精准映射并承载复杂的手内操作、双手协同与触觉反应式控制。

同时,在生态方面,Sharpa 提供了涵盖灵巧手、触觉传感器、整机及仿真资产的全栈方案,打通了从“数据采集、模型训练、仿真微调到真实部署”的工作流,加速“采、训、调、用”闭环迭代。

05.

写在最后

长期以来,机器人界一直有一种「重视觉、轻触觉」的倾向。这既有数据获取的客观困难,也有硬件异构的历史问题。

但FTP-1和T-Rex这两项研究,从不同的维度强力推动了触觉基础模型的发展。

FTP-1证明了触觉数据的壁垒是可以被打破的。通过功能区的统一映射,我们可以汇聚全人类的触觉操作经验,训练出一个能适应任何机器人的通用基础触觉底座。

而T-Rex则展示了触觉使用的正确范式,它不应该只是低频视觉思考的附属模块,而应该是一套独立、高频、反应敏捷的系统。

更重要的是,以Sharpa为代表的高性能灵巧手和机器人平台的普及,打通了仿真与现实、构想与执行之间的断层。

未来的机器人不仅要有看懂大千世界的慧眼,更将拥有感受世间万物纹理、软硬与摩擦的巧手。

随着视觉、语言、触觉和动作模型的深度融合,真正具备「心手合一」能力的通用具身智能,正在加速向我们走来。

点击查看全文
评论赞0分享
轨迹
人形机器人Sharpa触觉

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4