◎ 踢馆英伟达,3个月吸金近50亿。
这是具身智能赛道上,最具戏剧性,也最让人心潮澎湃的极短时间线交锋。
把时间拨回到不久前的NVIDIA GTC Taipei 2026大会上,黄仁勋花了不小的篇幅向全球描绘物理AI(Physical AI)与具身智能的宏大蓝图。
作为压轴戏,英伟达重磅发布了号称全球首个完全开放的全能模型——Cosmos 3。
老黄非常自豪地宣布,原生具备视觉推理、世界生成和动作生成能力的Cosmos 3,在全球各大排行榜上位列开放模型第一。
然而,仅仅过去了一天,被誉为北美具身智能“奥林匹克”的RoboArena榜单骤然更新:
千寻智能(Spirit AI)自研的具身基座模型Spirit v1.6,在技术全能项目中,力压Cosmos 3以及Physical Intelligence(PI)的Pi0.5,强势登顶全球第一。
而在技术上「踢馆」成功的同一天,千寻智能在资本市场也抛出了一枚重磅炸弹:正式官宣完成15亿元的A+轮融资。
今年2月,他们刚连续拿下两轮近20亿元融资(估值破百亿);4月,顺为资本与云锋基金联合领投10亿元;时隔仅仅一个月,这笔15亿元的A+轮资金再次入账。
三个月,四轮密集融资,累计吸金近50亿元人民币。
股东名单里,顶级财务PE、国际美元基金、实业产业资本(如石溪资本、兆易创新)、各地方国资赫然在列,老股东还在疯狂加码。
当我们将这两块拼图严丝合缝地扣在一起时,一条属于中国具身智能企业的、从底层技术到商业变现的终极突围逻辑,才真正浮出水面。
01.
资本到底在为什么买单?
近50亿的真金白银,不是因为一张榜单就能砸下来的。
资本市场的嗅觉比任何人都敏锐,他们深知,具身智能赛道正在经历一场残酷的洗牌:
上半场大家都在卷论文、卷参数、卷Demo视频;但到了下半场,谁能把机器搬进工厂、搬进门店,谁才能活下去。
千寻智能之所以能让各路资本“顶薪续约”,核心在于他们拒绝了行业里普遍存在的概念化内卷,跑通了一个符合逻辑的商业化闭环。
这家公司精准地构建了一个横跨三大核心领域的商业化“黄金三角”:
“全球工业、中国零售、高端制造。”
在这个黄金三角里,千寻智能选择了与各个行业的绝对标杆进行闪电式结盟与深度协作:
在高端制造领域,他们的小墨机器人已经直接扎进了宁德时代的动力电池PACK产线。在这个对节拍、一致性和容错率要求极高的环境里,小墨的单日工作量达到了人工的3倍;

在中国零售的庞大市场里,千寻与京东展开了深度战略合作,Moz机器人已经入驻京东MALL线下门店,熟练地承担起咖啡制作等复杂的交互与服务任务;

而在全球工业的版图上,他们正与博世集团(Bosch)推进深度协作,在全球工厂的复杂产线上验证机器人能力。

这三个场景的选择极具战略眼光。
工业场景要求的是极致的稳定性、效率和安全边界;零售场景考验的是与人交互的能力、服务流程的顺畅度以及长期的运营能力;高端制造则是对高精度、高节拍动作的极限施压。
在这个过程中,千寻智能跑出了行业罕见的“千寻速度”,并打造了一个资本最愿意重仓的正向循环飞轮:
“场景沉淀数据,数据迭代模型,模型反哺产业。”
这不是一家纯粹的硬件公司,也不是一家单纯的模型公司。而商业化落地不仅看作是赚钱的手段,更将其视为数据采集和模型迭代的关键一环。
那些在宁德时代产线上打磨出的精度,在京东门店里积累的交互经验,最终都会化作最宝贵的数据燃料,喂给底层的基座模型。
这也是为什么,即便在融资环境趋冷的今天,千寻依然能保持3个月吸金50亿的破纪录节奏。
资金的用途也非常明确:死磕新一代具身基座模型、建设全球化真实数据体系、推进多行业规模化落地。
02.
为什么RoboArena如此特殊?
但飞轮能够转动的前提是:你的模型,必须真的能干活。
过去几年,具身智能领域诞生了无数的Benchmark(基准测试)。仿真、真机、导航、操作、长程任务、VLA模型、世界模型……榜单满天飞,高分层出不穷。
但问题在于,为了保证测试的可重复性和公平性,绝大多数的传统榜单都会设定固定的场景、固定的任务和一套死板的评价规则。
这就像是给AI发了一套“五年高考三年模拟”。只要你知道考点在哪,你就可以让模型疯狂刷题(针对性优化)。
结果就是,行业里出现了一大批“应试型”选手。他们在特定的实验桌上、面对特定的几把尺子和几个杯子,能做出堪称完美的抓取动作,拿下极高的分数。
可一旦你把桌布换个颜色,或者把杯子换成没见过的形状,甚至只是改变一下操作顺序,这些模型瞬间就会变成“智障”,表现断崖式下跌。
连PI的核心研究员Karl Pertsch都曾一针见血地痛批这种刷榜行为:“注定是徒劳。”
对于注定要走进千家万户、面对极度非标的真实世界的机器人来说,这种靠题海战术刷出来的高分,参考价值微乎其微。
正是在这种全行业对“温室评测”极度疲劳的背景下,RoboArena诞生了。
RoboArena绝对不是又一个普通的测试榜单,它是机器人领域的“Chatbot Arena”,旨在把具身智能的评测从静态跑分彻底推向真机对抗。
它由加州大学伯克利分校(UC Berkeley)、斯坦福大学(Stanford)以及英伟达(NVIDIA)联合发起。
甚至,这家刚刚被千寻击败的PI公司的联合创始人Sergey Levine和核心研究员Karl Pertsch,正是这个平台的核心设计者之一。
在这个赛场上,英伟达和PI既是参赛的顶级选手,也是制定规则的裁判和场地主理人。
RoboArena之所以被公认为具身智能的“世界级权威主榜单”,并在学术界引发轰动(相关论文入选CoRL 2025 Oral),是因为它用四套极其狠辣的机制,切断了任何应试的可能:
◎ 国际公开与分布式协作:
评测依托部署在全球数十所顶尖高校与研究机构的标准化机器人硬件网络。志愿评估员可以在各种多样化的、极其杂乱的真实物理环境中,随机设计操作任务进行测试。
◎ 双盲成对对决(A/B测试):
这是最狠的一招。评估员在测试时,完全不知道后台跑的是哪两家模型。他们只看实战表现进行交叉盲测。没有品牌滤镜,没有主观偏见,行就是行,不行就是不行。
◎ 动态Elo评级算法:
玩过电竞、国际象棋或者经常看LMArena大模型榜单的人都熟悉这个。Elo系统不看你赢了多少次,只看你赢了谁。你虐菜一万次也涨不了多少分,但只要你正面击溃了榜首的强者,你的积分就会狂飙。这种动态机制让榜单保持极高的活性,刷分的人会被持续淘汰,真正的黑马则会脱颖而出。
◎ 全开源与不可操纵性:
评测框架、数据流、排名算法全量向国际社区开源,过程完全透明可复现。
如果说传统的Benchmark是让大家在训练营里比拼各项体能指标,那RoboArena就是直接把选手扔进八角笼里进行无差别格斗。
每一次测试都是临场发挥,面对的可能是从未见过的物体、从未涉足的场景。
能在这个榜单上登顶,意味着模型的泛化能力、多任务处理能力和面对未知环境的韧性,已经真正达到了工业级落地的临界点。
03.
Spirit v1.6凭什么赢?
在RoboArena的随机任务中,千寻的Spirit v1.6与英伟达的Cosmos 3、PI的Pi0.5进行了残酷的贴身肉搏。
◎精细语义与干扰排除——“将玩具放入盘子”
在测试环境中,桌面的中央摆放着一个餐盘,但周围却乱七八糟地散落着笔、杯子、足球玩具、胶棒等一大堆杂物。
这看似是个简单的抓取,考验的是模型在开放环境中的目标识别与操作执行。
模型首先要理解什么是“玩具水豚”这个语义概念,然后要在复杂的视觉干扰中把它揪出来,最后还要保持抓取的稳定性。
(3倍速)
结果极具戏剧性。对阵的PI0.5模型,在第一步“看”的阶段就翻了车。它错误地将目标识别为了旁边的一个绿色杯子,而且定位极其不准,机械臂反复尝试抓取绿色杯子,最终依然失败。
反观Spirit v1.6,它不仅准确无误地锁定了玩具水豚,更是干净利落地完成了抓取。
尽管在抓起后有一次极其短暂的微调,但这恰恰证明了模型具备闭环调节的能力,整个“看、判、抓、放”的动作链条一气呵成。
◎精细力控与连续动作——“打开笔记本”
抓玩具考的是“眼力”,那打开笔记本考的就是绝对的“手艺”。
对阵双方是千寻的Spirit v1.6与老黄刚发布一天的英伟达Cosmos 3。
不要小看“打开笔记本”这个动作。机械臂首先需要判断笔记本的朝向,精准识别出那条极其微小的开合缝隙;接着,它需要判断受力点在哪里,用多大的力度接触才不会让本子在桌面上滑走;最后,在翻开的过程中,手部和机械臂必须完美配合,实时调整开合角度。
(3倍速)
尤其值得注意的是,分配给Cosmos 3的测试环境其实相对干净,干扰物较少,但是其多次尝试翻开,却未能成功。
而Spirit v1.6这边的环境反而更复杂,周围堆着杯子、毛巾、蔬果等干扰物。
但Spirit v1.6找到了极薄的受力点,通过极其细腻的实时力控和连续动作规划,稳稳地将笔记本掀开。
这绝非千寻智能的偶然“爆冷”,如果我们把时间线拉长,会发现这已经是千寻在半年内的“两连冠”。
就在今年1月,由Dexmal、Hugging Face、智源研究院等发起的全球首个大规模真机具身智能评测平台RoboChallenge上,千寻的上一代模型Spirit v1.5就曾在Table30榜单上以66.09分、50.33%的成功率登顶,超越了当时的PI0.5。

在那次评测中,v1.5展现了在插花(极高精度的力度控制)和桌面清理(多物体分类与连续操作)等固定标准化任务下的统治力。
RoboChallenge考的是统一条件下的综合素质,RoboArena考的是未知随机环境下的生存能力。
两套逻辑完全相悖的体系,千寻智能全都拿了第一。
可见,从环境理解、目标识别,到动作规划和执行稳定性,千寻已经摸索出了一套系统化、工业化范式驱动技术的超前路径。
04.
“脏数据”的哲学
黄仁勋反复强调了一个痛点:物理AI最缺的就是数据。
互联网上虽然有着海量的视频,但那些绝大多数都是“第三人称视角”。机器人需要的是“第一人称视角”、可行动、带有物理反馈的数据。
比如当指接触到柔软的毛巾时,它必须知道那一瞬间的反作用力是什么样的。
英伟达给出的解法是利用Omniverse、遥操作和视角重投影来合成数据。
但千寻智能选择了一条更苦、更重,但也更贴近物理世界本质的道路——死磕真实世界交互数据。
在具身智能领域,Scaling Law(缩放定律)依然存在。数据规模每提升一个数量级,模型在复杂任务中的成功率和稳定性就会发生质变。
为了突破高质量真实数据不足的瓶颈,千寻智能构建了一座坚不可摧的“数据金字塔”,并立下了一个极具野心的目标:
在2026年内,沉淀100万小时级的真实世界交互数据。
据悉,金字塔的底层依托互联网通用视频完成预训练,中层利用可穿戴设备采集的真实交互数据进行专项迭代,顶层则通过实际落地场景产生的数据持续优化模型表现。
一直以来,行业获取真机数据主要靠遥操作,成本高昂且效率极低,数据可用性堪忧。千寻智能自研出了可穿戴数采设备(uDAS),目前已经疯狂迭代到了第7代。
它轻量、便携,能够同步采集全身关节、手部力触觉等多维度信息。最夸张的是,它把采集成本降到了传统遥操作的十分之一,同时将数据可用性拔高到了惊人的95%以上。
此外,千寻智能还组建了国内规模最大的真实数据采集团队,将近千台可穿戴设备撒向了全国100多个城市。
只有分布式、跨地域的采集网络,才能真正捕捉到真实世界里那极其丰富的“长尾复杂场景”和多模态操作样本。
采集回来的海量信息,会经过清洗、标注、质检,形成一个严密的数据闭环处理流程。
但千寻真正的杀手锏,在于他们十分看重“脏数据”。
千寻智能认为,真实世界本来就是杂乱无章的、充满摩擦、遮挡、失误和延迟的。因此,在数据训练中刻意保留了一定比例的复杂数据、异常数据甚至是失败数据。
这让千寻智能的模型学到的不仅仅是如何做对,更是做错了该如何自救。
这种保留了一部分“不标准答案”的训练理念,让千寻的模型在真实世界中“成长”,天然具备了极强的泛化能力。
这也正是它能在RoboArena那极其严苛的盲测中生存下来的根本原因。



沪公网安备31010702008139