JavaScript is required

具身智能的非共识和星海图的“有限游戏”、“无限游戏”

图片

◎ 从1万美元的本体,到以真实数据驱动的Token生意。

△ 撰文:张鑫

2026年的具身智能,正处在一个颇为微妙的时刻。

一边是资本、政策与产业链共同推高的热度:融资额、估值、订单、出货量和“全球第一”不断刷新;另一边是展厅里仍显迟缓的叠衣、分拣与抓取,是尚未统一的技术路线、评测体系和数据标准。机器人已经足够吸引眼球,却还没有充分证明自己能够稳定创造生产力。

在6月16日举行的“Build with Galaxea”星海图2026具身智能开发者大会上,这种张力几乎贯穿全天。星海图发布双足机器人Kengo,推进G0.5模型开源,与北京亦庄联合启动百万小时真实数据计划,并把商业模式划分为整机销售、方案订阅与Token销售三个阶段。表面看,这是一次企业技术与生态的集中发布;但把上午演讲、下午技术讨论以及高继扬的群访放在一起看,真正值得讨论的,是具身智能正在形成的一套产业分工:本体解决“机器如何存在”,模型解决“机器能做什么”,数据决定“机器能否持续进化”,应用则回答“智能究竟值多少钱,行业到底有没有泡沫”。

这也意味着,机器人行业过去习惯讨论的参数、形态和售价,正在被放进一个更大的坐标系。硬件仍然重要,甚至是所有故事的起点;但硬件的意义,越来越不在于卖出多少台机器,而在于它能否成为数据载体、智能载体和收费入口。真正的竞争,也将从看得见的钢铁躯壳,转向看不见的数据闭环与智能复利。

图片

01.

机器人的分歧

机器人首先是一门关于“身体”的生意,但行业对身体应该长什么样,至今没有共识。

最直观的分歧,是轮式还是双足,是为任务设计专用本体,还是尽可能复刻人类形态。过去两年,人形机器人因其传播性和想象空间成为市场焦点,双足行走、跑跳、舞蹈和空翻频繁占据舞台中央。但高继扬在大会上给出的判断并不浪漫:星海图从创业之初相信的是“一脑多形”,双足人形只是其中一种形态;本体应该由智能的边界和任务需求定义,而不应因为人是双足,就盲目把机器人做成人形。

图片

这解释了星海图为什么先做轮式双臂,再做双足。2024年,公司没有从更熟悉的软件和模型切入,而是先研发整机,并选择当时并非主流的轮式双臂。高继扬把这一思路概括为“智能定义本体”。在结构化空间里,地面平整、动线清楚、工位固定,轮式底盘更稳定、效率更高、成本也更可控。群访中他甚至直言:“在平地上有必要是双足吗?意义不大,还很吵,轮式挺好的。”因此,工业上下料、物流供包翻包、电商分拣打包等近期可落地场景,轮式双臂往往是更现实的选择。

但当目标从结构化空间走向非结构化空间,答案又会变化。建筑、农业、家庭和户外环境并非专门为机器改造,台阶、狭窄通道、复杂地形以及大量以人体尺度设计的设施,都要求本体具备更接近人的通过性和全身协调能力。高继扬解释,星海图决定研发Kengo,不是为了加入“跳舞”竞赛,而是为非结构化空间的生产力提前准备。轮式双臂解决当下更确定的任务,双足人形押注更远期、更开放的环境,这两者不是相互替代,而是不同时间尺度上的产品选择。

图片

分歧的第二层,是机器人究竟应该先学会控制身体,还是先学会完成作业。星海图把具身智能拆为本能智能、作业智能和进化智能三层。本能智能让机器人驾驭自己的身体,保持平衡、行走、奔跑,并与环境和物体交互;作业智能让机器人理解语言指令,操作世界并形成生产力;进化智能则更进一步,让AI参与设计机器人的身体,使形态不再完全由工程师预先规定。

星海图首席科学家赵行认为,人形机器人和传统工业机器人最大的不同,在于人形本体先被赋予大量冗余自由度,再通过智能协调关节。传统的规则与控制算法难以覆盖这种复杂性,因此需要用AI建立“可复用、可调用、可泛化”的身体基础能力。星海图的Project Instinct及其I系列模型,正沿着这条路线推进:从跑酷等全身控制,走向与台阶、座椅、工作台和大型物体的交互,最终让运动与作业的边界逐渐模糊。

与此同时,作业智能采取的是另一套技术配方。高继扬在群访中解释,现阶段无论VLA还是世界模型,作业智能仍以模仿学习为主、强化学习为辅;本能智能则以强化学习为主,加入模仿成分。前者学习人如何完成任务,后者在大量试错中寻找更优的身体控制策略。两条路径最终会融合,但在今天,把会跑会跳等同于“具身大脑”,或者把会抓取等同于“通用智能”,都为时过早。

高继扬对此作了一个颇为坦率的区分:展厅里挥手、踢球、空翻等能力,大多由小模型实现,并不是他所说的具身大脑;真正的具身大脑,是用大规模数据预训练,经过少量任务微调,就能执行分包、供包、零部件分拣等任务,并遵循语言指令。这一判断戳破了当前行业最容易混淆的两件事:动作的观赏性与智能的通用性,不是一回事;单个Demo的完成度与可规模复制的生产力,也不是一回事。

分歧的第三层,才是最关键的:具身智能究竟是制造业,还是人工智能产业?如果它首先是一门制造业生意,竞争重点就是可靠性、良率、成本、产能和交付;如果它首先是人工智能生意,核心指标则是数据规模、模型能力、泛化效率和迭代速度。星海图的答案是两者都要,但价值重心会迁移。高继扬说,具身智能不是纯软件AI,整机和智能缺一不可;但从研发投入看,智能的投入可能比整机高一个数量级。

这不是轻视硬件,而是重新定义硬件。整机既是智能的数据载体,也是智能的商品载体。大语言模型诞生时,互联网已经积累了海量数字化内容,电脑和手机也天然成为模型触达用户的终端;具身智能没有这样的先天条件。物理世界的大量操作尚未数字化,也缺少统一承载模型、采集反馈的终端。因此,机器人本体必须同时承担采数据、跑模型、进场景和收费用的任务。

于是,“轮式还是双足”的争论,最终不应停留在形态审美上。真正的问题是:在特定场景和技术阶段,哪一种身体能以更低代价产生更多有效数据,承载更强智能,并形成正向商业闭环。只有回到这个问题,机器人的形态分歧才会从舆论场里的站队,变成可以验证的工程与商业判断。

02.

“有限游戏”,1万美金的本体

高继扬在群访中提出了一个极具产业意味的判断:“整机和供应链是一个有限游戏,智能和应用才是无限游戏。”

所谓有限,不是说硬件市场很小,也不是说供应链不重要,而是说硬件竞争存在明确边界。电机、减速器、控制器、结构件和装配工艺不断成熟后,性能趋同,成本下降,利润空间会被规模化制造逐步压缩。高继扬预计,无论双足人形还是轮式双臂,未来两年左右,整机成本将稳定在1万美元上下,甚至可能更低。这一数字未必会精确落在每一家公司的产品上,却揭示了供应链演进的方向:本体会从稀缺昂贵的展示品,变成更接近标准化计算终端的基础设施。

但“1万美金”并不自动等于商业化拐点。低价只能解决机器能否被买得起,不能回答机器买回去能做什么。正如高继扬所说,“这个成本并不决定它的商业化能力,它的商业化潜力来自于它的大脑,它能干什么活、能干什么事。”如果机器人只能展演、遥控或在高度定制的环境中完成单一动作,再低的售价也可能只是一次设备采购;如果它能稳定承担岗位、持续学习并跨任务复用,硬件才会变成智能价值的入口。

高继扬算了一笔账:发达国家一名劳动力的综合年成本约为4万至5万美元,假设机器人硬件成本为1万美元,并以一年回本计算,剩余3万至4万美元的空间可以由智能分享。这里最值得注意的,不是具体数值,而是计价逻辑的变化。客户最终不会为电机转了多少圈、机械臂有多少自由度持续付费,而会为一个岗位是否被完整承担、一个流程是否被稳定重构付费。硬件价格决定采用门槛,智能能力决定价值上限。

有限游戏也必须先玩好。没有可靠本体,再强的模型也无法在物理世界兑现;没有一致的动力学表现,训练出的策略很难迁移;没有可维护、可量产的供应链,数据闭环和应用扩张都无从谈起。星海图提出“智能定义本体,本体定义模组”,正是在强调软硬件之间的反向约束。高继扬认为,动力模组不仅影响负载和寿命,也会直接影响模型表现;未来三至五年,动力模组可能仍占整机物料成本的40%至45%。这也是星海图选择自研或与产业链共研大量动力单元的原因。

Kengo的技术选择体现了这种思路。高继扬介绍,其整机通信采用EtherCAT方案,以获得更好的同步性,但这也要求中空走线、电机电磁仿真和减速器设计同步调整。也就是说,所谓“智能定义本体”并非一句抽象口号,它会落到通信实时性、关节一致性、传感器反馈和机械结构等具体工程细节上。模型希望获得什么样的控制频率和反馈质量,会反过来决定模组如何设计。

问题在于,当行业处在第一阶段,企业很容易把有限游戏误当成终局。销量、产能、订单额都便于统计,也更容易向资本市场讲述。于是,尚未成熟的智能能力可能被大额框架订单和工厂Demo包装,硬件出货被当成商业化完成的证明。对此,高继扬的态度相当克制:星海图并非不做商业化,而是不追求在整机销售阶段争夺“绝对第一”。在他看来,这一阶段为冲量而冲量,“更多是负债,而不是资产”。

这句话需要放在产业现实中理解。机器人进入真实生产环境后,客户关心的是节拍、良率、稳定性、维护成本和投资回报。一个技术尚未达到要求的项目,被外部因素强行部署,往往意味着大量现场工程师、供应商和客户资源被绑定在低效率交付中。短期确认的收入,可能对应长期的定制负担;短期的出货规模,也可能形成无法复用的技术债。高继扬因此强调“从开发者到生产力”:当前真正被市场验证的,主要是开发者市场和展演展示市场;当模型能力跨过生产阈值,商业化才会进入下一阶段。

这一阶段性判断,也提供了一把审视行业泡沫的尺子。泡沫并不只是估值过高,更是商业叙事跑在能力边界之前。高继扬承认,新产业发展一定伴随泡沫,企业要利用资本上行期获取资金和注意力,同时为市场“验成果”的时刻做准备。星海图提出“务实创新”,其含义不是降低技术野心,而是把资源集中在能解决问题的创新上。他借用“结硬寨,打呆仗”形容这种节奏:承认硬件、模型、数据和应用都没有捷径,按产业成熟度正面推进。

有限游戏的终点,不是硬件消失,而是硬件成为稳定底座。当本体成本降到足够低、可靠性达到足够高、接口与模组逐步标准化,行业竞争的主战场才会真正上移。那时,卖出一台机器人只是关系的开始,而不是交易的结束。

03.

“无限游戏”,卖Token、打造“超人”

如果说1万美元的本体决定机器人能否普及,那么“无限游戏”讨论的是:一台机器在其生命周期里,能够创造多少持续增长的智能价值。

高继扬把具身智能商业模式分为三个阶段。第一阶段是整机销售,客户主要是科研机构、开发者、场景应用方和展演市场,收入随硬件交付产生;第二阶段是方案订阅,当智能在某一生产场景中被验证,整机成为收费入口,企业依靠持续提供智能方案获得主要毛利;第三阶段是Token销售,当模型从单场景走向多场景、多任务通用,计价单元从一套方案转向智能调用量。

三个阶段的增长逻辑完全不同。高继扬给出的判断是,整机销售阶段的自然年增长率约为30%至100%;方案订阅阶段可能达到每年3至10倍;Token阶段则可能达到每年10至100倍。前期像制造业,增长受产能、供应链和交付约束;中后期像人工智能产业,模型可以在大量终端上复制,边际成本和价值创造方式发生变化。所谓无限,不是没有成本,而是智能具备“学得越多越聪明”的规模效应,价值不再与制造数量一一绑定。

这与传统工业的“造得越多越便宜”构成根本区别。制造规模扩大,主要带来采购、工艺与产能利用率的改善;模型规模扩大,则可能在数据反馈、能力泛化和任务迁移之间形成复利。机器人每完成一次任务,都有机会产生新的真实数据;新的数据进入训练,提升模型能力;更强模型解锁更多场景,带来更多终端和更多数据。只有这条飞轮真正转起来,具身智能才从一次性设备生意变成持续进化的智能网络。

但物理世界的Token比文本Token更复杂。它不仅要生成答案,还要在实时约束下驱动电机、处理传感器反馈,并为动作后果负责。一次抓取失败可能只是效率损失,一次搬运或高危场景中的错误却可能造成设备与人身风险。因此,具身智能的Token定价不可能只看调用次数,还会与任务难度、实时性、成功率、安全责任和创造的经济价值有关。未来企业卖的或许不是抽象Token,而是被Token驱动的“有效劳动”。

这也是“完整一个岗位”比“替代一个动作”更重要的原因。单一动作容易被专机、传统自动化或定制算法解决;岗位却包含感知、判断、操作、异常处理和跨任务协同。机器人只有把多个技能组织成有序作业流程,才能释放稳定生产力。高继扬把作业智能定义为以语言作为主要接口,让机器人根据指令完成一系列动作和任务,其实是在为物理世界建立类似软件Agent的调用方式。

从近期看,这种生产力会沿着精度和速度边界逐层展开。高继扬将当前基础模型能力概括为厘米级精度、约80%的人类操作速度,以及用不超过100条新增数据学习新任务的泛化能力。对应的可用场景,是上下料、搬运、供包、翻包、分拣和打包。操作精度从厘米级提升到毫米级后,插拔、线束、装配、检测等更精细的制造任务才会陆续打开;当本能智能与作业智能融合,机器人才能进一步走向建筑、农业等非结构化环境。

这里尤其要区分预训练与后训练。面对展厅里动作偏慢的质疑,高继扬解释,大规模预训练主要解决泛化问题:机器人到一个新场景,面对一个新任务,不新增数据也能够理解并尝试完成,哪怕速度较慢;后训练则像工人上岗前的岗位培训,用针对性数据提高执行速度和稳定性。数据规模上升不会自动让每个动作变快,却可能让机器人从“只会一道题”走向“看得懂新题”。

在G0.5之后,星海图给出的模型路线图是G0.7与G1.0。赵行表示,公司计划在2026年下半年发布G0.7,在2027年上半年推进G1.0:G0.7的目标是获得更强的泛化操作能力,G1.0则希望成为“一个真正的机器人智能体”。这组版本号背后的升级重点,不是单纯增加参数,而是让机器人从理解一条指令、完成一个动作,走向对长程任务的自主拆解、连续执行和动态纠错。

这条路线还牵涉当前具身模型领域最重要的观点分歧:VLA与世界模型,究竟谁更接近通用机器人的“正确底座”?赵行把两者的分工概括得很清楚:VLA更擅长语言和语义,赋予机器人“语义智能”;World Action Model更理解视觉中的物理规律,赋予机器人“物理智能”。前者知道人想让它做什么,并把语言意图转译为动作;后者更接近理解动作发生之后,物体、环境和机器人自身会怎样变化。

支持VLA的逻辑,来自大语言模型已经验证的泛化能力。语言可以把不同任务压缩到统一接口中,使机器人理解“轻轻放下”“抓住把手再往上抬”等细粒度指令,也可以借助思维链拆解长程任务。G0.5正沿着这条路线,把语言、图像、思维链和动作离散为同一数据流,以统一的自回归架构实现“边想边干”。但VLA的短板同样明显:它通常从数字世界的大语言模型迁移而来,未必天然理解摩擦、惯性、遮挡、碰撞和失败恢复,也难以保证同一动作数千次重复执行的稳定性。

世界模型的支持者则认为,机器人首先要理解物理世界,而不仅是听懂语言。基于海量视频训练的模型能够学习像素变化、时间演化和潜在动力学,并对动作后果进行预测,更适合处理长尾状态和环境变化。北京大学仉尚航提出,直接把已经在数字世界实现Scaling Law的模型拿来充当物理世界底座,未必能把知识真正传递到Action层;具身智能可能需要围绕交互和动作重新设计原生基座模型。但世界模型也有自己的硬约束:视频缺少显式动作信号,因果关系难以从相关性中分离,而显式生成未来又会带来高延迟和高算力成本。

因此,嘉宾们的共识是“最终会融合”,分歧却没有消失,只是从路线选择转向融合方式。原力灵机的范浩强认为,VLA与世界模型已经在走向“具身原生模型”;仉尚航把趋势称为从“一体化到自进化”;清华大学助理教授徐梦迪则强调,两者分别代表语言跟随能力和像素空间泛化能力,机器人需要同时进行多模态输入与输出。问题是,这种融合究竟以大语言模型为主干、吸收世界模型能力,还是从视频与交互数据出发训练原生多模态模型;是把规划、预测和动作放进一个统一模型,还是保留层次化、异步运行的模块,行业尚未形成标准答案。

学术路线之外,还有更尖锐的产业分歧:企业首先需要模型的“上限”,还是可部署的“下限”?王子为指出,制造业客户往往更信任经过长期验证、结果可预测的鲁棒方法。一个模型即使Benchmark亮眼,如果100次运行中失败1次,失败后的人工处置成本也可能超过机器人节省的劳动。对产业而言,能否100%重复5000次、能否在有限时间内完成任务,往往比一次零样本Demo更重要。这意味着VLA和世界模型都不能只证明“偶尔能做”,还要回答延迟、稳定性、恢复能力和真机成本。

星海图希望最迟在G0.7或G1.0阶段给出自己的融合答案,让语言、视觉、动作与物理预测不再是两套割裂的能力。但这场争论真正有价值之处,恰恰不是宣布某条路线胜出,而是迫使行业同时面对两个尺度:模型能否理解足够广阔的世界,以及它能否在狭窄的控制窗口里可靠地完成眼前动作。

Fast-WAM是这一融合路线中的关键技术试验。传统世界动作模型往往在推理时显式生成未来视频,物理推演能力更强,却因生成过程缓慢而难以满足真机实时控制。赵行团队的实验发现,模型收益主要来自训练阶段对未来视频的预测:这一过程让模型把潜在动作与潜在动力学编码进Token;真正部署时,并不需要把未来画面完整生成出来。于是Fast-WAM保留训练时的世界表征学习,移除推理时的视频预测,在基本不损失实际效果的情况下把推理速度提高约5倍。大会披露,其延迟已降至190毫秒,并可在消费级显卡上运行50亿至100亿参数的世界动作模型。

这种取舍指向具身智能与大语言模型不同的工程约束。机器人无法花很长时间“想清楚”再行动,因为物体会滑落、环境会变化、控制窗口会消失。圆桌嘉宾王子为对此概括为:不需要完整预测未来,只要能够“具有未来感知地行动”。Fast-WAM的价值,正是把世界模型的长程物理理解压缩进实时策略;而当这种物理智能与G系列的语义智能融合,Token才有机会从语言层面的调用量,变成可在真实世界连续兑现的动作与劳动。

无限游戏的更远端,是“超人”而非简单替人。在上午的数据圆桌上,清科智能创始人杨子江谈到AI for Science场景:机器人做实验不仅能替代科学家完成重复劳动,还可以搭载激光雷达、毫米波雷达以及超出人眼可见光谱的传感器,采集人类过去无法直接感知的数据;在有明确真实反馈的环境中,AI还能够自我迭代,发现人类未曾发现的材料和实验路径。他把这种能力称为“Super Human Intelligence”,认为数据价值可以因此被无限放大。

这为“超人”提供了更严谨的定义:不是做出夸张动作,也不是在所有维度击败人类,而是在特定任务中突破人的感知、耐力、精度、空间或风险承受边界。机器人可以进入高危能源设施成为远程化身,可以在实验室连续运行,可以在外太空或极端环境中长期作业,也可以借助不同于人的传感器形成新的认识世界的方式。具身智能的最终价值,不只是把现有劳动成本压低,而是创造过去不存在的生产力。

高继扬把更远的终局称为“可自我复制的生产力”:AI能够围绕任务设计身体,并参与复制自己的身体。这个目标显然仍十分遥远,却揭示了进化智能的想象边界。今天的机器人身体由工程师按照既有认知设计,未来的机器人形态可能由模型在任务、材料、能耗和环境约束下共同求解。届时,“人形”也许只是AI身体演化过程中的一个中间答案,而不是唯一答案。

从卖硬件到卖方案,再到卖Token,商业模式升级的前提始终只有一个:智能必须真实创造价值。若模型无法稳定完成任务,Token只是另一种计费包装;若机器人不能形成持续数据闭环,所谓无限增长也只是把大模型故事机械复制到物理世界。无限游戏之所以难,恰恰因为它必须建立在有限游戏的每一块硬骨头之上。

04.

坚持真实数据

在星海图的整套叙事中,真实数据不是一个技术分支,而是连接本体、模型和应用的中轴。

高继扬说,星海图从2023年创业时就判断,具身智能的长期壁垒在于物理世界的数据闭环。大语言模型的数据大多可以从互联网获得,具身智能所需的交互数据却并不存在于公开网页中。人怎样抓取柔软物体,如何在遮挡中调整手腕,怎样根据重量变化改变力度,机器失败后如何恢复,这些知识长期存在于人的身体和生产过程里,并没有被系统数字化。

因此,具身智能的数据规模仍远小于大语言模型。高继扬给出一个类比:人从出生到18岁,清醒并与物理世界交互的时间约为10万小时;100万小时相当于10个人类的学习时长,1000万小时相当于100个人。按照语言模型训练Token规模折算,他判断,百万至千万小时之间的某个数据量级,可能带来具身基础模型的突破性变化。星海图与北京亦庄提出的目标,是今年达到百万小时,未来三年达到千万小时。

为此,星海图与亦庄机器人、亦庄国投等共同发起亦数智能。北京亦庄机器人科技产业发展有限公司副总经理王一凡介绍,经开区以三层数据金字塔建设基础设施:顶层是真机数据,依托真实实训场采集;中层是轻量化本体数据,计划投入可穿戴终端,让普通人在生产生活中伴随式采集;底层是人类第一视角视频数据,并配套自动清洗、对齐和预标注工具链。亦数智能计划在12个月内生产100万小时高质量数据,覆盖至少5个核心垂类场景和7大行业类别。

图片

这套体系的关键词不是“大”,而是“真实、场景化、规模化”。过去常见的数采方式,是在封闭采集棚中让操作员重复预设动作。它便于管理,却可能导致环境单一、任务同质、成功样本过多,模型进入真实场景后容易失效。王一凡强调,亦庄开放家具、酒店、商超、工厂等真实场景,目的正是规避“棚开工厂式采集”带来的虚假和无效数据。高继扬也表示,数据放量将结合外包采集与众包采集:一部分人针对特定任务专门采集,另一部分人在正常工作和生活中佩戴设备,进行生产伴随式采集。

但真实不天然等于有效。多位嘉宾反复提醒,当数据从百万小时迈向千万小时,行业瓶颈会从“有没有”转向“会不会选、会不会用”。鲸跃智能创始人李广宇判断,每周模型迭代真正使用的数据仍然有限,长期壁垒可能与端侧模型实时分析和筛选数据的能力正相关。清华大学助理教授张焕晨则指出,数据基础设施不仅是把文件存进云端,还包括存储、检索、溯源、可视化、预处理和高效加载;如果数据管线喂不饱GPU,算力就会空转,数据处理成本甚至可能接近算力本身。

海天瑞声创始人李科补充,具身数据不仅要准确,还要一致。同一个动作,如果不同标注人员使用不同描述,模型很难建立稳定的语言与动作对应关系。因此,标注员培训、流程控制以及用大语言模型进行归一化,都会成为数据工业化的一部分。数量、质量、一致性、多样性和可追溯性共同决定有效数据量,简单堆时长并不能直接换来智能涌现。

真实数据与仿真数据也不是非此即彼。真实世界提供准确的动力学反馈、复杂分布和任务语境,是模型最终进入生产环境的根基;仿真则适合覆盖低频危险事件和失败边界。张焕晨举例,机器人端着热汤时遇到地面打滑,真实训练成本高且可能损坏设备,仿真可以低成本遍历异常情况。汪玉也指出,模仿学习适合把能力推到前沿,而进一步提升往往需要强化学习;真正的方向,是打通仿真、训练、推理、真机强化和端云协同,而不是用某一种数据替代全部数据。

星海图坚持真实数据,实质上是在押注物理世界的Scaling Law。高继扬把数据投入节奏形容为“1、5、20、100”,而不是“1、1.2、1.4”。在他看来,AI公司的支出不能沿用传统风险投资按五年均匀花钱的模型:今年投入1000万美元,明年可能就需要1亿美元。采集100万小时数据预计需要1亿至2亿元人民币,训练成本可能更高。融资路径取决于资本周期,支出路径则应跟随智能规模扩张,两者不能混为一谈。

这条路线也伴随新的安全与治理问题。高继扬强调,大语言模型数据多数是公开数据,而具身智能未来“99%是private data”。工厂里的工艺流程、老师傅的操作诀窍、家庭与商业空间中的视频,都可能包含企业核心资产和个人隐私。星海图从未把数据卖到海外,并表示所有市场化活动都应以法律法规为底线。随着采集规模扩大,数据确权、授权、脱敏、跨主体流通和收益分配,将不再是外围合规问题,而会成为具身智能能否扩张的基础制度。

更深一层看,真实数据构成的是产业主权。高继扬判断,中国不仅拥有硬件与零部件供应链优势,数据供应链优势也会在未来两三年凸显,两者叠加可能推动中国具身基础能力走到世界前列。这一判断仍需时间验证,但逻辑是成立的:具身智能的训练资料高度依赖真实产业场景,而中国拥有密集的制造、物流、零售和城市服务网络,也拥有把设备、人员、场景、平台与政策组织起来的能力。优势不会自动转化为领先,关键在于能否把分散活动沉淀为高质量、合规、可迭代的数据资产。

数据差异最终会沿着一条清晰链路传导。高继扬在群访最后概括:“数据的差异传导到模型能力的差异,再传导到应用层面效果的差异,再传导到商业层面价值的差异。”这句话解释了为什么,在行业都能采购相似电机、减速器和计算芯片之后,数据仍可能形成最难复制的壁垒。供应链让机器人拥有相近的身体,真实数据却让它们获得不同的经验。

当然,Scaling Law并非唯一可能。张焕晨提醒,除了堆积高质量数据,模型侧的颠覆性创新也可能显著提高数据效率。星海图G0.5把世界模型能力融入VLA路线,本身也是在尝试让模型“更会吃数据”。坚持真实数据,不应演变为对算法创新的忽视;更准确的理解是,在新的模型范式出现之前,行业必须先建设确定可行的数据基础,同时持续寻找更高效的学习方法。

05.

写在最后

这或许也是2026年具身智能最应保持的理性:既相信规模,又不迷信规模;既承认本体是起点,又不把出货当终点;既追逐通用智能的远景,也尊重厘米级精度、80%速度和真实场景里每一次失败。

机器人行业不会出现一个所有人同时感知到的“GPT时刻”。高继扬认为,它更可能随着能力边界逐个解锁场景,“润物细无声”地进入生产生活。若干年后,人们也许记不清机器人从哪一年开始普及,却会发现生产力的组织方式已经改变。

在那之前,有限游戏要一寸一寸打磨,无限游戏要一次一次验证,而连接二者的,仍是最朴素也最昂贵的东西:真实世界,真实任务,真实数据。

点击查看全文
评论赞0分享
轨迹
具身智能星海图

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4