具身智能的非共识和星海图的“有限游戏”、“无限游戏”

NE时代智能体更新于: 2026-06-26 10:08:51

◎ 从1万美元的本体，到以真实数据驱动的Token生意。

△ 撰文：张鑫

2026年的具身智能，正处在一个颇为微妙的时刻。

一边是资本、政策与产业链共同推高的热度：融资额、估值、订单、出货量和“全球第一”不断刷新；另一边是展厅里仍显迟缓的叠衣、分拣与抓取，是尚未统一的技术路线、评测体系和数据标准。机器人已经足够吸引眼球，却还没有充分证明自己能够稳定创造生产力。

在6月16日举行的“Build with Galaxea”星海图2026具身智能开发者大会上，这种张力几乎贯穿全天。星海图发布双足机器人Kengo，推进G0.5模型开源，与北京亦庄联合启动百万小时真实数据计划，并把商业模式划分为整机销售、方案订阅与Token销售三个阶段。表面看，这是一次企业技术与生态的集中发布；但把上午演讲、下午技术讨论以及高继扬的群访放在一起看，真正值得讨论的，是具身智能正在形成的一套产业分工：本体解决“机器如何存在”，模型解决“机器能做什么”，数据决定“机器能否持续进化”，应用则回答“智能究竟值多少钱，行业到底有没有泡沫”。

这也意味着，机器人行业过去习惯讨论的参数、形态和售价，正在被放进一个更大的坐标系。硬件仍然重要，甚至是所有故事的起点；但硬件的意义，越来越不在于卖出多少台机器，而在于它能否成为数据载体、智能载体和收费入口。真正的竞争，也将从看得见的钢铁躯壳，转向看不见的数据闭环与智能复利。

01.

机器人的分歧

机器人首先是一门关于“身体”的生意，但行业对身体应该长什么样，至今没有共识。

最直观的分歧，是轮式还是双足，是为任务设计专用本体，还是尽可能复刻人类形态。过去两年，人形机器人因其传播性和想象空间成为市场焦点，双足行走、跑跳、舞蹈和空翻频繁占据舞台中央。但高继扬在大会上给出的判断并不浪漫：星海图从创业之初相信的是“一脑多形”，双足人形只是其中一种形态；本体应该由智能的边界和任务需求定义，而不应因为人是双足，就盲目把机器人做成人形。

这解释了星海图为什么先做轮式双臂，再做双足。2024年，公司没有从更熟悉的软件和模型切入，而是先研发整机，并选择当时并非主流的轮式双臂。高继扬把这一思路概括为“智能定义本体”。在结构化空间里，地面平整、动线清楚、工位固定，轮式底盘更稳定、效率更高、成本也更可控。群访中他甚至直言：“在平地上有必要是双足吗？意义不大，还很吵，轮式挺好的。”因此，工业上下料、物流供包翻包、电商分拣打包等近期可落地场景，轮式双臂往往是更现实的选择。

但当目标从结构化空间走向非结构化空间，答案又会变化。建筑、农业、家庭和户外环境并非专门为机器改造，台阶、狭窄通道、复杂地形以及大量以人体尺度设计的设施，都要求本体具备更接近人的通过性和全身协调能力。高继扬解释，星海图决定研发Kengo，不是为了加入“跳舞”竞赛，而是为非结构化空间的生产力提前准备。轮式双臂解决当下更确定的任务，双足人形押注更远期、更开放的环境，这两者不是相互替代，而是不同时间尺度上的产品选择。

分歧的第二层，是机器人究竟应该先学会控制身体，还是先学会完成作业。星海图把具身智能拆为本能智能、作业智能和进化智能三层。本能智能让机器人驾驭自己的身体，保持平衡、行走、奔跑，并与环境和物体交互；作业智能让机器人理解语言指令，操作世界并形成生产力；进化智能则更进一步，让AI参与设计机器人的身体，使形态不再完全由工程师预先规定。

星海图首席科学家赵行认为，人形机器人和传统工业机器人最大的不同，在于人形本体先被赋予大量冗余自由度，再通过智能协调关节。传统的规则与控制算法难以覆盖这种复杂性，因此需要用AI建立“可复用、可调用、可泛化”的身体基础能力。星海图的Project Instinct及其I系列模型，正沿着这条路线推进：从跑酷等全身控制，走向与台阶、座椅、工作台和大型物体的交互，最终让运动与作业的边界逐渐模糊。

与此同时，作业智能采取的是另一套技术配方。高继扬在群访中解释，现阶段无论VLA还是世界模型，作业智能仍以模仿学习为主、强化学习为辅；本能智能则以强化学习为主，加入模仿成分。前者学习人如何完成任务，后者在大量试错中寻找更优的身体控制策略。两条路径最终会融合，但在今天，把会跑会跳等同于“具身大脑”，或者把会抓取等同于“通用智能”，都为时过早。

高继扬对此作了一个颇为坦率的区分：展厅里挥手、踢球、空翻等能力，大多由小模型实现，并不是他所说的具身大脑；真正的具身大脑，是用大规模数据预训练，经过少量任务微调，就能执行分包、供包、零部件分拣等任务，并遵循语言指令。这一判断戳破了当前行业最容易混淆的两件事：动作的观赏性与智能的通用性，不是一回事；单个Demo的完成度与可规模复制的生产力，也不是一回事。

分歧的第三层，才是最关键的：具身智能究竟是制造业，还是人工智能产业？如果它首先是一门制造业生意，竞争重点就是可靠性、良率、成本、产能和交付；如果它首先是人工智能生意，核心指标则是数据规模、模型能力、泛化效率和迭代速度。星海图的答案是两者都要，但价值重心会迁移。高继扬说，具身智能不是纯软件AI，整机和智能缺一不可；但从研发投入看，智能的投入可能比整机高一个数量级。

这不是轻视硬件，而是重新定义硬件。整机既是智能的数据载体，也是智能的商品载体。大语言模型诞生时，互联网已经积累了海量数字化内容，电脑和手机也天然成为模型触达用户的终端；具身智能没有这样的先天条件。物理世界的大量操作尚未数字化，也缺少统一承载模型、采集反馈的终端。因此，机器人本体必须同时承担采数据、跑模型、进场景和收费用的任务。

于是，“轮式还是双足”的争论，最终不应停留在形态审美上。真正的问题是：在特定场景和技术阶段，哪一种身体能以更低代价产生更多有效数据，承载更强智能，并形成正向商业闭环。只有回到这个问题，机器人的形态分歧才会从舆论场里的站队，变成可以验证的工程与商业判断。

02.

“有限游戏”，1万美金的本体

高继扬在群访中提出了一个极具产业意味的判断：“整机和供应链是一个有限游戏，智能和应用才是无限游戏。”

所谓有限，不是说硬件市场很小，也不是说供应链不重要，而是说硬件竞争存在明确边界。电机、减速器、控制器、结构件和装配工艺不断成熟后，性能趋同，成本下降，利润空间会被规模化制造逐步压缩。高继扬预计，无论双足人形还是轮式双臂，未来两年左右，整机成本将稳定在1万美元上下，甚至可能更低。这一数字未必会精确落在每一家公司的产品上，却揭示了供应链演进的方向：本体会从稀缺昂贵的展示品，变成更接近标准化计算终端的基础设施。

但“1万美金”并不自动等于商业化拐点。低价只能解决机器能否被买得起，不能回答机器买回去能做什么。正如高继扬所说，“这个成本并不决定它的商业化能力，它的商业化潜力来自于它的大脑，它能干什么活、能干什么事。”如果机器人只能展演、遥控或在高度定制的环境中完成单一动作，再低的售价也可能只是一次设备采购；如果它能稳定承担岗位、持续学习并跨任务复用，硬件才会变成智能价值的入口。

高继扬算了一笔账：发达国家一名劳动力的综合年成本约为4万至5万美元，假设机器人硬件成本为1万美元，并以一年回本计算，剩余3万至4万美元的空间可以由智能分享。这里最值得注意的，不是具体数值，而是计价逻辑的变化。客户最终不会为电机转了多少圈、机械臂有多少自由度持续付费，而会为一个岗位是否被完整承担、一个流程是否被稳定重构付费。硬件价格决定采用门槛，智能能力决定价值上限。

有限游戏也必须先玩好。没有可靠本体，再强的模型也无法在物理世界兑现；没有一致的动力学表现，训练出的策略很难迁移；没有可维护、可量产的供应链，数据闭环和应用扩张都无从谈起。星海图提出“智能定义本体，本体定义模组”，正是在强调软硬件之间的反向约束。高继扬认为，动力模组不仅影响负载和寿命，也会直接影响模型表现；未来三至五年，动力模组可能仍占整机物料成本的40%至45%。这也是星海图选择自研或与产业链共研大量动力单元的原因。

Kengo的技术选择体现了这种思路。高继扬介绍，其整机通信采用EtherCAT方案，以获得更好的同步性，但这也要求中空走线、电机电磁仿真和减速器设计同步调整。也就是说，所谓“智能定义本体”并非一句抽象口号，它会落到通信实时性、关节一致性、传感器反馈和机械结构等具体工程细节上。模型希望获得什么样的控制频率和反馈质量，会反过来决定模组如何设计。

问题在于，当行业处在第一阶段，企业很容易把有限游戏误当成终局。销量、产能、订单额都便于统计，也更容易向资本市场讲述。于是，尚未成熟的智能能力可能被大额框架订单和工厂Demo包装，硬件出货被当成商业化完成的证明。对此，高继扬的态度相当克制：星海图并非不做商业化，而是不追求在整机销售阶段争夺“绝对第一”。在他看来，这一阶段为冲量而冲量，“更多是负债，而不是资产”。

这句话需要放在产业现实中理解。机器人进入真实生产环境后，客户关心的是节拍、良率、稳定性、维护成本和投资回报。一个技术尚未达到要求的项目，被外部因素强行部署，往往意味着大量现场工程师、供应商和客户资源被绑定在低效率交付中。短期确认的收入，可能对应长期的定制负担；短期的出货规模，也可能形成无法复用的技术债。高继扬因此强调“从开发者到生产力”：当前真正被市场验证的，主要是开发者市场和展演展示市场；当模型能力跨过生产阈值，商业化才会进入下一阶段。

这一阶段性判断，也提供了一把审视行业泡沫的尺子。泡沫并不只是估值过高，更是商业叙事跑在能力边界之前。高继扬承认，新产业发展一定伴随泡沫，企业要利用资本上行期获取资金和注意力，同时为市场“验成果”的时刻做准备。星海图提出“务实创新”，其含义不是降低技术野心，而是把资源集中在能解决问题的创新上。他借用“结硬寨，打呆仗”形容这种节奏：承认硬件、模型、数据和应用都没有捷径，按产业成熟度正面推进。

有限游戏的终点，不是硬件消失，而是硬件成为稳定底座。当本体成本降到足够低、可靠性达到足够高、接口与模组逐步标准化，行业竞争的主战场才会真正上移。那时，卖出一台机器人只是关系的开始，而不是交易的结束。

03.

“无限游戏”，卖Token、打造“超人”

如果说1万美元的本体决定机器人能否普及，那么“无限游戏”讨论的是：一台机器在其生命周期里，能够创造多少持续增长的智能价值。

高继扬把具身智能商业模式分为三个阶段。第一阶段是整机销售，客户主要是科研机构、开发者、场景应用方和展演市场，收入随硬件交付产生；第二阶段是方案订阅，当智能在某一生产场景中被验证，整机成为收费入口，企业依靠持续提供智能方案获得主要毛利；第三阶段是Token销售，当模型从单场景走向多场景、多任务通用，计价单元从一套方案转向智能调用量。

三个阶段的增长逻辑完全不同。高继扬给出的判断是，整机销售阶段的自然年增长率约为30%至100%；方案订阅阶段可能达到每年3至10倍；Token阶段则可能达到每年10至100倍。前期像制造业，增长受产能、供应链和交付约束；中后期像人工智能产业，模型可以在大量终端上复制，边际成本和价值创造方式发生变化。所谓无限，不是没有成本，而是智能具备“学得越多越聪明”的规模效应，价值不再与制造数量一一绑定。

这与传统工业的“造得越多越便宜”构成根本区别。制造规模扩大，主要带来采购、工艺与产能利用率的改善；模型规模扩大，则可能在数据反馈、能力泛化和任务迁移之间形成复利。机器人每完成一次任务，都有机会产生新的真实数据；新的数据进入训练，提升模型能力；更强模型解锁更多场景，带来更多终端和更多数据。只有这条飞轮真正转起来，具身智能才从一次性设备生意变成持续进化的智能网络。

但物理世界的Token比文本Token更复杂。它不仅要生成答案，还要在实时约束下驱动电机、处理传感器反馈，并为动作后果负责。一次抓取失败可能只是效率损失，一次搬运或高危场景中的错误却可能造成设备与人身风险。因此，具身智能的Token定价不可能只看调用次数，还会与任务难度、实时性、成功率、安全责任和创造的经济价值有关。未来企业卖的或许不是抽象Token，而是被Token驱动的“有效劳动”。

这也是“完整一个岗位”比“替代一个动作”更重要的原因。单一动作容易被专机、传统自动化或定制算法解决；岗位却包含感知、判断、操作、异常处理和跨任务协同。机器人只有把多个技能组织成有序作业流程，才能释放稳定生产力。高继扬把作业智能定义为以语言作为主要接口，让机器人根据指令完成一系列动作和任务，其实是在为物理世界建立类似软件Agent的调用方式。

从近期看，这种生产力会沿着精度和速度边界逐层展开。高继扬将当前基础模型能力概括为厘米级精度、约80%的人类操作速度，以及用不超过100条新增数据学习新任务的泛化能力。对应的可用场景，是上下料、搬运、供包、翻包、分拣和打包。操作精度从厘米级提升到毫米级后，插拔、线束、装配、检测等更精细的制造任务才会陆续打开；当本能智能与作业智能融合，机器人才能进一步走向建筑、农业等非结构化环境。

这里尤其要区分预训练与后训练。面对展厅里动作偏慢的质疑，高继扬解释，大规模预训练主要解决泛化问题：机器人到一个新场景，面对一个新任务，不新增数据也能够理解并尝试完成，哪怕速度较慢；后训练则像工人上岗前的岗位培训，用针对性数据提高执行速度和稳定性。数据规模上升不会自动让每个动作变快，却可能让机器人从“只会一道题”走向“看得懂新题”。

在G0.5之后，星海图给出的模型路线图是G0.7与G1.0。赵行表示，公司计划在2026年下半年发布G0.7，在2027年上半年推进G1.0：G0.7的目标是获得更强的泛化操作能力，G1.0则希望成为“一个真正的机器人智能体”。这组版本号背后的升级重点，不是单纯增加参数，而是让机器人从理解一条指令、完成一个动作，走向对长程任务的自主拆解、连续执行和动态纠错。

这条路线还牵涉当前具身模型领域最重要的观点分歧：VLA与世界模型，究竟谁更接近通用机器人的“正确底座”？赵行把两者的分工概括得很清楚：VLA更擅长语言和语义，赋予机器人“语义智能”；World Action Model更理解视觉中的物理规律，赋予机器人“物理智能”。前者知道人想让它做什么，并把语言意图转译为动作；后者更接近理解动作发生之后，物体、环境和机器人自身会怎样变化。

支持VLA的逻辑，来自大语言模型已经验证的泛化能力。语言可以把不同任务压缩到统一接口中，使机器人理解“轻轻放下”“抓住把手再往上抬”等细粒度指令，也可以借助思维链拆解长程任务。G0.5正沿着这条路线，把语言、图像、思维链和动作离散为同一数据流，以统一的自回归架构实现“边想边干”。但VLA的短板同样明显：它通常从数字世界的大语言模型迁移而来，未必天然理解摩擦、惯性、遮挡、碰撞和失败恢复，也难以保证同一动作数千次重复执行的稳定性。

世界模型的支持者则认为，机器人首先要理解物理世界，而不仅是听懂语言。基于海量视频训练的模型能够学习像素变化、时间演化和潜在动力学，并对动作后果进行预测，更适合处理长尾状态和环境变化。北京大学仉尚航提出，直接把已经在数字世界实现Scaling Law的模型拿来充当物理世界底座，未必能把知识真正传递到Action层；具身智能可能需要围绕交互和动作重新设计原生基座模型。但世界模型也有自己的硬约束：视频缺少显式动作信号，因果关系难以从相关性中分离，而显式生成未来又会带来高延迟和高算力成本。

因此，嘉宾们的共识是“最终会融合”，分歧却没有消失，只是从路线选择转向融合方式。原力灵机的范浩强认为，VLA与世界模型已经在走向“具身原生模型”；仉尚航把趋势称为从“一体化到自进化”；清华大学助理教授徐梦迪则强调，两者分别代表语言跟随能力和像素空间泛化能力，机器人需要同时进行多模态输入与输出。问题是，这种融合究竟以大语言模型为主干、吸收世界模型能力，还是从视频与交互数据出发训练原生多模态模型；是把规划、预测和动作放进一个统一模型，还是保留层次化、异步运行的模块，行业尚未形成标准答案。

学术路线之外，还有更尖锐的产业分歧：企业首先需要模型的“上限”，还是可部署的“下限”？王子为指出，制造业客户往往更信任经过长期验证、结果可预测的鲁棒方法。一个模型即使Benchmark亮眼，如果100次运行中失败1次，失败后的人工处置成本也可能超过机器人节省的劳动。对产业而言，能否100%重复5000次、能否在有限时间内完成任务，往往比一次零样本Demo更重要。这意味着VLA和世界模型都不能只证明“偶尔能做”，还要回答延迟、稳定性、恢复能力和真机成本。

星海图希望最迟在G0.7或G1.0阶段给出自己的融合答案，让语言、视觉、动作与物理预测不再是两套割裂的能力。但这场争论真正有价值之处，恰恰不是宣布某条路线胜出，而是迫使行业同时面对两个尺度：模型能否理解足够广阔的世界，以及它能否在狭窄的控制窗口里可靠地完成眼前动作。

Fast-WAM是这一融合路线中的关键技术试验。传统世界动作模型往往在推理时显式生成未来视频，物理推演能力更强，却因生成过程缓慢而难以满足真机实时控制。赵行团队的实验发现，模型收益主要来自训练阶段对未来视频的预测：这一过程让模型把潜在动作与潜在动力学编码进Token；真正部署时，并不需要把未来画面完整生成出来。于是Fast-WAM保留训练时的世界表征学习，移除推理时的视频预测，在基本不损失实际效果的情况下把推理速度提高约5倍。大会披露，其延迟已降至190毫秒，并可在消费级显卡上运行50亿至100亿参数的世界动作模型。

这种取舍指向具身智能与大语言模型不同的工程约束。机器人无法花很长时间“想清楚”再行动，因为物体会滑落、环境会变化、控制窗口会消失。圆桌嘉宾王子为对此概括为：不需要完整预测未来，只要能够“具有未来感知地行动”。Fast-WAM的价值，正是把世界模型的长程物理理解压缩进实时策略；而当这种物理智能与G系列的语义智能融合，Token才有机会从语言层面的调用量，变成可在真实世界连续兑现的动作与劳动。

无限游戏的更远端，是“超人”而非简单替人。在上午的数据圆桌上，清科智能创始人杨子江谈到AI for Science场景：机器人做实验不仅能替代科学家完成重复劳动，还可以搭载激光雷达、毫米波雷达以及超出人眼可见光谱的传感器，采集人类过去无法直接感知的数据；在有明确真实反馈的环境中，AI还能够自我迭代，发现人类未曾发现的材料和实验路径。他把这种能力称为“Super Human Intelligence”，认为数据价值可以因此被无限放大。

这为“超人”提供了更严谨的定义：不是做出夸张动作，也不是在所有维度击败人类，而是在特定任务中突破人的感知、耐力、精度、空间或风险承受边界。机器人可以进入高危能源设施成为远程化身，可以在实验室连续运行，可以在外太空或极端环境中长期作业，也可以借助不同于人的传感器形成新的认识世界的方式。具身智能的最终价值，不只是把现有劳动成本压低，而是创造过去不存在的生产力。

高继扬把更远的终局称为“可自我复制的生产力”：AI能够围绕任务设计身体，并参与复制自己的身体。这个目标显然仍十分遥远，却揭示了进化智能的想象边界。今天的机器人身体由工程师按照既有认知设计，未来的机器人形态可能由模型在任务、材料、能耗和环境约束下共同求解。届时，“人形”也许只是AI身体演化过程中的一个中间答案，而不是唯一答案。

从卖硬件到卖方案，再到卖Token，商业模式升级的前提始终只有一个：智能必须真实创造价值。若模型无法稳定完成任务，Token只是另一种计费包装；若机器人不能形成持续数据闭环，所谓无限增长也只是把大模型故事机械复制到物理世界。无限游戏之所以难，恰恰因为它必须建立在有限游戏的每一块硬骨头之上。

04.

坚持真实数据

在星海图的整套叙事中，真实数据不是一个技术分支，而是连接本体、模型和应用的中轴。

高继扬说，星海图从2023年创业时就判断，具身智能的长期壁垒在于物理世界的数据闭环。大语言模型的数据大多可以从互联网获得，具身智能所需的交互数据却并不存在于公开网页中。人怎样抓取柔软物体，如何在遮挡中调整手腕，怎样根据重量变化改变力度，机器失败后如何恢复，这些知识长期存在于人的身体和生产过程里，并没有被系统数字化。

因此，具身智能的数据规模仍远小于大语言模型。高继扬给出一个类比：人从出生到18岁，清醒并与物理世界交互的时间约为10万小时；100万小时相当于10个人类的学习时长，1000万小时相当于100个人。按照语言模型训练Token规模折算，他判断，百万至千万小时之间的某个数据量级，可能带来具身基础模型的突破性变化。星海图与北京亦庄提出的目标，是今年达到百万小时，未来三年达到千万小时。

为此，星海图与亦庄机器人、亦庄国投等共同发起亦数智能。北京亦庄机器人科技产业发展有限公司副总经理王一凡介绍，经开区以三层数据金字塔建设基础设施：顶层是真机数据，依托真实实训场采集；中层是轻量化本体数据，计划投入可穿戴终端，让普通人在生产生活中伴随式采集；底层是人类第一视角视频数据，并配套自动清洗、对齐和预标注工具链。亦数智能计划在12个月内生产100万小时高质量数据，覆盖至少5个核心垂类场景和7大行业类别。

这套体系的关键词不是“大”，而是“真实、场景化、规模化”。过去常见的数采方式，是在封闭采集棚中让操作员重复预设动作。它便于管理，却可能导致环境单一、任务同质、成功样本过多，模型进入真实场景后容易失效。王一凡强调，亦庄开放家具、酒店、商超、工厂等真实场景，目的正是规避“棚开工厂式采集”带来的虚假和无效数据。高继扬也表示，数据放量将结合外包采集与众包采集：一部分人针对特定任务专门采集，另一部分人在正常工作和生活中佩戴设备，进行生产伴随式采集。

但真实不天然等于有效。多位嘉宾反复提醒，当数据从百万小时迈向千万小时，行业瓶颈会从“有没有”转向“会不会选、会不会用”。鲸跃智能创始人李广宇判断，每周模型迭代真正使用的数据仍然有限，长期壁垒可能与端侧模型实时分析和筛选数据的能力正相关。清华大学助理教授张焕晨则指出，数据基础设施不仅是把文件存进云端，还包括存储、检索、溯源、可视化、预处理和高效加载；如果数据管线喂不饱GPU，算力就会空转，数据处理成本甚至可能接近算力本身。

海天瑞声创始人李科补充，具身数据不仅要准确，还要一致。同一个动作，如果不同标注人员使用不同描述，模型很难建立稳定的语言与动作对应关系。因此，标注员培训、流程控制以及用大语言模型进行归一化，都会成为数据工业化的一部分。数量、质量、一致性、多样性和可追溯性共同决定有效数据量，简单堆时长并不能直接换来智能涌现。

真实数据与仿真数据也不是非此即彼。真实世界提供准确的动力学反馈、复杂分布和任务语境，是模型最终进入生产环境的根基；仿真则适合覆盖低频危险事件和失败边界。张焕晨举例，机器人端着热汤时遇到地面打滑，真实训练成本高且可能损坏设备，仿真可以低成本遍历异常情况。汪玉也指出，模仿学习适合把能力推到前沿，而进一步提升往往需要强化学习；真正的方向，是打通仿真、训练、推理、真机强化和端云协同，而不是用某一种数据替代全部数据。

星海图坚持真实数据，实质上是在押注物理世界的Scaling Law。高继扬把数据投入节奏形容为“1、5、20、100”，而不是“1、1.2、1.4”。在他看来，AI公司的支出不能沿用传统风险投资按五年均匀花钱的模型：今年投入1000万美元，明年可能就需要1亿美元。采集100万小时数据预计需要1亿至2亿元人民币，训练成本可能更高。融资路径取决于资本周期，支出路径则应跟随智能规模扩张，两者不能混为一谈。

这条路线也伴随新的安全与治理问题。高继扬强调，大语言模型数据多数是公开数据，而具身智能未来“99%是private data”。工厂里的工艺流程、老师傅的操作诀窍、家庭与商业空间中的视频，都可能包含企业核心资产和个人隐私。星海图从未把数据卖到海外，并表示所有市场化活动都应以法律法规为底线。随着采集规模扩大，数据确权、授权、脱敏、跨主体流通和收益分配，将不再是外围合规问题，而会成为具身智能能否扩张的基础制度。

更深一层看，真实数据构成的是产业主权。高继扬判断，中国不仅拥有硬件与零部件供应链优势，数据供应链优势也会在未来两三年凸显，两者叠加可能推动中国具身基础能力走到世界前列。这一判断仍需时间验证，但逻辑是成立的：具身智能的训练资料高度依赖真实产业场景，而中国拥有密集的制造、物流、零售和城市服务网络，也拥有把设备、人员、场景、平台与政策组织起来的能力。优势不会自动转化为领先，关键在于能否把分散活动沉淀为高质量、合规、可迭代的数据资产。

数据差异最终会沿着一条清晰链路传导。高继扬在群访最后概括：“数据的差异传导到模型能力的差异，再传导到应用层面效果的差异，再传导到商业层面价值的差异。”这句话解释了为什么，在行业都能采购相似电机、减速器和计算芯片之后，数据仍可能形成最难复制的壁垒。供应链让机器人拥有相近的身体，真实数据却让它们获得不同的经验。

当然，Scaling Law并非唯一可能。张焕晨提醒，除了堆积高质量数据，模型侧的颠覆性创新也可能显著提高数据效率。星海图G0.5把世界模型能力融入VLA路线，本身也是在尝试让模型“更会吃数据”。坚持真实数据，不应演变为对算法创新的忽视；更准确的理解是，在新的模型范式出现之前，行业必须先建设确定可行的数据基础，同时持续寻找更高效的学习方法。

05.

写在最后

这或许也是2026年具身智能最应保持的理性：既相信规模，又不迷信规模；既承认本体是起点，又不把出货当终点；既追逐通用智能的远景，也尊重厘米级精度、80%速度和真实场景里每一次失败。

机器人行业不会出现一个所有人同时感知到的“GPT时刻”。高继扬认为，它更可能随着能力边界逐个解锁场景，“润物细无声”地进入生产生活。若干年后，人们也许记不清机器人从哪一年开始普及，却会发现生产力的组织方式已经改变。

在那之前，有限游戏要一寸一寸打磨，无限游戏要一次一次验证，而连接二者的，仍是最朴素也最昂贵的东西：真实世界，真实任务，真实数据。

点击查看全文

评论赞0分享

版权所有：	上海恩翌信息科技有限公司
联系人1：	NE时代-小恩
联系电话：	188-1775-0862
备案许可号：	沪ICP备17041240号-4

NE时代

具身智能的非共识和星海图的“有限游戏”、“无限游戏”

NE时代武慧：具身智能是汽车产业的新机会，但不是简单复制

黑芝麻智能与上实科技达成战略合作，共建具身智能生态，共筑香港机器人创新平台

牵手中国顶尖“大脑”，舍弗勒加速构建具身智能技术闭环

舍弗勒与千寻智能签订战略合作协议，携手推进具身智能产业发展

10个月融了10个亿，这支人工智能“国家队”用世界模型重新定义具身智能

为什么VLA与世界模型都不是具身智能的终局？

无问智科与无界动力达成全面战略合作，共同推动具身智能产业繁荣发展

天机智能完成10亿元融资，高瓴、美团联合领投，加速打造全球领先的具身智能基础设施平台

阿里达摩院与国家人工智能应用中试基地（具身智能）达成战略合作

遥操已死？具身智能「数据」供给争夺战

NE专栏

NE活动

快讯

欢迎关注我们！