< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Generalist最新长文定调：具身原生才是正道，原力灵机已交卷

Jay 2026-04-08 18:50:51 来源：量子位

2026年，是具身原生元年

Jay 发自凹非寺

量子位 | 公众号 QbitAI

Generalist AI的GEN-1热度，仍在发酵。

自节前那场引爆全网的Demo之后，昨日，创始人Pete Florence与团队，正式释出了GEN-1的技术博客。

与其说这是一篇技术分享，不如说这是一篇「教同行做事」的檄文。

一点甲不叠，上来就毫不留情地否定了当前炙手可热的世界模型与VLA之争。

直言所有关于技术路线的争论都是浪费时间。

现在关于「世界模型」的讨论，其实是由各种想法在驱动，确实很令人兴奋。
但问题是，你的目标是什么？

在他们看来，具身智能的关注点，应该回归到「目标」本身。

这正是Generalist选择「离经叛道」的根本原因。

完全不依赖任何已有路线。不走微调VLM加动作头的捷径，也不宣称自己是世界模型。

直接基于真机数据从零开训。

GEN-1大约99%的参数，都是从零开始训练的。

Generalist强调，这才是促成GEN-1实现飞跃的核心机密，也是他们真正想与行业分享的洞见。

这是他们从第一性原理出发，得出的最终答案：

想要实现物理AGI，最好的方式，或许就是「从零训练」这条看似不好走的路。

如果用原力灵机的话说，这叫「具身原生」。

△原力灵机CEO唐文斌在2026技术开放日现场

是的，这条路线其实并非GEN-1首创。

就在两个月前，这家来自中国的具身智能新星，就已经用同样的逻辑，举办了一场「具身原生」主题的技术开放日，交出了一份惊艳的答卷。

原力灵机，具身原生大模型DM0，RoboChallenge真机评测全球第一。

所以，具身原生，到底有什么魔力？

GEN-1引爆具身GPT-3时刻

GEN-1的发布，无疑是2026年春节后，具身智能行业的第一次「大地震」。

创始人Pete Florence将其称为「GPT-3时刻」。

在多个任务中，该模型的成功率超过99%，完成任务的速度比此前最先进的模型快了大概3倍，甚至涌现出Failure Recovery（故障恢复）的能力。

用实际demo表现，验证了机器人领域的Scaling Law。

而此次Generalist在技术博客中的「暴论」，又在行业中掀起了一波余震。

只要数据和算力够，从零训，永远是赢家。

这句话放在2024年说，大概率会被当成疯话。

彼时VLA风潮席卷全球，拿一个预训练好的视觉语言模型，接上动作头微调一下，是兼顾效率和效果的公认最优解。

到了2026年初，世界模型又成了新的流量密码。

Generalist偏偏不站队。

他们从来没把自己的模型叫VLA，但也不宣扬自己是世界模型。

事实上，他们至今也没说自己是个什么技术路线，也不想去刻意贴标签。

但有一点却是无比清楚：无论靠什么方式，即便是「离经叛道」，他们也要彻底实现物理AGI。

GEN-1的博客引用了John Schulman的观点，犀利地划分了「想法驱动」与「目标驱动」两种研究范式。

前者，是雇佣兵。追涨杀跌，哪个方法火就选哪个，只为眼前的战功。

后者，是传教士。选定一个终极目标，然后埋头苦行，坚定不移地前行，扫清挡在路上的一切障碍。

Generalist选了后者。

基于这个第一性原理，Generalist做出了那个看似疯狂的决定——

不基于任何现有的基础模型，直接拿原始数据，冷启动。

在这方面，Generalist表现出了近乎偏执的「完美主义」。

在他们看来，微调别人的模型，意味着从第一行代码开始，天花板就被别人锁死了。

知识边界、认知能力、甚至底层的缺陷，都已注定，无法更改。

Generalist想要赌的，是明天。

而站在未来的时间节点回望，你会惊觉：

无论是VLM、VLA，还是世界模型，本质上都只是标签，数据匮乏时期的「拐杖」。

关键问题在于，当「身体」恢复健康、肌肉足够强壮后，我们还需要拐杖吗？

供给端的版图永远在日新月异。

这正是这场比赛最惊心动魄的地方。

就像F1赛车，规则制定者会刻意限制车胎耐久标准，正是在这些Trade-off（权衡）的极限施压下，才催生出无数截然不同的夺冠策略。

在LLM领域，虽然互联网数据不再是瓶颈，但算力成为了新的紧箍咒。

这才造就了OpenAI、Anthropic、DeepMind各自基于不同哲学思考，走出了截然不同的进化路线，因为资源只够他们选一条去All in。

因此，基于第一性原理做出的长期主义战略判断，才会更显得尤为珍贵。

最难的不是应对变化，而是在风云诡谲的环境中，找到那个屹立不变的锚点。

你不仅要计算当前的限制，更要预判这些限制将如何不可避免地发生崩塌。限制变化得越快，这种预判就越重要。

而在Generalist看来，机器人数据不够，仅仅是暂时的限制。

进入2026年，事实证明，这项限制条件，确实被改写了。

Generalist已经积累了超过50万小时的物理交互数据。

当原生数据足够丰富时，所有辅助手段终将被扫进历史的垃圾堆。

在他们看来，只有具身原生，从零开训这个「从无到有」的概念，是为那个即将到来的新世界而生的。

不过，GEN-1可能并非第一个具身原生模型。

在中国，同样有家All in这个概念的明星具身公司，并且早在今年2月份便高调发布过。

DM0，首个具身原生模型

一起再来看看原力灵机的这份成绩单吧。

DM0，RoboChallenge真机评测，双项全球第一。

单任务成功率：62%
多任务成功率：37.3%

排在它身后的，是Pi0.5、Pi0等一众明星模型。

而取得这一成绩的，仅仅是一个2.4B参数的模型。并且已全面开源。

2.4B是什么概念？

在大模型的军备竞赛中，这个参数量几乎可以被忽略不计。

但结果却令人哗然。

对于这个结果，原力灵机合伙人周而进在与「智能相对论」的对话中，淡定地表示：

在机器人领域，无脑堆参数量这件事非常荒诞。

周而进一针见血地指出，参数并非第一性原理。

事实上，一旦找到了真正「原生」的路线，现有具身数据量根本无法支撑起一个大参数模型。

那么，DM0所说的「原生」，到底「原生」在哪？

可以分为三个层面——

首先，是数据原生，这是拉开差距的关键。

当前行业的普遍做法是：下载一个预训练好的VLM，然后外挂一些机器人操作数据进行微调。

快是快，但问题同样致命：模型压根没见过关节电机长什么样。

它只是看过一些互联网数据，背诵了关于机械动作的文字描述。仅此而已。

这种「死记硬背」导致了大量无意义的训练，最终带来参数膨胀。

这或许是一种参数层面的「幻觉」。

如果模型只是针对单一机型记忆「拿起瓶子」时，每个关节该转多少度，那么一旦换一台硬件，它将束手无策。

因此，DM0走了完全不同的路。

它的训练数据融合了三类来源:

多模态互联网数据：奠定语义理解和常识推理的基座能力。
驾驶数据：赋予模型对物理世界的时空推理与动态感知。
具身传感数据：涵盖视觉、触觉、力觉等多维度信息，让模型真正「触摸」到这个世界。

模型的输入端，不再仅仅是图像和文字，更包含了机器人实操的具身轨迹数据。

两类数据共同优化，迫使模型同时学会「看懂世界」和「动手操作」。

这是一种极其聪明的做法，在让数据结构更立体的同时，也巧妙地实现了数据规模的Scaling。

在具体采集策略上，原力灵机的「原生」第一性原理同样体现得淋漓尽致——

正是因为完全目标导向，所以手段可以相当灵活。

比如对仿真数据的态度。

仿真数据量大管饱，但在精细操作场景中价值有限。例如「装水」任务，液体一晃，整个瓶子的质心就在变化，仿真环境难以准确建模。

因此，原力灵机在室内导航、刚性物体抓取等方面利用仿真数据，但在精细操作层面，则坚决侧重真机。

追求Scaling，但不迷信数据量，而是让每一份数据都发挥最大价值。

这恰好与Generalist在GEN-1博客中的判断形成呼应：供给端是会变化的，你要为即将到来的世界而构建。

其次是训练原生。

DM0将「理解世界」、「操作世界」、「预测世界」三种能力统一训练。

它不是先训练一个VLM，再接一个动作头（Action Head），而是从第一天起，就让这三种能力在同一个模型体内共同生长、相互塑造。

模型的设计紧贴真实世界需求，评价标准是真机效果，奖励函数来自真实场景的实践反馈。

第三是架构原生。

DM0采用天然支持多模态的架构设计，将力觉、触觉等维度的信息直接融入模型核心，而非外挂式地拼接传感器模块。

同时，它具备原生记忆能力，为长序列任务的执行提供坚实支撑。

三个「原生」叠加在一起，指向一个反直觉结果：模型虽小，却异常泛化。

对具身智能来说，泛化性是真正的试金石。

原力灵机将其拆解为四个维度：

对象泛化：同样是抓取，换个形状、材质、大小，照样能稳稳拿起。
场景泛化：在A车间能干活，搬到B车间也绝不掉链子。
任务泛化：不只局限于被教过的几个动作，更能自主排列组合，将简单动作串联成复杂的长程任务。
机型泛化：即便换一台胳膊更长、关节更多的机器人，也能直接驱动其上手干活。

四个维度，缺一不可。

而DM0，从第一天就在为这四个维度做准备。

原力灵机没有像行业里很多团队那样，先针对一种机型训一个专用模型，跑通demo再说。

DM0在预训练阶段就同时混合了操作、导航、全身控制三类任务，覆盖了8种构型迥异的机器人硬件。

相当「粗暴」。

这相当于对模型说：你不是喜欢死记硬背吗？

好，我把所有任务和所有本体混杂在一起扔给你——来，背！

事实证明，这一策略成功锁死了模型想通过死记硬背走捷径的念头。

「混乱」中，原力灵机倒逼模型不再执着于电机参数，转而去理解每次操作背后通用的逻辑和物理规律。

智能，就这样从原生的物理交互中，自然而然地生长了出来。

2.4B参数，RoboChallenge双项全球榜首。

2026年，是具身原生元年

GEN-1的博客里有句话，目标比方法更强大。

过去两年，行业最高频的问题是：机器人什么时候能进厂干活?

但或许，比这个问题更值得关注的是：

机器人什么时候能找到进厂干活的正确方法?

Generalist用GEN-1给出了答案。

从零训练原生模型，摒弃一切拐杖的「借力」，可能才是通往终局的唯一路线。

无独有偶，原力灵机的DM0，同样不约而同地在今年踏上了这条少有人走的路。

2026年或许不是具身智能的元年。但GEN-1和DM0的出现，正在为2026年烙上一个新标签：

具身原生元年。

Jay

DeepSeek招聘被「华为天才少年」公开吐槽，“面到最不专业的”2026-07-07
真·QQ飞车！「电动版F1」上海开赛，Gemini在线解说2026-07-06
金融AI武道大会开赛！四道业务真题，出题人：猜不到最优解2026-07-01
AI当老板，快给10家公司干破产了…2026-06-29

Generalist最新长文定调：具身原生才是正道，原力灵机已交卷

△原力灵机CEO唐文斌在2026技术开放日现场

GEN-1引爆具身GPT-3时刻

DM0，首个具身原生模型

2026年，是具身原生元年

热门文章

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了

钉钉A1录音卡入选Gartner AI可穿戴设备报告

让Agent越用越强：AReaL 2.0开源，打造面向自演进智能体的RL基础设施

论坛预告｜夯！AI企业家论坛首发阵容公开，更有千亿级实业巨头突袭

全球首个英伟达含量为0的万亿模型，成了海外开发者的抢手货