< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Generalist最新长文定调:具身原生才是正道,原力灵机已交卷

2026年,是具身原生元年

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

Generalist AI的GEN-1热度,仍在发酵。

自节前那场引爆全网的Demo之后,昨日,创始人Pete Florence与团队,正式释出了GEN-1的技术博客。

与其说这是一篇技术分享,不如说这是一篇「教同行做事」的檄文。

一点甲不叠,上来就毫不留情地否定了当前炙手可热的世界模型与VLA之争。

直言所有关于技术路线的争论都是浪费时间。

现在关于「世界模型」的讨论,其实是由各种想法在驱动,确实很令人兴奋。
但问题是,你的目标是什么?

在他们看来,具身智能的关注点,应该回归到「目标」本身。

这正是Generalist选择「离经叛道」的根本原因。

完全不依赖任何已有路线。不走微调VLM加动作头的捷径,也不宣称自己是世界模型。

直接基于真机数据从零开训。

GEN-1大约99%的参数,都是从零开始训练的。

Generalist强调,这才是促成GEN-1实现飞跃的核心机密,也是他们真正想与行业分享的洞见。

这是他们从第一性原理出发,得出的最终答案:

想要实现物理AGI,最好的方式,或许就是「从零训练」这条看似不好走的路。

如果用原力灵机的话说,这叫「具身原生」。

△原力灵机CEO唐文斌在2026技术开放日现场

是的,这条路线其实并非GEN-1首创。

就在两个月前,这家来自中国的具身智能新星,就已经用同样的逻辑,举办了一场「具身原生」主题的技术开放日,交出了一份惊艳的答卷。

原力灵机,具身原生大模型DM0,RoboChallenge真机评测全球第一。

所以,具身原生,到底有什么魔力?

GEN-1引爆具身GPT-3时刻

GEN-1的发布,无疑是2026年春节后,具身智能行业的第一次「大地震」。

创始人Pete Florence将其称为「GPT-3时刻」。

在多个任务中,该模型的成功率超过99%,完成任务的速度比此前最先进的模型快了大概3倍,甚至涌现出Failure Recovery(故障恢复)的能力。

用实际demo表现,验证了机器人领域的Scaling Law

而此次Generalist在技术博客中的「暴论」,又在行业中掀起了一波余震。

只要数据和算力够,从零训,永远是赢家。

这句话放在2024年说,大概率会被当成疯话。

彼时VLA风潮席卷全球,拿一个预训练好的视觉语言模型,接上动作头微调一下,是兼顾效率和效果的公认最优解。

到了2026年初,世界模型又成了新的流量密码。

Generalist偏偏不站队。

他们从来没把自己的模型叫VLA,但也不宣扬自己是世界模型。

事实上,他们至今也没说自己是个什么技术路线,也不想去刻意贴标签。

但有一点却是无比清楚:无论靠什么方式,即便是「离经叛道」,他们也要彻底实现物理AGI。

GEN-1的博客引用了John Schulman的观点,犀利地划分了「想法驱动」与「目标驱动」两种研究范式。

前者,是雇佣兵。追涨杀跌,哪个方法火就选哪个,只为眼前的战功。

后者,是传教士。选定一个终极目标,然后埋头苦行,坚定不移地前行,扫清挡在路上的一切障碍。

Generalist选了后者。

基于这个第一性原理,Generalist做出了那个看似疯狂的决定——

不基于任何现有的基础模型,直接拿原始数据,冷启动。

在这方面,Generalist表现出了近乎偏执的「完美主义」。

在他们看来,微调别人的模型,意味着从第一行代码开始,天花板就被别人锁死了。

知识边界、认知能力、甚至底层的缺陷,都已注定,无法更改。

Generalist想要赌的,是明天。

而站在未来的时间节点回望,你会惊觉:

无论是VLM、VLA,还是世界模型,本质上都只是标签,数据匮乏时期的「拐杖」。

关键问题在于,当「身体」恢复健康、肌肉足够强壮后,我们还需要拐杖吗?

供给端的版图永远在日新月异。

这正是这场比赛最惊心动魄的地方。

就像F1赛车,规则制定者会刻意限制车胎耐久标准,正是在这些Trade-off(权衡)的极限施压下,才催生出无数截然不同的夺冠策略。

在LLM领域,虽然互联网数据不再是瓶颈,但算力成为了新的紧箍咒。

这才造就了OpenAI、Anthropic、DeepMind各自基于不同哲学思考,走出了截然不同的进化路线,因为资源只够他们选一条去All in。

因此,基于第一性原理做出的长期主义战略判断,才会更显得尤为珍贵。

最难的不是应对变化,而是在风云诡谲的环境中,找到那个屹立不变的锚点。

你不仅要计算当前的限制,更要预判这些限制将如何不可避免地发生崩塌。限制变化得越快,这种预判就越重要。

而在Generalist看来,机器人数据不够,仅仅是暂时的限制。

进入2026年,事实证明,这项限制条件,确实被改写了。

Generalist已经积累了超过50万小时的物理交互数据。

当原生数据足够丰富时,所有辅助手段终将被扫进历史的垃圾堆。

在他们看来,只有具身原生,从零开训这个「从无到有」的概念,是为那个即将到来的新世界而生的。

不过,GEN-1可能并非第一个具身原生模型。

在中国,同样有家All in这个概念的明星具身公司,并且早在今年2月份便高调发布过。

DM0,首个具身原生模型

一起再来看看原力灵机的这份成绩单吧。

DM0,RoboChallenge真机评测,双项全球第一。

  • 单任务成功率:62%
  • 多任务成功率:37.3%

排在它身后的,是Pi0.5、Pi0等一众明星模型。

而取得这一成绩的,仅仅是一个2.4B参数的模型。并且已全面开源。

2.4B是什么概念?

在大模型的军备竞赛中,这个参数量几乎可以被忽略不计。

但结果却令人哗然。

对于这个结果,原力灵机合伙人周而进在与「智能相对论」的对话中,淡定地表示:

在机器人领域,无脑堆参数量这件事非常荒诞。

周而进一针见血地指出,参数并非第一性原理。

事实上,一旦找到了真正「原生」的路线,现有具身数据量根本无法支撑起一个大参数模型。

那么,DM0所说的「原生」,到底「原生」在哪?

可以分为三个层面——

首先,是数据原生,这是拉开差距的关键。

当前行业的普遍做法是:下载一个预训练好的VLM,然后外挂一些机器人操作数据进行微调。

快是快,但问题同样致命:模型压根没见过关节电机长什么样。

它只是看过一些互联网数据,背诵了关于机械动作的文字描述。仅此而已。

这种「死记硬背」导致了大量无意义的训练,最终带来参数膨胀。

这或许是一种参数层面的「幻觉」。

如果模型只是针对单一机型记忆「拿起瓶子」时,每个关节该转多少度,那么一旦换一台硬件,它将束手无策。

因此,DM0走了完全不同的路。

它的训练数据融合了三类来源:

  • 多模态互联网数据:奠定语义理解和常识推理的基座能力。
  • 驾驶数据:赋予模型对物理世界的时空推理与动态感知。
  • 具身传感数据:涵盖视觉、触觉、力觉等多维度信息,让模型真正「触摸」到这个世界。

模型的输入端,不再仅仅是图像和文字,更包含了机器人实操的具身轨迹数据。

两类数据共同优化,迫使模型同时学会「看懂世界」和「动手操作」。

这是一种极其聪明的做法,在让数据结构更立体的同时,也巧妙地实现了数据规模的Scaling。

在具体采集策略上,原力灵机的「原生」第一性原理同样体现得淋漓尽致——

正是因为完全目标导向,所以手段可以相当灵活。

比如对仿真数据的态度。

仿真数据量大管饱,但在精细操作场景中价值有限。例如「装水」任务,液体一晃,整个瓶子的质心就在变化,仿真环境难以准确建模。

因此,原力灵机在室内导航、刚性物体抓取等方面利用仿真数据,但在精细操作层面,则坚决侧重真机。

追求Scaling,但不迷信数据量,而是让每一份数据都发挥最大价值。

这恰好与Generalist在GEN-1博客中的判断形成呼应:供给端是会变化的,你要为即将到来的世界而构建。

其次是训练原生。

DM0将「理解世界」、「操作世界」、「预测世界」三种能力统一训练。

它不是先训练一个VLM,再接一个动作头(Action Head),而是从第一天起,就让这三种能力在同一个模型体内共同生长、相互塑造。

模型的设计紧贴真实世界需求,评价标准是真机效果,奖励函数来自真实场景的实践反馈。

第三是架构原生。

DM0采用天然支持多模态的架构设计,将力觉、触觉等维度的信息直接融入模型核心,而非外挂式地拼接传感器模块。

同时,它具备原生记忆能力,为长序列任务的执行提供坚实支撑。

三个「原生」叠加在一起,指向一个反直觉结果:模型虽小,却异常泛化。

对具身智能来说,泛化性是真正的试金石。

原力灵机将其拆解为四个维度:

  • 对象泛化:同样是抓取,换个形状、材质、大小,照样能稳稳拿起。
  • 场景泛化:在A车间能干活,搬到B车间也绝不掉链子。
  • 任务泛化:不只局限于被教过的几个动作,更能自主排列组合,将简单动作串联成复杂的长程任务。
  • 机型泛化:即便换一台胳膊更长、关节更多的机器人,也能直接驱动其上手干活。

四个维度,缺一不可。

而DM0,从第一天就在为这四个维度做准备。

原力灵机没有像行业里很多团队那样,先针对一种机型训一个专用模型,跑通demo再说。

DM0在预训练阶段就同时混合了操作、导航、全身控制三类任务,覆盖了8种构型迥异的机器人硬件。

相当「粗暴」。

这相当于对模型说:你不是喜欢死记硬背吗?

好,我把所有任务和所有本体混杂在一起扔给你——来,背!

事实证明,这一策略成功锁死了模型想通过死记硬背走捷径的念头。

「混乱」中,原力灵机倒逼模型不再执着于电机参数,转而去理解每次操作背后通用的逻辑和物理规律。

智能,就这样从原生的物理交互中,自然而然地生长了出来。

2.4B参数,RoboChallenge双项全球榜首。

2026年,是具身原生元年

GEN-1的博客里有句话,目标比方法更强大。

过去两年,行业最高频的问题是:机器人什么时候能进厂干活?

但或许,比这个问题更值得关注的是:

机器人什么时候能找到进厂干活的正确方法?

Generalist用GEN-1给出了答案。

从零训练原生模型,摒弃一切拐杖的「借力」,可能才是通往终局的唯一路线。

无独有偶,原力灵机的DM0,同样不约而同地在今年踏上了这条少有人走的路。

2026年或许不是具身智能的元年。但GEN-1和DM0的出现,正在为2026年烙上一个新标签:

具身原生元年。

 

版权所有,未经授权不得以任何形式转载及使用,违者必究。