“VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026
“要做机器人时代的安卓系统”
大模型的爆发,吃的是互联网几十年积累的数据红利。
可当AI从数字世界迈向物理世界,蚂蚁灵波科技首席科学家沈宇军发现:机器人的数据,几乎还是一片空白。
此前,他曾在公开演讲中率先提出AIGA的概念——AI 2.0下半场,人工智能要从数字世界的“娱乐”走向物理世界的“干活”,从Content(内容)生成走向Action(动作)生成。
在2026中国AIGC产业峰会的GenAI Talk环节,沈宇军与量子位联合创始人兼总编辑李根围绕这一话题展开了一场深度对话,主题为《AI 2.0下半场:从AIGC到AIGA》。
也正是从“数据”这条主线出发,他抛出了一个让现场做VLA、做世界模型的人都“小小一震”的判断:
单独的VLA和世界模型,都不会是具身智能的终局。
就像人类既能把各种信息融合在一起,也会预测未来事情的走向,从智能的角度,二者势必要结合,缺一不可。
而它们最终会走向什么?沈宇军目前给出的答案是——一个独属于物理世界的模型。
为了完整体现沈宇军的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
2026中国AIGC产业峰会是由量子位主办的行业峰会,近20位产业代表与会讨论。线下参会观众超千人,线上直播观众近400万,获得了主流媒体的广泛关注与报道。
核心观点梳理
- 大模型踩中了互联网过去几十年的数据红利,但机器人的物理世界数据还存在很大的空白,AI下半场更关键的是数据如何从数字世界过渡到物理世界。
- 想要做存在于物理世界的通用机器人大脑,关键的一环是空间感知能力。如何把传感器的输入变成更好的信息传递给模型,从传感器的输入开始去理解这个世界,很关键。
- 对于VLA和世界模型的技术路线之争,首先无论技术路线怎么演进,数据都是离不开的。其次,这两条路都不会是终局。机器人数据量积累到一定程度的时候,二者一定会走向融合,催生出独属物理世界的模型。
- 判断:1~2年后,会出现一些标杆样例,让模型真实投产;2~3年,该样例会被批量复制,越来越多产业会应用模型;在这之后,机器人会尝试以某种方式进入C端;然后逐渐真正普及到家庭。
- 人人都能为机器人产生数据的时候,就是具身智能的ChatGPT时刻。
以下为对话全文:
“大模型踩中了互联网几十年的数据红利”
李根:AIGC上半场大家都在谈焦虑,但看得更远一点,方向确定后,剩下的就是实践。我们每年都希望找一位既有学术前沿洞察,又是产业实践者的嘉宾——既懂Know,也懂Know how。沈博就是这样的嘉宾。我们先从过去到现在,AI 2.0从ChatGPT起步,经历了写作、画画到编程,你怎么看这条路径?
沈宇军:大模型从ChatGPT的突破起步,最开始大家觉得好玩,后来慢慢走向实用,尤其是最近Coding能力的爆发。我本身做机器人行业,从这个视角看,大模型其实是踩中了互联网过去几十年积累的数据红利。
怎么说呢?互联网积累了海量的文字、图像、视频素材,这些数据恰好碰上了算力的发展,两者融合到一起,在爆发的时候正好把互联网几十年的数据积累用起来了。
再进一步看,自动驾驶也发展了将近十几年,慢慢积累了属于自己的数据——从最初车上没那么多传感器,到现在人类开车时数据可以被自动记录下来。反观机器人行业,数据目前还是一个很大的空白。我们没有几十年的互联网积累,也没有十年的自动驾驶沉淀,机器人现在的数据非常短缺。
有人说AI终于走到下半场,从数字世界往物理世界走,我们也提出了AIGA(AI生成Action)的概念。但做模型的核心其实是在做数据。我觉得更关键的问题是:数据到底怎么演变?怎么让数据真正从数字世界过渡到物理世界?
李根:所以物理空间的数据是空白,也是新大陆?
沈宇军:对。过去一年本体厂商越来越多,本体本身发展得也不错。今年能看到一个明显的趋势:各种各样的数据采集方式开始涌现。这说明大家逐渐意识到,具身智能——具身是一部分,智能是一部分——要做智能就离不开数据。只是大家还没想清楚:物理智能到底需要什么样的数据?以及怎么尽可能地把数据标准化?
标准化是很重要的事。Call back一下,大模型的成功很大程度上得益于互联网把数据标准化了。Coding、对话这些领域,互联网已经搞得非常好了,现在更多是去享受这个红利。
但到了物理世界,从眼下五花八门的数采方式来看,大家虽然意识到了数据的重要性,却还没有找到那条最正确的路。我相信在不远的将来,数据这件事也会逐渐收敛。
“AIGC还不够,模型要能生产生产力”
李根:你们提出了AIGA的应用范式,能分享一下吗?为什么提AIGA?
沈宇军:还是从模型落地的角度来讲。大家从最开始做Chat,到现在做Coding,模型正在慢慢往生产方向迁移。在数字世界,编程、内容创作都是很好的生产方向。但我们毕竟活在物理世界,真正想要的有体感的服务,还是需要物理世界中的具体交互。
所以我们觉得只有AIGC可能还不够。到最后,智能到底能不能帮我们解决一些具体的问题?大家都说Agent,Agent能在数字世界帮我们解决很多流程问题、调用一些工具,但很多让人真正有体感的东西还是要有操作。比如我现在就是想喝一杯咖啡——这个场景可能有点老生常谈了。
尤其我们做具身的,更希望这个模型不止能生产内容,更能生产所谓的生产力。
李根:这个生产力有什么样的想象力和落地场景?
沈宇军:这应该是过去一段时间行业一直在探讨的。比如,机器人已经进入工厂、物流、仓库,去搬货、做分拣。我们也和本体厂商合作,在这些场景中做了一些探索。前不久,我们的机器人还进入了药房的线下零售门店。
如果真的有幸能看到那么一天——机器人发展得非常好、非常智能——那生活中的方方面面都可以落地。举个例子,刚才上台前,需要工作人员把椅子搬上来,工作人员要专门在那里等着。如果时间上有调整,他就得一直在旁边等着。
如果有一天这件事机器人能做,它站在那里也无所谓,它知道什么时候该上场,并且把事做好,那就能释放出很多劳动力,让大家去做更有价值的事情。我相信机器人会逐渐渗透到生活的方方面面。
李根:所以每一个需要人的地方,未来都可能有机器人替代或执行?
沈宇军:对,我觉得更多是把人释放到更需要人的事情上,比如创造、文化这些更偏人类活动的方面,而不是去做枯燥重复的体力活。
“灵波的定位是做通用大脑,有点像手机的操作系统”
李根:蚂蚁灵波的技术选择和定位是什么?
沈宇军:灵波的定位比较清晰:做智能侧。怎么理解?
我打个不一定恰当的比方——有点像手机的操作系统。在我们看来,机器人不管是进入企业还是进入千家万户,大家对硬件的诉求一定是不一样的,不可能只有一款统一的机器人。就像大家用手机,华为、小米、苹果,各有各的偏好,这是个性的需求。企业更是如此:有的地方需要力气大的机器人,有的需要更敏捷的机器人。
但这些机器人有一个共同的需求:智能。智能不是工业机器人那种按固定轨迹、在固定时间做固定的事。生活中很多事是随机的,智能的含义就是要能应对这些随机性。像我刚才说的,大会时间调整了,它能不能知道什么时候该上场搬椅子?这是一个简单的例子。
所以灵波的定位很清晰:我们希望做一个相对通用的“大脑”,让所有机器人在这个大脑下更好地完成任务。
物理世界相比数字世界有两个优势。
第一,模态肯定更多——有听觉、温度、触觉等等。这些模态在数字世界不太好获得,但不代表它们不重要,因为很多时候智能正是通过越来越多的模态叠加来实现的。现在数字世界讲多模态,其实还是逃不开文本、图像、视频、声音。你能让它感受到“力”吗?不太能。所以物理世界因为模态更丰富,反而可能催生出更强的智能。
第二,物理世界能拿到真实的反馈。在数字世界,任务大多是人为定义的——人给一个标准,希望模型给出某种输出。但在物理世界,很多东西是大自然定义的:比如一个苹果,你松手它一定会落地,不需要任何人定义,这是现实规律。因为有了与物理世界的连接,智能很可能能从现实里直接学习,甚至超出人为设定的损失函数或奖励函数。
基于这两点优势,物理智能的想象空间非常大。当然,目前变量太多,需要验证的东西也太多,很多因素耦合在一起,行业会先分出很多派别,但慢慢一定会收敛。
“VLA和世界模型都不是终局,会有物理世界独有的模型”
李根:总结一下,灵波做的是宇树等本体厂商的补充,提供大脑/操作系统;物理AI可能催生更本质的智能。现在大家对路线有不同探讨,比如VLA、世界模型等。你怎么看?
沈宇军:回答VLA之前,我先说一下对具身智能技术路线的整体判断。
大家经常讨论怎么做模态融合,主要是VLA和世界模型两条路。但我想提另一个点——灵波要做通用大脑,而且是存在于物理世界的大脑,我们布局中有一个很关键、但行业很少提到的环节:空间感知能力,也有人叫空间智能。
机器人生活在物理世界,输入来自各种传感器,不是简单的文字或照片。物理世界有深度、距离、力等传感器。把这些输入变成有效信息,是具身智能非常重要的一环。但现在大家更热衷于讨论最核心的那块——怎么把传感器输入变成更好的信息传给模型,反而容易忽略输入端。
我的看法是,不管最终核心模型的技术路线怎么变,从传感器输入开始更好地理解这个世界,是非常关键的。灵波在做具身大脑的过程中,很关键的一环就是从输入端开始,做好空间感知。
再回到大家最爱聊的核心部分。今年1月底我们对外讲了一些看法,两条路线我们都摸过:VLA和VA(现在也叫WAM,世界动作模型)。
我的体感是:第一,核心还是数据。不管范式怎么变,把数据摸清楚是关键能力。现在大家喜欢提数据量——几万小时、十几万小时,甚至百万小时。但只提数量不提质量是不科学的。到底什么样的数据是好数据?这很关键。
我们过去做VLA,很重要的一件事就是把数据这条路趟通——拿到一条数据,该怎么处理、该不该送给模型,这是核心链路。不管技术路线怎么演进,数据是逃不开的。
第二,我们两条路都摸了,我的判断是:两条路线都不会是终局。为什么?因为VLA和世界模型解决的是不同问题。VLA擅长人机交互,它是从多模态模型往后延伸一步,相当于多模态模型在物理世界的应用。世界模型则像视频生成模型往物理世界的应用,更擅长对未来的判断。
我觉得人类这两方面能力都具备:一方面能融合各种信息,另一方面对未来有预判,做事之前会大概想想结果会怎样。对机器人而言,这两种能力必须结合,缺一不可——不能只能预测未来却无法融合模态,也不能只能融合模态却无法预测未来。
在我看来,VLA在产业界更好落地、效率更高,所以做的人更多。但世界模型如果真能预测未来,对机器人一定有帮助。我判断,当机器人数据量积累到一定程度时,这两条路线一定会深度融合。
这种融合甚至不是像现在这样——把数字世界的模型拿来做物理应用,而是可能催生出物理世界独有的模型。这个模型从一开始就是基于物理世界更多模态设计的,专为机器人应用而生。它可能不能跟人对话,但能更好地执行任务。
总结起来还是三点:第一,物理智能离不开传感器输入的空间感知,灵波会从输入端开始,让机器人更好理解世界;第二,不管技术路线如何演进,数据是逃不开的,我们要把机器人需要的数据研究明白,甚至推动制定标准;第三,现在大家讨论的技术路线都不是终局,未来一定会有物理世界独有的模型出现。
“人人都能为机器人产生数据时,就是具身智能的ChatGPT时刻”
李根:谢谢沈博如此不绕弯子,那么具身大脑的发展节奏和里程碑是什么?
沈宇军:短期看有几个变化。一是硬件会越来越收敛——不是形态收敛,而是供应链会收敛,变成模块化的东西,不再完全耦合在一起。硬件和传感器会越来越标准化。二是数据的标准也会越来越收敛。
这两点收敛后,模型层面的技术路线争论会越来越激烈。因为前两样定了,变量就在建模上。模型争论一段时间后,范式可能也会收敛。模型收敛之后,会反向推动硬件进行一次升级——那时的硬件已经不是上一代的了,而是专门为具身智能打造的下一代硬件。就像这样的周期:硬件震荡、收敛,然后模型迭代。这是可以期待的。
从产业落地角度看,也应该有一些期待。今年到明年,会有一些标杆案例让模型真正投产,不再是demo,而是投入商业应用。2-3年后,这些案例会被批量复制,越来越多产业会用到模型。之后,机器人会尝试以某种方式进入C端,可能不是所有事都能做,但能找到一个切入点。然后逐渐进入家庭,就像现在新能源车一样普及开来。
李根:什么时候会出现具身智能的“ChatGPT时刻”?
沈宇军:大模型的训练是一个持续过程,从GPT 1.0、2.0到3.0。但Chat为什么成为标志性时刻?因为它真正走进了千家万户,人人都能用、都能体验到。类比到具身智能,什么时候能让大部分人参与进来,那就是我认为的具身智能的ChatGPT时刻。
参与有两个层面。最直观的理解是具身智能普惠到每个人——那个可能还比较遥远。但在那之前还有一个阶段:数据阶段。就像现在大家开车,会为自动驾驶提供人类驾驶经验一样。
什么时候能有一个数据标准,让我们每天的行为都可以成为训练机器人的数据?当人人都能为机器人产生数据的时候,在我看来,那就是具身智能的ChatGPT时刻。
李根:你觉得这个还有多长时间?
沈宇军:现在已经有好多做数据的公司出来了,只是流派不同。接下来一两年,应该是做模型的公司和做数据的公司之间磨合的过程。因为数据标准一定是由模型来定义的,但模型提出的需求,硬件迭代也需要周期。经过一两年磨合,大概在2028年左右,可以期待每个人都能成为具身智能的数据提供方。
从那一刻开始,具身智能的脚步会走得更快一些。
李根:那会不会同时出现类似安卓和iOS的操作系统?
沈宇军:对,现在已经有这个区分了。灵波走的是通用大脑路线,也有一些公司比如特斯拉,既造自己的本体,也做自己的大脑——模型专门为本体服务。机器人就像手机一样,大家不可能都用同一款,因为总有个性化诉求。所以我们比较坚定地走通用大脑模式。
李根:所以蚂蚁灵波希望成为机器人时代的安卓系统?
沈宇军:对,这是我们的一个美好愿景。
李根:总结一下,AI 2.0下半场随着物理世界开拓而展开,范式从AIGC走向AIGA。数据是核心,技术路线正在收敛,2028年左右可能迎来具身大脑的收敛。蚂蚁灵波志在成为其中的安卓。谢谢沈博!
沈宇军:谢谢!
- “五类人AI替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC20262026-05-23
- 刚刚,马斯克公开SpaceX招股书!2026-05-21
- Cursor新模型,你怎么还在套Kimi?马斯克你怎么还吆喝上了??2026-05-19
- AI第一金主黄仁勋:日均花掉20亿2026-05-12




