CVPR 2026,英伟达特斯拉Waymo一块听中国公司讲物理AI
率先实现物理AI闭环飞轮
贾浩楠 发自 凹非寺
量子位 | 公众号 QbitAI
2026 AI赛道最火的概念——物理AI!
自动驾驶公司在讲、车企在讲、大模型玩家在讲、投资人在讲……
概念成为共识,真正的分水岭才开始浮现:率先拿出完整技术栈、论文、代码,以及已经在路上跑着、在量产实车上验证的,到底是谁?

在今年的CVPR首次开设的“具身智能基座模型部署研讨会”上,这个问题终于“混沌初开”。
这场会议上,挤满了这个赛道的头号玩家:特斯拉、英伟达、Waymo,以及唯一一家受邀的中国企业——小鹏。
美国EV头部媒体Electrek主编Fred Lambert 在CVPR 2026开始前,就已经注意到小鹏刘先明和特斯拉Ashok Elluswamy将在全球顶会同台分享技术成果。

顶会上参与前沿AI话题讨论的多如牛毛,但能让特斯拉、Waymo、英伟达这样的学术圈产业界顶尖玩家全都坐下来认真听的,不多。
小鹏是其中一个。
和英伟达特斯拉Waymo同台竞技,小鹏都讲了什么?
“具身智能基座模型部署研讨会”,在CVPR是第一届,但其实是“Embodied AI Workshop”系列的第七届。
这类论坛一般是特邀演讲,邀请学术界和工业界的顶尖专家,分享最新研究成果和前沿思考。今年的参与者包括Waymo、特斯拉、英伟达等等——全球物理AI的第一梯队。

△从左往右,左3:刘先明,小鹏集团通用智能中心负责人;
左5:Ashok Elluswamy,特斯拉AI 软件副总裁;
左6:Dragomir Anguelov,Waymo副总裁;
小鹏这边是由现任小鹏通用智能中心负责人刘先明参与本次的分享。
这也是小鹏第三次受邀在CVPR发表演讲。但与前两次不同,这是小鹏首次完整展示了世界模型技术图谱。

△小鹏物理世界基座模型技术图谱
演讲基于团队近期陆续发表的X-World、X-Foresight、X-Cache等一系列学术论文,系统解析了小鹏世界模型技术。
首先明确阐述了一个核心工作:小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型,世界模型与第二代VLA共同构成小鹏物理AI基模底座。
二者通过不同训练信号协同进化。
人类动作包含丰富的高层语义,隐性地编码了感知、推理、意图、风险判断、社交互动以及对物理世界的理解。
不过这类监督信号在时间上相对稀疏,它通常只能监督最终的行为结果,而难以覆盖促成这一行为过程中每一次潜在的物理状态转移。
而世界模型则是从世界本身中学习的。它不只是预测下一步动作,还可以预测未来状态、未来观测,或者潜在空间中的未来表征。

相比之下,世界模型获得的监督信号要密集得多:每一帧画面、每一次运动、每一次交互都可以成为训练信号,本质是借鉴了大语言模型中“下一个Token预测”的范式,通过在海量未标注视频上进行下一帧或下一状态的密集预测,逐步学会物理世界的动力学与因果结构。
真正工程落地层面,常见VLA和世界模型路线“针锋相对“,但小鹏的思路是将稀疏的人类意图与密集的物理预测相结合,使得模型不仅在学习“人类驾驶员会怎么做”,更在深度理解“物理世界接下来会发生什么”。
这种双重目标的并行演进,确保了系统在复杂环境下的可控性与安全性,也为自动驾驶系统赋予了更深层次的物理感知与逻辑推理能力。
“走VLA路线还是世界模型路线?”刘先明的回答是:小鹏物理世界基座模型,既是第二代VLA,也是世界模型。

回到物理AI,要真正了解学习客观世界的知识,既需要真实世界的物理规律、因果逻辑、长时序推演;也需要在虚拟世界中反复练习——验证策略、应对长尾、闭环优化。
世界模型与VLA的协同进化,真实的内涵其实是广义的数据驱动体系:从更大规模的优质数据中,萃取出模型的智能,包含对人的行为的理解和对世界知识的理解。
AI如果真的要在物理世界中行动,需要知道几件事:一是“如何行动”,二是理解“行动之后世界会如何变化”,同时根据世界可能的变化,继续调整自己的行动策略。这就是小鹏第二代VLA和世界模型分别负责的工作。
“如何行动”,是去年刘先明CVPR演讲的主旨,他介绍了小鹏第二代VLA的基础架构和训练方法。
关于“行动之后世界如何变化”,正是今年的演讲主题,也就是小鹏如何研发世界模型。也可以通过小鹏团队近期几篇重要论文来理解小鹏世界模型。
如何让AI理解环境、时空和因果?
刘先明认为,一个优秀的世界模型必须具备三大能力:主动思考、可控生成和长时序推演,这是智能的体现,也是世界模型能在自动驾驶领域应用的前提条件。小鹏研发团队近期密集发布的几篇技术报告,正好对应这几个关键能力。
X-World是基于视频扩散生成技术构建的可控多视角生成式世界模型,能在给定动作条件下生成符合物理约束的未来视频,同时在持续生成过程中保持良好的可控性与稳定性。已经投入到小鹏的闭环仿真测试、在线强化学习、数据生成等研发环节。

X-Foresight是一套基于预测式世界模型的视觉-动作因果预测网络,X-Foresight在架构上与VLA融为一体,在统一的token空间内联合预测未来的多视角画面与自车动作,为VLA的控车决策提供了核心支撑。它的预测式决策逻辑,倒逼模型“理解世界”,掌握车辆、行人运动规律与场景因果链条。
X-Cache是一个面向少步自回归世界模型的跨段块级缓存,能在基本不牺牲画质的前提下,减少约七成的重复计算,对世界模型的去噪主干实现最高约2.7倍的推理加速。

刘先明还透露,近期还将发表名为“X-mind”的论文,解析模型如何“主动思考”,并可视化地呈现驾驶决策背后的中间推理过程。可解释性对于自动驾驶的软件性能调试、用户信任建立以及模型快速迭代都至关重要。
而在技术架构创新的背后,scaling law对物理AI依然适用,而且规模化的技术红利才刚开始。
过去一年多,小鹏持续迭代模型、算力、数据三大核心维度,不断刷新基座模型的性能上限。
目前,小鹏第二代VLA模型已实现十亿级参数量,依托上亿段视频片段完成训练,单版模型训练Token总量突破4万亿,数据与模型规模稳居行业第一梯队。
小鹏提供的数据显示,截至今年3月的一年时间里,小鹏智算集群单GPU训练效率提升1010%,单任务训练效率暴涨4360%,GPU硬件利用率从40%拉升至90%,对齐国内头部AI企业水准。

不止云端算力,小鹏对车端算力的挖掘同样做到极致。
通过芯片、编译器、模型软硬件深度协同自研,小鹏彻底盘活车端算力资源,将车端模型推理速度整体提升12倍。
刘先明公开的三组对照数据,直观印证了这套自研体系的碾压性优势:
通用芯片+开源模型方案,算力利用率仅22.8%,推理时延高达800毫秒;
小鹏图灵自研芯片+开源模型方案,算力利用率提升至35.1%,时延压缩至300毫秒;
全套自研组合——第二代VLA模型+图灵芯片,性能实现质变:算力利用率飙升至82.5%,推理时延直接压到80毫秒。

第二代VLA的量产表现,就是对自动驾驶Scaling Law的最佳证明。
第二代VLA正式推送首月,搭载该系统的车型辅助驾驶里程占比突破50%。高阶智驾正从“可选配置”逐渐成为高频刚需。

每一次软件升级的背后,是小鹏模型的快速迭代的结果。小鹏集团此前透露,研发团队从去年11月到今年3月,平均每天能够迭代4版模型。而「速度」,本身就是AI时代的核心竞争力。
都在说物理AI,小鹏有啥不一样?
首先,在L2到L4的升维路径上,小鹏第一个拿出了完整技术路线。
车载AI已经进入了“模型智商”竞争的阶段,而不是单纯的比拼模型参数量,或者车端硬件堆砌。
就比如,激光雷达受物理极限制约,频率较低且存在额外延迟损耗,每秒数据量仅百万级。
而摄像头响应更快、频率可大幅提升,每秒可产生数十亿级的丰富视觉信息。

所以激光雷达处理门槛虽低,但远距离精度差、易误判;摄像头则需要强大算力处理海量数据——但算力足够时,纯视觉的上限远超激光雷达。
当然这个趋势,是特斯拉推动的。
马斯克坚持纯视觉,核心并不是“传感器类型之争”,而是“哪种数据类型能更好支持超大规模数据驱动”——这才是自动驾驶第一性原理的本质。
小鹏的第二代VLA就是最好的落地例证:不是单纯靠更多摄像头或更高算力芯片提升能力体验,而是统一的物理世界基座模型,加上足够大的车端云端算力,以及世界模型、路测数据,落地在物理世界的本体终端上:

参数规模、数据类型、底层架构上,小鹏二代VLA全面超越了传统自动驾驶模型,证明了AI在真实路采数据之外,更高效理解物理世界、解决corner case。
更深一层,小鹏的世界模型全栈技术体系,已经超越了自动驾驶的范畴。
它不仅是自动驾驶模型,更是统一的物理世界基座模型。
因为多模态大模型的底层逻辑是通用的——它面向的不是“如何开车”,而是“如何理解并预判一个动态变化的物理世界”。
某种程度上,小鹏的世界模型并不是在教AI开车,而是在教AI“看懂”物理世界——开车只是其中一种具体的“懂法”。
从智能汽车到人形机器人,这套方法论具备天然的跨域迁移能力。

行业还在将“物理AI”作为一个吸引资本的营销概念时,小鹏率先建立了物理AI的数据飞轮闭环。
这不仅是技术领先,还是一次对物理AI话语体系的定义:
• 终结VLA和世界模型技术路线的二元对立之争;
• 探索L2升维L4的有效技术实现路径;
• 在自动驾驶上,探索“萃取世界知识”的路径,再用到更多应用场景。
小鹏是CVPR的常客,连续三年站上全球AI顶会的演讲台。这在全球车企中几乎是独一份。
看似“错位”的竞争方式,恰恰解释了为什么它常被归入科技公司而非传统车企阵营。
数据也给出了答案:技术力就是吸引力。一份调研显示,超过60%的车主在购车决策中,将“智能驾驶能力”和“技术领先性”排在前三位。
他们选择的不是一辆代步工具,而是一个持续进化、每月OTA的AI系统。从高速NGP到城市NGP,从规则驱动VLA到数据驱动世界模型——每一次技术跃迁,都直接转化为用户的驾驶体验和购买信心。
CVPR 2026的这次展示,是最新一次验证:小鹏的技术品牌,不是营销话术,是一篇篇论文、一次次推送、一公里又一公里智能驾驶里程跑出来的,也已经站在了物理AI世界模型的最前沿。

对智能汽车竞争的降维打击同时,更是对机器人、飞行汽车的跨域迁移。
2023年,小鹏首次站上CVPR。当时讲的是XNet——中国首个量产的BEV感知架构。
2025年,小鹏第二次登台。世界基座模型负责人刘先明抛出720亿参数基座模型理论,首次在行业内验证规模法则在自动驾驶VLA模型上持续生效。
2026年,CVPR“具身智能的世界模型”分论坛。小鹏第三次亮相,拿出了VLA与世界模型的思考,以及X-World、X-Foresight、X-Cache的完整技术栈,以及第二代VLA的量产验证数据。
四年时间,从工程实践到理论突破,再到量产落地。量产验证,又为世界模型的规模化落地提供了真实的反馈数据。

这种连续性,才是小鹏真正难以被追赶的护城河。
同样的连续性积累到今日,成为了小鹏从“造车新势力”到“物理AI公司”的惊人一跃:
不仅仅为一款车打造一个AI,而是在为一个物理世界打造一个通用的认知基座。
- 一家能造4nm智驾芯片的公司,早已不止于车企2026-05-29
- L2++「五冠王」文远知行:自动驾驶版的张雪机车,专治各种不服2026-05-19
- 4320线!6D全彩!禾赛这颗激光雷达,马斯克看了也得懵2026-04-20
- 自主AI汽车芯片「一姐」出手,机器人终于有了专属「小脑」2026-04-27



