< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI

贾浩楠 2026-06-04 19:56:35 来源：量子位

率先实现物理AI闭环飞轮

贾浩楠发自凹非寺

量子位 | 公众号 QbitAI

2026 AI赛道最火的概念——物理AI！

自动驾驶公司在讲、车企在讲、大模型玩家在讲、投资人在讲……

概念成为共识，真正的分水岭才开始浮现：率先拿出完整技术栈、论文、代码，以及已经在路上跑着、在量产实车上验证的，到底是谁？

在今年的CVPR首次开设的“具身智能基座模型部署研讨会”上，这个问题终于“混沌初开”。

这场会议上，挤满了这个赛道的头号玩家：特斯拉、英伟达、Waymo，以及唯一一家受邀的中国企业——小鹏。

美国EV头部媒体Electrek主编Fred Lambert 在CVPR 2026开始前，就已经注意到小鹏刘先明和特斯拉Ashok Elluswamy将在全球顶会同台分享技术成果。

顶会上参与前沿AI话题讨论的多如牛毛，但能让特斯拉、Waymo、英伟达这样的学术圈产业界顶尖玩家全都坐下来认真听的，不多。

小鹏是其中一个。

和英伟达特斯拉Waymo同台竞技，小鹏都讲了什么？

“具身智能基座模型部署研讨会”，在CVPR是第一届，但其实是“Embodied AI Workshop”系列的第七届。

这类论坛一般是特邀演讲，邀请学术界和工业界的顶尖专家，分享最新研究成果和前沿思考。今年的参与者包括Waymo、特斯拉、英伟达等等——全球物理AI的第一梯队。

△从左往右，左3：刘先明，小鹏集团通用智能中心负责人；

左5：Ashok Elluswamy，特斯拉AI 软件副总裁；

左6：Dragomir Anguelov，Waymo副总裁；

小鹏这边是由现任小鹏通用智能中心负责人刘先明参与本次的分享。

这也是小鹏第三次受邀在CVPR发表演讲。但与前两次不同，这是小鹏首次完整展示了世界模型技术图谱。

△小鹏物理世界基座模型技术图谱

演讲基于团队近期陆续发表的X-World、X-Foresight、X-Cache等一系列学术论文，系统解析了小鹏世界模型技术。

首先明确阐述了一个核心工作：小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型，世界模型与第二代VLA共同构成小鹏物理AI基模底座。

二者通过不同训练信号协同进化。

人类动作包含丰富的高层语义，隐性地编码了感知、推理、意图、风险判断、社交互动以及对物理世界的理解。

不过这类监督信号在时间上相对稀疏，它通常只能监督最终的行为结果，而难以覆盖促成这一行为过程中每一次潜在的物理状态转移。

而世界模型则是从世界本身中学习的。它不只是预测下一步动作，还可以预测未来状态、未来观测，或者潜在空间中的未来表征。

相比之下，世界模型获得的监督信号要密集得多：每一帧画面、每一次运动、每一次交互都可以成为训练信号，本质是借鉴了大语言模型中“下一个Token预测”的范式，通过在海量未标注视频上进行下一帧或下一状态的密集预测，逐步学会物理世界的动力学与因果结构。

真正工程落地层面，常见VLA和世界模型路线“针锋相对“，但小鹏的思路是将稀疏的人类意图与密集的物理预测相结合，使得模型不仅在学习“人类驾驶员会怎么做”，更在深度理解“物理世界接下来会发生什么”。

这种双重目标的并行演进，确保了系统在复杂环境下的可控性与安全性，也为自动驾驶系统赋予了更深层次的物理感知与逻辑推理能力。

“走VLA路线还是世界模型路线？”刘先明的回答是：小鹏物理世界基座模型，既是第二代VLA，也是世界模型。

回到物理AI，要真正了解学习客观世界的知识，既需要真实世界的物理规律、因果逻辑、长时序推演；也需要在虚拟世界中反复练习——验证策略、应对长尾、闭环优化。

世界模型与VLA的协同进化，真实的内涵其实是广义的数据驱动体系：从更大规模的优质数据中，萃取出模型的智能，包含对人的行为的理解和对世界知识的理解。

AI如果真的要在物理世界中行动，需要知道几件事：一是“如何行动”，二是理解“行动之后世界会如何变化”，同时根据世界可能的变化，继续调整自己的行动策略。这就是小鹏第二代VLA和世界模型分别负责的工作。

“如何行动”，是去年刘先明CVPR演讲的主旨，他介绍了小鹏第二代VLA的基础架构和训练方法。

关于“行动之后世界如何变化”，正是今年的演讲主题，也就是小鹏如何研发世界模型。也可以通过小鹏团队近期几篇重要论文来理解小鹏世界模型。

如何让AI理解环境、时空和因果？

刘先明认为，一个优秀的世界模型必须具备三大能力：主动思考、可控生成和长时序推演，这是智能的体现，也是世界模型能在自动驾驶领域应用的前提条件。小鹏研发团队近期密集发布的几篇技术报告，正好对应这几个关键能力。

X-World是基于视频扩散生成技术构建的可控多视角生成式世界模型，能在给定动作条件下生成符合物理约束的未来视频，同时在持续生成过程中保持良好的可控性与稳定性。已经投入到小鹏的闭环仿真测试、在线强化学习、数据生成等研发环节。

X-Foresight是一套基于预测式世界模型的视觉-动作因果预测网络，X-Foresight在架构上与VLA融为一体，在统一的token空间内联合预测未来的多视角画面与自车动作，为VLA的控车决策提供了核心支撑。它的预测式决策逻辑，倒逼模型“理解世界”，掌握车辆、行人运动规律与场景因果链条。

X-Cache是一个面向少步自回归世界模型的跨段块级缓存，能在基本不牺牲画质的前提下，减少约七成的重复计算，对世界模型的去噪主干实现最高约2.7倍的推理加速。

刘先明还透露，近期还将发表名为“X-mind”的论文，解析模型如何“主动思考”，并可视化地呈现驾驶决策背后的中间推理过程。可解释性对于自动驾驶的软件性能调试、用户信任建立以及模型快速迭代都至关重要。

而在技术架构创新的背后，scaling law对物理AI依然适用，而且规模化的技术红利才刚开始。

过去一年多，小鹏持续迭代模型、算力、数据三大核心维度，不断刷新基座模型的性能上限。

目前，小鹏第二代VLA模型已实现十亿级参数量，依托上亿段视频片段完成训练，单版模型训练Token总量突破4万亿，数据与模型规模稳居行业第一梯队。

小鹏提供的数据显示，截至今年3月的一年时间里，小鹏智算集群单GPU训练效率提升1010%，单任务训练效率暴涨4360%，GPU硬件利用率从40%拉升至90%，对齐国内头部AI企业水准。

不止云端算力，小鹏对车端算力的挖掘同样做到极致。

通过芯片、编译器、模型软硬件深度协同自研，小鹏彻底盘活车端算力资源，将车端模型推理速度整体提升12倍。

刘先明公开的三组对照数据，直观印证了这套自研体系的碾压性优势：

通用芯片+开源模型方案，算力利用率仅22.8%，推理时延高达800毫秒；

小鹏图灵自研芯片+开源模型方案，算力利用率提升至35.1%，时延压缩至300毫秒；

全套自研组合——第二代VLA模型+图灵芯片，性能实现质变：算力利用率飙升至82.5%，推理时延直接压到80毫秒。

第二代VLA的量产表现，就是对自动驾驶Scaling Law的最佳证明。

第二代VLA正式推送首月，搭载该系统的车型辅助驾驶里程占比突破50%。高阶智驾正从“可选配置”逐渐成为高频刚需。

每一次软件升级的背后，是小鹏模型的快速迭代的结果。小鹏集团此前透露，研发团队从去年11月到今年3月，平均每天能够迭代4版模型。而「速度」，本身就是AI时代的核心竞争力。

都在说物理AI，小鹏有啥不一样？

首先，在L2到L4的升维路径上，小鹏第一个拿出了完整技术路线。

车载AI已经进入了“模型智商”竞争的阶段，而不是单纯的比拼模型参数量，或者车端硬件堆砌。

就比如，激光雷达受物理极限制约，频率较低且存在额外延迟损耗，每秒数据量仅百万级。

而摄像头响应更快、频率可大幅提升，每秒可产生数十亿级的丰富视觉信息。

所以激光雷达处理门槛虽低，但远距离精度差、易误判；摄像头则需要强大算力处理海量数据——但算力足够时，纯视觉的上限远超激光雷达。

当然这个趋势，是特斯拉推动的。

马斯克坚持纯视觉，核心并不是“传感器类型之争”，而是“哪种数据类型能更好支持超大规模数据驱动”——这才是自动驾驶第一性原理的本质。

小鹏的第二代VLA就是最好的落地例证：不是单纯靠更多摄像头或更高算力芯片提升能力体验，而是统一的物理世界基座模型，加上足够大的车端云端算力，以及世界模型、路测数据，落地在物理世界的本体终端上：

参数规模、数据类型、底层架构上，小鹏二代VLA全面超越了传统自动驾驶模型，证明了AI在真实路采数据之外，更高效理解物理世界、解决corner case。

更深一层，小鹏的世界模型全栈技术体系，已经超越了自动驾驶的范畴。

它不仅是自动驾驶模型，更是统一的物理世界基座模型。

因为多模态大模型的底层逻辑是通用的——它面向的不是“如何开车”，而是“如何理解并预判一个动态变化的物理世界”。

某种程度上，小鹏的世界模型并不是在教AI开车，而是在教AI“看懂”物理世界——开车只是其中一种具体的“懂法”。

从智能汽车到人形机器人，这套方法论具备天然的跨域迁移能力。

行业还在将“物理AI”作为一个吸引资本的营销概念时，小鹏率先建立了物理AI的数据飞轮闭环。

这不仅是技术领先，还是一次对物理AI话语体系的定义：

• 终结VLA和世界模型技术路线的二元对立之争；
• 探索L2升维L4的有效技术实现路径；
• 在自动驾驶上，探索“萃取世界知识”的路径，再用到更多应用场景。

小鹏是CVPR的常客，连续三年站上全球AI顶会的演讲台。这在全球车企中几乎是独一份。

看似“错位”的竞争方式，恰恰解释了为什么它常被归入科技公司而非传统车企阵营。

数据也给出了答案：技术力就是吸引力。一份调研显示，超过60%的车主在购车决策中，将“智能驾驶能力”和“技术领先性”排在前三位。

他们选择的不是一辆代步工具，而是一个持续进化、每月OTA的AI系统。从高速NGP到城市NGP，从规则驱动VLA到数据驱动世界模型——每一次技术跃迁，都直接转化为用户的驾驶体验和购买信心。

CVPR 2026的这次展示，是最新一次验证：小鹏的技术品牌，不是营销话术，是一篇篇论文、一次次推送、一公里又一公里智能驾驶里程跑出来的，也已经站在了物理AI世界模型的最前沿。

对智能汽车竞争的降维打击同时，更是对机器人、飞行汽车的跨域迁移。

2023年，小鹏首次站上CVPR。当时讲的是XNet——中国首个量产的BEV感知架构。

2025年，小鹏第二次登台。世界基座模型负责人刘先明抛出720亿参数基座模型理论，首次在行业内验证规模法则在自动驾驶VLA模型上持续生效。

2026年，CVPR“具身智能的世界模型”分论坛。小鹏第三次亮相，拿出了VLA与世界模型的思考，以及X-World、X-Foresight、X-Cache的完整技术栈，以及第二代VLA的量产验证数据。

四年时间，从工程实践到理论突破，再到量产落地。量产验证，又为世界模型的规模化落地提供了真实的反馈数据。

这种连续性，才是小鹏真正难以被追赶的护城河。

同样的连续性积累到今日，成为了小鹏从“造车新势力”到“物理AI公司”的惊人一跃：

不仅仅为一款车打造一个AI，而是在为一个物理世界打造一个通用的认知基座。

贾浩楠

一家能造4nm智驾芯片的公司，早已不止于车企2026-05-29
L2++「五冠王」文远知行：自动驾驶版的张雪机车，专治各种不服2026-05-19
4320线！6D全彩！禾赛这颗激光雷达，马斯克看了也得懵2026-04-20
自主AI汽车芯片「一姐」出手，机器人终于有了专属「小脑」2026-04-27

CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI

和英伟达特斯拉Waymo同台竞技，小鹏都讲了什么？

△从左往右，左3：刘先明，小鹏集团通用智能中心负责人；

左5：Ashok Elluswamy，特斯拉AI 软件副总裁；

左6：Dragomir Anguelov，Waymo副总裁；

△小鹏物理世界基座模型技术图谱

如何让AI理解环境、时空和因果？

都在说物理AI，小鹏有啥不一样？

热门文章

一家能造4nm智驾芯片的公司，早已不止于车企

DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

面壁智能「开源周」：一场定义端侧 AI 终局的系统性「亮剑」

创意设计版WorkBuddy来了！腾讯发布智能体创意工作室Miora

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”