< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

让城市成为一个生命体：交大系酷哇发布WAM 2.0世界模型，剑指RoboCity终局

思邈 2026-02-05 12:21:40 来源：量子位

“仅靠真实数据无法通向物理AI”

允中发自凹非寺

量子位 | 公众号 QbitAI

Scaling Law在物理世界失灵了吗？

大模型重塑数字世界之后，物理AI成为了下一个征途。

但在自动驾驶之后，通用机器人正面临着一道前所未有的工程天堑——

真实物理世界开放、连续且强因果约束，任务高度多样、交互对象不可穷举、失败成本极高。

行业正达成新共识：

Scaling Law依然有效，但仅靠堆砌真实数据已触及天花板。

要实现规模化进化，通用机器人必须在行动前具备“理解、推演并评估物理世界”的能力。

于是，世界模型（World Model），以及进一步的环境与动作统一建模架构——World-Action Model（WAM），正在成为物理AI的关键基础设施。

作为具身智能领域的代表性玩家，由上海交大系技术“双子星”——何弢博士与廖文龙博士联手掌舵的酷哇科技（Coowa），近期发布了其核心技术底座——COOWA WAM 2.0世界模型。

这次升级标志着机器人开始从“动作复现”转向“规划推理”，完成了从模仿者向思考者的跃迁。

模仿学习的尽头：为什么“闭环数据”不够用了？

过去十年，深度学习的成功主要建立在“大规模真实数据驱动的自监督学习”之上，GPT系列正是这一范式的典型代表。

然而，如果将这一逻辑迁移到机器人领域，却可以发现一个尴尬的分布外（OOD）陷阱。

语言系统的词汇与语法规则虽然庞大，但终究是有限的，新样本大多落在既有的语义流形之内。而物理世界截然不同——状态与交互的组合近乎无限，且动作的后果无法仅由历史共现模式推断。

在这样的系统中，仅依赖真实数据的模仿学习存在一个致命的数学缺陷：累积误差（Cumulative Error）。

在长序列的多步决策中，微小的状态预测偏差或动作执行误差，会随着时间和环境反馈被不断放大。

这导致系统迅速偏离训练数据的分布，进入模型从未见过的“未知区域”。一旦进入该区域，机器人行为失稳甚至灾难性失效便不可避免。

更由于物理世界的不可逆性，我们无法像训练AlphaGo那样在真实世界中进行无限次的试错。高质量交互数据采集成本高、长尾场景（Corner Case）复现难，构成了物理AI的“数据长城”。

因此，通用机器人必须引入反事实推演（Counterfactual Reasoning）能力——即机器人在执行动作之前，在脑海中预演“如果我这样做，世界会变成什么样”。

这正是World-Action Model (WAM) 存在的意义。

范式重构：从“感知-执行”到“推演-决策”

传统的机器人系统遵循“感知（Perception）→ 策略（Policy）→ 控制（Control）”的线性链路。

这种设计的局限在于，系统无法内在建模动作的潜在后果，本质上是一种高维的“条件反射”。

酷哇科技的COOWA WAM 2.0带来的是一种系统级的范式升级，它是一个可学习的神经模拟器，通过统一建模以下三大元素，实现了可推演的决策能力：

世界状态：可观测的环境与对象表征；
动作候选：机器人自身与他体的可能行为；
状态-动作-结果：统计关联与因果演化。

在这一架构下，机器人不再盲目行动，而是基于对世界的理解进行“思想实验”。

硬核拆解：COOWA WAM 2.0的四大技术支柱

为了实现上述能力，COOWA WAM 2.0在工程上构建了四大核心模块，巧妙地融合了“快思考（直觉）”与“慢思考（推理）”。

1、基于语义的表征学习 (Semantic Representation Learning)

——机器人的视觉皮层

低层的像素信息难以直接用于决策，机器人需要理解画面背后的语义。

该模块利用图像-文本对齐（Masking + 对比学习）技术，提取高层语义特征。

它将纷繁复杂的视觉输入，映射为可理解、可计算的环境表征（Latent Representation）。

这不仅解决了感知信息过载的问题，更为后续的直觉系统和推理系统提供了统一、可迁移的感知基础，实现了跨任务与跨场景（如从环卫车到人形机器人）的泛化能力。

2、基于视频生成的未来预测 (Video-based World Dynamics Prediction)

——物理世界的推演沙盒

这是世界模型的核心。

该模块通过对环境状态序列建模，学习物理规律、对象交互和场景演化模式，有点类似于Sora的视频生成能力，但它更专注于动力学的一致性。

通过自监督预测训练，它能生成未来可能的动态场景，为机器人提供一个零成本的虚拟试验场。

在这里，机器人可以前瞻性地评估动作后果，从而规避现实中的风险，极大降低了累积误差的影响。

3、直觉行动系统 (Intuition-driven Action Generator)

——系统1：快速响应的第一感

在开放环境中，机器人不能对每一个动作都进行耗时漫长的逻辑搜索。

直觉行动系统扮演了“系统1”的角色。

它基于环境的高维表征和模仿学习习得的经验规律，不依赖逐步搜索，而是直接利用直觉模型预测潜在动作结果，快速并行生成多组动作候选。

这使得机器人即便在面对突发状况时，也能基于经验生成合理的应对方案，保证了响应的实时性。

4、VLM宏观约束 (Vision-Language Model Constraints)

——系统2：因果逻辑的守门员

直觉系统虽然快，但容易产生幻觉或违反长期目标。

此时，需要VLM（视觉语言大模型）介入，扮演“系统2”的角色。

在COOWA WAM 2.0中，VLM不直接生成底层的连续控制信号（因为不够精准），而是承担宏观规划与因果约束。

宏观因果约束：将任务目标转化为高层约束，防止低层动作产生危险。
动作筛选与优化：在直觉系统生成的候选动作库中，VLM根据常识和物理逻辑进行“剪枝”和“优选”。

这种“直觉生成+VLM约束”的互补架构，既保证了机器人动作的快速反应，又确保了决策符合人类意图与物理常识。

从WAM到Robo City，构建物理世界的“新基建”

COOWA WAM 2.0的出现，标志着通用机器人正在从“单一技能模型”走向“通用认知底座”。

但在酷哇科技他们看来，技术架构的完成度只是第一步，商业系统的鲁棒性才是检验物理AI是否成熟的终极标准。

得益于COOWA WAM 2.0带来的极高泛化能力与低边际部署成本，酷哇科技打破了具身智能领域长期存在的“定制化陷阱”和“难以规模化”魔咒。这一技术突破直接转化为强劲的市场表现：目前，公司已手握50亿元订单，并在全球50多个城市及地区实现常态化运营。

更具里程碑意义的是，酷哇近期宣布其已率先实现年度EBITDA（息税折旧摊销前利润）回正，证明了其通用机器人已从依靠资本输血的科研原型，蜕变为具备自我造血能力和商业确定性的工业级产品。

在这一商业基石之上，酷哇正在构建一个被称为“Robo City”的未来城市图景。

在酷哇的构想中，未来城市中的数万台异构机器人将由一个个孤立的个体，跃升为通过WAM共享同一个“世界认知”的智能集群，具体包括以下组成部分：

L4级无人小巴（Coobus）：在城市微循环中高效接驳，打通出行的“最后一公里”；
城市管家机器人：穿梭于CBD与公园，化身为流动的智能交互终端，基于人流热力图主动寻找需求，实现“货找人”的动态商业闭环；
泛具身服务机器人：在无人商超与园区内部，自主完成货架盘点、补货，以及跨楼层的物资垂直流转。

它们共同构成了一套覆盖全城的物理智能体网络（Physical Agent Network），像水电网一样，成为维持现代城市高效运转的新型基础设施。

万台通用机器人重构现实，WAM在沙盒中推演未来，物理AI才真正迎来了属于它的高光时刻。

酷哇科技，不仅是这套新基建的定义者，更是跑在最前面的破局人。

真是酷哇～

具身智能机器人自动驾驶酷哇科技

思邈

让城市成为一个生命体：交大系酷哇发布WAM 2.0世界模型，剑指RoboCity终局

模仿学习的尽头：为什么“闭环数据”不够用了？

范式重构：从“感知-执行”到“推演-决策”

硬核拆解：COOWA WAM 2.0的四大技术支柱

从WAM到Robo City，构建物理世界的“新基建”

相关阅读

特斯拉：马斯克容易被Deepfake，所以不用相信他对自动驾驶的宣传

OpenAI重返机器人赛道！四大核心岗位开招

百度Apollo向武汉大学捐赠自动驾驶车辆：助力自动驾驶科研教育和产业繁荣

滴滴自动驾驶公司迎来新管理层成员，原安波福副总裁韦峻青加入

小鹏智能驾驶致命车祸：高速撞向静止车辆，光线良好，系统里里外外失效

斯坦福团队新作：喊话就能指导机器人，任务成功率暴增，网友：特斯拉搞快点

热门文章

GPT发AI原创新成果了

星海图创始人高继扬：具身智能三层技术路线，没有捷径可走

香港特区政府财政司司长陈茂波一行到访 PPIO

为什么最有价值的AI讨论总发生在知乎？

全球首个人形机器人通用小脑来了！全球最大规模2万小时人类动作数据，实现零样本泛化