< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

一水 2026-06-13 16:11:07 来源：量子位

一起构建下一代物理世界的智能系统

如果你在三年前问AI圈：未来最强的AI长什么样？

大部分人可能会回答，一个更大的GPT，更多参数，更长上下文，更强推理能力。

然后我们一路从GPT-3.5走到GPT-4、Claude、Gemini、DeepSeek、Qwen。

直到今天，突然发现一个有趣的问题：AI已经学会写代码了，学会做数学题了，甚至学会和你讨论人生意义了，但它依然不会给自己倒一杯水。

这正是当前AI最大的局限之一：

AI没有身体。

今天，openJiuwen社区正式开源Jiuwen Symbiosis，一个专为更高阶的physical AI打造的Symbiosis（共生）架构。

从虚拟数字世界到真实物理世界，我们给AI装上了感知和行动的“骨骼与肌肉”。

Gitcode传送门：
gitcode.com/openJiuwen/jiuwensymbiosis

（动动小手，Star一下不迷路⭐）

Moravec悖论：最难的不是高数，而是走路

1988年，机器人学家Hans Moravec提出了后来著名的Moravec’s Paradox（莫拉维克悖论），其核心思想非常反直觉：

对于计算机来说：

下国际象棋很容易
做高等数学很容易

而对于人类婴儿都能完成的事情，反而异常困难：

行走
抓取
避障
保持平衡

原因很简单，这些能力并不是逻辑推导出来的，而是数百万年进化形成的身体智能。

这就是大模型时代的“缸中之脑”困境：智商200，但没有实体，对真实物理世界的摩擦力、重力和空间几何一无所知。

从“缸中之脑”到“身体力行”：智能的进化史

智能对外在机器本体控制的演进，本质上就是一场从数字世界到物理现实的历程：

1.0手搓任务（借助人的辅助）：

依靠人的理解，进行极为原子化的控制操作。

2.0虚拟环境演练（Sim2Real）：

在Habitat、AI2-THOR等仿真环境里模拟，开始有了空间概念，同时训练一个或多个模型，使得大脑可以分析理解指令，并进行任务执行。

在2.0这个阶段，一系列的问题会凸显出来，最为人诟病的是：

缺乏跨本体环境泛化能力：模型一旦训练完成，其技能集合即固化。要让机器人学会“开抽屉后抓取内部物体”，需要重新采集数据、重新训练整个模型。VLA缺乏组合泛化能力——无法将已学的“开抽屉”与“抓取”零样本组合为新任务。
长程复合任务能力不足：当前模型擅长短程原子操作（如“抓取红色方块”），但面对长程复合任务（如“从料架上取Tray盘→绕过设备→放入机台→按压确认→返回原位”），单一VLA模型缺乏任务分解、子任务编排、异常回退的能力。它只能在训练分布内“模仿”，无法在运行时“规划”。
故障定位困难：当前模型将“视觉→语言理解→物理推理→动作生成”全部压缩进一个Transformer，运行时失败（如抓取偏移、碰撞）无法定位故障根因——是感知误识别、语言歧义、物理推理错误，还是控制轨迹发散。
成功率低，稳定性差：当前模型端到端基础模型为典型黑盒结构，直接输出关节位姿等底层动作指令，大模型兼顾认知决策与运动控制，整体实现难度大，模型稳定性差、任务成功率低。

3.0共生时代（Jiuwen Symbiosis正在做的）：

模糊虚拟与现实的边界，让Agent能够真正理解物理法则，并直接输出控制硬件底层拓扑的Action序列。

Agent时代的到来

2023年以后，Agent成为整个AI领域最火热的方向之一。

大家发现：大模型已经具备不错的推理能力，真正缺少的是行动能力。于是出现了：

Tool Calling
Function Calling
MCP
Browser Agent
Computer Use Agent

Agent开始获得操作世界的能力，它们不再只是回答问题。但这里依然存在一个问题：这些Agent操作的仍然是数字世界。

不是物理世界。

但经过一系列的演进，openJiuwen团队相信具有物理能力的Agent时代已经悄然到来，它比前辈们向着真实世界更加向前迈进了一步。

下一步是让Agent走进现实世界。简单来说，传统Agent可以简化为如下过程：

而physical AI Agent的模式发生了本质的改变——Agent不再面对文本，而是面对真实世界，需要与现实环境进行交互反馈，整体过程可以简化为如下：

但openJiuwen团队认为这依然是远远不够的，人类在执行任务的过程中，观察、反馈等过程是一个不间断的实时系统。

同时，理论上，从传感器–>VLM–>LLM–>Planner–>ROS的整个过程看起来是非常优雅，但实际执行过程中，极有可能变成JSON的极限堆积，并且系统越复杂，这个现象越明显。

最终导致，Agent到底在想什么，为什么做出这个决策，为什么执行失败，全部变成糊涂账。

Jiuwen Symbiosis：让Agent拥有透明的态势感知系统

Jiuwen Symbiosis的设计理念非常简单：

Agent的思考过程应该是可观察、可调试、可协作的。

团队尝试把Agent的内部状态显式暴露出来，而不是隐藏在黑盒中。

在Jiuwen Symbiosis中：认知层与执行层通过共享Workspace协作，解决复杂任务执行，保障认知正确与快速响应，并极大简化跨本体适配。

同时，其实现过程又是丰富且严谨的，openJiuwen团队将这个核心骨架称为：态势感知环（Situation Awareness Loop）。

在此基础上，团队增加了若干功能模块，例如安全规划，状态感知，观测反馈，空间记忆等关键技术模块。

多模态感知（Multimodal Perception）

使physical AI Agent主动感知世界，是Agent由数字走向物理的基础。

同时，把理解从决策中分离，在进行Action之前对场景进行充分理解，产出结构化世界状态，例如被检测对象、对象位姿、置信度等。

安全规划（Safe Planning）

基于Prompt任务指令与结构化世界状态，进行任务规划，对相关Skill中的参数动态赋值，并进行物理可行性、安全性与约束校检，拒绝不可执行方案。

物理执行（Physical Action）

按照Skill的建议，调用相关Action Tool原子能力，最终完成位移、抓取、放置、交互等一系列连续可控的物理运动。

状态观察（Observation）

负责对物理动作执行后的真实世界状态进行采集与结构化提取。

通过视觉等传感器获取执行结果，识别物体位姿、环境变化、交互效果等关键信息，输出结构化的世界观测状态，为后续Feedback偏差计算提供客观依据。

观测反馈（Feedback）

基于观测结果构建闭环修正机制，将执行偏差、异常状态、成功/失败判据回传至推理与规划模块。

实现动作参数实时调整、规划序列动态优化、异常场景自主恢复，同时沉淀交互数据用于技能迭代，形成“感知-规划-执行-观测-反馈”的完整闭环，持续提升态势感知规划的鲁棒性。

空间记忆（Spatial Memory）

通过物体级感知，实现对空间的对象化表征（如3D Scene Graph），构建物体级的空间关系；通过变化检测技术发现事件，自动化增量式维护空间关系。

同时，通过时间维度压缩，空间层级聚合和情景事件聚类，形成多时空尺度的组织，使能任务驱动的空间上下文构建。

拥有以上能力的physical AI Agent将为行业带来如下变化，体现在如下方面：

Zero跨本体，跨环境自主适应泛化能力；
针对复杂任务，具备自主拆解，分步执行能力；
减少对训练数据的依赖；
本体操作的自我总结与进化能力。

用户视角下的Jiuwen Symbiosis：

从用户视角，Jiuwen Symbiosis就是一个“能懂人话、看得见物理世界、长了四肢的智能助手”。

用户不需要示教，不需要教它怎么抓东西，怎么走路，就像指挥一个经验丰富的工人一样，用自然语言下任务，它就能自己完成感知、理解、规划、执行。

Symbiosis：共生，而非控制

为什么叫Symbiosis？

因为我们相信未来并不是：

而是：

这是一种新的持续协作关系。在这个系统中，Agent不只是工具，而是长期合作伙伴。

它能够：

理解目标
主动规划
请求帮助
从反馈中学习

从而形成真正的人机共生。

我们将教给机器人How，而不是传统的What，允许尝试并及时纠错，沉淀经验，最终达到自我演进的目标。

终极的physical AI不会由某一家企业完成，正如Linux没有由一家公司构建，ROS没有由一家公司构建。未来的行业生态也需要开放协作，因此openJiuwen团队决定开源Jiuwen Symbiosis。

希望它成为一个透明的Agent for Physics、一个可扩展的physical AI框架、一个连接大模型与机器人世界的桥梁。

共生的另一层解读是算力生态的亲和共生。

Jiuwen Symbiosis轻量化的视觉感知模型可部署在本地端侧，消耗显存较低，对包括Ascend在内的多种生态，都可以有较好的适配，例如采用Ascend-SACT/GroundingDINO等。

其输出结果完全兼容主流检测格式，可直接对接昇腾版及其他生态兼容模型，完成下游任务联动。

Jiuwen Symbiosis与昇腾、鲲鹏

很多physical AI系统仍然沿用“大模型+GPU”的思路。

但在真实机器人场景中，问题往往不是单纯的模型推理，而是如何让感知、认知、规划和执行在有限功耗和有限带宽下形成稳定闭环。

Jiuwen Symbiosis从设计之初就采用了端云协同架构：其中，大规模推理和复杂规划运行在云侧LLM/VLM，端侧则专注于实时感知与执行。

这种架构与昇腾、鲲鹏的异构计算能力形成了天然匹配：

昇腾提供较高TOPS的AI推理能力，可承担目标检测、视觉理解、多模态感知等高频任务；
鲲鹏CPU则负责工具调度、任务编排、状态管理以及机器人控制逻辑，实现低延迟、高可靠的执行链路。

更重要的是，Jiuwen Symbiosis继承了OpenJiuwen在鲲鹏与昇腾生态上的优化成果。

在某些场景中，系统能够将规划负载卸载到昇腾NPU，将Agent Runtime、Memory、Workspace、Tool Calling等逻辑运行在鲲鹏CPU上，从而避免传统GPU方案中“所有任务争抢同一计算资源”的瓶颈。

最终形成一种更符合机器人运行规律的资源分工。

这种分层架构不仅提升系统吞吐能力，也显著降低了端侧部署成本和整体功耗，使Jiuwen Symbiosis能够更自然地运行在机器人、机械臂、四足机器人以及边缘智能设备等真实场景中。

未来

今天的Agent已经学会阅读，正在学会思考。

下一步，它们将学会行动。

而当感知、认知与行动形成闭环时，真正的physical AI时代也许才刚刚开始。

如果你也在探索：

Embodied AI
Robotics Agent
VLA/VLM
World Model
Physical Intelligence
ROS2
Multi-Agent Systems

欢迎加入openJiuwen社区，一起构建下一代物理世界的智能系统。

华为云AgentArts也已将openJiuwen引入到商业化平台能力中，开箱即用，访问华为云官网即可体验。

*本文系量子位获授权刊载，观点仅为原作者所有。

华为云

一水

突发，翁荔离职Thinking Machines2026-07-28
陶哲轩在菲尔兹颁奖现场：数学迎来百年新危机2026-07-27
机器人为啥困在Demo？讯飞新公司爻方智能给出答案：缺一味「本体认知」2026-07-23
看了20万小时「人类干活实录」，机器人悟了2026-07-19

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

Moravec悖论：最难的不是高数，而是走路

从“缸中之脑”到“身体力行”：智能的进化史

Agent时代的到来

Jiuwen Symbiosis：让Agent拥有透明的态势感知系统

多模态感知（Multimodal Perception）

安全规划（Safe Planning）

物理执行（Physical Action）

状态观察（Observation）

观测反馈（Feedback）

空间记忆（Spatial Memory）

Symbiosis：共生，而非控制

Jiuwen Symbiosis与昇腾、鲲鹏

未来

相关阅读

华为云春节前夕遭连续偷袭！密谋3个月，专挑凌晨断网

机器学习服务第一梯队都有谁？权威研究机构Forrester发布最新报告

世界第一！华为云EI问鼎国际图像识别领域“世界杯”

基于华为云Token服务的稿定AI上线，一站式解决设计难题

华为昇腾AI云服务四大升级：搭载CloudMatrix 384超节点，性能领先

华为云DevCloud一枝独秀

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字