基于数万次真机评测,RoboChallenge首份年度报告发布
全球真机实测揭示 VLA 模型现状
当大语言模型在数字世界不断刷新人类认知边界,一场关于 AI 如何“扎根”现实物理世界的革命正悄然进行。
1月30日,全球首个具身智能大规模真机评测平台—— RoboChallenge 正式发布首份年度报告。报告基于过去数月内(2025 Q4~2026 Q1)平台完成的数万次严苛远程真机测试,以大规模、标准化、可复现的数据,客观揭示了当前视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战,为具身智能(Embodied AI)从实验室迈向通用化,提供了不可或缺的“公正标尺”与行动指南。
从数字智能到物理智能:行业呼唤“真实考场”
近年来,大语言模型与视觉语言模型取得了爆发式突破,人工智能在感知、认知与推理层面展现出惊人潜力。
然而,将这种能力可靠地赋予机器人,使其在复杂多变的物理世界中理解、决策并执行任务,仍是横亘在研究者面前的巨大挑战。
真机测试长期面临难以复现、缺乏统一标准、成本高昂等核心痛点,导致模型评估往往停留在仿真环境或有限场景,其“现实世界智能”成色几何,始终难以量化评判。
RoboChallenge正是为破解这一行业共性难题而生。
作为由原力灵机与Hugging Face联合发起的全球首个大规模的真机评测平台,RoboChallenge致力于构建一个开放、公正、可大规模复现的“真实考场”。
自2025年10月15日正式上线以来,平台已成功部署了包含UR5、Franka Panda、ARX5、ALOHA等四大主流机型在内的20台真机集群,构筑起一个稳定、多元的远程物理测试网络。
凝聚行业共识,共建评测标准
为推动真机评测走向规范化、标准化,2025 年 11 月 20 日,原力灵机与 Hugging Face 深度集结智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学及 GOSIM,共同成立了 RoboChallenge 组委会。
以下为组委会成员:

这标志着真机测评迈入“开放共同体”协作的标准化新阶段,将以行业共创模式为技术迭代注入强劲动能。
组委会致力于将 RoboChallenge 升维为行业级公共基础设施,依托常态化运营机制,推动评测从“分散实验”走向“共识共建”。
未来,组委会将持续联动产学研各界,构建透明、高效、可信的评测生态,加速具身智能行业标准的沉淀与普及。
与此同时,平台开源了覆盖9大类、共计30个标准化桌面任务的Table30数据集,为全球研究者提供了公开、透明、高价值的训练与评测基准。
这一举措迅速获得全球具身智能社区的积极响应。
真机实测成风潮,开源模型竞相上榜
报告指出,RoboChallenge 平台用户注册数与评测提交量在过去三个月呈指数级增长,标志着“拥抱真机实测”已成为全球具身智能领域的核心共识。
平台已吸引了从顶尖研究院所、科技巨头到活跃开源社区的广泛参与。
目前,由社区及个人开发者提测的多款开源模型,如 Pi0 与 Pi0.5、RDT-1B、CogACT 及 OpenVLA-OFT 等已成功完成测试并上榜。千寻智能与自变量团队更已完成了完整的 Table30 任务集评测。
此外,极佳视界、智源研究院、中移杭研、星海图、地平线等多家机构的模型也正在平台进行紧锣密鼓的真机实测。这种跨越国界与机构壁垒的广泛参与,彰显了行业对于标准化、可比较真机验证平台的迫切需求。
报告核心发现:机遇与挑战并存
基于对海量真机测试数据的深度分析,RoboChallenge 年度报告揭示了以下核心发现与亮点观察:
1. 评测热度飙升,真机验证已成刚需:
平台活跃度指数级增长,证实 RoboChallenge 已成为检验 VLA 模型物理世界能力的权威试金石。

图注:活跃用户地域分布显示出 RoboChallenge 正在形成的国际化生态
2. 基础任务趋近成熟,“Hello World”雏形初现:
“叠碗”和“物体移入盒子”两项任务因其相对较高的成功率,成为多数模型首选的验证性任务,类似具身智能的入门“考题”。
3. 复杂任务依然“屹立不倒”:
涉及多步骤序列决策、长期规划及精细灵巧操作的任务,如“整理纸杯”、“制作三明治”等,对当前所有参测模型而言仍极具挑战,成功率长期处于低位,部分甚至接近零。这清晰划定了当前技术的能力前沿。
4. 榜首模型成功率约 50%,前路仍长:
当前在 Table30 评测集上表现最佳的模型,其整体成功率也仅在 50% 左右。
这既体现了现有模型的进步,也充分说明了 Table30 任务集设计的挑战性与现实价值,表明具身智能在通用能力上仍有巨大提升空间。

图注:RoboChallenge 官网首页总榜(仅显示 Top 8) 截图日期:2025.1.23
5. VLA 模型仍在攻克人类的本能级操作。
实测数据显示,参测模型虽具备较强的指令语义理解能力(呈现移动趋势),但在精细操作任务中成功率不足 15%。
这种现象在 RoboChallenge 平台上沉淀了大量真机失败数据,这份公开的“错题集”可作为模型迭代优化的关键参考。
6. 社区志愿者与具身智能企业通过实战评测,不仅探明了多维任务下的模型边界,更沉淀了关键的技术洞察与工程经验。
这些实战的洞察和发现为 RoboChallenge 的迭代提供了重要参考,正凝聚行业合力,共同加速具身智能“GPT-3.5时刻”的到来。
展望未来:拓展场景,深化协作,共创价值
RoboChallenge 年度报告的发布,标志着具身智能真机评测进入了以数据驱动、标准共建的新阶段。但这仅仅是序章。
展望未来,RoboChallenge 将持续迭代,引入更多机器人本体类型,拓展至更多元化、更贴近真实工业与家庭需求的场景评测集,并设计更具挑战性的任务。
平台还将探索分布式真机评测机制,进一步扩大测试规模与效率。
“我们的愿景是与全球社区并肩前行,”RoboChallenge 组委会表示,“通过构建和维护这个最真实、最开放的具身智能‘考场’,我们期望不断降低真机验证的门槛,让每一次失败都转化为进步的阶梯,共同推动具身智能技术突破‘最后一厘米’的障碍,最终在真实的物理世界中创造切实、普惠的价值。”
查阅RoboChallenge年度报告请登陆官网:
https://robochallenge.ai/news
— 完 —
量子位 QbitAI · 头条
关注我们,第一时间获知前沿科技动态号
- LeCun离职后不止创一份业!押注与大模型不同的路线,加入硅谷初创董事会2026-01-30
- 阶跃星辰不再低调:巨额融资,印奇加入,“1+3”核心决策层浮出水面2026-01-27
- 14万!全球首款家务机器人开卖,OpenAI投资,萌脸翘臀会自己充电2025-10-29
- 将登央视春晚,今年冲击IPO!江苏具身新贵魔法原子联创披露一堆新信息2026-01-24




