具身智能迎来“统考卷”:上海交通大学发布大规模开源测评集GM-100,致力推动行业标准化
100个具体任务,总计13,000条操作轨迹数据
2026年开年,由上海交通大学等机构联合研发的具身智能测评集GM-100正式发布,迅速成为机器人学习与人工智能交叉领域内引发广泛关注与讨论的焦点。这一测评集旨在为衡量机器人“大脑”(智能模型)与“身体”(物理执行)的协同能力,提供一个更系统、开放且可复现的评估基准。GM-100的发布及其开源开放的姿态,标志着学术界与工业界在构建更科学、透明、协作的具身智能评测生态道路上,迈出了关键而务实的一步。
GM-100包含了100个具体任务,总计13,000条操作轨迹数据,规模可观。但与其单纯追求数据量,研发团队更强调其任务设计的广度与评估体系的深度,这正是GM-100区别于现有测评集的关键。
项目牵头人、上海交通大学副教授李永露在接受采访时阐述了其团队的理念——“以数据为中心的具身智能”。他指出,在当前研究阶段,高质量的数据集和评测体系对科研的贡献至关重要,优化数据分布能有效推动模型能力进步。
GM-100的任务设计过程系统而严谨:研究团队首先分析人类与物体交互的基本“原语”,随后利用大语言模型生成大量候选任务,再经专家筛选优化,最终形成涵盖从日常简单操作到罕见复杂场景的百项任务。
为进行全面评估,GM-100团队在传统的任务成功率之外,引入了两项关键指标:
部分成功率:用于量化多步骤任务中,子步骤的完成情况,避免“非全即无”的粗暴判断。
动作预测误差:衡量模型在面对新情况时,动作模仿的精度。
这种多维指标使得研究者能从不同颗粒度分析模型优势与弱点。研究团队已对Diffusion Policy、π系列及GR00T等主流模型进行了测试。结果表明,GM-100的任务设计难度合理,在不同机器人平台上均可执行且具备区分度,其评估结果在不同硬件间也表现出稳定的泛化性,为跨平台模型能力比较提供了可靠参考。
为推动行业广泛参与与评测公平,GM-100团队采取了极具开放性的举措。所有100个任务的详细说明、所需物料清单(甚至精确到具体购买链接)均已开源。更重要的是,团队为每个任务上传了约130条真实机器人操作轨迹数据。这极大地降低了研究机构与开发者的复现与参与门槛,使更多人能在同一基准上开展工作。
对于开源的模型,GM-100团队建立了审核机制,要求提交者提供模型权重以供验证,并为通过审核的提交打上“已验证”标签,确保结果的可信度。团队还表示,未来将进一步完善社区功能,允许用户对任务和结果进行点评、收藏与讨论,旨在将其构建成一个活跃的交流与协作平台。
当前,具身智能领域评测标准分散且不统一,各团队自建标准,聚焦点各异(如抓取、路径规划等),且多局限于高频简单场景。随着技术进步,旧有基准的区分度下降,难以反映复杂环境下的核心挑战,行业缺乏公认的客观参照。
GM-100应需而生,其目标并非建立一个绝对公平的物理测试环境(在当前阶段这不现实),而是打造一个开放、透明、可复现的评测平台。它通过提供标准化的“考题”(任务)、详细的“考试说明”(开源资料)和灵活的“阅卷标准”(多维指标),努力成为一张“统考卷”。这不仅有助于横向比较模型性能,更通过其题目设置,间接定义了该领域应关注的核心能力与前沿问题,有望引导研究方向。
- 香港科学园独家战略合作“WAIC UP!全球年终盛会”,携手开启AI全球协作新篇章2026-01-26
- 周鸿祎剧透360将发布“短剧智能体” 用户输入剧本即可生成漫剧大片2026-01-26
- 九骏踏浪,海淀这片“创新深海”做了啥?2026-01-23
- 金山云星流全面升级,以智算穿越云上AI新周期2026-01-22



