benchmark – 量子位

benchmark

具身智能“高考”难疯了！人类100分，最强模型12.8

具身测评界的珠峰来了：RoboDojo

邓思邈 2026-07-08

benchmark RoboDojo RoboTwin 具身智能

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

正式进入“迭代优化”时代

邓思邈 2026-05-13

Agent Auto Research benchmark Einsia AI

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

专门评价Cursor中不同模型谁更“智能体”

西风 2026-03-14

benchmark 智能体

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

测评负责人还是大模型竞技场顾问

克雷西 2025-06-17

benchmark

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

来自人民大学等最新研究

明敏 2023-11-09

benchmark 刷榜大语言模型

加载更多

热门文章

2026年世界人工智能大会，7月17-7月20上海举办

在联合国，这家中国公司给AI“减负”：不堆算力，而是给机器人装了个“类脑”

极简方案刷新扩散模型推理纪录，阿里清华论文入选ICML杰出论文

刚刚，OpenAI首席未来学家离职！曾被马斯克骂蠢驴

50FPS、成本打掉70%，魔芯MoWorld把世界模型带进产业时代