首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
benchmark
Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜
正式进入“迭代优化”时代
邓思邈
2026-05-13
Agent
Auto Research
benchmark
Einsia AI
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
专门评价Cursor中不同模型谁更“智能体”
西风
2026-03-14
benchmark
智能体
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
测评负责人还是大模型竞技场顾问
克雷西
2025-06-17
benchmark
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题
2026-05-21
腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」
2026-05-21
Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五
2026-05-21
融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅
2026-05-22
李飞飞再出手,空间智能的ImageNet来了
2026-05-22