首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
benchmark
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
专门评价Cursor中不同模型谁更“智能体”
西风
2026-03-14
benchmark
智能体
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
测评负责人还是大模型竞技场顾问
克雷西
2025-06-17
benchmark
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
硬刚GPT-Image-2!国产AI生图“天花板”又被捅破了?
2026-04-25
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24
河南师傅,左手扳手,右手飞书,竟然能搞数据分析!
2026-04-23
DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片
2026-04-24
Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进
2026-04-24