首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
benchmark
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
测评负责人还是大模型竞技场顾问
克雷西
2025-06-17
benchmark
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
具身智能大算力开发平台S600重磅亮相,地瓜机器人引领新范式
2025-11-21
对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”
2025-11-21
首位“80后”院士,来自北大数院
2025-11-22
卡帕西大模型横评方法太好玩!四大AI匿名参赛评分,最强出乎意料
2025-11-23
AI把PC天花板打破了
2025-11-23