首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
benchmark
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
测评负责人还是大模型竞技场顾问
克雷西
2025-06-17
benchmark
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
机器人训练,北京男大有了技能玩法
2025-11-08
AI100访谈:「Get笔记」方法论|量子位智库
2025-11-08
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08
ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4
2025-11-08
大厂AI新战场:AQ狂飙,蚂蚁押注大健康赛道
2025-11-09