首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
刷榜
大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩
“竞技场不应该是唯一基准参考”
明敏
2025-05-02
刷榜
大模型竞技场
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
免费!美团AI IDE编程工具CatPaw上线
2025-11-10
88%的公司在用AI,但只有39%吃到真金白银?麦肯锡2025 AI报告来了
2025-11-10
AI编程冲刺“DeepSeek时刻”:00后团队用国产模型一键直出复杂应用,效果超越Claude Code
2025-11-10
25万起,坦克400智能家用拉满,辅助驾驶雨天重庆也好用
2025-11-10
最后一周!人工智能年度榜单申报即将截止。
2025-11-10