刷榜 – 量子位

刷榜

大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩

“竞技场不应该是唯一基准参考”

明敏 2025-05-02

刷榜大模型竞技场

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

来自人民大学等最新研究

明敏 2023-11-09

benchmark 刷榜大语言模型

加载更多

热门文章

GPT发AI原创新成果了

全球首个人形机器人通用小脑来了！全球最大规模2万小时人类动作数据，实现零样本泛化

香港特区政府财政司司长陈茂波一行到访 PPIO

AIEC 2026 | 太初元碁分享国产 AI 算力实践助力 Token 服务落地生根

AI看病成为医患新包袱？补上「多轮追问」，通用AI才迈得过医疗关