"benchmark"最新资讯 | 量子位 - Part 2

benchmark

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

测评负责人还是大模型竞技场顾问

克雷西 2025-06-17

benchmark

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

来自人民大学等最新研究

明敏 2023-11-09

benchmark 刷榜大语言模型

加载更多

热门文章

万卡集群要上天？中国硬核企业打造太空超算！

阶跃开源4B Agent模型，跑通所有安卓设备，手搓党一键部署

DeepSeek-V3.2系列开源，性能直接对标Gemini-3.0-Pro

Transformer作者爆料GPT-5.1内幕！OpenAI内部命名规则变乱了

能讲“悄悄话”的智能助理，瑞声科技助力夸克AI眼镜S1开创语音交互新范式