首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
benchmark
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
测评负责人还是大模型竞技场顾问
克雷西
2025-06-17
benchmark
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
万卡集群要上天?中国硬核企业打造太空超算!
2025-11-29
阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署
2025-11-30
DeepSeek-V3.2系列开源,性能直接对标Gemini-3.0-Pro
2025-12-01
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
2025-11-30
能讲“悄悄话”的智能助理,瑞声科技助力夸克AI眼镜S1开创 语音交互新范式
2025-12-02