首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
刷榜
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
Manus带火的MCP,让Claude一句话自动化3D建模,网友:真·AI+应用
2025-03-15
米哈游蔡浩宇AI游戏曝光:大模型驱动数字人实时互动,玩家自定义开放剧情,内测已开启!
2025-03-15
百度版深度思考模型免费上线!API定价比DeepSeek R1再砍一半
2025-03-16
一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版
2025-03-17
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15