"基准测试"最新资讯 | 量子位

基准测试

7个AI玩狼人杀，GPT-5获断崖式MVP，Kimi手段激进

GPT5的进步比想象中更大

不圆 2025-09-02

GPT-5 Kimi K2 基准测试

红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

第一个由投资机构打造的AI基准测试

梦晨 2025-05-26

基准测试

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

评估奖励模型区分微妙变化和抵抗风格偏差的能力

鹭羽 2025-05-13

LLM 基准测试奖励模型

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

无法记答案的动态基准测试

西风 2025-03-29

AI游戏基准测试

大模型权威测试被曝翻车！偏袒GPT-4等闭源模型，提示词区别对待

简单改下提示词，LIama3涨10分

白交 2024-07-11

基准测试大模型

新测试基准发布，最强开源Llama 3分数骤降，差距拉开了

大模型竞技场人类真实数据

梦晨 2024-04-22

基准测试

机器学习免费跑分神器：集成各大数据集，连接GitHub就能用，还能验证论文结果

好评如潮

鱼羊栗子 2019-10-12

免费工具基准测试

加载更多

热门文章

首位“80后”院士，来自北大数院

卡帕西大模型横评方法太好玩！四大AI匿名参赛评分，最强出乎意料

AI把PC天花板打破了

杭州蚂蚁投了家腾讯系具身智能公司

图片生成仿真！这个AI让3D资产「开箱即用」，直接赋能机器人训练