首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
基准测试
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
第一个由投资机构打造的AI基准测试
梦晨
2025-05-26
基准测试
首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
评估奖励模型区分微妙变化和抵抗风格偏差的能力
鹭羽
2025-05-13
LLM
基准测试
奖励模型
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
无法记答案的动态基准测试
西风
2025-03-29
AI游戏
基准测试
大模型权威测试被曝翻车!偏袒GPT-4等闭源模型,提示词区别对待
简单改下提示词,LIama3涨10分
白交
2024-07-11
基准测试
大模型
新测试基准发布,最强开源Llama 3分数骤降,差距拉开了
大模型竞技场人类真实数据
梦晨
2024-04-22
基准测试
机器学习免费跑分神器:集成各大数据集,连接GitHub就能用,还能验证论文结果
好评如潮
鱼羊
栗子
2019-10-12
免费工具
基准测试
加载更多
热门文章
MiniMax AI超级智能体发布!编程/多模态突出,MCP工具无缝集成
2025-06-19
硅基流动入驻阿里云云市场,核心API服务将全面接入阿里云百炼平台
2025-06-19
英伟达中国一把手造国产GPU,冲刺IPO了
2025-06-19
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
2025-06-19
余承东发布纯血鸿蒙2.0!功能演示叫好一片,安卓和苹果都不香了
2025-06-20