扫码关注量子位
GPT5的进步比想象中更大
第一个由投资机构打造的AI基准测试
评估奖励模型区分微妙变化和抵抗风格偏差的能力
无法记答案的动态基准测试
简单改下提示词,LIama3涨10分
大模型竞技场人类真实数据
好评如潮