基准测试

首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”

评估奖励模型区分微妙变化和抵抗风格偏差的能力