奖励模型 – 量子位

奖励模型

只因一个“：”，大模型全军覆没

LLM会被表面内容操纵，产生假阳性结果

鹭羽 2025-07-15

LLM 奖励模型

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

评估奖励模型区分微妙变化和抵抗风格偏差的能力

鹭羽 2025-05-13

LLM 基准测试奖励模型

加载更多

热门文章

腾讯想让企业打开AI的方式只剩一个

DeepSeek开招土木老哥：自建GW级数据中心

5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队

有余凯不投的地平线离职创业员工吗？

GPT-5.6首批实测来了！精准狙击Mythos