LLM

强化学习之父:LLM主导只是暂时,扩展计算才是正解

模仿人类思维方式,只能带来短期的性能提升

首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”

评估奖励模型区分微妙变化和抵抗风格偏差的能力

微软:两个AI相互纠错,数学再涨5分

合作才能供应!LLM互相纠错可提高数学水平