强化学习

不愧是中国机器人,乒乓打得太6了

已经开始期待下一次的机器人运动会了

强化学习之父:LLM主导只是暂时,扩展计算才是正解

模仿人类思维方式,只能带来短期的性能提升

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科

梦晨 2025-04-02