Scaling RL – 量子位

Scaling RL

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

一种用在高级推理模型上Scaling RL的后训练方法

不圆 2025-07-09

Scaling RL 强化学习推理模型

加载更多

热门文章

2026年世界人工智能大会，7月17-7月20上海举办

李飞飞署名具身新论文：Sim2Real烧不起，Real2Sim量大管饱

在联合国，这家中国公司给AI“减负”：不堆算力，而是给机器人装了个“类脑”

极简方案刷新扩散模型推理纪录，阿里清华论文入选ICML杰出论文

刚刚，LeCun团队让世界模型学会持续学习！