首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
Scaling RL
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
一种用在高级推理模型上Scaling RL的后训练方法
不圆
2025-07-09
Scaling RL
强化学习
推理模型
加载更多
热门文章
刚刚,国产AI自己造了AI,全球首例!
2026-05-26
卡帕西Anthropic最新头衔:技术员工(MTS)
2026-05-26
融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅
2026-05-22
李飞飞再出手,空间智能的ImageNet来了
2026-05-22
顶流里最快!智谱,你是在「喷」代码吧
2026-05-22