首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
Scaling RL
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
一种用在高级推理模型上Scaling RL的后训练方法
不圆
2025-07-09
Scaling RL
强化学习
推理模型
加载更多
热门文章
卡帕西大模型横评方法太好玩!四大AI匿名参赛评分,最强出乎意料
2025-11-23
AI把PC天花板打破了
2025-11-23
杭州蚂蚁投了家腾讯系具身智能公司
2025-11-23
图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
2025-11-23
上线4天下载破百万,蚂蚁CTO:灵光要做AGI时代的“支付宝”
2025-11-24