首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
Scaling RL
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
一种用在高级推理模型上Scaling RL的后训练方法
不圆
2025-07-09
Scaling RL
强化学习
推理模型
加载更多
热门文章
全国首批!商汤大装置SenseCore获软件供应链安全能力评估证书
2026-02-14
「斯坦福AI小镇」创业即获投1亿美元!李飞飞卡帕西都投了
2026-02-14
人形机器人放无人机,还能上天入海!有点过于赛博了吧
2026-02-14
情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录
2026-02-14
GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文!
2026-02-14