首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
Scaling RL
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
一种用在高级推理模型上Scaling RL的后训练方法
不圆
2025-07-09
Scaling RL
强化学习
推理模型
加载更多
热门文章
具身开源模型新王!千寻Spirit v1.5模型登顶 RoboChallenge,终结 Pi0.5领跑时代
2026-01-12
京东AI影视创作大赛正式开启:最高10万元奖金 千万流量扶持
2026-01-14
具身智能开年最大融资,字节红杉领投10亿
2026-01-12
和闫俊杰一起敲钟的她:31岁,身价48亿
2026-01-12
DeepSeek母公司去年进账50亿,够烧2380个R1
2026-01-13