首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
Scaling RL
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
一种用在高级推理模型上Scaling RL的后训练方法
不圆
2025-07-09
Scaling RL
强化学习
推理模型
加载更多
热门文章
具身智能大算力开发平台S600重磅亮相,地瓜机器人引领新范式
2025-11-21
“最强具身VLA大模型”,究竟强在哪儿?
2025-11-21
戴盟新一代视触觉解决方案全球首发,四大功能全新升级
2025-11-21
具身开放日点燃生态引擎,智源以开源开放驱动具身智能创新
2025-11-20
狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max
2025-11-20