首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
DeepSeek-R1-Zero
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
复杂奖励函数不是必要的
西风
2025-02-22
DeepSeek-R1-Zero
沈向洋
阶跃星辰
加载更多
热门文章
具身智能大算力开发平台S600重磅亮相,地瓜机器人引领新范式
2025-11-21
“最强具身VLA大模型”,究竟强在哪儿?
2025-11-21
戴盟新一代视触觉解决方案全球首发,四大功能全新升级
2025-11-21
具身开放日点燃生态引擎,智源以开源开放驱动具身智能创新
2025-11-20
狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max
2025-11-20