首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
DeepSeek-R1-Zero
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
复杂奖励函数不是必要的
西风
2025-02-22
DeepSeek-R1-Zero
沈向洋
阶跃星辰
加载更多
热门文章
网易有道发布中国版“OpenClaw”,推出全场景个人助理Agent“LobsterAI”
2026-02-11
华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token
2026-02-12
小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
2026-02-12
这个春节P图不求人!小红书开源图像编辑新SOTA
2026-02-12
蚂蚁集团开源Ring-2.5-1T,全球首个混合线性架构万亿参数思考模型来了
2026-02-13