首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
DeepSeek-R1-Zero
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
复杂奖励函数不是必要的
西风
2025-02-22
DeepSeek-R1-Zero
沈向洋
阶跃星辰
加载更多
热门文章
离开马斯克后,他把人形机器人做成了这样
2026-01-10
让欧美老外彻底“真香”,这家中国割草机器人品牌正在定义一个行业新标准
2026-01-07
给AI打个分,结果搞出17亿估值独角兽???
2026-01-07
NVIDIA 发布全新物理 AI 模型,全球合作伙伴展示新一代机器人
2026-01-07
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08