DeepSeek-R1-Zero – 量子位

DeepSeek-R1-Zero

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

复杂奖励函数不是必要的

西风 2025-02-22

DeepSeek-R1-Zero 沈向洋阶跃星辰

加载更多

热门文章

钉钉A1录音卡入选Gartner AI可穿戴设备报告

让Agent越用越强：AReaL 2.0开源，打造面向自演进智能体的RL基础设施

论坛预告｜夯！AI企业家论坛首发阵容公开，更有千亿级实业巨头突袭

全球首个英伟达含量为0的万亿模型，成了海外开发者的抢手货

基石筑底｜WAIC 2026算力：超节点与光互连，能否绕过单芯片的物理天花板？