首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
DeepSeek-R1-Zero
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
复杂奖励函数不是必要的
西风
2025-02-22
DeepSeek-R1-Zero
沈向洋
阶跃星辰
加载更多
热门文章
“豆包手机”在二手市场价格都翻倍了……
2025-12-05
英伟达巧用8B模型秒掉GPT-5,开源了
2025-12-06
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
2025-12-05
SpaceX估值8000亿美元超OpenAI,IPO就在明年
2025-12-06
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
2025-12-06