"强化学习"最新资讯 | 量子位

月之暗面公开RL训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

而且不改变核心训练算法

鹭羽 2025-11-27

大模型训练强化学习

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

结合树状采样与角色化奖励机制

西风 2025-11-08

LLM 强化学习

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

PromptCoT框架全面升级

西风 2025-10-01

任务合成强化学习

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

精度无损

鹭羽 2025-09-13

字节强化学习

不愧是中国机器人，乒乓打得太6了

已经开始期待下一次的机器人运动会了

henry 2025-08-30

强化学习机器人

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

速度提升3.5倍，显存降至1/4

时令 2025-08-22

强化学习

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+任意一张牌，往往就是王炸。

henry 2025-08-11

强化学习

官方揭秘ChatGPT Agent背后原理！通过强化学习让模型自主探索最佳工具组合

Plus用户每月40次使用额度

不圆 2025-07-24

ChatGPT OpenAI 强化学习

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

POLAR：与绝对偏好解耦的策略判别学习

鱼羊 2025-07-11

上海AI Lab 强化学习

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

一种用在高级推理模型上Scaling RL的后训练方法

不圆 2025-07-09

Scaling RL 强化学习推理模型

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

数学强，不代表啥都好

henry 2025-07-08

AI 强化学习

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

展现了通往更高级通用智能的清晰路径

不圆 2025-07-01

开源强化学习

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

让教师模型“教学”而不是“解决”

不圆 2025-06-25

Sakana AI 强化学习

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

将强化学习深度融入LLM预训练阶段

鹭羽 2025-06-11

LLM 强化学习预处理

强化学习之父：LLM主导只是暂时，扩展计算才是正解

模仿人类思维方式，只能带来短期的性能提升

鹭羽 2025-06-10

LLM 强化学习扩展计算

挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

无需标注、抛弃复杂奖励设计

鱼羊 2025-06-01

强化学习无监督

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

AIME 2024准确率提升159%

克雷西 2025-04-24

强化学习

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科

梦晨 2025-04-02

强化学习

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

基于动态强化学习

一水 2025-03-30

OPPO 多模态强化学习

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

准确率提升31%

克雷西 2025-03-17

小米强化学习

强化学习

月之暗面公开RL训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

不愧是中国机器人，乒乓打得太6了

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

官方揭秘ChatGPT Agent背后原理！通过强化学习让模型自主探索最佳工具组合

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

强化学习之父：LLM主导只是暂时，扩展计算才是正解

挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

热门文章

万卡集群要上天？中国硬核企业打造太空超算！

阶跃开源4B Agent模型，跑通所有安卓设备，手搓党一键部署

DeepSeek-V3.2系列开源，性能直接对标Gemini-3.0-Pro

Transformer作者爆料GPT-5.1内幕！OpenAI内部命名规则变乱了

能讲“悄悄话”的智能助理，瑞声科技助力夸克AI眼镜S1开创语音交互新范式

强化学习

热门文章

万卡集群要上天？中国硬核企业打造太空超算！

阶跃开源4B Agent模型，跑通所有安卓设备，手搓党一键部署

DeepSeek-V3.2系列开源，性能直接对标Gemini-3.0-Pro

Transformer作者爆料GPT-5.1内幕！OpenAI内部命名规则变乱了

能讲“悄悄话”的智能助理，瑞声科技助力夸克AI眼镜S1开创 语音交互新范式

能讲“悄悄话”的智能助理，瑞声科技助力夸克AI眼镜S1开创语音交互新范式