强化学习

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

实现过程开源可复现

闻乐 2026-05-09

强化学习

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

核心思路：从画大纲到扣细节

一水 2026-04-06

强化学习论文

鲁棒RL赋能AI编程！破局企业数据噪声难题，同等算力训出更好模型

让噪声从「包袱」变「燃料」

量子位 2026-02-16

强化学习鲁棒性

8块钱跑通一次强化学习全流程，潞晨云重塑微调赛道：1名算法工程师=1支Infra团队

国内首个！兼容Tinker范式且全面开放

邓思邈 2026-01-07

大模型微调强化学习微调潞晨云潞晨科技

月之暗面公开RL训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

而且不改变核心训练算法

鹭羽 2025-11-27

大模型训练强化学习

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

结合树状采样与角色化奖励机制

西风 2025-11-08

LLM 强化学习

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

PromptCoT框架全面升级

西风 2025-10-01

任务合成强化学习

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

精度无损

鹭羽 2025-09-13

字节强化学习

不愧是中国机器人，乒乓打得太6了

已经开始期待下一次的机器人运动会了

henry 2025-08-30

强化学习机器人

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

速度提升3.5倍，显存降至1/4

时令 2025-08-22

强化学习

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+任意一张牌，往往就是王炸。

henry 2025-08-11

强化学习

官方揭秘ChatGPT Agent背后原理！通过强化学习让模型自主探索最佳工具组合

Plus用户每月40次使用额度

不圆 2025-07-24

ChatGPT OpenAI 强化学习

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

POLAR：与绝对偏好解耦的策略判别学习

鱼羊 2025-07-11

上海AI Lab 强化学习

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

一种用在高级推理模型上Scaling RL的后训练方法

不圆 2025-07-09

Scaling RL 强化学习推理模型

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

数学强，不代表啥都好

henry 2025-07-08

AI 强化学习

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

展现了通往更高级通用智能的清晰路径

不圆 2025-07-01

开源强化学习

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

让教师模型“教学”而不是“解决”

不圆 2025-06-25

Sakana AI 强化学习

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

将强化学习深度融入LLM预训练阶段

鹭羽 2025-06-11

LLM 强化学习预处理

强化学习之父：LLM主导只是暂时，扩展计算才是正解

模仿人类思维方式，只能带来短期的性能提升

鹭羽 2025-06-10

LLM 强化学习扩展计算

挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

无需标注、抛弃复杂奖励设计

鱼羊 2025-06-01

强化学习无监督

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

鲁棒RL赋能AI编程！破局企业数据噪声难题，同等算力训出更好模型

8块钱跑通一次强化学习全流程，潞晨云重塑微调赛道：1名算法工程师=1支Infra团队

月之暗面公开RL训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

不愧是中国机器人，乒乓打得太6了

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

官方揭秘ChatGPT Agent背后原理！通过强化学习让模型自主探索最佳工具组合

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

强化学习之父：LLM主导只是暂时，扩展计算才是正解

挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

热门文章

菲尔兹奖得主都看懵了：OpenAI非数学模型首次自主突破80年未解数学难题

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布，融资持续提速

太初元碁洪源：异构计算能力将成为未来AI算力基础设施的重要方向｜AIGC2026

腾讯混元开源全新翻译模型Hy-MT2 ，上线小程序「腾讯Hy翻译」

Artificial Analysis放榜：千问3.7问鼎国产模型冠军，全球前五