OpenAI发布强化学习教程，新手友好，代码简约易懂

栗子 2018-11-09 11:30:27 来源：量子位

OpenAI说，完全没有机器学习基础的人类，也可以迅速上手强化学习。

他们刚刚发射了一套强化学习 (RL) 入门教程，叫做Spinning Up。真诚友好，无微不至。

从一套重要概念，到一系列关键算法实现代码，再到热身练习，每一步都以清晰简明为上，全程站在初学者视角。

△ 新手光环

团队表示，目前还没有一套比较通用的强化学习教材，RL领域只有一小撮人进得去。这样的状态要改变啊，因为强化学习真的很有用。

说不定你也用得上。所以，仔细翻翻这个新手包，看看到底有多关怀：

五大核心

Spinning Up包含了5个重要部分。

第一部分，认识一下强化学习

这里分为三小步：

一是了解基础概念，即知道RL能用来做什么，理解概念和术语。

二是了解算法分为哪些种类。

三是了解策略优化。

https://spinningup.openai.com/en/latest/spinningup/rl_intro.html

第二部分，成为RL研究人员

(此部分可选择性忽略)

如何让自己习惯RL研究人员的新设定？

第一，知道哪些数学知识深度学习知识，是需要简要了解的。

第二，在实践中学习，写最最最简单的实现 (后面有代码) ，注重理解。

第三，有了小小的经验之后，试着开发自己的研究项目。这是入门之后的事了。

第四之后，有些遥远，暂时不详述了。

第三部分，论文阅读清单

这个论文列表非常详细，分为12个小类别，每个类别下有2-8篇论文。

团队说，列表比全面还全面，足够给一个想做RL研究的人类铺路了。

https://spinningup.openai.com/en/latest/spinningup/keypapers.html

第四部分，为初学者定制的代码

GitHub上面有个叫spinningup的项目，包含了强化学习能用到的各种关键算法：

VPG、TRPO、PPO、DDPG、TD3和SAC等。

团队说，这里的代码都是为初学者定制，很短很好学。比起模块化，Spinning Up以清晰为重，代码都注释过了，可以很清楚得看出每一步都在做什么，并且有背景材料可以辅助理解。

目标就是用最简约的实现，来演示一条理论是如何变成代码的，而抽象层和混淆层(Layers of Abstraction and Obfuscation) 这些东西，都省去了。

https://github.com/openai/spinningup

第五部分，热身练习

这里有两个习题集。

一是关于实现的基础，二是关于算法失效模式。

后面还有附加题，是要从零开始自己写代码实现，相对艰辛。

https://spinningup.openai.com/en/latest/spinningup/exercises.html

Hello World

团队说，要感受强化学习是怎样运作的，最好的方式是跑一跑。

在Spinning Up里面，就很容易，只要用这段代码：

1python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

训练结束的时候，你会看到说明，然后可以按照里面讲的方法来观察数据，也观察训练好的智能体的视频。

另外，Spinning Up里面的实现，和一系列Gym环境都兼容：Classic Control，Box2D，MUJOCO等等。

去吧，皮卡丘

看上去，好像真的没有很难。

OpenAI就是希望其他领域的研究人员，也能很轻易地用强化学习来辅助研究。

所以，试一下吧。

教程入口：

https://spinningup.openai.com/en/latest/index.html

GitHub传送门：

https://github.com/openai/spinningup

OpenAI 教程

栗子

SQuAD风云：AI对鲁迅作品的理解超过我了？别激动……2018-01-20
马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16

OpenAI发布强化学习教程，新手友好，代码简约易懂

五大核心

Hello World

去吧，皮卡丘

相关阅读

让莫扎特“续写”披头士的音乐，OpenAI的新AI作曲能力强丨Demo可玩

手机上就能学！Pytorch深度学习教程手把手教你从DQN到Rainbow

字节GPT账户突遭冻结，OpenAI：正在调查不当行为

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人 | 在线可玩

黄院士回应奥特曼7万亿芯片计划：笑了

GPT-5，奥特曼最新剧透

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬