OpenAI强化学习游戏库大更新：游戏上千款，还能自己加

liming 2018-05-26 11:58:11 来源：量子位

李林编译整理

量子位出品 | 公众号 QbitAI

想把一个强化学习Agent训练成游戏高手？OpenAI今天推出的完整版Gym Retro必须了解一下。

这是一个用游戏来研究强化学习的平台，现在上面的游戏数量已经有1000多款，横跨各种后端模拟器，再也不是之前那个只能玩70款雅达利+30款世嘉的小平台了。

除了这1000多款可供AI玩耍的游戏之外，OpenAI还推出了一个集成工具，让用户可以在平台上添加新游戏。

跨游戏泛化

Gym Retro上的游戏覆盖了世嘉的创世纪和Master System，任天堂红白机（NES）、SNES和Game Boy主机。对于世嘉掌机GG（Game Gear）、任天堂Game Boy Color、Game Boy Advance、NEC TurboGrafx上的游戏，也有初步支持。

这么多游戏集中在同一个平台上，非常适合启动“跨游戏泛化”的研究。也就是说，AI把一个游戏玩输了之后，能不能把这些能力用到理念相似、表现形式不同的其他游戏上去？

在研究跨游戏泛化之前，要先从简单的起步：同一个游戏中的跨关卡泛化。上个月，OpenAI就举办了一场Retro Contest，让大家用刺猬索尼克的部分关卡来训练AI，再尝试泛化到另外一些关卡。现在仍在继续，离结束还有几周时间。

OpenAI强化学习游戏库大更新：游戏上千款，还能自己加

当时，他们还发布了一篇技术报告来描述任务的基准。

Gotta Learn Fast: A New Benchmark for Generalization in RL

Alex Nichol, Vicki Pfau, Christopher Hesse, Oleg Klimov, John Schulman

https://arxiv.org/abs/1804.03720

现在，Gym Retro有了更多游戏，在庞大的数据集支撑下，这类泛化的研究可以从“跨关卡”变成“跨游戏”了。OpenAI自己也在进行这方面的研究，成果预计明年公布。

关于平台上的1000多款游戏，OpenAI温馨地提醒你：部分游戏可能有bug。

新游戏整合工具

如果你对跨游戏泛化没什么兴趣，偏偏只想让AI玩一款平台上没有的船新游戏呢？

OpenAI还随着Gym Retro正式版，推出了一个新游戏整合工具。只要你有游戏ROM，就可以运用这个工具创建保存状态、寻找内存位置、设计让强化学习Agent来解决的场景。

这个整合工具还支持录制和播放回放文件，把打游戏时所有的按键操作都保存下来。回放文件不保存每一帧图像，而是只包含初始状态和每次按键得出的结果，因此体积很小。这种回放文件可以用来观察Agent的动作，也可以用来保存人类输入制作训练数据。

AI擅长什么游戏？

PPO等强化学习算法最擅长的游戏有个共同特征：奖励密集，以反应速度取胜。比如说宇宙巡航舰（Gradius）：

OpenAI强化学习游戏库大更新：游戏上千款，还能自己加

在宇宙巡航舰这个游戏里，消灭每一个敌人都能得分，也就是说很容易获得奖励；躲避开所有敌人就能活下来，也就是说拼的就是个反应速度。对于按帧来打游戏的强化学习算法来说，这并不算难。

而对于奖励稀疏，需要为几秒之后发生的事做规划的游戏，现在的强化学习算法就不太擅长了。

Gym Retro里就有很多游戏属于后者，等着广大小伙伴努力攻克。

防止AI钻空子

攻克这些游戏的过程中，请注意：你的AI可能会钻空子。

强化学习Agent打游戏，其实是在积累奖励，如果奖励函数只是得分、不考虑完成整个游戏的话，就可能会发生意想不到的操作。比如说下面的Cheese Cat-Astrophe和复仇之刃，就都被AI玩坏了：

OpenAI强化学习游戏库大更新：游戏上千款，还能自己加

△ Cheese Cat-Astrophe

OpenAI强化学习游戏库大更新：游戏上千款，还能自己加

△ 复仇之刃

在这两个游戏中，AI都为了快速积累奖励，困在一个关卡之内无限循环。

所以，OpenAI温馨提示：奖励函数设置得太简单，可能导致AI的行为出偏差。

让AI好好打游戏，慎重设置你的奖励函数~

OpenAI强化学习游戏库大更新：游戏上千款，还能自己加

跨游戏泛化

新游戏整合工具

AI擅长什么游戏？

防止AI钻空子

相关地址：

相关阅读

快手的AR小人，正在代替你跳海草舞

吴恩达对话LeCun：神经网络跌宕四十年

这款超火的游戏，AI只用4小时，就秀出了人类花1年才能达到的水平

李彦宏人民日报发文：推动新一代人工智能健康发展

预测未来一周全球天气要多久？华为云：给我几秒钟

让梦露和龙妈学着你说话，只需一张静态图和一个视频 | 项目开源

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬