DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

安妮 编译自 arXiv

量子位 出品 | 公众号 QbitAI

出于未知原因,DeepMind为自己研究起的名字总饱含诗意,在学术界中显得尤为画风清奇。

比如“彩虹”,比如“独角兽”。

前者,是去年10月DeepMind投递到AAAI 2018的六种DQN混血论文;后者,是我们今天要介绍的主角。

近日,DeepMind提出了命名为“独角兽(Unicorn)”的智能体架构,它展示出厉害的持续学习能力,已经胜过很多基准智能体。

这是怎样实现的呢?

研究人员表示,独角兽通过利用并行的off-policy学习策略,统一表示和学习多种策略,才达到了这样的表现。

DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

 DeepMind曾经的研究——一个会跑酷的小人

何为持续学习?

持续学习(Continual learning),指的是智能体借助已经获得的知识和技能,从经验中学习持续的任务流的一种方法。

这种设置的主要特点是,它有潜力成为一个完全独立的智能体,可以增强构建自己的能力,解决丰富和复杂环境中的挑战,而无需人类提供的数据集、任务边界或奖励设置等的干预。

因为智能体的能力在增长,所以它会去考虑复杂性持续增长的任务。理想的持续学习智能体应该能:

(A)解决多项任务

(B)当任务相关时表现出协同效应

(C)处理任务之间深度依赖的结构

独角兽的特征

在这篇题为Unicorn: Continual learning with a universal, off-policy agent的论文中,DeepMind的研究人员Daniel J. Mankowitz等人提出了一种新型的独角兽智能体架构,可以显示上述这三种性能。

独角兽架构有三个显著特征:

(1)它是一种用单一网络同时学习多任务中价值函数的新方法

(2)同时,利用样例有效的off-policy更新通过任务分享经验

(3)当然,还结合了最先进的并行智能体架构,有效扩大经验的生成和学习

下图显示的是研究人员提出的持续学习领域。在图中可以看到,智能体在满是物体的丰富的3D环境中进行导航,并且借助了第一人称视角的视觉输入。

DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

 上图指的是持续学习领域:在DM Lab的丰富环境中(左图)找到并按特定顺序拾取钥匙、锁和箱子(右图)的表现,偏离特定顺序将会被重置(虚线)。下图指的是独角兽的表现:和最终在最佳基线(glutton虚线)上的表现相比,研究人员提出的方法快速胜任了四个子任务。相对能力在分阶段增强,从简单(钥匙)到困难(箱子),最困难的任务能力增长幅度最大

使这个领域变得最为挑战的是,物体需要以特定的顺序收集起来。例如,箱子只有在智能体已经收集了钥匙、锁和门的情况下才起作用。

这就意味着,在大多数探索任务中,箱子这种高度依赖型任务的反馈非常稀疏,并且不能直接学习。

幸运的是,独角兽智能体始终在解决领域内的这类问题,并且通过分享经验和重新利用任务中的表现和技能输出基线。

DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

想了解更多实验过程,可移步论文原文~地址给你:

https://arxiv.org/abs/1802.08294

版权所有,未经授权不得以任何形式转载及使用,违者必究。