DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体

安妮 2018-02-26 12:07:39 来源：量子位

安妮编译自 arXiv

量子位出品 | 公众号 QbitAI

出于未知原因，DeepMind为自己研究起的名字总饱含诗意，在学术界中显得尤为画风清奇。

比如“彩虹”，比如“独角兽”。

前者，是去年10月DeepMind投递到AAAI 2018的六种DQN混血论文；后者，是我们今天要介绍的主角。

近日，DeepMind提出了命名为“独角兽（Unicorn）”的智能体架构，它展示出厉害的持续学习能力，已经胜过很多基准智能体。

这是怎样实现的呢？

研究人员表示，独角兽通过利用并行的off-policy学习策略，统一表示和学习多种策略，才达到了这样的表现。

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体

△ DeepMind曾经的研究——一个会跑酷的小人

何为持续学习？

持续学习（Continual learning），指的是智能体借助已经获得的知识和技能，从经验中学习持续的任务流的一种方法。

这种设置的主要特点是，它有潜力成为一个完全独立的智能体，可以增强构建自己的能力，解决丰富和复杂环境中的挑战，而无需人类提供的数据集、任务边界或奖励设置等的干预。

因为智能体的能力在增长，所以它会去考虑复杂性持续增长的任务。理想的持续学习智能体应该能：

（A）解决多项任务

（B）当任务相关时表现出协同效应

（C）处理任务之间深度依赖的结构

独角兽的特征

在这篇题为Unicorn: Continual learning with a universal, off-policy agent的论文中，DeepMind的研究人员Daniel J. Mankowitz等人提出了一种新型的独角兽智能体架构，可以显示上述这三种性能。

独角兽架构有三个显著特征：

（1）它是一种用单一网络同时学习多任务中价值函数的新方法

（2）同时，利用样例有效的off-policy更新通过任务分享经验

（3）当然，还结合了最先进的并行智能体架构，有效扩大经验的生成和学习

下图显示的是研究人员提出的持续学习领域。在图中可以看到，智能体在满是物体的丰富的3D环境中进行导航，并且借助了第一人称视角的视觉输入。

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体

△ 上图指的是持续学习领域：在DM Lab的丰富环境中（左图）找到并按特定顺序拾取钥匙、锁和箱子（右图）的表现，偏离特定顺序将会被重置（虚线）。下图指的是独角兽的表现：和最终在最佳基线（glutton虚线）上的表现相比，研究人员提出的方法快速胜任了四个子任务。相对能力在分阶段增强，从简单（钥匙）到困难（箱子），最困难的任务能力增长幅度最大

使这个领域变得最为挑战的是，物体需要以特定的顺序收集起来。例如，箱子只有在智能体已经收集了钥匙、锁和门的情况下才起作用。

这就意味着，在大多数探索任务中，箱子这种高度依赖型任务的反馈非常稀疏，并且不能直接学习。

幸运的是，独角兽智能体始终在解决领域内的这类问题，并且通过分享经验和重新利用任务中的表现和技能输出基线。

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体

想了解更多实验过程，可移步论文原文~地址给你：

https://arxiv.org/abs/1802.08294

DeepMind 强化学习机器学习

安妮

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体

何为持续学习？

独角兽的特征

相关阅读

ICML 2018入选论文名单公布，我国主力选手是清华和腾讯

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

日本AI画师火速走红：印象派画作秒秒钟完工，看一整天都不腻，你也能来DIY

首次证明：牵手就能同步脑电波，还能缓解疼痛

AI杀入斗地主领域，快手开发DouZero对标AlphaZero，干掉344个AI获第一

牛津教授吐槽DeepMind心智神经网络，推荐了这些多智能体学习论文

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬