李飞飞夫妇打造了两件秘密武器，让机器人快速学习人类技能

栗子

夏乙 2018-10-29 18:44:52 来源：量子位

聚精会神，紧盯电脑屏幕上的一支机械臂，捧着手机：移动、下降、抓住，抬起！

别误会，这位小姐姐并不是在远程抓娃娃，而是在为机器人创造学习资料。

在她和她的同道中人教育下，你将看到会端锅、会堆积木、会把螺丝螺帽组装在一起、甚至还会分拣物品的机器人。

从“抓娃娃”，到机器人学会种种技能，这两件看起来毫无关系的事情之间，斯坦福大学计算机视觉与学习实验室的一个团队正在用两项研究搭建桥梁。而带领这个团队的，正是最近从Google回到斯坦福教学岗位的李飞飞和她的丈夫 Silvio Savarese。

我们先来看第一项研究，也就是这个“抓娃娃”的系统。

“抓娃娃”

前面看到的“抓娃娃”平台，名叫RoboTurk。现在，人类已经用它已经为机器人生产了137.5小时的教学视频，演示了3224次抓取、组装物品的动作。其中，有1071次成功的抓取，1147次成功的组装。

听起来很多？其实做起来并不难，生产这么多的教学资料，总共只用了22小时。

李飞飞团队说，这是因为他们的RoboTurk，本来就是个快速众包制造大规模机器人控制数据集的利器。

RoboTurk到底怎么用呢？

这个平台的一端，是要训练机器人的科学家们。他们根据自己的研究目的，用物理模拟器来创建任务，部署到云端，就可以在世界各地征集人类、创造数据集了。

李飞飞的团队甚至在设计、测试这个平台的时候就已经帮你亲测过了：他们把机器人模拟器放在北京的服务器上，然后在太平洋对岸的加利福尼亚的实验室里，通过RoboTurk来控制它们。

平台的另一端，是为机器人创造教学资料的人类们。

这些人类，需要一只iPhone（6s及以后的机型）和一台装了浏览器、能上网的电脑。

打开手机上的RoboTurk App，输入网页上显示的ID，就可以用手机控制云端环境里相应的机器人了，在电脑上的浏览器里看到实时反馈的视频。

这些演示过程，都会存储在云端，供科学家们用来训练强化学习算法，训练成功后，就可以部署这些算法，让它们去控制机器人了。

这个团队自己，就用MoJoCo模拟器创建了两个环境：

一个训练机器人学分拣（picking），把桌上的物体抓起放到旁边不同的小盒子里；另一个让机器人学组装（assembly），把螺帽放到正确的螺栓上。

看完这些介绍和例子，可不要对RoboTurk有什么误会。它并不是只能控制MoJoCo模拟出来的机器人，其他模拟器、环境，也同样可以用，甚至……

真正的实体机器人，也完全没问题。

Follow Me, Robot

这些大费周章的抓娃娃式训练，究竟是为了什么呢？当然是为了让机器人更快学会更多新技能。

想让机器人学会抓取、组装物品，模仿人类是种不错的方法，这种方法叫“模仿学习”（Imitation learning），在最近机器人研究中越来越常见。

但是，这种方法有一种天生的局限：它和AI学会给图像分类一样，也需要很多标注好的数据。

AI研究的不少子领域都有很充足的数据：图像识别领域有ImageNet，目标检测有COCO，机器问答有SQuAD。这几个领域的发展，都离不开这些数据集的滋润。

而机器人控制……却没有类似的大规模数据集，实验室要想研究模仿学习，只能自己零零星星地去收集数据。RoboTurk平台，就是为了让科学家们更快收集数据而生。

发布平台的同时，李飞飞夫妇的团队还发布了一个RoboTurk数据集，就是我们前面提到的137.5小时的教学视频。

虽然规模稍小，但也称得上机器人界ImageNet的雏形了。

分布式，学得更快

有了“机器人界的ImageNet”之后，想要快速训练出厉害的机器人，算法本身也得学得快才行。

所以，还是飞飞实验室，又开源了分布式强化学习训练框架SURREAL，用来加速学习过程。

训练成果很丰盛，机械臂用两个手指，就可以执行各种操作：

第一，捡起一个方块，这是最基础的操作。

动了位置，机械臂也能速速跟过去。

第二，增加一点难度，叠罗汉。

它学会了，用手里的红方块，来调整底座绿方块的位置，然后更加稳妥地把红方块放上去。

第三，把不同质地的多个重物，分别放入所属的格子。

红色易拉罐，蓝色纸盒，白色利乐包，黄褐色的 (可能是) 面包。对号入座，不会放错。

下面，是双手技能的展示时间。

两只机械臂要各自完成不同的动作，互相配合，并不简单。

第一项任务，插入，插入 (上图) 。

第二项任务，按形状插入。

目前，这还不是双手技能，但也可以进化成双手技能。

正方形的插孔，对应正方形的柱子；圆形插孔对应圆柱。

只有物理性质匹配，才能获得更加长久的幸福。

除此之外，生活也少不了柴米油盐。至少，先把锅端起来。

熟练的操作，当然不是与生俱来。

就像婴儿学步，日复一日，愈发矫健。

回过头去，看看训练之初的机器人，双手几乎没有一丝协调性。

五个多小时后，插入操作已经毫无压力，孺子可教。

团队还发现，用SURREAL框架搭配上文的RoboTurk数据集服用，让人类教练来“手把手”训练机器人，疗效要比不经人类调教的AI好得多：

果然，没有看过人类演示的AI (左) ，虽然能找到锅的两个把手，但还是提不起来。

有了人类教练的指点 (右) ，端起锅来就不难了。

那么看一下，这个能够高效训练技能的框架SURREAL，长什么样子：

SURREAL框架，把一个分布式RL算法，分解成四个部分 (图中由左向右) ：

一是演员 (Actors) ，负责生成经验；

二是缓冲池 (Buffer) ，负责储存经验；

三是学习者 (Learner) ，根据经验来更新参数；

四是参数服务器 (Parameter Server) ，负责储存参数。

演员部分，是多个演员是并行 (Parallel) 的，16个，32个，64个……都可以。

这样一来，AI可用的数据量，能够猛烈增长。

把数据生成和学习过程分开，不需要全局同步 (Global Synchronization) 了，可扩展性(Scalability) 也就增强了。

另外，框架支持在线 (On-Policy) 和离线 (Off-Policy) 两种策略更新方式。

团队说，系统可以直接部署在云端或者PC端 (如谷歌云、AWS、Azure) ，轻而易举，只需4层：

第一层，从配置器 (Provisioner) 开始，保障各个云平台的可复现性。第二层，编配 (Orchestrator) ，用一个完善的云API来分配CPU/GPU资源，复制网络。第三层，协议 (Protocal) 实现了高效的通信指令。第四层，就是算法，用PyTorch实现的。

李飞飞夫妇的实验室

这两项研究背后，都是李飞飞夫妇的计算机视觉与学习实验室（SVL Lab）。众包平台RoboTurk，由他们的博士生Ajay Mandlekar主导；

李飞飞夫妇打造了两件秘密武器，让机器人快速学习人类技能

△ RoboTurk团队

而SURREAL项目，共同一作是两位博士生Linxi Fan和Yuke Zhu。

关于Ajay同学，网络上资料并不多。不过，Linxi Fan和Yuke Zhu两位同学就足够大家学(mo)习(bai)了。

他们现在分别已经读到了博士的第三年和第四年，都积累了非常丰富的实习经历。

我们先来看看Linxi Fan同学：

读博第三年的他，2017年暑假在Google实习，跟着李飞飞、李佳和研究院Mei Han等人，研究神经架构和超参数的元学习。

之前，他还在参与过斯坦福NLP组、OpenAI、Yoshua Bengio带领的MILA、百度AI实验室、王弢和吴恩达带领的斯坦福自动驾驶项目等等。

在他的主页，你会看到更多勤奋的履历：

http://jimfan.me/

而Yuke Zhu，2017年暑假在DeepMind实习，之前的实习路程经过了艾伦人工智能研究院（AI2）、Snap、Twitter等等公司。

对于两项研究的最后两位作者，也是团队的指导老师，你们应该都很熟悉了。就是计算机视觉界的国民女神李飞飞，和她的丈夫、斯坦福大学副教授Silvio Savarese。

他们的实验室，除了上面两个项目之外，还有训练机器人在人群之中穿梭的JACKRABBOT，想训练AI从视频中识别人类行为的大规模数据集ACTIVITYNET等等研究。这些研究背后，是这样一群人类：

传送门：

最后，量子位当然会为爱学习的朋友们送上这些研究的传送门，请收好~

众包平台RoboTurk：

主页 https://crowdncloud.ai/

论文 RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation

http://vision.stanford.edu/pdf/mandlekar2018corl.pdf

加速训练的SURREAL：

主页 https://surreal.stanford.edu/

论文 SURREAL: Open-Source Reinforcement Learning Framework and Robot Manipulation Benchmark

https://surreal.stanford.edu/img/surreal-corl2018.pdf

这两项研究的论文，都发表在马上要在苏黎世进行的CoRL 2018大会上。

这个大会的全称是机器人学习大会（Conference on Robot Learning），由UC Berkrley、Google、微软、CMU、MIT等顶尖研究机构发起，Google、DeepMind、瑞士科研基金会（SNF）、Facebook、博世等赞助，自诞生起就被学界寄予厚望，今年是第二届。

在这里，你可以看到更多有趣的机器人研究项目：

http://www.robot-learning.org/home/program#schedule

Enjoy

机器人李飞飞

栗子

SQuAD风云：AI对鲁迅作品的理解超过我了？别激动……2018-01-20
马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16

李飞飞夫妇打造了两件秘密武器，让机器人快速学习人类技能

“抓娃娃”

Follow Me, Robot

分布式，学得更快

李飞飞夫妇的实验室

传送门：

相关阅读

机器人学会对自己下手了，螺丝松了自己拧

表情最逼真机器人靠AIGC再进化！接入Stable Diffusion能用笔画画

AI教母李飞飞首次创业！成立“空间智能”公司，已完成种子轮

机器人液化越狱！中国团队实现终结者幻想，灵感竟来自海参

猫咪机器人下国际象棋快逼疯人类，顶级棋手也只能和它打成平局

李飞飞点赞「ARM」：一种让模型快速适应数据变化的元学习方法 | 开源

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬