Nick Bourdakos 文

李林若朴编译自 HackerNoon

量子位出品 | 公众号 QbitAI

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

Capsule Networks，或者说CapsNet，这个名字你应该已经听过好几次了。

这是“深度学习之父”的Geoffrey Hinton近几年一直在探索的领域，被视为突破性的新概念。最近，关于Capsule的论文终于公布了。

一篇即将发表于NIPS 2017：

Dynamic Routing Between Capsules

作者：Sara Sabour, Nicholas Frosst, Geoffrey E Hinton

https://arxiv.org/abs/1710.09829v2

另一篇是ICLR 2018正在匿名评审的：

Matrix capsules with EM routing

作者目前未知

https://openreview.net/pdf?id=HJWLfGWRb

要理解Capsule Networks，还得从卷积神经网络（CNN）的特性说起。

传统神经网络的问题

到目前为止，图像分类问题上最先进的方法是CNN。

而CNN的工作原理，是将每一层对应的特征累积起来，从寻找边缘开始，然后是形状、再识别实际的对象。

然而，在这个过程中，所有这些特征的空间关系信息丢失了。

虽然可能有点过度简化了，不过我们可以把CNN看做这样一个程序：

if (2 eyes && 1 nose && 1 mouth) {
 It's a face!
}

翻译成人话就是：如果有两只眼睛、一个鼻子、一张嘴，它就是一张脸！

一般人看见这个表述，第一反应大概是挺好的啊，有道理，没毛病~

对，有道理，不过我们需要转念想一想：这个表述还是有问题的。不信？看一张略恐怖的卡戴珊姐姐照片：

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

确实是两只眼睛一个鼻子一张嘴吧？

但我等人类都一眼就能看出来，这张照片不对劲啊！眼睛和嘴错位了啊！人不应该长这样！识别成鬼还差不多……

可是呢，CNN会认为，眼睛和嘴的位置不管在哪，都没什么区别，会很宽容地，把这张照片归类成“人”：

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

除了对人类五官的位置过于宽容之外，CNN还有还有一个毛病，就是对图片的角度要求有点苛刻，它能容忍照片稍微旋转一些，但要是旋转太多，它就不认得了。

我们把卡戴珊姐姐旋转180°：

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

出现这个问题的原因，用行话来说是旋转的程度超出了最大池化（maxpooling）所带来的旋转不变性（invariance）的限度。这其实有办法解决，就是在训练中用上各种可能角度的图片，行话叫做data augmentation。不过，这种做法实在是耗时费力。

另外，CNN还很容易受到白盒对抗性攻击（adversarial attacks）的影响，在图片上悄悄藏一些图案，就能让CNN把它误认作别的东西。

谷歌的神经网络把海龟误认成步枪，就是这个毛病：

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

所以Hinton老爷子才会觉得CNN不行。（Hinton真的很严格）

Capsule Networks前来救援！

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

△ CapsNet架构

Capsule Networks就能让我们充分利用空间关系，看到更多东西。在认人脸这件事上，可以这么表示：

if (2 adjacent eyes && nose under eyes && mouth under nose) {
 It's a face!
}

翻译成人话：如果有两只相邻的眼睛、眼睛下有一个鼻子、鼻子下有一张嘴，它就是一张脸。

你应该能看出来，这样来定义，神经网络就不会把畸形版卡戴珊姐姐也认作人脸了。

这种新架构还更善于从不同角度来识别形状，它在下面这个数据集上，可以获得更高的精度。这个精心设计的数据集就是用来进行单纯的形状识别，甚至是从不同的角度识别的。Capsule Networks击败了最先进的CNN，将错误数量减少了45%。

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

△ CapsNet把第二行图片识别为第一行同类图片的能力远超CNN

此外，最近发布的论文表明，与卷积神经网络相比，Capsules对白盒对抗性攻击显示出更大的抵抗力。

训练CapsNet

重点来了：要想理解一篇论文，最好的方法是把它实现出来。

Bourdakos基于Hinton的论文，写出了一份CapsNet的TensorFlow实现

代码：https://github.com/bourdakos1/capsule-networks

接下来的内容，就是要介绍如何训练它。

下面以如何在MNIST数据集上训练模型为例。这是一个著名的手写数字的数据集，是测试机器学习算法的良好基准。

首先从克隆repo开始：

git clone https://github.com/bourdakos1/capsule-networks.git

然后安装需求。

pip install -r requirements.txt

开始训练！

python main.py

MNIST数据集有6万个训练图像。默认情况下，模型将以128的batch size训练50个epoch周期。一个epoch代表训练集的一次完整运行。由于batch size是128，所以每个epoch大约有468个batch。

注意：如果你没有GPU，训练可能需要很长的时间。

推理

一旦模型完整训练过，就可以通过以下命令来测试：

python main.py --is_training False

结论

Capsule Networks似乎很棒，但仍在婴儿期，在训练大型数据集时可能遇到一些问题，但信心还是要有的。

P.S.下面是一个很棒的视频，建议大家花时间看看。（这是Hinton在2012年的一次演讲，主题是《Does the Brain do Inverse Graphics？》，大脑做逆向图么？）

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

想要获得这个视频中的ppt，可以在量子位微信公众号（QbitAI）的对话界面，回复：“ipam”几个字母即可。

感谢阅读，如果有问题可以与作者联系，邮箱：bourdakos1@gmail.com。点击左下角『阅读原文』可以查看更多。

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

举个卡戴珊的例子，讲讲Hinton的Capsule是怎么回事｜教程+代码

传统神经网络的问题

Capsule Networks前来救援！

训练CapsNet

推理

结论

相关阅读

神经网络在Keras中不work！博士小哥证明何恺明的初始化方法堪比“CNN还魂丹”

生物学50年难题被DeepMind解决了，蛋白质版“阿法狗”预测结构准确性达92.4

360度无死角、近距离看「CNN」训练，是种什么体验？网友：美得不真实

牛顿棺材板快盖不住了：用深度神经网络解决三体问题，提速一亿倍

神经网络原来这么简单，机器学习入门贴送给你 | 干货

最先进的NAS算法不如随机搜索，瑞士学者研究结果让人吃惊，也令人怀疑

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬