Hinton领衔谷歌大脑新研究，拯救被认成步枪的乌龟

栗子

安妮 2018-11-20 11:44:47 来源：量子位

栗子安妮编译整理

量子位出品 | 公众号 QbitAI

最近，深度学习之父Geoffrey Hinton带领的谷歌大脑团队，提出了一种防御对抗攻击的新方法。

一种叫作DARCCC的技术，能将重构图像和输入图像作对比，继而识别出对抗图像，检测系统有没有受到攻击。

对抗攻击，是一种专职欺骗图片识别AI的方法。此前，那个广为流传的AI将乌龟识别成步枪的操作，就是对抗攻击的杰作。

悄悄修改图片的纹理，就可以在人类毫无察觉的情况下，骗过AI。

不过这一次，对抗攻击遇到了对手。

利用对抗攻击的弱点

虽然，对抗攻击是种高超的骗术，但也有弱点。

还以乌龟和步枪的故事为栗：

即便和步枪分在一类，乌龟还是和步枪长得很不一样。

Hinton团队就是利用它们之间的区别，来把那些分类错误的图像，从大部队里揪出来。

模型识别图像的时候，除了输出一个分类 (如乌龟/步枪) ，还会输出一个重构 (Reconstruction) 的图像。

如果是对抗图像，重构出来会和原图差别很大 (在AI眼里已靠近步枪) 。若是未加篡改的真实图像，重构结果应该和输入图像 (乌龟) 很接近：

△ 受到白盒攻击之后，AI看到的东西，已经变了

所以，要做一个识别算法，就先给验证集的重构误差 (Reconstruction Error) 定义一个阈值。

只要一张图的重构误差超过这个阈值，就把它标记成对抗图像。

△ 输入与重构之间的距离

如此，这个算法就可以识别出，系统有没有受到不明力量的攻击。

魔高一尺，道高一丈

随后，研究人员将DARCCC扩展到更多标准图像分类网络中，进一步探索这种检测方法在黑盒攻击和典型的白盒攻击下是否有效。

Frosst等人选用MNIST、Fashion-MNIST和SVHN三个数据集，进行下一步：有效性验证。这一次，研究人员用了三种常用的白盒攻击方法。

前两种是白盒攻击中的常用的FGSM（Fast Gradient Sign Method）和BIM（Basic Iterative Methods）算法，这两次的结果让研究人员兴奋，因为这两种日常方法都没有攻击成功。

虽然DARCCC抵挡住FGSM和BIM的攻势，但在第三种白盒攻击面前，还是败下阵来。

这种更强大的白盒攻击，叫做R-BIM（Reconstructive BIM）。可以把重构损失计算在内，不断迭代地扰乱图片。

这样一来，就算是对抗图像，AI还是可以为它生成一个优雅的重构。

系统就没有办法检测到攻击了。

这是在MNIST和fashionMNIST数据集中检测时的结果：

当用SVHN数据集检测时，结果如下：

传送门

目前，这篇论文DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules已经被NeurIPS的安全Workshop收录。

论文地址：

https://arxiv.org/abs/1811.06969

Frosst推特原文：

https://twitter.com/nickfrosst/status/1064593651026792448

谷歌大脑

栗子

SQuAD风云：AI对鲁迅作品的理解超过我了？别激动……2018-01-20
马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17

Hinton领衔谷歌大脑新研究，拯救被认成步枪的乌龟

利用对抗攻击的弱点

魔高一尺，道高一丈

传送门

相关阅读

谷歌发布最新零样本学习看图说话模型，多类型任务直接上手

谷歌让AI芯片学会“下崽”，下一代TPU就让AI自己设计

全球每天产生100篇机器学习新论文！谷歌大脑负责人Jeff Dean发推引热议，网友：太浪费时间

谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA

谷歌实习生新算法提速惊人！BERT训练从三天三夜，缩短到一个小时

谷歌大脑2017总结（Jeff Dean执笔，干货满满，值得收藏）

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬