手把手教你使用TensorFlow生成对抗样本｜附源码

lishanlu

2017-07-31

如果说卷积神经网络是昔日影帝的话，那么生成对抗已然成为深度学习研究领域中一颗新晋的耀眼新星，它将彻底地改变我们认知世界的方式。对抗学习训练为指导人工智能完成复杂任务提供了一个全新的思路，生成对抗图片能够非常轻松的愚弄之前训练好的分类器，因此如何利用生成对抗图片提高系统的鲁棒性是一个很有研究的热点问题。

神经网络合成的对抗样本很容易让人大吃一惊，这是因为对输入进行小巧精心制作的扰动就可能导致神经网络以任意选择的方式对输入进行错误地分类。鉴于对抗样本转移到物质世界，可以使其变得非常强大，因此这是一个值得关注的安全问题。比如说人脸识别，若一张对抗图像也被识别为真人的话，就会出现一些安全隐患及之后带来的巨大损失。对生成对抗图像感兴趣的读者可以关注一下最近的Kaggle挑战赛NIPS，相关的信息可以参看博主的另外一篇：

《Kaggle首席技术官发布——(Kaggle)NIPS 2017对抗学习挑战赛起步指南》

在这篇文章中，将手把手带领读者利用TensorFlow实现一个简单的算法来合成对抗样本，之后使用这种技术建立一个鲁棒的对抗性例子。

本文是一个可执行的Jupyter notebook：可以下载并自己实验操作一下示例！

建立

我们选择攻击在ImageNet数据集上训练的Inception v3网络。首先我们从TF-slim图像分类库中加载预先训练的网络。这部分不是很有趣，所以请随意跳过本部分。

import tensorflow as tf

首先，设置输入图像。使用tf.Variable而不是使用tf.placeholder，这是因为要确保它是可训练的。当我们需要时，仍然可以输入它。

image = tf.Variable(tf.zeros((299, 299, 3)))

接下来，加载Inception v3模型。

def inception(image, reuse):

接下来，加载预训练的权重。这个Inception v3的top-5的准确率为93.9％。

import tempfile

接下来，编写一些代码来显示图像，并对它进行分类及显示分类结果。

import json

示例图像

加载示例图像，并确保它已被正确分类。

import PILimport numpy as np

手把手教你使用TensorFlow生成对抗样本｜附源码

对抗样本

给定一个图像X，神经网络输出标签上的概率分布为P(y|X)。当手工制作对抗输入时，我们想要找到一个X'，使得logP(y'|X'）被最大化为目标标签y'，即输入将被错误分类为目标类。通过约束一些ℓ∞半径为ε的箱，要求‖X- X'‖∞≤ε，我们可以确保X'与原始X看起来不太一样。

在这个框架中，对抗样本是解决一个约束优化的问题，可以使用反向传播和投影梯度下降来解决，基本上也是用与训练网络本身相同的技术。算法很简单：

首先将对抗样本初始化为X'←X。然后，重复以下过程直到收敛：

1. X'←X^+α⋅∇logP(y'|X'）

2. X'←clip(X'，X - ε，X+ε)

初始化

首先从最简单的部分开始：编写一个TensorFlow op进行相应的初始化。

x = tf.placeholder(tf.float32, (299, 299, 3))x_hat = image # our trainable adversarial inputassign_op = tf.assign(x_hat, x)

梯度下降步骤

接下来，编写梯度下降步骤以最大化目标类的对数概率（或最小化交叉熵）。

learning_rate = tf.placeholder(tf.float32, ())y_hat = tf.placeholder(tf.int32, ())labels = tf.one_hot(y_hat, 1000)loss = tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=[labels])optim_step = tf.train.GradientDescentOptimizer(

投影步骤

最后，编写投影步骤，使得对抗样本在视觉上与原始图像相似。另外，将其限定为[0，1]范围内保持有效的图像。

epsilon = tf.placeholder(tf.float32, ())below = x - epsilon

执行

最后，准备合成一个对抗样本。我们任意选择“鳄梨酱”（imagenet class 924）作为我们的目标类。

demo_epsilon = 2.0/255.0 # a really small perturbationdemo_lr = 1e-1demo_steps = 100demo_target = 924 # "guacamole"# initialization stepsess.run(assign_op, feed_dict={x: img})# projected gradient descentfor i in range(demo_steps):

结果如下

step 10, loss=4.18923step 20, loss=0.580237step 30, loss=0.0322334step 40, loss=0.0209522step 50, loss=0.0159688step 60, loss=0.0134457step 70, loss=0.0117799step 80, loss=0.0105757step 90, loss=0.00962179step 100, loss=0.00886694

这种对抗图像与原始图像在视觉上无法区分，没有可见的人为加工。但是它会以很高的概率分类为“鳄梨酱”。

classify(adv, correct_class=img_class, target_class=demo_target)

手把手教你使用TensorFlow生成对抗样本｜附源码

鲁棒的对抗样本

现在来看一个更高级的例子。遵循我们的方法来合成稳健的对抗样本，以找到对猫图像的单一扰动，这在某些选择的变换分布下同时对抗，可以选择任何可微分变换的分布；在这篇文章中，我们将合成一个单一的对抗输入，设置θ∈[- π/4，π/4]，这对旋转是鲁棒的。

在继续下面的工作之前，检查一下之前的例子是否能对抗旋转，比如说设置角度为θ=π/8。

ex_angle = np.pi/8angle = tf.placeholder(tf.float32, ())rotated_image = tf.contrib.image.rotate(image, angle)rotated_example = rotated_image.eval(feed_dict={image: adv, angle: ex_angle})classify(rotated_example, correct_class=img_class, target_class=demo_target)

手把手教你使用TensorFlow生成对抗样本｜附源码

看起来我们之前生成的对抗样本不是旋转不变的！

那么，如何使得一个对抗样本对变换的分布是鲁棒的呢？给定一些变换分布T，我们可以最大化Et~TlogP(y'|t(X'))，约束条件为‖X- X'‖∞≤ε。可以通过投影梯度下降法来解决这个优化问题，注意到∇Et~TlogP(y'|t(X'))与Et~T∇logP(y'|t(X'))相等，并在每个梯度下降步骤中来逼近样本。

可以使用一个技巧让TensorFlow为我们做到这一点，而不是通过手动实现梯度采样得到：我们可以模拟基于采样的梯度下降，作为随机分类器的集合中的梯度下降，随机分类器从分布中随机抽取并在分类之前变换输入。

num_samples = 10average_loss = 0for i in range(num_samples):

我们可以重复使用assign_op和project_step，但为了这个新目标，必须写一个新的optim_step。

最后，我们准备运行PGD来产生对抗输入。和前面的例子一样，选择“鳄梨酱”作为我们的目标类。

demo_epsilon = 8.0/255.0 # still a pretty small perturbationdemo_lr = 2e-1demo_steps = 300demo_target = 924 # "guacamole"# initialization stepsess.run(assign_op, feed_dict={x: img})# projected gradient descentfor i in range(demo_steps):

结果如下

step 50, loss=0.0804289step 100, loss=0.0270499step 150, loss=0.00771527step 200, loss=0.00350717step 250, loss=0.00656128step 300, loss=0.00226182

这种对抗图像被高度信任地归类为“鳄梨酱”，即使是旋转的情况下！

rotated_example = rotated_image.eval(feed_dict={image: adv_robust, angle: ex_angle})classify(rotated_example, correct_class=img_class, target_class=demo_target)

手把手教你使用TensorFlow生成对抗样本｜附源码

评估

下面来看一下在整个角度范围内产生的鲁棒对抗样本的旋转不变性，看P(y'|x')在θ∈[- π/4，π/4]。

thetas = np.linspace(-np.pi/4, np.pi/4, 301)p_naive = []p_robust = []for theta in thetas:

手把手教你使用TensorFlow生成对抗样本｜附源码

从图中蓝色曲线可以看到，生成的对抗样本是超级有效的。

作者信息

Anish Athalye：MIT在读博士生，对分布式系统、系统安全及人工智能感兴趣。

手把手教你使用TensorFlow生成对抗样本｜附源码

学术：http://www.anish.io/

Email：aathalye@mit.edu

Github:https://github.com/anishathalye

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《A Step-by-Step Guide to Synthesizing Adversarial Examples》，作者：Anish Athalye，译者：海棠

tensorflow 深度学习 placeholder

安科网

手把手教你使用TensorFlow生成对抗样本｜附源码

lishanlu

《Kaggle首席技术官发布——(Kaggle)NIPS 2017对抗学习挑战赛起步指南》

建立

鲁棒的对抗样本

文章原标题《A Step-by-Step Guide to Synthesizing Adversarial Examples》，作者：Anish Athalye，译者：海棠

lishanlu

相关推荐

如何在PyTorch和TensorFlow中训练图像分类模型

TensorFlow Lattice：灵活、可控、可解释的机器学习

TensorFlow 2入门指南，初学者必备！

多元线性回归问题（Tensorflow 求解）

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

对比PyTorch和TensorFlow的自动差异和动态模型

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

TensorFlow推出新接口，简化 ML移动端开发流程

如何在浏览器中使用TensorFlow？

2020年深度学习框架对比速读

输入示例，自动生成代码：TensorFlow官方工具TF-Coder已开源

使用tensorflow进行音乐类型的分类

【tensorflow】常量和变量的定义

如何在tensorflow中判断tensor(张量)的值

TensorFlow会话常用的两种方式

Ｍnist手写数字识别 Tensorflow

TensorFlow被曝存严重bug，搭配Keras可能丢失权重，至今仍未修复

TensorFlow中超大的30个机器学习数据集

解决import tensorflow报错：ImportError: DLL load failed: 找不到指定的模块

Yolo v3 Introduction to object detection with TensorFlow 2

lishanlu