程序员你知道到底是什么特征影响着CNN的性能吗？

lishanlu

2019-01-28

程序员你知道到底是什么特征影响着CNN的性能吗？

作者 | 刘畅

编辑 | Jane

出品 | AI科技大本营（ID:rgznai100）

开门见山。最近阅读了一篇论文，加上看了一些之前的工作。记录一下，CNN 到底学到了什么东西，或者换句话讲。到底是什么样的特征在影响着CNN 的性能？

先放论文：IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS论文地址：https://openreview.net/pdf?id=Bygh9j09KX

JeremyRifkin 在书《The end of Work》中写道，“时至今日，当科学家们探讨人工智能时，他们通常是在讲一门能执行人们所希望机器表现的智能艺术”。这是我比较喜欢的关于人工智能的定义。因为它避免了大谈特谈如今的人工智能技术离真正的智能化有多远。而是享受当下。不过，作为一名研究人员，我觉得揭开大脑的运作原理和创造真正的智能机器是非常重要的。目前深度学习主要做的研究是关于从数据中学到规则并将其自动化的一个过程。这已经带来了非常多的好处，举一个简单的例子。在医学领域引入深度学习技术，可以将许多诊断过程全自动化，因此可以让贫穷地区或国家的人们享受到顶级的治疗。

开篇完毕，现在进入正题。尽管深度学习技术的到来给人们的生活带来了更多的便利。但是神经网络看待和解释世界的方式仍然是一个黑盒子。因此我们需要尝试更好的理解它，以便我们对深度学习网络做出进一步的改进，以及尝试去解释某些深度学习行为。有两种主要的方法可以尝试理解神经网络。一种是在数据集中查找导致特征图有高激活响应值的图片，另一种是在随机的一张图片中，通过优化像素值来生成模式。接下来，通过一些例子来展示一下，CNN 到底学到了什么？

特征可视化

程序员你知道到底是什么特征影响着CNN的性能吗？

这本书《Deep Learning with Python》里面讲了如何生成模式。包括滤波器是如何响应模式（纹理）等。接下来我们先观察一下这些模式。以 VGG16 为例。

第7层卷积（64,128）

程序员你知道到底是什么特征影响着CNN的性能吗？

滤波器12，16，86，110（从左到右，从上到下）

第14层卷积（128，256）

程序员你知道到底是什么特征影响着CNN的性能吗？

滤波器1, 6，31，32，54, 77（从左到右，从上到下）

第20层卷积（256,256）

程序员你知道到底是什么特征影响着CNN的性能吗？

滤波器3，34，39，55，62，105（从左到右，从上到下）

第30层卷积（512,512）

程序员你知道到底是什么特征影响着CNN的性能吗？

滤波器54，62，67，92，123，141（从左到右，从上到下）

第40层卷积（512,512）——网络顶部

程序员你知道到底是什么特征影响着CNN的性能吗？

256，261，265，277，286，462（从左到右，从上到下）

这些得到的中间结果看着非常漂亮。方法就是在网络中最大化某个激活值就可以得到这些结果。看一下第 40 层的几张图。已经有了明显的形状。比如羽毛、铁链等。接下来我们分析一下这些结果。

模式识别

我们先从下面这张图片开始吧。这张图片看着像是拱门。于是去数据集里面找来了一张拱门的图片，也就是右图。

程序员你知道到底是什么特征影响着CNN的性能吗？

接下来我们来检验一下，是不是由这张图来确定的图片的分类。首先记住，这张图是最后一层的第 286 个滤波器。如何检验呢？我们只需要将这张图片输入进网络，并绘制第 40 层的平均激活响应，如下图。

程序员你知道到底是什么特征影响着CNN的性能吗？

可以看到在特征图第 286 的地方，出现了强烈的飙升。显然它就是检测拱形结构的滤波器。但是注意，这样的形状结构可能对应着几个不同的类别。

那我们再看一个例子吧。左边这个看着像是鸡头（最后一层，第 256 个）。因此找了右边这一张图片来测试。同样的测试方法。

程序员你知道到底是什么特征影响着CNN的性能吗？

程序员你知道到底是什么特征影响着CNN的性能吗？

我们来看一看特征响应图。

程序员你知道到底是什么特征影响着CNN的性能吗？

好像似乎也印证了我的想法，可能是某种形状导致了最后的输出类别。也就是说，影响 CNN 效果的其实是形状特征（猜想）。

不过让我们再关注一个例子，用同样的方法。输入一张鸟类的图。

程序员你知道到底是什么特征影响着CNN的性能吗？

程序员你知道到底是什么特征影响着CNN的性能吗？

程序员你知道到底是什么特征影响着CNN的性能吗？

滤波器172，288，437，495（从左到右，从上到下）

我们发现了多个高响应的特征图。上面的特征图有像是鸟腿、眼睛和喙的东西？但是下面的特征图，看不出来是什么，可能与图像的背景有关，或者一些只有网络能理解的东西。这部分现在仍然是黑匣子。也许之前的猜想是错的。

接下来放一下代码（PyTorch）：

1generate_image.py
 2class FilterVisualizer():
 3 def __init__(self, size=56, upscaling_steps=12, upscaling_factor=1.2):
 4 self.size, self.upscaling_steps, self.upscaling_factor = size, upscaling_steps, upscaling_factor
 5 self.model = vgg16(pre=True).cuda().eval()
 6 set_trainable(self.model, False)
 7
 8 def visualize(self, layer, filter, lr=0.1, opt_steps=20, blur=None):
 9 sz = self.size
10 img = np.uint8(np.random.uniform(150, 180, (sz, sz, 3)))/255 # generate random image
11 activations = SaveFeatures(list(self.model.children())[layer]) # register hook
12
13 for _ in range(self.upscaling_steps): # scale the image up upscaling_steps times
14 train_tfms, val_tfms = tfms_from_model(vgg16, sz)
15 img_var = V(val_tfms(img)[None], requires_grad=True) # convert image to Variable that requires grad
16 optimizer = torch.optim.Adam([img_var], lr=lr, weight_decay=1e-6)
17 for n in range(opt_steps): # optimize pixel values for opt_steps times
18 optimizer.zero_grad()
19 self.model(img_var)
20 loss = -activations.features[0, filter].mean()
21 loss.backward()
22 optimizer.step()
23 img = val_tfms.denorm(img_var.data.cpu().numpy()[0].transpose(1,2,0))
24 self.output = img
25 sz = int(self.upscaling_factor * sz) # calculate new image size
26 img = cv2.resize(img, (sz, sz), interpolation = cv2.INTER_CUBIC) # scale image up
27 if blur is not None: img = cv2.blur(img,(blur,blur)) # blur image to reduce high frequency patterns
28 self.save(layer, filter)
29 activations.close()
30
31 def save(self, layer, filter):
32 plt.imsave("layer_"+str(layer)+"_filter_"+str(filter)+".jpg", np.clip(self.output, 0, 1))
33
34
35pytorch_hook.py
36
37class SaveFeatures（）：
38 def __init__（self，module）：
39 self .hook = module.register_forward_hook（self .hook_fn）
40 def hook_fn（self，module，input，output）：
41 self .features = torch.tensor（output，requires_grad = True）.cuda（）
42 def close（self）：
43 self .hook.remove（）
44
45
46filter_visualizer.py
47
48layer = 40
49filter = 265
50FV = FilterVisualizer(size=56, upscaling_steps=12, upscaling_factor=1.2)
51FV.visualize(layer, filter, blur=5)
52

你以为到这里就完了吗？还没到这篇文章的重点内容，新鲜出炉的 2019 ICLR 的论文：《Imagenet-trained CNNs are biased towards texture; Increasing shape bias improves accuracy and robustness》

看标题，就知道。我们之前的猜想是错误的！CNN 学到的应该是纹理特征。真让人头疼！

作者以一个问题入手，一只披着象皮的猫，神经网络会把它识别为大象还是猫？最后根据实验结果得出结论。神经网络应该是根据物体的纹理特征来进行识别，而并非我们以为的形状特征。也就是说我们常了解的一些可视化技术如 Deconv 都是具有误导性的，它们的结果仅仅只是图像的重建部分，而与网络如何做出最后的决策关系不大。

其实接触过图像风格迁移技术的技术人员应该都非常清楚，深度学习模型在里面提取的图像的绘画风格就是纹理特征。贴上一张经典图片，生成的是一张具有梵高《星月夜》图画风格的建筑图片。

程序员你知道到底是什么特征影响着CNN的性能吗？

在论文里面，作者为了更清楚的了解，图像识别到底是基于形状还是基于纹理。做了以下的实验。使用三张生成的图片，分别是带有大象纹理的猫，带有钟表纹理的汽车和带有水瓶纹理的熊

程序员你知道到底是什么特征影响着CNN的性能吗？

作者通过实验，采用了多个神经网络（AlexNet、VGG-16、GoogLeNet、ResNet-50、ResNet-152、DenseNet-121、SqueezeNet1_1）进行输出结果。为了对照，还召集了大约 100 名人类来做对照实验。这个实验结果就是一只带有象皮纹理的猫被深度神经网络判断为大象，但对人类来说仍然是猫。带有时钟纹理的汽车被深度神经网络判断为时钟，带有水瓶纹理的熊被深度神经网络判断为水瓶。显然！该实验支持了这一说法，即目前用于物体识别的深度学习技术主要依赖纹理，而不是物体形状。

程序员你知道到底是什么特征影响着CNN的性能吗？

当然，作者还做了更多的对比实验。得出了一些具有启发性的结论。比如对于只包含纹理图片的数据集，神经网络能取得特别高的准确率。采用原图和灰度图，神经网络都可以取得非常高的准确率，而对于只包含轮廓和只包含边缘的图片，神经网络的预测准确率则显著降低。

更多的实验细节，可以查看论文。总结一下，有几点结论还是很有启发性的：

第一、回答了影响CNN识别性能的是形状还是纹理的问题。

第二、如何针对性的引导神经网络训练或者学习想要它学习的特征。（有意的抑制某个特征）

原文链接：https://blog.csdn.net/u012395979/article/details/86651808

程序员 cnn深度学习

lishanlu

0 关注 0 粉丝 0 动态

相关推荐

程序员用AI算法生成了3000个新的宝可梦

所以多数幻想作品中的怪物、外星人也只是根据已有生物进行的简单拼接。那如果把这个问题抛给AI呢?冰冷的程序能否创造出一些让人类都大跌眼镜的作品?最近，国外一名资深程序员就在GitHub以及社交平台上公布了自己最新的研究成果——“宝可梦AI自动生成器”。这位名

湾区人工智能 5评论 2020-11-20

如何运行/调试你的PHP代码

没有任何一名程序员可以一气呵成、完美无缺的在不用调试的情况下完成一个功能或模块。调试实际分很多种情况。本篇文章我分享下自己在实际开发工作中的经验，我个人理解,调试分三种,注意我所讲的是调试并非测试。这种方式简单粗暴,一般PHP程序员都会用，那就是浏览器调试

diskingchuan 5评论 2020-10-23

低代码的兴起，程序猿要拒绝还是拥抱

低代码是一种近些年兴起的企业软件快速开发技术和工具。借助低代码使用者无需编码即可完成企业应用的常用功能，少量编码扩展出更多功能。低代码凭借低门槛、高效率和易集成等特性，被越来越多的软件开发团队青睐。Gartner预测，到2024年四分之三的大企业将会使用至

amicablehj 2020-11-16

程序员必懂的Redis技术实战

Redis是现在很受欢迎的NoSQL数据库之一，目前广泛用于缓存系统、分布式锁、计数器、消息队列系统、排行榜、社交网络等场景中，本篇文章成哥为大家带来redis日常使用实践，及通过代码实现redis的分布式锁。Redis通过IO多路复用解决单线程下并发客户

smartbaby 2020-11-11

聊聊几个程序员经常用的作图软件

程序员除了要写代码之外还经常需要画一些图，这其中包括流程图、软件架构图和一些说明文档的插图等等。目前大家用得比较多的可能是微软的Visio、IBM的Rose或者亿图等软件。这些软件的功能确实非常强大，也完全够我们使用了，但是需要收费的。今天我就给大家介绍一

teamvx 2020-11-11

自定义注解！绝对是程序员装逼的利器！！

相信很多人对Java中的注解都很熟悉，比如我们经常会用到的一些如@Override、@Autowired、@Service等，这些都是JDK或者诸如Spring这类框架给我们提供的。所以，在我看来，会使用自定义注解 ≈ 好的程序员。那么，本文，就来介绍几个

啊兵 2020-11-10

程序员也需了解的主流云计算网络架构

当前越来越多的企业将自己的业务迁移至云端，云计算的发展势头不可阻挡，身边好多朋友也纷纷购买云主机用来学习测试。有那么一波小伙伴们肯定好奇这么多的云主机是通过怎样的网络架构来承载的呢，本篇文章就为大家带来一一揭晓主流的云计算网络架构。随着企业业务的快速扩展，

ruancw 2020-11-10

打破刻板印象：“我不够聪明，做不了程序员？”

很多人觉得自己不够聪明，因而对编程望而生畏。事实上，如果能看懂一篇中等水平的文章，那说明你足够聪明了。比起聪不聪明，是否掌握英语是更为重要的因素之一，因为几乎所有的文件语言都是英语。许多孩子都可以学习编程，甚至有专门为他们设计的编程语言。这取决于你的目标。

Elyn 2020-11-08

Python曾是程序员的“瑞士军刀”，而如今正被慢慢取代

上世纪90年代初，Python面世了。近30年来，关于它的“炒作”一直没有少过。当然，编程界花了至少20年的时间才认识到它，但自那以后，它的流行程度远远超过了C、C#、Java甚至Javascript。尽管Python目前在数据科学和机器学习领域，以及某些

susmote 5评论 2020-11-07

10张图让你彻底理解回调函数

不知你是不是也有这样的疑惑，我们为什么需要回调函数这个概念呢?直接调用函数不就可以了?程序员到底该如何理解回调函数?这篇文章就来为你解答这些问题，读完这篇文章后你的武器库将新增一件功能强大的利器。其中有一个核心模块由A小组开发然后供B小组调用，这个核心模块

lipin 2020-11-03

对程序员来说，看透生死远远没有操作0和1那么简单

这是本公众号第241篇文章之后，第一次在手机上进行写作。如果说之前本公众号发布的SAP技术文章能够在技术的角度上给大家有帮助的话，那么这个号接下来的文章，如果能够提醒到大家多关爱自己的身体，提早发现健康隐患，那么我觉得我一样没有白白患病。我是Jerry W

kinglomei 2020-10-27

36岁的博士程序员找不到工作？大厂的「年龄歧视」从来都不是秘密

36岁的博士程序员，还能在硅谷找到工作吗？在「码农」聚集的Reddit上，一个关于大龄程序员就业的提问引发了网友们热议。发帖人称：自己打算攻读机器学习博士学位，毕业时可能已经36岁，比较担心因年龄大而找不到工作，不知道硅谷存不存在年龄歧视？这个担忧不无道理

bucai 2评论 2020-10-26

程序员必知的几种软件架构模式

架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。最常见的架构模式就是分层架构或者称为 n 层架构。层将一组软件作为一个完整的分区，每个分区暴露一个公开接口。例如，展现层负责处理所有的用户界面。请求不能跳过任何层。分层会导致性能下降。

JAVA飘香 2020-10-26

10个适合程序员逛的在线社区

网络资源是学习的重要工具，网上的社区氛围浓厚、分享全面，InfoQ提供新闻、文章、视频演讲和采访等资讯服务。InfoQ有各种语言版本，最重要的是有中文版的，内容相当有深度，非常有益于把握最新的技术动态。

重剑无锋 2020-10-25

你的脱发是否值得？知乎热议中国程序员市场已饱和

近日，一则中国的程序员数量是否已经过剩的话题引发了热议，转行程序员的同学越来越多，低端的码农找不到工作，高端的岗位却一直空缺，程序员们该如何摆脱「高不成低不就」的困境？因为互联网行业的高薪资，很多小伙伴都去转行写代码了。不管是不是计算机相关专业都蜂拥而至。

adentheima 2020-10-25

程序员生存观察：为什么非要谈理想？我就想挣点钱

1024是2的十次方，也是二进制计数的基本计量单位之一。资料显示，中国程序员节的诞生是由于从业人员经常周末加班与工作日熬夜，因此部分互联网机构倡议每年10月24日为程序员节，并在这一天建议程序员拒绝加班。

zhaoyinghuan 2020-10-25

听得见的代码？滴滴程序员这次玩得有点高级

普通人很难看懂代码，却有机会听懂代码。这5段台前可感知的音乐，是由滴滴的5个常用功能映射而来。此外，滴滴还在全国300多个城市陆续上线“遗失物品送回”功能。新冠肺炎疫情汹涌，1 月20 日，官方确认新冠肺炎可人传人，滴滴1月22日便紧急组织十多人投入技术开

Elyn 2020-10-24

从程序员到管理千人团队的CTO

一个从业18年的老程序员的成长经验，肯定对大家有价值！我是TGO 鲲鹏会非常受欢迎的导师之一、彩食鲜 CTO、前苏宁科技集团副总裁——乔新亮。前些天，有 TGO 鲲鹏会的同学找到我，邀请我围绕「技术领袖养成之路」这个主题做一场分享。其实我有些害怕这个题目，

lipin 2020-10-22

Java程序员不能错过的7个基本框架

现在IT开发人员面对的较大挑战就是复杂性，构建的应用越来越复杂。今天给大家列出Java程序员不能错过的7个基本框架，或许会对你有帮助哦。Hibernate是优秀的Java持久性框架，是一个开放源代码的对象关系映射框架，它对 JDBC 进行轻量级的对象封装，

feinifi 2020-10-14

程序员必备的基本算法：递归详解

递归是一种非常重要的算法思想，无论你是前端开发，还是后端开发，都需要掌握它。在日常工作中，统计文件夹大小，解析xml文件等等，都需要用到递归算法。它太基础太重要了，这也是为什么面试的时候，面试官经常让我们手写递归算法。本文呢，将跟大家一起学习递归算法~递归

Tips 2020-10-14

lishanlu

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号