可视化深度神经网络的损失景观......但我们能相信它们吗？

夜晚00

2019-05-06

点击上方关注，All in AI中国

介绍

可视化深度神经网络的损失景观......但我们能相信它们吗？

近年来，已经开发出一种方法来可视化深度神经网络的损失情况。我个人认为这是一个巨大的突破，但是，我对创建的可视化的有效性感到有点怀疑。今天我将研究作者的可视化方法，并介绍一些我认为很酷的其他方法。

方法

创造损失景观的整个过程非常简单直接。

训练网络
创建随机指示
向固定权重添加不同数量的扰动，并查看损失值是如何变化的

唯一需要注意的是如何创建随机方向。让我们来看看作者的方法。

可视化深度神经网络的损失景观......但我们能相信它们吗？

他们的方法被称为“过滤器归一化”，它很容易理解。（这是作者代码的链接https://github.com/tomgoldstein/loss-landscape）。基本上，对于具有4维的tensor，例如（64,3,3,3），我们将使标准方面与第一维相匹配，因此（64,1,1,1）在权重的范数和随机方向之间。（在更简化的术语中，我们可以将其理解为匹配权重和随机方向之间的比例）。

可视化深度神经网络的损失景观......但我们能相信它们吗？

以上是运行authors代码时的部分结果。现在我们可以利用tensor运算来简化整个过程。（我将在稍后展示）

网络

可视化深度神经网络的损失景观......但我们能相信它们吗？

绿球→输入图像（64,64,3）

蓝色矩形→卷积+ ReLU激活

红色矩形→软最大输出

对于这篇文章，我在CIFAR 10数据集上训练了三个九层完全卷积神经网络（如上所示）。没有任何规范化，具有批量标准化和本地响应规范化。

可视化深度神经网络的损失景观......但我们能相信它们吗？

从上面的图中，我们可以看到具有批量标准化的网络已经实现了最高性能。

从现在开始，我将按照以下方式调用每个网络

Normal：没有任何规范化层的网络

Batch Norm：具有批量标准化层的网络

Local Norm：具有本地响应规范化层的网络

滤波器归一化

可视化深度神经网络的损失景观......但我们能相信它们吗？

上面的代码片段显示了如何使用tensor操作进行过滤器归一化。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

当我们使用滤波器归一化方法来可视化损失景观时，我们可以看到每个景观看起来并没有那么不同。只有在我们以对数尺度显示景观的情况下，我们才能看到，实际上，局部响应规范化的格局要更加清晰。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

当我们将所有三个图以原始比例叠加在一起时，我们可以看到它们看起来有多相似。

过滤正交化

可视化深度神经网络的损失景观......但我们能相信它们吗？

上述方法只是作者方法的一个简单修改，我们从简单的高斯分布生成随机方向，但是通过QR分解我们使方向正交化。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

当我们将方向与不同维度正交化时，我们可以立即看到创建的损失景观之间是如何彼此不同的。与作者的方法相比，我们可以看到三个网络之间的损失情况存在差异。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

正交权重投影

可视化深度神经网络的损失景观......但我们能相信它们吗？

这与滤波器正交化大致相同，唯一的区别在于，在收敛权重的不同维度上执行ZCA白化，而不是由高斯分布生成。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

与Filter Orthogonalization类似，我们可以看到生成的可视化之间存在一些差异。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

权重的原理方向

可视化深度神经网络的损失景观......但我们能相信它们吗？

最后的方法是在第一个主要方向上扰动权重，仅在不同维度之间。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

我们可以清楚地看到生成的损失格局之间的差异。

可视化深度神经网络的损失景观......但我们能相信它们吗？

可视化深度神经网络的损失景观......但我们能相信它们吗？

讨论

我发这篇文章的唯一原因是为了表明，根据我们使用的方向，创建的损失格局可能会发生巨大变化。因此，我们需要质疑生成的损失格局的有效性，它们是否真正反映了受过训练的网络的特征。

代码

可视化深度神经网络的损失景观......但我们能相信它们吗？

要访问用于创建可视化的代码，请单击此处Daily-Neural-Network-Practice-3/0 create viz.ipynb at master · JaeDukSeo/Daily-Neural-Network-Practice-3 · GitHub

要访问整个博客文章的代码，请单击此处Daily-Neural-Network-Practice-3/Loss LanScape at master · JaeDukSeo/Daily-Neural-Network-Practice-3 · GitHub

可视化深度神经网络的损失景观......但我们能相信它们吗？

编译出品

深度神经网络可视化

夜晚00

0 关注 0 粉丝 0 动态

相关推荐

visualization of filters keras 基于Keras的卷积神经网络（CNN）可视化

It is well known that convolutional neural networks have been the source of many major breakthroughs in the field of Deep learn

hnyzyty 2020-02-15

理解卷积神经网络中的自注意力机制

计算机视觉中的编解码结构的局限性以及提升方法。卷积神经网络广泛应用于深度学习和计算机视觉算法中。虽然很多基于CNN的算法符合行业标准，可以嵌入到商业产品中，但是标准的CNN算法仍然有局限性，在很多方面还可以改进。由于其简单和准确，该体系结构被广泛使用。顾名

sunxinyu 2020-09-17

神经网络提取PDF表格工具来了，支持图片，还能白嫖谷歌GPU资源

“表哥表姐”们还在为大量PDF文件中的表格发愁吗？百度一下，网上有大量提取PDF表格的工具，但是，它们都只支持文本格式PDF。但扫描生成的图片表格怎么办？别着急，一种使用深度神经网络识别提取表格的开源工具可以帮助你。兼容图片、高准确率、还不占用本地运算资源

demm 2020-07-28

卷积神经网络中的参数共享/权重复制

参数共享或权重复制是深度学习中经常被忽略的领域。但是了解这个简单的概念有助于更广泛地理解卷积神经网络的内部。卷积神经网络能够使那些通过网络馈送的图像在进行仿射变换时具有不变性。这个特点提供了识别偏移图案、识别倾斜或轻微扭曲的图像的能力。仿射不变性的这些特征

fengzhimohan 2020-07-23

利用Keras中的权重约束减少深度神经网络中的过拟合

权重约束提供了一种方法，用于减少深度学习神经网络模型对训练数据的过度拟合，并改善模型对新数据的性能。有多种类型的权重约束，例如最大和单位向量规范，有些需要必须配置的超参数。如何使用Keras API创建向量范数约束。约束是按层指定的，但是在层中应用和强制执

zhongkeli 2020-07-14

深度神经网络 DNN

深度神经网络是深度学习的基础，而要理解DNN，首先我们要理解DNN模型，下面我们就对DNN的模型与前向传播算法做一个总结。从而得到想要的结果1或者-1.通过使用不同的激活函数，神经网络的表达能力进一步增强。神经网络是基于感知机的扩展，而DNN可以理解为有很

georgesale 2020-06-09

机器学习12卷积神经网络

而对于卷积神经网络，相邻两层之间只有部分节点相连，为了展示每一层神经元的维度，一般会将每一层卷积层的节点组织成一个三维矩阵。因此，全连接神经网络和卷积神经网络的唯一区别就是神经网络相邻两层的连接方式。以digit0为例，进行手工演算。

wenxuegeng 2020-06-03

手把手使用numpy搭建卷积神经网络

本文使用numpy实现卷积层和池化层，包括前向传播和反向传播过程。在具体描述之前，先对使用符号做定义。\表示第4层神经网络的激活值；\和\表示神经网络第5层的参数；\表示神经网络第l层的激活向量的第i个元素。\表示当前层神经网络的高度、宽度和通道数。填充情

hnyzyty 2020-05-12

CNN卷积神经网络基础理论知识

说到卷积，就不得不提互相关\。卷积实质就是一种互相关运算，只不过要在进行互相关运算前，要把\上下左右进行翻转。即\的计算顺序是从左到右，从上到下，而\的顺序是从右到左，从下到上。卷积在数字图像处理中最重要的作用是进行特征提取。卷积神经网络是一类包含卷积计算

liqing 2020-04-19

AI芯片之卷积神经网络原理

卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层和池化层。特征提取简言之就是，在原始输入上一个小区域一个小区域进行特征的提取，稍后细致讲解卷积的计算过程。右边的小方块是filter，

WhiteHacker 2020-03-25

深度神经网络与梯度下降法

神经元可以理解为一个具有多个输入、单个输出的模型，输入和输出的关系可以用一个函数来表示。如果用\表示输入，\(y\)表示输出，那么这个函数可以表示为:. 其中，\称做神经元的权重，\(b\)称作神经元的偏置，\(a\)是一个非线性函数，称作神经元的激活函数

wenxuegeng 2020-03-05

零基础入门深度学习(4) - 卷积神经网络

从输入数组中获取本次卷积的区域，return input_array[start_i: start_i + filter_height, start_j: start_j + filter_width]

wenxuegeng 2020-02-15

一文让你彻底了解卷积神经网络

特征提取简言之就是，在原始输入上一个小区域一个小区域进行特征的提取，稍后细致讲解卷积的计算过程。右边的小方块是filter，尺寸为5*5，深度为3。将输入层划分为多个区域，用filter这个固定尺寸的助手，在输入层做运算，最终得到一个深度为1的特征图。Fi

hnyzyty 2020-02-15

深度学习(一) 卷积神经网络CNN

　　数字图像划分为彩色图像、灰度图像、二值图像和索引图像几种。其中，像素是构成图像的基本单位，例如一张28×28像素的图片，即表示横向有28个像素点，纵向有28个像素点。也称之为3个通道。显然，灰度图像与黑白图像不同，黑白图像只由黑色和白色两种颜色，通常用

liqing 2020-02-02

SIGAI深度学习第十集卷积神经网络4

讲述CNN典型应用，主要是在机器视觉领域里边，这是它应用最广的一个领域，包含下边几个应用：人脸识别；人脸检测；通用目标检测；图像分割；风格迁移。检测、分类、分割基本上已经涵盖了图像理解的整体上要完成的一个目标，我们对所有图像的理解无非就是这三类问题：图像分

liqing 2020-01-23

使用深度神经网络在Oculus Quest上进行准确的手部追踪

Facebook Reality Labs和Oculus的研究者和工程师开发出了目前为止唯一完全依赖单色摄像机的、完全铰接的VR手部跟踪系统。该系统不使用主动式深度感知技术或任何附加设备，我们将把这项技术作为Oculus Quest的软件升级。Oculus

ximingren 2019-12-10

如何使用百度深度学习框架paddlepaddle快速搭建深度神经网络？

数据预处理就是将数据从源文件中读取出来，然后进行一系列操作，将数据分为训练集和测试集两部分

HeiSeDiWei 2019-11-22

深度神经网络可解释性方法汇总，附Tensorflow代码实现

然而，理解神经网络的研究一直也没有停止过，本文就来介绍几种神经网络的可解释性方法，并配有能够在Jupyter下运行的代码连接。Sensitivity Analysis、Simple Taylor Decomposition、Layer-wise Relev

songbinxu 2019-11-08

王垠：机器与人类视觉能力的差距（2）

本文属于个人观点，跟本人在职公司的立场无关。由于最近 GitHub 服务器在国内访问速度严重变慢，虽然经过大幅度压缩尺寸，文中的图片仍然可能需要比较长时间才能加载。这篇文章揭示了 AI 领域重要的谬误和不实宣传，为了阻止愚昧的蔓延，我鼓励大家转发这篇文章和

caf 2019-10-05

【446】Deep Learning

作为多层向前神经网络，理论上，如果有足够多的隐藏层和足够大的训练集，可以模拟任何方程。如果A=a0，那么代表a0的单元值就取1，其他取0；神经网络既可以用来做分类问题，也可以解决回归问题。交叉验证方法K-fold cross validation分成3分第

liqing 2019-11-01

夜晚00

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号