机器不学习：深度学习笔记 TensorFlow实现与优化深度神经网络

zyhzyh

2018-08-15

全连接神经网络

辅助阅读：TensorFlow中文社区教程 - 英文官方教程

代码见：full_connect.py

Linear Model

加载lesson 1中的数据集
将Data降维成一维，将label映射为one-hot encoding

def reformat(dataset, labels):

dataset = dataset.reshape((-1, image_size * image_size)).astype(np.float32)

# Map 0 to [1.0, 0.0, 0.0 ...], 1 to [0.0, 1.0, 0.0 ...]

labels = (np.arange(num_labels) == labels[:, None]).astype(np.float32)

return dataset, labels

TensorFlow Graph

使用梯度计算train_loss，用tf.Graph()创建一个计算单元
用tf.constant将dataset和label转为tensorflow可用的训练格式（训练中不可修改）
用tf.truncated_normal生成正太分布的数据，作为W的初始值，初始化b为可变的0矩阵
用tf.variable将上面的矩阵转为tensorflow可用的训练格式（训练中可以修改）
用tf.matmul实现矩阵相乘，计算WX+b，这里实际上logit只是一个变量，而非结果
用tf.nn.softmax_cross_entropy_with_logits计算WX+b的结果相较于原来的label的train_loss，并求均值
使用梯度找到最小train_loss
optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss)
计算相对valid_dataset和test_dataset对应的label的train_loss

上面这些变量都是一种Tensor的概念，它们是一个个的计算单元，我们在Graph中设置了这些计算单元，规定了它们的组合方式，就好像把一个个门电路串起来那样

TensorFLow Session

Session用来执行Graph里规定的计算，就好像给一个个门电路通上电，我们在Session里，给计算单元冲上数据，That’s Flow.

重复计算单元反复训练800次，提高其准确度
为了快速查看训练效果，每轮训练只给10000个训练数据(subset)，恩，每次都是相同的训练数据
将计算单元graph传给session
初始化参数
传给session优化器 - train_loss的梯度optimizer，训练损失 - train_loss，每次的预测结果，循环执行训练

with tf.Session(graph=graph) as session:

tf.initialize_all_variables().run()

for step in range(num_steps):

_, l, predictions = session.run([optimizer, loss, train_prediction])

在循环过程中，W和b会保留，并不断得到修正
在每100次循环后，会用验证集进行验证一次，验证也同时修正了一部分参数

valid_prediction.eval()

最后用测试集进行测试
注意如果lesson 1中没有对数据进行乱序化，可能训练集预测准确度很高，验证集和测试集准确度会很低

这样训练的准确度为83.2%

SGD

每次只取一小部分数据做训练，计算loss时，也只取一小部分数据计算loss
对应到程序中，即修改计算单元中的训练数据，
每次输入的训练数据只有128个，随机取起点，取连续128个数据：
offset = (step * batch_size) % (train_labels.shape[0] - batch_size)
batch_data = train_dataset[offset:(offset + batch_size), :]
batch_labels = train_labels[offset:(offset + batch_size), :]
由于这里的数据是会变化的，因此用tf.placeholder来存放这块空间
tf_train_dataset = tf.placeholder(tf.float32,
shape=(batch_size, image_size * image_size))
tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels))
计算3000次，训练总数据量为384000，比之前8000000少

准确率提高到86.5%，而且准确率随训练次数增加而提高的速度变快了

神经网络

上面SGD的模型只有一层WX+b，现在使用一个RELU作为中间的隐藏层，连接两个WX+b
仍然只需要修改Graph计算单元为
Y = W2 * RELU(W1*X + b1) + b2
为了在数学上满足矩阵运算，我们需要这样的矩阵运算：
[n * 10] = RELU([n * 784] · [784 * N] + [n * N]) · [N * 10] + [n * 10]
这里N取1024，即1024个隐藏结点
于是四个参数被修改
weights1 = tf.Variable(
tf.truncated_normal([image_size * image_size, hidden_node_count]))
biases1 = tf.Variable(tf.zeros([hidden_node_count]))
weights2 = tf.Variable(
tf.truncated_normal([hidden_node_count, num_labels]))
biases2 = tf.Variable(tf.zeros([num_labels]))
预测值计算方法改为
ys = tf.matmul(tf_train_dataset, weights1) + biases1
hidden = tf.nn.relu(ys)
logits = tf.matmul(hidden, weights2) + biases2
计算3000次，可以发现准确率一开始提高得很快，后面提高速度变缓，最终测试准确率提高到88.8%

深度神经网络实践

代码见nn_overfit.py

优化

Regularization

在前面实现的RELU连接的两层神经网络中，加Regularization进行约束，采用加l2 norm的方法，进行调节：

机器不学习：深度学习笔记 TensorFlow实现与优化深度神经网络

代码实现上，只需要对tf_sgd_relu_nn中train_loss做修改即可：

可以用tf.nn.l2_loss(t)对一个Tensor对象求l2 norm
需要对我们使用的各个W都做这样的计算（参考tensorflow官方example）

l2_loss = tf.nn.l2_loss(weights1) + tf.nn.l2_loss(weights2)

添加到train_loss上
这里还有一个重要的点，Hyper Parameter: β
我觉得这是一个拍脑袋参数，取什么值都行，但效果会不同，我这里解释一下我取β=0.001的理由
如果直接将l2_loss加到train_loss上，每次的train_loss都特别大，几乎只取决于l2_loss
为了让原本的train_loss与l2_loss都能较好地对参数调整方向起作用，它们应当至少在同一个量级
观察不加l2_loss，step 0 时，train_loss在300左右
加l2_loss后， step 0 时，train_loss在300000左右
因此给l2_loss乘0.0001使之降到同一个量级
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits, tf_train_labels)) + 0.001 * l2_loss
所有其他参数不变，训练3000次，准确率提高到92.7%
黑魔法之所以为黑魔法就在于，这个参数可以很容易地影响准确率，如果β = 0.002，准确率提高到93.5%

OverFit问题

在训练数据很少的时候，会出现训练结果准确率高，但测试结果准确率低的情况

缩小训练数据范围：将把batch数据的起点offset的可选范围变小（只能选择0-1128之间的数据）：

offset_range = 1000

offset = (step * batch_size) % offset_range

可以看到，在step500后，训练集就一直是100%，验证集一直是77.6%，准确度无法随训练次数上升，最后的测试准确度是85.4%

DropOut

采取Dropout方式强迫神经网络学习更多知识

参考aymericdamien/TensorFlow-Examples中dropout的使用

我们需要丢掉RELU出来的部分结果
调用tf.nn.dropout达到我们的目的：

keep_prob = tf.placeholder(tf.float32)

if drop_out:

hidden_drop = tf.nn.dropout(hidden, keep_prob)

h_fc = hidden_drop

这里的keep_prob是保留概率，即我们要保留的RELU的结果所占比例，tensorflow建议的语法是，让它作为一个placeholder，在run时传入
当然我们也可以不用placeholder，直接传一个0.5：

if drop_out:

hidden_drop = tf.nn.dropout(hidden, 0.5)

h_fc = hidden_drop

这种训练的结果就是，虽然在step 500对训练集预测没能达到100%（起步慢），但训练集预测率达到100%后，验证集的预测正确率仍然在上升
这就是Dropout的好处，每次丢掉随机的数据，让神经网络每次都学习到更多，但也需要知道，这种方式只在我们有的训练数据比较少时很有效
最后预测准确率为88.0%

Learning Rate Decay

随着训练次数增加，自动调整步长

在之前单纯两层神经网络基础上，添加Learning Rate Decay算法
使用tf.train.exponential_decay方法，指数下降调整步长，具体使用方法官方文档说的特别清楚
注意这里面的cur_step传给优化器，优化器在训练中对其做自增计数
与之前单纯两层神经网络对比，准确率直接提高到90.6%

Deep Network

增加神经网络层数，增加训练次数到20000

为了避免修改网络层数需要重写代码，用循环实现中间层

# middle layer

for i in range(layer_cnt - 2):

y1 = tf.matmul(hidden_drop, weights[i]) + biases[i]

hidden_drop = tf.nn.relu(y1)

if drop_out:

keep_prob += 0.5 * i / (layer_cnt + 1)

hidden_drop = tf.nn.dropout(hidden_drop, keep_prob)

初始化weight在迭代中使用

for i in range(layer_cnt - 2):

if hidden_cur_cnt > 2:

hidden_next_cnt = int(hidden_cur_cnt / 2)

else:

hidden_next_cnt = 2

hidden_stddev = np.sqrt(2.0 / hidden_cur_cnt)

weights.append(tf.Variable(tf.truncated_normal([hidden_cur_cnt, hidden_next_cnt], stddev=hidden_stddev)))

biases.append(tf.Variable(tf.zeros([hidden_next_cnt])))

hidden_cur_cnt = hidden_next_cnt

第一次测试时，用正太分布设置所有W的数值，将标准差设置为1，由于网络增加了一层，寻找step调整方向时具有更大的不确定性，很容易导致loss变得很大
因此需要用stddev调整其标准差到一个较小的范围（怎么调整有许多研究，这里直接找了一个来用）

stddev = np.sqrt(2.0 / n)

启用regular时，也要适当调一下β，不要让它对原本的loss造成过大的影响
DropOut时，因为后面的layer得到的信息越重要，需要动态调整丢弃的比例，到后面的layer，丢弃的比例要减小

keep_prob += 0.5 * i / (layer_cnt + 1)

训练时，调节参数，你可能遇到消失（或爆炸）的梯度问题，
训练到一定程度后，梯度优化器没有什么作用，loss和准确率总是在一定范围内徘徊
官方教程表示最好的训练结果是，准确率97.5%，
我的nn_overfit.py开启六层神经网络，
启用Regularization、DropOut、Learning Rate Decay，
训练次数20000（应该还有再训练的希望，在这里虽然loss下降很慢了，但仍然在下降），训练结果是，准确率95.2%

tensorflow 深度神经网络 session

zyhzyh

0 关注 0 粉丝 0 动态

相关推荐

TensorFlow会话常用的两种方式

需要注意的是我们可以使用两种方法来创建并使用session. 我们计算WX+b，其中W，X和b是从随机正态分布中抽取的。我们开始定义一个shape=（3,1）的常量X：。实现一个线性功能：。初始化X，类型为tensor的随机变量，维度为(3,1). res

songbinxu 2020-07-19

TensorFlow函数 tf.argmax()

dimension：按某维度查找。　　　　dimension=0：按列查找；　　　　dimension=1：按行查找；# axis=1的时候，将每一行最大元素所在的索引记录下来，最后返回每一行最大元素所在的索引数组。

louishao 2020-05-28

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何在PyTorch和TensorFlow中训练图像分类模型

图像分类是计算机视觉的最重要应用之一。它的应用范围包括从自动驾驶汽车中的物体分类到医疗行业中的血细胞识别，从制造业中的缺陷物品识别到建立可以对戴口罩与否的人进行分类的系统。他们是如何做到的呢？你必须已阅读很多有关不同深度学习框架之间差异的信息。Tensor

xjtukuixing 11评论 2020-10-27

对比PyTorch和TensorFlow的自动差异和动态模型

使用自定义模型类从头开始训练线性回归，比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法，这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型

lybbb 2020-10-15

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

操作张量并非易事，因为它需要很多先决条件，例如跟踪多个维度，Dtype兼容性，数学正确性和张量形状等。当然最大的挑战还是从数百种可用选项中确定正确的TensorFlow操作。如果会的话，谷歌的TensorFlow Coder可以帮你实现这一点。然后，它会运

lybbb 2020-09-29

TensorFlow推出新接口，简化 ML移动端开发流程

在移动设备上使用 TensorFlow Lite 模型运行推理不仅仅是与模型交互，还需要额外的代码来处理复杂的逻辑，如数据转换、预处理/后处理、加载关联文件等。今天，我们将为大家介绍TensorFlow Lite Task Library，这是一组功能强大

ghjk0 2020-09-24

如何在浏览器中使用TensorFlow？

TensorFlow 2.0引入的创新之一是JavaScript实现：TensorFlow.js。我没料到这会加快训练或推理速度，但确实如此，它通过WebGL API支持所有的GPU。TensorFlow.js是一个库，用于使用JavaScript开发

yamaxifeng 2020-09-09

2020年深度学习框架对比速读

TensorFlow于2015年11月面世，基于Apache License 2.0协议发布，由Google Brain团队研发。到目前为止也是github上热度最高、使用人数最多的深度学习框架，业界很多招聘要求中也提到了它。2019年3月推出Tenso

GDGYZL 2020-08-28

输入示例，自动生成代码：TensorFlow官方工具TF-Coder已开源

如何使编程更加便捷？最近，谷歌 TensorFlow 开源了一个帮助开发者写 TensorFlow 代码的程序合成工具 TF-Coder。用过 TensorFlow 框架的应该都知道，在操纵张量时，需要跟踪多个维度、张量形状和数据类型兼容性，当然还需要考虑

lybbb 2020-08-28

TensorFlow Lattice：灵活、可控、可解释的机器学习

本文转自雷锋网，如需转载请至雷锋网官网申请授权。大多数的机器学习实践者都曾遇到过训练数据和实际运行时用以评估模型的样本差别很大的情况。因此，相对灵活的机器学习解决方案，如DNN和随机森林等，仅依赖于训练数据的模型，在训练数据集和验证数据集没有覆盖的输入空间

Icevivian 2020-08-25

TensorFlow 2入门指南，初学者必备！

TensorFlow是谷歌推出的深度学习框架，于2019年发布了第二版。它是世界上最著名的深度学习框架之一，被行业专家和研究人员广泛使用。Tensorflow v1难以使用和理解，因为它的Pythonic较少，但是随着Keras发行的v2现在与Tenso

comwayLi 2020-08-16

使用tensorflow进行音乐类型的分类

音乐流媒体服务的兴起使得音乐无处不在。我们在上下班的时候听音乐，锻炼身体，工作或者只是放松一下。这些数据可能来自出版歌曲的人手工标注。但这并不是一个很好的划分，因为可能是一些艺人想利用一个特定流派的流行趋势。在描述了所使用的数据源之后，我对我们使用的方法及

carbon0 2020-08-16

【tensorflow】常量和变量的定义

data1 = tf.constant # 声明常量。data2 = tf.Variable # 声明变量。print # 打印数据的

源式羽语 2020-08-09

如何在tensorflow中判断tensor(张量)的值

众所周知，在tensorflow程序中，tensor只是占位符，在会话层没有run出tensor的值之前，我们是无法获知tensor的值的。也就是说，下面的逻辑是无法实现的：。#a is a 1-D tensor, b is a 1-D tensor to

sherry颖 2020-08-01

Ｍnist手写数字识别 Tensorflow

MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology . 训练集由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局的

sherry颖 2020-07-18

TensorFlow被曝存严重bug，搭配Keras可能丢失权重，至今仍未修复

每个在自定义层中使用Keras函数式API的用户都要注意了！使用用Keras的Functional API创建的权重，可能会丢失。这一话题在Reddit机器学习板块上被热议，引起不少TensorFlow用户共鸣。也就是说，原本需要训练的权重现在被冻结了。让

Niteowl 2020-07-15

TensorFlow中超大的30个机器学习数据集

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的

Kindle君 2020-07-15

解决import tensorflow报错：ImportError: DLL load failed: 找不到指定的模块

将visual c++ 升级到2019版本。安装完之后，即可解决该问题。

源式羽语 2020-07-04

Yolo v3 Introduction to object detection with TensorFlow 2

https://medium.com/analytics-vidhya/yolo-v3-introduction-to-object-detection-with-tensorflow-2-ce75749b1c47

源式羽语 2020-06-28

zyhzyh

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号