使用TensorFlow实现DNN

ukakasu

2017-12-18

这一节使用TF实现一个多层神经网络模型来对MNIST数据集进行分类，这里我们设计一个含有两个隐藏层的神经网络，在输出部分使用softmax对结果进行预测。

使用高级API实现多层神经网络

这里我们使用tensorflow.contrib包，这是一个高度封装的包，里面包含了许多类似seq2seq、keras一些实用的方法。
先引入数据

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("./") #自动下载数据到这个目录
X_train = mnist.train.images
X_test = mnist.test.images
y_train = mnist.train.labels.astype("int")
y_test = mnist.test.labels.astype("int")
>>X_train
array([[ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       ..., 
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.]], dtype=float32)
>>len(X_train)
55000
>>len(X_train[0])
784
>>X_train[0]
array([ 0.,  0.,  0., ...,  0.,  0.,  0.], dtype=float32)
>>y_test
array([7, 2, 1, ..., 4, 5, 6])

模型的主要代码

features_cols = tf.contrib.learn.infer_real_valued_columns_from_input(X_train)
dnn_clf = tf.contrib.learn.DNNClassifier(hidden_units=[300,100], n_classes=10, feature_columns=features_cols)
dnn_clf.fit(X_train, y_train, batch_size=50, steps=10000)
from sklearn.metrics import accuracy_score
y_pred = dnn_clf.predict(X_test)
print(accuracy_score(y_test, list(y_pred)))

其中infer_real_valued_columns_from_input这个方法根据名字可以看出，它是根据输入的数据来推算出数据的类型，该例子中features_cols的值为
[_RealValuedColumn(column_name='', dimension=784, default_value=None, dtype=tf.float32, normalizer=None)]，短短几行代码就实现了一个多层神经网络模型。并且可能会发现上面这些与之前介绍的有些不同，不需要对变量进行初始化，不需要创建session，使用起来十分的简单。

使用TF实现多层神经网络

高度封装的API调用起来固然很爽，但是自己不了解内部的原理使用起来就不是那么的踏实，下面就使用TF实现同样的模型，代码主要分为两部分，构建TF计算流图和执行计算图。希望读者能够对比上面的代码来看接下来的部分。

构建TF计算流图

首先我们需要根据输入的数据来设定输入的参数，使用的数据集MNIST为28*28的矩阵，整个神经网络包含两个隐藏层

n_inputs = 28 * 28
n_hidden1 = 300
n_hidden2 = 100
n_output = 10
X = tf.placeholder(tf.float32,shape=(None,n_inputs),name='X')
y = tf.placeholder(tf.int64,shape=(None),name='y')#注意数据类型

上面使用占位符的方法来声明模型的输入X和y，需要注意的是占位符的数据类型，在执行阶段，占位符会被输入的数据所替代。接下来我们需要创建模型的两个隐藏层和输出层，两个隐藏使用Relu作为激活函数，输出层使用softmax。每一层需要指定节点的个数。

def neuron_layer(X,n_neurons,name,activation=None):
    with tf.name_scope(name):
        n_inputs = int(X.get_shape()[1]) #特征个数
        stddev = 2 / np.sqrt(n_inputs)
        init = tf.truncated_normal((n_inputs,n_neurons),stddev=stddev)
        W = tf.Variable(init,name='weight')
        b = tf.Variable(tf.zeros([n_neurons]),name='baise')
        z = tf.matmul(X,W) + b
        if activation == "relu":
            return tf.nn.relu(z)
        else:
            return z

我将逐行的对上面代码进行解释：

1.为了方便在TensorBoard上面查看，每一层的神经网络都创建一个name_scope。这一步是可选操作，如果不需要在TensorBoard查看那就可以忽略掉。
2.根据输入的数据的形状来获取数据的特征个数(第二个维度)
3.接下来的代码是创建权重矩阵W和偏置b，权重W不能使用0进行初始化，这样会导致所有的神经元的输出为0，出现对称失效问题，这里使用truncated normal分布(Gaussian)来初始化权重，
```
tf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None)
```
通过指定均值和标准方差来生成正态分布，抛弃那些大于2倍stddev的值。这样将有助于加快训练速度。在初始化b的时候，每一层只有一个偏置，我们全部设置为0，这样并不会出现对称失效问题。
4.下面的是在每一个神经元中的操作y=X⋅W+b ，使用向量化运算计算输入与权重的和运算
5.最后就是激活函数的选择了

下面我们就开始像搭建积木一样创建我们的神经网络了，每一层的输入为上一层的输出：

with tf.name_scope("dnn"):
    hidden1 = neuron_layer(X,n_hidden1,"hidden1",activation="relu")
    hidden2 = neuron_layer(hidden1,n_hidden2,"hidden2",activation="relu")
    logits = neuron_layer(hidden2,n_output,"output")

上面这一段代码的输出层并没有经过softmax激活函数，这是考虑到后续优化求解原因，在后续工作中单独做处理。上面这段代码就是一个神经网络全连接的简化版本，当然TF的contrib模块也提供了全连接的函数fully_connected。

from tensorflow.contrib.layers import fully_connected
with tf.name_scope("dnn"):
    hidden1 = fully_connected(X, n_hidden1, scope="hidden1")#激活函数默认为relu
    hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2")
    logits = fully_connected(hidden2, n_outputs, scope="outputs",activation_fn=None)

现在，模型已经有了。接下来套路就是设计损失函数，优化损失函数求解参数。输出层softmax输出的为在各个类别上面的得分，损失函数使用交叉熵
−∑y ′ log(y ′ ) 。在这里我们使用TF提供的tf.nn.sparse_softmax_cross_entropy_with_logits(_sentinel=None, labels=None, logits=None, name=None)来计算损失函数，该方法先计算softmax再计算cross entropy，主要有两个参数需要考虑

1.labels:输入的为标签的index，例如本例子有10个类别，取值范围为0-9
2.logits:为输入到softmax激活函数之前的模型的输出

最后再使用reduce_mean()计算loss。

with tf.name_scope("loss"):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y,logits=logits)#labels允许的数据类型有int32, int64
    loss = tf.reduce_mean(xentropy,name="loss")

note：TF还提供了softmax_cross_entropy_with_logits()，和上面方法的区别该方法输入的label为一个one-hot向量。
到这里我们的模型和损失函数已经都有了，就到了优化阶段，本文使用梯度下降方法

learning_rate = 0.01
with tf.name_scope("train"):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    training_op = optimizer.minimize(loss)

模型有了结果，就需要对得到的模型进行衡量。简单起见，这里使用accuracy作为评估指标，判断模型输出结果的最高值的index是否和label的index相等

with tf.name_scope("eval"):
    correct = tf.nn.in_top_k(logits,y,1) #取值最高的一位
    accuracy = tf.reduce_mean(tf.cast(correct,tf.float32)) #结果boolean转为0，1

模型构建阶段最后一个工作就是初始化里面的变量

init = tf.global_variables_initializer()
saver = tf.train.Saver()

执行计算流图

这一部分相对前面工作要简单很多，

n_epoch = 400 
batch_size = 50
with tf.Session() as sess:
    init.run()
    for epoch in range(n_epoch):
        for iteration in range(mnist.train.num_examples // batch_size):#需要迭代的轮数
            X_batch,y_batch = mnist.train.next_batch(batch_size)
            sess.run(training_op,feed_dict={X:X_batch,y:y_batch})
        acc_train = accuracy.eval(feed_dict={X:X_batch,y:y_batch})
        acc_test = accuracy.eval(feed_dict={X:mnist.test.images,mnist.test.labels})
        print (epoch,"Train accuracy", acc_train,"Test accuracy",acc_test)
    saver.save(sess, "./my_model.pk")

上面这段代码使用的是mini-batch方法训练神经网络，最后将模型持久化到本地。后续的使用

with tf.Session() as sess:
    saver.restore(sess, "./my_model.pk") #加载
    X_new_scaled = mnist.test.images[:20]
    Z = logits.eval(feed_dict={X: X_new_scaled}) #模型
    y_pred = np.argmax(Z, axis=1)

总结

本文介绍了TF在实际数据集MNIST上面的使用，为input和target创建占位符，创建神经网络的layer，得到一个DNN，并为整个模型设置损失函数，对损失函数进行优化求解，最后对模型进行评估。

tensorflow 神经网络 mnist dnn

安科网

使用TensorFlow实现DNN

ukakasu

使用高级API实现多层神经网络

使用TF实现多层神经网络

构建TF计算流图

执行计算流图

总结

ukakasu

相关推荐

如何在PyTorch和TensorFlow中训练图像分类模型

iPhone 11 训练神经网络的开源项目火了，准确率可与 i7 MacBook Pro 持平

Ｍnist手写数字识别 Tensorflow

TensorFlow中超大的30个机器学习数据集

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

对比PyTorch和TensorFlow的自动差异和动态模型

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

TensorFlow推出新接口，简化 ML移动端开发流程

如何在浏览器中使用TensorFlow？

2020年深度学习框架对比速读

输入示例，自动生成代码：TensorFlow官方工具TF-Coder已开源

TensorFlow Lattice：灵活、可控、可解释的机器学习

TensorFlow 2入门指南，初学者必备！

使用tensorflow进行音乐类型的分类

【tensorflow】常量和变量的定义

如何在tensorflow中判断tensor(张量)的值

TensorFlow会话常用的两种方式

TensorFlow被曝存严重bug，搭配Keras可能丢失权重，至今仍未修复

解决import tensorflow报错：ImportError: DLL load failed: 找不到指定的模块

Yolo v3 Introduction to object detection with TensorFlow 2

ukakasu