用Numpy搭建神经网络第二期：梯度下降法的实现

bestrivern

2019-05-30

关注关注

大数据文摘出品

作者：蒋宝尚

小伙伴们大家好呀~~用Numpy搭建神经网络，我们已经来到第二期了。第一期文摘菌教大家如何用Numpy搭建一个简单的神经网络，完成了前馈部分。

这一期，为大家带来梯度下降相关的知识点，和上一期一样，依然用Numpy实现梯度下降。在代码开始之前，先来普及一下梯度下降的知识点吧。

梯度下降：迭代求解模型参数值

第一期文章中提到过，最简单的神经网络包含三个要素，输入层，隐藏层以及输出层。关于其工作机理其完全可以类比成一个元函数：Y=W*X+b。即输入数据X，得到输出Y。

如何评估一个函数的好坏，专业一点就是拟合度怎么样？最简单的方法是衡量真实值和输出值之间的差距，两者的差距约小代表函数的表达能力越强。

这个差距的衡量也叫损失函数。显然，损失函数取值越小，原函数表达能力越强。

那么参数取何值时函数有最小值？一般求导能够得到局部最小值（在极值点处取）。而梯度下降就是求函数有最小值的参数的一种方法。

梯度下降数学表达式

比如对于线性回归，假设函数表示为h_θ（x_1，x₂…x_n）=θ₀+θ₁x₁+..+θ_nx_n，其中w_i(i=0，1，2...n）为模型参数，x_i（i=0，1，2...n）为每个样本的n个特征值。这个表示可以简化，我们增加一个特征x₀=1，这样h(x_o，x₁，.…x_n)=θ₀x₀+θ₁x₁+..+θ_nx_n。同样是线性回归，对应于上面的假设函数，损失函数为（此处在损失函数之前加上1/2m，主要是为了修正SSE让计算公式结果更加美观，实际上损失函数取MSE或SSE均可，二者对于一个给定样本而言只相差一个固定数值）：

用Numpy搭建神经网络第二期：梯度下降法的实现

算法相关参数初始化：主要是初始化θ₀，θ₁..，θ_n，我们比较倾向于将所有的初始化为0，将步长初始化为1。在调优的时候再进行优化。

对θ_i的梯度表达公式如下:

用Numpy搭建神经网络第二期：梯度下降法的实现

用步长（学习率）乘以损失函数的梯度，得到当前位置下降的距离，即：

用Numpy搭建神经网络第二期：梯度下降法的实现

梯度下降法的矩阵方式描述

对应上面的线性函数，其矩阵表达式为:

用Numpy搭建神经网络第二期：梯度下降法的实现

损失函数表达式为：

用Numpy搭建神经网络第二期：梯度下降法的实现

其中Y为样本的输出向量。

梯度表达公式为：

用Numpy搭建神经网络第二期：梯度下降法的实现

还是用线性回归的例子来描述具体的算法过程。损失函数对于向量的偏导数计算如下：

用Numpy搭建神经网络第二期：梯度下降法的实现

迭代：

用Numpy搭建神经网络第二期：梯度下降法的实现

两个矩阵求导公式为：

用Numpy搭建神经网络第二期：梯度下降法的实现

用Python实现梯度下降

import pandas as pdimport numpy as np

导入两个必要的包。

def regularize(xMat): inMat=xMat. copy() inMeans=np. mean(inMat, axis=0) invar=np. std(inMat, axis=0) inMat=(inMat-inMeans)/invar return inMat

定义标准化函数，不让过大或者过小的数值影响求解。

定义梯度下降函数：

def BGD_LR(data alpha=0.001, maxcycles=500): xMat=np. mat(dataset) yMat=np. mat(dataset).T xMat=regularize(xMat) m,n=xMat.shape weights=np. zeros((n,1)) for i in range(maxcycles): grad=xMat.T*(xMat * weights-yMat)/m weights=weights -alpha* grad return weights

其中，dataset代表输入的数据，alpha是学习率，maxcycles是最大的迭代次数。

即返回的权重就是说求值。np.zeros 是初始化函数。grad的求取是根据梯度下降的矩阵求解公式。

本文参考B站博主菊安酱的机器学习。感兴趣的同学可以打开链接观看视频哟~

https://www.bilibili.com/video/av35390140

好了，梯度下降这个小知识点就讲解完了，下一期，我们将第一期与第二期的知识点结合，用手写数字的数据完成一次神经网络的训练。

梯度下降神经网络模型梯度 sub

安科网

用Numpy搭建神经网络第二期：梯度下降法的实现

bestrivern

bestrivern

相关推荐

无梯度强化学习：使用Numpy进行神经进化

机器学习算法原理与实践-正规方程、梯度下降（文章迁移）

简单例子说明梯度下降、momentum和学习率衰减

Tensorflow--梯度下降解决线性回归

梯度下降算法&线性回归算法

机器学习：梯度下降算法原理讲解

随机梯度下降法（Stochastic gradient descent, SGD）

梯度下降的分布式训练简介

【机器学习】机器学习入门05 - 梯度下降法

神经网络中的梯度下降与反向传播的关系（大白话，通俗易懂版本）

梯度下降是最好的程序员：Julia未来将内嵌可微编程系统

机器学习系列25：随机梯度下降算法

图解梯度下降背后的数学原理

python机器学习实战（四）

机器学习之梯度下降法与线性回归

神经网络

关于Resnet残差网络的一些理解

利用 tf.gradients 在 TensorFlow 中实现梯度下降

tensorflow-梯度下降,有这一篇就足够了

通过可视化梯度下降来调整超参数的简单方法

机器学习系列 4：线性回归的梯度下降算法

bestrivern