监督学习：随机梯度下降算法（sgd）和批梯度下降算法（bgd）

稀土

2018-02-20

关注关注

线性回归

首先要明白什么是回归。回归的目的是通过几个已知数据来预测另一个数值型数据的目标值。

假设特征和结果满足线性关系，即满足一个计算公式h(x)，这个公式的自变量就是已知的数据x，函数值h(x)就是要预测的目标值。这一计算公式称为回归方程，得到这个方程的过程就称为回归。

假设房子的房屋面积和卧室数量为自变量x，用x1表示房屋面积，x2表示卧室数量；房屋的交易价格为因变量y，我们用h(x)来表示y。假设房屋面积、卧室数量与房屋的交易价格是线性关系。

他们满足公式

上述公式中的θ为参数，也称为权重，可以理解为x1和x2对h(x)的影响度。对这个公式稍作变化就是

公式中θ和x都可以看成是向量，n是特征数量。

假如我们依据这个公式来预测h(x)，公式中的x是我们已知的（样本中的特征值），然而θ的取值却不知道，只要我们把θ的取值求解出来，我们就可以依据这个公式来做预测了。

最小均方法（Least Mean squares）

在介绍LMS之前先了解一下什么损失函数的概念。

我们要做的是依据我们的训练集，选取最优的θ，在我们的训练集中让h(x)尽可能接近真实的值。h(x)和真实的值之间的差距，我们定义了一个函数来描述这个差距，这个函数称为损失函数，表达式如下：

这里的这个损失函数就是著名的最小二乘损失函数，这里还涉及一个概念叫最小二乘法，这里不再展开了。我们要选择最优的θ，使得h(x)最近进真实值。这个问题就转化为求解最优的θ，使损失函数J(θ)取最小值。（损失函数还有其它很多种类型）

那么如何解决这个转化后的问题呢？这又牵扯到一个概念：LMS 和梯度下降（Radient Descent）。

LMS是求取h(x)回归函数的理论依据，通过最小化均方误差来求最佳参数的方法。

梯度下降

我们要求解使得J(θ)最小的θ值，梯度下降算法大概的思路是：我们首先随便给θ一个初始化的值，然后改变θ值让J(θ)的取值变小，不断重复改变θ使J(θ)变小的过程直至J(θ)约等于最小值。

首先我们给θ一个初始值，然后向着让J(θ)变化最大的方向更新θ的取值，如此迭代。公式如下：

公式中α称为步长（learning rate），它控制θ每次向J(θ)变小的方向迭代时的变化幅度。J(θ)对θ的偏导表示J(θ)变化最大的方向。由于求的是极小值，因此梯度方向是偏导数的反方向。

α取值太小收敛速度太慢，太大则可能会Overshoot the minimum。
越接近最小值时，下降速度越慢
收敛: 当前后两次迭代的差值小于某一值时，迭代结束

求解一下这个偏导，过程如下：

那么θ的迭代公式就变为：

上述表达式只针对样本数量只有一个的时候适用，那么当有m个样本值时该如何计算预测函数？批梯度下降算法和随机梯度下降算法

批梯度下降算法

有上一节中单个样本的参数计算公式转化为处理多个样本就是如下表达：

这种新的表达式每一步计算都需要全部训练集数据，所以称之为批梯度下降（batch gradient descent）。

注意，梯度下降可能得到局部最优，但在优化问题里我们已经证明线性回归只有一个最优点，因为损失函数J(θ)是一个二次的凸函数，不会产生局部最优的情况。（假设学习步长α不是特别大）

批梯度下降的算法执行过程如下图：

大家仔细看批梯度下降的数学表达式，每次迭代的时候都要对所有数据集样本计算求和，计算量就会很大，尤其是训练数据集特别大的情况。那有没有计算量较小，而且效果也不错的方法呢？有！这就是：随机梯度下降（Stochastic Gradient Descent, SGD）

随机梯度下降算法

随机梯度下降在计算下降最快的方向时时随机选一个数据进行计算，而不是扫描全部训练数据集，这样就加快了迭代速度。

随机梯度下降并不是沿着J(θ)下降最快的方向收敛，而是震荡的方式趋向极小点。

随机梯度下降表达式如下：

执行过程如下图：

批梯度下降和随机梯度下降在三维图上对比如下：

总结：

开年第一篇，加油

参考：

http://mp.weixin.qq.com/s/7WlGN8JxfSmpJ8K_EyvgQA

http://m.elecfans.com/article/587673.html

梯度下降监督学习随机算法 sgd 机器学习梯度

安科网

监督学习：随机梯度下降算法（sgd）和批梯度下降算法（bgd）

稀土

线性回归

最小均方法（Least Mean squares）

梯度下降

批梯度下降算法

随机梯度下降算法

稀土

相关推荐

随机梯度下降法（Stochastic gradient descent, SGD）

机器学习系列25：随机梯度下降算法

专访乔治亚理工终身教授蓝光辉：开创随机加速梯度法助力深度学习

腾讯AI Lab误差补偿式量化SGD：显著降低分布式机器学习通信成本

无梯度强化学习：使用Numpy进行神经进化

机器学习算法原理与实践-正规方程、梯度下降（文章迁移）

简单例子说明梯度下降、momentum和学习率衰减

Tensorflow--梯度下降解决线性回归

梯度下降算法&线性回归算法

机器学习：梯度下降算法原理讲解

梯度下降的分布式训练简介

【机器学习】机器学习入门05 - 梯度下降法

神经网络中的梯度下降与反向传播的关系（大白话，通俗易懂版本）

梯度下降是最好的程序员：Julia未来将内嵌可微编程系统

图解梯度下降背后的数学原理

python机器学习实战（四）

机器学习之梯度下降法与线性回归

神经网络

关于Resnet残差网络的一些理解

利用 tf.gradients 在 TensorFlow 中实现梯度下降

tensorflow-梯度下降,有这一篇就足够了

通过可视化梯度下降来调整超参数的简单方法

用Numpy搭建神经网络第二期：梯度下降法的实现

机器学习系列 4：线性回归的梯度下降算法

稀土