TensorFlow-谷歌深度学习库性能优化防拟合

ScalersTalk成长会

2018-03-22

Stochatic Gradient Descent (S.G.D)

思想：每次从数据集中随机抽取子样本（1 ～ 1000），在子样本中应用梯度下降。

假设每次的子样本都可以很好的代表整体，假设每次猜到的梯度下降的方向是对的，迭代操作直到我们得到结果。

批量梯度下降算法每次都会使用全部训练样本，因此这些计算是冗余的，因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数，因此每次的学习是非常快速的，并且可以进行在线更新。

因为计算得到的并不是准确的一个梯度，对于最优化问题，凸问题，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。但是相比于批量梯度，这样的方法更快，更快收敛，虽然不是全局最优，但很多时候是我们可以接受的

作者：Evan链接：https://www.zhihu.com/question/264189719/answer/291167114来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

让每一次的计算变得很便宜很迅速，不过要以迭代更多次为代价。

非线性方程 | 激励函数ReLu

神经网络

在中间加入激活函数使原先的线性方程转变为非线性方程

如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。
如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

ReLu激活函数

Rectified Linear Unit(ReLU) - 用于隐层神经元输出

多层神经网络的back propagation算法

它就是复合函数的链式法则！

BP算法正是用来求解这种多层复合函数的所有变量的偏导数的利器。

需要找到从q节点到p节点的所有路径，并且对每条路径，求得该路径上的所有偏导数之乘积，然后将所有路径的 “乘积” 累加起来才能得到的值。

使用regularization去避免overfiting的问题

early termination：在性能达到最优时停止训练。即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。

l2正规化：每个参数的平方

l1正规化：每个参数的绝对值

新的loss为原有loss加上一个惩罚度，过度依赖的 W , 也就是训练参数的数值会很大, l1, l2会惩罚这些大的

dropout

我们随机忽略掉一些神经元和神经联结 , 是这个神经网络变得”不完整”. 用一个不完整的神经网络训练一次.

到第二次再随机忽略另一些, 变成另一个不完整的神经网络.

Dropout 的做法是从根本上让神经网络没机会过度依赖某个w。

机器学习性能优化谷歌 tensorflow 深度学习线性拟合

安科网

TensorFlow-谷歌深度学习库性能优化防拟合

ScalersTalk成长会

ScalersTalk成长会

相关推荐

全面解读谷歌云人工智能如何为机器学习提供帮助

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

研究员准备让智能设备用AI来判断你的声音来自哪里

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

ScalersTalk成长会

TensorFlow-谷歌深度学习库 性能优化防拟合

相关推荐

TensorFlow-谷歌深度学习库性能优化防拟合