神经网络训练中，傻傻分不清Epoch、Batch Size和迭代

zyhzyh

2017-09-26

关注关注

你肯定经历过这样的时刻，看着电脑屏幕抓着头，困惑着：「为什么我会在代码中使用这三个术语，它们有什么区别吗?」因为它们看起来实在太相似了。

为了理解这些术语有什么不同，你需要了解一些关于机器学习的术语，比如梯度下降，以帮助你理解。

这里简单总结梯度下降的含义…

梯度下降

这是一个在机器学习中用于寻找最佳结果(曲线的最小值)的迭代优化算法。

梯度的含义是斜率或者斜坡的倾斜度。

下降的含义是代价函数的下降。

算法是迭代的，意思是需要多次使用算法获取结果，以得到最优化结果。梯度下降的迭代性质能使欠拟合的图示演化以获得对数据的最佳拟合。

神经网络训练中，傻傻分不清Epoch、Batch Size和迭代

梯度下降中有一个称为学习率的参量。如上图左所示，刚开始学习率更大，因此下降步长更大。随着点下降，学习率变得越来越小，从而下降步长也变小。同时，代价函数也在减小，或者说代价在减小，有时候也称为损失函数或者损失，两者都是一样的。(损失/代价的减小是一件好事)

只有在数据很庞大的时候(在机器学习中，几乎任何时候都是)，我们才需要使用 epochs，batch size，迭代这些术语，在这种情况下，一次性将数据输入计算机是不可能的。因此，为了解决这个问题，我们需要把数据分成小块，一块一块的传递给计算机，在每一步的末端更新神经网络的权重，拟合给定的数据。

EPOCHS

当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一个 epoch。

然而，当一个 epoch 对于计算机而言太庞大的时候，就需要把它分成多个小块。

为什么要使用多于一个 epoch?

我知道这刚开始听起来会很奇怪，在神经网络中传递完整的数据集一次是不够的，而且我们需要将完整的数据集在同样的神经网络中传递多次。但是请记住，我们使用的是有限的数据集，并且我们使用一个迭代过程即梯度下降，优化学习过程和图示。因此仅仅更新权重一次或者说使用一个 epoch 是不够的。

神经网络训练中，傻傻分不清Epoch、Batch Size和迭代

随着 epoch 数量增加，神经网络中的权重的更新次数也增加，曲线从欠拟合变得过拟合。

那么，几个 epoch 才是合适的呢?

不幸的是，这个问题并没有正确的答案。对于不同的数据集，答案是不一样的。但是数据的多样性会影响合适的 epoch 的数量。比如，只有黑色的猫的数据集，以及有各种颜色的猫的数据集。

BATCH SIZE

一个 batch 中的样本总数。记住：batch size 和 number of batches 是不同的。

BATCH 是什么?

在不能将数据一次性通过神经网络的时候，就需要将数据集分成几个 batch。

正如将这篇文章分成几个部分，如介绍、梯度下降、Epoch、Batch size 和迭代，从而使文章更容易阅读和理解。

迭代

神经网络算法

安科网

神经网络训练中，傻傻分不清Epoch、Batch Size和迭代

zyhzyh

zyhzyh

相关推荐

神经网络内部长啥样？

详解深度学习感知机原理

神经网络与人类思维间的深层关系

GraphSAGE图神经网络算法详解

用Python实现多层感知器神经网络

74KB图片也高清，谷歌用神经网络打造图像压缩新算法

令人着迷的无梯度神经网络优化方法

神经网络之父Hinton再审视34年前的奠基性成果，欲在大脑中搜寻AI方法的“存在”

神经网络(三)：前馈神经网络(FNN)

反向传播神经网络（BP）

人工智能之卷积神经网络(CNN)

神经网络-前向算法

如何理解深度学习中的dropout正则化技术解决过拟合问题？

图神经网络的ImageNet？斯坦福开源百万量级OGB基准测试数据集

NeurIPS 2019 |自动优化架构，这个算法能帮工程师设计神经网络

自动优化架构，这个算法能帮工程师设计神经网络

可视化卷积神经网络的基础知识

[ch04-03] 用神经网络解决线性回归问题

再人工智能领域如何快速搭建一个运行良好的神经网络算法模型？

RNN循环神经网络学习——概述

zyhzyh