深度学习术语汇总(1)
激活函数(Activation Function)
用于创建输入的非线性变换。输入乘以权重并添加到偏差项。流行的激活函数包括ReLU,tanh或sigmoid。
亚当优化(Adam Optimization )
可以用来代替随机梯度下降优化方法来迭代调整网络权重。根据发明人的说法,Adam在计算上是高效的,对于大数据集运行良好,并且只需要很少的超参数调整。Adam使用自适应学习率 α,而不是预定义和固定的学习率。Adam目前是深度学习模型中的默认优化算法。
自适应梯度算法 (Adaptive Gradient Algorithm)
AdaGrad是一种梯度下降优化算法,为每个参数提供可调整的学习速率。AdaGrad以较小的步骤调整频繁更新的参数上的参数,而不是更新频率较低的参数。因此,它非常适用于非常稀疏的数据集,例如用于在自然语言处理任务中调整词嵌入。
平均池(Average Pooling)
平均卷积运算的结果。它通常用来缩小输入的大小。平均池主要用于旧的卷积神经网络体系结构,而最近的体系结构支持最大池。
AlexNet
一种流行的有八层的CNN架构。这是一个比LeNet更广泛的网络架构,需要更长时间的训练。
反向传播 (Backpropagation )
用于调整网络权重以减少神经网络损失函数的一般框架。该算法通过网络向后传播,并通过每个激活函数的梯度下降形式来调整权重。
批梯度下降 (Batch Gradient Descent)
常规梯度下降优化算法。为整个训练集执行参数更新。该算法需要在完成参数更新步骤之前计算整个训练集的梯度。因此,批量梯度对于大型训练集可能非常缓慢。
批标准化(Batch Normalization )
将神经网络层中的值标准化为介于0和1之间的值。这有助于更快地训练神经网络。
偏差(Bias)
当模型在训练集上没有达到高精度时发生。它也被称为underfit。当模型偏差很大时,它在测试集中通常不会产生高精度。
分类 (Classification )
当目标变量属于不同的类时,不是连续变量。图像分类,欺诈检测或自然语言处理是深度学习分类任务的实例。
卷积 (Convolution)
将输入与滤波器相乘的数学运算。卷积是卷积神经网络的基础,它在识别图像中的边缘和物体方面非常出色。
成本函数 (Cost Function )
定义计算出的输出和它应该是什么之间的差异。成本函数是深度神经网络学习的关键要素之一,因为它们构成参数更新的基础。网络将其前向传播的结果与地面实况进行比较,并相应地调整网络权重以最小化成本函数。均方根误差是成本函数的一个简单例子。
深度神经网络(Deep Neural Network )
具有许多隐藏层的神经网络,通常超过五个。没有定义深度神经网络必须具有多少层。深度神经网络是一种强大的机器学习算法,用于确定信用风险,驾驶自动驾驶汽车并检测宇宙中的新行星。
导数 (Derivative)
导数 是特定点上函数的斜率。计算导数以使梯度下降算法将权重参数调整为局部最小值。
Dropout
正规化技术,随机消除深度神经网络中的节点及其连接。Dropout 减少了过度拟合,并加快了对深度神经网络的训练。每个参数更新周期,不同的节点在训练期间被丢弃。这迫使相邻节点避免相互依赖,并自己计算出正确的表示。它还提高了某些分类任务的性能。
端到端学习(End-to-End Learning)
算法能够自行解决整个任务。额外的人工干预,如模型切换或新数据标签,是没有必要的。例如,端到端驱动意味着神经网络仅通过评估图像即可知道如何调整转向命令。
Epoch
每个示例都包含一个前向和后向遍历训练集。单个时代在迭代中涉及每个训练示例。
前向传播 (Forward Propagation)
深度神经网络中的前向传递。输入通过隐藏层的激活功能,直到最后产生结果。正向传播也用于预测权重经过适当训练后的输入示例结果。
全连接层 (Fully-Connected layer)
完全连接层使用其权重转换输入并将结果传递到下一层。该图层可以访问上一层的所有输入或激活。
门控循环单元 (Gated Recurrent Unit )
GRU对给定输入进行多重转换。它主要用于自然语言处理任务。GRU可以防止RNN中消失的梯度问题,类似于LSTM。与LSTM相反,GRU不使用存储器单元,因此计算效率更高,同时达到相似的性能。
人类级别的表现(Human-Level Performance)
一组人类专家的最佳表现。算法可以超过人类的表现。有价值的度量来比较和改进神经网络。
超参数(Hyperparameters )
确定您的神经网络的性能。超参数的例子是,例如学习速率,梯度下降的迭代,隐藏层数或激活函数。不要与DNN学习的参数或权重混淆。
ImageNet
收集数以千计的图像及其注释类。非常有用的图像分类任务资源。
迭代 (Iteration)
向前和向后传递一个神经网络的次数。每批都算一次。如果你的训练集有5个批次,训练2个纪元,那么它将运行10次迭代。
梯度下降 (Gradient Descent )
帮助神经网络决定如何调整参数以最小化成本函数。反复调整参数直到找到全局最小值。
层 (Layer )
一组用于转换输入的激活函数。神经网络使用多个隐藏层来创建输出。您通常会区分输入层,隐藏层和输出层。
学习速率衰减 (Learning Rate Decay )
一种调整训练期间学习速率的概念。允许灵活的学习速率调整。在深度学习中,学习速率通常随着网络训练时间的延长而衰减。