改善深层神经网络（一）深度学习的实用层面

PeterHuang0

2019-11-09

关注关注

1、L 层神经网络正则化：

（1）L2 正则化：

改善深层神经网络（一）深度学习的实用层面

（2）为什么正则化可以避免过拟合？

改善深层神经网络（一）深度学习的实用层面

当 lambda 足够大时，最小化 J 时，就会使得权重矩阵 w 趋近于0，神经网络简化为高偏差状态：

改善深层神经网络（一）深度学习的实用层面

lambda 较大，w 较小，由 z = w * a + b，z 也较小，以 tanh 函数为例：

改善深层神经网络（一）深度学习的实用层面

当 z 在较小的阶段，函数 g(z) 趋近于线性. 如果每一层都趋近线性，该网络为线性网络，不会产生过拟合的情况.

（3）dropout正则化（随机失活）：

神经网络的每一个节点都含有 p 的概率失活，如下图：

改善深层神经网络（一）深度学习的实用层面

简化连线，得到一个节点更少，规模更小的网络：

改善深层神经网络（一）深度学习的实用层面

实现代码如下：

对于第3层进行随机失活，keep_prob = 0.8（保留某个隐藏单元的概率，即消除一个隐藏单元的概率为0.2），不同层的keep_prob可以不同.

d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob

a3 = np.multiply(a3, d3) #过滤掉失活的节点

a3 = a3 / keep_prob #弥补过滤掉的20%，使得 a3 的期望值不变

（4）其它正则化方法：

① 扩大数据集；

② 提早结束迭代：

改善深层神经网络（一）深度学习的实用层面

（5）正则化输入：

① 零均值化：

μ = 1 / m * ∑x⁽ⁱ⁾

x = x - μ

改善深层神经网络（一）深度学习的实用层面

② 方差归一化：

σ² = 1 / m * ∑(x⁽ⁱ⁾)²

x = x / σ²

改善深层神经网络（一）深度学习的实用层面

③ 为什么要正则化输入？

非正则化的输入可能导致代价函数的图像偏于细长，如 x1 的取值1-1000，而 x2 的取值仅有0-1. 正则化输入后，代价函数看起来更对称.

改善深层神经网络（一）深度学习的实用层面

下图可以看到非正则化的梯度下降较为曲折，而正则化的梯度下降较快.

改善深层神经网络（一）深度学习的实用层面

2、Vanishing / Exploding gradients（梯度消散与梯度爆炸）：

（1）举例描述：

改善深层神经网络（一）深度学习的实用层面

假设：g(z) = z; b[l] = 0.

y = w^[L]w^[L-1]w^[L-2] ... w^[2]w^[1]x

改善深层神经网络（一）深度学习的实用层面

（2）解决方案：权重初始化

由 z = w₁x₁ + w₂x₂ + ... + w_nx_n

随着 n 的增大，期望的 w^[l] 越小，由此设置 Var(w^[l]) = 1/n 或者 2/n（效果更好），即：

w^[l] = np.random.randn(shape) * np.sqrt(2/n^[l-1])

3、梯度检验：

（1）梯度的数值逼近：

改善深层神经网络（一）深度学习的实用层面

双边误差公式更准确，可以用来判断 g(θ) 是否实现了函数 f 的偏导.

（2）神经网络的梯度检验：

① 将 W^[1]，b^[1]，...，W^[L]，b^[L] 从矩阵转为一个向量 θ；

② 将 dW^[1]，db^[1]，...，dW^[L]，db^[L] 从矩阵转为一个向量 dθ；

③ J = J(θ₁, θ₂, ..., θ_i, ...)

for each i ：

dθ_approx^[i] = (J(θ₁, θ₂, ..., θ_i+ ε, ...) - J(θ₁, θ₂, ..., θ_i- ε, ...)) / （2 * ε）

check dθ_approx^[i] ≈ dθ^[i] by calculate || dθ_approx^[i] - dθ^[i] ||₂ / (|| dθ_approx^[i] ||₂ + || dθ^[i] ||₂) < 10^-7（或其他误差阈值）

（3）梯度检验注意点：

① 检测完关闭梯度检验；

② 检查是否完成了正则化；

③ 不适用于dropout；

④ 检查是否进行了随机初始化.

机器学习深度学习神经网络正则化

PeterHuang0

0 关注 0 粉丝 0 动态

关注关注

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

自动驾驶汽车深度学习如何应对挑战?

在自动驾驶汽车中使用深度学习可以帮助克服各种挑战，例如了解行人的行为，找到最短的路线以及对人和物体进行准确检测。根据一份报告，2018年约有80%的道路交通事故是由于人为错误造成的。因此，将自动驾驶汽车纳入主流的主要目标之一是消除对人类驾驶员的需求并减少道

86377811 2020-11-06

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

反过头来看，这些方法可能作用并不是很大，却消耗了大量的时间和金钱。如果你想成为数据科学家、机器学习或者 AI 专家，而又苦于找不到合适的学习方法，本文将提供一组思路清晰、简单易懂的人工智能专家路线图。这是一家德国软件公司 AMAI GmbH 近期发布的 G

Niteowl 2020-11-05

DJL 如何正确打开 [ 深度学习 ]

本文转载自微信公众号「小明菜市场」，作者小明菜市场。很长时间，Java都是一个相当受欢迎的企业编程语言，其框架丰富，生态完善。为了减少Java开发者学习深度学习的成本，AWS构建了一个Deep Java Library，一个为Java开发者定制的开源深度

ohbxiaoxin 2020-11-04

揭开AI、机器学习和深度学习的神秘面纱

深度学习、机器学习、人工智能——这些流行词皆代表了分析学的未来。在这篇文章中，我们将通过一些真实世界的案例来解释什么是机器学习和深度学习。这样做的目的不是要把你变成一个数据科学家，而是让你更好地理解你可以用机器学习做什么。开发人员能越来越容易地使用机器学习

bigquant 2020-11-03

用 Java 训练深度学习模型，原来可以这么简单！

HelloGitHub 推出的《讲解开源项目》系列。这一期是由亚马逊工程师：Keerthan Vasist，为我们讲解 DJL系列的第 4 篇。很长时间以来，Java 都是一个很受企业欢迎的编程语言。得益于丰富的生态以及完善维护的包和框架，Java 拥有着

PandaJiong 2020-11-02

面向深度学习的五大神经网络模型及其应用

深度学习是机器学习的重要组成部分，深度学习算法基于神经网络。有几种功能不同的神经网络架构，最适合特定的应用场景。本文介绍一些最知名的架构，尤其是深度学习方面的架构。MLP使用一种称为反向传播的监督式学习技术进行训练。反向传播有助于调整神经元权重，以获得更接

fengzhimohan 2020-11-02

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 2020-11-06

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

安科网

改善深层神经网络（一）深度学习的实用层面

PeterHuang0

PeterHuang0

相关推荐

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

选择困难终结者：不同问题之下的机器学习算法

数据科学面试中应了解的十种机器学习概念

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

PeterHuang0