NanoNets：如何在数据有限的情况下利用深度学习？

liluying

2017-02-17

作者：Sarthak Jain

参与：朱朝阳，赵华龙，微胖，晏奇

我认为AI类似于建造一艘火箭船。你需要一个巨大的发动机和大量的燃料。如果你有一个大型发动机却只有很少的燃料，火箭船就无法进入正确轨道。或者，如果你有一个小型发动机和一吨的燃料，你甚至不能让火箭船起飞。要建造一艘火箭，你需要一个巨大的发动机和大量的燃料。

与深度学习做一个类比，也就是说火箭发动机是深度学习模型，燃料就是我们让这些算法学习的大量数据 -——吴恩达（Andrew Ng）

最近深度学习技术越发流行与普及，在诸如语言翻译，玩策略游戏和自动驾驶汽车等需要数百万个数据点的任务中达到了令人惊叹的水平。使用深度学习来解决问题的一个常见障碍是训练模型所需的数据量。对数据量有这么大的需求是因为机器需要学习模型中存在的大量参数。

以下是这些模型中一些参数数量的例子：

NanoNets：如何在数据有限的情况下利用深度学习？

神经网络又名深度学习，是堆叠在一起的层级结构（想象一下乐高）

深度学习只不过是大型神经网络，它们可以被认为是一个流程图，其中学习数据被输入，形成的推理/知识从另一方输出。你也可以打破神经网络，把它分开，并从任何你喜欢的地方得出推理。这可能没有什么意义，即便如此，但你可以做，例如 Google DeepDream 。

NanoNets：如何在数据有限的情况下利用深度学习？

模型规模正比于数据规模，数据规模正比于问题复杂度

有趣的是，在所需的数据量和模型的大小之间存在几乎线性的关系。基本原因是，你的模型应该足够大才能捕获你数据中潜在的关系（例如图像中的纹理和形状，文本中的语法和语音中的音素）以及问题的细节（例如类别的数量）。模型的前几层捕获输入信息中不同部分之间的高层关系（如边缘和模式）。后面的层级捕获有助于做出最终决定的信息;这些信息通常是有助于模型在理想输出中做出区分。因此，如果问题的复杂度较高（如图像分类），那么参数的数量和所需的数据量也会非常大。

NanoNets：如何在数据有限的情况下利用深度学习？

迁移学习来救场！

当处理与你领域特定相关的问题时，通常不可能找到构建此大小的模型所需的数据量。然而，在一个任务上训练的捕获数据类型中的模型（然而，在一个任务上被训练的已经掌握了数据中关系的模型），可以很容易地被再次用于同一领域中的不同问题。这种技术被称作迁移学习（ Transfer Learning）。

NanoNets：如何在数据有限的情况下利用深度学习？

迁徙学习就像没有人想要保留的最好的秘密。行业内的每个人都知道，但门外汉都不知道。

NanoNets：如何在数据有限的情况下利用深度学习？

参考深度学习的主要论文 Awesome - Most Cited Deep Learning Papers

超过50％的论文使用了某种形式的迁移学习或预训练。迁移学习变得越来越适用于有限资源（数据和计算）的人，但不幸的是，这种技术并没有足够社会化，就像它应该的那样。最需要它的人却至今还不知道它。

如果深度学习是圣杯，数据是锁住圣杯的大门，那么迁移学习就是钥匙。

通过迁移学习，我们可以采用预训练模型，该训练模型是在大量现成的数据集上训练的（在完全不同的任务上训练，它们具有相同的输入但是输出不同）。然后尝试找到输出可重复使用特征的层。我们使用该层的输出作为输入特征来训练需要较少参数的更小的网络。在已经学习到预训练模型中那些数据的模式后，这个较小的网络只需要学习对于你所需要的特定问题的关系即可。通过这种方式训练的检测猫的模型，可以重现梵高风格的画作。

NanoNets：如何在数据有限的情况下利用深度学习？

使用迁徙学习的另一个主要优点是模型泛化得很好。较大的模型往往过度拟合（对数据的建模过度概括了数据表达的潜在现象本身）数据，并且当在未遭遇过的数据上测试时，也并不会表现很好。由于迁移学习允许模型接受不同类型的数据，其学习对于世界的基础规则的能力更好。

试着把过拟合看作记忆而不是学习。- James Faghmous

由于迁移学习，数据也减少了

让我们假设你想结束蓝黑与白金连衣裙的辩论。你开始收集已经被经验验证证的蓝黑色礼服和白金色礼服的图片。要建立一个像上面提到的准确的模型（有1.4亿参数!!），为训练这个模型，你将需要找到120万张图像，这是一个不可能的任务。所以你会尝试一下迁移学习。

计算使用迁移学习训练此问题所需的参数数量：

参数数量=（（输入规模）+1）*（（输出规模）+1）=（2048+1）*（1+1）≈4098个参数

我们看到参数数量从1.4*10^8减少到4*10^3，这是5个数量级 !! 所以收集少于一百个图像的衣服应该不是难事!

如果你不耐烦，不能等到找到衣服的实际颜色，那就向下滚动到底部，看看如何自己建立衣服的模型。

手把手教你学迁移学习——用简单例子进行情绪分析

在这个简单示例中我们有72篇电影评论

62个没有赋予情绪，这些会被用来预训练模型
8个被赋予了情绪，这些被用来训练模型
2个被赋予了情绪，这些被用来测试模型

由于我们只有8个已标注的句子（这些句子都包含感情）我们首先预训练模型来预测上下文。如果我们仅在8个句子上训练模型，它会有50%的准确率（50%和掷硬币来预测时一样好的）。

为了解决这个问题，我们会使用迁移学习，首先用62个句子来训练模型。然后我们使用第一个模型的一部分并训练其上的情绪分类器。训练8个句子并测试剩余的2个句子会产生100%的准确率。

第一步

NanoNets：如何在数据有限的情况下利用深度学习？

我们会训练一个神经网络以使它能建模词与词之间的关系。我们处理一个在句子中见到的词，并预测那些出现在同一个句子里的词。在下面的代码中，嵌入一个大小为词汇量X嵌入尺寸的矩阵，嵌入尺寸（embedding_size）指的是单个词的向量表示（Vector Representation）（在这里我们用4作为尺寸）。

NanoNets：如何在数据有限的情况下利用深度学习？

第二步

NanoNets：如何在数据有限的情况下利用深度学习？

我们将训练该图使得在类似上下文中出现的词应该获得相似的向量表示。我们将通过删除停止词并将其标记化来预处理这些句子。我们每次传递一个单词，并尝试最小化其自身的向量与周围单词的向量距离，并增加与不在其上下文中的几个随机单词的距离。

NanoNets：如何在数据有限的情况下利用深度学习？

第三步

NanoNets：如何在数据有限的情况下利用深度学习？

现在我们将尝试预测句子的情绪。我们有10（8训练+2测试）句子标记为正和负。由于先前的模型已经有学过所有单词的向量，而向量具有数字化表示文字上下文的属性，这将使预测情绪更容易。

我们并不直接使用句子，我们将句子的向量设置为其所有字的平均值（在实际任务中，我们其实将使用类似LSTM神经网络的东西，译者注：LSTM：Long Short-Term Memory）。句子向量将作为输入被传递，输出将为正或负的得分。在它们之间我们将使用一个隐藏层，然后在我们已标记的句子上训练模型。正如你所看到的，只有10个例子，用这个模型我们已经实现了100％的测试精度。

NanoNets：如何在数据有限的情况下利用深度学习？

虽然这是一个简单示例，我们可以看到，通过使用迁移学习，获得了非常显著的精度提高，从50％ - > 100%。要查看整个示例和代码，请点击这里：

https://gist.github.com/prats226/9fffe8ba08e378e3d027610921c51a78

实现迁移学习的难点

即使构建模型需要较少的数据，它需要更多的专业知识来使其工作。如果你看上面的例子，仅仅算算硬编码参数的数量，想象一下需要在模型能工作之前不得不摆弄搞定它们（就知道这事有多麻烦了）。这使得转移学习的实际使用很困难。

一些迁移学习的麻烦事列在下面：

找到一个很大的数据集进行预训练
决定采用哪种模型进行预训练
很难调试出两个模型中的哪个没有正常工作
不知道还需要有多少数据才能把这个模型训练好
很难决定到哪里需要停止使用预训练模型
决定预训练模型之上的模型里需要用多少层和多少参数
如何承载混合模型
当有更多的数据或更好的技术时，如何更新预训练模型

找到一个数据科学家很难。找到能明白什么是数据科学家的人一样难。——Krzysztof Zawadzki

NanoNet使得迁移学习更容易

在亲身经历了这些问题后，我们开始通过构建一个易于使用的基于云的深度学习服务来解决这些问题，其中的算法采用迁移学习。它包含一组已经在数百万个参数上训练过的预训练模型。您上传自己的数据（或搜索互联网数据），它选择最佳模型用于您的任务，在现有预训练模型之上创建一个新的NanoNet，使得NanoNet适应您的数据。

NanoNets：如何在数据有限的情况下利用深度学习？

创建你的第一个NanoNet（图像分类）

1. 选择你想做的类别

NanoNets：如何在数据有限的情况下利用深度学习？

2. 一键搜索互联网并建立模型

NanoNets：如何在数据有限的情况下利用深度学习？

3. 解答蓝裙vs金裙的谜题（一旦模型建好，我们会提供给你一个易用的互联网接口来上传测试图片和一个与语言无关的(language agnostic)API）

NanoNets：如何在数据有限的情况下利用深度学习？

机器学习深度学习大数据

liluying

0 关注 0 粉丝 0 动态

相关推荐

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 15评论 2020-11-09

自动驾驶汽车深度学习如何应对挑战?

在自动驾驶汽车中使用深度学习可以帮助克服各种挑战，例如了解行人的行为，找到最短的路线以及对人和物体进行准确检测。根据一份报告，2018年约有80%的道路交通事故是由于人为错误造成的。因此，将自动驾驶汽车纳入主流的主要目标之一是消除对人类驾驶员的需求并减少道

86377811 2020-11-06

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

反过头来看，这些方法可能作用并不是很大，却消耗了大量的时间和金钱。如果你想成为数据科学家、机器学习或者 AI 专家，而又苦于找不到合适的学习方法，本文将提供一组思路清晰、简单易懂的人工智能专家路线图。这是一家德国软件公司 AMAI GmbH 近期发布的 G

Niteowl 2020-11-05

DJL 如何正确打开 [ 深度学习 ]

本文转载自微信公众号「小明菜市场」，作者小明菜市场。很长时间，Java都是一个相当受欢迎的企业编程语言，其框架丰富，生态完善。为了减少Java开发者学习深度学习的成本，AWS构建了一个Deep Java Library，一个为Java开发者定制的开源深度

ohbxiaoxin 2020-11-04

揭开AI、机器学习和深度学习的神秘面纱

深度学习、机器学习、人工智能——这些流行词皆代表了分析学的未来。在这篇文章中，我们将通过一些真实世界的案例来解释什么是机器学习和深度学习。这样做的目的不是要把你变成一个数据科学家，而是让你更好地理解你可以用机器学习做什么。开发人员能越来越容易地使用机器学习

bigquant 11评论 2020-11-03

用 Java 训练深度学习模型，原来可以这么简单！

HelloGitHub 推出的《讲解开源项目》系列。这一期是由亚马逊工程师：Keerthan Vasist，为我们讲解 DJL系列的第 4 篇。很长时间以来，Java 都是一个很受企业欢迎的编程语言。得益于丰富的生态以及完善维护的包和框架，Java 拥有着

PandaJiong 13评论 2020-11-02

面向深度学习的五大神经网络模型及其应用

深度学习是机器学习的重要组成部分，深度学习算法基于神经网络。有几种功能不同的神经网络架构，最适合特定的应用场景。本文介绍一些最知名的架构，尤其是深度学习方面的架构。MLP使用一种称为反向传播的监督式学习技术进行训练。反向传播有助于调整神经元权重，以获得更接

fengzhimohan 14评论 2020-11-02

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 12评论 2020-11-08

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 14评论 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 14评论 2020-10-30

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 8评论 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

liluying

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号