是什么让深度学习能够深入世界并改变世界？

mpkno

2017-05-03

还记得孩提时代，你是如何开始学习辨认水果、动物、汽车以及其他事物的吗?

多年来，我们的大脑接受训练，识别这些图像，然后将它们进一步划分为苹果、桔子、香蕉、猫、狗和马。除了学习辨认食物和动物，我们还学习了品牌和它们的区别：丰田、本田、宝马等等。

受人类大脑的生物学习过程的启发，科学家们研究出了人工神经网络(ANN)。“深度学习”指的是由许多层网络层组成的人工神经网络。它是机器学习中发展最快的领域。它使用包括多层网络层的深层神经网络(DNN)来学习表征和抽象，从而理解图像、声音和文本等数据。

那么深度神经网络到底深到什么程度呢?

为什么深度学习被称为“深度”学习?这是因为这些ANN网络的结构。几十年前，神经网络的深度只有两层，这是因为计算能力不足，无法构建更大的网络。而现在，10层以上或者100层以上的神经网络都是存在的。

在深度学习中使用多层网络层，机器现在有能力去观察、学习和应对复杂的情况，有时甚至比人类做的更好。

通常情况下，数据科学家会花大量的时间在数据的准备过程上，特征提取或变量选择(选择对预测分析有用的变量)。深度学习能自动完成这项工作，让生活更轻松。

为了促进深度学习的发展，许多科技公司开放了他们的深度学习研究资源，比如谷歌的Tensorflow和Facebook的开源模块Torch。亚马逊在GitHub上发布了DSSTNE，而微软也在GitHub上发布了其开源深度学习工具包CNTK。

因此，今天我们看到了很多关于深度学习的例子，包括：

谷歌翻译使用深度学习和图像识别来翻译语音和书面语言

CamFind使用移动视觉搜索技术来告诉你图片中的内容，你只需拍下物体的图片，无需打字，CamFind提供了快速、准确的结果。

目前，Siri、Cortana、Alexa和Google等所有的智能语音助手都在使用深度学习来进行自然语言处理和语音识别。

亚马逊、Netflix和Spotify在他们的推荐引擎中也使用了深度学习，机器为你推荐为下一部最佳影片、电影或音乐。

谷歌 PlaNet 可以查看照片，并告诉用户照片拍摄的地点。

DCGAN 用于增强和补充人脸图像。

DeepStereo：将街景拍摄的静态图像转换为3D空间，通过计算每个像素的深度和颜色，可以从不同的角度显示出不同的视角。

DeepMind的 WaveNet 能够模仿人类声音来生成语音，且生成的语音比现有的文本语音转换系统更自然。