终结重复工作！教你30分钟创建自己的深度学习机器

lizhengjava

2020-05-27

重复的工作总是很让人恼火。

就像每当开启一个新的项目，我都得一遍遍地创建新的深度学习机器。先是安装Anaconda，再为Python和Tensorflow配置不同环境以防互相干扰。进行到一半时，会不可避免地陷入一团糟，然后又重新开始，检查所有StackOverflow线程，也不知道哪儿出了错。这种情况常常发生。

再被折磨很多次后，我开始思考，有没有更加高效的方法呢？

功夫不负有心人。我终于找到了在EC2上建立一个深度学习服务器最简单的方法。只要30分钟搞定重复工作，你就能把时间留出来去做更重要的事情啦。

建立AmazonEC2机器

首先你得有一个AWS账号，并可以登录AWSConsole。若没有，则需要首先申请一个AmazonAWS账户。

第一步，转到Services选项卡访问EC2仪表盘。

第二步，在EC2仪表盘上，开始创建自己的实例。

第三步，Amazon为CommunityAMIs(Amazon Machine Image)提供预装深度学习软件。要访问这些AMI，需要先访问community AMI并在搜索标签中搜索“Ubuntu版本深度学习”。

其他Linux操作系统也可以，但我认为Ubuntu版本最符合进行深度学习的需求。这个步骤里会用到深度学习AMI(Ubuntu 18.04)，版本为27.0。

紧接着，一旦选定了一款AMI，接下来就是选择实例的类型啦。这时要明确系统中所需的CPU、存储器及GPU的数量。Amazon提供基于个人需求的多种选择。可以用“Filter by”过滤器来筛选GPU 实例。

本文使用的是p2.xlaege实例，p2.xlaege实例为 NVIDIAK80 GPU提供了2496个并行处理内核及12GiB的GPU内存。

第五步，可以在第四步更改附加到机器上的存储器，如果不预先添加存储器的话也可以稍后再操作。绝大多数的深度学习都要求适当的存储器容量，于是我把存储器容量从90GB扩到500GB。

第六步，完成以上步骤就可以进入实例设置的最终页面并启动instance。一旦点Launch，就会看到这样一个页面。在Key pairname中写入密钥名，然后点击“Downloadkey pair”。密钥会按提供的名称下载到电脑上。设置的名称是“aws_key.pem”。完成之后，可以点击“LaunchInstances”。

每次登录自己的实例都会要求输入密钥对，所以务必保证密钥对的安全性。

好啦，现在可以单击下一页的“Viewinstances”来查看你的实例。这就是创建的实例：

如果想要连接实例，只需打开本地计算机的终端窗口，并浏览保存密钥对文件的文件夹，然后修改一些权限。

chmod 400 aws_key.pem

操作之后，就可以通过SSHing连接到instance。SSH 指令的形式如下：

ssh -i "aws_key.pem"ubuntu@<Your PublicDNS(IPv4)>

指令是这样的：

ssh -i "aws_key.pem"ubuntu@ec2-54-202-223-197.us-west-2.compute.amazonaws.com

还要记住一点，如果关闭了实例，Public DNS可能会改变。

这时机器已经准备好了。这台机器里包含了不同的环境，拥有各种可能所需的库。这台特别的机器还有拥有各种不同版本python的MXNet、Tensorflow和 Pytorch。这些已都预装好，可以立即开始运作了。

创建JupyterNotebook

如果想要充分发挥设备的性能，还有几样东西必不可少。其中一项就是JupyterNotebooks。我推荐使用TMUX和tunneling在机器上创建Jupyter Notebooks。

使用TMUX来运行Jupyter Notebook

首先使用TMUX在实例上运行Jupyter notebook。主要采用TMUX是因为即使终端连接丢失，Jupyter Notebook仍可以运行。因此，我们需要使用以下代码来创建一个新的TMUX会话：

tmux new -s StreamSession

完成后，你将会看到新的界面，底部有一个绿色的边框。接下来可以使用常规Jupyternotebook指令来创建自己的Jupyter Notebook。如下图：

复制登录的URL很有帮助，这样之后登录Jupyter Notebook时能够得到一个令牌。令牌是这样的：http://localhost:8888/?token=
5ccd01f60971d9fc97fd79f64a5bb4ce79f4d96823ab7872

下一步是分离TMUX 会话，这样一来即使关闭SSH shell也可以继续在后台运行。只需按下Ctrl+B，然后D(按D时不要按Ctrl )就会返回到初始界面，你就会看到消息：已经断开当前会话。

如果有需要，也可以使用下面的代码来再次重连会话：

tmux attach -t StreamSession

2.SSH 隧道访问本地浏览器上的Jupyter notebook

第二步是进入Amazon instance，在本地浏览器上获取Jupyter Notebook。可以看到，实际上JupyterNotebook正在云实例的本地主机上运行。那么我们该如何进行访问呢？SSH 隧道。相当于是直接地在填空。只需在本地机器终端窗口上使用以下指令：

ssh -i "aws_key.pem" -L<Local Machine Port>:localhost:8888 ubuntu@<Your PublicDNS(IPv4)>

这种情况使用的是：

ssh -i "aws_key.pem" -L8001:localhost:8888 ubuntu@ec2-54-202-223-197.us-west-2.compute.amazonaws.com

意味着如果我在本地机器浏览器上打开本地主机：8001，就一定能使用JupyterNotebook。现在输入之前步骤中保存的令牌来访问notebook。令牌是
5ccd01f60971d9fc97fd79f64a5bb4ce79f4d96823ab7872

用自己的令牌登录，这下子就完全拥有自己的notebook啦！

现在选择任一想要的环境就可以着手进行新的项目了。可以是Tensorflow或Pytorch，或是两者一起的最佳版本。这个notebook可不会让你失望的。

调试

一旦机器重新启动，可能会面临一些NVIDIA显卡上的问题。我就碰到了nvidia-smi指令停止工作的情况。如果遇到这个问题，可以通过从NVIDIA网站下载图形驱动程序来解决。

以上是我选择的特定AMI的设置。点击搜索，就能看到下一页：

只需右键单击并复制链接地址即可复制下载链接。然后在机器上运行以下指令。你可能需要在这上面更改链接地址和文件名。

# When nvidia-smi doesnt work:wget https://www.nvidia.in/content/DriverDownload-March2009/confirmation.php?url=/tesla/410.129/NVIDIA-Linux-x86_64-410.129-diagnostic.run&lang=in&type=Teslasudo shNVIDIA-Linux-x86_64-410.129-diagnostic.run --no-drm --disable-nouveau --dkms--silent --install-libglvndmodinfo nvidia | head -7sudo modprobe nvidia

停止实例

好啦，你已经创建并开始运行深度学习机器了，可以想怎么使用就怎么使用。

有一点要注意，记住停止工作时要停止实例，以免不在实例上工作时还要向Amazon支付费用。此外，在这台机器上再次登陆时，需要从instance页面获取Public DNS（IPv4）以防更改。

深度学习存储器机器学习

安科网

终结重复工作！教你30分钟创建自己的深度学习机器

lizhengjava

建立AmazonEC2机器

创建JupyterNotebook

调试

停止实例

lizhengjava

相关推荐

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

如何在PyTorch和TensorFlow中训练图像分类模型

详解深度学习感知机原理

用Windows电脑训练深度学习模型？超详细配置教程来了

深度学习未来发展的三种学习范式：混合学习，成分学习和简化学习

深度学习之后会是啥？

深入了解目标检测深度学习算法的技术细节

理解卷积神经网络中的自注意力机制

分析深度学习背后的数学思想

Keras创始人：过去6个月，深度学习岗位已崩溃

TensorFlow Lattice：灵活、可控、可解释的机器学习

在30分钟内创建你的深度学习服务器

浅谈人工神经网络与BP算法

TensorFlow 2入门指南，初学者必备！

lizhengjava