如何在计算机上配置数据科学开发环境
大数据文摘出品
编译:李佳、Don FJ、汤圆、云舟
从Python、R等编程语言到以Git为例的版本控制系统甚至Unix Shell等命令行工具,数据科学家的武器库现在越来越丰富了,在个人计算机上同时使用这些武器可能会对新入门的数据科学家们造成不小的困扰,本文就将带你学习这些数据科学武器的配置方法。
在Datacamp这样的在线交互培训和教育平台上学习之后,下一步要做的就是使用自己的计算机应用Python,R,Git,或者Unix Shell中的技巧。然而,怎样准确地知道不同的项目需要什么样的准备工作呢?本教程就将帮助你了解需要安装哪些插件和软件,它包括:
- Anaconda Python的优势及其在操作系统中的安装。
- 同时使用R和RStudio的好处及其在操作系统中的安装。
- Unix Shell的优势及其使用方法。
- Git的优势及其在操作系统中的安装。
接下来,让我们开始学习吧!
Python
为了使用Python,首先你需要在电脑中安装它。网络上有许多不同版本的python,但是对于数据科学来说,Anaconda Python发行版是使用最广泛的。
Anaconda的优点
Anaconda是一个包管理器,也是一个环境管理器,更是一个包含许多开放源码包的集合的Python发行版。Anaconda的安装附带了许多软件包,如numpy、scikit-learning、scipy以及pandas,这也是安装Jupyter Notebooks的推荐方法。
Jupyter Notebooks
http://jupyter.org/install.html
下图显示了一个正在运行的Jupyter Notebooks。Jupyter Notebooks既包含代码,也包含丰富的文本元素,如图表、链接和方程式。
更多Jupyter Notebooks知识:
https://www.datacamp.com/community/tutorials/tutorial-jupyter-notebook
使用Anaconda的一些其他好处:
- 如果安装Anaconda后需要额外的软件包,可以使用Anaconda的软件包管理器conda或pip。这是非常便捷的,因为你不必自己管理多个包之间的依赖关系。Conda甚至可以轻松地在Python 2和3之间切换。
- Anaconda附带了Python的集成开发环境Spyder。集成开发环境(Integrated Development Environment)是一种编码工具,它允许你编写、测试和调试代码,因为它们通常提供代码补全、代码高亮、资源管理和调试工具以及许多其他功能。还可以将Anaconda与其他Python集成开发环境集成在一起,包括PyCharm和Atom。
- 更多关于Python集成开发环境的信息https://www.datacamp.com/community/tutorials/data-science-python-ide
如何安装Anaconda(Python)
下面的链接将教你在操作系统上安装Anaconda。
在Mac上安装:
https://www.datacamp.com/community/tutorials/installing-anaconda-mac-os-x
在Windows上安装:
https://medium.com/@GalarnykMichael/install-python-on-windows-anaconda-c63c7c3d1444
R语言
大多数使用R编程语言的人也安装了RStudio。RStudio集成开发环境(IDE)通常被认为是使用R 语言最简单、最高效的方法。
RStudio的优点
安装R语言后,你就可以使用R语言提供的功能和项目啦,还可以在R解释器中构建和运行命令。RStudio可提供一个完整的,与R解释器完美融合的开发环境。
打开RStudio时,屏幕如上图所示。四个窗格分别是:(a)一个文本编辑器。(b)一个开发环境的控制面板。(c)R解释器。(d)帮助窗口和包管理系统。这些特性使得它能够成为在你安装R语言之后真正需要的RStudio。新手们经常问的一个问题是如何在R中安装软件包。下面的视频演示了使用RStudio的包管理器安装tidyverse的一个方法。
你可以在Datacamp的两个课程系列中了解更多RStudio的特性。
学习使用RStudio集成开发环境:
第1部分:
https://www.datacamp.com/courses/working-with-the-rstudio-ide-part-1
第2部分:
https://www.datacamp.com/courses/working-with-the-rstudio-ide-part-2
如何安装R和RStudio
下面是介绍如何在操作系统上安装R和RStudio的一些链接。
在Mac中安装R和RStudio:
https://medium.com/@GalarnykMichael/install-r-and-rstudio-on-mac-e911606ce4f4
在Windows中安装R和RStudio:
https://medium.com/@GalarnykMichael/install-r-and-rstudio-on-windows-5f503f708027
Unix Shell
导航目录、复制文件、使用虚拟机等都是数据科学家工作的日常。Unix Shell常被用于完成这些任务。
Unix Shell的一些用法
许多云计算平台都是基于Linux的(利用Unix Shell的特性)。例如,如果您想在Google Cloud上建立一个数据科学环境,或者在使用Jupyter Notebooks进行深度学习,都需要一些Unix Shell知识。有时可能也会需要Windows虚拟机,但它并不常用。
Windows虚拟机:
https://www.datacamp.com/community/tutorials/aws-ec2-beginner-tutorial
Unix Shell里面有很多有用的指令,比如 wc 指令能够计算文件中的字数和行数、cat指令能够拼接文件、head和tail指令能够把一个大文件分割成许多小文件等等。
在数据分析中八个最有用的Shell指令:https://www.datacamp.com/community/tutorials/shell-commands-data-scientist
Unix Shell是个有用的工具,在实践中你能经常发现Unix Shell与其他的语言和技术结合使用,在本文中也有很多这样的例子。
你会经常看到Unix Shell和其他的技术结合使用的情况。比如,在Jupyter文档里,你会经常遇到Shell命令行+Phthon代码的组合。在Jupyter文档里如果你想调用Shell命令的话,输入!然后接着写shell语句即可实现相应命令的调用。在下面的代码里,shell命令ls (这个命令可以列出当前路径下的所有文件)被赋给了python变量myfiles。
myfiles = !ls
下面这张图里的Python代码能够将多个数据集合并到一起。注意在这个Jupyter文档中红框里的部分,它就是一个Unix Shell命令。
请注意,上图中的例子并不是什么特殊用法,我们只是通过它来告诉大家Unix Shell是怎么用的。如果大家意犹未尽还想多学一点Unix和数据科学相关的技术的话,我们强烈推荐Datacamp上的入门课程《Introduction to Shell for Data Science》 ,免费的哦。课程中会教授很多大牛数据科学家都不知道的神奇秘技,在实际工作中还是很有用的,值得一看。
课程链接:
https://www.datacamp.com/courses/introduction-to-shell-for-data-science
Mac系统中Unix Shell使用
Mac本来就是基于Unix开发的,所以生来就自带Unix Shell功能。但是Unix系统的衍生版本太多了,系统和系统之间的Unix Shell指令就会稍有差别。有时候你会发现换了个电脑或者换了个系统之后,很多你熟用的指令就用不了了,比如说wget。为了解决这个问题,Mac上面有人做了一个Homebrew软件来对其进行管理,就像R语言的包用RStudio管理、Python的包用Anaconda进行管理一样方便。
如何安装和使用Homebrew:
https://www.datacamp.com/community/tutorials/homebrew-install-use
Windows系统中的Unix Shell
Windows本身没有Unix Shell功能,但还是能够通过安装一些软件来在Windows中使用Unix Shell。Git on Windows上就有一些可选的Unix工具,安装了之后就能在cmd里愉快的使用Unix Shell了。除此之外,Gnu on Windows和Cygwin(最小100mb)都可以让Windows上运行Unix Shell。
Gnu on Windows
https://github.com/bmatzelle/gow
Git on Windows
https://hackernoon.com/install-git-on-Windows-9acf2a1944f0
Git
Git是目前最流行的版本控制系统,在各种公司和项目中使用极其频繁。Git能够记录用户对项目的任何修改,所以用户能够回滚项目到之前的任意版本。Git能够帮你更好的进行团队项目的开发,在很多工作场景都能发现Git的身影。学习Git的好处包括:
- 记性好:只要是Git管理起来的工程就不会丢,什么时候想看看以前的样子都妥妥的
- 冲突避免:团队合作中,如果你的修改和别人的修改有冲突的话,Git会提示你,而不是无脑覆盖,这样就能够尽量避免合作场景中由于修改冲突而导致的工程覆盖问题
- 同步妥:Git跨平台能力很好,在什么系统上都能用Git管理项目,所以在一个跨平台多人合作的团队项目中用着特顺手
- 开源轻松:Git能让R和Python开源包的开发更容易
和其他技术的集成
Git和其他技术也经常能混搭使用。之前咱们说过RStudio IDE(回顾一下看这里https://support.rstudio.com/hc/en-us/articles/200532077-Version-Control-with-Git-and-SVN),它大概是目前最好用的R语言编程环境,在RStudio里面就有版本控制的功能,而且大多数的Python IDE里也都有版本控制功能。你以为他们会下老本自己开发一个版本控制软件?别傻啦,它们就是把Git集成起来而已,简单粗暴又有效。
RStudio IDE
https://support.rstudio.com/hc/en-us/articles/200532077-Version-Control-with-Git-and-SVN
如果你想学更多的Git在数据科学中的使用方法和技术的话,我们推荐您去看DataCamp上的课程 《Introduction to Git for Data Science》,还是免费的哦。
Introduction to Git for Data Science
https://www.datacamp.com/courses/introduction-to-git-for-data-science
安装Git
下面的链接教你怎么安装Git,有Mac和Windows版本:
在苹果系统上安装Git
https://hackernoon.com/install-git-on-mac-a884f0c9d32c
Install Git on Windows
在Windows系统上安装Git:
https://medium.com/m/global-identity?redirectUrl=https://hackernoon.com/install-git-on-Windows-9acf2a1944f0
这作者怎么也不提供个Linux的,看不起我们嘛!烫烫烫烫烫,难过让我溢出,所以为什么是VS的溢出,算了算了……
总结
本教程主要讲了怎么在自己的计算机中搭建数据科学环境。值得注意的是,文中的技术通常是搭配出现的。如果对这个教程有任何问题的话,可以在作者的Twitter中留言询问。当然了,也欢迎随时查看作者的Github或者Medium博客来查看其他的安装教程。
作者的Twitter
https://twitter.com/GalarnykMichael
作者的Github
https://github.com/mGalarnyk/Installations_Mac_Ubuntu_Windows
Medium博客
https://medium.com/@GalarnykMichael
相关报道:
https://www.datacamp.com/community/tutorials/setup-data-science-environment