0x05 Python数据分析,Anaconda八斩刀
摘要:武侠,是成人的童话。江湖,是门派的斗争。数据科学已经开山立派,Python便是其中独领风搔的兵器。如果数据科学是IT武侠中的咏春,那么Anaconda便是数据科学中的八斩刀。做数据分析,Anaconda,你值得拥有。
武侠,是成人的童话。江湖,是门派的斗争。要想在江湖中闯出名堂,那么称手的兵器很有必要。数据科学已经开山立派,Python便是其中独领风搔的兵器。
Python已经成为数据分析领域事实上的标准了,详情参见文章《0x01 念念Python,必有回响》。如果你的目标是成为一个数据科学家或者数据工程师,那么配置好自己的Python环境尤为重要。
Anaconda是一个第三方的Python集成环境,主要用于科学计算领域。而我通常会把它当成一个数据分析的专用环境,主要是因为省事。官方网站为:www.continuum.io,在官网上的介绍中,可以看出,他集成300多个python包,基本上在数据分析领域的所有包都包含了,当然会包括最常用的数据分析包:Ipython, Numpy, Scipy, Pandas, Scikit-learn, Matplotlib等。
Python的包管理器有pip和easy_install,本来是很方便的。相信你也会在Mac,Ubuntu,Centos下自己安装过常用的如Numpy, Scipy,Scikit-learn的情况下,但通常不会那么顺利,在各种情况下,会有相应的版本依赖问题。也许你还会尝试homebrew,apt-get或者yum等工具来安装,但安装的包和pip安装的还是会有些区别,这某些情况下,你会在程序中遇到问题。
在偶然的机会下,发现了Anaconda这个集成环境,于是往后的所有环境,我都是直接用它来替换了官方的Python版本。做数据分析和挖掘,我们应该把精力放到有限且有效的事情上,而不是去折腾各种环境导致的问题。我们需要的是打开Ipython,import你需要的包,开始分析。
做数据分析,Anaconda,你值得拥有。目前支持python2.x系列和3.x系列,同时支持Mac,Linux, Windows系统,而且有32位和64位对应的包。你需要的是下载它的不到300M的压缩包,使用一个shell命令即可解压安装。
通常选择安装到/opt/anaconda目录后,将路径添加到PATH环境变量里的最前面,或者你也可以建立符号链接到/usr/bin/python和/usr/bin/pip,这样以后使用就不会再有问题了。修改/opt/anaconda目录的属主为自己的用户,以后pip安装的包,依然会在这个环境下。另外,Anaconda本身还提供了conda包管理器来安装或升级相应的包。
把自己常用的Python环境归档,这样还有一个好处,你可以随时移植到相应的系统上。比如,做深度学习的时候,需要强大的显卡和大内存支持的机器,刚好有一个目标环境,上面有Nvidia tesla k20的显卡环境,内存128G,但唯一的缺点是无法上外网,你要在上面重新搭建Python的运行环境是很困难的。此时,把你在相应系统,比如Linux上的/opt/anaconda环境,直接打包,拷贝到目标机器,解压就可以调用你所有的依赖库了。
最后,Aanconda是免费和开源的,不用担心版权和费用问题,可以用于商业用途。你甚至可以基于它进行二次开发和发行你自己的版本。
八斩刀是咏春中最厉害的兵器,Python是一条大蟒蛇,Anaconda翻译为水蟒。如果数据科学是IT武侠中的咏春,那么Anaconda便是数据科学中的八斩刀。
一件好的兵器能加快你的练功的进度,但最后能修炼到出神入化的功夫,除了刻苦训练,那还得管住我们的心。《师父》中陈识说,每日挥刀500下,这个数字管住了我。如果我们能坚持做到每天写50行Python代码,那么这个数字应该能管住我们。