Python数据分析开发环境及numpy矩阵操作
准备工作
下载并安装最新版本的Anaconda
下载并安装最新版本的Visual Studio Code
编辑器
Tips:
可以选择自己喜欢并且熟悉的编辑器或IDE。如:VIM、Emacs、Notepad++、Sublime、Pycharm等。
如果安装的是完整版本的Anaconda,会默认安装Spyder以及Jupyter Notebook。那么不想折腾编辑器的话,推荐使用这两款应用是足够的。
Visual Studio Code
推荐插件
- Python
可选插件
- vscode-icons
包管理器选择
Conda
Conda是目前比较常用的包管理工具,其大致功用于pip类似,这里使用Conda的原因,主要在于Conda除可以安装python的包外,还可以很方便的安装其他变成语言的包(如C++、C等)。这样的话,就可以很方便的解决有些数据分析的包依赖非python编写的程序包的问题。
为了能够直接在命令行中使用conda命令,这里将
Anaconda3\Scripts
目录添加到了环境变量中。
基本使用
创建虚拟环境:conda create -n <env_name> python=<python_version_num>
激活虚拟环境:activate <env_name>
安装程序包到指定虚拟环境:conda install -n <env_name> <pakcage_name>
关闭虚拟环境:deactivate
删除虚拟环境:conda remove <env_name> --all
删除虚拟环境中的某个包:conda remove --name <env_name> <package_name>
查看已安装包:conda list
查看已安装环境:conda env list
检查更新conda:conda update conda
更新所有程序包:conda update --all
常用包安装
安装好Anaconda后,可以使用Anaconda来管理包的安装。
如果是用于学习与研究,而不用与其他人协作或者能够有良好的约定的话,那么可以直接使用conda的默认的环境,这样就可以少安装很多包。
REM 基础包 conda install numpy conda install scipy conda install pandas conda install matplotlib REM ORM,用于连接数据库 conda install sqlalchemy
更改Conda的下载镜像
如果要使用的包并不包含在默认的conda环境中,又想加快下载速度与稳定性的话,可以添加国内的下载镜像。
在终端中执行以下命令:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --set show_channel_urls yes
参考:
PIP
因为某些原因使用Conda可能无法顺利安装一些包,那么可以使用PIP来进行安装。
REM 更新PIP python -m pip install --upgrade pip REM 中国股票数据获取 pip install tushare REM 导出当前环境所有依赖包信息 pip freeze > requirements.txt REM 根据导出的依赖包信息安装包 pip install -r requirements.txt -d <your_download_dir>
常用包推荐
数据获取&爬虫
- Tushare:提供便捷的国内股票行情数据的获取(自动爬取相关网站数据)
- requests:一款优秀的HTTP Request包,可以用于与HTML/XML解析的包结合起来制作爬虫工具。
- urllib:Python3的内置包,主要用于访问、解析指定URL。
- Beautiful Soup:一个可以从HTML或XML文件中提取数据的Python库。
数据整理
- Numpy:提供强大的矩阵操作,以及一些非常有用的计算工具(如:irr、npv等)
- Pandas:提供强大的数据框操作(类似R语言中的DataFrame)
- SciPy:提供强大的统计工具。
数据可视化
数据库操作
- sqlalchemy:数据库建议使用自己熟悉的或项目统一要求的,如:Oracle、MySQL、PostgreSQL、MSSQL、SQLite等。
sqlalchemy
包可以有效的连接各类常用的数据库,并处理各类操作。
Numpy
通过观察Python的自有数据类型,我们可以发现Python原生并不提供多维数组的操作,那么为了处理矩阵,就需要使用第三方提供的相关的包。
NumPy 是一个非常优秀的提供矩阵操作的包。NumPy的主要目标,就是提供多维数组,从而实现矩阵操作。
NumPy’s main object is the homogeneous multidimensional array. It is a table of elements (usually numbers), all of the same type, indexed by a tuple of positive integers. In NumPy dimensions are called axes.
基本操作
####################################### # 创建矩阵 ####################################### from numpy import array as matrix, arange # 创建矩阵 a = arange(15).reshape(3,5) a # Out[10]: # array([[0., 0., 0., 0., 0.], # [0., 0., 0., 0., 0.], # [0., 0., 0., 0., 0.]]) b = matrix([2,2]) b # Out[33]: array([2, 2]) c = matrix([[1,2,3,4,5,6],[7,8,9,10,11,12]], dtype=int) c # Out[40]: # array([[ 1, 2, 3, 4, 5, 6], # [ 7, 8, 9, 10, 11, 12]])
####################################### # 创建特殊矩阵 ####################################### from numpy import zeros, ones,empty z = zeros((3,4)) z # Out[43]: # array([[0., 0., 0., 0.], # [0., 0., 0., 0.], # [0., 0., 0., 0.]]) o = ones((3,4)) o # Out[46]: # array([[1., 1., 1., 1.], # [1., 1., 1., 1.], # [1., 1., 1., 1.]]) e = empty((3,4)) e # Out[47]: # array([[0., 0., 0., 0.], # [0., 0., 0., 0.], # [0., 0., 0., 0.]])
####################################### # 矩阵数学运算 ####################################### from numpy import array as matrix, arange a = arange(9).reshape(3,3) a # Out[10]: # array([[0, 1, 2], # [3, 4, 5], # [6, 7, 8]]) b = arange(3) b # Out[14]: array([0, 1, 2]) a + b # Out[12]: # array([[ 0, 2, 4], # [ 3, 5, 7], # [ 6, 8, 10]]) a - b # array([[0, 0, 0], # [3, 3, 3], # [6, 6, 6]]) a * b # Out[11]: # array([[ 0, 1, 4], # [ 0, 4, 10], # [ 0, 7, 16]]) a < 5 # Out[12]: # array([[ True, True, True], # [ True, True, False], # [False, False, False]]) a ** 2 # Out[13]: # array([[ 0, 1, 4], # [ 9, 16, 25], # [36, 49, 64]], dtype=int32) a += 3 a # Out[17]: # array([[ 3, 4, 5], # [ 6, 7, 8], # [ 9, 10, 11]])
####################################### # 矩阵内置操作 ####################################### from numpy import array as matrix, arange a = arange(9).reshape(3,3) a # Out[10]: # array([[0, 1, 2], # [3, 4, 5], # [6, 7, 8]]) a.max() # Out[23]: 8 a.min() # Out[24]: 0 a.sum() # Out[25]: 36
####################################### # 矩阵索引、拆分、遍历 ####################################### from numpy import array as matrix, arange a = arange(25).reshape(5,5) a # Out[9]: # array([[ 0, 1, 2, 3, 4], # [ 5, 6, 7, 8, 9], # [10, 11, 12, 13, 14], # [15, 16, 17, 18, 19], # [20, 21, 22, 23, 24]]) a[2,3] # 取第3行第4列的元素 # Out[3]: 13 a[0:3,3] # 取第1到3行第4列的元素 # Out[4]: array([ 3, 8, 13]) a[:,2] # 取所有第二列元素 # Out[7]: array([ 2, 7, 12, 17, 22]) a[0:3,:] # 取第1到3行的所有列 # Out[8]: # array([[ 0, 1, 2, 3, 4], # [ 5, 6, 7, 8, 9], # [10, 11, 12, 13, 14]]) a[-1] # 取最后一行 # Out[10]: array([20, 21, 22, 23, 24]) for row in a: # 逐行迭代 print(row) # [0 1 2 3 4] # [5 6 7 8 9] # [10 11 12 13 14] # [15 16 17 18 19] # [20 21 22 23 24] for element in a.flat: # 逐元素迭代,从左到右,从上到下 print(element) # 0 # 1 # 2 # 3 # ...
####################################### # 改变矩阵 ####################################### from numpy import array as matrix, arange b = arange(20).reshape(5,4) b # Out[18]: # array([[ 0, 1, 2, 3], # [ 4, 5, 6, 7], # [ 8, 9, 10, 11], # [12, 13, 14, 15], # [16, 17, 18, 19]]) b.ravel() # Out[16]: # array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, # 17, 18, 19]) b.reshape(4,5) # Out[17]: # array([[ 0, 1, 2, 3, 4], # [ 5, 6, 7, 8, 9], # [10, 11, 12, 13, 14], # [15, 16, 17, 18, 19]]) b.T # reshape 方法不改变原矩阵的值,所以需要使用 .T 来获取改变后的值 # Out[19]: # array([[ 0, 4, 8, 12, 16], # [ 1, 5, 9, 13, 17], # [ 2, 6, 10, 14, 18], # [ 3, 7, 11, 15, 19]])
####################################### # 合并矩阵 ####################################### from numpy import array as matrix,newaxis import numpy as np d1 = np.floor(10*np.random.random((2,2))) d2 = np.floor(10*np.random.random((2,2))) d1 # Out[7]: # array([[1., 0.], # [9., 7.]]) d2 # Out[9]: # array([[0., 0.], # [8., 9.]]) np.vstack((d1,d2)) # 按列合并 # Out[10]: # array([[1., 0.], # [9., 7.], # [0., 0.], # [8., 9.]]) np.hstack((d1,d2)) # 按行合并 # Out[11]: # array([[1., 0., 0., 0.], # [9., 7., 8., 9.]]) np.column_stack((d1,d2)) # 按列合并 # Out[13]: # array([[1., 0., 0., 0.], # [9., 7., 8., 9.]]) c1 = np.array([11,12]) c2 = np.array([21,22]) np.column_stack((c1,c2)) # Out[14]: # array([[11, 21], # [12, 22]]) c1[:,newaxis] # 添加一个“空”列 # Out[18]: # array([[11], # [12]]) np.hstack((c1,c2)) # Out[27]: array([11, 12, 21, 22]) np.hstack((c1[:,newaxis],c2[:,newaxis])) # Out[28]: # array([[11, 21], # [12, 22]])