numpy使用总结

CTA策略那些事招聘贴

2018-03-12

关注关注

numpy是Python中常用的数据处理库的基础库,一般通过import numpy as np的方式导进

科学计算库numpy

在numpy中,主要的数据结构是ndarray,在numpy中称为数组,其中二维数组对应于数学上的矩阵,是数据处理中的常见结构

numpy的创建

可以通过读取本地文件来创建:genfromtxt()
```
world_alcohol = numpy.genfromtxt("world_alcohol.txt", delimiter=",",dtype=str,skip_header=)
```
其中"world_alcohol.txt"为数据文件的路径,delimiter=","为区分元素的字符,以数据文件的具体情况来指定,有时候是空格,dtype=str指定生成ndarray的元素类型,有int/float/str三种类型可选,并且在一个ndarray中全部元素只能为同一种类型,如果指定的类型不对,转换后会有数据丢失,skip_header=1表示不读取第一行
可以通过将Python中的列表转换而成:array()
```
vector = numpy.array([5, 10, 15, 20],dtype=int)
```
第一个参数为Python中的列表数据结构,列表可以是一维/二维等列表,一维列表表示矩阵中的标量,二维列表表示普通矩阵,指定类型为可选参数
****

打印数组的维度(行数和列数):shape

vector = numpy.array([1, 2, 3, 4])
print(vector.shape)
matrix = numpy.array([[5, 10, 15], [20, 25, 30]])
print(matrix.shape)

输出

(,)
(, )

查看列表中元素的数据类型dtype

numbers = numpy.array([, , , ])
numbers.dtype

输出

dtype('int32')

索引与切片

跟Python中的列表类似,,为不同维度的分隔符,:可以取同一个维度的一个范围,二维矩阵则是将行的选取范围和列的选取单位进行并集操作

一维矩阵的范围选取

vector = numpy.array([5, 10, 15, 20])
print(vector[0:3])

输出

[ 5 10 15]

二维矩阵的范围选取

matrix = numpy.array([
                    [5, 10, 15], 
                    [20, 25, 30],
                    [35, 40, 45]
                 ])
print(matrix[:,1])

#输出
[10 25 40]

matrix = numpy.array([
                    [5, 10, 15], 
                    [20, 25, 30],
                    [35, 40, 45]
                 ])
print(matrix[:,0:2])

#输出

[[ 5 10]
 [20 25]
 [35 40]]

matrix = numpy.array([
                    [5, 10, 15], 
                    [20, 25, 30],
                    [35, 40, 45]
                 ])
print(matrix[1:3,0:2])

 #输出
 
 [[20 25]
 [35 40]]

numpy的条件判断

使用numpy的条件判断时,矩阵会将每一个元素都与该条件进行比较,返回每个元素的比较结果,结果为True或False

#输入
vector = numpy.array([5, 10, 15, 20])
vector >= 10

#输出
array([False,  True,  True,  True])

#输入
matrix = numpy.array([
                    [5, 10, 15], 
                    [20, 25, 30],
                    [35, 40, 45]
                 ])
matrix <= 25

#输出
array([[ True,  True,  True],
       [ True,  True, False],
       [False, False, False]])

通过判断得到的结果,可以用来当做索引取值

在上一步对矩阵进行条件判断后,得到一个与矩阵维度相同的元素只有True和False的矩阵(暂且取名b),在实际应用中,我们通常不仅仅需要得到这个矩阵b,更多的是需要得到满足该条件的元素值,在numpy中可以通过矩阵b作为索引,取出位置处为true的元素值

vector = numpy.array([5, 10, 15, 20])
equal_to_ten = (vector == 10)
print equal_to_ten
print(vector[equal_to_ten])

#输出
[False  True False False]
[10]

matrix = numpy.array([
                [5, 10, 15], 
                [20, 25, 30],
                [35, 40, 45]
             ])
second_column_25 = (matrix[:,1] == 25)
print second_column_25
#条件结果一维矩阵,可以用来作为获取某些行或者列的索引
print(matrix[second_column_25, :])

#输出
[False  True False]
[[20 25 30]]

条件判断结果可以使用$ |这两个逻辑操作符进行运算,跟普通的条件运算一样

vector = numpy.array([5, 10, 15, 20])
equal_to_ten_and_five = (vector == 10) & (vector == 5)
print equal_to_ten_and_five

#输出
[False False False False]

vector = numpy.array([5, 10, 15, 20])
equal_to_ten_or_five = (vector == 10) | (vector == 5)
print equal_to_ten_or_five

#输出
[ True  True False False]

vector = numpy.array([5, 10, 15, 20])
equal_to_ten_or_five = (vector == 10) | (vector == 5)
vector[equal_to_ten_or_five] = 50
print(vector)

#输出
[50 50 15 20]

转换矩阵元素的数据类型astype

vector = numpy.array(["1", "2", "3"])
print vector.dtype
print vector
vector = vector.astype(float)
print vector.dtype
print vector

#输出
|S1
['1' '2' '3']
float64
[ .  .  .]

矩阵元素的累加求和sum()

vector = numpy.array([5, 10, 15, 20])
vector.sum()

#输出
50

#axis指的是计算行还是列方向,axis=0:从列方向进行计算,axis=1:从行方向进计算,如果没有传入axis参数,求的是整个矩阵的元素和
matrix = numpy.array([
                [5, 10, 15], 
                [20, 25, 30],
                [35, 40, 45]
             ])
print (matrix.sum())
print (matrix.sum(axis=1))

#输出
225
array([ 30,  75, 120])

matrix = numpy.array([
                [5, 10, 15], 
                [20, 25, 30],
                [35, 40, 45]
             ])
print (matrix.sum(axis=0))

#输出
array([60, 75, 90])

一个小例子,求出world_alcohol.txt数据中第5列的和及平均数

#replace nan value with 0
world_alcohol = numpy.genfromtxt("world_alcohol.txt", delimiter=",")
#isnan对矩阵元素进行是否为nan进行判断
is_value_empty = numpy.isnan(world_alcohol[:,])
#将为nan的元素值替换为'0'
world_alcohol[is_value_empty, ] = '0'
alcohol_consumption = world_alcohol[:,]
#将str类型转换为float类型,进行下一步的计算
alcohol_consumption = alcohol_consumption.astype(float)
total_alcohol = alcohol_consumption.sum()
average_alcohol = alcohol_consumption.mean()
print (total_alcohol)
print (average_alcohol)

#输出
1137.78
1.140060120240481

常用函数

arange

np.arange([start,]stop[,step,],dtype=None),确定一个数值范围,从范围中取出符合step要求的数,组成一个一维矩阵

reshape

np.reshape(),修改矩阵维度,参数中需要传入矩阵新维度,如果其中一个维度参数为-1,则以另外一个维度参数进行计算

import numpy as np
a = np.arange(15).reshape(3, -1)
print(a)
b=a.reshape(5,-1)
print(b)

#输出
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]

查看矩阵的维度shape

shape是每个矩阵的属性,调用可以获取到维度(即行与高)

a.shape

#输出
(,)

查看矩阵的维数ndim

ndim是矩阵的属性,比如二维矩阵的维数是2

a.ndim

#输出

数据类型名称的字符串dtype.name

dtype返回的是类型,而dtype.name返回的是类型的字符串

a.dtype.name

#输出
'int64'

查看矩阵中元素的总数量size

a.size

#输出

创建全0矩阵,zeros(),参数传值类型为tuple

np.zeros ((,)) 

#输出
array([[ .,  .,  .,  .],
       [ .,  .,  .,  .],
       [ .,  .,  .,  .]])

创建全1矩阵,ones(),参数传值类型为tuple

np.ones( (,,), dtype=np.int32 )

#输出
array([[[, , , ],
        [, , , ],
        [, , , ]],

       [[, , , ],
        [, , , ],
        [, , , ]]])

生成随机数矩阵np.random.random(),参数传值为tuple,由此发现,如果函数参数需要传递的参数为矩阵的维度,参数都是用tuple包装起来,这个是必须的,因为很多函数除了需要传递维度的参数,还需要传递其他参数,比如指定类型等,需要将维度参数封装起来,才符合逻辑

np.random.random(),获取范围为[0:1)的随机数,可以传入tuple来确定矩阵的维度

np.random.random((,))

#输出
array([[0.74742051, 0.70915301, 0.2530189 ],
       [0.4440015 , 0.94236515, 0.49901836],
       [0.55138142, 0.92399121, 0.36560045],
       [0.86989627, 0.91722679, 0.20743568]])

输出指定范围指定数量的数据linspace()

a=np.linspace( 0, 2*numpy.pi, (100) )
print(a.size)
np.sin(a)

#输出
10
array([ 0.00000000e+00,  6.42787610e-01,  9.84807753e-01,  8.66025404e-01,
        3.42020143e-01, -3.42020143e-01, -8.66025404e-01, -9.84807753e-01,
       -6.42787610e-01, -2.44929360e-16])

矩阵与常量的加减乘除

矩阵里的每一个元素有常量进行加减乘除的运算,得到一个新矩阵

矩阵与矩阵的加减乘

矩阵与矩阵的加减就是两个矩阵对应位置的元素进行加减

矩阵与矩阵的乘法分两种情况,一种是a*b这种的,是两个矩阵对应位置中的元素进行相乘;第二种是a.dot(b)点乘,是矩阵的乘积,需要a矩阵的列数与b矩阵的行数相等

A = np.array( [[1,1],
               [0,1]] )
B = np.array( [[2,0],
               [3,4]] )
print (A*B)
print (A.dot(B))
               
#输出
[[2 0]
 [0 4]]
[[5 4]
 [3 4]]

求每个元素的开方np.sqrt(a),将每个元素作为指数,求e的次方

B = np.arange()
print (np.exp(B))
print (np.sqrt(B))

#输出
[.         2.71828183 7.3890561 ]
[.         .         1.41421356]

将矩阵进行地板除np.floor(a),将矩阵展开成一维矩阵a.ravel(),矩阵倒置a.T, 修改矩阵的维度a.shape=(x,y),a.reshape(x,y),a.resize(x,y)

a = np.floor(10*np.random.random((3,4)))
print (a)
print (a.ravel())
a.shape = (6, 2)
a.shape=(2,6)
print (a) 
print (a.T)
print (a.resize((2,6)))
print (a)

#输出
[[8. 1. 2. 8.]
 [5. 6. 3. 8.]
 [3. 5. 8. 0.]]
[8. 1. 2. 8. 5. 6. 3. 8. 3. 5. 8. 0.]
[[8. 1. 2. 8. 5. 6.]
 [3. 8. 3. 5. 8. 0.]]
[[8. 3.]
 [1. 8.]
 [2. 3.]
 [8. 5.]
 [5. 8.]
 [6. 0.]]
None
[[8. 1. 2. 8. 5. 6.]
 [3. 8. 3. 5. 8. 0.]]

矩阵的拼接,水平方向进行拼接np.hstack(a,b),垂直方向拼接np.vstack(a,b)

a = np.floor(10*np.random.random((2,2)))
b = np.floor(10*np.random.random((2,2)))
print (a)
print ('---')
print (b)
print ('---')
print (np.hstack((a,b)))
print ('---')
print (np.vstack((a,b)))

#输出
[[1. 8.]
 [7. 1.]]
---
[[1. 2.]
 [3. 4.]]
---
[[1. 8. 1. 2.]
 [7. 1. 3. 4.]]
---
[[1. 8.]
 [7. 1.]
 [1. 2.]
 [3. 4.]]

矩阵的切割,在行方向进行切割np.hsplit(a,x),在列方向进行切割np.vsplit(a,x),其中a是需要切割的矩阵,x是将矩阵切割成多少份

a = np.floor(10*np.random.random((2,12)))
print (a)
print (np.hsplit(a,2))

#以第4列为分割线,分别切割成3份,其中第4列为单独的一份
print (np.hsplit(a,(3,4)))   
a = np.floor(10*np.random.random((12,2)))
print (a)
np.vsplit(a,3)

#输出
[[6. 2. 1. 6. 2. 3. 6. 5. 3. 3. 3. 7.]
 [1. 4. 9. 0. 1. 6. 9. 2. 7. 9. 8. 9.]]
[array([[6., 2., 1., 6., 2., 3.],
       [1., 4., 9., 0., 1., 6.]]), array([[6., 5., 3., 3., 3., 7.],
       [9., 2., 7., 9., 8., 9.]])]
[array([[6., 2., 1.],
       [1., 4., 9.]]), array([[6.],
       [0.]]), array([[2., 3., 6., 5., 3., 3., 3., 7.],
       [1., 6., 9., 2., 7., 9., 8., 9.]])]
[[4. 7.]
 [9. 5.]
 [4. 1.]
 [0. 9.]
 [9. 9.]
 [3. 1.]
 [2. 8.]
 [1. 6.]
 [8. 1.]
 [0. 3.]
 [3. 4.]
 [4. 4.]]
[array([[4., 7.],
        [9., 5.],
        [4., 1.],
        [0., 9.]]), array([[9., 9.],
        [3., 1.],
        [2., 8.],
        [1., 6.]]), array([[8., 1.],
        [0., 3.],
        [3., 4.],
        [4., 4.]])]

矩阵的复制,浅复制a=b,深复制b=a.copy()

浅复制只是将a所指向的对象的引用传递给b,也就是a与b所持有的对象引用是一样的,在修改任何一个矩阵,其他一个都会变

深复制,是重新生成一个矩阵对象,再将新生成的矩阵对象地址赋值给b变量,修改a或者b其中一个矩阵,不影响其他矩阵

返回矩阵每一列或者每一行中的最大值的索引值a.argmax([aixs]),返回每一行或者每一列的最大/最小值a.max([aixs]),求索引值这个函数往往可以用在先求出特征中符合某个条件的值的行数,接着再通过行数得到该样本的数据

import numpy as np
data = np.sin(np.arange()).reshape(,)
print (data)
ind = data.argmax(axis=)
print (ind)
print (data.max(axis=)

#输出
[[ .          0.84147098  0.90929743  0.14112001]
 [-0.7568025  -0.95892427 -0.2794155   0.6569866 ]
 [ 0.98935825  0.41211849 -0.54402111 -0.99999021]
 [-0.53657292  0.42016704  0.99060736  0.65028784]
 [-0.28790332 -0.96139749 -0.75098725  0.14987721]]
[   ]
[0.98935825 0.84147098 0.99060736 0.6569866 ]

矩阵的重复拓展tile

np.tile(a,(x,y))将a矩阵在行方向拓展x次,在列方向拓展y次

a = np.arange(0, 40, 10)
b = np.tile(a, (3, 5)) 
print (b)

#输出
[[ 0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30]
 [ 0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30]
 [ 0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30]]

矩阵升序排序np.sort(a,axis)

轴参数:axis=0,表示列,axis=1,表示行

a = np.array([[, , ], [, , ]])
print (a)
b = np.sort(a, axis=)
print (b)

#输出
[[  ]
 [  ]]
[[  ]
 [  ]]

输出矩阵,元素值从小到大的索引位置

a = np.array([, , , ])
j = np.argsort(a)

/#输出
[   ]
[   ]

矩阵 matrix

CTA策略那些事招聘贴

0 关注 0 粉丝 0 动态

关注关注

腾讯发布业内首个AI安全攻击矩阵让排风险像查字典一样简单

近年来，人工智能迅猛发展，与家居、金融、交通、医疗等各个领域深度融合，让人们的生活更为便利。但与此同时，基于人工智能的系统一旦存在风险也将带来更为严重的后果。9月25日，腾讯正式发布业内首个AI安全攻击矩阵。研究人员和开发人员根据AI部署运营的基本情况，就

sasac 2020-09-25

你的AI模型有哪些安全问题，在这份AI攻防“词典”里都能查到

目前，AI技术在人脸支付、人脸安防、语音识别、机器翻译等众多场景得到了广泛的使用，AI系统的安全性问题也引起了业界越来越多的关注。例如，攻击者可能通过特制的攻击贴纸来欺骗人脸识别系统，从而带来生命财产损失。为了应对AI模型各个环节可能存在的安全风险，并

huangjie0 2020-09-25

视频云4.0升级发布，腾讯云构建业界最完整音视频产品矩阵

9月11日，在腾讯2020全球数字生态大会音视频通信专场上，腾讯云升级了视频云4.0，发布在视频制作、电商直播和海外媒体的三大重磅新品，并宣布启动V加俱乐部计划，携手音视频领域合作伙伴共创百亿价值。此外，腾讯云发布新一代融合信息服务平台进一步布局通信云。李

cloudking000 2020-09-11

Keras调用LSTM之函数接口介绍

activation: 要使用的激活函数，如果传入None，则不使用激活函数。默认分段线性近似 sigmoid 。use_bias: 布尔值，该层是否使用偏置向量。如果为 True，初始化时，将忘记门的偏置加 1。将其设置为 True 同时还会强制bi

xiaoxiaokeke 2020-07-28

java数据结构与算法一：稀疏数组

因为二维数组的很多值是默认值0，因此记录了很多没有意义的数据，可采用稀疏数组解决此问题。当一个数组中大部分元素为0，或者为同一个值的数组时，可以使用稀疏数组来保存该数组。稀疏数组中第一行依次存放着总行数、总列数、不同值的个数，其他行则依次存放着值所在的行

mingyunxiaohai 2020-07-28

C，Java和Python之间的性能比较

在过去的两年中，我为C语言做了大量的实现工作。我之所以选择C语言而不是其他语言，是因为人们普遍认为C代码比其他流行的编程语言运行得更快。但是，即使我一直对C的速度感到好奇，我自己也没有做任何实验来证实这一说法。最后，我决定进行一些实验，以比较C，Java和

honghao0 2020-07-27

数据挖掘----推荐算法(CF)

User-Based CF 计算user与user的相似度矩阵。- 具有相似兴趣的用户在未来也具有相似兴趣。- 将N 喜欢的物品推荐给用户。

风吹夏天 2020-07-26

OpenGL 六 - 3D数学基础 - 向量、矩阵及OpenGL中的变换

夕加加 2020-07-20

C++并发编程实战：如何为多线程性能设计数据结构？

在8.1节中我们看到了在线程间划分工作的一些方法,在8.2节中我们看到了影响代码性能的一些因素。当设计多线程性能的数据结构的时候如何使用这些信息呢?这是在第6章和第7章中处理的很困难的问题,是关于设计可以安全并行读取的数据结构。当为多线程性能设计你的数据结

zhoujiyu 2020-06-28

php 二维数组按某个字段排序

php版本5.5以后自带。函数先对第一个数组进行排序，接着是其他数组，如果两个或多个值相同，它将对下一个数组进行排序。array_multisort;//SORT_ASC 按照上升顺序排序， SORT_DESC 按照下降顺序排序

清风徐来水波不兴 2020-06-16

随机抽样一致性（RANSAC）算法详解

随机抽样一致性算法能够有效的剔除特征匹配中的错误匹配点。实际上，RANSAC能够有效拟合存在噪声模型下的拟合函数。这就是RANSAC的核心思想。OpenCV中滤除误匹配对采用RANSAC算法寻找一个最佳单应性矩阵H，矩阵大小为3×3。RANSAC目的是找到

Happyunlimited 2020-06-15

matlab中mat文件的生成和读取

　　打开Matlab软件，点击左上角文件，然后点击新建，选择变量，就新建了一个mat文件。保存单一矩阵数据如图所示，输入数据，生成数组。最后输入save x1 x。该语句表示将敲入的数组x生成数据x1.mat文件。如果矩阵A.B都已赋值，现在需要将A,B

wanff0 2020-06-14

matlab软件-了解

MATLAB是美国MathWorks公司出品的商业数学软件。用于数据分析、无线通信、深度学习、图像处理与计算机视觉、信号处理、量化金融与风险管理、机器人，控制系统等领域。MATLAB是matrix&laboratory两个词的组合，意为矩阵工厂。，

cuiguanjun 2020-06-13

PyTorch深度学习2简单函数使用

接下来介绍pytorch中的神经网络部分。PyTorch中所有的神经网络都来自于autograd包。首先我们来简要的看一下，之后我们将训练我们第一个的神经网络。autograd 包提供Tensor所有操作的自动求导方法。以这些例子来讲，让我们用更简单的术语

啸林 2020-06-12

LeetCode——滑动谜题

Q：在一个 2 x 3 的板上有 5 块砖瓦，用数字 1~5 来表示, 以及一块空缺用?来表示.一次移动定义为选择?与一个相邻的数字进行交换.最终当板?给出一个谜板的初始状态，返回最少可以通过多少次移动解开谜板，如果不能解开谜板，则返回 -1 。对于这种计

jiayuqicz 2020-06-09

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 2020-06-08

【程序员面试金典】面试题 01.08. 零矩阵

编写一种算法，若M × N矩阵中某个元素为0，则将其所在的行与列清零。使用临时数组进行标记。

youzilong0 2020-06-07

python沿行或者沿列拼接空矩阵和其他矩阵

沿水平或者垂直方向的空矩阵和其他矩阵拼接，这里没有拼接矩阵，而用了单个数值的拼接，原理是一样的。注意拼接出来的a和b都是array类型。另外垂直拼接时，应定义空矩阵的维数b=np.empty,零行一列。下来举个矩阵拼接的列子。a=np.arrayb=‘xx

guangmingsky 2020-06-05

Python处理alist文件——稀疏矩阵的读取和存储

众所周知，alist文件是一种保存稀疏矩阵格式，常用于保存LDPC码的校验矩阵与生成矩阵。- TU Kaiserslautern提供了一个信道编码的数据库，并给出了数据库中信道编码的校验矩阵的存储方法和格式。读取alist文件中保存的矩阵，将稀疏矩阵保存为

zcabcd 2020-06-03