numpy利用数组进行数据处理

CTA策略那些事招聘贴

2018-04-06

将条件逻辑表述为数组运算

numpy.where()是一个三目运算的表达式

In [34]: xarr = np.array([1.1,1.2,1.3,1.4,1.5])
 
 In [35]: yarr = np.array([2.1,2.2,2.3,2.4,2.5])
 
 In [36]: condi = np.array([True,False,True,True,False])

假设有上面三个数组，当condi中的值为True的时候，从xarr中选取值，否则从yarr中选取值，组成一个新的数组。利用普通的列表推导式如下：

result = [(x if c else y) for x,y,c in zip(xarr,yarr,condi)]

但是这种方式有缺点：在进行大量数据处理的时候，速度并不快（速度慢就是python的“特色”）。无法运用到多维数组中。

用where方法就简单好多了

result = np.where(condi,xarr,yarr)

numpy.where的第二个和第三个参数，不一定非得是数组，它们也可以是标量。

假设我们希望根据condi生成一个新的数组，如果condi中的值为True时，选择数字1，否则为数字0。

In [41]: res = np.where(condi,1,0)

In [42]: res
Out[42]: array([1, 0, 1, 1, 0])

在一个多维数组中，用“+”代替正数，“-”代替负数

In [46]: arr = np.random.randn(4,4)

In [47]: arr
Out[47]:
array([[-0.33641281, -0.56924078,  0.25727917, -0.35087934],
       [-0.00734107, -0.47985579, -1.35289703, -1.31366566],
       [-0.71342875, -0.21957414, -1.25596815,  0.0859283 ],
       [-0.93246019, -0.61227975, -0.87573005,  1.4124276 ]])

In [48]: np.where(arr>0,"+","-")
Out[48]:
array([['-', '-', '+', '-'],
       ['-', '-', '-', '-'],
       ['-', '-', '-', '+'],
       ['-', '-', '-', '+']], dtype='<U1')

where还可以实现多条件运算

In [51]: np.where(cond1 &cond2 ,0, np.where(cond1,1,np.where(cond2,2,3)))

#类似于
li=[]
for x,y in zip(cond1,cond2):
    if x and y:
        li.append(0)
    elif x :
        li.append(1)
    elif y:
        li.append(2)
    else:
        li.append(3)

数学和统计方法

sum、mean、std 既可以作为数组的方法调用，也可以作为NumPy的顶级函数调用。

In [63]: arr = np.arange(15).reshape(3,5)

In [64]: arr
Out[64]:
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])
#作为数组的方法调用
In [65]: arr.sum()
Out[65]: 105
In [67]: arr.mean()
Out[67]: 7.0
#作为numpy的顶级方法调用
In [68]: np.mean(arr)
Out[68]: 7.0

mean、sum这类的函数可以接受一个参数，用于计算该轴向上的统计值，最终结果是一个少一维的数组

In [69]: arr = np.arange(60).reshape(3,4,5)

In [70]: arr
Out[70]:
array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34],
        [35, 36, 37, 38, 39]],

       [[40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]]])

In [71]: arr.sum(axis = 1)#参数的值为shape的索引，不了解shape可以去看一下numpy基础知识那一篇blog
Out[71]:
array([[ 30,  34,  38,  42,  46],
       [110, 114, 118, 122, 126],
       [190, 194, 198, 202, 206]])

sum（axis=1）将指定的维度的数组进行聚合求和

其他如cumsum和cumprod之类的方法则不进行聚合，而是产生一个由中间结果组成的数组：

In [72]: arr = np.array([[0,1,2],[3,4,5],[6,7,8]])

In [73]: arr
Out[73]:
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [74]: arr.cumsum()
Out[74]: array([ 0,  1,  3,  6, 10, 15, 21, 28, 36], dtype=int32)

In [75]: arr.cumsum(0)
Out[75]:
array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [76]: arr.cumsum(1)
Out[76]:
array([[ 0,  1,  3],
       [ 3,  7, 12],
       [ 6, 13, 21]], dtype=int32)

In [77]: arr.cumprod(1)
Out[77]:
array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

作为顶级函数的用法

In [78]: np.cumsum(arr)
Out[78]: array([ 0,  1,  3,  6, 10, 15, 21, 28, 36], dtype=int32)

In [79]: np.cumsum(arr,axis =0)
Out[79]:
array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

用于布尔型数组的方法：sum、any和all

In [82]: bools = np.array([True,False,True,True,False])

In [83]: bools.sum()
Out[83]: 3

In [84]:

In [84]: bools.any()
Out[84]: True

In [85]: bools.all()
Out[85]: False
#顶级函数
In [86]: np.all(bools)
Out[86]: False

In [87]: np.sum(bools)
Out[87]: 3

In [88]:

排序

方法基本跟python的list一样

In [93]: arr = np.random.randn(8)

In [94]: arr
Out[94]:
array([-2.97429771,  0.37645009, -0.04291609, -0.61994895, -0.26251303,
       -1.1557209 , -0.19910847, -0.11393288])

In [95]: arr.sort()

In [96]: arr
Out[96]:
array([-2.97429771, -1.1557209 , -0.61994895, -0.26251303, -0.19910847,
       -0.11393288, -0.04291609,  0.37645009])

对于多维数组，可以指定axis参数，用于任意一个轴向上排序

In [97]: arr = np.random.randn(4,5)

In [98]: arr
Out[98]:
array([[-0.78510617, -0.02370449, -0.12615757, -0.15039283, -1.00503264],
       [ 0.24344011, -1.91231612,  0.80572501, -0.6740432 , -1.62471378],
       [-0.09096377,  1.79134715, -0.28566318, -0.8119145 , -0.20454602],
       [ 0.02648784,  0.57795444, -0.53447708, -0.74497177, -0.04684859]])

In [99]: arr.sort(1)

In [100]: arr
Out[100]:
array([[-1.00503264, -0.78510617, -0.15039283, -0.12615757, -0.02370449],
       [-1.91231612, -1.62471378, -0.6740432 ,  0.24344011,  0.80572501],
       [-0.8119145 , -0.28566318, -0.20454602, -0.09096377,  1.79134715],
       [-0.74497177, -0.53447708, -0.04684859,  0.02648784,  0.57795444]])

In [101]: arr = np.random.randn(4,5)

In [102]: arr
Out[102]:
array([[-0.99257127,  0.36384095,  1.14265096,  0.23094948,  1.42900315],
       [ 0.07606583,  1.53456921,  1.15069057, -0.78014895, -0.24934741],
       [ 0.63191444,  0.23237672,  0.4590821 ,  0.01904812,  1.63680472],
       [-1.24936364, -0.44730791, -0.30612594, -1.05307121,  1.28685507]])

In [103]: arr.sort(0)

In [104]: arr
Out[104]:
array([[-1.24936364, -0.44730791, -0.30612594, -1.05307121, -0.24934741],
       [-0.99257127,  0.23237672,  0.4590821 , -0.78014895,  1.28685507],
       [ 0.07606583,  0.36384095,  1.14265096,  0.01904812,  1.42900315],
       [ 0.63191444,  1.53456921,  1.15069057,  0.23094948,  1.63680472]])

需要注意的是顶级排序函数，返回的数组以排序的副本，而就地排序则会修改数组本身。

In [105]: arr = np.random.randn(4,5)

In [106]: arr_repeat=np.sort(arr,axis =1)

In [107]: arr_repeat
Out[107]:
array([[-0.64056336,  0.14082859,  0.44317426,  0.60988308,  0.77472024],
       [-1.63521891,  0.39869871,  0.55635461,  0.58039867,  0.59073797],
       [-1.62714899, -0.66642289, -0.16457651,  0.09046719,  0.5139126 ],
       [-0.79493979,  0.12287039,  0.50570075,  1.08870126,  1.34838367]])

In [108]: arr
Out[108]:
array([[ 0.60988308,  0.44317426,  0.14082859,  0.77472024, -0.64056336],
       [ 0.59073797,  0.55635461,  0.58039867, -1.63521891,  0.39869871],
       [-0.16457651, -1.62714899, -0.66642289,  0.5139126 ,  0.09046719],
       [ 0.50570075,  1.34838367,  0.12287039,  1.08870126, -0.79493979]])

sort还有两个参数kind和order，kind是指定排序的算法，默认是快排，还有堆排序和归并排序【quicksort,mergesort,heapsort】。order：一个字符串或列表，可以设置按照某个属性进行排序

import numpy as np
>>> dtype = [('Name', 'S10'), ('Height', float), ('Age', int)]
>>> values = [('Li', 1.8, 41), ('Wang', 1.9, 38),('Duan', 1.7, 38)]
>>> a = np.array(values, dtype=dtype)
>>> np.sort(a, order='Height')  # 按照属性Height进行排序,此时参数为字符串                      
array([('Duan', 1.7, 38), ('Li', 1.8, 41),('Wang', 1.9, 38)],
      dtype=[('Name', '|S10'), ('Height', '<f8'), ('Age', '<i4')])
>>> np.sort(a, order=['Age', 'Height']) 
# 先按照属性Age排序,如果Age相等，再按照Height排序，此时参数为列表        
array([('Duan', 1.7, 38), ('Wang', 1.9, 38),('Li', 1.8, 41)],
      dtype=[('Name', '|S10'), ('Height', '<f8'), ('Age', '<i4')])

唯一化以及其他的一些集合逻辑运算

唯一化其实就是去重。ufunc是 numpy.unique()

In [119]: my_list = np.array([1,3,4,6,7,4,3,1,2])

In [120]: np.unique(my_list)
Out[120]: array([1, 2, 3, 4, 6, 7])

注意：数组本身没有unique方法。

numpy的集合函数

python数组数据处理数组 arr

CTA策略那些事招聘贴

0 关注 0 粉丝 0 动态

关注关注

Python数据分析Numpy库常用函数详解，提到循环就该想到的库

Python进行数据分析的核心库肯定是Pandas，该库差不多可以解决结构化数据的绝大部分处理需求。在《Python数据分析常用函数及参数详解，可以留着以备不时之需》一文中也已经对该库的常用函数进行了详细介绍。但是Pandas是构建在Numpy的基础之

CodeAsWind 2020-08-17

【Python数据科学】Numpy速查

Numpy是python数据科学计算的核心库，提供高性能的多维数组对象及处理数组的工具。np.zeros #创建值为0的数组。np.linspace #创建均匀间

sunnyhappy0 2020-07-09

python 把一个数组arr按照指定的数组大小size分割成若干个数组块

python 把一个数组arr按照指定的数组大小size分割成若干个数组块这里的运行结果，我是以分割2个数组块的。def arr_size: s=[] for i in range: c=arr[i:i+size]

cxcxrs 2020-06-26

python--之数组(array)

petal0 2020-06-10

python如何获得list或numpy数组中最大元素对应的索引

#表示最大值在第二行第二列

sizhixht 5评论 2020-11-16

数组中重复的数字

　　在一个长度为n的数组里的所有数字都在0到n-1的范围内。例如，如果输入长度为7的数组{2,3,1,0,2,5,3}，那么对应第一个重复的数字是2。　　第一种思路：寻找重复的数字最容易想到的就是先排序后查找，因为如果数字出现重复，那么排序后相邻的数字必定

深思千年 2020-06-10

利用Python进行数据分析

Numpy ndarray: 多维数组对象ndarray属性ndarray包含的每一个元素均为相同类型。shape属性：数组每一维度的数量dtype属性：数组的数据类型ndim属性：数组的维数NumPy 数据类型numpy 支持的数据类型比 Python

xmwang0 2020-06-01

JS基础

// alert(‘哈哈哈‘);alert弹框// 在htmle我们通过script标签src方法进行导入console.log(‘学习啊‘);//单行注释/*多行注释 */// js语言是以分号为结束符// 声明一个变量,需要var 关键字+变量名=‘‘

fgleeldq 2020-05-27

YAML

YAML 是 "YAML Ain‘t a Markup Language"的递归缩写。在开发的这种语言时，YAML 的意思其实是："Yet Another Markup Language"。YAML 的语法和其他高级

ShiShuo 2020-05-16

用实践带领你进入numpy的世界——(二)：numpy基本数组创建函数

np.zeros()创建全零数组np.empty()创建数值不定的数组np.ones()创建全一数组np.linspace()创建任意长度的一维数组np.arange()与python中的range使用方法相同，返回的是一个数组np.array()创建标准

文山羊 2020-05-08

pandas_一维数组与常用操作

# 一维数组与常用操作。# 设置输出结果列对齐。# 使用字典创建 Series 字典的键作为索引。# 修改 Series 对象的值。s2[‘语文‘] = 94. # 将 s1 所有的值都加 5、使用加法时，对所有元素都进行。# 在 s1 的索引下标前加入参

tengyuan 2020-05-07

LeetCode小白入门——简单题目八题合集，每题两解

本文共包括八个题目，来源于LeetCode简单难度，每个问题会给出两种解法，第一种偏暴力、易理解一些，第二种会更加高效一些，尽可能会避免利用Python的内置函数，便于真正理解算法原理。和一个目标值 target，请你在该数组中找出和为目标值的那两整数，并

Leewoxinyiran 2020-05-06

LeetCode 45. 跳跃游戏 II | Python

给定一个非负整数数组，你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。你的目标是使用最少的跳跃次数到达数组的最后一个位置。从下标为 0 跳到下标为 1 的位置，跳 1 步，然后跳 3 步到达数组的最后一个位置。这题要求与之前

sschencn 2020-05-04

numpy

# np.arange()可以类比 range(), 前者生成一个ndarray对象,后者生成range()对象。# 使用array创建三维,四维.....# np.random.randn 返回一个或一组样本,具有标准正态分布。a = np.random

vevoly 2020-05-04

go语言3 数组, 切片, Maps

//1 基本使用：定义。//定义了一个大小为3的int类型数组。//var a [3]int //只定义，没有初始化。//只给第2个位置设为99. // go语言中，都是copy传递。python中都是引用传递，一切皆对象，就是地址，当做参数传递是把

一只码畜 2020-04-22

python之numpy多维数组

NumPy 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。NumPy它本身其实没有提供很高级别的数据分析功能，NumPy之于数值计算特别重要的原因之一，调用astype总会创建一个新的数组，即

sulindong0 2020-03-09

Python之Numpy

...a.shape=2,2,3 #改成2组2行3列三维结构[[[0,1,2] [3,4,5]][[6,7,8] [9,10,11]]]

一只码畜 2020-03-01

Go语言中的数组与数组切片

　　　　　　　　　　　　　　　　　　　　fmt.Printlb. 所有的值类型变量在赋值和作为参数传递的时候都将进行一次复制，会将副本传递过去。所以函数体中无法通过修改传入的数组内容来改变数组。　　　　　　｛1.一个指向原生数组的指针；　　　　　　　3.数

GoatSucker 2020-02-24

【Python数组及其基础操作】【Numpy ndarray】

　　在python中创建数组最简单的办法就是使用array函数。它接受一切序列型的对象，然后产生一个含有传入数据的numpy数组。其中，嵌套序列会被转换为一个多维数组。np.random.normal(1.7, 0.1, (2, 3)0 #给定均值/标准

sdwylry 2020-02-14

numpy学习（一）

　　小编整理了一些numpy常用的函数，也是方便小编以后查看。　　常用的有dtype，ndim，写参数时要指名。np.bool #Boolean type storing TRUE and FALSE values. 　　np.dype也可以实现上述的内容

mieleizhi0 2020-02-01

安科网

numpy利用数组进行数据处理

CTA策略那些事招聘贴

将条件逻辑表述为数组运算

数学和统计方法

用于布尔型数组的方法：sum、any和all

排序

唯一化以及其他的一些集合逻辑运算

CTA策略那些事招聘贴

相关推荐

Python数据分析Numpy库常用函数详解，提到循环就该想到的库

【Python数据科学】Numpy速查

python 把一个数组arr按照指定的数组大小size分割成若干个数组块

python--之数组(array)

python如何获得list或numpy数组中最大元素对应的索引

数组中重复的数字

利用Python进行数据分析

JS基础

YAML

用实践带领你进入numpy的世界——(二)：numpy基本数组创建函数

pandas_一维数组与常用操作

LeetCode小白入门——简单题目八题合集，每题两解

LeetCode 45. 跳跃游戏 II | Python

numpy

go语言3 数组, 切片, Maps

python之numpy多维数组

Python之Numpy

Go语言中的数组与数组切片

【Python数组及其基础操作】【Numpy ndarray】

numpy学习（一）

CTA策略那些事招聘贴