前言
个人感觉网上对numpy的总结感觉不够详尽细致,在这里我对numpy做个相对细致的小结吧,在数据分析与人工智能方面会有所涉及到的东西在这里都说说吧,也是对自己学习的一种小结!
numpy用法的介绍
安装部分我就不说了,装个pip,使用命令pip install numpy就可以安装了,在Ubuntu中可能会出现没有权限的提示,直接加上sudo即可,以下讲解都是建立在python3平台的讲解,python2类似,python3中安装的时候使用sudo pip3 install numpy即可。
首先,numpy是个求解数学矩阵,做矩阵计算
1.genfromtxt
numpy numpy.genfromtxt(""),这里我们讲解下,genfromtxt函数的意思是读取文件信息,用来处理数据信息,可以处理数据文件
举个例子:
import numpyworld_alcohol = numpy.genfromtxt("world_alcohol.txt",delimiter = ",",dtype = str)print(type(world_alcohol))print(world_alcohol)print(help(numpy.genfromtxt))
打印结果如下:
[['Year' 'WHO region' 'Country' 'Beverage Types' 'Display Value'] ['1986' 'Western Pacific' 'Viet Nam' 'Wine' '0'] ['1986' 'Americas' 'Uruguay' 'Other' '0.5'] ..., ['1987' 'Africa' 'Malawi' 'Other' '0.75'] ['1989' 'Americas' 'Bahamas' 'Wine' '1.5'] ['1985' 'Africa' 'Malawi' 'Spirits' '0.31']]Help on function genfromtxt in module numpy.lib.npyio:genfromtxt(fname, dtype= , comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=None, replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None) Load data from a text file, with missing values handled as specified. Each line past the first `skip_header` lines is split at the `delimiter` character, and characters following the `comments` character are discarded. Parameters ---------- fname : file, str, pathlib.Path, list of str, generator File, filename, list, or generator to read. If the filename extension is `.gz` or `.bz2`, the file is first decompressed. Note that generators must return byte strings in Python 3k. The strings in a list or produced by a generator are treated as lines. dtype : dtype, optional Data type of the resulting array. If None, the dtypes will be determined by the contents of each column, individually. comments : str, optional The character used to indicate the start of a comment. All the characters occurring on a line after a comment are discarded delimiter : str, int, or sequence, optional The string used to separate values. By default, any consecutive whitespaces act as delimiter. An integer or sequence of integers can also be provided as width(s) of each field.-- More --
我解释一下上面的用法,genfromtxt传入了三个参数,第一个参数是数据文件,名为world_alcohol.txt,该数据文件有需要的同学可以加我好友私聊我,或者把你的请求发邮箱至i_love_sjtu@qq.com
然后delimiter是分隔符,由于数据集中的数据是用逗号分隔的,所以设定参数delimiter=',',dtype是获取数据类型,数据集中的类型为str
print(type(world_alcohol))打印数据文件的数据类型
print(world_alcohol)打印数据集
print(help(numpy.genfromtxt))打印genfromtxt用法
加入skip_header,跳转至以1开头的数据
import numpyworld_alcohol = numpy.genfromtxt("world_alcohol.txt",delimiter=",",dtype=str,skip_header=1)print(world_alcohol)
打印结果如下:
[['1986' 'Western Pacific' 'Viet Nam' 'Wine' '0'] ['1986' 'Americas' 'Uruguay' 'Other' '0.5'] ['1985' 'Africa' "Cte d'Ivoire" 'Wine' '1.62'] ..., ['1987' 'Africa' 'Malawi' 'Other' '0.75'] ['1989' 'Americas' 'Bahamas' 'Wine' '1.5'] ['1985' 'Africa' 'Malawi' 'Spirits' '0.31']]
2.shape
xxx.shape 显示的功能是查看矩阵或者数组的维数
举个例子:
import numpyvector = numpy.array([5,10,15,20])matrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])print(vector)print(matrix)print(vector.shape)print(matrix.shape)
打印结果如下:
[ 5 10 15 20][[ 5 10 15] [20 25 30]](4,)(2, 3)[Finished in 0.6s]
显示出当前vector的维度是一维矩阵
matrix的维度是2行3列3.索引
一维数组的索引:与Python的列表索引功能相似
先举个例子:
import numpyworld_alcohol = numpy.genfromtxt("world_alcohol.txt",delimiter=",",dtype=str,skip_header=1)uruguay_other_1986 = world_alcohol[1,4]third_country = world_alcohol[2,2]print(uruguay_other_1986)print(third_country)
打印结果如下:
0.5Cte d'Ivoire
uruguay_other_1986取值的时候取的是第一个列表中的第四个值(从0开始算)
third_country取值的时候取的是第二个列表中的第二个值(从0开始算)4.切片
举例子:
import numpyvector = numpy.array([5,10,15,20])print(vector[0:3])
打印结果如下:
[ 5 10 15]
这个和python中切片效果一样,取的是左闭右开的界线
下一个例子:
import numpymatrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])print(matrix[:,1])
打印结果如下:
[10 25 40]
:表示选取所有的行 逗号隔开 然后取列 取第一列(从0开始计算)
下一个例子:
import numpymatrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])print(matrix[:,0:2])
打印结果如下:
[[ 5 10] [20 25] [35 40]]
这个意思是:表示选取所有的行 逗号隔开 然后取列 这里用到了切片 取的是从第零列开始到第二列(小于2) 实际上取的就是前两列
下一个例子:
import numpymatrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])print(matrix[1:3,0:2])
打印结果如下:
[[20 25] [35 40]]
这个意思是我们选取的行是第一行到第三行(小于3) 这里用到了切片 然后取列 这也用到了切片 取的是从第零列开始到第二列(小于2) 实际上取的就是前两列
5.布尔类型的相关判断
举个例子:
import numpyvector = numpy.array([5,10,15,20])vector == 10
打印结果如下:
>>array([False, True, False, False], dtype=bool)
返回一个布尔型结果 判断了该矩阵中是否有值等于10
== 相当于对矩阵中的每一个元素都进行了一个判断
下一个例子:
import numpymatrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])matrix == 25
打印结果如下:
array([[False, False, False], [False, True, False], [False, False, False]], dtype=bool)
解释的原理和上述一样
下一个例子:
import numpy vector = numpy.array([5,10,15,20])equal_to_ten = (vector == 10)print(equal_to_ten)print(vector[equal_to_ten])
打印结果如下:
[False True False False][10]
意思是 vector == 10 直接对矩阵的值做了个判断 把布尔类型的矩阵传递给equal_to_ten
然后的话打印结果为布尔类型的矩阵 这个布尔类型是一个索引 我们打印这个vector[布尔类型的索引]即可找回原值 返回真实值下一个例子:
import numpymatrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])second_conlumn_25 = (matrix[:,1] == 25)print(second_conlumn_25)print(matrix[second_conlumn_25, :])
打印结果如下:
[False True False][[20 25 30]]
意思是 :表示选取所有的行 逗号隔开 然后取列 取的是第一列(从0开始) 然后直接对这一列的值进行判断 判断这一列
中的元素是否等于25 并将其布尔类型的值传递给second_conlumn_25然后打印出的second_conlumn_25的结果为一个布尔类型的列表
而把second_conlumn_25当作索引值 我们去寻找有25的这一行 逗号隔开 :表示直接选取这一行的数据 然后打印出来
下一个例子:
import numpyvector = numpy.array([5,10,15,20])equal_to_ten_and_five = (vector == 10) & (vector == 5)print(equal_to_ten_and_five)
打印结果如下:
[False False False False]
意思是查找当前的这个矩阵中的数既等于10又等于5的数 显然不存在 所以全部输出False
下一个例子:
import numpyvector = numpy.array([5,10,15,20])equal_to_ten_or_five = (vector == 10) | (vector == 5)print(equal_to_ten_or_five)
打印结果如下:
[ True True False False]
意思是查找当前的这个矩阵中的数等于10或者等于5的数 显然不存在 所以输出True True False False
6.dtype与astype
dtype 输出的是矩阵中的数据类型
举个例子:
import numpyvector = numpy.array([5,10,15,20])print(vector.dtype)
打印结果如下:
int32
如果我们想转换矩阵中的数据类型 我们应该使用astype进行转换
举个例子:
import numpyvector = vector.astype(float)print(vector.dtype)
打印结果如下:
float64
这样就OK了!!!
7.min与max
min求解该矩阵中的最小值
举个例子:
import numpyvector = numpy.array([5,10,15,20])vector.min()
打印结果如下:
>>5
max求解该矩阵中的最大值
举个例子:
import numpyvector = numpy.array([5,10,15,20])vector.max()
打印结果如下:
>>20
8.sum
sum 可以指定了一个维度 对行或者列求和
举个例子:
import numpymatrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])matrix.sum(axis=1)
打印结果如下:
>>array([ 30, 75, 120])
指定了一个维度 对行求和
下个例子:
import numpymatrix = numpy.array([[5,10,15],[20,25,30],[35,40,45]])matrix.sum(axis=0)
打印结果如下:
>>array([60, 75, 90])
指定了一个维度 axis = 0 行号为0 相当于对列求和
9.reshape
reshape给数组一个新的形状而不改变其数据
举个例子:
import numpy as npprint(np.arange(15))a = np.arange(15).reshape(3,5)print(a)
打印结果如下:
[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14][[ 0 1 2 3 4] [ 5 6 7 8 9] [10 11 12 13 14]]
np是指定了numpy的别名,np.arange依次造出十五个元素 变成了一个向量的形式,reshape函数表明,我们要生成一个3行5列这样的矩阵
此时我们输入如下语句:
print(a.shape)
将会打印出如下结果:
(3, 5)
10.ndim
ndim中的dim是英文dimension维度的缩写,表示打印出矩阵的维度
举个例子:
import numpy as npa = np.arange(15).reshape(3,5)print(a.ndim)
打印结果如下:
>>2
打印出当前矩阵的维度为2
11.size
size打印出矩阵的元素个数
举个例子:
import numpy a = np.arange(15).reshape(3,5)print(a.size)
打印结果如下:
>>15
12.zeros
初始化一个矩阵,可以传入参数行和列,生成一个零矩阵
举个例子:
import numpy as npnp.zeros((3,4))
打印结果如下:
array([[ 0., 0., 0., 0.], [ 0., 0., 0., 0.], [ 0., 0., 0., 0.]])
初始化一个矩阵,生成一个三行四列的零矩阵
13.ones
初始化一个矩阵,可以传入参数行和列,还可以传入数据类型dtype
举个例子:
import numpy as npnp.ones((2,3,4),dtype=np.int32)
打印结果如下:
array([[[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]], [[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]]])
构造出一个三维矩阵 矩阵中的元素均为1 然后我们用dtype指定元素类型为int32
14.arange
arange通过定义起点 终点 步长 然后我们构造出了一个数组 右边界不可以取等号,取的是左闭右开区间
举个例子:
import numpy as npnp.arange(10,30,5)
打印结果如下:
array([10, 15, 20, 25])
15.random
random构造出一个矩阵 产生的值默认在-1-1之间
举个例子:
import numpy as np np.random.random((2,3))
打印结果如下:
array([[ 0.77296788, 0.00748236, 0.59905565], [ 0.05577331, 0.08520327, 0.58034632]])
16.linspace
举个例子:
from numpy import pinp.linspace(0,2*pi,100)
打印结果如下:
array([ 0. , 0.06346652, 0.12693304, 0.19039955, 0.25386607, 0.31733259, 0.38079911, 0.44426563, 0.50773215, 0.57119866, 0.63466518, 0.6981317 , 0.76159822, 0.82506474, 0.88853126, 0.95199777, 1.01546429, 1.07893081, 1.14239733, 1.20586385, 1.26933037, 1.33279688, 1.3962634 , 1.45972992, 1.52319644, 1.58666296, 1.65012947, 1.71359599, 1.77706251, 1.84052903, 1.90399555, 1.96746207, 2.03092858, 2.0943951 , 2.15786162, 2.22132814, 2.28479466, 2.34826118, 2.41172769, 2.47519421, 2.53866073, 2.60212725, 2.66559377, 2.72906028, 2.7925268 , 2.85599332, 2.91945984, 2.98292636, 3.04639288, 3.10985939, 3.17332591, 3.23679243, 3.30025895, 3.36372547, 3.42719199, 3.4906585 , 3.55412502, 3.61759154, 3.68105806, 3.74452458, 3.8079911 , 3.87145761, 3.93492413, 3.99839065, 4.06185717, 4.12532369, 4.1887902 , 4.25225672, 4.31572324, 4.37918976, 4.44265628, 4.5061228 , 4.56958931, 4.63305583, 4.69652235, 4.75998887, 4.82345539, 4.88692191, 4.95038842, 5.01385494, 5.07732146, 5.14078798, 5.2042545 , 5.26772102, 5.33118753, 5.39465405, 5.45812057, 5.52158709, 5.58505361, 5.64852012, 5.71198664, 5.77545316, 5.83891968, 5.9023862 , 5.96585272, 6.02931923, 6.09278575, 6.15625227, 6.21971879, 6.28318531])
指定一个区间 我们要生成100个数 指定了一个值 起点值为0 终点值为2*pi
linspace意思就是在区间里面造出100个值 这100个值间隔是平均的再举一个例子:
from numpy import pinp.sin(np.linspace(0,2*pi,100))
打印结果如下:
array([ 0.00000000e+00, 6.34239197e-02, 1.26592454e-01, 1.89251244e-01, 2.51147987e-01, 3.12033446e-01, 3.71662456e-01, 4.29794912e-01, 4.86196736e-01, 5.40640817e-01, 5.92907929e-01, 6.42787610e-01, 6.90079011e-01, 7.34591709e-01, 7.76146464e-01, 8.14575952e-01, 8.49725430e-01, 8.81453363e-01, 9.09631995e-01, 9.34147860e-01, 9.54902241e-01, 9.71811568e-01, 9.84807753e-01, 9.93838464e-01, 9.98867339e-01, 9.99874128e-01, 9.96854776e-01, 9.89821442e-01, 9.78802446e-01, 9.63842159e-01, 9.45000819e-01, 9.22354294e-01, 8.95993774e-01, 8.66025404e-01, 8.32569855e-01, 7.95761841e-01, 7.55749574e-01, 7.12694171e-01, 6.66769001e-01, 6.18158986e-01, 5.67059864e-01, 5.13677392e-01, 4.58226522e-01, 4.00930535e-01, 3.42020143e-01, 2.81732557e-01, 2.20310533e-01, 1.58001396e-01, 9.50560433e-02, 3.17279335e-02, -3.17279335e-02, -9.50560433e-02, -1.58001396e-01, -2.20310533e-01, -2.81732557e-01, -3.42020143e-01, -4.00930535e-01, -4.58226522e-01, -5.13677392e-01, -5.67059864e-01, -6.18158986e-01, -6.66769001e-01, -7.12694171e-01, -7.55749574e-01, -7.95761841e-01, -8.32569855e-01, -8.66025404e-01, -8.95993774e-01, -9.22354294e-01, -9.45000819e-01, -9.63842159e-01, -9.78802446e-01, -9.89821442e-01, -9.96854776e-01, -9.99874128e-01, -9.98867339e-01, -9.93838464e-01, -9.84807753e-01, -9.71811568e-01, -9.54902241e-01, -9.34147860e-01, -9.09631995e-01, -8.81453363e-01, -8.49725430e-01, -8.14575952e-01, -7.76146464e-01, -7.34591709e-01, -6.90079011e-01, -6.42787610e-01, -5.92907929e-01, -5.40640817e-01, -4.86196736e-01, -4.29794912e-01, -3.71662456e-01, -3.12033446e-01, -2.51147987e-01, -1.89251244e-01, -1.26592454e-01, -6.34239197e-02, -2.44929360e-16])
指定一个区间 我们要生成100个数 指定了一个值 起点值为0 终点值为2*pi
linspace意思就是在区间里面造出100个值 这100个值间隔是平均的 然后最后我们对这个值取正弦即可17.floor与ravel
举个例子:
import numpy as npa = np.floor(10*np.random.random((3,4)))print(a)print('------')print(a.ravel())print('------')a.shape = (6,2)print(a)print('------')print(a.T)
打印结果如下:
[[ 4. 9. 0. 4.] [ 8. 5. 4. 9.] [ 1. 9. 2. 6.]]------[ 4. 9. 0. 4. 8. 5. 4. 9. 1. 9. 2. 6.]------[[ 4. 9.] [ 0. 4.] [ 8. 5.] [ 4. 9.] [ 1. 9.] [ 2. 6.]]------[[ 4. 0. 8. 4. 1. 2.] [ 9. 4. 5. 9. 9. 6.]]
random.random((3,4))是建立一个3行4列的一个区间范围在-1~1的矩阵
然后我们如果觉得值太小了 就可以在np这里*10 floor操作是向下取整ravel 是将一个矩阵拉平成一个向量 即用向量的形式表示这个矩阵
而a.shape(6,2)又将一个向量转换为一个6*2的矩阵
a.T表示求矩阵a的一个转置矩阵 行和列进行变换
如果一个向量中的元素个数已知 我们已经确定了其中的行数或者列数 其实此时另外一个数已经默认确定了 我们不想去计算那个列数或者行数
是多少时 我们应该怎么办呢 我们如果已经确定了其中的行数或者列数 我们只需要在另外一个位置写上-1就好了 此时计算机会自动帮你计算好这个值18.hstack与vstack
np.hstack((a,b)) 将a矩阵和b矩阵进行横向拼接
np.vstack((a,b))将a矩阵和b矩阵进行纵向拼接
举个例子:
import numpy as npa = np.floor(10*np.random.random((2,12)))print(a)print('------')print(np.hsplit(a,3))print('------')print(np.hsplit(a,(3,4)))a = np.floor(10*np.random.random((12,2)))print('------')print(a)np.vsplit(a,3)
打印结果如下:
[[ 5. 1. 3. 4. 6. 5. 4. 5. 4. 8. 2. 2.] [ 4. 9. 2. 6. 8. 9. 5. 9. 6. 5. 5. 7.]]------[array([[ 5., 1., 3., 4.], [ 4., 9., 2., 6.]]), array([[ 6., 5., 4., 5.], [ 8., 9., 5., 9.]]), array([[ 4., 8., 2., 2.], [ 6., 5., 5., 7.]])]------[array([[ 5., 1., 3.], [ 4., 9., 2.]]), array([[ 4.], [ 6.]]), array([[ 6., 5., 4., 5., 4., 8., 2., 2.], [ 8., 9., 5., 9., 6., 5., 5., 7.]])]------[[ 1. 8.] [ 7. 4.] [ 0. 5.] [ 9. 1.] [ 6. 5.] [ 4. 5.] [ 1. 2.] [ 0. 1.] [ 3. 6.] [ 2. 7.] [ 7. 8.] [ 7. 6.]][array([[ 1., 8.], [ 7., 4.], [ 0., 5.], [ 9., 1.]]), array([[ 6., 5.], [ 4., 5.], [ 1., 2.], [ 0., 1.]]), array([[ 3., 6.], [ 2., 7.], [ 7., 8.], [ 7., 6.]])]
hsplit是对行进行切分 a表示待切分的行参数 3表示切分成三份
np.hsplit(a,(3,4)) 传入元组 指定位置进行切割
vsplit是对列进行切分 a表示待切分的行参数 3表示切分成三份
19.view与copy
view是浅复制
举个例子:
import numpy as npa = np.arange(12)b = aprint(b is a)b.shape = 3,4print(a.shape)print(id(a))print(id(b))
打印结果如下:
True(3, 4)31449673277923144967327792
我们可以发现a与b的地址是相同的,这个就是所谓的深复制
让我再看看下面这个例子:
import numpya = np.arange(12)c = a.view()print(c is a) c.shape = 2,6print(a.shape)c[0,4] = 1234print(a)print(id(a))print(id(c))
打印结果如下:
False(12,)[ 0 1 2 3 1234 5 6 7 8 9 10 11]23910251746082391025175008
我们可以看出浅复制不会复制a的地址到c,改变c的值不会影响到a
再看下一个写法:
import numpy as npa = np.arange(12)d = a.copy()d is a
打印结果如下:
False
从结果我们可以看出,copy也是属于浅拷贝
20.argmax
argmax 索引最大值的位置
举个例子:
import numpy as npdata = np.sin(np.arange(20)).reshape(5,4)print(data)ind = data.argmax(axis=0)print(ind)data_max = data[ind,range(data.shape[1])]print(data_max)
打印结果如下:
[[ 0. 0.84147098 0.90929743 0.14112001] [-0.7568025 -0.95892427 -0.2794155 0.6569866 ] [ 0.98935825 0.41211849 -0.54402111 -0.99999021] [-0.53657292 0.42016704 0.99060736 0.65028784] [-0.28790332 -0.96139749 -0.75098725 0.14987721]][2 0 3 1][ 0.98935825 0.84147098 0.99060736 0.6569866 ]
argmax 索引最大值的位置
data.argmax(axis=0) axis=0意思是指定列去索引 找出最大值返回索引值的位置
21.tile
tile 对当前的行和列进行扩展
举个例子:
import numpy as npa = np.arange(0,40,10)print(a)b = np.tile(a,(3,5))print(b)
打印结果如下:
[ 0 10 20 30][[ 0 10 20 30 0 10 20 30 0 10 20 30 0 10 20 30 0 10 20 30] [ 0 10 20 30 0 10 20 30 0 10 20 30 0 10 20 30 0 10 20 30] [ 0 10 20 30 0 10 20 30 0 10 20 30 0 10 20 30 0 10 20 30]]
我们可以看出,矩阵由原来的一维扩展到了三行五列
22.sort与argsort
sort 对当前的数组按照行的维度进行排序(因为axis=1)
argsort 是对值的索引进行排序 默认是值从小到大 然后按照值排序获取索引 输出索引
举个例子:
import numpy as npa = np.array([[4,3,5],[1,2,4]])print(a)print('------')b = np.sort(a,axis=1)print(b)a.sort(axis=1)print('------')print(a)a = np.array([4,3,1,2])j = np.argsort(a)print('------')print(j)print('------')print(a[j])
打印结果如下:
[[4 3 5] [1 2 4]]------[[3 4 5] [1 2 4]]------[[3 4 5] [1 2 4]]------[2 3 1 0]------[1 2 3 4]
以上是我在运用中所用到的一些函数及用法,欢迎大家指正批评,如果有需要改进的地方,还希望不吝赐教,如果觉得本文对你有用,别忘记关注订阅推荐博主,谢谢大家的支持!!!