NumPy(Numerical Python)是一个用于科学计算的库,它提供了对多维数组(例如矩阵)和一系列数学函数的支持。NumPy 中包含了处理 NaN(Not-a-Number)和 Inf(Infinity)等特殊值的功能。本文主要介绍一下Python Pandas NumPy 中 NaN(Not-a-Number)和 Inf(Infinity)常用赋值替换删除的处理方法,以及示例代码。

1、NaN(Not-a-Number)

NaN 是一个特殊的浮点数值,表示一个不是有效数字的值。它通常用于表示缺失的数据或不可计算的结果。

例如,

import numpy as np

# 创建一个包含 NaN 的数组
arr = np.array([3.0, 4.0, np.nan, 6.0])
print(arr)
# 将数组中的值赋值为 NaN
# np.nan为特殊的浮点数值,如数组中的值为整型,则是不能赋值的
arr[0] = np.nan
print(arr)

1)通过where方法和isnan方法查找Nan行和列

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(18).reshape(3,6), index=list('abc'), columns=list('uvwxyz'))
print('*'*36)
# 将df的第一列变成NaN
df.u = np.nan
print(df)
print('*'*36)
#输出结果,是一个tuple,前面array是横坐标,后面的array是纵坐标。
print(np.where(np.isnan(df)))

2)数据处理

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(18).reshape(3,6), index=list('abc'), columns=list('uvwxyz'))
print('*'*36)
# 将df的第一列变成NaN
df.u = np.nan
print(df)
print('*'*36)
#输出结果,是一个tuple,前面array是横坐标,后面的array是纵坐标。
print(np.where(np.isnan(df)))
print('*'*36)
#数据替换,将Nan值替换成0
print(df.fillna(0, inplace=False))
print('*'*36)
# 使用 replace 替换整个 DataFrame 中的 NaN 值为特定值
print(df.replace(np.nan, 1, inplace=False))
print('*'*36)
#使用np.isnan()
df[np.isnan(df)]=11.0
print(df)
print('*'*36)
# 创建一个包含 NaN 的数组
arr = np.array([3.0, 4.0, np.nan, 6.0])
# 将Nan值为5
arr[np.isnan(arr)]=5
print(arr)

3)删除有Nan的行

import pandas as pd
import numpy as np

x=np.arange(0,30).reshape(5,6)
x=np.array(x,dtype=float)
x[2,3]=np.nan
x[0,4]=np.nan
print(x)
print('*'*36)
#删除包含Nan的行
x1=np.delete(x,np.where(np.isnan(x))[0],axis=0)
print(x1)

2、Inf(Infinity)

Inf 表示正无穷大或负无穷大,通常是在数学计算中产生的结果。

例如,

import numpy as np

# 创建一个包含 Infinity 的数组
arr = np.array([3.0, 4.0, np.inf, -np.inf])
print(arr)

1)通过where方法和isinf方法查找Inf行和列

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(18).reshape(3,6), index=list('abc'), columns=list('uvwxyz'))
print('*'*36)
# 将df的第一列变成Inf
df.u = np.inf
print(df)
print('*'*36)
#输出结果,是一个tuple,前面array是横坐标,后面的array是纵坐标。
print(np.where(np.isinf(df)))

2)数据处理

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(18).reshape(3,6), index=list('abc'), columns=list('uvwxyz'))
print('*'*36)
# 将df的第一列变成NaN
df.u = np.inf
print(df)
print('*'*36)
#输出结果,是一个tuple,前面array是横坐标,后面的array是纵坐标。
print(np.where(np.isinf(df)))
print('*'*36)
# 使用 replace 替换整个 DataFrame 中的 Inf 值为特定值
print(df.replace(np.inf, 1, inplace=False))
print('*'*36)
#使用np.isinf()
df[np.isinf(df)]=11.0
print(df)
print('*'*36)
# 创建一个包含 Inf 的数组
arr = np.array([3.0, 4.0, np.inf, 6.0])
# 将Inf值为5
arr[np.isinf(arr)]=5
print(arr)

3)删除有Inf的行

import pandas as pd
import numpy as np

x=np.arange(0,30).reshape(5,6)
x=np.array(x,dtype=float)
x[2,3]=np.inf
x[0,4]=np.inf
print(x)
print('*'*36)
#删除包含Inf的行
x1=np.delete(x,np.where(np.isinf(x))[0],axis=0)
print(x1)

注意:np.infnp.nan的处理方法基本相同,注意调用处理时方法名。None是Python中用于标识空缺数据,Nan是nunpy和pandas中用于标识空缺数据,None是一个Python特殊的数据类型, 但是NaN却是用一个特殊的float。

推荐文档