• 售前

  • 售后

热门帖子
入门百科

浅谈pandas中对nan空值的判定和陷阱

[复制链接]
韩邑王生1977 显示全部楼层 发表于 2021-10-26 12:41:08 |阅读模式 打印 上一主题 下一主题
pandas基于numpy,以是其中的空值nan和numpy.nan是等价的。numpy中的nan并不是空对象,实在际上是numpy.float64对象,以是我们不能误认为其是空对象,从而用bool(np.nan)去判定是否为空值,这是不对的。
对于pandas中的空值,我们该怎样判定,并且有哪些我们轻易掉进去的陷阱,即不能用怎么样的方式去判定呢?
可以判定pandas中单个空值对象的方式:

1、利用pd.isnull(),pd.isna();
2、利用np.isnan();
3、利用is表达式;
4、利用in表达式。
不可以用来判定pandas单个空值对象的方式:

1、不可直接用==表达式判定;
2、不可直接用bool表达式判定;
3、不可直接用if语句判定。
示例:
  1. import pandas as pd
  2. import numpy as np
  3. na=np.nan
  4. # 可以用来判断空值的方式
  5. pd.isnull(na) # True
  6. pd.isna(na) # True
  7. np.isnan(na) # True
  8. na is np.nan # True
  9. na in [np.nan] # True
  10. # 不可以直接用来判断的方式,即以下结果和我们预期不一样
  11. na == np.nan # False
  12. bool(na) # True
  13. if na:
  14.   print('na is not null') # Output: na is not null
  15. # 不可以直接用python内置函数any和all
  16. any([na]) # True
  17. all([na]) #True
复制代码
总结

numpy.nan是一个numpy.float64的非空对象,以是不能直接用bool表达式去判定,故一切依赖于布尔表达式的判定方式都不可,好比if语句。
对于pandas中空值的判定,我们只能通过pandas大概numpy的函数和is表达式去判定,不能用python的内置函数any或all判定。
比较希奇的一点是pandas中空值的判定可以用is表达式判定,但是不能用==表达式判定。我们知道,对于is表达式,假如返回True,表示这两个引用指向的是同一个内存对象,即内存所在是一样的,一样平常同一个对象的不同引用的值也应该是相等的,以是一样平常is表达式为True,那么==表达式也为True。
但是对于numpy.nan对象显然不是这样的,由于其可以用is表达式判定,即当is表达式为True时,但==表达式为False,这说明虽然不同numpy.nan变量引用指向的是同一个内存所在,但是其具有自己的值属性,值是不一样的,以是不能用==来判定,这点必要注意。
补充:Pandas+Numpy 数据中空值的处置处罚操纵:判定、查找、添补及删除
本文整理了数据中空值的处置处罚操纵,主要内容如下:
为了便于描述,界说本文示例数据为如下结构:
  1. df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"])
  2. df #定义示例数据df
复制代码
判定数据中是否有空值

pandas isnull()函数
  1. df.isnull()  #返回df中各元素是否为空的同df大小的数据框
  2. df["A"].isnull() #判断A列中空值情况
  3. df[["A","B"]].isnull() # 指定多列进行空值判断,对于本文实例,下述代码效果同df.isnull()
复制代码
pandas notnull()函数
  1. df.notnull()  #判断df中各元素是否 不是 空值
  2. df["A"].isnull() #判断A列中非空值情况
  3. df[["A","B"]].isnull() # 指定多列进行非空值判断,对于本文实例,下述代码效果同df.notnull()
复制代码
numpy np.isnan() 函数
  1. np.isnan(df)  # 等同于df.isnull()
  2. np.isnan(df["A"])  # 等同于 df["A"].isnull()
  3. np.isnan(df[["A","B"]]) # 等同于 df[["A","B"]].isnull()
复制代码
统计空值/非空值数目
  1. df.isnull().sum() # 统计每列的空值数量
  2. df.notnull().sum() # 统计每列的非空值数量
  3. df["A"].count()   # A列 非空数量
  4. df.count()     # 统计所有列的非空值数量
  5. df.count(axis=1)  # 每行非空值数量,axis=1
  6. df["A"].sum()   # A列 元素数值之和
复制代码
根据空值筛选数据
  1. # 筛选出A列为空的所有行
  2. df[df.A.isnull()]  
  3. df[df["A"].isnull()]
  4. # 筛选出A列非空的所有行
  5. df[df.A.notnull()]  
  6. df[df["A"].notnull()]   
  7. # 筛选出df中存在空值的行
  8. df[df.isnull().values==True]
复制代码
查找空值索引
  1. np.where(np.isnan(df))  # df中空值所在的行索引及列索引
  2. np.where(np.isnan(df.A))  # df中A列空值所在的行索引
复制代码
删除空值 dropna()函数
  1. df.dropna()  # 删除存在空值的行,默认axis=0按行,how=any每行存在一个空值就执行删除行操作
  2. df.dropna(axis=1) # 删除存在空值的列
  3. df.dropna(how="all") # 删除所有列都为空值的特定行
  4. df.dropna(how = "any")  # 删除存在空值的行
  5. # 对特定列空值进行删除
  6. df.dropna(how="any",subset=["A"]) # 删除A列中存在空值的行
  7. df.dropna(how="any",subset=["A","B"]) # 删除A,B列中只要有一列存在空值的行
  8. #将删除操作作用于原数据,修改替换原数据
  9. df.dropna(how="all",subset=["A","B"],inplace=True) # 删除A,B列都为空值的行,并替换原数据
复制代码
添补空值fillna()函数
  1. # 用指定的数字来填充
  2. df.fillna(0)  # 用0来填充df中的空值
  3. # 用指定的函数统计值来填充
  4. df.fillna(df.mean()) # 用df中数据的平均值来填充空值
  5. df.fillna(df.mean()["A"])  #指定用A列数据均值来填充df中空值
  6. df.fillna(df.sum())  # 用df中数据的和来填充空值
  7. # 用字典来填充
  8. values = {'A': 0, 'B': 1}  # A列空值用0填充,B列空值用1填充
  9. df.fillna(value=values)  
  10. # 用指定字符串来填充空值
  11. df.fillna("unkown")
  12. # 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None}
  13. # 每列的空值,用其列下方非空数值填充
  14. df.fillna(method="backfill")
  15. df.fillna(method="bfill")  # 同backfill
  16. # 每列的空值,用其所在列上方非空数值填充,若上方没有元素,保持空值
  17. df.fillna(method="ffill")
  18. df.fillna(method="pad")   # 同 ffill
  19. #limit参数设置填充空值的最大个数
  20. df.fillna(0,limit=1) # 每列最多填充1个空值,超过范围的空值依然为空
  21. #inplace参数空值是否修改原数据df
  22. df.fillna(0,inplace=True) # inplace为true,将修改作用于原数据
复制代码
以上为个人经验,希望能给大家一个参考,也希望大家多多支持草根技术分享。如有错误或未考虑完全的地方,望不吝见教。

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作