当前位置：首页 > 面试题库 >

如何根据数据帧的NAN百分比删除列？

施敏达

2023-03-14

问题内容：

对于的某些列df，如果该列的80％是NAN。

删除此类列的最简单代码是什么？

问题答案：

您可以使用isnull与mean用于treshold，然后删除列boolean indexing用loc（因为删除列），还需要反转的条件-这样<.8的手段删除所有列>=0.8：

df = df.loc[:, df.isnull().mean() < .8]

样品：

np.random.seed(100)
df = pd.DataFrame(np.random.random((100,5)), columns=list('ABCDE'))
df.loc[:80, 'A'] = np.nan
df.loc[:5, 'C'] = np.nan
df.loc[20:, 'D'] = np.nan

print (df.isnull().mean())
A    0.81
B    0.00
C    0.06
D    0.80
E    0.00
dtype: float64

df = df.loc[:, df.isnull().mean() < .8]
print (df.head())
         B   C         E
0  0.278369 NaN  0.004719
1  0.670749 NaN  0.575093
2  0.209202 NaN  0.219697
3  0.811683 NaN  0.274074
4  0.940030 NaN  0.175410

如果要通过最小值dropna与参数一起很好地删除列，thresh并且axis=1要删除列：

np.random.seed(1997)
df = pd.DataFrame(np.random.choice([np.nan,1], p=(0.8,0.2),size=(10,10)))
print (df)
     0   1    2    3    4    5    6    7   8    9
0  NaN NaN  NaN  1.0  1.0  NaN  NaN  NaN NaN  NaN
1  1.0 NaN  1.0  NaN  NaN  NaN  NaN  NaN NaN  NaN
2  NaN NaN  NaN  NaN  NaN  1.0  1.0  NaN NaN  NaN
3  NaN NaN  NaN  NaN  1.0  NaN  NaN  NaN NaN  NaN
4  NaN NaN  NaN  NaN  NaN  1.0  NaN  NaN NaN  1.0
5  NaN NaN  NaN  1.0  1.0  NaN  NaN  1.0 NaN  1.0
6  NaN NaN  NaN  NaN  NaN  NaN  NaN  NaN NaN  NaN
7  NaN NaN  NaN  NaN  NaN  NaN  NaN  NaN NaN  NaN
8  NaN NaN  NaN  NaN  NaN  NaN  NaN  1.0 NaN  NaN
9  1.0 NaN  NaN  NaN  1.0  NaN  NaN  1.0 NaN  NaN

df1 = df.dropna(thresh=2, axis=1)
print (df1)
     0    3    4    5    7    9
0  NaN  1.0  1.0  NaN  NaN  NaN
1  1.0  NaN  NaN  NaN  NaN  NaN
2  NaN  NaN  NaN  1.0  NaN  NaN
3  NaN  NaN  1.0  NaN  NaN  NaN
4  NaN  NaN  NaN  1.0  NaN  1.0
5  NaN  1.0  1.0  NaN  1.0  1.0
6  NaN  NaN  NaN  NaN  NaN  NaN
7  NaN  NaN  NaN  NaN  NaN  NaN
8  NaN  NaN  NaN  NaN  1.0  NaN
9  1.0  NaN  1.0  NaN  1.0  NaN

编辑：对于非布尔数据

列中的NaN条目总数必须少于条目总数的80％：

 df = df.loc[:, df.isnull().sum() < 0.8*df.shape[0]]

类似资料：

Python Pandas-根据NaN计数阈值删除组

问题内容：我有一个基于不同气象站的数据集，我想删除具有多个NaN的’stationID’组。例如，如果我键入：然后，我想删除一个组中至少具有一定数量的NaN（例如30个）的组。据我了解，我不能将dropna（thresh = 10）与groupby一起使用：那么，用熊猫做到这一点的最佳方法是什么？问题答案：你可以做的IIUC 例：因此，这将滤除具有大于1 nan值的组
根据两个相关条件删除数据帧行

我有一个相当大的数据帧（几百列），我想对它执行以下操作。我在下面用一个玩具数据框和一个简单的条件来说明我需要什么。对于每一行：条件#1：检查其中两列的值是否为零（0）。如果这是真的，请保留该行并继续下一行。如果任一列的值为零（0），则条件为真。如果条件#1为False（第1列或第4列中没有零），请检查行中所有剩余的列。如果任何剩余列的值为零，则删除该行。我希望过滤后的数据帧作为一个新的、独立
删除/保留数据帧列

我使用Pandas read_csv从csv文件导入了一个数据帧。它的形状是735，36。我需要删除最后33列-保留前3列。这些列是，，我已经尝试了这里所有的建议无论我做什么，我都会得到以下错误：例如：我又开始了。“bool对象不可下标”错误已经消失，我认为df已经被覆盖。我试图使用一些公开的医院活动数据，并从中提取数据。我是一名神经外科医生，所以你可能需要耐心。数据在这里https:/
如何根据条件删除熊猫数据框中的列？

问题内容：我有一个熊猫DataFrame，里面有很多值。如何删除这样的列？我试图这样做：有更优雅的方法吗？问题答案：这是保留每列中小于或等于指定数量的nan的列的另一种选择：在我的测试中，这似乎比李建勋在我测试的案例中建议的放置列方法要快一些：
如何根据列表选择数据帧的一部分？[复制]

我有以下数据框：我有以下一些位于美国的城市列表：我想在数据框中只保留列表\u americ中国家的“名称”。因此，我尝试执行以下代码：此代码产生以下错误：我希望输出为：
根据另一个数据帧中的单元格引用删除一个数据帧中的值

我相信这很简单，但找不到答案。我有一个数据帧df：然后，我有另一个较小的数据框，其中包含单元格引用（行号和列号），引用df中应为空的特定单元格（即NA）：我如何用NA替换df中所有由cellRefs中的行和列引用引用的单元格？

相关阅读

根据条件获取数据帧行数根据长度将数据帧分为相对均匀的块根据两列删除重复项如何删除R数据框中的行？根据一列值删除重复的行

相关文章

PostgreSQL 删除数据库 MongoDB删除数据库 MySQL删除数据表 MySQL删除数据库 Oracle删除表数据

相关问答

如何计算pandas数据帧中列中的NaN值根据分区列从数据库增量表中删除在pandas中，如何从数据帧中删除所有不包含至少一个NaN的列？根据RDD/Spark数据帧中的特定列从行中删除重复项如何根据数值筛选熊猫数据帧？

相关工具

根据开发者帐号查看App 物体根据重力感应运动解析html网页的数据百度云分享爬虫基于FMDB的数据库操作

相关文档

Python 和 Pandas 数据分析教程鲜活的数据数据可视化指南利用 Python 进行数据分析 · 第 2 版数据科学 Python 数据结构