当前位置：首页 > 面试题库 >

Python Pandas-根据NaN计数阈值删除组

蒋俊人

2023-03-14

问题内容：

我有一个基于不同气象站的数据集，

stationID | Time | Temperature | ...
----------+------+-------------+-------
123       |  1   |     30      |
123       |  2   |     31      |
202       |  1   |     24      |
202       |  2   |     24.3    |
202       |  3   |     NaN     |
...

我想删除具有多个NaN的’stationID’组。例如，如果我键入：

**>>> df.groupby('stationID')**

然后，我想删除一个组中至少具有一定数量的NaN（例如30个）的组。据我了解，我不能将dropna（thresh = 10）与groupby一起使用：

**>>> df2.groupby('station').dropna(thresh=30)**
*AttributeError: Cannot access callable attribute 'dropna' of 'DataFrameGroupBy' objects...*

那么，用熊猫做到这一点的最佳方法是什么？

问题答案：

你可以做的IIUC df2.loc[df2.groupby('station')['Temperature'].filter(lambda x: len(x[pd.isnull(x)] ) < 30).index]

例：

In [59]:
df = pd.DataFrame({'id':[0,0,0,1,1,1,2,2,2,2], 'val':[1,1,np.nan,1,np.nan,np.nan, 1,1,1,1]})
df

Out[59]:
   id  val
0   0  1.0
1   0  1.0
2   0  NaN
3   1  1.0
4   1  NaN
5   1  NaN
6   2  1.0
7   2  1.0
8   2  1.0
9   2  1.0

In [64]:    
df.loc[df.groupby('id')['val'].filter(lambda x: len(x[pd.isnull(x)] ) < 2).index]

Out[64]:
   id  val
0   0  1.0
1   0  1.0
2   0  NaN
6   2  1.0
7   2  1.0
8   2  1.0
9   2  1.0

因此，这将滤除具有大于1 nan值的组

类似资料：

熊猫：根据阈值条件删除列

我必须解决这个问题：目标：删除大多数行缺少输入的列：1。数据帧df：数据帧2。阈值：确定将删除哪些列。如果阈值为.9，则缺少90%值的列将被丢弃：1。带删除列的数据帧df（如果未删除任何列，则返回相同的数据帧） Excel文档截图我编码了这个：我必须有“自我、博士和阈值”，不能添加更多。代码必须通过下面的测试用例：当我运行VT.drop_nan_col（df，0.9）. head（）时，我不
从数组中删除nan值

我想弄清楚如何从我的数组中删除nan值。我的数组看起来像这样：如何从中删除值？
如何根据数据帧的NAN百分比删除列？

问题内容：对于的某些列，如果该列的80％是。删除此类列的最简单代码是什么？问题答案：您可以使用与用于treshold，然后删除列用（因为删除列），还需要反转的条件-这样的手段删除所有列：样品：如果要通过最小值与参数一起很好地删除列，并且要删除列：编辑：对于非布尔数据列中的NaN条目总数必须少于条目总数的80％：
根据列值删除行

问题内容：有没有一种方法可以根据行中包含的值删除行？例如，我有一个表，其中的值在包含URL值的一列中，例如， /uk/quitclock/om2.asp /uk/quitclock/om666.wav 在这里，我需要删除后缀为WAV，GIF或JPEG的行。我怎么做？如果不可能，那么excel中是否有任何公式可以帮助我做到这一点？问题答案：在数据库上尝试
如何根据阈值删除除某些记录以外的所有记录？

问题内容：我有一个这样的表：我正在尝试删除具有3个以上具有相同ID的名称的记录，但要删除所有记录。因此，我试图得到这样的东西：我不了解如何编写此查询。我已经达到了保留一个记录但没有记录阈值的程度：给我：有什么建议？哦，对了，我不在乎合并时会保留哪些记录。问题答案：您可以使用CTE做到这一点
根据最大值删除一行

问题内容：如何构造一个mySQL查询以基于最大值删除行。我试过了但是有错误？问题答案：采用：请注意，如果存在重复，则将删除所有具有该值的行。关于1093错误的愚蠢之处在于，您可以通过在自引用之间放置一个子查询来解决它：说明 MySQL仅在使用＆语句时检查是否存在正在更新的同一表的一级子查询。这就是为什么将其放在第二级（或更深层）的子查询替代项中的原因。但这只是检查子查询- JO

相关阅读

根据值从多维数组中删除元素根据阈值将NumPy数组转换为0或1 Python Pandas：如何删除nan和-inf值 MySql：根据列重复值删除表行？根据一列值删除重复的行

相关文章

PostgreSQL 删除数据库 MongoDB删除数据库 MySQL删除数据表 MySQL删除数据库 Oracle删除表数据

相关问答

根据两个相关条件删除数据帧行如何删除某列中值为NaN的Pandas DataFrame行根据数据计算中值。R中的表列根据分区列从数据库增量表中删除如何计算熊猫数据帧中某列中的 NaN 值？

相关工具

Flurry统计数据ANE 根据开发者帐号查看App 物体根据重力感应运动方块计数器数据库自动更新及自动赋值工具

相关文档

设计数据密集型应用 SQL 合计函数数据科学鲜活的数据数据可视化指南 Python 数据结构