如果不使用groupby
我如何在没有NaN
的情况下过滤数据?
假设我有一个矩阵,客户将填写'N/a'、'N/a'
或其任何变体,其他人则将其留空:
import pandas as pd
import numpy as np
df = pd.DataFrame({'movie': ['thg', 'thg', 'mol', 'mol', 'lob', 'lob'],
'rating': [3., 4., 5., np.nan, np.nan, np.nan],
'name': ['John', np.nan, 'N/A', 'Graham', np.nan, np.nan]})
nbs = df['name'].str.extract('^(N/A|NA|na|n/a)')
nms=df[(df['name'] != nbs) ]
输出:
>>> nms
movie name rating
0 thg John 3
1 thg NaN 4
3 mol Graham NaN
4 lob NaN NaN
5 lob NaN NaN
我如何过滤掉NaN
值,这样我就可以得到这样的结果:
movie name rating
0 thg John 3
3 mol Graham NaN
我想我需要像~np这样的东西。isnan
但是tilda不能处理字符串。
df.dropna(subset=['columnName1', 'columnName2'])
最简单的解决方案:
filtered_df = df[df['name'].notnull()]
因此,它只过滤掉“name”列中没有NaN值的行。
对于多列:
filtered_df = df[df[['name', 'country', 'region']].notnull().all(1)]
放下它们:
nms.dropna(thresh=2)
这将删除至少有两个非NaN
的所有行。
然后,您可以在名称为NaN
的地方删除:
In [87]:
nms
Out[87]:
movie name rating
0 thg John 3
1 thg NaN 4
3 mol Graham NaN
4 lob NaN NaN
5 lob NaN NaN
[5 rows x 3 columns]
In [89]:
nms = nms.dropna(thresh=2)
In [90]:
nms[nms.name.notnull()]
Out[90]:
movie name rating
0 thg John 3
3 mol Graham NaN
[2 rows x 3 columns]
编辑
实际上,看看您最初想要的是什么,您就可以这样做,而无需调用dropna
:
nms[nms.name.notnull()]
使现代化
3年后看这个问题,有一个错误,首先阈值
arg至少寻找n
非NaN
值,所以实际上输出应该是:
In [4]:
nms.dropna(thresh=2)
Out[4]:
movie name rating
0 thg John 3.0
1 thg NaN 4.0
3 mol Graham NaN
可能是3年前我弄错了,或者是我运行的熊猫版本有错误,这两种情况都是完全可能的。
问题内容: 如果不使用,我将如何过滤掉没有的数据? 假设我有一个矩阵,客户可以在其中填写表格或其任何变体,而其他人则将其留空: 输出: 我将如何过滤出值,以便可以像这样使用结果: 我猜我需要类似的东西,但tilda不适用于字符串。 问题答案: 放下它们: 这将删除所有至少有两个non-的行。 然后,您可以将名称放在哪里: 编辑 实际查看您最初想要的是什么,而无需调用即可: 更新 3年后的这个问题,
问题内容: 我有一个很大的时间序列数据帧(称为 df ),前5条记录如下所示: 目标: 我正在尝试删除 “ stn” 列中存在列表中 任何 字符串 的 行。因此,我基本上是在尝试过滤此数据集,以使其不包含以下列表中包含任何字符串的行。 尝试: 返回值: 出[78]: 没有! 我尝试了一些引号,方括号甚至是lambda函数的组合;尽管我还很新,所以可能没有正确使用语法。 问题答案: 使用isin:
问题内容: 我有一个DataFrame4列,其中2个包含字符串值。我想知道是否有一种方法可以根据针对特定列的部分字符串匹配来选择行? 换句话说,一个函数或lambda函数将执行以下操作 返回一个布尔值。我熟悉的语法,但似乎无法找到一种使用部分字符串匹配说的方法。 有人可以指出正确的方向吗? 问题答案: 基于github问题#620,看来你很快将能够执行以下操作: 更新:熊猫0.8.1及更高版本中提
问题内容: 我喜欢过滤掉字符串长度不等于10的数据。 如果我尝试过滤掉列A或B的字符串长度不等于10的任何行,则尝试这样做。 这工作缓慢,但正在工作。 但是,当A中的数据不是字符串而是数字(有时在read_csv读取输入文件时解释为数字)时,有时会产生错误。 我相信应该有更高效,更优雅的代码来代替。 根据下面的答案和评论,我找到的最简单的解决方案是: 要么 要么 问题答案: 应用于filex.cs
问题内容: 我有一个包含很多列的数据框。现在,我只想选择某些列。我将要选择的所有列名称保存到Python列表中,现在我想根据该列表过滤数据框。 我一直在尝试做: 其中list包含我要选择的所有列名。 但是我得到了错误: 任何帮助吗? 问题答案: 您可以删除一个: 也最好使用其他名称,例如: 看起来工作正常,我只尝试简化一下: :
假设我有一个有2列的表:name和number。Name是一个字符串,可以有一个或多个单词,我想要一个新的查询选择名称编号,但在Name列,它只有最长的词,原来的表。 SQL中是否有一个函数只从字符串中提取最长的单词?