我正在努力去除nans。已经花了一些时间寻找解决方案,但似乎没有任何效果。
下面我附上我的代码样本。整个笔记本可以在我的GitHub这里找到:https://GitHub . com/jarsonX/Temp _ files/blob/main/W3-探索性数据分析(1)。ipynb
import pandas as pd
import seaborn as sns #not used in this sample, needed for plotting later on
import matplotlib as mpl #as above
import matplotlib.pyplot as plt #as above
import numpy as np #as above
df = pd.read_csv("https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/LargeData/m2_survey_data.csv")
df.Age.describe() #dtype float64
df['Age'].isna().value_counts() #287 nans
df['Age'].dropna(how='any', inplace=True) #trying to remove nans
df['Age'].isna().value_counts() #still 287 nans
#Just for the sake of identification of rows
#I tried to print ONLY nans but could not figure out how to do it.
i = 0
for el in df.Age:
print(i, el, type(el))
i += 1
#The first nan is in the 67th row
我错过了什么?
更新:
我设法过滤掉了南斯:
i = 0
for el in df.Age:
if el != el:
print(i, el, type(el))
i += 1
df=df[~df['年龄']. isnull()]
df['Age'].isna().value_counts()
您可以尝试以下代码片段,在系列中调用 dropna
时不考虑 how
参数,因为它只是一列
< code>df.dropna(subset=["Age"],how="any ",inplace=True)
我开始学习熊猫,发现了一个我似乎无法解决的问题。我正在从csv文件加载数据,需要删除一些与几个字符串匹配的行。 CSV: 我所尝试的: 但我得到的错误如下: 我错过了什么?另外,如果我想传递一个列表并从列表中删除所有匹配字符串的行,该怎么办?例子:
我想从熊猫数据框中完全删除重复的项目。例如,我有数据框: 我要做的是在列中查找唯一的值,并删除所有重复的项。。因此,最终产品将如下所示(注意已消失): 谢谢。
df.审查: 目的是删除非英文行。我试过这个和这个,但都没用。下面的代码错误地将所有行标记为英语。
我有一个熊猫数据框,看起来像这样。 我想确定猫和蝙蝠是重复的相同值,因此想删除一条记录,只保留第一条记录。所得到的数据帧应该只具有。
如何删除重复行,但保留所有行的最大值。例如,我有一个包含4行的数据帧: 从这个数据帧中,我想有一个这样的数据帧(3行,按'a'分组,保留所有在'c'中有最大值的行):