当前位置: 首页 > 知识库问答 >
问题:

熊猫-从数据框中完全删除重复项[重复]

贡和裕
2023-03-14

我想从熊猫数据框中完全删除重复的项目。例如,我有数据框:

  location     area
0  mountain view  1044ft2
1      palo alto     None
2  mountain view   890ft2
3     san carlos  1000ft2
4        belmont     None

我要做的是在列location中查找唯一的值,并删除所有重复的项。。因此,最终产品将如下所示(注意山景已消失):

  location     area
1      palo alto     None
3     san carlos  1000ft2
4        belmont     None

谢谢。

共有1个答案

巴照
2023-03-14

使用

df.drop_duplicates(subset='location', keep=False)
 类似资料:
  • 问题内容: 我有一个包含两列的数据框,并且。在这种情况下,和的顺序并不重要;例如,我会考虑并将其重复。在熊猫中,从数据框中删除这些重复项的有效方法是什么? 理想情况下,输出将按column的值排序。 问题答案: 您可以在删除重复项之前对数据框的每一行进行排序: 如果您希望按列对结果进行排序:

  • 如果我有这个数据帧: 并且只希望删除空行以生成以下内容: 做这件事最好的方法是什么?

  • 问题内容: 我在本地弄乱了pyspark 1.4中的数据帧,并且在使dropplicates方法起作用时遇到了问题。不断返回错误。我不太确定为什么这样做,因为我似乎遵循最新文档中的语法。似乎我缺少该功能的导入。 问题答案: 这不是导入问题。您只是调用了错误的对象。虽然类为,但应用后为纯Python ,列表不提供方法。您想要的是这样的:

  • 我有2个数据帧,和,有一个列(和其他非重要的)。 我想在中删除包含已在中的电子邮件的行。 我该怎么做?

  • 问题内容: 有没有一种有效的方法使用python从此数据中删除重复的“ person_id”字段?在这种情况下,只需保持第一次出现。 应成为: 问题答案: 假设您的JSON是有效语法,并且您确实在请求帮助,因为您将需要执行以下操作 如果要始终保留第一次出现,则需要执行以下操作

  • 问题内容: 我有一个看起来像这样的熊猫数据框。 我想确定cat和bat是重复的相同值,因此想删除一个记录并仅保留第一条记录。结果数据帧应该只有一个。 问题答案: 使用具有与列的列表上检查重复和保持第一重复的。 如果是: 结果: 然后: 结果: