当前位置: 首页 > 知识库问答 >
问题:

从2个数据框中删除重复[重复]

华和悦
2023-03-14

我有2个数据帧,df1df2,有一个电子邮件列(和其他非重要的)。

我想在df2中删除包含已在df1中的电子邮件的行。

我该怎么做?

共有1个答案

毋宸
2023-03-14

您可以这样做:

df_1[~df_1['email_column'].isin(df_2['email_column'].tolist())
 类似资料:
  • 我试图通过2列连接2个pyspark数据帧,数据帧是: DF1: df2: 我想得到下面的数据帧: 我试过了: 这会让我: 然后我使用以下方法消除重复项: 有没有更好的方法? 我尝试了其他连接(左连接、内连接等。),但不会得到我想要的结果 还有,有没有更好的方法来消除重复行?

  • 问题内容: 我有一个包含两列的数据框,并且。在这种情况下,和的顺序并不重要;例如,我会考虑并将其重复。在熊猫中,从数据框中删除这些重复项的有效方法是什么? 理想情况下,输出将按column的值排序。 问题答案: 您可以在删除重复项之前对数据框的每一行进行排序: 如果您希望按列对结果进行排序:

  • 我想从熊猫数据框中完全删除重复的项目。例如,我有数据框: 我要做的是在列中查找唯一的值,并删除所有重复的项。。因此,最终产品将如下所示(注意已消失): 谢谢。

  • 问题内容: 我在本地弄乱了pyspark 1.4中的数据帧,并且在使dropplicates方法起作用时遇到了问题。不断返回错误。我不太确定为什么这样做,因为我似乎遵循最新文档中的语法。似乎我缺少该功能的导入。 问题答案: 这不是导入问题。您只是调用了错误的对象。虽然类为,但应用后为纯Python ,列表不提供方法。您想要的是这样的:

  • 我有一个数据框 我只想保留唯一的索引,因为索引1是重复的,我想删除它的第二个实例,我该怎么做?我想要我的结果

  • 问题内容: 有没有一种有效的方法使用python从此数据中删除重复的“ person_id”字段?在这种情况下,只需保持第一次出现。 应成为: 问题答案: 假设您的JSON是有效语法,并且您确实在请求帮助,因为您将需要执行以下操作 如果要始终保留第一次出现,则需要执行以下操作