当前位置: 首页 > 知识库问答 >
问题:

在数据帧中删除重复项[duplicate]

呼延聪
2023-03-14

我有一个这样的专栏:

ID#  Username Name 
1411 at8035   Ankita
1320 mppa3    Manoj
1462 asu32    Asu
1462 asu32    Asu
1462 asu32    Asu
1488 kot3     Karla

我希望专栏看起来像这样:

ID#  Username Name 
1411 at8035   Ankita
1320 mppa3    Manoj
1462 asu32    Asu
1488 kot3     Karla

只希望保留重复记录的第一个或最后一个。

目前,我使用的是:

df.drop_duplicates(['Username','ID#'],keep='last')

但它不起作用。我错过了什么吗?

共有2个答案

锺离伟彦
2023-03-14

另一种方法是在筛选True值之前,突出显示最后一次复制的值并还原选择

df[~df.duplicated(subset=['Username','ID#'], keep='last')]



    ID# Username    Name
0  1411   at8035  Ankita
1  1320    mppa3   Manoj
4  1462    asu32     Asu
5  1488     kot3   Karla
牛昱
2023-03-14

inplace=True这样做,

 df.drop_duplicates(subset=['Username','ID#'],keep='last',inplace=True)
 print(df)
 类似资料:
  • 问题内容: 有没有一种有效的方法使用python从此数据中删除重复的“ person_id”字段?在这种情况下,只需保持第一次出现。 应成为: 问题答案: 假设您的JSON是有效语法,并且您确实在请求帮助,因为您将需要执行以下操作 如果要始终保留第一次出现,则需要执行以下操作

  • 如果我想在数据帧中删除重复的索引,由于明显的原因,以下方法不起作用: 和 查找名为“index”的列 如果我想删除索引,我必须执行以下操作: 有没有更高效的方法?

  • 我有两个火花DF,我需要加入。只选择df1中存在的df2中的值,不应该有重复的行。 例如: df1: df2: 我正在做以下工作: 但是我的输出有几个重复的行。 如果val从df1中删除,我试图实现一个类似except的操作。但是除了之外,

  • 请注意,在转向您之前,我已经浏览了各种帖子。事实上,我尝试实现中提供的解决方案:基于“notin”条件从数据帧中删除行 我的问题如下。让我们假设我有一个巨大的数据帧,我想删除重复的数据帧。我很清楚我可以使用drop_duplicates,因为这是最快的最简单的方法。然而,我们的老师希望我们创建一个包含重复项ID的列表,然后根据这些值是否包含在上述列表中删除它们。 现在,让我们看看输出: 因此,我得

  • 我有一个这样的数据帧(): 我想基本上删除重复记录,以便字段是唯一的。我不关心被丢弃的记录,在这种情况下,地址已经被删除,所以唯一通过的是拼写错误。我想要以下结果的数据框: 在R中,基本上是这样做的: 但是我需要一种方法在熊猫身上做到这一点。

  • 问题内容: 我有这样的桌子 我想执行一个查询,以除去所有最新的重复项。我希望你有个主意吗? 例如,查询后的表必须是这样的 问题答案: 语法可能需要调整,但是应该做到这一点。此外,您可能希望将子查询预查询到其自己的表FIRST中,然后对该结果集运行DELETE FROM。