问题：

在数据帧中删除重复项[duplicate]

呼延聪

2023-03-14

我有一个这样的专栏：

ID#  Username Name 
1411 at8035   Ankita
1320 mppa3    Manoj
1462 asu32    Asu
1462 asu32    Asu
1462 asu32    Asu
1488 kot3     Karla

我希望专栏看起来像这样：

ID#  Username Name 
1411 at8035   Ankita
1320 mppa3    Manoj
1462 asu32    Asu
1488 kot3     Karla

只希望保留重复记录的第一个或最后一个。

目前，我使用的是：

df.drop_duplicates(['Username','ID#'],keep='last')

但它不起作用。我错过了什么吗？

共有2个答案

锺离伟彦

2023-03-14

另一种方法是在筛选True值之前，突出显示最后一次复制的值并还原选择

df[~df.duplicated(subset=['Username','ID#'], keep='last')]



    ID# Username    Name
0  1411   at8035  Ankita
1  1320    mppa3   Manoj
4  1462    asu32     Asu
5  1488     kot3   Karla

牛昱

2023-03-14

用inplace=True这样做，

 df.drop_duplicates(subset=['Username','ID#'],keep='last',inplace=True)
 print(df)

类似资料：

从json数据中删除重复项

问题内容：有没有一种有效的方法使用python从此数据中删除重复的“ person_id”字段？在这种情况下，只需保持第一次出现。应成为：问题答案：假设您的JSON是有效语法，并且您确实在请求帮助，因为您将需要执行以下操作如果要始终保留第一次出现，则需要执行以下操作
在数据帧中删除重复索引的最快方法[重复]

如果我想在数据帧中删除重复的索引，由于明显的原因，以下方法不起作用：和查找名为“index”的列如果我想删除索引，我必须执行以下操作：有没有更高效的方法？
从连接两个数据帧的Spark SQL中删除重复项

我有两个火花DF，我需要加入。只选择df1中存在的df2中的值，不应该有重复的行。例如： df1： df2：我正在做以下工作：但是我的输出有几个重复的行。如果val从df1中删除，我试图实现一个类似except的操作。但是除了之外，
删除重复项而不删除重复项

请注意，在转向您之前，我已经浏览了各种帖子。事实上，我尝试实现中提供的解决方案：基于“notin”条件从数据帧中删除行我的问题如下。让我们假设我有一个巨大的数据帧，我想删除重复的数据帧。我很清楚我可以使用drop_duplicates，因为这是最快的最简单的方法。然而，我们的老师希望我们创建一个包含重复项ID的列表，然后根据这些值是否包含在上述列表中删除它们。现在，让我们看看输出：因此，我得
Python基于一列删除重复数据帧[duplicate]

我有一个这样的数据帧（）：我想基本上删除重复记录，以便字段是唯一的。我不关心被丢弃的记录，在这种情况下，地址已经被删除，所以唯一通过的是拼写错误。我想要以下结果的数据框：在R中，基本上是这样做的：但是我需要一种方法在熊猫身上做到这一点。
在MySQL中删除重复项

问题内容：我有这样的桌子我想执行一个查询，以除去所有最新的重复项。我希望你有个主意吗？例如，查询后的表必须是这样的问题答案：语法可能需要调整，但是应该做到这一点。此外，您可能希望将子查询预查询到其自己的表FIRST中，然后对该结果集运行DELETE FROM。

在数据帧中删除重复项[duplicate]

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档