我有一个这样的专栏:
ID# Username Name
1411 at8035 Ankita
1320 mppa3 Manoj
1462 asu32 Asu
1462 asu32 Asu
1462 asu32 Asu
1488 kot3 Karla
我希望专栏看起来像这样:
ID# Username Name
1411 at8035 Ankita
1320 mppa3 Manoj
1462 asu32 Asu
1488 kot3 Karla
只希望保留重复记录的第一个或最后一个。
目前,我使用的是:
df.drop_duplicates(['Username','ID#'],keep='last')
但它不起作用。我错过了什么吗?
另一种方法是在筛选True
值之前,突出显示最后一次复制的值并还原选择
df[~df.duplicated(subset=['Username','ID#'], keep='last')]
ID# Username Name
0 1411 at8035 Ankita
1 1320 mppa3 Manoj
4 1462 asu32 Asu
5 1488 kot3 Karla
用inplace=True
这样做,
df.drop_duplicates(subset=['Username','ID#'],keep='last',inplace=True)
print(df)
问题内容: 有没有一种有效的方法使用python从此数据中删除重复的“ person_id”字段?在这种情况下,只需保持第一次出现。 应成为: 问题答案: 假设您的JSON是有效语法,并且您确实在请求帮助,因为您将需要执行以下操作 如果要始终保留第一次出现,则需要执行以下操作
如果我想在数据帧中删除重复的索引,由于明显的原因,以下方法不起作用: 和 查找名为“index”的列 如果我想删除索引,我必须执行以下操作: 有没有更高效的方法?
我有两个火花DF,我需要加入。只选择df1中存在的df2中的值,不应该有重复的行。 例如: df1: df2: 我正在做以下工作: 但是我的输出有几个重复的行。 如果val从df1中删除,我试图实现一个类似except的操作。但是除了之外,
请注意,在转向您之前,我已经浏览了各种帖子。事实上,我尝试实现中提供的解决方案:基于“notin”条件从数据帧中删除行 我的问题如下。让我们假设我有一个巨大的数据帧,我想删除重复的数据帧。我很清楚我可以使用drop_duplicates,因为这是最快的最简单的方法。然而,我们的老师希望我们创建一个包含重复项ID的列表,然后根据这些值是否包含在上述列表中删除它们。 现在,让我们看看输出: 因此,我得
我有一个这样的数据帧(): 我想基本上删除重复记录,以便字段是唯一的。我不关心被丢弃的记录,在这种情况下,地址已经被删除,所以唯一通过的是拼写错误。我想要以下结果的数据框: 在R中,基本上是这样做的: 但是我需要一种方法在熊猫身上做到这一点。
问题内容: 我有这样的桌子 我想执行一个查询,以除去所有最新的重复项。我希望你有个主意吗? 例如,查询后的表必须是这样的 问题答案: 语法可能需要调整,但是应该做到这一点。此外,您可能希望将子查询预查询到其自己的表FIRST中,然后对该结果集运行DELETE FROM。