我有一个数据框,看起来像:
A B C D E
a aa 1 2 3
b aa 4 5 6
c cc 7 8 9
d cc 11 10 3
e dd 71 81 91
因为行(1,2)和行(3,4)具有重复的列B的值。我只想保留其中一个。
最终输出应为:
A B C D E
a aa 1 2 3
c cc 7 8 9
e dd 71 81 91
我该如何利用熊猫来完成这件事呢?
在一般情况下,我们需要跨多个列进行删除。在这种情况下,您需要按如下方式使用
df.drop_duplicates(subset=['A', 'C'], keep=First)
我们在subset参数中指定列名,并使用keep参数说明需要保留的内容
>
first:删除重复项,但第一次出现除外。
最后:删除重复项,除了最后出现的。
False:删除所有重复项。
DataFrame.drop_duplicates(subset="B", keep='first')
保留:保留是控制如何考虑重复价值。
>
如果'first',它认为第一个值是唯一的,其余相同的值是重复的。
如果为“last”,则认为最后一个值是唯一的,其余相同的值是重复的。如果为False,则将所有相同的值视为重复值
尝试删除重复项
df = df.drop_duplicates('B')
A B C D E
0 a aa 1 2 3
2 c cc 7 8 9
4 e dd 71 81 91
问题内容: 我犯了一个错误,并且有多余的重复项。 我有一个包含4个关键字段的表。,,,。 是自动递增和主键。 的组合,而应该是唯一的,我有我之前创建唯一索引来删除重复的行。有些行有一个重复项,有些行有很多重复项。 向我显示了我需要处理的重复值。但是现在我不知道如何保留一个并删除每个重复集的其余部分。 问题答案: 备份数据,然后… MySQL在DELETE语句中支持JOIN。如果要保留第一个重复项:
我试图编写一个代码,它接收并删除该中的重复字符。 例如。如果,则应返回。到目前为止,我的代码只返回与给定的相同的tekst…
本文向大家介绍pandas 删除重复,包括了pandas 删除重复的使用技巧和注意事项,需要的朋友参考一下 示例 用途drop_duplicates: 当您不想获取数据框的副本,而要修改现有的数据框时:
我构建了一个使用BingAPI下载数据集的代码。当我在终端上运行它时,它返回以下错误: 所以我升级了Numpy,但没有用 那么我该怎么做呢?
我需要删除每个表ID的所有重复项,除了一个之外。像下面这样。我需要删除valueid上01,02,03的所有副本。。。 原件: 应该这样结束: 我试着用这样的东西来做,但是我不知道我怎么才能在id上删除这些内容 有什么建议吗? 提前感谢
问题内容: 所以这让我很困扰。 我有两个数组: 现在,我想比较这两个数组,并删除所有重复的值。 最后,我想要这两个数组,但其中没有’demo’和’some’值。 我想从具有相同索引键和值的array-s中删除所有值。 数组将始终具有相同数量的值和索引,我只想比较它们并从它们中删除具有相同索引键和值的条目。 我现在正在做这样的事情: 这有效!但是我想知道还有其他方法吗?也许不使用foreach循环?