当前位置: 首页 > 编程笔记 >

pandas 删除重复

沈嘉瑞
2023-03-14
本文向大家介绍pandas 删除重复,包括了pandas 删除重复的使用技巧和注意事项,需要的朋友参考一下

示例

用途drop_duplicates:

In [216]: df = pd.DataFrame({'A':[1,2,3,3,2],
     ...:                    'B':[1,7,3,0,8]})

In [217]: df
Out[217]: 
   A  B
0  1  1
1  2  7
2  3  3
3  3  0
4  2  8

# keep only the last value
In [218]: df.drop_duplicates(subset=['A'], keep='last')
Out[218]: 
   A  B
0  1  1
3  3  0
4  2  8

# keep only the first value, default value
In [219]: df.drop_duplicates(subset=['A'], keep='first')
Out[219]: 
   A  B
0  1  1
1  2  7
2  3  3

# drop all duplicated values
In [220]: df.drop_duplicates(subset=['A'], keep=False)
Out[220]: 
   A  B
0  1  1

当您不想获取数据框的副本,而要修改现有的数据框时:

In [221]: df = pd.DataFrame({'A':[1,2,3,3,2],
     ...:                    'B':[1,7,3,0,8]})

In [222]: df.drop_duplicates(subset=['A'], inplace=True)

In [223]: df
Out[223]: 
   A  B
0  1  1
1  2  7
2  3  3
           

 类似资料:
  • 我正在读取一个包含重复列的文本文件,通过: 列名为: 所有的时间和时间相对列都包含相同的数据。我想要: 抱歉,我做了个熊猫呆子。如有任何建议,将不胜感激。 其他详细信息 Pandas版本:0.9.0 Python版本:2.7.3 Windows 7 (通过Pythonxy 2.7.3.0安装)

  • 问题内容: 从数据框中删除重复列的最简单方法是什么? 我正在通过以下方式读取具有重复列的文本文件: 列名是: 所有“时间”和“相对时间”列均包含相同的数据。我想要: 我所有的删除,删除等尝试,例如: 导致唯一值索引错误: 很抱歉成为熊猫的菜鸟。任何建议,将不胜感激。 额外细节 熊猫版本:0.9.0 Python版本:2.7.3 Windows 7 (通过Pythonxy 2.7.3.0安装) 数据

  • 我已将Excel表格导入熊猫。它有7列数字和1列字符串(标志)。 帮助我从Pandas数据帧中删除列。

  • 请注意,在转向您之前,我已经浏览了各种帖子。事实上,我尝试实现中提供的解决方案:基于“notin”条件从数据帧中删除行 我的问题如下。让我们假设我有一个巨大的数据帧,我想删除重复的数据帧。我很清楚我可以使用drop_duplicates,因为这是最快的最简单的方法。然而,我们的老师希望我们创建一个包含重复项ID的列表,然后根据这些值是否包含在上述列表中删除它们。 现在,让我们看看输出: 因此,我得

  • 问题内容: 我正在从网络上读取一些自动气象数据。观测每5分钟发生一次,并被汇总到每个气象站的月度文件中。解析完文件后,DataFrame如下所示: 我遇到的问题是,有时科学家会回头并更正观察结果-不是通过编辑错误的行,而是通过将重复的行附加到文件末尾来进行的。下面是这种情况的简单示例: 因此,我需要df3断然成为: 我认为添加一列行号可以帮助我为的任何值选择最底端的行,但是我一直想弄清楚(或???

  • 删除数据帧中的列时,我使用: 这工作很棒。为什么我不能用下面的? 因为可以以的方式访问列/Series,所以我希望这能起作用。