用途drop_duplicates:
In [216]: df = pd.DataFrame({'A':[1,2,3,3,2], ...: 'B':[1,7,3,0,8]}) In [217]: df Out[217]: A B 0 1 1 1 2 7 2 3 3 3 3 0 4 2 8 # keep only the last value In [218]: df.drop_duplicates(subset=['A'], keep='last') Out[218]: A B 0 1 1 3 3 0 4 2 8 # keep only the first value, default value In [219]: df.drop_duplicates(subset=['A'], keep='first') Out[219]: A B 0 1 1 1 2 7 2 3 3 # drop all duplicated values In [220]: df.drop_duplicates(subset=['A'], keep=False) Out[220]: A B 0 1 1
当您不想获取数据框的副本,而要修改现有的数据框时:
In [221]: df = pd.DataFrame({'A':[1,2,3,3,2], ...: 'B':[1,7,3,0,8]}) In [222]: df.drop_duplicates(subset=['A'], inplace=True) In [223]: df Out[223]: A B 0 1 1 1 2 7 2 3 3
我正在读取一个包含重复列的文本文件,通过: 列名为: 所有的时间和时间相对列都包含相同的数据。我想要: 抱歉,我做了个熊猫呆子。如有任何建议,将不胜感激。 其他详细信息 Pandas版本:0.9.0 Python版本:2.7.3 Windows 7 (通过Pythonxy 2.7.3.0安装)
问题内容: 从数据框中删除重复列的最简单方法是什么? 我正在通过以下方式读取具有重复列的文本文件: 列名是: 所有“时间”和“相对时间”列均包含相同的数据。我想要: 我所有的删除,删除等尝试,例如: 导致唯一值索引错误: 很抱歉成为熊猫的菜鸟。任何建议,将不胜感激。 额外细节 熊猫版本:0.9.0 Python版本:2.7.3 Windows 7 (通过Pythonxy 2.7.3.0安装) 数据
我已将Excel表格导入熊猫。它有7列数字和1列字符串(标志)。 帮助我从Pandas数据帧中删除列。
请注意,在转向您之前,我已经浏览了各种帖子。事实上,我尝试实现中提供的解决方案:基于“notin”条件从数据帧中删除行 我的问题如下。让我们假设我有一个巨大的数据帧,我想删除重复的数据帧。我很清楚我可以使用drop_duplicates,因为这是最快的最简单的方法。然而,我们的老师希望我们创建一个包含重复项ID的列表,然后根据这些值是否包含在上述列表中删除它们。 现在,让我们看看输出: 因此,我得
问题内容: 我正在从网络上读取一些自动气象数据。观测每5分钟发生一次,并被汇总到每个气象站的月度文件中。解析完文件后,DataFrame如下所示: 我遇到的问题是,有时科学家会回头并更正观察结果-不是通过编辑错误的行,而是通过将重复的行附加到文件末尾来进行的。下面是这种情况的简单示例: 因此,我需要df3断然成为: 我认为添加一列行号可以帮助我为的任何值选择最底端的行,但是我一直想弄清楚(或???
删除数据帧中的列时,我使用: 这工作很棒。为什么我不能用下面的? 因为可以以的方式访问列/Series,所以我希望这能起作用。