当前位置: 首页 > 知识库问答 >
问题:

在数据帧中删除重复索引的最快方法[重复]

翟宏放
2023-03-14

如果我想在数据帧中删除重复的索引,由于明显的原因,以下方法不起作用:

myDF.drop_duplicates(cols=index)

myDF.drop_duplicates(cols='index') 

查找名为“index”的列

如果我想删除索引,我必须执行以下操作:

myDF['index'] = myDF.index
myDF= myDF.drop_duplicates(cols='index')
myDF.set_index = myDF['index']
myDF= myDF.drop('index', axis =1)

有没有更高效的方法?

共有3个答案

拓拔弘亮
2023-03-14

您可以使用numpy.unique获取唯一值的索引,并使用iloc获取这些索引:

>>> df
        val
A  0.021372
B  1.229482
D -1.571025
D -0.110083
C  0.547076
B -0.824754
A -1.378705
B -0.234095
C -1.559653
B -0.531421

[10 rows x 1 columns]

>>> idx = np.unique(df.index, return_index=True)[1]
>>> df.iloc[idx]
        val
A  0.021372
B  1.229482
C  0.547076
D -1.571025

[4 rows x 1 columns]
文增
2023-03-14

“复制”方法适用于数据帧和系列。只需在未标记为具有重复索引的行上选择:

df[~df.index.duplicated()]
张茂勋
2023-03-14

简单地说:DF. Groupby(DF. index). first()

 类似资料:
  • 我有一个这样的专栏: 我希望专栏看起来像这样: 只希望保留重复记录的第一个或最后一个。 目前,我使用的是: 但它不起作用。我错过了什么吗?

  • 我有一个数据框 我只想保留唯一的索引,因为索引1是重复的,我想删除它的第二个实例,我该怎么做?我想要我的结果

  • 我有一个使用pd读取的数据帧。ExcelFile() 我这样做: 现在我将写入一个文件。tex文件,只需在写入模式下打开一个文件,然后执行,但它也包括索引。 在将数据帧写入tex文件时,如何删除索引(或者)在使用

  • 本文向大家介绍删除MySQL重复数据的方法,包括了删除MySQL重复数据的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了删除MySQL重复数据的方法。分享给大家供大家参考。具体方法如下: 项目背景 在最近做的一个linux性能采集项目中,发现线程的程序入库很慢,再仔细定位,发现数据库里面很多冗余数据。因为在采集中,对于同一台设备,同一个时间点应该只有一个数据,然而,数据库中存入了多个

  • 我已经创建了复制分支用户权限的方法。权限通常为0到120个项目。运行此方法将此(0到120)项插入到7个用户ID需要35-55秒才能插入到表中。 我需要优化这个过程,因为数据插入的性能很慢。我在想如果超过10个用户,那么这个过程会花费太长时间。有没有办法提高插入数据的性能速度? 提前谢谢你!

  • 我有一个数据帧(df) 我试图删除任何具有相同snap_time索引的行 我试过: 但它没有删除重复的行。 本例的预期输出为: