如果我想在数据帧中删除重复的索引,由于明显的原因,以下方法不起作用:
myDF.drop_duplicates(cols=index)
和
myDF.drop_duplicates(cols='index')
查找名为“index”的列
如果我想删除索引,我必须执行以下操作:
myDF['index'] = myDF.index
myDF= myDF.drop_duplicates(cols='index')
myDF.set_index = myDF['index']
myDF= myDF.drop('index', axis =1)
有没有更高效的方法?
您可以使用numpy.unique
获取唯一值的索引,并使用iloc
获取这些索引:
>>> df
val
A 0.021372
B 1.229482
D -1.571025
D -0.110083
C 0.547076
B -0.824754
A -1.378705
B -0.234095
C -1.559653
B -0.531421
[10 rows x 1 columns]
>>> idx = np.unique(df.index, return_index=True)[1]
>>> df.iloc[idx]
val
A 0.021372
B 1.229482
C 0.547076
D -1.571025
[4 rows x 1 columns]
“复制”方法适用于数据帧和系列。只需在未标记为具有重复索引的行上选择:
df[~df.index.duplicated()]
简单地说:DF. Groupby(DF. index). first()
我有一个这样的专栏: 我希望专栏看起来像这样: 只希望保留重复记录的第一个或最后一个。 目前,我使用的是: 但它不起作用。我错过了什么吗?
我有一个数据框 我只想保留唯一的索引,因为索引1是重复的,我想删除它的第二个实例,我该怎么做?我想要我的结果
我有一个使用pd读取的数据帧。ExcelFile() 我这样做: 现在我将写入一个文件。tex文件,只需在写入模式下打开一个文件,然后执行,但它也包括索引。 在将数据帧写入tex文件时,如何删除索引(或者)在使用
本文向大家介绍删除MySQL重复数据的方法,包括了删除MySQL重复数据的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了删除MySQL重复数据的方法。分享给大家供大家参考。具体方法如下: 项目背景 在最近做的一个linux性能采集项目中,发现线程的程序入库很慢,再仔细定位,发现数据库里面很多冗余数据。因为在采集中,对于同一台设备,同一个时间点应该只有一个数据,然而,数据库中存入了多个
我已经创建了复制分支用户权限的方法。权限通常为0到120个项目。运行此方法将此(0到120)项插入到7个用户ID需要35-55秒才能插入到表中。 我需要优化这个过程,因为数据插入的性能很慢。我在想如果超过10个用户,那么这个过程会花费太长时间。有没有办法提高插入数据的性能速度? 提前谢谢你!
我有一个数据帧(df) 我试图删除任何具有相同snap_time索引的行 我试过: 但它没有删除重复的行。 本例的预期输出为: