python pandas删除重复的列

柯锋

2023-03-14

问题内容：

从数据框中删除重复列的最简单方法是什么？

我正在通过以下方式读取具有重复列的文本文件：

import pandas as pd

df=pd.read_table(fname)

列名是：

Time, Time Relative, N2, Time, Time Relative, H2, etc...

所有“时间”和“相对时间”列均包含相同的数据。我想要：

Time, Time Relative, N2, H2

我所有的删除，删除等尝试，例如：

df=df.T.drop_duplicates().T

导致唯一值索引错误：

Reindexing only valid with uniquely valued index objects

很抱歉成为熊猫的菜鸟。任何建议，将不胜感激。

额外细节

熊猫版本：0.9.0
Python版本：2.7.3
Windows 7
（通过Pythonxy 2.7.3.0安装）

数据文件（注意：在实际文件中，列由制表符分隔，此处它们由4个空格分隔）：

Time    Time Relative [s]    N2[%]    Time    Time Relative [s]    H2[ppm]
2/12/2013 9:20:55 AM    6.177    9.99268e+001    2/12/2013 9:20:55 AM    6.177    3.216293e-005    
2/12/2013 9:21:06 AM    17.689    9.99296e+001    2/12/2013 9:21:06 AM    17.689    3.841667e-005    
2/12/2013 9:21:18 AM    29.186    9.992954e+001    2/12/2013 9:21:18 AM    29.186    3.880365e-005    
... etc ...
2/12/2013 2:12:44 PM    17515.269    9.991756+001    2/12/2013 2:12:44 PM    17515.269    2.800279e-005    
2/12/2013 2:12:55 PM    17526.769    9.991754e+001    2/12/2013 2:12:55 PM    17526.769    2.880386e-005
2/12/2013 2:13:07 PM    17538.273    9.991797e+001    2/12/2013 2:13:07 PM    17538.273    3.131447e-005

问题答案：

有一种解决方案。如果某些列名重复并且您希望删除它们，则适用此规则：

df = df.loc[:,~df.columns.duplicated()]

这个怎么运作：

假设数据框的列是 ['alpha','beta','alpha']

df.columns.duplicated()返回一个布尔数组：aTrue或False每列。如果是，False则该列名称在该点之前是唯一的；如果是，True则该列名称在前面已重复。例如，使用给定的示例，返回值为[False,False,True]。

Pandas允许使用布尔值建立索引，从而仅选择True值。由于我们要保留不重复的列，因此需要翻转上面的布尔数组（即[True, True, False] = ~[False,False,True]）

最后，df.loc[:,[True,True,False]]使用上述索引功能仅选择非重复列。

注意：以上仅检查列名称，而不检查列值。

python pandas删除重复的列

相关阅读

相关文章

相关问答

相关工具

相关文档