Pandas：根据条件为多索引数据框的子集设置值的正确方法

唐法

2023-03-14

问题内容：

我不确定如何在没有链接分配的情况下执行此操作（由于我要设置副本，因此这可能无法正常工作）。

我不想采用多索引熊猫数据框的子集，测试小于零的值并将其设置为零。

例如：

df = pd.DataFrame({('A','a'): [-1,-1,0,10,12],
                   ('A','b'): [0,1,2,3,-1],
                   ('B','a'): [-20,-10,0,10,20],
                   ('B','b'): [-200,-100,0,100,200]})

df[df['A']<0] = 0.0

给

In [37]:

df

Out[37]:
    A   B
    a   b   a   b
0   -1  0   -20 -200
1   -1  1   -10 -100
2   0   2   0   0
3   10  3   10  100
4   12  -1  20  200

这表明它无法根据条件进行设置。或者，如果我进行了链接分配：

df.loc[:,'A'][df['A']<0] = 0.0

这给出了相同的结果（以及带有复制警告的设置）

我可以根据第一级是我想要的条件来遍历每一列：

for one,two in df.columns.values:
    if one == 'A':
        df.loc[df[(one,two)]<0, (one,two)] = 0.0

这给出了预期的结果：

In [64]:

df

Out[64]:
    A   B
    a   b   a   b
0   0   0   -20 -200
1   0   1   -10 -100
2   0   2   0   0
3   10  3   10  100
4   12  0   20  200

但是以某种方式，我觉得有比遍历各列更好的方法。在熊猫中做到这一点的最佳方法是什么？

问题答案：

这是的应用程序（也是使用MultiIndex Slicers的主要动机之一），请参见此处的文档

In [20]: df = pd.DataFrame({('A','a'): [-1,-1,0,10,12],
                   ('A','b'): [0,1,2,3,-1],
                   ('B','a'): [-20,-10,0,10,20],
                   ('B','b'): [-200,-100,0,100,200]})

In [21]: df
Out[21]: 
    A      B     
    a  b   a    b
0  -1  0 -20 -200
1  -1  1 -10 -100
2   0  2   0    0
3  10  3  10  100
4  12 -1  20  200

In [22]: idx = pd.IndexSlice

In [23]: mask = df.loc[:,idx['A',:]]<0

In [24]: mask
Out[24]: 
       A       
       a      b
0   True  False
1   True  False
2  False  False
3  False  False
4  False   True

In [25]: df[mask] = 0

In [26]: df
Out[26]: 
    A      B     
    a  b   a    b
0   0  0 -20 -200
1   0  1 -10 -100
2   0  2   0    0
3  10  3  10  100
4  12  0  20  200

由于您使用的是列索引的第一级，因此以下内容也将适用。上面的示例更为笼统，说您想对“ a”执行此操作。

In [30]: df[df[['A']]<0] = 0

In [31]: df
Out[31]: 
    A      B     
    a  b   a    b
0   0  0 -20 -200
1   0  1 -10 -100
2   0  2   0    0
3  10  3  10  100
4  12  0  20  200

Pandas：根据条件为多索引数据框的子集设置值的正确方法

相关阅读

相关文章

相关问答

相关工具

相关文档