为什么groupby sum不能将布尔值转换为int或float？

郎欣然

2023-03-14

问题内容：

我将从3个简单的示例开始：

pd.DataFrame([[True]]).sum()

0    1
dtype: int64

pd.DataFrame([True]).sum()

0    1
dtype: int64

pd.Series([True]).sum()

1

所有这些都是预期的。这是一个更复杂的示例。

df = pd.DataFrame([
        ['a', 'A', True],
        ['a', 'B', False],
        ['a', 'C', True],
        ['b', 'A', True],
        ['b', 'B', True],
        ['b', 'C', False],
    ], columns=list('XYZ'))

df.Z.sum()

4

也符合预期。但是，如果我groupby(['X', 'Y']).sum()

每个@unutbu的答案

熊猫正尝试将其重铸为原始dtype。我以为，也许我演奏过的组并没有真正地进行分组。所以我尝试了这个例子来测试这个想法。

df = pd.DataFrame([
        ['a', 'A', False],
        ['a', 'B', False],
        ['a', 'C', True],
        ['b', 'A', False],
        ['b', 'B', False],
        ['b', 'C', False],
    ], columns=list('XYZ'))

我会groupby('X')和sum。如果@unutbu是正确的，则这些和应该是1和，0并且可以强制转换为bool，因此我们应该看到bool

df.groupby('X').sum()

果然… bool

但是，如果过程相同但值略有不同。

df = pd.DataFrame([
        ['a', 'A', True],
        ['a', 'B', False],
        ['a', 'C', True],
        ['b', 'A', False],
        ['b', 'B', False],
        ['b', 'C', False],
    ], columns=list('XYZ'))

df.groupby('X').sum()

学过的知识。astype(int)执行此操作时，请务必使用或类似的方法。

df.groupby('X').sum().astype(int)

在两种情况下都能提供一致的结果。

问题答案：

发生这种情况是因为_cython_agg_blocks调用试图返回与原始值
相同的dtype 结果（在本例中为）的结果
的_try_coerce_and_cast_result调用。_try_cast_result
__bool

当使用Zdtype
bool（并且所有组的True值不超过一个）时，这将返回一些特殊的信息。如果这些组中的任何一个具有2个或多个True值，则由于_try_cast_result未将2.0转换回布尔值，因此结果值是浮点型
。

_try_cast_result做更有用的东西时，Z有D型int：在内部，用Cython聚合通过使用 df.groupby(['X', 'Y']).sum()一个回报result的D型float。然后，_try_cast_result将结果返回到dtype int。

为什么groupby sum不能将布尔值转换为int或float？

相关阅读

相关文章

相关问答

相关工具

相关文档