熊猫groupby方法实际上是如何工作的？

宦博超

2023-03-14

问题内容：

因此，我试图理解pandas.dataFrame.groupby（）函数，并在文档中遇到了以下示例：

    In [1]: df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
   ...:                           'foo', 'bar', 'foo', 'foo'],
   ...:                    'B' : ['one', 'one', 'two', 'three',
   ...:                           'two', 'two', 'one', 'three'],
   ...:                    'C' : np.random.randn(8),
   ...:                    'D' : np.random.randn(8)})
   ...:

In [2]: df
Out[2]: 
     A      B         C         D
0  foo    one  0.469112 -0.861849
1  bar    one -0.282863 -2.104569
2  foo    two -1.509059 -0.494929
3  bar  three -1.135632  1.071804
4  foo    two  1.212112  0.721555
5  bar    two -0.173215 -0.706771
6  foo    one  0.119209 -1.039575
7  foo  three -1.044236  0.271860

为了进一步探讨，我没有这样做：

print(df.groupby('B').head())

它输出相同的dataFrame，但是当我这样做时：

print(df.groupby('B'))

它给了我这个：

<pandas.core.groupby.DataFrameGroupBy object at 0x7f65a585b390>

这是什么意思？在正常的dataFrame打印中，.head()仅输出前5行，这是什么情况？

还有为什么打印.head()输出与数据帧输出相同？难道不是应该按列的元素分组'B'吗？

问题答案：

当您只使用

df.groupby('A')

你得到一个GroupBy对象。此时您尚未对其应用任何功能。在幕后，虽然这个定义可能并不完美，但是您可以将groupby对象视为：

（组，DataFrame） 对的迭代器，用于DataFrame，或
系列的 （组，系列） 对的迭代器。

为了显示：

df = DataFrame({'A' : [1, 1, 2, 2], 'B' : [1, 2, 3, 4]})
grouped = df.groupby('A')

# each `i` is a tuple of (group, DataFrame)
# so your output here will be a little messy
for i in grouped:
    print(i)
(1,    A  B
0  1  1
1  1  2)
(2,    A  B
2  2  3
3  2  4)

# this version uses multiple counters
# in a single loop.  each `group` is a group, each
# `df` is its corresponding DataFrame
for group, df in grouped:
    print('group of A:', group, '\n')
    print(df, '\n')
group of A: 1

   A  B
0  1  1
1  1  2

group of A: 2

   A  B
2  2  3
3  2  4

# and if you just wanted to visualize the groups,
# your second counter is a "throwaway"
for group, _ in grouped:
    print('group of A:', group, '\n')
group of A: 1

group of A: 2

现在至于.head。只需查看该方法的文档即可：

本质上等同于 .apply(lambda x: x.head(n))

所以在这里，您实际上是在对groupby对象的每个组应用一个函数。请记住，每个组.head(5)都适用
于每个组，因此，由于每个组少于或等于5行，因此可以得到原始的DataFrame。

在上面的示例中考虑这一点。如果使用.head(1)，则仅获得每个组的第一行：

print(df.groupby('A').head(1))
   A  B
0  1  1
2  2  3

熊猫groupby方法实际上是如何工作的？

相关阅读

相关文章

相关问答

相关工具

相关文档