当前位置: 首页 > 面试题库 >

Python-使用pandas GroupBy获取每个组的统计信息(例如计数,均值等)?

诸葛皓
2023-03-14
问题内容

我有一个数据框,df并且从中使用了几列groupby:

df['col1','col2','col3','col4'].groupby(['col1','col2']).mean()

通过以上方法,我几乎得到了所需的表(数据框)。缺少的是另外一列,其中包含每个组中的行数。换句话说,我有意思,但我也想知道有多少个数字被用来获得这些价值。例如,在第一组中有8个值,在第二组中有10个,依此类推。

简而言之:如何获取数据框的分组统计信息?


问题答案:

在·对象上,该·函数可以列出一个列表,以一次应用多种聚合方法。这应该给你需要的结果:

df[['col1', 'col2', 'col3', 'col4']].groupby(['col1', 'col2']).agg(['mean', 'count'])


 类似资料:
  • 我有一个数据帧,并且我使用了从它到的几个列: 通过上面的方式,我几乎得到了我需要的表(数据帧)。缺少的是一个额外的列,该列包含每个组中的行数。换句话说,我有均值,但我也想知道有多少数字是用来得到这些均值的。例如,在第一组中有8个值,在第二组中有10个值,依此类推。

  • 问题内容: 我需要计算在Python combinatorials(NCR),但无法找到的功能做在,或 图书馆。类似于函数的类型: 我需要可能的组合数量,而不是实际组合,因此我对此并不感兴趣。 最后,我要避免使用阶乘,因为我将要计算其组合的数字可能太大,并且阶乘会变得很可怕。 这似乎是一个非常容易回答的问题,但是我被有关生成所有实际组合的问题淹没了,这不是我想要的。 问题答案: 请参阅scipy.

  • 我的spark应用程序正在我们内部实验室的远程机器上运行。为了分析远程应用程序的内存消耗,通过使用本地机器的“附加模式”(在jpenable的帮助下)将远程应用程序pid附加到JProfiler。 将远程应用程序连接到本地机器中的JProfiler后,JProfiler仅显示远程机器内存消耗的5%,但当我们在远程Centos机器上运行“top”命令时,“top”命令显示内存消耗的72%。我无法找到

  • 在我的项目中,我正在从数据库/sql迁移到金珠/gorm。以前,我用方法捕获了我的数据库情况。我想知道如何在GORM中实现这一点?我在官方文件中什么也没找到。

  • 问题内容: 我需要获取在什么环境下运行该软件的信息。python是否有用于此目的的库? 我想知道以下信息。 操作系统名称/版本 CPU名称,时钟速度 CPU核数 记忆体大小 问题答案: 其中一些可以从模块中获得:

  • V2Ray 提供了一些关于其运行状况的统计信息。 StatsObject StatsObject 对应配置文件中的stats项。 { } 目前统计信息没有任何参数,只要StatsObject项存在,内部的统计即会开启。同时你还需要在 Policy 中开启对应的项,才可以统计对应的数据。 目前已有的统计信息如下: 用户数据 user>>>[email]>>>traffic>>>uplink 特定用