当前位置: 首页 > 面试题库 >

熊猫分组依据并求和两列

长孙弘壮
2023-03-14
问题内容

初学者的问题。这似乎应该是一个简单的操作,但是我无法通过阅读文档来弄清楚。

我有这个结构的DF:

|integer_id|int_field_1|int_field_2|

integer_id列是非唯一的,因此我想按integer_id对df进行分组,并对两个字段求和。

等效的SQL是:

SELECT integer_id, SUM(int_field_1), SUM(int_field_2) FROM tbl
GROUP BY integer_id

关于最简单的方法有什么建议吗?

编辑:包括输入/​​输出

Input:  
integer_id  int_field_1 int_field_2   
2656        36          36  
2656        36          36  
9702        2           2  
9702        1           1

使用df.groupby(’integer_id’)。sum()的输出:

integer_id  int_field_1 int_field_2  
2656        72          72  
9702        3           3

问题答案:

您只需要调用sum一个groupby对象:

df.groupby('integer_id').sum()

有关更多示例,请参阅文档



 类似资料:
  • 问题内容: 在Pandas数据框上进行分组的最佳方法是什么,但要从该分组中排除一些列呢?例如我有以下数据框: 我想对“国家”和“项目代码”列进行分组,并且仅计算Y1961,Y1962和Y1963列下的行总和。结果数据框应如下所示: 现在我正在这样做: 但是,这也会将Item_Code列中的值相加。有什么方法可以指定要包括在操作中的列和要排除的列? 问题答案: 您可以选择分组依据的列: 请注意,传递

  • 我正在使用此数据框: 我想通过名称和水果将其聚合,得到每个名称的水果总数。 我试着按名字和水果分组,但如何得到水果的总数呢。

  • 问题内容: 我有一个非常希望直截了当的问题,在最近3个小时中,这一直给我带来很多困难。应该很容易。 这是挑战。 我有一个熊猫数据框: 我想要将数据框转换为: 值是值计数。有人有见识吗?谢谢! 问题答案: 这是重塑数据的几种方法 1) 使用 2) 或者,在over上使用,然后填充零。 3) 或者使用与, 4) 或者,与

  • 问题内容: 我曾经在之后进行并行化,例如: 但是,有没有人想出如何并行化返回DataFrame的函数?如预期,此代码对于失败。 问题答案: 尽管确实应该将其内置到熊猫中,但这似乎可行

  • 问题内容: 建立库存系统。我有很多产品,每个产品都有三个不同的变量。因此,对于总库存,我想按两列(产品和尺寸)和总数量分组以获得总库存。 我想要输出的内容: 小部件一-2:375 小部件二-3:150 小部件二-2:150 我想出了如何使用以下代码将一列分组并求和: 我只是按两列分组。可能吗?还是应该仅针对这三种尺寸的商品创建三种不同的产品并删除该列?谢谢。 问题答案: 根据示例表,您似乎希望分组

  • 问题内容: 我在加入熊猫方面遇到问题,并且试图找出问题所在。假设我有一个x: 我应该能够通过简单的连接命令在y = x上将y与索引上的y联接,除了同名具有+2。 我希望决赛对双方都有1941个非值。我也尝试过合并,但是我有同样的问题。 我以为正确的答案是pandas.concat([x,y]),但这也不符合我的预期。 编辑:如果您在加入方面遇到问题,请阅读下面的韦斯答案。我有一个重复的时间戳。 问

  • 问题内容: 我有大约700万行,其中有60列以上。数据超出了我的内存容量。我正在基于列“ A”的值将数据聚合到组中。熊猫拆分/汇总/合并的文档假定我已经将所有数据都存储在了,但是我无法将整个商店读取到内存中。在分组数据的正确方法是什么? 问题答案: 这是一个完整的例子。 输出量 一些警告: 1)如果您的组密度相对较低,则此方法很有意义。大约数百或数千个组。如果获得的收益更多,则效率更高(但方法更复

  • 如何使用数据帧对另一个数据帧的列执行groupby操作? 我有以下数据帧: 和 我想使用第二个数据帧上的映射来对第一个数据帧进行分组和求和。我想获得 col2、col3和col6被求和在一起,因为它们被映射到组2。col4、col5和col7被求和在一起,因为它们被映射到组3。col1被映射到组1 要重新创建数据帧,请执行以下操作: