问题：

熊猫占groupby总数的百分比

陆飞捷

2023-03-14

这显然很简单，但作为一个新手，我被卡住了。

我有一个CSV文件，其中包含3列：州、办公室ID和该办公室的销售额。

我想计算给定州每个办公室的销售额百分比（每个州所有百分比的总和为100%）。

df = pd.DataFrame({'state': ['CA', 'WA', 'CO', 'AZ'] * 3,
                   'office_id': range(1, 7) * 2,
                   'sales': [np.random.randint(100000, 999999)
                             for _ in range(12)]})

df.groupby(['state', 'office_id']).agg({'sales': 'sum'})

这返回：

                  sales
state office_id        
AZ    2          839507
      4          373917
      6          347225
CA    1          798585
      3          890850
      5          454423
CO    1          819975
      3          202969
      5          614011
WA    2          163942
      4          369858
      6          959285

我似乎不知道如何“达到”group的级别，以总计整个state的销售额来计算分数。

共有3个答案

张岳

2023-03-14

为了简洁起见，我会使用SeriesGroupBy：

In [11]: c = df.groupby(['state', 'office_id'])['sales'].sum().rename("count")

In [12]: c
Out[12]:
state  office_id
AZ     2            925105
       4            592852
       6            362198
CA     1            819164
       3            743055
       5            292885
CO     1            525994
       3            338378
       5            490335
WA     2            623380
       4            441560
       6            451428
Name: count, dtype: int64

In [13]: c / c.groupby(level=0).sum()
Out[13]:
state  office_id
AZ     2            0.492037
       4            0.315321
       6            0.192643
CA     1            0.441573
       3            0.400546
       5            0.157881
CO     1            0.388271
       3            0.249779
       5            0.361949
WA     2            0.411101
       4            0.291196
       6            0.297703
Name: count, dtype: float64

对于多个组，您必须使用transform（使用Radical的df）：

In [21]: c =  df.groupby(["Group 1","Group 2","Final Group"])["Numbers I want as percents"].sum().rename("count")

In [22]: c / c.groupby(level=[0, 1]).transform("sum")
Out[22]:
Group 1  Group 2  Final Group
AAHQ     BOSC     OWON           0.331006
                  TLAM           0.668994
         MQVF     BWSI           0.288961
                  FXZM           0.711039
         ODWV     NFCH           0.262395
...
Name: count, dtype: float64

这似乎比其他答案稍有表现（对我来说，不到激进答案速度的两倍~0.08秒）。

车嘉实

2023-03-14

您需要创建第二个按状态分组的groupby对象，然后使用div方法：

import numpy as np
import pandas as pd
np.random.seed(0)
df = pd.DataFrame({'state': ['CA', 'WA', 'CO', 'AZ'] * 3,
               'office_id': list(range(1, 7)) * 2,
               'sales': [np.random.randint(100000, 999999) for _ in range(12)]})

state_office = df.groupby(['state', 'office_id']).agg({'sales': 'sum'})
state = df.groupby(['state']).agg({'sales': 'sum'})
state_office.div(state, level='state') * 100


                     sales
state office_id           
AZ    2          16.981365
      4          19.250033
      6          63.768601
CA    1          19.331879
      3          33.858747
      5          46.809373
CO    1          36.851857
      3          19.874290
      5          43.273852
WA    2          34.707233
      4          35.511259
      6          29.781508

div中的level='state'kwarg告诉pandas根据索引的state级别中的值广播/加入数据帧。

漆雕彦

2023-03-14

Paul H的回答是正确的，您将不得不创建第二个Groupby对象，但是您可以用更简单的方法计算百分比--只需Groupbythestate_office并划分销售列通过它的总和。抄袭保罗H回答的开头：

# From Paul H
import numpy as np
import pandas as pd
np.random.seed(0)
df = pd.DataFrame({'state': ['CA', 'WA', 'CO', 'AZ'] * 3,
                   'office_id': list(range(1, 7)) * 2,
                   'sales': [np.random.randint(100000, 999999)
                             for _ in range(12)]})
state_office = df.groupby(['state', 'office_id']).agg({'sales': 'sum'})
# Change: groupby state_office and divide by sum
state_pcts = state_office.groupby(level=0).apply(lambda x:
                                                 100 * x / float(x.sum()))

                     sales
state office_id           
AZ    2          16.981365
      4          19.250033
      6          63.768601
CA    1          19.331879
      3          33.858747
      5          46.809373
CO    1          36.851857
      3          19.874290
      5          43.273852
WA    2          34.707233
      4          35.511259
      6          29.781508

类似资料：

Python-pandas与groupby占总数的百分比

问题内容：这显然很简单，但是作为一个笨拙的新手，我陷入了困境。我有一个包含3列的CSV文件，分别是该办公室的州，办公室ID和销售。我想计算给定状态下每个办公室的销售百分比（每个州的所有百分比的总和为100％）。返回：我似乎无法弄清楚如何“高达”的水平与总起来对整个计算分数。问题答案：你将不得不创建第二个对象，但是你可以以一种更简单的方式来计算百分比-仅计算并将该列除以其和即可。复制P
Groupby和熊猫计数

我必须根据以下col1、col2和loc的数据进行分组，并计算col3中的项数。此外，还应考虑开始和结束日期，即日期应在2021 1月1日至2021 1月31日之间。最终结果应显示在col4中。数据预期输出
熊猫groupby与bin计数

问题内容：我有一个看起来像这样的DataFrame：我想将其转换为对属于某些bin的视图进行计数，如下所示：我试过了：但它仅提供汇总计数，而不提供用户计数。如何获得用户的垃圾箱计数？总计计数（使用我的真实数据）如下所示：问题答案：您可以按垃圾箱和用户名分组，计算分组大小，然后使用：
熊猫Groupby和总和只有一栏

问题内容：所以我有一个数据框df1，看起来像下面的样子：我想按A列分组，然后对B列求和，同时将值保留在C列中。问题是，当我说df.groupby（’A’）。sum（）列C被删除时，返回当我进行分组和求和时，如何解决这个问题并保留C列？问题答案：唯一的方法是将C包含在groupby中（groupby函数可以接受列表）。试试看：需要注意的另一件事是，如果需要在聚合后使用df，则还可以使
使用groupby的熊猫fillna

问题内容：我正在尝试使用具有相似列值的行来估算值。例如，我有这个数据框我想使用相似的列[‘one’]和[‘two’]的键，并且如果列[‘three’]并非完全是nan，则从具有相似的键的行中插值[ ‘3’] 这是我的愿望结果您会看到键1和3不包含任何值，因为现有值不存在。我试过使用groupby fillna（）这给了我一个错误。我尝试了正向填充，这给了我一个相当奇怪的结果，那就是它
熊猫groupby嵌套JSON

问题内容：我经常使用pandas groupby生成堆积表。但是然后我经常想将生成的嵌套关系输出到json。有什么方法可以从生成的堆叠表中提取嵌套的json文件吗？假设我有一个df，例如：我可以：美丽！当然，我真正想做的是通过命令沿着grouped.to_json嵌套嵌套的json。但是该功能不可用。任何解决方法？所以，我真正想要的是这样的：唐问题答案：我认为熊猫没有内置任何东西可

熊猫占groupby总数的百分比

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档