当前位置: 首页 > 知识库问答 >
问题:

熊猫Groupby列,并获得0的频率

慎旭尧
2023-03-14

我有一个数据帧,我想按Col1 Col2 Col3分组,得到值列的0频率:df=

Col1 Col2 Col3 Value
Val1 Val2  A    0
Val1 Val2  A    1
Val1 Val2  A    2
Val1 Val2  A    0
Val1 Val2  A    1

Val1 Val2  B    0
Val1 Val2  B    0
Val1 Val2  B    0
Val1 Val2  B    0
Val1 Val2  B    1
...

我如何应用groupby来实现

Col1 Col2 Col3 Fercentage_of_0
Val1 Val2  A       0.2
Val1 Val2  B       0.8
...

非常感谢。

共有3个答案

刁英朗
2023-03-14

这里有另一种不使用lambda的方法,这对我来说似乎更容易理解:

df['is_zero'] = df['Value'] == 0
df.groupby(['Col1', 'Col2', 'Col3'])['is_zero'].mean()
翟兴邦
2023-03-14

对数据框使用Groupby,然后对结果数据框应用size()方法。例如,假设你有一个名为df的createda数据帧包含这些值

df = pd.DataFrame({'Col1': ['Val1','Val1','Val1','Val1','Val1','Val1','Val1','Val1'], 
               'Col2': ['Val2','Val2','Val2','Val2','Val2','Val2','Val2','Val2'],
               'Col3': ['A','A','A','A','B','B','B','B'],
               'Value':[0,1,2,0,0,0,0,1]}) 

然后,可以使用

df.groupby(['Col1','Col2','Col3','Value']).size()
Col1  Col2  Col3  Value
Val1  Val2  A     0        2
                  1        1
                  2        1
            B     0        3
                  1        1
dtype: int64
柯冯浩
2023-03-14

一个简单的lambda函数可以为您实现这一点。生成一个列表,其中Value==0,获取此列表的len和组中项目的len。你有百分比吗

df = pd.DataFrame({"Col1":["Val1","Val1","Val1","Val1","Val1","Val1","Val1","Val1","Val1","Val1"],"Col2":["Val2","Val2","Val2","Val2","Val2","Val2","Val2","Val2","Val2","Val2"],"Col3":["A","A","A","A","A","B","B","B","B","B"],"Value":[0,1,2,0,1,0,0,0,0,1]})

df.groupby(["Col1","Col2","Col3"]).\
    agg({"Value":lambda x: len([v for v in x if v==0])/len(x)})

输出

                Value
Col1 Col2 Col3       
Val1 Val2 A       0.4
          B       0.8
 类似资料:
  • 问题内容: 我有一个这样的数据框: 呼唤 将返回 现在,我想对列“ C”执行“相同”操作。因为该列包含字符串,所以sum()不起作用(尽管您可能认为它将字符串连接在一起)。我真正想看到的是每个组的字符串列表或一组字符串,即 我一直在尝试找到方法来做到这一点。 尽管Series.unique()(http://pandas.pydata.org/pandas- docs/stable/genic/p

  • 问题内容: 我正在尝试使用具有相似列值的行来估算值。 例如,我有这个数据框 我想使用相似的列[‘one’]和[‘two’]的键,并且如果列[‘three’]并非完全是nan,则从具有相似的键的行中插值[ ‘3’] 这是我的愿望结果 您会看到键1和3不包含任何值,因为现有值不存在。 我试过使用groupby fillna() 这给了我一个错误。 我尝试了正向填充,这给了我一个相当奇怪的结果,那就是它

  • 问题内容: 我经常使用pandas groupby生成堆积表。但是然后我经常想将生成的嵌套关系输出到json。有什么方法可以从生成的堆叠表中提取嵌套的json文件吗? 假设我有一个df,例如: 我可以: 美丽!当然,我真正想做的是通过命令沿着grouped.to_json嵌套嵌套的json。但是该功能不可用。任何解决方法? 所以,我真正想要的是这样的: 唐 问题答案: 我认为熊猫没有内置任何东西可

  • 问题内容: 我有一个包含以下信息的数据框: 我想根据索引插入数据帧中的值, 但仅在每个文件组中 。 插值,我通常会做 和我一起做 我希望插入的数据帧看起来像这样: NaN仍然存在于t = 6的位置,因为它们是file2组中的第一项。 我怀疑我需要使用“应用”,但是还无法确切地知道如何… 任何帮助,将不胜感激。 问题答案:

  • 问题内容: 我在csv文件中有这样的数据 我可以像这样阅读和分组 我懂了 我希望这个(顺序无所谓) 我想知道是否有可能算零次 问题答案: 你可以用与: 如果您需要使用输出:

  • 我必须根据以下col1、col2和loc的数据进行分组,并计算col3中的项数。此外,还应考虑开始和结束日期,即日期应在2021 1月1日至2021 1月31日之间。最终结果应显示在col4中。 数据 预期输出