问题：

马克斯和敏在熊猫Groupby约会

金钊

2023-03-14

我有一个数据帧，看起来像：

data = {'index': ['2014-06-22 10:46:00', '2014-06-24 19:52:00', '2014-06-25 17:02:00', '2014-06-25 17:55:00', '2014-07-02 11:36:00', '2014-07-06 12:40:00', '2014-07-05 12:46:00', '2014-07-27 15:12:00'],
    'type': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'C'],
    'sum_col': [1, 2, 3, 1, 1, 3, 2, 1]}
df = pd.DataFrame(data, columns=['index', 'type', 'sum_col'])
df['index'] = pd.to_datetime(df['index'])
df = df.set_index('index')
df['weekofyear'] = df.index.weekofyear
df['date'] = df.index.date
df['date'] = pd.to_datetime(df['date'])



                     type sum_col weekofyear   date
index               
2014-06-22 10:46:00    A    1       25      2014-06-22
2014-06-24 19:52:00    B    2       26      2014-06-24
2014-06-25 17:02:00    C    3       26      2014-06-25
2014-06-25 17:55:00    A    1       26      2014-06-25
2014-07-02 11:36:00    B    1       27      2014-07-02
2014-07-06 12:40:00    C    3       27      2014-07-06
2014-07-05 12:46:00    A    2       27      2014-07-05
2014-07-27 15:12:00    C    1       30      2014-07-27

我希望按周分组，然后汇总总数。此外，我需要找到一周的最早日期和最晚日期。第一部分相当简单：

gb = df.groupby(['type', 'weekofyear'])
gb['sum_col'].agg({'sum_col' : np.sum})

我试图找到最小/最大日期，但没有成功：

gb = df.groupby(['type', 'weekofyear'])
gb.agg({'sum_col' : np.sum,
        'date' : np.min,
        'date' : np.max})

如何找到出现的最早/最晚日期？

共有2个答案

徐昆

2023-03-14

简单的代码可以是

df.groupby([key_field]).agg({'time_field': [np.min,np.max]})

这里的key_字段可以是event_id，time_字段可以是timestamp字段。

束高雅

2023-03-14

您需要组合应用于同一列的函数，如下所示：

In [116]: gb.agg({'sum_col' : np.sum,
     ...:         'date' : [np.min, np.max]})
Out[116]: 
                      date             sum_col
                      amin       amax      sum
type weekofyear                               
A    25         2014-06-22 2014-06-22        1
     26         2014-06-25 2014-06-25        1
     27         2014-07-05 2014-07-05        2
B    26         2014-06-24 2014-06-24        2
     27         2014-07-02 2014-07-02        1
C    26         2014-06-25 2014-06-25        3
     27         2014-07-06 2014-07-06        3
     30         2014-07-27 2014-07-27        1

类似资料：

Groupby和熊猫计数

我必须根据以下col1、col2和loc的数据进行分组，并计算col3中的项数。此外，还应考虑开始和结束日期，即日期应在2021 1月1日至2021 1月31日之间。最终结果应显示在col4中。数据预期输出
熊猫在groupby内插

问题内容：我有一个包含以下信息的数据框：我想根据索引插入数据帧中的值，但仅在每个文件组中。插值，我通常会做和我一起做我希望插入的数据帧看起来像这样： NaN仍然存在于t = 6的位置，因为它们是file2组中的第一项。我怀疑我需要使用“应用”，但是还无法确切地知道如何… 任何帮助，将不胜感激。问题答案：
熊猫groupby和加入名单

问题内容：我有一个数据框df，有两列，我想按一列分组并加入属于同一组的列表，例如：处理后：我想保留所有重复项。我有以下问题：数据框的dtype是对象。convert_objects（）不会自动将column_b转换为列表。我怎样才能做到这一点？ df.groupby（…）。apply（lambda x：…）中的函数适用于什么？x的形式是什么？清单？我主要问题的解决方案？提前致谢。问题
熊猫groupby嵌套JSON

问题内容：我经常使用pandas groupby生成堆积表。但是然后我经常想将生成的嵌套关系输出到json。有什么方法可以从生成的堆叠表中提取嵌套的json文件吗？假设我有一个df，例如：我可以：美丽！当然，我真正想做的是通过命令沿着grouped.to_json嵌套嵌套的json。但是该功能不可用。任何解决方法？所以，我真正想要的是这样的：唐问题答案：我认为熊猫没有内置任何东西可
熊猫groupby为零值

问题内容：我在csv文件中有这样的数据我可以像这样阅读和分组我懂了我希望这个（顺序无所谓）我想知道是否有可能算零次问题答案：你可以用与：如果您需要使用输出：
熊猫Groupby和总和只有一栏

问题内容：所以我有一个数据框df1，看起来像下面的样子：我想按A列分组，然后对B列求和，同时将值保留在C列中。问题是，当我说df.groupby（’A’）。sum（）列C被删除时，返回当我进行分组和求和时，如何解决这个问题并保留C列？问题答案：唯一的方法是将C包含在groupby中（groupby函数可以接受列表）。试试看：需要注意的另一件事是，如果需要在聚合后使用df，则还可以使

马克斯和敏在熊猫Groupby约会

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档