我有一个熊猫数据框df
与重叠的时间跨度,看起来像这样:
min max grp
0 2013-06-19 18:49:37 2013-06-19 18:49:37 1
0 2013-06-19 18:49:37 2014-07-26 13:56:24 1
1 2013-07-16 03:05:57 2013-07-17 13:11:57 2
2 2013-08-01 03:26:35 2013-08-01 03:26:35 3
1 2013-08-19 06:20:32 2013-08-20 02:32:19 4
3 2013-08-19 07:04:34 2013-08-20 02:01:36 4
2 2013-09-14 09:08:47 2017-06-19 20:11:32 5
4 2013-09-14 22:11:48 2013-09-15 02:14:49 5
5 2013-10-13 21:51:21 2013-10-13 21:51:21 6
6 2013-10-14 03:41:18 2013-10-15 03:17:31 6
3 2013-10-15 03:17:31 2013-10-15 03:17:31 6
7 2013-10-15 04:07:45 2013-10-15 04:07:45 6
8 2013-11-03 07:03:55 2013-11-03 07:03:55 7
9 2013-11-22 02:06:16 2013-11-22 02:06:16 8
10 2013-11-22 02:31:07 2013-11-22 02:31:07 8
我的目标是获得每组grp
的min
最小值和max
最大值。我试过:
df。groupby(['grp'])['min']。agg(['min','max'])。重置索引()
但这只按min
的最小值和最大值进行分组,而我正在寻找每组的min
的最小值和max
的最大值。
例如,在聚合之后,grp6应该具有最小的2013-10-13 21:51:21
和最大的2013-10-15 04:07:45
熊猫有没有一个简单的解决办法?
df.groupby('grp').agg({'min': min, 'max': max})
我有一个数据框,如下所示,带有网站名称和每个网站的日期范围。 我希望找到每个站点的开始和结束日期,并按如下方式布置数据框架: 我知道我可以找到整个范围的最小值和最大值,如下所示: 只是不确定最好的方法是将它分别应用于每个站点。
问题内容: 我有一个数据框,看起来像: 我希望按年份分组,然后总结sum_col。此外,我需要查找一周的最早日期和最新日期。第一部分很简单: 我试图用这个来找到最小/最大日期,但是没有成功: 如何找到最早/最新出现的日期? 问题答案: 您需要组合适用于同一列的函数,如下所示:
我有一个名为的,它有4列,如下所示: 我想要的是找到关于类的每一列的最小值和最大值。换句话说,我希望得到一个类似于下面的结果:
问题内容: 我在搜索时遇到问题,只是不知道该怎么做。我的文档具有以下形式: 假设会话ID的第一个时间戳是“登录”,最后一个时间戳是“注销”。我希望所有会话都具有所有“登录”和“注销”文档(如果可能,请按排序)。我设法通过聚合获得正确的时间戳: 但是我如何获得相应的文档?我也不介意我是否必须进行2次搜索(一次用于登录,一次用于注销)。我尝试了热门热门文章的汇总和排序工作,但是我总是会遇到解析错误:/
问题内容: 我有一个包含屏幕名称,tweet,收藏夹等的Pandas DataFrame。我想找到“ favcount”(我已经做过)的最大值,并返回该“ tweet”的屏幕名称 我似乎找不到任何东西,任何人都可以帮助我朝正确的方向发展吗? 问题答案: 使用 来获取最大价值的指标。那你可以用 编辑: 现已弃用,切换为
问题内容: 我有一个与csv文件和解析datetime有关的简单问题。 我有一个csv文件,如下所示: 我想使用pandas(read_csv)读取它,并将其放入由datetime索引的数据帧中。到目前为止,我已经尝试实现以下内容: 我得到的结果是: 如您所见,将HH转换为其他日期时的parse_dates。 是否有一种简单有效的方法将“ YYYYMMDD”列与“ HH”列正确组合,以实现类似的目