当前位置: 首页 > 面试题库 >

Pandas DataFrame按时间戳分组

金兴朝
2023-03-14
问题内容

我有一个用例,其中:

数据的格式为:Col1,Col2,Col3和时间戳。

现在,我只想获取行数与时间戳箱的数量。

也就是说,对于每半小时的存储桶(甚至没有对应行的存储桶),我需要计算有多少行。

时间戳记分布在一年内,因此我无法将其划分为24个存储桶。

我必须每隔30分钟将它们装箱。


问题答案:

groupby 通过 pd.Grouper

# optionally, if needed
# df['Timestamp'] = pd.to_datetime(df['Timestamp'], errors='coerce')  
df.groupby(pd.Grouper(key='Timestamp', freq='30min')).count()

resample

df.set_index('Timestamp').resample('30min').count()


 类似资料:
  • 我正在使用KakfkaStreams(2.3.0)使用流和Ktable之间的连接来丰富一些值(压缩主题)。问题是压缩主题是使用与流主题不同的分区器编写的,因此连接没有按预期工作(一些键不匹配,因为它们在不同的分区中)。 我开始研究通过使用groupBy()和reduce()来重新分区压缩的主题,但当它开始读取创建的重新分区主题时,它开始抛出一个StreamsException并显示消息: 输入记录

  • 问题内容: 我需要将表分组为15分钟间隔。我可以这样做: 但是要在图表中显示返回的数据,我还需要插入没有任何数据且当前未出现在我的select语句中的间隔。我该如何插入这些? 问题答案: 用15分钟的增量创建一个带有所有可能时间戳的表,然后从该表向上面的查询进行LEFT JOIN。 如果您知道图表始终涵盖24小时,则只需创建一个数字为0-95的表格,然后为每个条目将其添加到图表的开始时间。

  • 问题内容: 我有下面的简单表: 我想了平均,并且每一天为6个小时桶。例如00:00至06:00、06:00至12:00、12:00至18:00和18:00至00:00。 我可以使用以下查询按年,月,日和小时分组: 但是我无法将每天分为上述4个时段,非常欢迎您提供任何帮助。 问题答案: 我认为将(商的小时数/ 6)的商的整数值分组应该会有所帮助。试试看,看看是否有帮助。您的分组依据应该是 其背后的逻

  • 问题内容: 我在SO上看到过类似类型的问题,但是,我无法找到针对我特定问题的解决方案。(仅供参考,这些不是我的真实专栏,只是一个简短的示例)。 我有一个基本表: 因此,我想做的是能够: 我已经尝试过类似的东西: 但这不会返回我要查找的行。修复此查询的任何帮助都将非常有用。 非常感谢。 问题答案: 编辑: 顺便说一句,如果您想知道为什么原来的查询不起作用,让我们分解一下: 从…中选择一些东西 其中=

  • 我知道这是一个非常常见的问题,但我觉得我找到的答案并没有真正解决问题。我将概述我的具体用例,并对来自其他SO答案和网络的信息进行总结。 对于我正在编写的服务,数据库条目被创建并存储在移动设备和我们的网站上,需要以两种方式同步。我们目前的目标是Android和iOS,它们都使用sqlite作为关系数据库。服务器端是使用Django和MySQL在Python中实现的,但将来可能会有其他解决方案取代它。

  • 我有一个Flink程序,它接受两个流,即数据/传感器读数流和警报规则流。我正在广播规则流,并将其连接到数据流以生成动态警报。ProcessingTime的一切都很好,但EventTime却不行。我已经分配了时间戳 > 当两个流(即带有时间戳的流)同时出现时,如何使用“EventTime”生成警报 我是否也必须为我的规则流分配时间戳和水印? 因为我的规则流只有在有任何添加/修改时才会有记录。是否有任