问题：

如何计算熊猫数据帧中每分钟发生的次数[重复]

濮丁雷

2023-03-14

我有一个熊猫数据框，如下所示：

timestamp           status  
2019-01-01 09:00:00 FAILED
2019-01-01 09:00:00 FAILED
2019-01-01 09:00:00 UNKNOWN
2019-01-01 09:00:00 PASSED
2019-01-01 09:00:00 PASSED
2019-01-01 09:01:00 PASSED
2019-01-01 09:01:00 FAILED

我如何将每分钟的数据分组，并计算每分钟每个状态的数量，以获得此数据帧：

timestamp           PASSED FAILED UNKNOWN   
2019-01-01 09:00:00 2      2      1
2019-01-01 09:01:00 1      1      0

共有3个答案

夏何平

2023-03-14

这将有助于：

df.groupby(['timestamp', 'status']).size().unstack(level=1)

微生乐

2023-03-14

如果时间戳有秒，您可以首先删除它们以分组整分钟。

df2 = (
    df
    .groupby(df['timestamp'].map(lambda x: x.replace(second=0)))['status']
    .value_counts()
    .unstack(fill_value=0)
    .reset_index()
)
>>> df2
status           timestamp  FAILED  PASSED  UNKNOWN
0      2019-01-01 09:00:00       2       2        1
1      2019-01-01 09:01:00       1       1        0

您也可以填写范围内的每一分钟。与上面的代码相同，但不要在末尾重置索引。然后：

df2 = df2.reindex(pd.date_range(df2.index[0], df2.index[-1], freq='1min'), fill_value=0)

时间安排

时间肯定会因数据集而异（小数据与大数据、异构数据与同构数据等）。）。鉴于数据集基本上是一个日志，人们会期望大量时间戳变化很大的数据。为了创建更合适的测试数据，让我们将示例数据帧放大100k倍，然后使时间戳独一无二（每分钟一个）。

df_ = pd.concat([df] * 100000)
df_['timestamp'] = pd.date_range(df_.timestamp.iat[0], periods=len(df_), freq='1min')

以下是新的时间安排：

%timeit pd.crosstab(df_['timestamp'],df['status'])
# 4.27 s ± 150 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df_.groupby(['timestamp','status']).size().unstack(fill_value=0)
# 567 ms ± 34.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
(
    df_
    .groupby(['timestamp', 'status'])
    .size()
    .unstack(fill_value=0)
    .reset_index()
)
# 614 ms ± 27.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
(
    df_
    .groupby(df['timestamp'].map(lambda x: x.replace(second=0)))['status']
    .value_counts()
    .unstack(fill_value=0)
    .reset_index()
)
# 147 ms ± 6.66 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

夏英发

2023-03-14

方法1：

pd.crosstab(df['timestamp'],df['status'])

status               FAILED  PASSED  UNKNOWN
timestamp                                   
2019-01-01-09:00:00       2       2        1
2019-01-01-09:01:00       1       1        0

如果您想要像列一样的时间戳：

pd.crosstab(df['timestamp'],df['status'],colnames=[None]).reset_index()

             timestamp  FAILED  PASSED  UNKNOWN
0  2019-01-01-09:00:00       2       2        1
1  2019-01-01-09:01:00       1       1        0

方法二：

df.groupby(['timestamp','status']).size().unstack(fill_value=0)

时间比较：

似乎方法2是最快的。

%%timeit
new_df=pd.crosstab(df['timestamp'],df['status'])
21 ms ± 759 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit
new_df=df.groupby(['timestamp','status']).size().unstack(fill_value=0)
4.65 ms ± 290 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%%timeit
df2 = (
    df
    .groupby(df['timestamp'].map(lambda x: x.replace(second=0)))['status']
    .value_counts()
    .unstack()
    .fillna(0)
    .astype(int)
    .reset_index()
)

8.5 ms ± 1.52 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

类似资料：

如何计算熊猫数据帧中某列中的 NaN 值？

我想在我的数据的每一列中找到< code>NaN的数目。
计算java中每分钟出现的次数

我正在尝试获取每分钟出现数据的次数。日期看起来是这样的。第一个数字是一个整数，表示自Unix纪元以来的秒数，我将其转换为ISO 8601时间。第二个数字是双精度的。以“00”结尾的时间代表第0分钟，以“60”结尾的时间代表第1分钟。代码: 我的输出是这样的：但我正在寻找类似下面的东西（忽略新的分钟找到的文本）我如何调整它，以便我跟踪当前分钟并添加到计数器，而不会过早地打印出计数器？
Python熊猫重塑数据帧

这似乎是非常基本的知识，但我还是卡住了，尽管我有一些数据处理的理论背景（通过其他软件）。值得一提的是，我是蟒蛇和熊猫图书馆的新手。我的任务是将系列名称列的值作为单独的列（从长到宽转换）。我花了很长时间尝试不同的方法，但只有错误。例如：我犯了一个错误： ...很多短信...通过值的长度是2487175，索引暗示2 有谁能指导我完成这个过程吗？谢谢它用于代码“mydata=mydata”。pi
如何将熊猫数据帧的第n行提取为熊猫数据帧？

假设熊猫数据帧如下所示：如何将第三行（如row3）提取为pd数据帧？换句话说，row3.shape应该是（1,5），row3.head（）应该是：
熊猫-如何随机化数据帧的行[重复]

我试图通过保持行之间的一致性来随机化我的行，但会混淆行的顺序，从而随机化从属变量。我有以下数据帧：并将行随机化：然后执行重置索引，如期望输出：
如何在熊猫数据帧中使用内/内运算符？[重复]

我想从我的CSV文件中选择数据。虽然我可以在哪一列中获取数据如下所示，我不知道如何从何处获取数据

如何计算熊猫数据帧中每分钟发生的次数[重复]

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档