如何理解熊猫重采样方法中的封闭和标签参数？

乌骏

2023-03-14

问题内容：

根据此处的熊猫文档：Docs

和例子：

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: T, dtype: int64

重采样后：

>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15

我认为，重新采样后，垃圾箱应如下所示：

=========bin 01=========
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2

=========bin 02=========
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5

=========bin 03=========
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8

我在这一步上正确吗？

所以在.sum我认为应该是这样的：

2000-01-01 00:02:00     3
2000-01-01 00:05:00    12
2000-01-01 00:08:00    21

我只是不明白结果如何：

2000-01-01 00:00:00 0

（因为label='right'在这种情况下，2000年1月1日00:00:00不能是任何垃圾箱的任何右边缘）。

2000-01-01 00:09:00 15

（标签2000-01-01 00:09:00甚至在原始系列中也不存在。

问题答案：

简短的答案： 如果您使用closed='left'，loffset='2T'那么您将获得期望的结果：

series.resample('3T', label='left', closed='left', loffset='2T').sum()

2000-01-01 00:02:00     3
2000-01-01 00:05:00    12
2000-01-01 00:08:00    21

长答案：（ 或者给定您使用的参数，为什么您得到的结果是正确的）从文档中可能不清楚，但是在这种设置下打开和关闭是关于严格不严格不平等（例如<vs
<=）的问题。

一个例子应该使这一点变得清楚。使用示例中的内部间隔，这与更改以下值的区别closed：

closed='right' =>  ( 3:00, 6:00 ]  or  3:00 <  x <= 6:00
closed='left'  =>  [ 3:00, 6:00 )  or  3:00 <= x <  6:00

您可以在类似此处的许多地方找到间隔符号的说明（括号和括号），例如：https
:
//en.wikipedia.org/wiki/Interval_(mathematics）

该label参数仅控制显示左侧（3:00）还是右侧（6:00），但不会影响结果本身。

另请注意，您可以使用loffset参数（应将其输入为时间增量）更改间隔的起点。

回到示例，在这里我们仅将标签从“ right”更改为“ left”：

series.resample('3T', label='right', closed='right').sum()

2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15

series.resample('3T', label='left', closed='right').sum()

1999-12-31 23:57:00     0
2000-01-01 00:00:00     6
2000-01-01 00:03:00    15
2000-01-01 00:06:00    15

如您所见，结果是相同的，只是索引标签改变了。大熊猫仅可以显示在左边或右边的标签，但如果它表现出两个
，那么它看起来像这样（在下面，我用标准的索引符号，其中(左侧手段打开和]右侧被封闭）：

( 1999-12-31 23:57:00, 2000-01-01 00:00:00 ]   0   # = 0
( 2000-01-01 00:00:00, 2000-01-01 00:03:00 ]   6   # = 1+2+3
( 2000-01-01 00:03:00, 2000-01-01 00:06:00 ]  15   # = 4+5+6
( 2000-01-01 00:06:00, 2000-01-01 00:09:00 ]  15   # =   7+8

请注意，第一个bin（23：57：00,00：00：00]不为空，只是它包含一行并且该行中的值为零。如果将“ sum”更改为“ count”这变得更加明显：

series.resample('3T', label='left', closed='right').count()

1999-12-31 23:57:00    1
2000-01-01 00:00:00    3
2000-01-01 00:03:00    3
2000-01-01 00:06:00    2

如何理解熊猫重采样方法中的封闭和标签参数？

相关阅读

相关文章

相关问答

相关工具

相关文档