基于值而不是计数的带有窗口的pandas滚动计算

谭嘉歆

2023-03-14

问题内容：

我正在寻找一种类似的各种rolling_*功能的方法pandas，但我希望滚动计算的窗口由一个值范围（例如，DataFrame列的值范围）定义，而不是由窗口中的行数。

例如，假设我有以下数据：

>>> print d
   RollBasis  ToRoll
0          1       1
1          1       4
2          1      -5
3          2       2
4          3      -4
5          5      -2
6          8       0
7         10     -13
8         12      -2
9         13      -5

如果执行类似的操作rolling_sum(d, 5)，则会得到一个滚动总和，其中每个窗口包含5行。但是我想要的是一个滚动总和，其中每个窗口都包含的一定范围的值RollBasis。也就是说，我希望能够执行类似的操作d.roll_by(sum, 'RollBasis', 5)，并得到一个结果，其中第一个窗口包含所有RollBasis介于1和5之间的行，然后第二个窗口包含所有RollBasis介于2和6之间的行，然后第三个窗口窗口包含RollBasis3到7之间的所有行，以此类推。窗口的行数不相等，但是RollBasis在每个窗口中选择的值范围将相同。所以输出应该像这样：

>>> d.roll_by(sum, 'RollBasis', 5)
    1    -4    # sum of elements with 1 <= Rollbasis <= 5
    2    -4    # sum of elements with 2 <= Rollbasis <= 6
    3    -6    # sum of elements with 3 <= Rollbasis <= 7
    4    -2    # sum of elements with 4 <= Rollbasis <= 8
    # etc.

我无法使用进行此操作groupby，因为groupby始终会产生不相交的组。我不能通过滚动功能来做到这一点，因为它们的窗口总是按行数而不是值滚动。那我该怎么办呢？

问题答案：

我认为这可以满足您的需求：

In [1]: df
Out[1]:
   RollBasis  ToRoll
0          1       1
1          1       4
2          1      -5
3          2       2
4          3      -4
5          5      -2
6          8       0
7         10     -13
8         12      -2
9         13      -5

In [2]: def f(x):
   ...:     ser = df.ToRoll[(df.RollBasis >= x) & (df.RollBasis < x+5)]
   ...:     return ser.sum()

上面的函数采用一个值（在这种情况下为RollBasis），然后根据该值对数据框列ToRoll进行索引。返回的系列由满足RollBasis +
5标准的ToRoll值组成。最后，对该系列求和并返回。

In [3]: df['Rolled'] = df.RollBasis.apply(f)

In [4]: df
Out[4]:
   RollBasis  ToRoll  Rolled
0          1       1      -4
1          1       4      -4
2          1      -5      -4
3          2       2      -4
4          3      -4      -6
5          5      -2      -2
6          8       0     -15
7         10     -13     -20
8         12      -2      -7
9         13      -5      -5

玩具示例DataFrame的代码，以防其他人尝试：

In [1]: from pandas import *

In [2]: import io

In [3]: text = """\
   ...:    RollBasis  ToRoll
   ...: 0          1       1
   ...: 1          1       4
   ...: 2          1      -5
   ...: 3          2       2
   ...: 4          3      -4
   ...: 5          5      -2
   ...: 6          8       0
   ...: 7         10     -13
   ...: 8         12      -2
   ...: 9         13      -5
   ...: """

In [4]: df = read_csv(io.BytesIO(text), header=0, index_col=0, sep='\s+')

基于值而不是计数的带有窗口的pandas滚动计算

相关阅读

相关文章

相关问答

相关工具

相关文档