将Python序列（时间序列/数组）拆分为具有重叠的子序列

施鸿

2023-03-14

问题内容：

我需要提取给定窗口的时间序列/数组的所有子序列。例如：

>>> ts = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> window = 3
>>> subsequences(ts, window)
array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7],
       [5, 7, 8],
       [6, 8, 9]])

迭代序列的简单方法当然很昂贵，例如：

def subsequences(ts, window):
    res = []
    for i in range(ts.size - window + 1):
        subts = ts[i:i+window]
        subts.reset_index(drop=True, inplace=True)
        subts.name = None
        res.append(subts)
    return pd.DataFrame(res)

我发现了一种更好的方法，即复制序列，将其移动一个不同的值直到覆盖窗口，然后使用分割不同的序列reshape。性能大约提高了100倍，因为for循环遍历窗口大小而不是序列大小：

def subsequences(ts, window):
    res = []
    for i in range(window):
        subts = ts.shift(-i)[:-(ts.size%window)].reshape((ts.size // window, window))
        res.append(subts)
    return pd.DataFrame(np.concatenate(res, axis=0))

我已经看到pandas在pandas.stats.moment模块中包含多个滚动功能，我想它们的作用在某种程度上类似于子序列问题。该模块中是否有其他地方，或者熊猫中是否有其他地方可以提高效率？

谢谢！

更新（解决方案）：

基于@elyase答案，对于这种特定情况，有一个稍微简单的实现，让我在这里写下来，并解释它的作用：

def subsequences(ts, window):
    shape = (ts.size - window + 1, window)
    strides = ts.strides * 2
    return np.lib.stride_tricks.as_strided(ts, shape=shape, strides=strides)

给定一维numpy数组，我们首先计算所得数组的形状。除了数组中的最后几个元素外，我们将从数组的每个位置开始一行，在数组的最后几个元素旁边没有足够的元素来完成窗口。

请参见本说明中的第一个示例，我们从的最后一个数字如何为6，因为从7开始，我们无法创建包含三个元素的窗口。因此，行数是大小减去窗口再加上一。列数就是窗口。

接下来，棘手的部分是告诉我们如何使用刚刚定义的形状填充结果数组。

为此，我们认为第一个元素将是第一个。然后，我们需要指定两个值（两个整数的元组作为参数的参数strides）。这些值指定我们需要在原始数组（一维数组）中填充第二个（二维数组）的步骤。

考虑一个不同的示例，np.reshape从9个元素的1维数组到3x3数组，我们要实现该功能。第一个元素填充第一个位置，然后其右边的一个元素将是1-D数组中的下一个元素，因此我们移动
1 step 。然后，棘手的部分要填充第二行的第一个元素，我们应该执行3步，从0到4，请参见：

>>> original = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8])
>>> new = array([[0, 1, 2],
                 [3, 4, 5],
                 [6, 7, 8])]

因此，reshape对于这两个维度，我们的步骤将是(1, 3)。对于我们来说，它存在重叠，实际上更简单。当我们向右移动以填充结果数组时，我们从1-D数组中的下一个位置开始，而当我们向右移动时，我们再次获取1-D数组中的下一个元素，即1步。因此，步骤将是(1, 1)。

最后只有一件事要注意。该strides参数不接受我们使用的“步骤”，而是接受内存中的字节。要了解它们，我们可以使用stridesnumpy数组的方法。它返回一个带有跨步（以字节为单位的步幅）的元组，每个维都有一个元素。在我们的例子中，我们得到一个1元素元组，并且我们希望它两次，所以我们有了* 2。

该np.lib.stride_tricks.as_strided函数使用描述的方法执行填充， 而无需 复制数据，这使其效率很高。

最后，请注意，此处发布的函数假定使用一维输入数组（与具有1个元素作为行或列的二维数组不同）。参见输入数组的shape方法，您应该得到类似(N, )和not的信息(N, 1)。这种方法在后者上将失败。请注意，@ elyase发布的方法处理二维输入数组（这就是为什么此版本稍微简单一些的原因）。

问题答案：

这比您的机器上的快速版本快34倍：

def rolling_window(a, window):
    shape = a.shape[:-1] + (a.shape[-1] - window + 1, window)
    strides = a.strides + (a.strides[-1],)
    return np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)

>>> rolling_window(ts.values, 3)
array([[0, 1, 2],
      [1, 2, 3],
      [2, 3, 4],
      [3, 4, 5],
      [4, 5, 6],
      [5, 6, 7],
      [6, 7, 8],
      [7, 8, 9]])

幸得埃里克Rigtorp。

将Python序列（时间序列/数组）拆分为具有重叠的子序列

相关阅读

相关文章

相关问答

相关工具

相关文档