python - 将 Python 序列(时间序列/数组)拆分为重叠的子序列

coder 2023-08-23 原文

我需要提取给定窗口的时间序列/数组的所有子序列。例如:

>>> ts = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> window = 3
>>> subsequences(ts, window)
array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7],
       [5, 7, 8],
       [6, 8, 9]])

遍历序列的朴素方法当然是昂贵的，例如:

def subsequences(ts, window):
    res = []
    for i in range(ts.size - window + 1):
        subts = ts[i:i+window]
        subts.reset_index(drop=True, inplace=True)
        subts.name = None
        res.append(subts)
    return pd.DataFrame(res)

我找到了一种更好的方法，即复制序列，将其移动一个不同的值直到窗口被覆盖，然后使用 reshape 拆分不同的序列。性能提高了大约 100 倍，因为 for 循环遍历窗口大小，而不是序列大小:

def subsequences(ts, window):
    res = []
    for i in range(window):
        subts = ts.shift(-i)[:-(ts.size%window)].reshape((ts.size // window, window))
        res.append(subts)
    return pd.DataFrame(np.concatenate(res, axis=0))

我看到 pandas 在 pandas.stats.moment 模块中包含了几个滚动函数，我猜它们所做的在某种程度上类似于子序列问题。该模块中的任何地方或 pandas 中的其他任何地方都可以提高效率吗？

谢谢!

更新(解决方案):

根据@elyase 的回答，对于这个特定的案例，有一个稍微简单的实现，让我在这里写下来，并解释它在做什么:

def subsequences(ts, window):
    shape = (ts.size - window + 1, window)
    strides = ts.strides * 2
    return np.lib.stride_tricks.as_strided(ts, shape=shape, strides=strides)

给定一维 numpy 数组，我们首先计算结果数组的形状。我们将从数组的每个位置开始一行，只有最后几个元素除外，从它们开始，旁边没有足够的元素来完成窗口。

参见本说明中的第一个示例，我们如何从 6 开始的最后一个数字，因为从 7 开始，我们无法创建包含三个元素的窗口。因此，行数是大小减去窗口加一。列数就是窗口。

接下来，棘手的部分是告诉如何用我们刚刚定义的形状填充结果数组。

我们认为第一个元素将是第一个。然后我们需要指定两个值(在两个整数的元组中作为参数 strides 的参数)。这些值指定了我们需要在原始数组(一维数组)中执行的步骤以填充第二个数组(二维数组)。

考虑一个不同的例子，我们想要实现 np.reshape 函数，从 9 元素的一维数组到 3x3 数组。第一个元素填充第一个位置，然后它右边的元素将成为一维数组中的下一个元素，因此我们移动 1 步。然后，棘手的部分，要填充第二行的第一个元素，我们应该执行 3 个步骤，从 0 到 4，请参见:

>>> original = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8])
>>> new = array([[0, 1, 2],
                 [3, 4, 5],
                 [6, 7, 8])]

因此，要 reshape ，我们对两个维度的步骤是(1, 3)。对于我们的例子，它存在重叠，实际上更简单。当我们向右移动以填充结果数组时，我们从一维数组中的下一个位置开始，当我们向右移动时，我们再次获得一维数组中的下一个元素，即 1 步。因此，步骤将是 (1, 1)。

只有最后一件事需要注意。 strides 参数不接受我们使用的“步数”，而是内存中的字节数。要了解它们，我们可以使用 numpy 数组的 strides 方法。它返回一个包含步幅(以字节为单位的步长)的元组，每个维度都有一个元素。在我们的例子中，我们得到一个 1 元素的元组，我们需要它两次，所以我们有 * 2。

np.lib.stride_tricks.as_strided 函数使用描述的方法执行填充，无需复制数据，这使其非常高效。

最后，请注意，此处发布的函数采用一维输入数组(不同于以 1 个元素作为行或列的二维数组)。查看输入数组的形状方法，您应该得到类似于 (N, ) 而不是 (N, 1) 的内容。这种方法在后者上会失败。请注意，@elyase 发布的方法处理二维输入数组(这就是此版本稍微简单的原因)。

最佳答案

这比我机器上的快速版本快 34 倍:

def rolling_window(a, window):
    shape = a.shape[:-1] + (a.shape[-1] - window + 1, window)
    strides = a.strides + (a.strides[-1],)
    return np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)

>>> rolling_window(ts.values, 3)
array([[0, 1, 2],
      [1, 2, 3],
      [2, 3, 4],
      [3, 4, 5],
      [4, 5, 6],
      [5, 6, 7],
      [6, 7, 8],
      [7, 8, 9]])

归功于 Erik Rigtorp .

关于python - 将 Python 序列(时间序列/数组)拆分为重叠的子序列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27852343/

为重 python code window strides performance numpy pandas time-series

有关python - 将 Python 序列(时间序列/数组)拆分为重叠的子序列的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2
我有多个ActiveRecord子类Item的实例数组，我需要根据最早的事件循环打印。在这种情况下，我需要打印付款和维护日期，如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询，用于查找maintenance和payment项目(非排他性查询)，并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
ruby - 多次弹出/移动 ruby 数组 - 2
我的代码目前看起来像这样numbers=[1,2,3,4,5]defpop_threepop=[]3.times{pop有没有办法在一行中完成pop_three方法中的内容？我基本上想做类似numbers.slice(0,3)的事情，但要删除切片中的数组项。嗯...嗯，我想我刚刚意识到我可以试试slice! 最佳答案是numbers.pop(3)或者numbers.shift(3)如果你想要另一边。关于ruby-多次弹出/移动ruby数组，我们在StackOverflow上找到一
ruby - 将数组的内容转换为 int - 2
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值，但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗？ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案只需将数组映射为整数:@land边注如果你想得到一条线的平均值，你可以这样做:values=@input[x]
ruby - 通过 erb 模板输出 ruby 数组 - 2
我正在使用puppet为ruby程序提供一组常量。我需要提供一组主机名，我的程序将对其进行迭代。在我之前使用的bash脚本中，我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是，我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这
ruby - 检查数组是否在增加 - 2
这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加？这是我的解决方案，但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife
ruby - 如果指定键的值在数组中相同，如何合并哈希 - 2
我有一个这样的哈希数组:[{:foo=>2,:date=>Sat,01Sep2014},{:foo2=>2,:date=>Sat,02Sep2014},{:foo3=>3,:date=>Sat,01Sep2014},{:foo4=>4,:date=>Sat,03Sep2014},{:foo5=>5,:date=>Sat,02Sep2014}]如果:date相同，我想合并哈希值。我对上面数组的期望是:[{:foo=>2,:foo3=>3,:date=>Sat,01Sep2014},{:foo2=>2,:foo5=>5:date=>Sat,02Sep2014},{:foo4=>4,:dat
ruby - 在 Ruby 中用键盘诅咒数组浏览 - 2
我正在尝试在Ruby中制作一个cli应用程序，它接受一个给定的数组，然后将其显示为一个列表，我可以使用箭头键浏览它。我觉得我已经在Ruby中看到一个库已经这样做了，但我记不起它的名字了。我正在尝试对soundcloud2000中的代码进行逆向工程做类似的事情，但他的代码与SoundcloudAPI的使用紧密耦合。我知道cursesgem，我正在考虑更抽象的东西。广告有没有人见过可以做到这一点的库或一些概念证明的Ruby代码可以做到这一点？最佳答案我不知道这是否是您正在寻找的，但也许您可以使用我的想法。由于我没有关于您要完成的工作
ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法，但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗？编辑解释我的环境，并改变问题的范围。因此，我的项目将使用jsapiFullCalendar，这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么，以正确的格式将日期保存在数据库中，或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。最佳答案我不太明白你的问题。我假设您想检查
ruby - 如何在 Grape 中定义哈希数组？ - 2
我使用Ember作为我的前端和GrapeAPI来为我的API提供服务。前端发送类似:{"service"=>{"name"=>"Name","duration"=>"30","user"=>nil,"organization"=>"org","category"=>nil,"description"=>"description","disabled"=>true,"color"=>nil,"availabilities"=>[{"day"=>"Saturday","enabled"=>false,"timeSlots"=>[{"startAt"=>"09:00AM","endAt"=>

python - 将 Python 序列(时间序列/数组)拆分为重叠的子序列

有关python - 将 Python 序列(时间序列/数组)拆分为重叠的子序列的更多相关文章

随机推荐