集成时间序列模型提高预测精度

Michael Keith 2023-03-28 原文

使用Catboost从RNN、ARIMA和Prophet模型中提取信号进行预测。

集成各种弱学习器可以提高预测精度，但是如果我们的模型已经很强大了，集成学习往往也能够起到锦上添花的作用。流行的机器学习库scikit-learn提供了一个StackingRegressor，可以用于时间序列任务。但是StackingRegressor有一个局限性;它只接受其他scikit-learn模型类和api。所以像ARIMA这样在scikit-learn中不可用的模型，或者来自深度神经网络的模型都无法使用。在这篇文章中，我将展示如何堆叠我们能见到的模型的预测。

我们将用到下面的包：

pip install --upgrade scalecast
 conda install tensorflow
 conda install shap
 conda install -c conda-forge cmdstanpy
 pip install prophet

数据集

数据集每小时一次，分为训练集(700个观测值)和测试集(48个观测值)。下面代码是读取数据并将其存储在Forecaster对象中:

import pandas as pd
 import numpy as np
 from scalecast.Forecaster import Forecaster
 from scalecast.util import metrics
 import matplotlib.pyplot as plt
 import seaborn as sns
 
 def read_data(idx = 'H1', cis = True, metrics = ['smape']):
     info = pd.read_csv(
         'M4-info.csv',
         index_col=0,
         parse_dates=['StartingDate'],
         dayfirst=True,
    )
     train = pd.read_csv(
         f'Hourly-train.csv',
         index_col=0,
    ).loc[idx]
     test = pd.read_csv(
         f'Hourly-test.csv',
         index_col=0,
    ).loc[idx]
     y = train.values
     sd = info.loc[idx,'StartingDate']
     fcst_horizon = info.loc[idx,'Horizon']
     cd = pd.date_range(
         start = sd,
         freq = 'H',
         periods = len(y),
    )
     f = Forecaster(
         y = y, # observed values
         current_dates = cd, # current dates
         future_dates = fcst_horizon, # forecast length
         test_length = fcst_horizon, # test-set length
         cis = cis, # whether to evaluate intervals for each model
         metrics = metrics, # what metrics to evaluate
    )
     
     return f, test.values
 
 f, test_set = read_data()
 f # display the Forecaster object

结果是这样的：

模型

在我们开始构建模型之前，我们需要从中生成最简单的预测，naive方法就是向前传播最近24个观测值。

f.set_estimator('naive')
 f.manual_forecast(seasonal=True)

然后使用ARIMA、LSTM和Prophet作为基准。

ARIMA

Autoregressive Integrated Moving Average 是一种流行而简单的时间序列技术，它利用序列的滞后和误差以线性方式预测其未来。通过EDA，我们确定这个系列是高度季节性的。所以最终选择了应用order (5,1,4) x(1,1,1,24)的季节性ARIMA模型。

f.set_estimator('arima')
 f.manual_forecast(
    order = (5,1,4),
    seasonal_order = (1,1,1,24),
    call_me = 'manual_arima',
 )

LSTM

如果说ARIMA是时间序列模型中比较简单的一种，那么LSTM就是比较先进的方法之一。它是一种具有许多参数的深度学习技术，其中包括一种在顺序数据中发现长期和短期模式的机制，这在理论上使其成为时间序列的理想选择。这里使用tensorflow建立这个模型

f.set_estimator('rnn')
 f.manual_forecast(
     lags = 48,
     layers_struct=[
        ('LSTM',{'units':100,'activation':'tanh'}),
        ('LSTM',{'units':100,'activation':'tanh'}),
        ('LSTM',{'units':100,'activation':'tanh'}),
    ],
     optimizer = 'Adam',
     epochs = 15,
     plot_loss = True,
     validation_split=0.2,
     call_me = 'rnn_tanh_activation',
 )
 
 f.manual_forecast(
     lags = 48,
     layers_struct=[
        ('LSTM',{'units':100,'activation':'relu'}),
        ('LSTM',{'units':100,'activation':'relu'}),
        ('LSTM',{'units':100,'activation':'relu'}),
    ],
     optimizer = 'Adam',
     epochs = 15,
     plot_loss = True,
     validation_split=0.2,
     call_me = 'rnn_relu_activation',
 )

Prophet

尽管它非常受欢迎，但有人声称它的准确性并不令人印象深刻，主要是因为它对趋势的推断有时候很不切实际，而且它没有通过自回归建模来考虑局部模式。但是它也有自己的特点。1，它会自动将节日效果应用到模型身上，并且还考虑了几种类型的季节性。可以以用户所需的最低需求来完成这一切，所以我喜欢把它用作信号，而不是最终的预测结果。

f.set_estimator('prophet')
 f.manual_forecast()

比较结果

现在我们已经为每个模型生成了预测，让我们看看它们在验证集上的表现如何，验证集是我们训练集中的最后48个观察结果。

results = f.export(determine_best_by='TestSetSMAPE')
 ms = results['model_summaries']
 ms[
    [
         'ModelNickname',
         'TestSetLength',
         'TestSetSMAPE',
         'InSampleSMAPE',
    ]
 ]

每个模型的表现都优于naive方法。ARIMA模型表现最好，百分比误差为4.7%，其次是Prophet模型。让我们看看所有的预测与验证集的关系:

f.plot(order_by="TestSetSMAPE",ci=True)
 plt.show()

所有这些模型在这个时间序列上的表现都很合理，它们之间没有很大的偏差。下面让我们把它们堆起来!

堆叠模型

每个堆叠模型都需要一个最终估计器，它将过滤其他模型的各种估计，创建一组新的预测。我们将把之前结果与Catboost估计器叠加在一起。Catboost是一个强大的程序，希望它能从每个已经应用的模型中充实出最好的信号。

f.add_signals(
     f.history.keys(), # add signals from all previously evaluated models
 )
 f.add_ar_terms(48)
 f.set_estimator('catboost')

上面的代码将来自每个评估模型的预测添加到Forecaster对象中。它称这些预测为“信号”。它们的处理方式与存储在同一对象中的任何其他协变量相同。这里还添加了最后 48 个系列的滞后作为 Catboost 模型可以用来进行预测的附加回归变量。现在让我们调用三种 Catboost 模型：一种使用所有可用信号和滞后，一种仅使用信号，一种仅使用滞后。

f.manual_forecast(
     Xvars='all',
     call_me='catboost_all_reg',
     verbose = False,
 )
 f.manual_forecast(
     Xvars=[x for x in f.get_regressor_names() if x.startswith('AR')],
     call_me = 'catboost_lags_only',
     verbose = False,
 )
 f.manual_forecast(
     Xvars=[x for x in f.get_regressor_names() if not x.startswith('AR')],
     call_me = 'catboost_signals_only',
     verbose = False,
 )

下面可以比较所有模型的结果。我们将研究两个度量:SMAPE和平均绝对比例误差(MASE)。这是实际M4比赛中使用的两个指标。

test_results = pd.DataFrame(index = f.history.keys(),columns = ['smape','mase'])
 for k, v in f.history.items():
     test_results.loc[k,['smape','mase']] = [
         metrics.smape(test_set,v['Forecast']),
         metrics.mase(test_set,v['Forecast'],m=24,obs=f.y),
    ]
     
 test_results.sort_values('smape')

可以看到，通过组合来自不同类型模型的信号生成了两个优于其他估计器的估计器:使用所有信号训练的Catboost模型和只使用信号的Catboost模型。这两种方法的样本误差都在2.8%左右。下面是对比图：

fig, ax = plt.subplots(figsize=(12,6))
 f.plot(
     models = ['catboost_all_reg','catboost_signals_only'],
     ci=True,
     ax = ax
 )
 sns.lineplot(
     x = f.future_dates,
     y = test_set,
     ax = ax,
     label = 'held out actuals',
     color = 'darkblue',
     alpha = .75,
 )
 plt.show()

哪些信号最重要?

为了完善分析，我们可以使用shapley评分来确定哪些信号是最重要的。Shapley评分被认为是确定给定机器学习模型中输入的预测能力的最先进的方法之一。得分越高，意味着输入在特定模型中越重要。

f.export_feature_importance('catboost_all_reg')

上面的图只显示了前几个最重要的预测因子，但我们可以从中看出，ARIMA信号是最重要的，其次是序列的第一个滞后，然后是Prophet。RNN模型的得分也高于许多滞后模型。如果我们想在未来训练一个更轻量的模型，这可能是一个很好的起点。

总结

在这篇文章中，我展示了在时间序列上下文中集成模型的力量，以及如何使用不同的模型在时间序列上获得更高的精度。这里我们使用scalecast包，这个包的功能还是很强大的，如果你喜欢，可以去它的主页看看：https://github.com/mikekeith52/scalecast

本文的数据集是M4的时序竞赛：https://github.com/Mcompetitions/M4-methods

使用代码在这里：https://scalecast-examples.readthedocs.io/en/latest/misc/stacking/custom_stacking.html

集成时间序列模型 span style color 人工智能机器学习 $机器学习数据集

有关集成时间序列模型提高预测精度的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法，但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗？编辑解释我的环境，并改变问题的范围。因此，我的项目将使用jsapiFullCalendar，这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么，以正确的格式将日期保存在数据库中，或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。最佳答案我不太明白你的问题。我假设您想检查
ruby-on-rails - 如何使辅助方法在 Rails 集成测试中可用？ - 2
我在app/helpers/sessions_helper.rb中有一个帮助程序文件，其中包含一个方法my_preference，它返回当前登录用户的首选项。我想在集成测试中访问该方法。例如，这样我就可以在测试中使用getuser_path(my_preference)。在其他帖子中，我读到这可以通过在测试文件中包含requiresessions_helper来实现，但我仍然收到错误NameError:undefinedlocalvariableormethod'my_preference'.我做错了什么？require'test_helper'require'sessions_hel
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案