Transformer 在时间序列预测中的应用

机器学习社区 2023-04-14 原文

2017年，Google的一篇 Attention Is All You Need 为我们带来了Transformer，其在NLP领域的重大成功展示了它对时序数据的强大建模能力，自然有人想要把Transformer应用到时序数据预测上。在Transformer的基础上构建时序预测能力可以突破以往的诸多限制，最明显的一个增益点是，Transformer for TS可以基于Multi-head Attention结构具备同时建模长期和短期时序特征的能力。

本文将要介绍的一个充分利用了Transformer的优势，并在Transformer的基础上改进了Attention的计算方式以适应时序数据，同时提出了一种解决Transformer拓展性差问题的算法：ConvTrans。论文来源于NeurIPS 2019的一篇文章，作者给出了基于PyTorch的具体实现。

论文来源：NeurIPS 2019

论文地址：https://arxiv.org/abs/1907.00235

论文源码：https://github.com/mlpotter/Transformer_Time_Series

干货推荐

概述

一般来说，谈及DL领域时序预测，首先大家会想到RNN类的模型，但RNN在网络加深时存在梯度消失和梯度爆炸问题。即使是后续的LSTM，在捕捉长期依赖上依然力不从心。再后面有了Amazon提出的DeepAR，是一种针对大量相关时间序列统一建模的预测算法，该算法使用递归神经网络 (RNN) 结合自回归(AR) 来预测标量时间序列，在大量时间序列上训练自回归递归网络模型，并通过预测目标在序列每个时间步上取值的概率分布来完成预测任务。

ConvTrans

ConvTrans, 其实它与DeepAR有很多相似的地方，比如它也是一个自回归的概率预测模型，对于下一步预测采用分位数p10（分位数就是以概率将一批数据进行分割，比如 p10=a 代表一批数据中小于a的数占总数的10%）、 p50等；再比如ConvTrans也支持协变量预测，可以接受输入比如气温、事件、个体标识等等其他相关变量来辅助预测。

不同的是ConvTrans具备Transformer架构独有的优势，大致为以下四点：

支持并行，训练得更快。基于RNN的模型中每一个隐状态都依赖于它前一步的隐状态，因此必须从前向后必须逐个计算，每一次都只能前进一步。而Transformer没有这样的约束，输入的序列被并行处理，由此带来更快的训练速度。
更强的长期依赖建模能力，在长序列上效果更好。在前面提到过，基于RNN的方法面对长序列时无法完全消除梯度消失和梯度爆炸的问题，而Transformer架构则可以解决这个问题
Transformer可以同时建模长期依赖和短期依赖。Multi-head Attention中不同的head可以关注不同的模式。
Transformer的AttentionScore可以提供一定的可解释性。通过可视化AttentionScore可以看到当前预测对历史值注意力的分布。

当然Transformer for TS的架构也有相应的缺点：

是基于序列的编解码结构（seq2seq），编码器和解码器均采用基于自注意力机制的网络，所以计算空间复杂度大，需要处理序列的编解码。
原始Transformer的自注意力计算方法对局部信息不敏感，使得模型易受异常点影响，带来了潜在的优化问题。

而2019NeurIPS的论文针对这些缺点做了相应的2点改进：

Convolutional Self-Attention ：针对时序数据预测任务的特点，增强对局部上下文信息的关注，使预测更精准。
LogSparse ：解决了Attention计算空间复杂度太高的问题，使模型能处理更长的时间序列数据。

后面会详细展开说明

算法模型

01、Convolutional Self-Attention

原始Transformer中的Self-Attention结构如下:

而论文中设计的Convolutional Self-Attention更适合时序数据，因为它能够增强模型对时间序列中局部上下文信息的建模能力，从而降低异常点对预测结果的影响程度，提高预测准确性。这也是ConvTrans（Convolution Transformer）的名称由来。

Self-Attention中的计算 Q、K、V 的过程可能导致数据的关注点出现异常，如上图中（a）所示，由于之前的注意力得分仅仅是单时间点之间关联的体现，（a）中中间的红点只关注到与它值相近的另一单时间红点，而没有考虑到自身上下文（即变化趋势）。即希望增强局部上下文的建模能力，得到图（c）中的效果。

作者们提出的改进方法是在计算 Query 和 Key 时采用大小大于1（等于1就是原始Transformer）的卷积核来进行卷积操作，如图中（d）所示，从而实现使注意力关注局部上下文，使得更相关的特征能够得到匹配。

观察下图，对比应用不同大小卷积核的模型实现，Convolutional Self-Attention能够更快地拟合，且取得更低的训练损失。图中k代表卷积核大小，下角标1d代表预测未来一天

并且文中还给出了基于真实世界数据的具体结果对比，来说明k对模型预测准确率的影响：

由于电力数据集相对简单且协变量提供了丰富的信息，改变k值对模型的提升并不明显。但在更加复杂的交通数据集中，更大的k较明显地提升了模型的预测准确度，进一步验证了增强局部信息的必要性。目前k值的设置需要在实践中权衡。

02、LogSparse Transformer

针对Transformer的存储瓶颈问题，文中引入了LogSparse机制，那么具体是个啥呢？

我们先来看一下原始Transformer在交通数据集上训练学习得到的注意力得分分布情况：

可以看到该模型共10层，图中蓝色、青色、红色的线分别是第2，6，10层的注意力得分，灰色的线为原始数据。

我们注意到：不同层对不同频率信息的关注度不同

第2层（蓝色）倾向于学习每一天的模式
第6层（青色）则更关注周末的影响
而第10层（红色）对最近的时刻（邻近预测点）关注较高。

论文作者们认为引入某种程度的稀疏性，不会显著影响性能，反而为模型带来了处理具备细粒度和强长期依赖的长时间序列的能力。为了使得最终每个点都能接触到它的所有历史值的信息，所以便提出了LogSparse的设计，通过堆叠多个自注意力层来实现这个目的，如下图所示：

设为单元l在第k 至 k+1 层计算时要访问的单元的索引的集合。在标准的Transformer中，这表示每一个单元都要访问所有的历史单元以及它自己（如图a所示），那么这样空间复杂度为，L是序列长度。

如果采用堆叠多层的方式，

如图b所示，每一层的空间复杂度就降低到了 , 整体空间复杂度就是 ,解决了Transformer的可扩展性瓶颈。另外作者还提出了一些其他的稀疏性策略, 具体可以参考原论文。

对比在不同限制条件下的预测效果，可以看出LogSparse在更复杂的交通数据集上对模型提升效果更明显，也说明了长期依赖的重要性。

效果对比

‍‍‍‍

原论文在真实数据集上进行了训练评估，并与ARIMA，TRMF以及DeepAR等模型进行了对比实验。

对比的基线模型：

ARIMA：将自回归（AR）的算子加上移动平均（MA），就是 ARIMA 算法。回归能够反映数据的周期性规律，和移动平均形成互补，从统计学的角度可以很好的预测一元与时间强相关场景下的时间序列。
TRMF：矩阵分解方法。
DeepAR：基于LSTM的自回归概率预测方法。
DeepState: 基于RNN的状态空间方法。

实验结果

实验表明其在多个公开数据集上取得state-of-the-art。

复现方式

论文作者对其模型进行完整的开源，代码包括 DataProcessor，TransformerTimeseries，Train与Prediction。采用pytorch框架实现，没有使用系数策略。具体参见如下地址：

https://github.com/mlpotter/Transformer_Time_Series/blob/master/

而对于Log Parse策略的实现，参见如下代码：

https://github.com/ghsama/ConvTransformerTimeSeries

总结

老生常谈，算法再SOTA，还是要结合你具体的业务场景去选择。

在forecast常见的业务场景，传统方法基于统计、自回归的预测方法，针对单条时间线，虽然需要根据具体数据特征实时计算，但是也轻便快速好上手；

相比之下，深度学习方法能同时考虑多条时间序列之间的相关性，并且可以引入协变量辅助模型判断（例如预测未来销售量时，如果只接受时间和历史销售量数据，则是自回归预测，如果可以接受天气、经济指数、政策事件分类等其他协变量，则称为使用协变量进行预测。）适合业务数据量大、全的场景。

Transformer 在 xff xff0c xff0 深度学习人工智能

有关Transformer 在时间序列预测中的应用的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - Rails 应用程序之间的通信 - 2
我构建了两个需要相互通信和发送文件的Rails应用程序。例如，一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情，所以我什至不知道从哪里开始。任何帮助，将不胜感激。谢谢! 最佳答案无论Rails是什么，几乎所有Web应用程序都有您的要求，大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去，网站不应直接访问彼此
ruby - 无法运行 Rails 2.x 应用程序 - 2
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器，然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr