python - 了解 Keras LSTM : Role of Batch-size and Statefulness

coder 2023-08-16 原文

来源

有多个来源解释了有状态/无状态 LSTM 以及我已经阅读过的 batch_size 的作用。我稍后会在我的帖子中提到它们:

[ 1 ] https://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/

[ 2 ] https://machinelearningmastery.com/stateful-stateless-lstm-time-series-forecasting-python/

[ 3 ] http://philipperemy.github.io/keras-stateful-lstm/

[ 4 ] https://machinelearningmastery.com/use-different-batch-sizes-training-predicting-python-keras/

还有其他 SO 线程，如 Understanding Keras LSTMs和 Keras - stateful vs stateless LSTMs然而，这并没有完全解释我在寻找什么。

我的问题

我仍然不确定在状态性和确定 batch_size 方面我的任务的正确方法是什么。

我有大约 1000 个独立的时间序列(samples)，每个时间序列(timesteps)的长度约为 600 天(实际上是可变长度，但我考虑过修剪数据到一个恒定的时间帧)，每个时间步长有 8 个特征(或 input_dim)(一些特征与每个样本相同，一些特征与每个样本相同)。

输入形状 = (1000, 600, 8)

其中一个特征是我要预测的特征，而其他特征(应该是)支持预测这个“主特征”。我将为 1000 个时间序列中的每一个都这样做。对此问题建模的最佳策略是什么？

输出形状 = (1000, 600, 1)

什么是批处理？

来自 [ 4 ]:

Keras uses fast symbolic mathematical libraries as a backend, such as TensorFlow and Theano.

A downside of using these libraries is that the shape and size of your data must be defined once up front and held constant regardless of whether you are training your network or making predictions.

[…]

This does become a problem when you wish to make fewer predictions than the batch size. For example, you may get the best results with a large batch size, but are required to make predictions for one observation at a time on something like a time series or sequence problem.

在我看来，这听起来像是一个“批处理”会沿着 timesteps 维度拆分数据。

但是，[ 3 ] 指出:

Said differently, whenever you train or test your LSTM, you first have to build your input matrix X of shape nb_samples, timesteps, input_dim where your batch size divides nb_samples. For instance, if nb_samples=1024 and batch_size=64, it means that your model will receive blocks of 64 samples, compute each output (whatever the number of timesteps is for every sample), average the gradients and propagate it to update the parameters vector.

当深入研究 [ 1 的例子时] 和 [ 4 ]，Jason 总是将他的时间序列拆分为几个仅包含 1 个时间步长的样本(在他的示例中，前任完全确定了序列中的下一个元素)。所以我认为批处理实际上是沿着 samples 轴拆分的。 (然而，他的时间序列拆分方法对我来说对于长期依赖问题没有意义。)

结论

假设我选择 batch_size=10，这意味着在一个时期内，权重更新 1000/10 = 100 次，随机选择 10 个，完整的时间序列包含 600 x 8 个值，并且当稍后我想用模型进行预测，我总是必须将 10 个完整时间序列分批输入(或使用 [ 4 ] 中的解决方案 3，将权重复制到新模型具有不同的 batch_size)。

了解 batch_size 的原理 – 但是仍然不知道什么是 batch_size 的合适值。 以及如何确定它

有状态

KERAS documentation告诉我们

You can set RNN layers to be 'stateful', which means that the states computed for the samples in one batch will be reused as initial states for the samples in the next batch.

如果我将我的时间序列分成几个样本(如 [ 1 ] 和 [ 4 ] 的示例)，那么我想建模的依赖项跨越多个批处理，或者批处理跨越样本以其他方式相互关联，我可能需要一个有状态的网络，否则不需要.这是一个正确而完整的结论吗？

所以对于我的问题，我想我不需要有状态的网络。我会将我的训练数据构建为形状为 (samples, timesteps, features) 的 3D 数组，然后调用 model.fit 并确定 batch_size。示例代码可能如下所示:

model = Sequential()
model.add(LSTM(32, input_shape=(600, 8)))   # (timesteps, features)
model.add(LSTM(32))
model.add(LSTM(32))
model.add(LSTM(32))
model.add(Dense(1, activation='linear'))
model.compile(loss='mean_squared_error', optimizer='adam')
model.fit(X, y, epochs=500, batch_size=batch_size, verbose=2)

最佳答案

让我通过一个例子来解释它:

假设您有以下系列:1,2,3,4,5,6,...,100。您必须决定您的 lstm 将学习多少个时间步长，并据此 reshape 您的数据。如下所示:

如果您决定 time_steps = 5，则必须以这种方式将时间序列 reshape 为样本矩阵:

1,2,3,4,5 -> sample1

2,3,4,5,6 -> sample2

3,4,5,6,7 -> sample3

etc...

这样，您将得到一个形状矩阵(96 个样本 x 5 个时间步长)

此矩阵应 reshape 为 (96 x 5 x 1)，表明 Keras 您只有 1 个时间序列。如果您有更多并行时间序列(如您的情况)，则对每个时间序列执行相同的操作，因此您将以每个形状(96 个样本 x 5 个时间步长)的 n 个矩阵(每个时间序列一个)结束。

为了论证，假设您有 3 个时间序列。您应该将所有三个矩阵连接成一个形状张量(96 个样本 x 5 个时间步长 x 3 个时间序列)。这个例子的第一层 lstm 是:

    model = Sequential()
    model.add(LSTM(32, input_shape=(5, 3)))

作为第一个参数的 32 完全由您决定。这意味着在每个时间点，你的3个时间序列将变成32个不同的变量作为输出空间。将每个时间步视为具有 3 个输入和 32 个输出但具有与 FC 层不同的计算的完全连接层更容易。

如果您要堆叠多个 lstm 层，请使用 return_sequences=True 参数，这样该层将输出整个预测序列，而不仅仅是最后一个值。

您的目标应该是您要预测的系列中的下一个值。

将所有内容放在一起，假设您有以下时间序列:

时间序列 1(主):1,2,3,4,5,6,..., 100

时间序列 2(支持):2,4,6,8,10,12,..., 200

时间序列 3(支持):3,6,9,12,15,18,..., 300

创建输入张量和目标张量

x     -> y
1,2,3,4,5 -> 6

2,3,4,5,6 -> 7

3,4,5,6,7 -> 8

reformat the rest of time series, but forget about the target since you don't want to predict those series

创建你的模型

    model = Sequential()
    model.add(LSTM(32, input_shape=(5, 3), return_sequences=True)) # Input is shape (5 timesteps x 3 timeseries), output is shape (5 timesteps x 32 variables) because return_sequences  = True
    model.add(LSTM(8))  # output is shape (1 timesteps x 8 variables) because return_sequences = False
    model.add(Dense(1, activation='linear')) # output is (1 timestep x 1 output unit on dense layer). It is compare to target variable.

编译并训练。一个好的批量大小是 32。批量大小是为了加快计算而拆分样本矩阵的大小。只是不要使用有状态

关于python - 了解 Keras LSTM : Role of Batch-size and Statefulness，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48491737/

有关python - 了解 Keras LSTM : Role of Batch-size and Statefulness的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
Python 刷Leetcode题库，顺带学英语单词（31） - 2
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem
python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML？ - 2
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)？也许我在网上搜索时遗漏了一些东西，但在Psych中似乎没有太多可用的选项，而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的，但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念，但不是人类可读性)。Ruby和Python是我选择的工具，但如果有其他一些相当简单的方法来“展开”YAML文档，它可能就可以了。最佳答案
.net - .NET 将如何影响 Python 和 Ruby 应用程序？ - 2
我很好奇.NET将如何影响Python和Ruby应用程序。用IronPython/IronRuby编写的应用程序是否会非常特定于.NET环境，以至于它们实际上将变得特定于平台？如果他们不使用任何.NET功能，那么IronPython/IronRuby相对于非.NET同类产品的优势是什么？最佳答案我不能说任何关于IronRuby的东西，但是大多数Python实现(如IronPython、Jython和PyPy)都试图尽可能忠实于CPython实现。不过，IronPython正在迅速成为这方面的佼佼者之一，并且在PlanetPyth

python - 了解 Keras LSTM : Role of Batch-size and Statefulness

来源

我的问题

什么是批处理？

有状态

有关python - 了解 Keras LSTM : Role of Batch-size and Statefulness的更多相关文章

随机推荐