【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测建模及python代码详解问题二

Better Bench 2023-04-19 原文

1 题目

完整题目参考问题一的文章
基于问题一的分析，建立数学模型，对附件预测数据（predict_sku1.csv）中给出的产品，预测未来 3 月（即 2019 年 1 月、2 月、3 月）的月需求量，将预测结果按照表 3 的格式保存为文件 result1.xlsx，与论文一起提交。请分别按天、周、月的时间粒度进行预测，试分析不同的预测粒度对预测精度会产生什么样的影响。

2 问题二解析

2.1 问题分析

这是一个时间预测模型，常用的时间序列预测模型包括：

自回归移动平均模型（ARMA）
自回归积分移动平均模型（ARIMA）
季节性自回归积分移动平均模型（SARIMA）
自回归条件异方差模型（ARCH）
长短期记忆模型（LSTM）

在此任务中，是一个多输入的时间预测问题，在时间序列预测模型中，采用多个输入的模型主要包括以下几种：

ARIMAX模型：在ARIMA模型的基础上，增加外生变量作为模型的输入，以考虑外部因素对时间序列的影响。
VAR模型：矢量自回归模型（Vector Autoregression Model，VAR）是一种多元时间序列模型，能够考虑多个时间序列之间的相互影响关系。
LSTM模型：长短期记忆网络（Long Short-Term Memory，LSTM）是一种循环神经网络，能够对时间序列的长期依赖性进行建模，同时也支持多个输入的模型。
Prophet模型：由Facebook开发的预测模型，采用加性模型，并且可以考虑多个外生变量，具有较好的可解释性。
SARIMAX模型：季节性自回归移动平均模型（Seasonal ARIMA with External Regressors，SARIMAX）是ARIMAX模型的扩展，能够考虑季节性变化，并且也支持多个外生变量的输入。

这些模型可以通过引入多个外部变量来提高时间序列预测的准确性和可解释性，但也需要注意过拟合和变量选择的问题。在具体应用中，需要根据数据特点和预测目标选择合适的模型。

2.2 时间序列预测问题的建模步骤

数据清洗和处理：对历史数据进行清洗和处理，包括去除异常值、缺失值处理等。此外，还需要将数据按照时间序列的方式进行排序。
时间序列分解：将时间序列数据分解为趋势、季节和随机成分。这可以通过拟合加法模型或乘法模型来实现。其中加法模型假定季节成分与趋势成分之和等于原始数据，而乘法模型假定季节成分与趋势成分的乘积等于原始数据。
模型选择和拟合：选择合适的时间序列模型对趋势、季节和随机成分进行拟合。一般常用的模型包括ARIMA模型、指数平滑模型等。
模型诊断：对拟合好的模型进行诊断，检验其残差是否符合正态分布、是否存在自相关性等。
模型预测：使用已经拟合好的模型进行未来需求量的预测，并计算预测精度。

在此任务中，首先，读取训练集和预测集数据，并将训练集中的日期列转换为日期类型，并将其设置为数据集的索引。接着，将数据按照一定的维度进行分组，并将每个组的时间序列进行了平稳性检验，若不平稳则进行一阶或者多阶差分，直到序列平稳。然后，使用 SARIMA 模型对每个分组的差分序列进行拟合，并预测未来三个月的需求量。在预测过程中，针对每个预测样本，根据其销售区域、产品、大类和细类，生成外部变量，用于对模型进行外部扰动。最后，将预测结果保存到 Excel 文件中。

2.3 改进的角度

有许多方法可以改进时间序列预测模型，下面列出了几种常见的方法：

调整模型参数：可以通过调整模型的参数来改善模型的性能。例如，对于ARIMA模型，可以调整p、d、q参数，对于LSTM模型，可以调整神经元数量、学习率、迭代次数等参数。需要注意的是，参数调整需要进行交叉验证等方法来评估模型的性能和泛化能力。
增加特征：通过增加更多的特征来提高模型的预测准确度。除了历史数据特征和时间特征之外，还可以考虑其他相关特征，例如，天气数据、经济数据等，可以对时间序列的预测结果产生影响。
数据增强：通过增加更多的历史数据来提高模型的预测准确度。可以通过扩展历史数据范围或增加数据精度等方式来增加历史数据。
模型融合：将多个模型的预测结果进行加权平均或堆叠等方式来提高模型的预测准确度。模型融合可以通过多个模型的优点互补来提高整体的预测效果。
使用集成学习：集成学习是一种通过将多个基本模型进行组合来提高整体预测效果的方法。例如，可以通过Bagging、Boosting等方式将多个决策树、LSTM等基本模型进行组合。
调整训练数据：可以通过对训练数据进行平滑处理、滑动窗口等方式来提高模型的预测准确度。例如，可以通过移动平均、指数平滑等方式对训练数据进行平滑处理。

需要注意的是，模型改进需要进行交叉验证等方法来评估模型的性能和泛化能力，以避免模型过拟合或欠拟合的情况。

3 python实现

由于目前未提供完整数据，在运行以下代码时，会报错：ValueError: sample size is too short to use selected regression component，是因为此时数据集中的某个区域下的产品样本太少，不足以构成时间序列，所以不能差分。

3.1 以月为时间粒度

对以下代码进行注释，并说明思路：
import pandas as pd
import statsmodels.api as sm
from datetime import datetime, timedelta

train_data = pd.read_csv('data/order_train0.csv')
predict_data = pd.read_csv('data/predict_sku0.csv')

train_data['order_date'] = pd.to_datetime(train_data['order_date'])
train_data = train_data.set_index('order_date')

。。。略，请下载完整代码

def make_stationary(ts):
    # 一阶差分
    ts_diff = ts.diff().dropna()
    # 进一步差分，直到平稳
    while not sm.tsa.stattools.adfuller(ts_diff)[1] < 0.05:
        ts_diff = ts_diff.diff().dropna()
    return ts_diff

train_ts_diff = train_ts.groupby(['sales_region_code', 'item_code', 'first_cate_code', 'second_cate_code']).apply(make_stationary)

order = (1, 1, 1)
seasonal_order = (1, 0, 1, 12)

model = sm.tsa.statespace.SARIMAX(train_ts_diff, order=order, seasonal_order=seasonal_order, enforce_stationarity=False, enforce_invertibility=False)
result = model.fit()

# 预测未来三个月的数据

start_date = datetime(2019, 1, 1)
end_date = datetime(2019, 3, 31)
predict_dates = pd.date_range(start=start_date, end=end_date, freq='M')

# 预测每个销售区域、产品、大类和细类的需求量

predict = pd.DataFrame()
for i in range(len(predict_data)):
    # 生成外部变量
    predict_exog = pd.DataFrame(predict_data.iloc[i, :]).T.set_index(['sales_region_code', 'item_code', 'first_cate_code', 'second_cate_code'])
    predict_exog.index = pd.MultiIndex.from_tuples(predict_exog.index)
    predict_exog = predict_exog.reindex(index=train_ts_diff.index.union(predict_exog.index), fill_value=0).sort_index()
    predict_exog = predict_exog.loc[predict_dates]
    # 预测未来三个月的需求量
    predict_diff = result.get_forecast(steps=len(predict_dates), exog=predict_exog, dynamic=True)

    # 将预测出的差分值加上训练集最后一月的差分值
    predict_diff_predicted = predict_diff.predicted_mean
    predict_diff_predicted = predict_diff_predicted + train_ts_diff.iloc[-1]

    # 将差分值转换为预测值
    predict_predicted = predict_diff_predicted.cumsum() + train_ts.iloc[-1]

   # 将预测结果保存到DataFrame中
    predict_temp = pd.DataFrame({'sales_region_code': [predict_data.iloc[i, 0]], 'item_code': [predict_data.iloc[i, 1]],
                                 '2019年1月预测需求量': predict_predicted.loc['2019-01-01':'2019-01-31'].sum(),
                                 '2019年2月预测需求量': predict_predicted.loc['2019-02-01':'2019-02-28'].sum(),
                                 '2019年3月预测需求量': predict_predicted.loc['2019-03-01':'2019-03-31'].sum()})
    predict = pd.concat([predict, predict_temp], ignore_index=True)

# 将预测结果保存到Excel文件中
predict.to_excel('result1.xlsx', index=False)

3.2 以天为时间粒度

import pandas as pd
import statsmodels.api as sm
from datetime import datetime, timedelta

train_data = pd.read_csv('data/order_train0.csv')
predict_data = pd.read_csv('data/predict_sku0.csv')
train_data['order_date'] = pd.to_datetime(train_data['order_date'])
train_data = train_data.set_index('order_date')
train_ts = train_data.groupby(['sales_region_code', 'item_code', 'first_cate_code', 'second_cate_code'])['ord_qty'].resample('D').sum()


def make_stationary(ts):
    # 一阶差分
    ts_diff = ts.diff().dropna()
    # 进一步差分，直到平稳
    while not sm.tsa.stattools.adfuller(ts_diff)[1] < 0.05:
        ts_diff = ts_diff.diff().dropna()
    return ts_diff

。。。略，请下载完整代码
order = (1, 1, 1)
seasonal_order = (1, 0, 1, 12)


model = sm.tsa.statespace.SARIMAX(train_ts_diff, order=order, seasonal_order=seasonal_order, enforce_stationarity=False, enforce_invertibility=False)
result = model.fit()

# 预测未来三个月的数据
start_date = datetime(2019, 1, 1)
end_date = datetime(2019, 3, 31)
predict_dates = pd.date_range(start=start_date, end=end_date, freq='D')

# 预测每个销售区域、产品、大类和细类的需求量
predict = pd.DataFrame()
for i in range(len(predict_data)):
    # 生成外部变量
    predict_exog = pd.DataFrame(predict_data.iloc[i, :]).T.set_index(['sales_region_code', 'item_code', 'first_cate_code', 'second_cate_code'])
    predict_exog.index = pd.MultiIndex.from_tuples(predict_exog.index)
    predict_exog = predict_exog.reindex(index=train_ts_diff.index.union(predict_exog.index), fill_value=0).sort_index()
    predict_exog = predict_exog.loc[predict_dates]

    # 预测未来三个月的需求量
    predict_diff = result.get_forecast(steps=len(predict_dates), exog=predict_exog, dynamic=True)

    # 将预测出的差分值加上训练集最后一天的差分值
    predict_diff_predicted = predict_diff.predicted_mean
    predict_diff_predicted = predict_diff_predicted + train_ts_diff.iloc[-1]

    # 将差分值转换为预测值
    predict_predicted = predict_diff_predicted.cumsum() + train_ts.iloc[-1]

    # 将预测结果保存到DataFrame中
    predict_temp = pd.DataFrame({'sales_region_code': [predict_data.iloc[i, 0]], 'item_code': [predict_data.iloc[i, 1]],
                                 'first_cate_code': [predict_data.iloc[i, 2]], 'second_cate_code': [predict_data.iloc[i, 3]],
                                 '2019年1月预测需求量': predict_predicted.loc['2019-01-01':'2019-01-31'].sum(),
                                 '2019年2月预测需求量': predict_predicted.loc['2019-02-01':'2019-02-28'].sum(),
                                 '2019年3月预测需求量': predict_predicted.loc['2019-03-01':'2019-03-31'].sum()})
    predict = pd.concat([predict, predict_temp], ignore_index=True)

# 将预测结果保存到Excel文件中
predict.to_excel('result1.xlsx', index=False)

泰迪挑战赛 span class token 数据挖掘数据分析第十一届泰迪杯数据挖掘挑战赛产品订单的数据分析与需求预测数学建模

有关【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测建模及python代码详解问题二的更多相关文章

ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 通过 rvm 升级 rubygems 的问题 - 2
尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub
ruby-on-rails - 建模收藏夹 - 2
我希望将Favorite模型添加到我的User和Link模型。业务逻辑用户可以有多个链接(即可以添加多个链接)用户可以收藏多个链接(他们自己的或其他用户的)一个链接可以被多个用户收藏，但只有一个所有者我对如何为这种关联建模以及在模型就位后如何创建用户收藏夹感到困惑？classUser 最佳答案下面的数据模型怎么样:classUser:destroyhas_many:favorite_links,:through=>:favorites,:source=>:linkendclassLink:destroyhas_many:favor
ruby - 通过 RVM (OSX Mountain Lion) 安装 Ruby 2.0.0-p247 时遇到问题 - 2
我的最终目标是安装当前版本的RubyonRails。我在OSXMountainLion上运行。到目前为止，这是我的过程:已安装的RVM$\curl-Lhttps://get.rvm.io|bash-sstable检查已知(我假设已批准)安装$rvmlistknown我看到当前的稳定版本可用[ruby-]2.0.0[-p247]输入命令安装$rvminstall2.0.0-p247注意:我也试过这些安装命令$rvminstallruby-2.0.0-p247$rvminstallruby=2.0.0-p247我很快就无处可去了。结果:$rvminstall2.0.0-p247Search
ruby - Fast-stemmer 安装问题 - 2
由于fast-stemmer的问题，我很难安装我想要的任何rubygem。我把我得到的错误放在下面。Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingfast-stemmer:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcreatingMakefilemake"DESTDIR="cleanmake"DESTDIR=
ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2
当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
java - 从 JRuby 调用 Java 类的问题 - 2
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java，并成功地将它与另一个Java包一起使用，但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
ruby-on-rails - 简单的 Ruby on Rails 问题——如何将评论附加到用户和文章？ - 2
我意识到这可能是一个非常基本的问题，但我现在已经花了几天时间回过头来解决这个问题，但出于某种原因，Google就是没有帮助我。(我认为部分问题在于我是一个初学者，我不知道该问什么......)我也看过O'Reilly的RubyCookbook和RailsAPI，但我仍然停留在这个问题上.我找到了一些关于多态关系的信息，但它似乎不是我需要的(尽管如果我错了请告诉我)。我正在尝试调整MichaelHartl'stutorial创建一个包含用户、文章和评论的博客应用程序(不使用脚手架)。我希望评论既属于用户又属于文章。我的主要问题是:我不知道如何将当前文章的ID放入评论Controller。

【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测建模及python代码详解问题二

相关链接

1 题目

2 问题二解析

2.1 问题分析

2.2 时间序列预测问题的建模步骤

2.3 改进的角度

3 python实现

3.1 以月为时间粒度

3.2 以天为时间粒度

有关【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测建模及python代码详解问题二的更多相关文章

随机推荐

【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测 建模及python代码详解 问题二

相关链接

1 题目

2 问题二解析

2.1 问题分析

2.2 时间序列预测问题的建模步骤

2.3 改进的角度

3 python实现

3.1 以月为时间粒度

3.2 以天为时间粒度

有关【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测 建模及python代码详解 问题二的更多相关文章

随机推荐

【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测建模及python代码详解问题二

有关【2023年第十一届泰迪杯数据挖掘挑战赛】B题：产品订单的数据分析与需求预测建模及python代码详解问题二的更多相关文章