时间序列 - ARIMA 的变体

在上一章中,我们已经了解了 ARIMA 模型的工作原理,以及它无法处理季节性数据或多变量时间序列的局限性,因此引入了新模型来包含这些特征。

这里给出了这些新模型的一瞥 −


向量自回归 (VAR)

它是多元平稳时间序列的自回归模型的广义版本。 它的特点是"p"参数。


矢量移动平均线 (VMA)

它是多元平稳时间序列的移动平均模型的广义版本。 它的特点是"q"参数。


向量自回归移动平均线 (VARMA)

它是 VAR 和 VMA 的结合,是多元平稳时间序列的 ARMA 模型的广义版本。 它的特点是"p"和"q"参数。 很像,ARMA 能够通过将"q"参数设置为 0 来充当 AR 模型,通过将"p"参数设置为 0 来充当 MA 模型,VARMA 也能够通过设置"q"参数来充当 VAR 模型 通过将"p"参数设置为 0 和 VMA 模型。

In [209]:

df_multi = df[['T', 'C6H6(GT)']]
split = len(df) - int(0.2*len(df))
train_multi, test_multi = df_multi[0:split], df_multi[split:]

In [211]:

from statsmodels.tsa.statespace.varmax import VARMAX

model = VARMAX(train_multi, order = (2,1))
model_fit = model.fit()
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152: 
   EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, 
   due especially to identification issues. 
   EstimationWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:171: 
   ValueWarning: No frequency information was provided, so inferred frequency H will be used. 
  % freq, ValueWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508: 
   ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals 
  "Check mle_retvals", ConvergenceWarning)

In [213]:

predictions_multi = model_fit.forecast( steps=len(test_multi))
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:320: 
   FutureWarning: Creating a DatetimeIndex by passing range endpoints is deprecated.  Use `pandas.date_range` instead.
   freq = base_index.freq)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152: 
   EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, due especially to identification issues.
   EstimationWarning)

In [231]:

plt.plot(train_multi['T'])
plt.plot(test_multi['T'])
plt.plot(predictions_multi.iloc[:,0:1], '--')
plt.show()

plt.plot(train_multi['C6H6(GT)'])
plt.plot(test_multi['C6H6(GT)'])
plt.plot(predictions_multi.iloc[:,1:2], '--')
plt.show()
代码片段 14

代码片段 14

上面的代码显示了如何使用 VARMA 模型对多元时间序列进行建模,尽管这个模型可能不是最适合我们的数据。


带有外生变量的 VARMA (VARMAX)

它是 VARMA 模型的扩展,其中称为协变量的额外变量用于对我们感兴趣的主要变量进行建模。


季节性自回归综合移动平均线 (SARIMA)

这是 ARIMA 模型处理季节性数据的扩展。 它将数据分为季节性和非季节性成分,并以类似的方式对其进行建模。 它的特点是 7 个参数,对于非季节性部分 (p,d,q) 参数与 ARIMA 模型相同,对于季节性部分 (P,D,Q,m) 参数,其中"m"是季节性周期数,并且 P,D,Q 类似于 ARIMA 模型的参数。 这些参数可以使用网格搜索或遗传算法进行校准。


具有外生变量的 SARIMA (SARIMAX)

这是 SARIMA 模型的扩展,包括外生变量,这有助于我们对我们感兴趣的变量进行建模。

在将变量作为外生变量之前对变量进行相关分析可能会很有用。

In [251]:

from scipy.stats.stats import pearsonr
x = train_multi['T'].values
y = train_multi['C6H6(GT)'].values

corr , p = pearsonr(x,y)
print ('Corelation Coefficient =', corr,'\nP-Value =',p)
Corelation Coefficient = 0.9701173437269858
P-Value = 0.0

Pearson's Correlation 显示了 2 个变量之间的线性关系,为了解释结果,我们首先看 p 值,如果小于 0.05,则系数值显着,否则系数值不显着。 对于显着的p值,相关系数的正值表示正相关,负值表示负相关。

因此,对于我们的数据,"temperature"和"C6H6"似乎具有高度正相关。 因此,我们将

In [297]:

from statsmodels.tsa.statespace.sarimax import SARIMAX

model = SARIMAX(x, exog = y, order = (2, 0, 2), seasonal_order = (2, 0, 1, 1), enforce_stationarity=False, enforce_invertibility = False)
model_fit = model.fit(disp = False)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508: 
   ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
   "Check mle_retvals", ConvergenceWarning)

In [298]:

y_ = test_multi['C6H6(GT)'].values
predicted = model_fit.predict(exog=y_)
test_multi_ = pandas.DataFrame(test)
test_multi_['predictions'] = predicted[0:1871]

In [299]:

plt.plot(train_multi['T'])
plt.plot(test_multi_['T'])
plt.plot(test_multi_.predictions, '--')

Out[299]:

[<matplotlib.lines.Line2D at 0x1eab0191c18>]

与单变量 ARIMA 建模相比,这里的预测现在似乎需要更大的变化。

不用说,只需将相应的参数设置为非零值,SARIMAX 就可以用作 ARX、MAX、ARMAX 或 ARIMAX 模型。


分数自回归综合移动平均线 (FARIMA)

有时,我们的序列可能不是平稳的,但是与取值 1 的"d"参数进行差分可能会使它过度差分。 因此,我们需要使用小数值来区分时间序列。

在数据科学的世界中,没有一种更好的模型,适用于您的数据的模型在很大程度上取决于您的数据集。 对各种模型的了解使我们能够选择一种适用于我们的数据的模型并使用该模型进行试验以获得最佳结果。 结果应该被视为图和错误度量,有时一个小错误也可能是坏的,因此,绘制和可视化结果是必不可少的。

在下一章中,我们将研究另一个统计模型,指数平滑。