了解随机游走模型和移动平均过程(Python)
即将开播:5月20日,基于kubernetes打造企业级私有云实践
在本文中,我将介绍两个能够对时间序列进行建模的模型:随机游走和移动平均过程。
随机游走模型
随机游走模型由以下公式表示:
换句话说,当前时刻t的位置是前一时刻(t-1)的位置与噪声(用z表示)之和。这里我们假设噪声是正态分布的(均值为0,方差为1)。
我们从0开始随机游走,也就是说,任何时间点都是该时间之前所有噪声的和。数学上表示为:
让我们在Python中模拟随机游走。
首先,我们导入所需的Python库:
from statsmodels.graphics.tsaplots import plot_acf from statsmodels.tsa.arima_process import ArmaProcess from statsmodels.tsa.stattools import acf import matplotlib.pyplot as plt import numpy as np %matplotlib inline
然后,我们生成一个包含1000个数据点的数据集。起点是0,我们将随机噪声添加到上一个点以生成下一个点:
steps = np.random.standard_normal(1000) steps[0]=0 random_walk = np.cumsum(steps)
绘制数据集的Python代码如下:
plt.figure(figsize=[10, 7.5]); # Set dimensions for figure plt.plot(random_walk) plt.title("Simulated Random Walk") plt.show()
模拟随机游走
你的随机行走可能与上面的图不同,因为噪声是随机的。
现在,让我们看看我们的随机游走的自相关图(或相关图):
random_walk_acf_coef = acf(random_walk) plot_acf(random_walk, lags=20);
随机游走的相关图
不管你的随机游走看起来像什么,你都应该得到一个非常相似的相关图。
现在,一切都指向数据集中的趋势。我们可以改变这种趋势吗?答案是肯定的。
让我们在Python中进行验证。
random_walk_diff = np.diff(random_walk, n=1)
然后我们绘制结果:
plt.figure(figsize=[10, 7.5]); # Set dimensions for figure plt.plot(random_walk_diff) plt.title('Noise') plt.show()
如您所见,上面的图没有趋势,也没有季节性,是一个完全随机的过程。
查看相关图的python代码如下:
plot_acf(random_walk_diff,lags = 20);
我们看到这是一个纯随机过程的相关图,其中自相关系数在滞后1处下降。
移动平均过程
我们先来直观了解一下什么是移动平均过程。
假设你把一块石头扔进一个池塘里,你要追踪水面上一滴水的位置。当石头撞击水面时,会形成波纹,所以我们要跟踪的水滴会上下移动。让我们假设波纹只持续两秒钟,在这两秒钟之后,水面就会完全变平。
我们的水滴位置可以表示为:
上面的方程表示,X在t时刻的位置取决于t时刻的噪声,加上t-1时刻的噪声(有一定的权重THETA),加上t-2时刻的噪声(有一定的权值)。
这被称为二阶移动平均过程,可以表示为MA(2)。
通用表示法是MA(q)。在上面的示例中,q = 2。
让我们在Python中模拟此过程。具体来说,我们将模拟以下过程:
这是一个二阶移动平均过程,我们指定了权重。您可以随意更改权重,并对参数进行试验。
我们从指定滞后开始,我们用的是2。
ar2 = np.array([2])
然后,我们指定权重,权重为[1、0.9、0.3]。
ma2 = np.array([1, 0.9, 0.3])
最后,我们模拟该过程并生成1000个数据点:
MA2_process = ArmaProcess(ar2, ma2).generate_sample(nsample=1000)
现在,让我们可视化该过程及其相关图:
plt.figure(figsize=[10, 7.5]); # Set dimensions for figure plt.plot(MA2_process) plt.title('Moving Average Process of Order 2') plt.show() plot_acf(MA2_process, lags=20);
由于噪声是随机产生的,因此您的图形可能与我的不同。但相关图应与下图类似:
正如您所注意到的,相关性在滞后2之前是显著的。这很有意义,因为我们指定了滞后为2。
这意味着您可以使用相关图来推断时间序列的滞后。如果您看到滞后q之后相关性并不显著,那么您可以将时间序列建模为MA(q)过程。