数据挖掘——时间序列算法之平滑法.pdf
文本预览下载声明
数据挖掘——时间序列算法之平滑法
数据挖掘——时间序列算法之平滑法
前⾔
时间序列是许多数据挖掘任务重最常见的类型之⼀,同时也⽐较难处理。这篇记录下我所理解下的时间
序列模型的算法。注意,这不是特征⼯程,⽽是算法(暂时是这样理解的,毕竟⽬前还没使⽤过这些⽅
法做特征⼯程)。
关于其他时间预测算法详见我的其他博⽂:
平滑法
1、简述
所谓时间序列平滑预测是指⽤平均的⽅法,把时间序列中的随机波动剔除掉,使序列变得⽐较平滑,以
反映出其基本轨迹,并结合⼀定的模型进⾏预测。所平均的范围可以是整个序列(整体平均数),也可
以是序列中的⼀部分(局部平均数);所⽤平均数可以是简单平均数,也可以是加权平均数。在⼀次平
均之后,就局部平均⽽⾔,还可以进⾏第⼆次、第三次以⾄更多次的平均,进⾏多层次的平滑。
所以,平滑预测的⽅法也是多种多样的。
平滑法常⽤于趋势分析和预测,利⽤修匀技术,削弱短期随机波动对序列的影响,使序列平滑化。根据
所使⽤的平滑技术的不同,可具体分为移动平均法和指数平滑法。
2、移动平均法
移动平均法是⽤⼀组最近的实际数据值来预测未来⼀期或⼏期内公司产品的需求量、公司产能等的⼀种
常⽤⽅法。移动平均法适⽤于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素
时,移动平均法能有效地消除预测中的随机波动,是⾮常有⽤的。来⾃百度百科
移动平均法根据预测时使⽤的各元素的权重不同,可以分为:**简单移动平均法**和**加权移动平均
法。**
2.1、简单移动平均
简单时间序列平滑法是指⽤简单平均数进⾏预测的⼀类预测⽅法。当给定⼀组数据或观测值后,这些数
值的平均数的种类很多,常见的有算术平均数、⼏何平均数、调和平均数、加权算术平均数、移动平均
数与指数平滑平均数等。这些平均数各有各的计算⽅法,各有各的特点与⽤途,在使⽤平均法进⾏预测
时,⾸先要判断使⽤哪⼀种或哪⼏种能够满⾜需要,然后再根据相应的计算⽅法求之。
由于算术平均数、⼏何平均数、调和平均数、加权算术平均数的计算⽅法相对其余⼏种来说,⽐较简
单,故常称这⼏种平均数的求法为“简单平均法”。
举例:这⾥仅使⽤算数平均数来求预测值:
对应公式:
其中V(t)是第t时刻的实际值,F(t+1)是使⽤平均值得到的未来预测值
例如:某家商店在2047年、2048年、2049年的限售量分别为,25,35,30 ,那么预测在2050年该家商店的
限售量为
上⾯的例⼦仅是使⽤了简单的算数平均,当然还有更复杂些的计算⽅法(⼏何平均数、调和平均数、加
权算术平均数的计算⽅法相对其余⼏种)。
2.2、加权移动平均法
加权移动平均法就是根据同⼀个移动段内不同时间的数据对预测值得影响程度,分别寄予不同的系数以
预测未来值。
从上⾯介绍的简单移动平均算法可以明显看出,不同时期都会被视为同等重要,显然这是不符合实际认
知的,因为距离当前时期较远的时期对预测值的重要性⽐那些距离当前时期较近的时期⼩(有点绕),
所以为了改善这种情况,需要不同的对待移动期内的各个数据,对近期数据给予较⼤的权数,对较远的
数据给予较⼩的权数,这样来弥补简单移动平均法的不⾜。数学描述:
其中:注:⽤加权移动平均法求预测值,对近期的趋势反映较敏感,但如果⼀组数据有明显的季节性影
响时,⽤加权移动平均法所得到的预测值可能会出现偏差。因此,有明显的季节性变化因素存在时,最
好不要加权。
看不懂?下⾯举例:
例题:某商
场1⽉份⾄11⽉份的实际销售额如表所⽰。假定跨越期为3个⽉,权数为l、2、3 ,试⽤加权移动平均法预
测12⽉份的销售额
⽉份销售额3个⽉的加权移动平均
138-245-33538.8344943.6757043.6764357.1774653.0085549.009455051164
58.1712
62.17
F (t +1)=t
V (1)+V (2)+...+V (t )
(1)
=3
25+35+30
30
F =n +1V x i =n −k −1∑
n +1
i i
(2)
F 是预测值,V 是第i 期的实际值,n 是本期数,k 是移动跨期,x 是第i 期实际值的权重,且权重和等于
1
n +1i i
解:(这⾥k取3)
3、指数平滑法
基本思想:最近的过去势态,在某种程度上会持续到最近的未来,所以将较⼤的权重放在最近的数据
上。
指数平滑法是⽣产预测中常⽤的⼀种⽅法。也⽤于中短期经济发展趋势预测,所有预测⽅法中,指数平
滑是⽤得最多的⼀种。简单的全期平均法是对时间数列的过去数据⼀个不漏地全部加以同等利⽤;移动
平均法则不考虑较远期的
显示全部