两种基于支持向量机的时间序列数据建模

时间:2022-10-27 14:15:03 来源:网友投稿

摘要:在统计网络传输数据建模上,平稳化的数据有利于预报建模。由于传输数据是非平稳时间序列,具有非线性、多尺度等特点,就如何削弱数据的随机性并构造计算模型进行仿真计算,本文实验建模了经验模式分解与小波分解组合支持向量机的两种计算模型。第一种建模方法是小波组合向量机建模,做法是先将数据流分解为长期趋势和随机扰动项,然后采用支持向量机对分解后的各分量预测,最后将各预测值相加得到最终预测结果;第二种建模方法是经验模式分解组合向量机建模,先将流量分解成不同频带本征分量,常规的做法是用向量机逐一对各分量进行预测,然后对预测值等权求和得到预测结果作为验证结果;新提出的做法是直接把各模式分量作为输入向量,与真实值建立预测模型。结果表明基于经验模式分解建模构造的新实验模型,相比小波组合模型在传输数据预报上更稳定可靠。

关键词:支持向量机;经验模式分解;小波分解;异常监测

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)19-0241-06

Two SVM Hybrid Models on Time Series Data

YUN Yong-sheng1, MA Tian2, ZHANG Li-jun1, ZHANG Fei-ma1, WANG Xin-hui1

(1.94175 Troops, Urumqi 830006, China; 2.Law School of Xinjiang University of Finance and Economics, Urumqi 830012, China)

Abstract: In building statistics model on network transferring data, smooth data is effective for prediction. Owing to the non-stationary, non-linear and multi-scale characteristics of the transferring data, in this study two models that combining with SVM are proposed and compared. One is wavelet based model which separates the data into long-run vectors and random disturbance vector and then using each vector as input for prediction, the final outcome is added by individual prediction. Another one is EMD based model, the data is decomposed by EMD into different smooth IMF components, and conventional method is using SVM to predict each component separately, the results are obtained by summing individual prediction with same weight, as checking results in experiment; the proposed model is computed directly using IMF component as input vectors for constructing SVM model with the original data. The computation results show that the proposed EMD computing model is obtaining higher prediction accuracy than wavelet model and the checking model. It is also proved more stability.

Key words: SVM; empirical mode decomposition(EMD); wavelet decomposition; anomaly detection

异常数据流量检测通常是保障网络空间安全的重要技术手段之一,充当着数字空间“预警机”的角色,如何通过对网络流量统计模型进行有效“异常”检测,从而区分出非正常的、潜在的入侵行为是网络安全领域一个十分重要而迫切的问题[1]。通过对传输数据的分析和预测,为网络的流量控制、故障管理、特别是对网络入侵检测预报等提供有效依据。这样在网络异常发生之前,可以预先采取防范预案,来确保网络传输的正常进行。

在网络传输数据预测统计模型方面,简单使用一种预测模型已远远不能准确地刻画复杂性高的传输变化规律[2,3]。组合预测模型方面[4,5],以小波变换特征分解组合支持向量机模型应用效果好且应用较多[6,7]。缺点是小波变换在确定分解层数以及选择小波基有个难以选择的问题,同一个工程问题用不同的小波函数进行分析时,有时结果相差很大。目前大多通过经验或是不断实验来选择小波函数。支持向量机基于结构风险最小化理论预测能力较强[8-10]。具有结构简单,能较好地解决数据的小样本、非线性、高维数等问题,优化的SVM泛化推广能力强,更适合做长期预测[11]。而在时间序列数据的特征分解上,经验模式分解模型(EMD)将非平稳时间序列数据分解为不同频带的本征模式分量平稳时间序列[12]。

目前大多实验研究是利用向量机对各高频和低频分量分别建立预测模型,再将预测值作为输入向量,与同时刻真值作为输出建立最终模型。本文选用某路由器时间序列数据,采用比较研究的方法,实验了经验模式分解组合模型[13,14]和小波组合模型的计算差异,并提出了实用可行的新的实验计算框架。

1 数据建模理论分析

1.1 小波分解与其单支重构

Mallat在1987年就提出多分辨率分析和多尺度分析的小波基构造方法[15]。把小波正交基的构造整合到一个框架中,指出离散信号按小波变换分解处理和重构的按快速小波变换算法。Mallat多分辨率分析算法的分解过程见图1所示。每次分解将序列分为近似部分和细节部分,近似部分刻画了序列的大趋势,而细节部分刻画了序列在细节上的差异。如果不断对近似部分进一步实施分解,就会得到新的近似部分和细节部分。

设分解层数为j,则原始序列分解为D1,D2,…,Dj和Aj,其中Aj和Dj分别是分辨率为2j时的近似部分和细节部分。其中Aj定义为第j层的近似部分,Dj称为第j层的细节部分。

而每执行一层的分解,序列的长度就缩短为分解前的一半,分解的层数大,获得的序列的长度越短。

重构原理见图2所示,单支重构是指不对近似部分和细节部分同时进行重构,而是对它们分别进行重构,即在对某一部分进行重构时将其他部分设置为零值。对近似部分Aj单支重构过程如图所示,各细节部分单支重构的方法与之类似。

1.2 经验模式分解

Huang在1998年提出EMD算法[16]。它通过对信号h(t),采用三次样条插值函数先对该信号的所有极大值拟合成上包络线,再对所有极小值拟合成下包络线,记两条包络线的均值为m(t),则可构造一个新的信号:

(1)

当g(t)满足:①函数在整个时间范围内,局部极值点个数和过零点数目必须相等或最多相差一个; ②在任意时刻点,局部最大值的上包络线和局部最小值的下包络线平均必须为零。这时g(t)就是第一个IMF分量c1。假设r(t)为信号余量:

令r(t)作为新的信号,执行(3)的操作,可以计算除IMF第二个分量c2,直到第m个IMF分量cm,其中m ∈ N,为本征模函数的数目。终止的信号余项r(t)计算条件是:仅当有一个极值点或是单调函数为止。信号可以表达为:

使用经验模式分解算法,目的是将原始信号分解为不相关联的本征模函数(IMF),优点是消除以时间尺度为主要特征的数据的自相似性,降低了复杂度,这样就实现将非线性、非平稳数据的处理问题向线性、平稳的处理问题的转变。

1.3 支持向量机

实验中应用了最小二乘支持向量机,就是利用二次损失函数,通过非线性映射φ(∙),将低维非线性空间的数据转化为高维线性空间的数据,从而实现在高维空间的线性回归预测模型[17]:

对于n个多维度样本数据(xi,yi),i∈(1,2,…,n),xi∈Rn是样本输入,yi∈R是样本输出,其最优回归估计函数为:

2 数据建模方法和验证

2.1 小波与支持向量机组合建模

采用小波分析向量机建立组合预测模型详细步骤如下:

1)流量数据的特征分解。小波分解变换将全部数据分解为低频分量和高频分量,其中低频分量反映了流量数据的大趋势和大走向,高频分量反映了数据的细节特征。本文将原始数据分解四个分量,其中一个是低频信号分量和另外三个是高频细节分量。

2)数据无量纲化预处理。将单支重构得到的一个低频分量和三个高频分量数据x(t)归一化处理,归一化公式如下:

3)模型变量的确定。模型采用多输入单输出的预测机制来构造输入输出向量矩阵,从而建立训练样本。训练样本结构如表1所示,其中x(1) ,x(2) ,x(3) ,x(n-1)作为输入数值,x(4),…,x(n-1) ,x(n)作为输出数值。k为输入向量的嵌入维数,在本次实验中选取k=3,其中n∈N,N为样本的个数。

4)确定合适的核函数。实验模型采用高斯径向基(RBF)函数,其函数的形式为:

5)支持向量机模型参数的确定。支持向量机的泛化性能取决于参数∁、ε以及核参数σ的选择,本文采用粒子群优化算法对上述优化参数进行了优化。

6)各分量预测值的合成。将分解后的低频分量预测值和各高频分量预测值x’(t)进行反归一化计算公式如下式所示:

然后依次将各分解得到的分量预测值相叠加,即可得到最终的预测结果p(t),注意在正反向归一化中各参数的对应关系。然后将预测值与原始的流量数据进行均方误差计算,得到评估指标。

2.2 经验模式分解与向量机新组合建模

采用经验模式分解模型和向量机建立预测模型详细步骤如下:

1)执行经验模式特征分解(EMD)。将全体数据分解得到多个本征模分量和一个剩余分量。

2)数据无量纲化预处理。对原始网络流量时间序列x(t)归一化处理,归一化公式见(9)式。

3)模型变量的确定。模型采用多输入单输出的预测方法,构造输入输出向量矩阵从而建立训练样本。训练样本结构如表2所示。

4)确定合适的核函数和支持向量机参数寻优计算。支持向量机模型常用的核函数有线性函数、本文采用高斯径向基(RBF)函数,采用粒子群优化选择优化参数,对各分量值进行预测。

5)各分量合成。计算证明在本实验模型中无法将各分量的预测值简单线性相加、或者作为输入建立非线性模型得到最后的预测值。而是将各个IMF同时刻的平稳分量作为输入,将同时刻的相应的实际值作为输出,然后再用向量机训练建立模型。训练样本结构如表2所示,从而使得各个参加组合的分量和实际输出值之间建立一种非线性映射关系。

3 结果与分析

3.1 数据来源及处理

利用上述两个组合模型对2015年10月1号到25号、24小时流过某数据设备传输数据进行预测分析。网络流量数据中的选取400个数据作为训练样本,用于进行训练模型和参数优化,取剩余的200个数据作为测试样本,作为检验预测值和真实值误差。在构造输入和输出向量矩阵的时候,经验选取输入向量矩阵的嵌入维数为3。模型的仿真计算环境为Matlab2012a,支持向量机运算选择文献[10]中libsvm程序,其余数据的处理采用Excel2007电子表格,为了评价模型的预测效果,用均方误差(MSE)作为评估指标。

3.2 模型的计算与分析

3.2.1 小波支持向量机组合实验模型

其中,图3中的(a)到(h)分别是小波对原始传输数据进行分解后的低频分量,高频分量一、高频分量二和高频分量三的曲线和对应的分量独立预测曲线。

3.2.2 EMD支持向量机组合实验模型

从图5中可以看到,第一个分量IMF预测值和余项的预测性能不好,总体趋势上IMF各分量从高频到低频,预测精度逐渐提高。这种总体趋势可以从MSE误差表4上反映出来。

预测误差较大的分量,比较误差稍小的分量,数据变换的幅度相对较小,计算上将各IMF分量值组合后,较大误差分量对预测结果扰动不显著。将各个IMF预测序列用SVM合成,得到原始序列的预测曲线如图6。

从图6可以看出,采用EMD支持向量机组合实验计算模型拟合程度要好于小波支持向量机实验模型,预测精度较高。一方面从表5的评估指标计算结果上看,小波支持向量机组合实验模型预测结果为8.95%,而EMD支持向量机组合实验模型为3.75%,在数值评价参考指标上精度提高约2倍,另一方面,也表明经验模式分解方法,较有效将非平稳时间序列分解为不同频带的高频和低频平稳时间序列,预测的可靠性较高。

4 结论

通过以上两个实验模型的对比分析,结果证明经验模式分解方法组合支持向量机模型是一种分析非线性、非平稳时间序列的较好的实验计算模型。小波组合支持向量机对各个分量的预测相对精度偏高,但最终预测值精度相对较低。本文以真实的网络传输数据对上述两个实验模型进行了计算实验。结果表明:新提出的针对经验模式分解组合计算实验模型的构造方法,对非线性、非平稳时间序列数据的预测是较有效和适用的,为下一步同类别统计预测模型的对比分析提供了一种参考方法。

参考文献:

[1] 蒋建春,马恒太,任党恩,等.网络安全入侵检测:研究综述[J].软件学报,2000, 11(11):1460-1466.

[2] 钱渊,宋军,傅珂.基于支持向量机补偿的灰色模型网络流量预测[J].探测与控制学报,2012, 34(1):70-79.

[3] 魏永涛, 汪晋宽, 等. 基于小波变换与组合模型的网络流量预测算法[J]. 东北大学学报:自然科学版, 2011, 32(10):1382-1885.

[4] 姜明,吴春明,胡大民.网络流量预测中的时间序列模型比较研究[J].电子学报,2009, 37(11):2353-2359.

[5] 马华林, 李翠凤, 张立燕. 基于灰色模型和自适应过滤的网络流量预测[J]. 计算机工程, 2009, 35(1):155-157.

[6] 陈晓天,刘静娴. 改进的基于小波变换和 FARIMA模型的网络流量预测算法[J]. 通信学报, 2011, 32(4):153-158.

[7] 王风宇, 云晓春, 申伟东. 基于小波变换的网络流量在线预测模型[J]. 高技术通讯, 2006, 16(12):1220-1225.

[8] Burges C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery, 1998,2(2): 121-127.

[9] WU Hai-shan, CHANG Xiao-ling. Power load forecasting with least squares support vector machines and chaos theory[C] //Procof Intelligent Control and Automation.2006:4369-4373.

[10] Chang C C, Lin C J. LIBSVM: a library f or SVM[DB/OL].[2006-03-04].http://www. csic.ntu.edu.tw /rcjlin/ papers /lib.svm.

[11] Liu X,Lu W C,Jin S L,et al. Support vector regression applied to materials optimization of sialon ceramics[J]. Chemometrics and Intelligent Laboratory Systems, 2006,82(12):8-14.

[12] Balocchi R, Menicucci D, Varanini M. Empirical mode decomposition to approach the problem of detecting sources from a reduced number of mixtures [C].Proceeding of the 25th Annual International Conference of the IEEE EMBS. Cancun Mexico, 2006.

[13] 叶林, 刘鹏. 基于经验模态分解和支持向量机的短期风电功率组合预测模型[J]. 中国电机工程学报,2011,11(5):102-108.

[14] 王晓兰,李辉. 基于EMD与LS-SVM的风电场短期风速预测[J].计算机工程与设计,2010, 31(10):2303-2307.

[15] 冯华丽,刘渊. 小波分析和AR-LSSVM的网络流量预测[J]. 计算机工程与应用,2011,47(20):89-90.

[16] 祝志慧,孙志莲,季宇. 基于EMD和SVM的短期负荷预测[J]. 高电压技术,2007,33(5):118-122.

[17] 段益群,刘国彦. 基于EMD和SVM的虹膜识别方法[J].计算机工程与应用,2010,46(30):188-190.

推荐访问:向量 两种 建模 序列 支持