资源描述:
《金融时间序列数据预测方法探析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、金融时间序列数据预测方法探析中图分类号:F201文献标识码:A内容摘要:本文提出了一种改进的金融时间序列数据预测方法,该方法首先对采集到的数据进行预处理,然后利用决策树来对金融时间序列进行特征抽取,并建立基于支持向量机的时间序列预测模型,最后对时间序列数据进行预测并输出预测结果。仿真结果表明,木文提出的方法可以有效地降低预测模型复杂度,同时提高预测能力和泛化性能。关键词:金融时间序列决策树支持向量机预测金融时间序列是指在金融市场(如股票市场、外汇市场等)上金融产甜的价格按时间顺序而得到的一列价格数据,它是金融市场分析的基础。本文研究的对象是证券指数中的价格数据与交易
2、数据,研究的任务是耍从这些数据中提取有用信息,将这些信息转化为知识或规律,并最终有利于人们当前和未來的生产和生活实践。相关文献综述金融时间序列预测方法的研究是目前的热点问题,例如,熊正丰(2002)讨论了金融时间序列的性质,通过实际数据说明,金融时间序列具有两个重要特性。统计自相似性和非平稳性/利用正交小波变换的方法,给出了其分形维的估计方法。最后,实证分析了国内金融市场,并分别得出了上证综合指数序列过程和深证成分指数序列过程的分形维。辛治远等(2008)提出了一种基于最小二乘支持向量机的复杂金融数据时间序列预测方法。实验中以证券指数为实验数据,对大批量金融数据进行
3、了时间序列预测,相比于神经网络预测方法,该方法在大批量金融数据时间序列预测的训练时间、训练次数和预测误差上都有了明显提高,对复杂金融时问序列具有较好的预测效果。黄超(2005)针对金融时间序列的趋势性和趋势变动性,提出了基于回归系数的时间序列维约简方法一逐段回归近似(PRA),该方法具有线性吋间复杂度,并且对均值平稳的独立噪声干扰不敏感。同时证明了使用PRA方法进行相似性查找满足下界定理(也称为收缩性),因而是有效的。对实际数据的实验结果表明,使用PRA方法,可以对金融时间序列进行基于趋势与趋势变动的相似性查找。李斌(2001)对金融爭件序列数据挖掘的关键算法进行了
4、研究,针对多个时间序列之间数据不同步的问题,提出了非同步多时间序列屮频繁结构模式的发现算法,结合木文提出的时间序列符号化转换方法,实现了多个金融时间序列中频繁结构模式的发掘。然而,上述的金融时间序列预测方法还存在一定的不足,随着测试数据集的不同,方法的有效性以及准确度等都会有迥异的实验结果,甚至有些预测方法针对某些数据集根本无法使用。本文提出了一种改进的金融时间序列数据预测方法。经过分析与实验结果表明,木文提出的方法是有效的。金融时间序列数据的特征提取(一)决策树的构造由于本文考虑的金融时间序列数据(如股票、证券指数)所包含的属性属于离散属性,所以采用ID3来构建决
5、策树。构造过程如下:第一步是将数据分为训练集和测试集。训练集主要用于分析数据生成决策树,测试集用丁•测试决策树的正确性。第二步是计算所有属性的信息增量,选择信息增量最大的属性为根节点。具体计算属性信息增量的步骤如下:1・计算给定的训练集分类数据的信息期望值I。用D表示训练集,分为k类,也即k个子集:DI,D2,D3・・・Dk。d:训练集中数据的总数量;di:属于Di的数据数量。那么实例属于第i类的概率为一训练集分类的信息期卑I:2•计算属性Ai每个取值的信息期望I(A=aj),j=l,2,3-m。设A为数据集的某一属性,A的取值为al,a2,-am0am代表一个数值
6、。dj:aj包含的数值的数量;dij:当A二亦时,对应的属于子集Di的数量。实例属于第i类(Di)的条件概率:3•计算属性A的信息爛Entropy(A)。(4)其中:4.计算属性A的信息增益Gain(A)o属性A对于分类提供的信息量,叫做属性A的信息增益,记为Gain(A),则:Gain(A)=Entropy(A)-I(5)第三步根据信息增益构建决策树。选择信息增益最人的作为根节点来构建决策树。由根节点属性在不同条件下建立分支;第四步采用递归的方法,对各分支的子集依旧选择信息增益最大的属性作为子节点。(二)基于ID3算法的金融时间序列数据的信息增益计算第一步以“上证
7、指数”为例选择2008年4月30口前500个交易口的开盘、最高、最低、收盘、成交额和成交量属性数列作为训练集。第二步计算属性的信息增量。1•计算训练集分类数据的信息期望值I。用D表示训练集,分为6类,即6个子集:DI,D2,D3,D4,D5,D6,设a表示一天内收盘价相对于开盘价的涨幅,D1表示a<-100,D2表示-lOOWa〈-50,D3表示-50Wa〈0,D4表示0Wa〈50,D5表示50WX100,D6表示lOOWa。训练集中的数据总数量为500,即d二500,dl二42,d2二31,d3二125,d4=197,d5二69,d6二36。则:山公式(1)得