资源描述:
《金融时序中异常数据挖掘算法设计及实证分析-中国管理科学》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第12卷第3期中国管理科学Vol.12,No.32004年6月ChineseJournalofManagementScienceJun.,2004文章编号:1003-207(2004)03-0007-05金融时序中异常数据挖掘算法设计及实证分析杨虎,李强(重庆大学数理学院,重庆400044)摘要:金融市场中的数据由于其内在联系,通常表现为相互关联的时间序列。本文主要讨论如何将金融市场中时间序列模型简化为相应的线性模型,继而用传统的线性模型方法去检验异常值的存在,并且判断该异常值是加性异常值还是创新异
2、常值。创新异常值的挖掘对于金融风险的研究不仅具有理论上的意义,而且具有很强的现实意义。最后进行了算法的实证分析,结果表明本文的两种方法在金融市场的研究中是可行的并且行之有效。关键词:金融时间序列;创新异常;信息准则中图分类号:F830文献标识码:A显不协调的单个或集团数据,异常值可以解释为所1引言假定分布中的极端值,即落在分布的单侧或双侧创新异常值(innovationoutliers,简记为分位点以外的数据;二是把异常值视为杂质点,它与[1-3][2]IO)在通常的意义下只是一个孤立的数据,但数据的主体不是来源于同一分布。在时间序列中,由于内在的
3、相关结构,它的存在会波时间序列中的异常值的表现是多种多样的,但及到后面的数据,从而使这些数据也表现出一定的是,通过数据变换,我们可以将其归纳为以下三类:异常,容易出现成串的异常数据,并从本质上改变未加性异常值AO,创新异常值IO1,创新异常值IO2。来的数据趋势。正是创新异常的存在会改变一段时(见图1)。间乃至今后的整体趋势,故而成为金融统计分析与[3-6]金融数据挖掘需要着重研究的问题。本文就[7-8]如何用传统的线性模型方法对时间序列中的创新异常进行行之有效的挖掘和识别进行了探讨。在金融统计分析中,这种异常值往往携带重要的投资信息,如何快速、有效的从这些
4、时间序列中挖掘出这些重要的信息,是实际中无法回避的问题。2时间序列中的异常值及其分类异常值有多种定义方式,在统计诊断中讨论较[9]多的是残差相对非常突出的数据,这样的数据在图1异常点分类举例统计推断中会引起大的失误,从而影响到基于此的3基于线性模型下异常值的检测与类型判别模型结构和预测效果。在理论和实际应用当中,都存在如何探测异常值以及对检出的异常值如何处理31时间序列的线性平滑和模型选择的问题,虽然异常值的概念很容易让人明白,但要给因为我们要采用线性模型下的数据诊断的方法它下一个精确的定义相当困难,目前国际上有两种来检出和判别异常值,所以我们首先
5、应对原始数据较为流行的看法:一是把异常值看成与数据主体明作变换,以弱化原时间序列的相关性并使之满足经[8]典线性回归的各项假设条件。记股票的收盘价收稿日期:2003-05-27;修订日期:2004-03-31作者简介:杨虎(1963-),男(汉族),四川人,重庆大学数理学院为序列:P1,P2,,Pt,Pt+1,我们对数据作变换:院长,教授,博士,研究方向:线性模型、金融统计、统Pt+1-Pt计诊断与数据挖掘yt=-Rt=,t=1,2,,Pt8中国管理科学2004年[10]则yt相互独立,并且当没有异常值时,假
6、定yt具型(31)而言,在无异常值的回归模型中我们通常假22有相同的分布N(0,)是可以接受的(由于样本容设en=(yn-yn)~N(0,)从而yn~N(X,量较大,且对同一个品种连续的一段周期。当然在实2-1T-1T1XLX)对一维情形,有XLX=+n际中可以视情况进行独立正态性检验),t=1,2,-n2(x-x)-2,其中未知。这样,我们对序列y1,y2,可以建其中Lxx=(xt-x)。Lxxt=1立如下模型:2又因为yn与yn-1,,y1相互独立,因此yn-ynY=0+1t+ee~N(0,)(31)n-132异
7、常值的检测2-1T^2~N(0,(1+XLX))。令Qe=(yt-yt),t=1在回归诊断的框架下,可以从两个方面进行探由线性回归基本性质可知yn-yn与Qe独立,且讨:(1)残差分析(ResidualAnalysis)这主要是从模Qe2型假设的合理性方面进行研究,考虑的统计量多为2~x(n-k-1)(32)残差,其中包括:普通残差,预测残差,学生化残差,因此递归残差和不相关残差等,这样做是因为从残差中y-y^Qe我们可以看出拟合的效果,而异常数据就是那些拟/2~t(n-k1+XL-1XT(n-k-1)合效果较差的点;(2)影响分析(Influ
8、enceanalysis)-1)(33)这主要是探