资源描述:
《基于Sas的时间序列缺失值处理方法比较.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第18卷第10期计算机技术与发展Vol.18No.102008年10月COMPUTERTECHNOLOGYANDDEVELOPMENTOct.2008基于Sas的时间序列缺失值处理方法比较112兰妥,江弋,刘光生(1.厦门大学信息学院计算机系,福建厦门361005;2.兰州大学资源环境学院,甘肃兰州730000)摘要:对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间
2、序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。关键词:时间序列;皮氏相关系数;回归模型;迭代
3、回归模型中图分类号:TP311文献标识码:A文章编号:1673-629X(2008)10-0043-03ComparisonofMethodsonTimeSeries’MissingValueBasedonSas112LANTuo,JIANGYi,LIUGuang2sheng(1.Dept.ofComputerScience,Info.Sch.,XiamenUniversity,Xiamen361005,China;2.SchoolofResourcesandEnvironment,LanzhouU
4、niversity,Lanzhou730000,China)Abstract:Therearemanymethodsfordealingwithmissingvalueontimeseriesdata.Whenthevariablesofthedataarecorrelative,theregressionmodelisbetterthanothermethods.Handlesmissingvalueofhydrologicalbyusingmeaninterpolation,singleline
5、arregression,multiplelinearregressionandinterativeregressionmethod.Showsthatwhenthedatasetexiststhevariablewhichrelateswithgivenvari2ableclosely,thesinglelinearregressionisbetterthanothermethods.Ifthedatasetdoesn’t,multiplelinearregressionisbest.Ifthep
6、ear2soncorrelationbetweenthegivenvariableandothervariablesissmall,mayconsiderotherinterpolationmethod.Keywords:timeseries;pearsoncorrelation;one-stepregressionmodel;iterativeregressionmodel0引言取替代模型、均值替代模型、最近临域替代模型、多重[3,4]时间序列是按照时间顺序取得的一系列观测值,插补、基于EM算法的
7、替代模型和回归模型等。[1]在处理数据变量成一定的相关的数据集时,回归它是参数离散的随机过程。在实际中,遇到的许多统计资料,如某地的月降雨量、某年高原环境观测系统模型的效果不失比其他的方法好。回归模型包括一元数据、某工厂装船货物数量的月度序列、某交通口的日线性回归、多元线性回归迭代回归。文中利用这均值车流量,都是时间序列。插补和这三种方法对时间序列缺失数据插补,比较在但在许多实际情况中,往往存在着缺失值的问题,不同皮氏相关系数下的插补结果。为此,时间序列分析者们进行了大量的工作,提出了许[2]多处理
8、缺失数据的方法。常见的插补模型如随机抽1皮氏相关系数通过计算两个属性A和B之间的相关系数,可以收稿日期:2008-01-16估计这两个属性的相关度N基金项目:福建省自然科学基金资助项目(A031008)6(ai-AŠ)(bj-BŠ)作者简介:兰妥(1984-),女(畲族),福建古田人,硕士研究生,研i=1rA,B=究方向为数据库应用、时间序列数据挖掘;江弋,副教授,硕士生NσAσB导师,研究方向为数据库技术与应用、数据挖掘、电子商务、多媒体其中N是元组个数,ai和bj