时间序列清洗关键技术的研究

时间序列清洗关键技术的研究

ID:34955022

大小:1.88 MB

页数:82页

时间:2019-03-15

时间序列清洗关键技术的研究_第1页
时间序列清洗关键技术的研究_第2页
时间序列清洗关键技术的研究_第3页
时间序列清洗关键技术的研究_第4页
时间序列清洗关键技术的研究_第5页
资源描述:

《时间序列清洗关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文时间序列清洗关键技术的研究RESEARCHONKEYTECHNOLOGIESOFTIMESERIESCLEANING尹薇哈尔滨工业大学2018年6月国内图书分类号:TP301.6学校代码:10213国际图书分类号:004.6密级:公开工程硕士学位论文时间序列清洗关键技术的研究硕士研究生:尹薇导师:王宏志教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP301.6U.D.C:004.6Disse

2、rtationfortheMaster’sDegreeinEngineeringRESEARCHONKEYTECHNOLOGIESOFTIMESERIESCLEANINGCandidate:YinWeiSupervisor:Prof.WangHongzhiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceDateofDefence:June,20

3、18Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要由于大数据技术的发展和普及,金融经济、自然科学、社会科学、工业工程等越来越多的领域都更加依赖于大数据的获取和处理。在这些积累的海量数据中,时间序列扮演着重要的角色。时间序列是按时间顺序依次到达的数据,时间序列的质量对后续操作的真实性和置信度具有很高的影响力。虽然目前已经有许多可以处理时间序列的清洗算法,但是这些算法存在不能处理时间序列流、处理连续的错误方面表现

4、不佳等问题。所以,对时间序列清洗关键技术的研究,具有重大的理论价值和实际意义。因此,本文对时间序列清洗的关键技术进行了深入研究,其主要研究内容如下:第一,针对当前缺失值填充的算法主要针对整体修复,不适用于时间序列,或者针对某领域数据无法推广使用,且计算复杂性过高的问题,本文提出一种基于AR(p)模型的缺失值填充和基于ARX(p)模型的修复和优化算法。首先利用AR(p)模型将缺失值进行初步填充,然后利用ARX(p)模型通过迭代的方式将序列进行修复和优化,其中每一次迭代都主要分为三个步骤:参数估计,候选项生成,填

5、充值估计,根据最小修复原则确定一个修复值。程序循环,直到修复收敛。本文通过理论证明了该方法的收敛性,且实验结果表明该方法优于单纯使用AR模型进行预测和目前使用较为广泛的KNN算法。第二,针对现有的一般数据修复技术把所有数据作为一个整体进行清洗,并不能支持流计算,不适用于时间序列的清洗。以及目前的一种基于速度约束的异常值检测和修复算法,针对一些较小的误差清洗效果较弱等问题,本文提出了一种基于方差约束的异常值检测和修复算法来解决这些问题。我们将时间序列异常值检测和修复问题格式化,将基于方差约束的时间序列异常值检测

6、和修复问题转化成求解一元二次方程的问题。本文提出一种通过加权平均值的方式通过计算候选项集得到最终修复值,通过判断某候选项的窗口中“可靠的”数据点的多少来确定在加权平均值中的权值大小,以确保修复值的置信度。理论证明该算法的复杂度为线性时间,实验结果表明该算法的精确度高于基于平滑的SWAB算法和基于规则的Holistic算法,并具有较好的扩展性。第三,针对时间序列在现实应用中经常出现时间戳乱序问题,本文设计了基于速度约束和基于方差约束的修复算法针对乱序到达数据点的更新算法。当乱序数据到达时,首先移除该数据点,然后

7、在其正确的位置插入新的数据点,通过判断该点的插入是否会影响其他数据点,从而确定是否需要更新修复值。理论证明乱序数据点的更新算法可以在线性时间内完成,实验结果表明更新算-I-哈尔滨工业大学工程硕士学位论文法相比原算法具有更高的精确度。本文还研究了当时间戳发生单纯错误时的修复算法,提出了基于时间约束的时间戳修复算法。理论证明该算法的时间复杂度为线性时间,实验结果表明该算法具有比较高的精确度。关键词:时间序列;数据清洗;缺失值;异常值;时间戳-II-哈尔滨工业大学工程硕士学位论文AbstractDuetothede

8、velopmentandpopularizationofbigdatatechnology,moreandmoreareassuchasthefinancialeconomy,naturalsciences,socialsciences,andindustrialengineeringhavebecomemoredependentontheacquisitionandprocessingofbigd

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。