欢迎来到天天文库
浏览记录
ID:34409108
大小:2.05 MB
页数:69页
时间:2019-03-05
《基于hadoop平台的时间序列大数据异常检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10255学号:2161705基于Hadoop平台的时间序列大数据异常检测AnomalyDetectionofLargeDatainTimeSeriesbasedonHadoopPlatform学科专业:软件工程作者:张天雄指导教师:孙莉答辩日期:2018年5月东华大学计算机科学与技术学院SchoolofComputerScienceandTechnologyDonghuaUniversity东华大学学位论文原创性声明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除
2、文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本版权书。本学位论文属于不
3、保密□。学位论文作者签名:指导教师签名:日期:年月日日期:年月日东华大学计算机科学与技术硕士学位论文答辩委员会成员名单姓名职称职务工作单位备注王建会高级工程师答辩委员主席合胜科技股份有限公司李继云教授答辩委员会委员东华大学卢婷副教授答辩委员会委员东华大学石秀金副教授答辩委员会委员东华大学王绍宇副教授答辩委员会委员东华大学卢婷副教授秘书东华大学基于Hadoop平台的时间序列大数据异常检测摘要时间序列是日常生活和工作中很常见的一种按时间顺序排列的序列。近年来,传感器网络、物联网、云数据中心和移动互联网等新技术的快速发展使时间序列数据呈现了爆炸式增
4、长,并且时间序列数据具有其他类型数据所不具备的特点。首先,时间序列数据规模非常大,同时又是以数据流的形式源源不断产生,其面临着因数据流频率高、序列过长和数据量过大而导致计算时间过长的问题;其次,时间序列数据具有维度高、特征多样化等特点,其索引划分精度和处理效率需进一步提高。因此,大家越来越重视时间序列的研究。为了实现时间序列异常检测,人们提出了一些统计学模型和数据挖掘方法,通过比较前后序列值之间的关联关系来发现异常值。常用的线性模型有AutoRegressionMovingAverage(ARMA,自回归移动平均)和Autoregressiv
5、eIntegratedMovingAverage(ARIMA,自回归积分滑动平均)两种模型,其中ARMA模型主要应用于平稳时间序列,ARIMA模型主要应用于非平稳的时间序列。常用的非线性模型有HiddenMarkovModel(HMM,隐马尔科夫模型)和ArtificialNeuralNetworks(ANN,人工神经网络)模型。但是随着时间序列数据量的不断增加,现有的非分布式时间序列异常检测方法已经开始表现出较低I的效率。本文研究的主机通信流量数据便是一种时间序列,针对其数据量过大而造成的异常检测效率低下的问题,本文采用了Hadoop分布式
6、平台来解决该问题。首先在单机上使用ARIMA模型对训练集数据进行训练,并针对训练结果,采用双滑动窗口和似然残差概率分布法对模型进行优化,使正确率有所提高,但还未达到预期的效果。之后,在单机上选用HMM,在原模型的基础上针对算法下溢、概率转移矩阵过大、计算结果?(?
7、?)值过小等问题分别进行优化,使用优化后的HMM对训练集进行训练,并根据训练结果,调整部分参数使模型正确率得到提高。通过实验结果来看HMM在通信流量时间序列异常检测方面效果更好。HMM作为异常检测的基本算法,因其不需要针对每种类型的异常点分别进行优化,从而降低了复杂度,且对未知异常
8、值也有一定的检测能力。随后在Hadoop分布式平台上,本文分别使用传统分布式欧氏距离算法,分布式ARIMA优化模型算法以及分布式HMM优化模型算法对测试集数据进行异常检测,为了对比各分布式算法的差异,论文设计并实施了对比实验。相关实验结果表明面对海量通信流量数据基于Hadoop的HMM优化模型准确性更高。最后本文为国内A银行提供了一个大数据下通信流量异常检测的可行性方案,并为其搭建了一个可视化流量监控平台。关键词:大数据;Hadoop;ARIMA;异常检测;HMMIIANOMALYDETECTIONOFLARGEDATAINTIMESERIE
9、SBASEDONHADOOPPLATFORMABSTRACTTimeseriesisaverycommonsequenceindailylifeandwork.In
此文档下载收益归作者所有