基于spark平台的局部离群值挖掘算法研究

基于spark平台的局部离群值挖掘算法研究

ID:35058676

大小:3.66 MB

页数:54页

时间:2019-03-17

基于spark平台的局部离群值挖掘算法研究_第1页
基于spark平台的局部离群值挖掘算法研究_第2页
基于spark平台的局部离群值挖掘算法研究_第3页
基于spark平台的局部离群值挖掘算法研究_第4页
基于spark平台的局部离群值挖掘算法研究_第5页
资源描述:

《基于spark平台的局部离群值挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10183研究生学号:2013544001密级:公开吉林大学硕士学位论文(专业学位)基于Spark平台的局部离群值挖掘算法研究ResearchofLocalOutlierMiningAlgorithmBasedonSpark作者姓名:包涵类别:工程硕士领域(方向):软件工程指导教师:康辉副教授培养单位:软件学院2016年5月基于Spark平台的局部离群值挖掘算法研究ResearchofLocalOutlierMiningAlgorithmBasedonS

2、park'作者姓名:包涵领域(方向);软件工程指导教师;康辉副教授类别;工程硕±答辩日期:2016年月2《日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则应承担侵权的法律责任。,吉林大学硕±学位论文原创性声明,本人郑重声明:所呈交学位论文是本人在指导教师的指导下,独立进行研究工作所取

3、得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中W明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:/日期:年月7日摘要基于Spark平台的局部离群值挖掘算法研究随着数据挖掘技术的进步以及Hadoop和Spark等大数据分析平台的流行,分析大规模数据集的难度显著降低,而且数据质量相比以往明显提高,在这样的背景下海量数据中的极少数离群值不再鸡肋。与发现数据的普遍

4、模式相比,异常数据模式可能更有价值,例如警察局更关心那些发生犯罪或者可能发生犯罪的离群点,而且利用离群值检测帮助银行业侦测欺诈交易,或者帮助药厂发现药物异常,这些应用有着很高的社会价值却往往被忽略。利用传统的离群值侦测技术结合新兴的数据挖掘技术去探索离群值的隐含模式具有很高的研究价值。基于聚类的离群值挖掘算法是目前最主流的离群值挖掘算法,但是该算法有两点难点,首先算法不仅在性能上受到相关聚类算法的限制,也具有较高的计算复杂度,另一个难点是定义离群值的尺度,因为没有一个弹性的度量标准供使用者考量。为解决

5、上述弊端,国外学者提出利用离群因子展示对象的离群程度的方法,但是LOF或者LDOF离群因子虽然具有高稳定性和高准确性等优点,也具有计算复杂度高的缺点。本文基于将待查数据集剪枝优化LDOF算法的思想,提出基于聚类特征树将待查数据集剪枝优化LDOF算法的CFLDOF算法。本文利用实验证实CFLDOF算法不仅优化LDOF算法的计算时间,也有着近似于LDOF算法的准确率。此外,本文基于算法并行化思想对CFLDOF算法改进,并给出在Spark平台上实现CFLDOF算法的伪代码。本文主要工作如下:1)提出利用聚类

6、特征树剪枝待查数据集从而优化LDOF算法的思想,并基于此思想提出CFLDOF算法;2)进行对比实验验证CFLDOF算法的不仅在时间复杂度上优化LDOF算法,也有着近似于LDOF算法的准确性;3)提出CFLDOF算法的并行化设计,并给出基于Spark平台实现CFLDOF算法的伪代码;结合本文工作,可以得到的结论是:CFLDOF算法可以优化LDOF算法的计算I复杂度,并有着与LDOF算法相近的准确率,利用聚类特征树剪枝待查数据集对LDOF算法的优化是可行的。关键字:局部离群值挖掘,聚类特征树,剪枝,Spa

7、rkIIAbstractResearchofLocalOutlierMiningAlgorithmBasedonSparkWiththeprogressofdataminingtechnologyandthepopularityofbigdataanalysisplatformlikeHadoopandSpark,thedifficultyofanalysisoflargedatasetshasbeensignificantlyreduced,andthedataqualityisobviouslyi

8、mproved,thereforethesmallnumberofoutliersinhugeamountofdataisnolongerworthless.Forexample,thepoliceofficeismoreconcernabouttheoutliersofcriminalormayhappencrimethanfindingthecommonpatternsofdata,andsomeapplicationwithhighsocialva

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。