基于MapReduce的混合数据孤立点检测算法-论文.pdf

基于MapReduce的混合数据孤立点检测算法-论文.pdf

ID:58072084

大小:461.76 KB

页数:6页

时间:2020-04-22

基于MapReduce的混合数据孤立点检测算法-论文.pdf_第1页
基于MapReduce的混合数据孤立点检测算法-论文.pdf_第2页
基于MapReduce的混合数据孤立点检测算法-论文.pdf_第3页
基于MapReduce的混合数据孤立点检测算法-论文.pdf_第4页
基于MapReduce的混合数据孤立点检测算法-论文.pdf_第5页
资源描述:

《基于MapReduce的混合数据孤立点检测算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、小型微型计算机系统2014年9月第9期JournalofChineseComputerSystemsVO1.35NO.92014基于MapReduce的混合数据孤立点检测算法郭一鹏,梁吉业,赵兴旺’(山西大学计算机与信息技术学院,太原030006)(计算智能与中文信息处理教育部重点实验室,太原030006)E-mail:170751967@qq.com摘要:在处理混合型大数据时,已有孤立点检测算法往往存在时间代价大、适用性差等问题.为了解决这一问题,本文基于最近邻思想提出了一个混合数据孤立点检测算法.该算法依据邻域计数的思想给出混合数据对象之间的相异性度量,并基于最近邻定义了对象的孤立

2、度,进而设计出一个混合数据孤立点检测算法,并且基于MapReduce编程模型对该算法进行了并行化设计以进一步提高算法执行效率.最后,在UCI数据集上通过与已有算法比较实验结果表明,本文提出的混合数据孤立点检测算法能有效地检测出孤立点,具有参数少、检测精度高的优点;算法的并行化实现提高了算法对混合型大数据的孤立点检测效率.关键词:孤立点检测;混合型数据;邻域计数;MapReduce中图分类号:TP391文献标识码:A文章编号:1000-1220(2014)o9-19616AnOutlierDetectionAlgorithmforMixedDataBasedonMapReduceGUOY

3、i-peng。LIANGJi—ye’。ZHAOXing-wang。(SchoolofComputerandInformationTechnology.ShanxiUniversity,Taiyuan030006-China)(KeyLaboratoryofComputationalIntelligenceandChineseInformationProcessingofMinistryofEducation,Taiyuan030006。China)Abstract:Whendetectoutliersincurrentmassivemixeddamse~。mostexistingout

4、lierdetectionalgorithmsarenotveryeffectiveandtime—consuming.Toovercomethisdeficiency,anoutlierdetectionalgorithmisproposedformixeddatabasedonnearestneighbors.Thisalgorithmfirstlydefinesthedissimilaritymeasureformixeddatainthelightofneighborhoodcounting.Then,thedefinitionofoutlierfactorisgiven.Ou

5、tliersarethosepointshavingthelargestvaluesofoutlierfactor.Tofurtherimprovetheefficiencyoftheal—gorithm-aparalleloutlierdetectionalgorithmisdesignedbasedonMapReduce.Theperformanceofthealgorithmhasbeenstudiedonseveralrealworlddatasets.Thecomparisonswithotheroutlierdetectionalgorithmsshowthatthepro

6、posedalgorithmismoreeffectiveindetectingoutlierswiththemeritsoffewparametersandhighprecision.Andtheexperimentresultsofparallelalgorithmshowthatithashigheficiencyandscalabilityformassivemixeddatasets.Keywords:outlierdetection;mixeddata;neighborhoodcounting;MapReduce1引言LOF.然而,上述孤立点检测算法大多只对单一的数值型数据

7、或符号型数据有效,如何检测出混合型数据中的孤立点依孤立点检测是数据挖掘领域中的一个重要研究方向,其然存在着许多问题.目的是发现数据集中与大部分对象不同的对象.目前,孤立点目前,针对混合型数据的孤立点检测问题也引起了一些检测已经在许多领域得到了广泛应用,例如信用卡欺诈检测、研究学者的关注.文献[7]中Chen等人基于粗糙集理论提出医疗处理、入侵检测、公共安全、工业损毁检测、图像处理和传了混合型数据孤立点检测算法,首先指定数据对象的每个属感器/网络

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。