欢迎来到天天文库
浏览记录
ID:34917916
大小:782.69 KB
页数:46页
时间:2019-03-14
《基于子空间的两阶段离群挖掘算法及其并行化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TP391学校代码:10109密级:公开太原科技大学硕士学位论文(学术型)学位论文题目:基于子空间的两阶段离群挖掘算法及其并行化英文题目:AtwoPhasesoutlierminingandparallelingmethodbasedonsubspace研究生姓名:殷跃杰导师姓名及职称:张继福教授培养单位:计算机科学与技术学院学科专业:计算机科学与技术论文提交日期:2016年5月18日论文答辩日期:2016年6月5日答辩委员会主席:李德玉教授论文原创性声明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及
2、取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本声明产生的法律后果由本人承担。论文作者签名:日期:中文摘要中文摘要离群挖掘是数据挖掘领域中的主要研究内容之一,并已广泛地应用到金融分析、信用诈骗,垃圾邮件分析等领域。针对高维海量数据集,如何有效的降低维灾,提高数据挖掘的精度和效率,是离群挖掘中主要解决的问题。本文从提高离群数据挖掘效果的角度,对两阶段离群检测算法及其并行化进行了研究,其主要
3、研究成果如下:(1)采用筛选候选离群对象删减计算量的思想,给出了一种两阶段离群挖掘算法。第一阶段,计算每个数据对象在每一维的密度比,所有维的密度比的乘积取对数平均作为密度系数,并选取候选离群对象;第二阶段,把候选离群对象的邻居在每一个关联子空间中的偏离程度之积作为偏差比,密度系数与偏差比的乘积作为离群系数,并确定离群数据对象。由于仅计算候选离群对象的离群系数,因此有效地提高挖掘效率;最后,采用UCI数据集,实验验证了该算法不仅保证挖掘结果精度,而且有效提高了挖掘效率。(2)采用MapReduce编程模型,给出了基于子空间的两
4、阶段离群数据并行挖掘算法。先将数据集的全部数据分配到每一个子节点上,在每一个节点上用一个map函数计算数据的密度系数。用Reduce函数将结果汇总到主节点得到候选离群数据集。为使每个节点负载均衡,对候选离群数据集中的对象重新编号,将计算任务均等的分配到每个子节点。计算候选离群数据集中每个对象的偏差比,用Reduce函数将结果汇总到主节点,计算候选离群对象的离群系数。最后排序,筛选出离群点。关键词:关联子空间;候选离群对象;MapReduce;负载均衡IABSTRACTABSTRACTOutlierminingisoneoft
5、hemainresearchcontentsinthefieldofdatamining.Forhighdimensionaldataset,howtoeffectivelyreducethedimensiondisasterandimprovetheaccuracyandefficiencyofdataminingisamajorprobleminoutliermining.Inthisthesis,atwo-stageoutlierdetectionalgorithmanditsparallelwasstudiedfro
6、mimprovingtheeffectofoutlierdatamining.Themainresearchresultsareasfollows:(1)Atwo-stageoutlierminingalgorithmispresentedbyselectingpotentialstrayobjectcutstheideasoftheamountofcalculation.Inthefirststage,thedensityratioofeachdataobjectiscalculatedineachdimension,af
7、terwhichtakethelogoftheproductofalldimensions’densityratioaverageasdensitycoefficient,andselectthecandidatefromthegroupofobjects;Inthesecondstage,regardingthecandidateobject’sneighborsineachsubspaceofthedeviationdegreeoftheproductasadeviationratioanddensitycoeffici
8、entanddeviationratioastheproductofcoefficientsfromthegroup,andthestraydataobjectsaredetermined.Becausetheouliercoefficientofcandidateobjectsareon
此文档下载收益归作者所有