欢迎来到天天文库
浏览记录
ID:32966200
大小:3.04 MB
页数:41页
时间:2019-02-18
《基于信息熵和子空间的离群数据挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、太原科技大学硕士学位论文基于信息熵和子空间的离群数据挖掘算法研究姓名:张贺申请学位级别:硕士专业:计算机软件与理论指导教师:张继福20090701中文摘要离群数据挖掘是找出隐含在海量数据中相对稀疏而孤立的异常数据模式,它往往可以使人们发现一些真实的,但又出乎意料的知识,因此通过对离群数据的研究,发现异常的行为和模式,有着非常重要的意义。现有的传统离群数据挖掘方法存在着受人为因素影响较大,而且不能对挖掘出来的离群点做进一步分析的问题。本文采用信息熵作为离群数据的度量手段,对离群数据挖掘方法进行了研究,其主要研究成果如下:1、给出一种基于信息熵的离群数据挖掘算法(OMBIE)。首先,分析和定义了
2、基于信息熵的离群度量因子,并通过离群度量因子来度量数据集中每个记录的离群程度;然后,根据每个数据点离群程度,检测出离群数据,从而有效地消除了人为主观因素对离群检测的影响,进一步反映客观事物的本质,并能较好地解释离群点的含义;最后,实验验证了该算法的可行性和有效性。2、给出一种离群数据挖掘算法(OMBCAS)。首先,引入属性熵与特征属性的概念,并计算特征属性子空间和属性权重;然后,利用异常度的概念,计算子空间离群影响因子,并检测出离群点;最后,实验验证了算法具有不需要人为干预、伸缩性强等优点。关键字:离群数据;信息熵;离群度量因子;特征属性;子空间;恒星光谱数据ABSTRACTThetasko
3、fOutlierMiningistodiscoverexceptional,interesting,sparseandisolatedpatternsconcealedinmassivedataset.Itcanfindsomereal,butunexpectedknowledge.Therefore,itisofsignificancetomineabnormalbehaviorsandpatternsbystudyingOutlierMiningmethods.Thetraditionaloutlierminingmethodsaresubjecttoman-madefactors;in
4、addition,minedoutlierscannotbeanalyzedfurther.Wehaveadoptedtheinformationentropyasameansofmeasuringoutlierdata,andstudiedOutlierMiningmethodshavebeenstudied.Mainresearchesareasfollows:1)Anewdataminingalgorithm---OutlierMiningalgorithmbasedonInformationEntropyispresentedbyusingoutliermeasurefactorba
5、sedoninformationentropy.Inthealgorithm,outliermeasurefactorofeachrecordiscalculatedbyusinginformationentropy,andthenoutliersaredetectedbythevaluesofoutliermeasurefactor,SOthatimpactbyman-madefactorsiseliminatedinoutliermining.Thedefinitionofoutlierbasedonoutliermeasurefactorcouldexplainthemeaningof
6、theoutliers.Intheend,experimentalresultsshowthefeasibilityand,effectivenessofthealgorithmbyutilizingUCIandhigh-dimensionalstarspectrumdata.2)Anoutlierminingalgorithmbasedoncharacteristicattributesubspaceisproposed.Firstly,thedefinitionsofattributeentropyandcharacteristicattributeareintroducedtomake
7、correspondingcharacteristicattributesubspaceandattributeweight.Secondly,subspaceoutlierinfluencefactoriscomputedbyabnormalitydegree,andthenoutliersarefound.Finally,experimentresultsshowthatthealgorithmisfea
此文档下载收益归作者所有