基于信息熵和子空间的离群数据挖掘算法研究

基于信息熵和子空间的离群数据挖掘算法研究

ID:32966200

大小:3.04 MB

页数:41页

时间:2019-02-18

基于信息熵和子空间的离群数据挖掘算法研究_第1页
基于信息熵和子空间的离群数据挖掘算法研究_第2页
基于信息熵和子空间的离群数据挖掘算法研究_第3页
基于信息熵和子空间的离群数据挖掘算法研究_第4页
基于信息熵和子空间的离群数据挖掘算法研究_第5页
资源描述:

《基于信息熵和子空间的离群数据挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、太原科技大学硕士学位论文基于信息熵和子空间的离群数据挖掘算法研究姓名:张贺申请学位级别:硕士专业:计算机软件与理论指导教师:张继福20090701中文摘要离群数据挖掘是找出隐含在海量数据中相对稀疏而孤立的异常数据模式,它往往可以使人们发现一些真实的,但又出乎意料的知识,因此通过对离群数据的研究,发现异常的行为和模式,有着非常重要的意义。现有的传统离群数据挖掘方法存在着受人为因素影响较大,而且不能对挖掘出来的离群点做进一步分析的问题。本文采用信息熵作为离群数据的度量手段,对离群数据挖掘方法进行了研究,其主要研究成果如下:1、给出一种基于信息熵的离群数据挖掘算法(OMBIE)。首先,分析和定义了

2、基于信息熵的离群度量因子,并通过离群度量因子来度量数据集中每个记录的离群程度;然后,根据每个数据点离群程度,检测出离群数据,从而有效地消除了人为主观因素对离群检测的影响,进一步反映客观事物的本质,并能较好地解释离群点的含义;最后,实验验证了该算法的可行性和有效性。2、给出一种离群数据挖掘算法(OMBCAS)。首先,引入属性熵与特征属性的概念,并计算特征属性子空间和属性权重;然后,利用异常度的概念,计算子空间离群影响因子,并检测出离群点;最后,实验验证了算法具有不需要人为干预、伸缩性强等优点。关键字:离群数据;信息熵;离群度量因子;特征属性;子空间;恒星光谱数据ABSTRACTThetasko

3、fOutlierMiningistodiscoverexceptional,interesting,sparseandisolatedpatternsconcealedinmassivedataset.Itcanfindsomereal,butunexpectedknowledge.Therefore,itisofsignificancetomineabnormalbehaviorsandpatternsbystudyingOutlierMiningmethods.Thetraditionaloutlierminingmethodsaresubjecttoman-madefactors;in

4、addition,minedoutlierscannotbeanalyzedfurther.Wehaveadoptedtheinformationentropyasameansofmeasuringoutlierdata,andstudiedOutlierMiningmethodshavebeenstudied.Mainresearchesareasfollows:1)Anewdataminingalgorithm---OutlierMiningalgorithmbasedonInformationEntropyispresentedbyusingoutliermeasurefactorba

5、sedoninformationentropy.Inthealgorithm,outliermeasurefactorofeachrecordiscalculatedbyusinginformationentropy,andthenoutliersaredetectedbythevaluesofoutliermeasurefactor,SOthatimpactbyman-madefactorsiseliminatedinoutliermining.Thedefinitionofoutlierbasedonoutliermeasurefactorcouldexplainthemeaningof

6、theoutliers.Intheend,experimentalresultsshowthefeasibilityand,effectivenessofthealgorithmbyutilizingUCIandhigh-dimensionalstarspectrumdata.2)Anoutlierminingalgorithmbasedoncharacteristicattributesubspaceisproposed.Firstly,thedefinitionsofattributeentropyandcharacteristicattributeareintroducedtomake

7、correspondingcharacteristicattributesubspaceandattributeweight.Secondly,subspaceoutlierinfluencefactoriscomputedbyabnormalitydegree,andthenoutliersarefound.Finally,experimentresultsshowthatthealgorithmisfea

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。