基于信息理论空间离群点挖掘技术研究

基于信息理论空间离群点挖掘技术研究

ID:31973246

大小:6.47 MB

页数:58页

时间:2019-01-29

基于信息理论空间离群点挖掘技术研究_第1页
基于信息理论空间离群点挖掘技术研究_第2页
基于信息理论空间离群点挖掘技术研究_第3页
基于信息理论空间离群点挖掘技术研究_第4页
基于信息理论空间离群点挖掘技术研究_第5页
资源描述:

《基于信息理论空间离群点挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己注明引用的内容以外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:江苏大学高校硕士学位论文摘要离群点挖掘已成为数据挖掘研究领域最活跃的分支之一。在数据库、数据挖掘、机器学习和统计学等领域受到广泛关注,在欺诈检测

2、、入侵检测、故障检测、生态系统失调、公共卫生中的异常疾病的爆发、公共安全中的突发事件的发生、异常自然气候的发现等应用中有着广阔的应用前景。随着传感器设备技术的发展,数据采集设备的数量越来越多,精度越来越高,空问数据的数量越来越大,维数也越来越高。现有的针对空间数据的离群点挖掘方法主要是基于距离和基于密度的,这些方法受到“维度灾难”和数据量伸缩性的挑战。基于信息理论的离群点检测算法一般研究的是分类属性并假设属性之间相互独立,由于空间数据的自相关性和异质性,决定了现有的基于信息理论的离群点检测方法也难以适应数据

3、挖掘,故基于信息理论的空间离群点挖掘算法还未见报道。因此,本文将根据空间数据自身的特点,基于综合考虑信息熵和属性之间关联性的全息熵概念,研究基于全息熵的能同时适应离散属性和连续属性的空间离群点检测算法。论文主要工作如下:(1)对现有的与空间离群点检测相关的典型的离群点检测算法进行分析和实验比较,指出各自的优势及存在的局限。(2)针对现有的空问邻居(域)的确定仅仅依靠空问关系,造成复杂度高的局限,提出利用空间标识属性实现空间区域划分,并利用空问标识属性的层次特性建立层次树,直到特定层次,即在一定区域内才通过空

4、间关系确立空间邻居,并用Rt.树进行检索,从而降低了计算复杂度,并为分布并行计算奠定了基础。(3)针对现有的空间离群点检测算法难以适应高维大数据的问题,提出综合考虑信息熵和属性之间互信息的全息熵的空问离群点挖掘算法。算法提出了针对不同类型属性的相异度度量方法和基于相异度信息熵度量方法,并提出了基于信息熵的属性权重计算方法。在此基础上提出了基于加权的全息熵的离群度度量方法,并设计了基于离群度的空间离群点挖掘算法。理论和实验结果均表明,由于算法综合考虑了空间数据的特性,有效实现了数据划分和权重的自动计算,在计算

5、复杂度、计算精度、用户依赖性和结果的可解释性方面均具有优势。关键词:全息熵,信息熵,空间离群点,区域标识,空间索弓江苏大学高校硕士学位论文ABSTRACTOutliermininghasbecomeoneofthemostactivebranchindataminingresearchfields.Itisattractedwidespreadattentionjnthefieldofdatabases.datamining,machinelearningandstatistics.Ithasabroada

6、pplicationprospectinfrauddetection.intrusiondetection,faultdetection,ecologicalsYstemdisorder,andahnormaIoutbreaksofdiseaseinpublichealth,publicsafetyemergencieshappen,abnormalinthediscoveryofnaturalclimateandsoon.Withthedevelopmentofthesensordevicetechnol

7、ogy,thenumberofdataacquisitiondevicesisbecomingmoleandmoreandthedata’sprecisionishigherandhigher.Thenumberofspatialdataisbecominglalgerandthedimensionisbecominghigher.Theexistingoutlierdetectionmethodsforspatialdataaremainlybasedondistanceanddensity。Andthe

8、yarefacedwiththechallengesofthecurseofdimensionalityandtheamountofdatascalability.Outlierdetectionalgorithmbasedoninformationtheoryisthestudyoftheclassificationproperties.Thesealgorithmsareusuallyassumedthatt

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。