欢迎来到天天文库
浏览记录
ID:34069162
大小:2.68 MB
页数:82页
时间:2019-03-03
《高维空间大数据集分布式聚类及离群知识发现算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、东南大学博士学位论文高维空间大数据集分布式聚类及离群知识发现算法研究姓名:倪巍伟申请学位级别:博士专业:计算机应用技术指导教师:孙志挥20050808摘要聚类分析是数据挖掘的重要研究课题,它是数据挖掘研究的重要内容、手段和工具,因而成为一个被不断探索并充满创新的研究主题。离群知识发现是近年来倍受数据挖掘研究者关注的一个新兴研究领域,它研究数据中少数异常而新颖的数据分布模式,离群知识发现在入侵检测、风险控制等领域有着广泛应用。近年来,随着卫星遥感、x光扫描、分子生物、高能物理研究等技术的发展,大量的数据被存储在数据库中,这些数据具有维度
2、高、数据分布稀疏、噪声数据多的特点,这就使得面肉高维大规模数据集的数据挖掘研究成为关键。探索并构造具有高性能、高效率的新算法是解决高维空间大数据集挖掘问题的有效途径,也是本文开展聚类分析和离群知识发现研究的着眼点和出发点。论文分析了高维空间大数据集数据分布的特点,以及高维空间大数据集挖掘所需解决的问题,对已有的聚类分析及离群知识发现算法的优缺点进行了分析,针对大数据集的生成方式,提出分布式挖掘、增量式挖掘、数据流挖掘等解决方法,提出了一系列面向高维大规模数据集的有效的聚类及离群知识发现算法。针对高维空间数据聚类可能出现的数据分布稀疏、
3、噪声数据多、聚类参数设定困难以及“差距趋零”等问题,在DBscAN算法的基础上,提出一种k邻域局部密度聚类算法k—PcLDHD及其优化算法k—LDc}ID,算法既保持了DBScAN算法快速高效的特点,又有效地提高了DBSc州算法对高维空间数据聚类的精度;在分布式聚类挖掘方面,提出了分布式聚类算法k—DcBIP,算法结合向量内积知识,对数据集进行预处理,并在每次迭代中,对每个数据点的归属作预判断,算法可以有效地解决大数据集聚类问题;进一步,提出基于DBScAN的分布式密度聚类算法肋BsCAN,算法具有DBscAN算法的能够发现不同形状聚
4、类、对噪声数据不敏感、效率高的优点,同时,算法还弥补了DBscAN算法在扩展性和对高维数据适应性上的不足。最后,论文对数据流挖掘方法进行探讨,将数据流离群知识发现与数据流聚类分析问题对应起来,提出了基于k均值分区的适用于高维数据流挖掘的密度聚类算法cLus如以及离群点检测算法DSOKP。在研究过程中,针对所构造的各种算法进行了大量的实验验证,理论分析和实验结果验证了算法的合理性和有效性,所提出的算法在综合性能上均明显优于现有的相应算法。关键字:聚类分析、离群知识发现、分布式挖掘、数据流挖掘中图分类号:TP31lAbstractCluS
5、teringisanimportalltdomain.mdatamin协g,whichdiVidesadataSetimogroupsofsimilarobjects.clusteringhasbeenanourishingresearchareaa11dwideIyrecognizedaSakeytoolforminingvaIuablemf0邢ationandknowledgefromthedatabases.OutlierdetectionisapowemltoolcomesalongwiththedeVelopingofthe
6、datamh抽gresearch,which6ndsabno咖alwhereasinterestingknowledgerevealedbymerareinstanceswithinmedataSetIthaswide印plicationfore伊oundi11IDS,veDmrecon仃011ingandsoonWithmedeVelopmentofsecondaryplanetremotesensin昌scannillgbyXradial,molecuIarbiologyanddatabasetechn0109ies,la唱esc
7、aIeofdataarestoredinthedataset,whichiswithhi曲dimensionali吼sparselydis廿ibuted,andcontaillsmanynoisedataThismakesitdi龉culttominingonmaSsivedatasetswithhighdimensionalityResearchesarepressinglyseekingeVermorepower凡IalgorithmsthatcanharnlemaSsiVedatasetsef免ctiVelyande面cient
8、lyTMssituationsh印esupthebackgroundofresearchesinthisthesis.Themainproblemofmin王ngonmassiVedatasetSwimhighdimen
此文档下载收益归作者所有