欢迎来到天天文库
浏览记录
ID:50436916
大小:8.76 MB
页数:61页
时间:2020-03-06
《基于大数据和高维数据的聚类方法的研究与设计实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级公开编号碛士研究嗲像铪式法的研究与设计实现学院(所、中心)信急举专业名称计算机系统结祐)研究生姓名吕輝学号导师姓名杨军职称教授年月论文独创性声明及使用授权本论文是作者在导师指导下取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,不存在剽窃或抄袭行为。与作者一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。现就论文的使用对云南大学授权如下:学校有权保留本论文(含电子版),也可以采用影印、缩印或其他复制手段保存论文;学校有权公布论文的全部或部分内容,可以将论文用于査阅或借阅服务;学校有权向有关机构送交
2、学位论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数据库用于检索服务。内部或保密的论文在解密后应遵循此规定)研究生签名:导师签名:彳日期:万摘要在数据挖掘中,传统的聚类分析方法在对于大数据量和高维数据空间时,由于数据量的大大增加,导致聚类的传统算法对数据计算和处理时,对计算机的内存空间也提出巨大的挑战。而在生物,医疗,购物中,往往面临着大量高维数据库的聚类和分类处理,这些高维数据由于在高的维度空间中,在传统的基于距离和密度聚类方法中,无法以基准函数来确实其聚类簇的类别,所以当数据属性处于多维空间时,没有太好的效果或者无法得到理想的结果。本文通过了
3、对聚类的传统算法的分析,对大数据量聚类处理和降维研究,设计实验数据集,以实现局部优先聚类,聚类融合,和一些经典维数约简的降维算法,以得到比较理想的聚类结果,在当今互联网应用中具有非常深远的意义。以多个小数据集为例,模拟对大数据集局部分解的子集,然后对各个子集进行聚类处理,把局部聚类结果向大数据集的全局聚类结果进行融合,以实现从局部到全局的聚类融合结果。并测试了其稳定性。在面对高维数据空间时,本文釆用当前维数约简算法中具有代表性的主成分分析法进行降维,对模拟的维数据集降至维,给出了具体的实验分析。该实验在开发平台中实现,用纯编写实验程序。实验结果在界面下显示。为保证数据处理的准确性
4、,实验设计对各个局部聚类的聚类中心值的精确度很高,以便减少误差。关键字:大数据量;高维数据空间;聚类分析;聚类融合;维数约简AbstractIndatamining,thetraditionalclusteranalysismethodforlargevolumesofdataandhigh-dimensionaldataspace,duetothesignificantamountofdataincreases,resultinginthetraditionalclusteringalgorithmsfordatacalculationandprocessingofcomput
5、ermemoryspaceisalsoproposedhugechallenge.Inthebiological,medical,shopping,oftenfacedwithalargenumberofclusteringandclassificationofhigh-dimensionaldatabases,thesehigh-dimensionaldataduetothehighdimensionalspace,inthetraditionalclusteringmethodbasedondistanceanddensity,youcannotatthereferencef
6、unctiondoesitscladescategories,sowhenthedataattributeismulti-dimensionalspace,thereisnogoodeffectorcannotgetthedesiredresults.Bythetraditionalmethodofclusteringanalysisoflargeamountsofdataclusteringanddimensionreductionresearch,designexperimentaldatasetstoachievelocalpriority,andtheclustering
7、integration,andsomeclassicdimensionalityreductionofdimensionalityreductionalgorithmtoobtainidealclusteringresults,withaveryfar-reachingsignificanceintoday'sInternetapplications.Apluralityofsmalldatasets,,目录课题背景及研宄意义国内外研宄现状和发展趋势本文研宄的主要内容及组织安排第
此文档下载收益归作者所有