基于遗传算法的高维数据聚类研究

基于遗传算法的高维数据聚类研究

ID:33746743

大小:2.77 MB

页数:60页

时间:2019-02-28

基于遗传算法的高维数据聚类研究_第1页
基于遗传算法的高维数据聚类研究_第2页
基于遗传算法的高维数据聚类研究_第3页
基于遗传算法的高维数据聚类研究_第4页
基于遗传算法的高维数据聚类研究_第5页
资源描述:

《基于遗传算法的高维数据聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、汕头大学硕士学位论文基于遗传算法的高维数据聚类研究姓名:熊琅环申请学位级别:硕士专业:@指导教师:孙浩军2011汕头大学硕士学位论文基于遗传算法的高维数据聚类研究摘要数据挖掘是当今信息产业界最前沿的研究方向之一,聚类分析是其中的一项重要研究课题。聚类分析是将数据根据一定的相似度度量划分成若干有用的或有意义的类(簇),其在实际应用中许多领域有着广泛的应用。目前,低维数据的聚类算法已较成熟,受“维度灾”(thecurseofdimensionality)的影响,许多传统的聚类算法运用到高维数据上往往失效,然而在实际应用中,高维度

2、的数据普遍存在,例如,基因表达数据、金融数据、多媒体数据以及文本数据等。因此对高维数据聚类算法的研究具有非常重要的理论意义和应用价值。针对高维数据聚类问题,最直接有效的方法是降低维度,通过降维技术将原来高维数据空间归约到较低维空间,从而可以利用传统的聚类方法完成聚类处理。在高维数据中,并不是所有的维度对聚类而言都是有效的,因此需要对特征空间进行有效的搜索从而找出有效的聚类特征子空间。对于高维数据而言,维度越高,其特征子空间的数目也就越大,从而导致了传统的搜索算法像贪婪算法较易陷入局部最优解。作为智能算法的一种,遗传算法(Ge

3、neticAlgorithms,GA)的全局收敛性得到人们的普遍关注。遗传算法是通过模拟生物在自然界环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。本文利用遗传算法的全局搜索能力对高维数据的特征空间进行搜索,以找出有效的聚类特征子空间。同时为了考察特征维在子空间聚类中的特征,设计出一种基于特征维对子空间聚类贡献率的适应度函数,具有一定的理论价值和现实指导意义。论文的创新之处及主要工作如下:(1)搜索空间的确定及染色体的编码。将遗传算法运用到聚类分析问题的方法中,一般的编码方法多着重在类中心点空间上,本论文将特征

4、选择空间和类中心点空间两部分联合组成编码空间,同时附加一些限制条件以有效地缩短编码长度。(2)设计出一种基于特征维对子空间聚类贡献率的适应度函数。作为子空间聚类的评估函数,它具有比较不同子空间聚类的能力,即聚类结果和子空间所包含的特征维一起评价。(3)设计并实现了一种基于遗传算法的高维数据聚类算法—GA-HDclustering(High-dimensionalDataClusteringusingGeneticAlgorithms)(4)通过计算机模拟所得的人工数据集、UCI机器学习网站上的3个真实数据集—wine数据集、

5、wdbc数据集、sonar数据集以及BrianTjaden的文献中的I汕头大学硕士学位论文基于遗传算法的高维数据聚类研究saccharomyces数据集验证了GA-HDclustering算法的可行性与有效性。关键词:聚类分析;遗传算法;高维数据;特征子空间II汕头大学硕士学位论文基于遗传算法的高维数据聚类研究AbstractDataMiningisahotresearchareaininformationtechnologyindustry,andclusteranalysisisoneofthemostimportant

6、researchtopicsinthisarea.Clusteringistheprocessofgroupingdataintoanumberofclustersaccordingtoasimilaritymetric,whichhasawiderangeofapplicationsinrealword.Nowadays,therearemanyclassicalclusteringalgorithmswhichworkwellonlow-dimensionaldata,whilethosealgorithmsareoft

7、eninvalidwhenprocessinghigh-dimensionaldatabecauseof“thecurseofdimensionality”.However,thedataisalwayswithhighdimensionsintherealapplications.Forexamples,geneexpressiondata,financedata,multimediadataandwebdata.Theuniversalityofhigh-dimensionaldatamakesitveryimporta

8、nttoresearchonclusteringalgorithmsforhigh-dimensionaldata.Thedirectapproachforhigh-dimensionaldataclusteringisfeaturetransformationwhichtransform

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。