基于蚁群算法的混合属性数据集聚类方法的研究

基于蚁群算法的混合属性数据集聚类方法的研究

ID:33103865

大小:1.44 MB

页数:50页

时间:2019-02-20

基于蚁群算法的混合属性数据集聚类方法的研究_第1页
基于蚁群算法的混合属性数据集聚类方法的研究_第2页
基于蚁群算法的混合属性数据集聚类方法的研究_第3页
基于蚁群算法的混合属性数据集聚类方法的研究_第4页
基于蚁群算法的混合属性数据集聚类方法的研究_第5页
资源描述:

《基于蚁群算法的混合属性数据集聚类方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北大学硕士学位论文基于蚁群算法的混合属性数据集聚类方法的研究姓名:赵伟丽申请学位级别:硕士专业:应用数学指导教师:孙艳蕊20060201东北大学顾士学位论文摘要基于蚁群算法的混合属性数据集聚类方法的研究摘要数据挖掘的目的是从海量的数据中提取人们感兴趣的,有价值的知识和重要的信息,聚类分析则是数据挖掘的一个重要研究领域。它在商业、生物、医学、地质、Web文档等方面都有重要的应用,是当前的研究热点问题之一。本文对混合属性数据集聚类方法进行了研究,主要傲了以下工作:1.将基于蚁群的聚类算法用于混合属性数据集的聚类问题。在基本蚁群聚类算法(LF算法)

2、的基础上,提出了一种改进的基本蚁群聚类算法(ILF算法),在该算法中,引入了公式改进、半径递增、短期记忆、空间分割等策略,大大提高了算法的效率,并且使聚类性能得到较好的改善。同时,该算法利用了自适应原理,在一定程度上,可以加快进化过程,而且是一种本质上分布并列的算法,因此具有很高的效率,适合数据集聚类分析。同时采用了一种新的距离测度函数将数值特征与类属特征相结合,从而实现了具有混合属性特征数据的聚类分析。通过对UCI数据库进行测试,仿真实验结果表明,改进后的算法具有较强的鲁棒性,对于处理具有混合特征的数据集聚类问题是相当有效的,最后的聚类质量也

3、达到了令人满意的效果。2.对基于信息熵的蚁群聚类算法(EAC算法)进行改进,提出了IEAC算法,通过信息熵的计算与比较,改变了拾起和放下数据的规则,减少了参数设置,并通过半径递增、短期记忆、强行放下等策略,提高了聚类性能。这种方法对于处理混合属性数据集尤其是类属性数据集聚类问题是相当有效的。关键词:数据挖掘;聚类分析;数值属性;类属性;蚁群算法;信息熵·Ⅱ·东北大学硕士学位论文AbstractTheResearchofAnt-BasedClusteringAlgorithmforDataSetswithMixedAttributeAbstrac

4、tThepurposeofDataMiningistoabstractpotential,valuableknowledgeandusefulinformationfromplentifuldata,clusteranalysisisoneoftheresearchdomainsofdatamining.Ithasimportantappliancesinmanydomainssuchasinbusiness,biology,medicine,geography,webarchive,anditisoneofthehotresearchprob

5、lems.Thispaperhasstudiedclusteranalysismethodsclearly,anddonethefollowwork:1.Weapplyant·basedclusteringalgorithmtodatasetswithmixedattribute,putforwardanimprovedantclusteringalgorithm(ILFalgorithm)basedonstandardantclusteringalgorithm(IFalgorithm).Inthisalgorithm,byintroduci

6、ngmanystrategiessuchasformulaimprovement,radiusincrease,short-terramemory,spacepartitionetc。,theefficiencyandtheclusteringperformancearebothimprovedinacertaindegree.Theant-basedclusteringalgorithminthispaperavailadaptivetheory,inadegree,couldexpediteevolutionaryprocess,whati

7、sbetterasortofessentiallydistributionCO—ordinatealgorithm,henceitismoreefficientandisquitefeasiblefordatasetswithmixedattribute.Atthesametime,anewdistancemeasurefunctionisadoptedtocombinenumericandcategoricalvaluestogether,andclusteranalysisofraixeddatasetsiscarriedout.Throu

8、ghtheUCIdatabasetest,thesimulationexperimentresultillustratesthattheant—bas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。