欢迎来到天天文库
浏览记录
ID:33292264
大小:1.48 MB
页数:46页
时间:2019-02-23
《层次聚类中类间距离新定义》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浙江大学理学院硕士学位论文层次聚类中类间距离新定义姓名:叶剑俊申请学位级别:硕士专业:概率论与数理统计指导教师:张帼奋20090501摘要本文是在攻读硕士学位期间完成的,文章考虑的问题是聚类分析.在可获得的数据量呈现爆炸性增长的背景下,聚类分析作为数据挖掘的一个重要工具也越来越受到人们的重视.文章的创新点在于对层次聚类算法的类间距离提供了一种新的定义方式,即通过将类作为整体,而不是通过类中的样本来考虑类间距离.在具体的实施中,运用了两个思路,一个是提取代表元,另一个是将类中所有样本作为整体进行考虑,
2、并对每个思路提出了相应的定义.最后,通过对实验数据的分析,得出了较为有效的两种定义方式PCAHC和VRHC.文章的结构如下:第一章为引言部分,介绍了数据挖掘和聚类分析的研究现状和发展以及本文的研究内容和创新点.第二章中对聚类分析的一系列问题进行了回顾和总结.第三章对文章中要使用的相关方法进行了简要地介绍.第四章先回顾了已有的类间距离定义,然后利用相关的理论得出了类间距离的几种新定义方式,并简要介绍了相应的算法.第五章利用不同的数据集对第四章中所提出的算法进行了验证,通过比较分析选出了几种有效的定义方
3、式.在结论部分总结了本文所做的工作和有待解决的问题.关键词;数据挖掘聚类类间距离特征提取代表元AbstraetAbstractThemainsubjectofthisdissertationisaboutclusteringanalysis,whichiscompletedduringmymasterdegreeofscience.Inthebackgroundofexplosivegrowthofavailabledata,clusteringanalysisplaysamoreimportant
4、roleinourdailylifeasoneofimportanttechnologiesofdatamining.Theinnovationinpaperisthatanewmethodusedtodeterminethedistancebetweencategoriesinhierarchicalclusteringalgorithmsisproposed,thatis,considerseachcategoryasawholeratherthanthroughthesamplesincate
5、gorywhendeterminingthedistancebetweencategories.WeUSetwodifferentwaystoachievetheidea,onewayistoextractrepresentativeelementsofeachcategory,theotherwayistoconsiderallsamplesineachcategoryasawhole,andspecificdefinitionsforeachwayaregivenseparately.Twoef
6、fectivedefinitionsPCAHCandVRHCaregainedbycomparingtheclusteringresultsofeachdefinition.Chapteroneisaprefacewhichgivesanintroductiontothebackgroundanddevelopmentofclusteringanalysisanddatamining.Italsointroducestheprimarycontentofthisdissertation.Inchap
7、tertwo,abriefreviewofclusteringanalysisisgiven.Inchapterthree,relatedmethodswhichwillbeusedareintroduced.Inthefirstpartofchapterfour,theexistingdefinitionsofdistancebetweencategoriesarereviewed.Inthelatterpartofchapterfour,thenewdefinitionsofdistancebe
8、tweencategoriesareproposed.Inchapterfive,bothsimulateddatasetsandrealdatasetsareusedtoexaminethedefinitionsproposedinchapterthreeandseveraleffectivedefinitionsarechosenbycomparingtheclusteringresultsofdatasetsmentionedabove.Inthepartofc
此文档下载收益归作者所有