资源描述:
《基于簇特征的增量聚类算法设计与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于簇特征的增量聚类算法设讣与实现孟海东',王淑玲2,郝永宽2MENGHai-dong1,WANGShu-lingHAOYong-kuan21.内蒙古科技人学资源与安全工程学院,内蒙古包头0140102.内蒙古科技大学信息工程学院,内蒙古包头0140101.SchoolofResourceandSafetyEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou,InnerMongolia014010,China2.Scho
2、olofInformationEngineeringJnnerMongoliaUniversityofScienceandTechnology,Baotou,InnerMongolia014010,ChinaE-mail:haidongm@imust.edu.cnMENGHai-dongtWANGSliu-ling.HAOYong-kuan.Designandimplementationofincrementalclusteringalgorithmbasedonclusterfeature.Co
3、mputerEngineeringandApplicationSt2010946(24):132-134.Abstract:Horverylargedatabases,suchasspatialdatabaseandmultimediadatabase,thetraditionalclusteringalgorithmsareofweaknessesineffectivenessandscalability,AccordingtothenotionofclusteringfeatureofBIRC
4、H,adynamicandincre・mentalclusteringalgorithmisdesignedandimplemented,whichsolvestheproblemsofeffectiveness,spaceandtimecomplexitiesofclusteringalgorithmsforlargedatabases.Theoreticanalysisandexperimentalresultsdemonstratethatthedynamicandincrementalc
5、lusteringalgorithmcannotonlyhandlelargedatabases,butalsohasgoodscalability.Keywords:largedatabase;clusterfeature;dynamicandincrementalclustering摘要:对于大型数据库,如空间数据库和多媒体数据库,传统聚类算法的有效性和可扩展性受到限制。通过动态增量的方法,在基于密度和自适应密度可达聚类算法的基础上,根据B1RCH算法中聚类特征的概念,利用簇特征设计与实现了一
6、种新的动态增量聚类算法,解决了大型数据库聚类的有效性以及空间和时间复杂度问题°理论分析和实验结呆证明该算法能够有效地处理大型数据库,使聚类算法具有良好的可扩展性。关键词:大型数据库;簇特征;动态增量聚类DOI:10.3778/j.issn.1002-8331.2010.24.040文章编:1002-8331(2010)24-0132-03文献标识码:A屮图分类号:TP301MartinEster等最早提出了DBSCAN的增量聚类算法叫它是在DBSCAN算法的基础上•针对数据仓库环境屮增量式数据加载
7、要求而改造的。该算法依次将更新表的一条当前记录与数据仓库中的记录比较,更新聚类结果,但算法在增量聚类过程屮,更新对象依次一个个地单独处理,而没有考虑更新对象之间的关系,效率较低。之后,人们乂提出了多种增量聚类算法。其屮文献[2]提出了一种基于层次距离的增量聚类算法,该算法可以直接处理混合型数据集,并利用概念层次树来解决数据间的相似度问题,然I何其屮涉及到权重的选择问题,它要求用户具有相关的领域知识,这一点在实际操作中很难保证;文献[3]提出的算法可以在已取得的聚类结果的基础上,通过计算利比较相似度
8、直接得到全部数据的聚类,该算法虽然可以发现任意形状的聚类,但往往由于弱传递或弱连通问题使得多个聚类合并成-个聚类;文献[4]提出的基于相对密度的增量式聚类算法继承了基于绝对密度聚类算法的抗噪声能力强、能发现任意形状簇等优点,通过定义新增对象的影响集和种子集能够有效支持增量式聚类;算法的不足之处是,必须用簇中的所有点来表示聚类形成的任意形状,这在内存有限情况下对动态数据集进行增量式聚类是难以适用的。文献[5]提出了一种基于密度的高性能增量聚类算法,算法使用分区、抽样技术应对海量数据,