欢迎来到天天文库
浏览记录
ID:58156143
大小:279.76 KB
页数:4页
时间:2020-04-25
《一种改进的K-means数字资源聚类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第24卷第6期计算机技术与发展V0I_24No.62014年6月C0MPUTERTECHNOLOGYANDDEVELOPMENTJune2014一种改进的K—means数字资源聚类算法杨永涛,李静(1.燕山大学信息化处,河北秦皇岛066004;2.燕山大学信息科学与工程学院,河北秦皇岛066004)摘要:K—means聚类算法在数据挖掘聚类分析方法中是一个基本的、使用最广泛的划分算法。为了对数字图书馆中大量的数字资源进行更加有效、快速的聚类,文中针对传统的K—means算法存在的问题,结合数字图书馆数字资源的特征,提出了一种改进的基于关键词特征向量的初始聚类中心选
2、择算法,并在此基础上对传统的K—means聚类算法进行了改进,用于对数字资源进行聚类,并进行了算法的实验验证。通过对实验结果的分析证明,文中提出的算法降低了数字资源聚类的代价,提高了聚类的效率,从而验证了算法的可行性。关键词:K—means算法;数字资源;相似度;初始聚类中心中图分类号:TP301.6文献标识码:A文章编号:1673—629X(2014)06—0107—03doi:10.3969/j.issn.1673—629X.2014.06.027AnImprovedK-meansClusteringAlgorithmforDigitalResourcesYA
3、NGYong—tao,LIJing(1.InformationTechnologyOficeofYashanUniversity,Qinhuangdao066004,China;2.CollegeofInformationScienceandEngineering,YanshanUniversity,Qinhuangdao066004,China)Abstract:K-meansclusteringalgorithmisabasicanalysismethodindataminingclosetinganalysis,whichisalsothemostwidel
4、yusedpartitioningalgorithm.Inthispaper,inordertOgetmorefastandeffectiveclusteringresultfromlargenumberofdigitalresourcesindigit—allibrary,aimingattheproblemsofthetraditionalK-meansalgorithm,combiningwiththe~amresofthedigitalresources,animprovedselectionalgorithmbasedonthekeywordfeatur
5、evectorforinitialclusteringcenterisproposed.Onthisbasis,thetraditionalK-meansclusteringalgorithmisimprovedfordigitalresourcesclusteringandexperimentverification.Theanalysisresultsshowthatthealgorithmproposedreducesthedigitalresourcesclusteringcost,improvestheclusteringeficiency,verify
6、ingthefeasibilityofthealgorithm.Keywords:K-meansclusteringalgorithm;digitalresource;similarity;initialclusteringcenterO引言是随机的,它是一种局部优化策略,容易陷入局部最优K—means算法属于聚类方法中一种典型的划分解。好的初始中心的选择,能够极大地避免陷入局方法,但初始中心选择不当往往导致聚类效果出现偏部最优,减少聚类结果的误差总和。因此,优化初始中差。为了达到对资源项更好的聚类效果,针对经典心的选择成为重要的研究点。针对数字图书馆数字资的K—
7、means算法的一些缺点,许多学者在原K—means源的种种特征,也就对数字资源的选择和利用提出了的基础上提出了一些改进方法,主要集中在距离的计新的课题。算、初始点簇中心的优化选择等方面J。在文献[4]中,NimaAsgharbeygi和ArianMaleki1数字资源的表示提到了使用测地距离(GeodesicDistance)代替经数字图书馆中的每一项数字资源都具备标题和关典的K—means算法中使用的欧几里得距离,改善传统键词,文中以资源标题和关键词人手来表示每一项资K—means算法中的不足,如降低了对空间异常数据的源,其表示方法与文本处理中的文本表示方法非
8、常相敏感度
此文档下载收益归作者所有