一种改进的K-means数字资源聚类算法-论文.pdf

一种改进的K-means数字资源聚类算法-论文.pdf

ID:58156143

大小:279.76 KB

页数:4页

时间:2020-04-25

一种改进的K-means数字资源聚类算法-论文.pdf_第1页
一种改进的K-means数字资源聚类算法-论文.pdf_第2页
一种改进的K-means数字资源聚类算法-论文.pdf_第3页
一种改进的K-means数字资源聚类算法-论文.pdf_第4页
资源描述:

《一种改进的K-means数字资源聚类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第24卷第6期计算机技术与发展V0I_24No.62014年6月C0MPUTERTECHNOLOGYANDDEVELOPMENTJune2014一种改进的K—means数字资源聚类算法杨永涛,李静(1.燕山大学信息化处,河北秦皇岛066004;2.燕山大学信息科学与工程学院,河北秦皇岛066004)摘要:K—means聚类算法在数据挖掘聚类分析方法中是一个基本的、使用最广泛的划分算法。为了对数字图书馆中大量的数字资源进行更加有效、快速的聚类,文中针对传统的K—means算法存在的问题,结合数字图书馆数字资源的特征,提出了一种改进的基于关键词特征向量的初始聚类中心选

2、择算法,并在此基础上对传统的K—means聚类算法进行了改进,用于对数字资源进行聚类,并进行了算法的实验验证。通过对实验结果的分析证明,文中提出的算法降低了数字资源聚类的代价,提高了聚类的效率,从而验证了算法的可行性。关键词:K—means算法;数字资源;相似度;初始聚类中心中图分类号:TP301.6文献标识码:A文章编号:1673—629X(2014)06—0107—03doi:10.3969/j.issn.1673—629X.2014.06.027AnImprovedK-meansClusteringAlgorithmforDigitalResourcesYA

3、NGYong—tao,LIJing(1.InformationTechnologyOficeofYashanUniversity,Qinhuangdao066004,China;2.CollegeofInformationScienceandEngineering,YanshanUniversity,Qinhuangdao066004,China)Abstract:K-meansclusteringalgorithmisabasicanalysismethodindataminingclosetinganalysis,whichisalsothemostwidel

4、yusedpartitioningalgorithm.Inthispaper,inordertOgetmorefastandeffectiveclusteringresultfromlargenumberofdigitalresourcesindigit—allibrary,aimingattheproblemsofthetraditionalK-meansalgorithm,combiningwiththe~amresofthedigitalresources,animprovedselectionalgorithmbasedonthekeywordfeatur

5、evectorforinitialclusteringcenterisproposed.Onthisbasis,thetraditionalK-meansclusteringalgorithmisimprovedfordigitalresourcesclusteringandexperimentverification.Theanalysisresultsshowthatthealgorithmproposedreducesthedigitalresourcesclusteringcost,improvestheclusteringeficiency,verify

6、ingthefeasibilityofthealgorithm.Keywords:K-meansclusteringalgorithm;digitalresource;similarity;initialclusteringcenterO引言是随机的,它是一种局部优化策略,容易陷入局部最优K—means算法属于聚类方法中一种典型的划分解。好的初始中心的选择,能够极大地避免陷入局方法,但初始中心选择不当往往导致聚类效果出现偏部最优,减少聚类结果的误差总和。因此,优化初始中差。为了达到对资源项更好的聚类效果,针对经典心的选择成为重要的研究点。针对数字图书馆数字资的K—

7、means算法的一些缺点,许多学者在原K—means源的种种特征,也就对数字资源的选择和利用提出了的基础上提出了一些改进方法,主要集中在距离的计新的课题。算、初始点簇中心的优化选择等方面J。在文献[4]中,NimaAsgharbeygi和ArianMaleki1数字资源的表示提到了使用测地距离(GeodesicDistance)代替经数字图书馆中的每一项数字资源都具备标题和关典的K—means算法中使用的欧几里得距离,改善传统键词,文中以资源标题和关键词人手来表示每一项资K—means算法中的不足,如降低了对空间异常数据的源,其表示方法与文本处理中的文本表示方法非

8、常相敏感度

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。