基于多因子标签相似度的标签聚类算法的研究

基于多因子标签相似度的标签聚类算法的研究

ID:34870454

大小:3.55 MB

页数:59页

时间:2019-03-12

基于多因子标签相似度的标签聚类算法的研究_第1页
基于多因子标签相似度的标签聚类算法的研究_第2页
基于多因子标签相似度的标签聚类算法的研究_第3页
基于多因子标签相似度的标签聚类算法的研究_第4页
基于多因子标签相似度的标签聚类算法的研究_第5页
资源描述:

《基于多因子标签相似度的标签聚类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、申请辽宁大学硕士学位论文基于多因子标签相似度的标签聚类算法的研究ResearchonLabelClusteringAlgorithmBasedonSimilarityofMulti-factorLabels作者:张学理指导教师:徐红艳副教授专业:计算机应用技术答辩日期:2018年5月22日二〇一八年五月·中国辽宁摘要摘要21世纪是信息技术大爆发的时代,社会化标注系统的出现产生了海量的信息资源,挖掘社会化标注系统中的标签资源,能够提升用户体验。在挖掘标签潜在有用信息过程中,如何对标签分类是一个难题。使用标签聚类算法能够实现社会化标注系统对标签的分类

2、需求。社会化标注系统是开放的系统,但正是由于其开放性,各行各业、各种知识层面的用户都能对资源进行标注,易导致标注的标签存在信息描述不够精确、语义模糊等问题,对资源的分类效果产生较大的负面影响。现阶段标签聚类存在两个问题:(1)现阶段标签相似度方法计算所得标签相似度不够精确;(2)聚类算法本身也存在一些局限性,如K-means随机选取初始簇中心,易导致聚类不稳定、准确率低等问题。为了解决上述问题,本文对标签相似度计算方法和K-means算法进行改进,提出基于多因子标签相似度的标签聚类算法。所做的主要工作如下:(1)提出了多因子标签相似度的计算方法。

3、该方法考虑用户因子和资源因子并融入标签的频度和重要度因子对标签相似度计算方法进行改进,所得标签相似度能够较好的衡量标签之间的相似性;(2)提出了融入密度和距离优选初始簇中心的K-means算法。该算法不断选取距离最远的高密度对象作为初始簇中心,避免了仅从最远距离选取初始簇中心不能解决噪声的问题和仅选取高密度对象作为初始簇中心,易导致局部最优的问题。最后将多因子标签相似度计算方法与融入密度和距离优选初始簇中心的K-means算法结合,实现完整的标签聚类算法。分别对多因子标签相似度计算方法、融入密度和距离优选初始簇中心的K-means算法以及两者融合

4、基于多因子标签相似度的标签聚类算法的有效性进行实验验证。实验表明本文基于多因子所得标签相似度在进行传统K-means聚类时,具有较高Purity、准确率和召回率,能够较好的衡量标签之间的相似度关系。本文融入密度和距离的K-means聚类算法聚类精度更高,具有普适性。两者融合的基于多因子标签相似度的标签聚类算法进行标签聚类,效果最好。关键词:社会化标注,K-means,标签聚类,相似度,特征向量IAbstractABSTRACTThe21stcenturyisaneraofinformationtechnologyoutbreaks.Theemer

5、genceofasocialtaggingsystemhascreatedahugeamountofinformationresourcesandtappedouttaggingresourcesinsocialtaggingsystems,whichcanenhancetheexperienceofsocializedsystems.Intheprocessofminingpotentialusefulinformationforlabels,howtoclassifylabelsisadifficultproblem.Theuseoftagc

6、lusteringalgorithmcanachievethesocialtaggingsystem'sclassificationrequirementsfortags.Thesocialtaggingsystemisanopensysteminwhichtheusercanlabeltheresourcesatwill,andthetaggedtagscanreflectthecharacteristicsoftheresourcestosomeextent.However,duetoitsopenness,usersofallwalksof

7、lifeandvariousknowledgelevelscanlabelresourceswhichleadtolabelingproblemssuchasinaccurateinformationdescriptionandfuzzylabelsemantics.Andthereisagreaternegativeimpactintheclassificationeffectofresources.Atpresent,Therearetwoproblemsinlabelclusteringatthisstage:(1)thecalculati

8、onoflabelsimilarityisnotaccurate;(2)theclusteringalgorithmitselfhass

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。