半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc

ID：62158858

大小：21.50 KB

页数：4页

时间：2021-04-19

半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc_第1页

半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc_第2页

半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc_第3页

半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc_第4页

资源描述：

《半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、个人收集整理勿做商业用途半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用【中文摘要】在机器学习领域的众多实际应用中，获得标记样本通常需要付出较大的代价。在一些情况下,获得所有的类标记是非常困难的。近年来，半监督学习已经成为机器学习领域的一个研究热点。半监督学习同时利用标记样本和无标记样本来指导学习过程,从而获得更好的学习性能。有关半监督学习的研究可大致分为两类，即半监督分类和半监督聚类。半监督聚类也就是无监督学习，就是使用少量的标记样本对无标记样本的聚类过程进行指导。本文对聚类的相关技术和半监督学习进行了研究,介绍了文本数据的预处理、距离公式、聚类算

2、法评估准则以及几种k—means算法的扩展算法.本文用随机选择的标记样本作为监督信息,并将标记样本转化为Must-link约束集和Cannot-link约束集,用于重构样本集合的相似度矩阵,重新确定样本之间的相似或不相似的标准。k—means++算法提供了一种有效的聚类种子的选择方法，这种方法的可以降低算法对聚类种子敏感的缺点，其聚类精度明显优于传统的随机选择种子的方法。本文在k—means++算法在初始质心的选择过程中加入了标记样本的影响，提出了一种基于标记样本和相似度调整的k-means算法，并在20-newsgroup和Spam两个数据集上进行了测试,实验结果表明本

3、文提出的算法在聚类结果的精度和执行效率上比Seededk—means算法和k—means++算法有更好的表现.个人收集整理勿做商业用途【英文摘要】Inmanyapplicationsfieldofmachinelearning，theavailabilityofdatatagsisusuallyrequiresmorecostly.Insomecases,itisverydifficulttoaccesstoallkindsoftheclasstags。Inrecentyears，semi-supervisedlearninghasbecomearesearchfocus

4、inthemachinelearningfield，Semi-supervisedlearningtakingadvantageoflabeledsamplesandunlabeledsamplestoguidethelearningprocess,leadingtobetterlearningperformance.Researchonsemi-supervisedlearningcanbedividedintotwocategories，namelysemi—supervisedclassificationandsemi-supervisedclustering.Se

5、mi—supervisedclusteringistouseasmallamountoflabeledsamplesandunlabeledsamplestoguidetheclusteringprocess。Westudiedtheclusteringofrelatedtechnologyandsemi-supervised，introducedthetextdatapreprocessing,distancemetrics，theassessmentofclusteringalgorithmandthek—meansclusteringalgorithmbasedon

6、theconstraints.Thesupervisedinformationislabeledsamplesselectedfromcollectionrandomly，theselabelsaretransferredintotheMust—linkconstraintsetandtheCannot—linkconstraintssetforthereconstructionofthesimilaritymatrixofthecollection，samplere-establishedthestandardsofsimilarordissimilaramongsam

7、ples。个人收集整理勿做商业用途k—means++algorithmprovidesaneffectivemethodofseedingofclustering,thisapproachcanreducethesensitivetoinitialseeds，theclusteringaccuracyisbetterthanthetraditionalmethodofrandomlyseeding。Thispaperaddedthelabelsimpactofthecarefulseedingprocessofk—means+

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc

半监督学习论文：基于标记样本和相似度调整的k均值算法在文本聚类中的应用.doc

相关文章

相关标签