基于半监督聚类算法的研究与应用

基于半监督聚类算法的研究与应用

ID:33406224

大小:1.89 MB

页数:58页

时间:2019-02-25

基于半监督聚类算法的研究与应用_第1页
基于半监督聚类算法的研究与应用_第2页
基于半监督聚类算法的研究与应用_第3页
基于半监督聚类算法的研究与应用_第4页
基于半监督聚类算法的研究与应用_第5页
资源描述:

《基于半监督聚类算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要揽督学习需要知道所有数据的类别信息,而传统的无;l{【督聚类学习对于已知的先验知识没有在挖掘过程中的充分利用,导致聚类过程的盲目性。半监督学习凶具监督学习及无监督学习的优点,成为近几年来数据挖掘领域研究热点问题之一。本文研究了半jl{f督算法与聚类算法。针对search—kmea凇算法中心点的选取只满足局部最优,而非全局最优,导致簇的划分不合理的缺点:提出了DS—Kmeans算法,该方法采用二分法在未标记数据集中选取中心点,所选中心点达到全局最优,同时存寻找中心点的过程中,通过一次遍历即可找到所有的中

2、心点,与search—kmeans算法中利用候选集合寻找中心点的方法相比较,减少了遍历次数,从而降低了算法的时问复杂度。K—means算法及其改进算法必须事先确定簇的划分数日,丽划分数日的选取具有随机性和盲目性,基于此,提出了BSC—Kmeans算法,该算法不需要事先知道划分数目就可以自组织得到最后的类别数目。通过实验分析了BSC-Kmeans算法在TriS数据集和生成的数据集上进行实验,结果表明BSC-Kmeans算法在事先不指定划分数目的情况下,能够正确的得到聚类结果。最后研究了BSC-Kmeans算

3、法和DS—Kmeans算法在海尔集团的客户分群问题上的应用。对两种算法进行了比较,实现了海尔客户不同群体的划分,并研究了各群体的特点,相关结果将为企业的业务分析和决策提供辅助支持。关键词:数据挖掘;半监督;聚类;客户分群r’。㈠I。,!j●●■一.IAbstractSupervisedlearninghastoknowallthelabeledinformation,whiletheunsupervisedlearningdoesnotmakefuIluseoftheIabeledinformation,

4、whichresultsintheblindnessoftheclustering.Semi—supervisedlearninghasalwaysbeenoneofthefocalproblemsindataminingrealminresentyearsbecauseithassemi-supervisedlearningandunsupervisedlearningmerits.ThepapermainlyintroducesSemi-supervisedalgorithmandclustering

5、analysis.Thesearch-kmeanschoosesthecenterpointonlylocaloptimumandnotglobaloptimum,whichresultsinunreasonableclusterresult.Byanalyzingthesearch-kmeanssemi—supervisedclusteringalgorithm,aDS-kmeansalgorithmispresentedandthealgorithmusingthedichotomyfromtheun

6、labeleddatasetstochoosethecenterpoint.ThemethodCanmaketheclusterresultglobaloptimum.Andmeanwhile,bythisway,choosingallthecenterpointneedtomakeonlyasinglepassthroughadatasets.Comparedwiththesearch-kmeansalgorithm,theDS-kmeansalgorithmdecreasesthecomputatio

7、nalexpenseandreducesthetimecomplexity.K-meansalgorithmandimprovedalgorithmshastoassignclusternumber,whilechoosingtheclusternumberhasblindnessandrandomness.Onthatbasis,aBSC—kmeansalgorithmispresentedandthealgorithmdoesnotknowtheclusternumberandalsoclusters

8、thedatasets.ByusingIrisdatasetsBSC—kmeansclusteringalgorithmaredeeplyanalyzedbychangingthethresholdandlabeledclassinformationandautomaticallygenerateddatasetsfinallycomparedwiththesameclass.algorithmsearch·kmeansalg

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。