基于领域知识半监督聚类算法地研究

基于领域知识半监督聚类算法地研究

ID:32251939

大小:3.50 MB

页数:84页

时间:2019-02-02

基于领域知识半监督聚类算法地研究_第1页
基于领域知识半监督聚类算法地研究_第2页
基于领域知识半监督聚类算法地研究_第3页
基于领域知识半监督聚类算法地研究_第4页
基于领域知识半监督聚类算法地研究_第5页
资源描述:

《基于领域知识半监督聚类算法地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要基于领域知识的半监督聚类算法研究聚类分析是数据挖掘领域的基本方法之一,它根据数据对象之间的相似性,把数据对象分割成簇。从机器学习的角度,聚类分析被看作是一种无监督的学习方法,对数据的分析不需要知道数据相关的类别信息。然而,在现实生活中,人们对所要分析数据的相关领域知识并非完全一无所知,通过这种知识能够发现数据对象标识或相互之间的约束信息。半监督聚类就是在聚类过程中引入先验知识来指导聚类过程,从而改进聚类结果。目前,半监督聚类方法己成为人们研究聚类方法的新热点。本文从约束的角度、属性的角度、规则的角

2、度和实际应用的角度来研究半监督聚类的实现方法及实际应用效果。本文的主要工作及创新点包括:1、通过分析COP—KMeans算法,指出了其中的不足,引入按约束集分配的方法及辅助质心的概念,提出了改进的MLC—KMeans半监督聚类算法,并通过实验证明了改进算法的有效性;2、针对属性和类标识及属性和约束的相互关系,一方面采取属性约简方法,通过分析己知的标识数据对象,来消除冗余的属性,在新的属性集上进行聚类;另一方面,通过对约束对象属性范围进行限制,找到新的约束集合,来指导聚类过程。通过应用两种方法,达到了较

3、好的聚类效果;3、利用关联规则方法,通过分析数据集中的部分标识数据,发现数据属性子集和类标识之间的关联关系,并把此规则作为先验知识,引入到北京化工大学硕士学位论文聚类过程,来改进聚类效果。基于关联规则的半监督聚类方法有效地利用了规则信息,展现了利用数据挖掘方法发现的先验知识和属性子集的关联约束关系在半监督聚类中的应用;4、通过把半监督聚类的方法应用到Web用户的聚类分析之中,来检验半监督聚类的实际应用效果。本文详细描述了从Web日志获取到聚类分析的过程。关键词:数据挖掘,领域知识,半监督聚类,MIC-

4、KMeans算法,属性约简摘要AStudyonSemi-supervisedClusteringAlgorithmbasedonDomainKnowledgeABSTRACTClusteringanalysisoneofthebasictasksindataminhaginwhichthedataobjectsalepartitionedintoclustersbasedoncertintainsimilarity.Clusteringanalysiscanbeseenasantmsupervised

5、learningprocessfromtheperspectiveofmachinelearning.Ingeneral,theunsupervisedlearningdoesnotrequiretheclasslabelinformationbeforeanalysis.However,inrealworld,peoplehavesomeknowledgeaboutthedatatobeanalyzed.InmostCaseS,theusefulinformationisgenerallyignor

6、edinmosttraditionalscenarios.Semi-supervisedclusteringisproposedtoutilitizetheknowledgetoguidetheclusteringprocessandimprovetheclusteringresult.Ithasbeenassuredthatsemi-supervisedclusteringcanachievebetterclusteringresult.Recently,Semi-supervisedcluster

7、inghasbecomeoneofthehotreSearchtopicsintheareaofclustering.Thispaperhasstudyonsemi-supervisedalgorithmmethodandapplicationresultfromtheperspectiveofconstraints:attributes,rulesandreal-worldapplication.Thispaper'smaincontributionsandinnovationsinclude:Il

8、l北京化工大学硕士学位论义1)ThispaperanalysesCOP-Weansclusteringalgorithmandpointsomitsdisadvantages,inducesthedispatchingmethodbasedonconstraintsetandtheconceptofassistantcentroid,bringsforwardtheimprovedversioncalledⅣ匝C—KlⅥeansandconfn'msit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。