欢迎来到天天文库
浏览记录
ID:33146777
大小:1.20 MB
页数:70页
时间:2019-02-21
《基于偶对约束的半监督模糊聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、HEBEIUNIVERSITY密级:分类号:学校代码:10075学号:20111504硕士学位论文基于偶对约束的半监督模糊聚类算法研究学位申请人:周宇飞指导教师:李凯教授企业导师:李海雁高级工程师学位类别:工程硕士授予单位:河北大学完成日期:二〇一四年五月ClassifiedIndex:CODE:10075U.D.C:NO:20111504ADissertationfortheDegreeofMasterStudyofSemi-SupervisedFuzzyClusteringAlgorithmBased
2、onPairwiseconstraintsCandidate:ZhouYufeiSupervisor:Prof.LiKaiAdvisorinEnterprise:SE.LiHaiyanAcademicDegreeAppliedfor:MasterofEngineeringUniversity:HebeiUniversityDateofAccomplishment:May,2014摘要摘要半监督聚类是一种通过引入部分监督信息来提高聚类性能的方法,它在实际中也有很广泛的应用比如:生物领域,医学领域,模式识别领
3、域等等,对于常见的半监督聚类来说,度量函数有很多,比如欧式度量,高斯核函数等等,其中最常用的度量函数就是欧式度量,但是对于欧式度量也有它的缺点:1仅对球形数据有比较好的效果,2在处理样本相关性比较大的数据集时聚类效果一般,3对于高维数据样本的计算量很大,容易由此导致计算时间过长问题。针对以上几个问题,本文将不同的度量函数与半监督算法相结合,研究了基于不同度量函数和偶对约束的半监督模糊聚类算法F-SCAPC。具体的研究内容如下:(1)解决数据样本相关性的问题欧氏距离对给定的球形数据集有比较好的聚类效果,但是
4、如果是椭圆形数据,聚类效果就不太理想,另一方面如果所给定的数据集的样本相关性比较大,也无法获得好的聚类效果。而马氏距离善于处理样本相关性比较大的数据。通过将马氏距离引入到算法中,修改目标函数,可以很好地解决这类问题。(2)解决高维数据聚类产生数据计算量过大的问题欧式度量在聚类过程中可能会由于数据维数过高,运算量太大而出现计算崩溃问题,而核函数可以通过产生的高维特征空间映射来解决这个问题,本文通过将高斯核函数引入到算法中,将样本点由输入空间映射到新的高维特征空间,在进行聚类,也有比较好的聚类效果。本文研究了
5、基于偶对约束的半监督模糊聚类,将马氏度量和高斯核函数引入到半监督模糊聚类中,获得了一种新的半监督模糊聚类目标函数,通过求解优化问题,提出了基于偶对约束和不同度量函数的半监督模糊聚类算法F-SCAPC。针对选择的标准数据集和人工数据集,对提出的算法F-SCAPC进行了实验研究,并与FCM、CA、KCA、AFCC、KFCM-F和SCAPC算法的聚类性能进行了比较,结果表明了提出的算法F-SCAPC在收敛速度和正确率两方面都是有效的。关键词半监督聚类偶对约束马氏度量高斯核函数IAbstractAbstractS
6、emi-supervisedclusteringisanimportantmethodwhichcanimproveclusteringperformancebyintroducingpartialsupervisedinformation;italsohasbeenwidelyusedinareassuchasbiologyfield,medicalfieldandpatternrecognition.Generallyspeakingthereisalotofmetricfunctionforsemi
7、-supervisedclusteringalgorithm.Forexample:Euclideanmetric,Kernelmetricandsoon.Euclideanmetricisthemostcommonlyusedmetricfunction.ButitalsohasdisadvantagesforEuclideanmetric:1.Itonlyhasbettereffectonsphericaldata,2Theclusterresultisnotgoodduringprocessingl
8、argecorrelationdata,3Ifthedataishighdimensional,thecomputationmaybeveryhigh,anditmaycausethecurseofdimensionality.Specifictothoseproblems,weproposeasemi-supervisedfuzzyclusteringalgorithmF-SCAPCwhichbasedonmetriclea
此文档下载收益归作者所有