基于样本-特征加权的模糊核聚类算法研究及应用

基于样本-特征加权的模糊核聚类算法研究及应用

ID:33797108

大小:1.49 MB

页数:64页

时间:2019-03-01

基于样本-特征加权的模糊核聚类算法研究及应用_第1页
基于样本-特征加权的模糊核聚类算法研究及应用_第2页
基于样本-特征加权的模糊核聚类算法研究及应用_第3页
基于样本-特征加权的模糊核聚类算法研究及应用_第4页
基于样本-特征加权的模糊核聚类算法研究及应用_第5页
资源描述:

《基于样本-特征加权的模糊核聚类算法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号______________________________密级______________________________UDC______________________________编号______________________________硕士学位论文基于样本-特征加权的模糊核聚类算法研究及应用学位申请人:刘建林学科专业:计算机应用技术指导教师:黄卫春副教授答辩委员会主席:答辩日期:华东交通大学2013届硕士学位论文基于样本特征加权的模糊核聚类算法研究及应用-信息工程学院刘建林独创性声明本人郑重声明:所呈交的学位论文是我个人在导

2、师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表和撰写的研究成果,也不包含为获得华东交通大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人签名_______________日期____________关于论文使用授权的说明本人完全了解华东交通大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。保

3、密的论文在解密后遵守此规定,本论文无保密内容。本人签名____________导师签名__________日期___________摘要基于样本-特征加权的模糊核聚类算法研究及应用摘要聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支。聚类的最终目的是使相似的样本之间的距离尽可能地小,而不相似的样本之间的距离尽可能地大。随着模糊集理论的提出和不断发展,模糊聚类分析已成为聚类分析研究的主流。其中理论最完善,应用最广泛的是基于目标函数的模糊C均值(FuzzyC-Means,FCM)算法。如今FCM算法已被广泛地应用于数据挖掘、模式识别等领域

4、中。文本挖掘是数据挖掘研究的一个重要领域。在进行文本处理时,需要把文本数据从非结构化的形式,转化为计算机可以直接处理的结构化形式。而目前计算机还难以理解人类自然语言之间的语义歧义等问题,因此,要达到更好的符合现实需要的数据挖掘效果,还需要结合其它方面的知识对文本挖掘进行更深入的探索与研究。而FCM算法用于文本挖掘还存在着许多问题。本文首先对模糊C-均值算法,可能性聚类算法,可能性模糊C均值算法进行了实验模拟分析和比较;其次针对FCM算法的不足做了相关改进:(1)针对传统模糊C-均值聚类算法对初始聚类中心较为敏感的问题,利用FCM算法运行最后所得的聚

5、类中心作为新的算法的初始聚类中心,避免了上述问题;(2)由于模糊C-均值算法不考虑不同样本集对聚类结果的影响,而实际应用中不同的样本对聚类的贡献程度不一样,也就是不同样本集对聚类有着不同程度的影响。针对此问题,对样本的隶属度进行了优化,引入了一个样本权重,考虑了样本对聚类的影响,并进行了实验模拟仿真;(3)针对经典的模糊C-均值聚类算法对噪声数据较为敏感、未考虑样本特征间的不平衡性等问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中并与模糊C-均值聚类算法相结合,在聚类过程中动态计算样本权值和特征权值,并利用核函

6、数把低维特征空间中线性不可分的数据映射到高维特征空间中的可分数据,以提高聚类的准确率和抗噪性。同时将新算法与模糊C-均值算法、可能性聚类算法、可能性模糊C-均值聚类算法在UCI数据集、X12数据集和人造含噪声数据集上进行聚类实验,对新算法的聚类准确率和抗噪性进行验证分析。关键词:样本加权,特征加权,模糊聚类,核,FCM,可能性模糊聚类,文本聚类IAbstractAPPLICATIONSANDRESEARCHONPOSSIBILISTICFUZZYKERNELCLUSTERINGALGORITHMBASEDONSAMPLE-FEATUREWEIGHT

7、EDABSTRACTClusteringanalysisisakindofthemultivariatestatisticalanalysis,andit’salsoanimportantbranchoftheunsupervisedpatternrecognition.Thepurposeofclusteringismakingthedistancebetweenthesimilarsamplesassmallaspossible,butthedistancebetweensimilarsamplesaslargeaspossible.Witht

8、hecontinuousdevelopmentoffuzzysettheory,thefuzzyclusteringana

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。