基于商空间粒度的覆盖聚类算法

基于商空间粒度的覆盖聚类算法

ID:34571688

大小:1.80 MB

页数:75页

时间:2019-03-08

基于商空间粒度的覆盖聚类算法_第1页
基于商空间粒度的覆盖聚类算法_第2页
基于商空间粒度的覆盖聚类算法_第3页
基于商空间粒度的覆盖聚类算法_第4页
基于商空间粒度的覆盖聚类算法_第5页
资源描述:

《基于商空间粒度的覆盖聚类算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、安徽大学硕士学位论文基于商空间粒度的覆盖聚类算法姓名:严莉莉申请学位级别:硕士专业:计算机应用技术指导教师:张燕平20070401摘要随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效、方便地实现数据的录入、查询、统计等功能,但是无法发现数据中存在的各种关系和规则,更无法根据现有的数据预测未来的发展趋势。而数据聚类分析正是解决这一问题的有效途径,它是数据挖掘的重要组成部分,用于发现在数据库中未知的对象类,为数

2、据挖掘提供有力的支持,它是近年来广为研究的问题之一。聚类分析技术就是将数据区分为自然的群体,并给出每个群体特征描述的一种数据挖掘方法。但是传统的聚类算法对高维大规模数据的处理效率不高,我们研究的工作是希望对大规模,高维的数据库找到一种高效的聚类方法,张铃教授提出的交叉覆盖算法可以有效地处理大规模数据的聚类问题,因此我们提出基于覆盖算法的聚类。同时我们注意到可以用粒度描述聚类的粗细,因此本文在聚类中引入粒度的概念.本文首先从基本概念出发,阐明了数据挖掘技术及其中的聚类分析技术的主要概念和主要内容,之后对聚类分析算法的相关部分(如聚类分析中的数据表示、距离度量和常用算法)

3、进行了深入的分析和讨论。接着介绍了覆盖算法的基本思想,给出了商空间粒度的基本原理,提出了基于商空间粒度的覆盖聚类算法,并通过实验验证了该算法的有效性和可行性,适合处理高维大规模的数据样本。进而,针对文本聚类中由于缺少类信息从而很难直接应用有监督的特征选择方法这样的局限,提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验证明了算法的可行性。论文所做的工作如下:(1)提出了一种可以有效处理大规模高维数据的覆盖聚类算法,此方法在研究传统的聚类算法基础上,扩展了在数据分类上得到良好应用的交叉覆盖算法,基于

4、商空间粒度的覆盖聚类算法提出了改进的覆盖聚类算法,使其能够处理数据的自动聚类问题。(2)引入了粒度的概念,选择不同粒度计算时,可以直观地从不同角度理解样本类内和类间的物理意义,对问题有实际的指导意义。(3)文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,本文提出了一种基于类信息的特征选择算法,很好的利用了无监督学习方法中的信息增益特征选择法。本文在粒度聚类方面完成了一定的工作,但还存在一些不足,今后可以在以下方面继续研究:(1)算法的有效性(2)算法的伸缩性(3)算法的系统交互性关键词:聚类分析;覆盖算法;商空间;粒度IIAbstrac

5、tAbstractWiththerapiddevelopmentoftheinformationtechnology,thedatabaseapplicationhasbeenenlargingintermofdimension,areaanddepth,andthiswillleadtotheaccumulationofalargenumberofdata,behindwhichmuchimportantinformationishidden.Higherlevelanalysishasbeenexpected,sothatthesedatacanbebeRerus

6、ed.Thecurrentdatasystemcaneffectivelyandconvenientlyrealizemanyfunctionssuchasinput,query,statisticere,butvariousrelationsandrulesbetweendatacannotbeexplored,letalonethefuturetrendforecastofthecurrentdata.DataClusteringAnalysis(DCA)isoneeffectivewaytosolvethisproblem,anditisalsooneimpor

7、tantpartofDataMining.TheclassofunknownobjectCanbediscoveredbymeansofDCA,whichprovidedpowerfulsupporttoDataMining,andithasbeenwidelyresearchedinrecentyears.InDataClusteringAnalysistechnology,thedatahasbeendividedintonaturalcolony,andeachcolonycharacteristicdescribesoneDataMining

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。