基于网格方法的数据流聚类算法研究

基于网格方法的数据流聚类算法研究

ID:14586244

大小:135.50 KB

页数:101页

时间:2018-07-29

基于网格方法的数据流聚类算法研究_第1页
基于网格方法的数据流聚类算法研究_第2页
基于网格方法的数据流聚类算法研究_第3页
基于网格方法的数据流聚类算法研究_第4页
基于网格方法的数据流聚类算法研究_第5页
资源描述:

《基于网格方法的数据流聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于网格方法的数据流聚类算法研究学位论文独创性说明本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外,论文中不包含其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。学位论文作者签名:日期:学位论文知识产权声明书本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安科技大学。学校有权保留并

2、向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西安科技大学。保密论文待解密后适用本声明。学位论文作者签名:指导教师签名:年月日论文题目:基于网格方法的数据流聚类算法研究专业:计算机应用技术硕士生:王海东签名指导教师:杨君锐签名摘要数据流聚类是从大量的、有噪声的、模糊的、随机的流数据中发现不相连的、具有相似属性的簇,并使簇中数据的相

3、似性尽可能高,不同簇中的数据的相似性尽可能低,它是数据挖掘领域的一个重要研究方向。在现有的数据流聚类算法中,基于网格方法的聚类算法具有较高的数据压缩比和较低的时间复杂度的特点,这使其在数据流聚类中有着较好的表现。但与此同时,网格方法也有其不足,主要是容易丢失簇边缘网格中的数据点,而这将导致网格聚类的正确率降低。另外,针对高维数据空间如何进行有效的聚类也是一个值得关注的问题,在高维数据空间中,数据点之间的距离趋近于相等,这给以数据点之间的距离作为数据相似性评价标准的聚类算法带来了挑战。为此,本文的主要研究内容和成果如下。首先,针对网格数据流

4、聚类中簇边缘网格数据点丢失的问题,提出了基于可变密度阈值的网格数据流聚类算法VDTS。在传统的网格数据流聚类算法中,使用均匀划分网格并采用固定的密度阈值,而在VDTS算法中,采用不均匀划分的网格和可变的密度阈值,从而使簇中心部分的网格容易合并,形成较大的网格,簇边缘部分的网格不容易合并,保持较小的网格。VDTS算法既保留了网格数据流聚类算法的高数据压缩比又解决了簇边缘网格数据点丢失的问题。其次,针对高维数据流聚类困难的问题,提出了高维数据流网格聚类算法HVDTS。在高维数据流的聚类中,通常的方法是对高维空间进行降维,其中一个关键的问题是如

5、何降维,即如何选择那些对聚类影响较大的维并删除那些对聚类的结果影响较小的维。本文提出了一种维选择算法,通过比较数据点在每一维上的投影的平方误差和来判断该维对聚类结果影响的大小。经过维选择算法处理后,数据空间的维数降低到一个可以接受的范围,然后对降维后的数据集进行聚类,最终获得聚类结果。关键词:数据挖掘;数据流;聚类;密度;高维研究类型:理论研究Subject:TheResearchontheAlgorithmsofGrid-basedDataStreamClusteringSpecialty:ComputerApplicationTech

6、nologyName:WanghaidongSignatureInstructor:YangJunruiSignatureABSTRACTDatastreamclusteringisaveryimportantproblemindatamining.Thepurposeofdatastreamclusteringisfindingclustersinalarge,noisy,fuzzyandrandomdatastreamandmakessurethatthesimilarityofthedatainthesameclusterisash

7、ighaspossibleandinthedifferentclustersisaslowaspossible.Thegrid-baseddatastreamclusteringofthepresentclusteringmethodshasagoodperformanceinallclusteringalgorithmsbecauseofitshighdatacompressionratioandlowtimecomplexity.Butthegrid-baseddatastreamclusteringhasitsownflawthat

8、itiseasytolosedatapointsontheedgegrids.Thisshortcomingreducesthecorrectnessofgridclustering.Clus

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。