处理海量数据的聚类算法关键技术研究

处理海量数据的聚类算法关键技术研究

ID:36787693

大小:1.91 MB

页数:54页

时间:2019-05-15

处理海量数据的聚类算法关键技术研究_第1页
处理海量数据的聚类算法关键技术研究_第2页
处理海量数据的聚类算法关键技术研究_第3页
处理海量数据的聚类算法关键技术研究_第4页
处理海量数据的聚类算法关键技术研究_第5页
资源描述:

《处理海量数据的聚类算法关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、处理海量数据的聚类算法关键技术研究抗要/摘要}/数据挖掘是从大规模的数据库中抽取非平凡的、隐含的、未知的、有潜在使一用价值的信息的过程。数据挖掘的快速增长和商业数据库的空前增长速度是分不开的,它是支持企业决策,处理大量信息的关键步骤之一。聚类分析是数据挖掘.一,中的一项重要技术,它用来发现数据分布和模式。聚类分析是一个无示教的学习过程。聚类分析在空间数据处理、卫星照片分析、医疗图像自动检测等领域有着广泛的应用。本文的贡献主要分为以下几个方面少’7<7≥;:,},,’‘、1)针对大多数聚类算法只根据一个固定的原则来识别簇,因而往往只能处理某种特定的数据集合,

2、而对其它数据集合的处理则效果不佳的缺点,提出了综合考虑距离和密度进行相似性判定的Hybrid聚类算法。由于考虑了多种尺度,算法能够准确地识别各种形状的簇。另外,算法利用定义的小方格和密度参数可以自动消除噪声,识别离群点。此外,通过取样和小方格索引技术,Hybrid比之传统的聚合聚类算法,在保持聚类质量的同时大大节省了聚类的时间,具有良好的伸缩性。2)现有的聚类研究侧重于提高聚类分析的效果和性能,但是这些聚类算法多数都需要指定一些参数,作为聚类分析过程结束的依据。;聚类结果往往和这些参数的设定密切相关。而对用户来说,很难在分析数据之前就为各种聚类方法确定合适

3、的参数。另外,真实数据本身分布复杂,往往构成不同粒度的簇。对于不同的应用、不同的查询,用户所需要的簇的粒度各不相同。针对这些应用中的需求,文章提出了姒CT算法,算法利用了MDL原理,不需要用户输入聚类终止条件,可以进行自动聚类,并且聚类的结果是一棵反映t簇结构以及不同粒度的簇的一棵聚类树,方便用户对聚类结果进行管理和使用。p3)聚类分析要处理的对象通常是数据库中的数据,因此算法必须能够高效地处理存在于数据库系统或者数据仓库中的数据;为了使聚类算法具有可伸缩性和实用性,文章进一步提出了SAcT算法,SACT算法在MACT的基础上,通过分区一对每个分区构造聚类

4、树一合并聚类树的方法突破内存的限制,在保持聚类质量的同时,提高了算法的可伸缩性。关键词:数据论掘桑类勇涣树M蔬些堡塑墨塑塑塑墨耋竺堡鲞壁垫查里窒一——————————————!!墨AbstractDataminingistheprocessofextractingpreviouslyunknown,hidden,validandactionableinformationfromlargedatabases.Itisthekeystepofdecisionsupportandlarge—scaleinformationprocessing.Clusterin

5、gisanimportantdata—miningtechniqueusedtofinddatasegmentationandpatteminformation.Clusteringtechniqueiswidelyusedinapplicationsoffinancialdataclassification,spatialdataprocessing,satellitephotoanalysis,andmedicalfigureauto-detectionetc.ThecontributionofthisthesisiSasfollows:1.Mosto

6、fcurrentclusteringalgorithmsidentifyclustersbyonecertaincriterion.Sotheymayhavegoodclusteringresultonthedatasetwiththecertaincharacter,whileCan’tdealwithotherdatasetswell.Tosolvethisproblem,thethesisputsforwardthealgorithm-Hybrid,whichcombinesbothdistanceanddensitystrategies.ItCan

7、handleanyarbitraryshapedclusterseffectively,eliminatenoisesandidentifyoutlierseasily.Itmakesfulluseofsamplingandcelltoreducethedatavolume.Furthermore,statisticsinformationusedinminingalsoreducesthetimecomplexitygreatly.2.Mostalgorithmsarefocusedonthequalityandperformanceofclusteri

8、ng.Butthesealgorithmsoftenneedsom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。