分布式环境下的数据挖掘算法的研究与实现

分布式环境下的数据挖掘算法的研究与实现

ID:43748544

大小:1.27 MB

页数:119页

时间:2019-10-13

分布式环境下的数据挖掘算法的研究与实现_第1页
分布式环境下的数据挖掘算法的研究与实现_第2页
分布式环境下的数据挖掘算法的研究与实现_第3页
分布式环境下的数据挖掘算法的研究与实现_第4页
分布式环境下的数据挖掘算法的研究与实现_第5页
资源描述:

《分布式环境下的数据挖掘算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、随养网络技术的发展和计算机使用的H益广泛,电子化数据越来越多,人们汗•面临“数拯丰富而知识贫乏”的问题。数据挖掘技术为解决此问题开辟了一条道路,并越来越受到人们的重视。但随着数据集规模越来越庞大,且多为分布存储,单台计算机的资源对于挖掘大规模数据集越来越无能为力,所以在分布式环境下进行数拯挖掘算法的研究显得尤为重要。ZS对分布式算法的研究主要有两个途径,一个是改造现有的串行算法,使之适应分布式并行坏境:另一个则是设计全新的分布式并行算法。由于前一种方法容易进行工作衔接,而且能够充分利用已有的集中式环境下的研究成果

2、,所以被广泛釆用。我们提出了一个分布式聚类算法G-DBSCANoG-DBSCAN算法主要是在经典的基于密度的DBSCAN算法的基础上进行改进的,并结合了空间矩形覆盖算法GMDL。在各个局部节点,G-DBSCAN算法用DBSCAN算法产生局部模型,并使用GMDL算法对局部模型进行近似处理,以减少传输到中央节点的数堀量。中央节点根拯局部节点提交的局部模型,使用空间分格以及我们改进的R-DBSCAN算法得到全局模型,并使用GMDL算法对模型描述进行简化。最后将全局模型发送到各个局部节点以更新局部模型。另外,利用G-DB

3、SCAN算法,我们还开发了一个网格环境下的分布式聚类挖掘系统——GC系统,并使用GC系统对G-DBSCAN算法进行了评估。关键词:分布式,网格,聚类挖掘,基于密度分类号:TP311TheResearchandImplementationofDataMiningAlgorithmsinaDistributedEnvironmentAbstractWiththedevelopmentofnetworktechnologyandthewideusageofcomputers,therearemoreandmoreele

4、ctronicdata,andpeoplearenowfacingtheproblemof“richdataandpoorknowledge二Data-miningtechnologyblazesawayinthisproblemandisthoughtmoreandmoreimportantbypeople.Butnowdatasetsarebecominglargerandlargerinscale,andmostofthemaredistributed,theresourceofasinglecompute

5、rcandoalmostnothingintheminingofsuchlargedatasets.Soitisimportanttodosomeresearchofthedata-miningalgorithmsindistributedenvironment.Therearetwowaysintheresearchofdistributedalgorithms.Oneistoimproveaserialalgorithmsothatitcanbeusedinthedistributedenvironment,

6、andtheoneistodesignawholenewdistributedparallelalgorithm.Theformeronecanfullyreusedtheresearchresultsincentralizedmining,soitiswidelyused.Weproposeanewdistributedclusteringalgorithm,G-DBSCAN・G-DBSCANisbasedontheclassicaldensity-basedalgorithmDBSCAN,andcombine

7、swiththeregion-coveringalgorithm,GMDLalgorithm・Ineachlocalnode,DBSCANalgorithmisusedtogeneratealocalmodel,andthenGMDLalgorithmisappliedtogetanapproximatemodel,sothatthedatasizetransfenedtothecentralnodecanbereduced.Basedonalllocalrepresentatives,thecentralnod

8、egeneratedtheglobalmodelFinallytheglobalmodelissendtoeachlocalnodetoupdatetheirdatainformation.AndbyusingG-DBSCANalgoritlmi,wedevelopadistributedclusteringsystem,GC,inGridenvironment.Andw

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。