资源描述:
《分布式环境下的数据挖掘算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、随养网络技术的发展和计算机使用的H益广泛,电子化数据越来越多,人们汗•面临“数拯丰富而知识贫乏”的问题。数据挖掘技术为解决此问题开辟了一条道路,并越来越受到人们的重视。但随着数据集规模越来越庞大,且多为分布存储,单台计算机的资源对于挖掘大规模数据集越来越无能为力,所以在分布式环境下进行数拯挖掘算法的研究显得尤为重要。ZS对分布式算法的研究主要有两个途径,一个是改造现有的串行算法,使之适应分布式并行坏境:另一个则是设计全新的分布式并行算法。由于前一种方法容易进行工作衔接,而且能够充分利用已有的集中式环境下的研究成果
2、,所以被广泛釆用。我们提出了一个分布式聚类算法G-DBSCANoG-DBSCAN算法主要是在经典的基于密度的DBSCAN算法的基础上进行改进的,并结合了空间矩形覆盖算法GMDL。在各个局部节点,G-DBSCAN算法用DBSCAN算法产生局部模型,并使用GMDL算法对局部模型进行近似处理,以减少传输到中央节点的数堀量。中央节点根拯局部节点提交的局部模型,使用空间分格以及我们改进的R-DBSCAN算法得到全局模型,并使用GMDL算法对模型描述进行简化。最后将全局模型发送到各个局部节点以更新局部模型。另外,利用G-DB
3、SCAN算法,我们还开发了一个网格环境下的分布式聚类挖掘系统——GC系统,并使用GC系统对G-DBSCAN算法进行了评估。关键词:分布式,网格,聚类挖掘,基于密度分类号:TP311TheResearchandImplementationofDataMiningAlgorithmsinaDistributedEnvironmentAbstractWiththedevelopmentofnetworktechnologyandthewideusageofcomputers,therearemoreandmoreele
4、ctronicdata,andpeoplearenowfacingtheproblemof“richdataandpoorknowledge二Data-miningtechnologyblazesawayinthisproblemandisthoughtmoreandmoreimportantbypeople.Butnowdatasetsarebecominglargerandlargerinscale,andmostofthemaredistributed,theresourceofasinglecompute
5、rcandoalmostnothingintheminingofsuchlargedatasets.Soitisimportanttodosomeresearchofthedata-miningalgorithmsindistributedenvironment.Therearetwowaysintheresearchofdistributedalgorithms.Oneistoimproveaserialalgorithmsothatitcanbeusedinthedistributedenvironment,
6、andtheoneistodesignawholenewdistributedparallelalgorithm.Theformeronecanfullyreusedtheresearchresultsincentralizedmining,soitiswidelyused.Weproposeanewdistributedclusteringalgorithm,G-DBSCAN・G-DBSCANisbasedontheclassicaldensity-basedalgorithmDBSCAN,andcombine
7、swiththeregion-coveringalgorithm,GMDLalgorithm・Ineachlocalnode,DBSCANalgorithmisusedtogeneratealocalmodel,andthenGMDLalgorithmisappliedtogetanapproximatemodel,sothatthedatasizetransfenedtothecentralnodecanbereduced.Basedonalllocalrepresentatives,thecentralnod
8、egeneratedtheglobalmodelFinallytheglobalmodelissendtoeachlocalnodetoupdatetheirdatainformation.AndbyusingG-DBSCANalgoritlmi,wedevelopadistributedclusteringsystem,GC,inGridenvironment.Andw