欢迎来到天天文库
浏览记录
ID:33165593
大小:2.34 MB
页数:78页
时间:2019-02-21
《基于代理的分布式数据挖掘系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学硬士学位论文基于代理的分布式数据挖掘系统研究摘要f数据挖掘是数据库研究、开发和应用最活跃的分支之一。数据的\爆炸性增长和知识贫乏的矛盾导致了数据挖掘的出现和蓬勃发展,这项技术用于从大量的数据中采掘隐含的、有价值的知识和规则,为经营决策、市场策划、金融预测等方面提供依据。对于数据挖掘应用来说,目前就存在下面三个挑战:·数据量很大,不能一次载入内存。·数据的安全性和隐私性。很多时候客户只愿意提供从数据中学习的结果而不是数据本身的细节。·数据是分布式存放的。/∥本论文就是针对这三个挑战而展开研究的√分布式数据挖掘的研/究尚
2、处于起步阶段,许多问题还有待于解决。其中最重要的两个问题是分布式数据挖掘系统的体系结构和挖掘算法。本论文在这两个方面进行了一些有意义的探索:先提出了一种基于代理的分布式数据挖掘系统DDMSBA,用来实现大容量的数据在分布式存放情况下的数据挖掘。因为该系统只传送数据挖掘的中间结果,所以大大减少了网络的数据传输量,并加强了数据的安全性和保密性。同时由于该系统采用了CORBA作为分布式软件上海交迸大学硕士学位论文引擎,使得整个系统不依赖于编程语言、计算平台、网络协议。采用了智能代理作为用户接口和数据挖掘接口,使得系统具有一定的智能性。
3、然后在这个原型系统的基础上,对分布式数据挖掘算法提出了一些新的思想和好的实现方法。(在本论文中,主要考虑关联规则挖掘算法,从两个不同的角度改进了关联规则挖掘算法,使它们能够适应分布式或并行数据挖掘:(a)由规则到规则:先由各个独立的站点生成各自的关联规则,再在这些关联规则的基础上生成总的关联规则;(b)由数据到规则:由各个独立的站点交换各自的中间结果来生成总的关联规则。并对这两种不同的算法进行了比较,得出各自的优缺点,使用户能够选择在特定条件下的最优方法。最后,本论文给出了结论,并概述了今后进一步研究的方向。’yz厂⋯群一描勰⋯
4、则II兰垄丝拦型丝丝——SOMERESEARCHESONADISTRlBUTEDDATAMININGSYSTEMBASEDONAGENTSABSTARCTDataminingisoneofthemostactivebranchesindatabaseresearch,developmentandapplications.Thecontradictionbetweenexplosivegrowthofdatavolumnandpoorknowledgeleadstotheemergenceandflourishofdatamini
5、ng.Nowadayesvarioustechniquesareusedtominethehiddenandvaluableknowledgefromlargedatasetsinordertoprovidefoundationformanagementdecision,marketscheme,financepredictionandS00nTherearethreechallengesintheapplicationofdatamining,asfollows●Datacanbetoolargetobeloadedintom
6、emoryatonce●Datacanbeconfidential.Customersarewillingtoprovideonlytheanalysisresultfromthedata,notthedatathemselves●DatacanbedistributedThispaperattemptstodosomeresearchesonthethreechallengesIllTheresearchofdistributeddataminingisjustatitsstartingstage.Manyproblemsne
7、edtobesolved.Amongthem,thesystemarchitectureandalgorithmsofdistributeddataminingarethemostimportant.ThispapermakessomeinterestingexplorationinthesetwoproblemsFirstly,adistributeddataminingsystembasedonagents(DDMSBA)isproposed,whichminesknowledgefromlargeamountsofdist
8、ributeddatasets.Sincethissystemtransfersonlytheintermediateresultoflocaldatamining,itgreatlydecreasesthenetworktrafficandenhancesth
此文档下载收益归作者所有