基于网格的分布式数据挖掘体系结构的-研究

基于网格的分布式数据挖掘体系结构的-研究

ID:33379061

大小:6.36 MB

页数:61页

时间:2019-02-25

基于网格的分布式数据挖掘体系结构的-研究_第1页
基于网格的分布式数据挖掘体系结构的-研究_第2页
基于网格的分布式数据挖掘体系结构的-研究_第3页
基于网格的分布式数据挖掘体系结构的-研究_第4页
基于网格的分布式数据挖掘体系结构的-研究_第5页
资源描述:

《基于网格的分布式数据挖掘体系结构的-研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆大学硕士学位论文1绪论1绪论1.1论文的研究背景在电气工程学科的某些研究领域中,存在需要通过分析、处理大量数据从而得到结论的一些问题,例如,电力系统负荷预测、电力设备远程在线监测、电力市场运营系统中的实时报价系统、潮流分析系统等等。而对于上述这类数据分析处理方面的问题的解决,采用数据挖掘的方法应当是一种有效的方法,它也是当前一个主要的研究方向。例如,文献[1]采用数据挖掘的方法通过分析历史负荷数据来进行电力系统负荷预测;文献[2]采用数据挖掘的方法通过对电力设备各个参数的实时数据之间的关联关系分析来判断电力设备的实时状态;文献[3]采用数据挖掘的方法通过分析历史报

2、价来计算实时上网电价。数据挖掘(DataMining,简称DM)作为20世纪末刚刚兴起的数据智能分析技术,由于其具有的广阔应用前景而备受关注。作为数据库与数据仓库研究与应用中的一个新兴的富有前途的领域,数据挖掘也常被称为数据库知识发现(KnowledgeDiscoveryfromDatabase,简称KDD),它可以从数据库中自动抽取或发现出有用的[4]模式知识。知识发现(KDD)源于人工智能和机器学习,知识发现用一种简洁的[5]方式从数据库中抽取信息,这些信息是隐含的、未知的、并且是潜在有用的。知识发现可看成是一种数据搜寻过程,它不同于传统的数据处理过程,它不必预先

3、假设或提出问题,但仍能找到那些非预期的令人关注的信息,这些信息表示了数据元素的关系和模式。分布式数据挖掘(DistributedDataMining)就是使用分布式计算技术,从分布[6]式数据库中发现知识的过程。在现实应用环境中,绝大部分的大型数据库都是以分布式的形式存在的,因此分布式数据挖掘是数据挖掘的一个主要研究方向,而对分布式数据挖掘的研究主要包括两个方面:分布式数据挖掘体系结构和分布式数据挖掘算法。体系结构是基础,算法是灵魂。早期的分布式数据挖掘系统将分布式存储的数据重新集中构成一个临时的数据仓库或者是数据集市,再由集中式的挖掘算法对其进行挖掘。这种方式会造成

4、数据的安全性、保密性方面的问题,也给网络通信带宽提出了很高的要求。同时,在现实应用环境中,把大规模的分布式数据移动到一个集中式的平台上,是非常困难的。同时,这样的挖掘方式本质上还是属于集中式的挖掘。因此,目前在为了实现真正意义上的分布式数据挖掘方面已经进行了不少的研究,取得了一定的成果。比如文献[7]中提出的JAM系统,它采用从局部学习构成全局元学习环境的方式;文献[8]中提出的Kensington数据挖掘基础架构,它是基于1重庆大学硕士学位论文1绪论CORBA来进行远程通信和访问的;文献[9]中提出的BODHI系统是一个基于Agent的系统。它们都较为圆满地解决了集

5、中式挖掘所带来的各种问题。然而,这些分布式数据挖掘系统或多或少仍然存在以下这些缺陷:1、在各个分布的局部数据集上应用局部挖掘算法生成各个局部模型的过程中,各个分布的局部数据集之间缺乏联系,这将会影响最后由各个局部模型生成的全局模型的准确性。2、系统大多是紧耦合的,因此在系统中加入新的算法是非常困难的。3、无法根据用户的要求动态地发现合适的算法和数据集。上述缺陷是由于现有成熟的分布式计算技术的局限性所造成的,因此,本文旨在研究如何利用网格计算这一最新的分布式计算技术来处理分布式数据挖掘的问题,提高数据挖掘的效率,加强数据分析、处理能力,从而能够对电气工程学科内某些研究领

6、域内的问题的解决有所帮助。1.2问题的提出一种新技术的出现,意味着某些在以往技术条件下难以解决甚至无法解决的问题或许可以借助新技术得以解决。例如,计算机发明以后,因为庞大的计算量需求而无法解决的科学或工程问题迎刃而解;网络发明以后,科学或工程上的分工协作变得更加广泛,因为通过网络传递信息和分享资源是再简单不过的事情。然而,利用新技术解决旧问题也不可能一帆风顺,毫无阻碍。在一个新的环境下,旧问题也会出现新的难点,面临新的挑战。比如,利用计算机求解多元方程组,就需要针对计算机的特点修改求解算法,而不能直接套用手工计算所使用的算法。那么对于网格计算这种全新的计算模式而言,如

7、果将它应用在数据挖掘领域,构建分布式数据挖掘体系结构,提高数据挖掘的性能,也将需要解决许多挑战性的问题:1、网格计算体系结构以及网格中间件的混乱:目前有几种主流的网格计算体系结构,以及十几种网格中间件。不同的网格计算体系结构适用于不同类型的应用,没有一种体系结构适用于所有的应用,这就需要对各个体系结构进行比较分析,从而选出一种适合于进行分布式数据挖掘的体系结构。2、网格中间件的不成熟:网格中间件对于网格就如同操作系统对于计算机,对于网格应用就如同操作系统对于应用软件,可以说网格中间件是网格应用在网格上运行的平台,也可以说网格中间件就是网格操作系统。然

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。