关于网格的分布式数据挖掘体系结构的研究

关于网格的分布式数据挖掘体系结构的研究

ID:34011133

大小:1.97 MB

页数:62页

时间:2019-03-03

关于网格的分布式数据挖掘体系结构的研究_第1页
关于网格的分布式数据挖掘体系结构的研究_第2页
关于网格的分布式数据挖掘体系结构的研究_第3页
关于网格的分布式数据挖掘体系结构的研究_第4页
关于网格的分布式数据挖掘体系结构的研究_第5页
资源描述:

《关于网格的分布式数据挖掘体系结构的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆大学硕士学位论文1绪论受到挖掘硬件限制。上述缺陷是由于现有成熟的分布式计算技术的局限性所造成的。解决这些缺陷需要寻找一种新型的分布式计算技术,而网格技术正是这种要求的最好选择。网格【9】是在动态变化的、拥有多个部门、或团体的复杂虚拟组织内,能提供灵活的、安全的协同资源共享或问题求解的计算环境。网格突破了计算能力的限制、存储能力的限制、资源分布的限制、资源共享方式的限制,其适用于计算密集型、数据密集型应用。是解决复杂海量、分布数据的访问、存储、组织和管理的一种有效技术。网格技术与分布式数据挖掘相结合,可以将网格技术高效的分布式资源管理能力、良好的系统伸缩能力和超强的计算处理能力应

2、用于数据挖掘中,为数据挖掘提供有力保障。为此,本文提出了一种结合网格技术的分布式数据挖掘解决方案,即将分布式数据挖掘模型应用于网格中间层之上,建立网格分布式数据挖掘中间层,为用户提供分布式数据挖掘平台。1.2国内外研究现状综述1.2.1数据挖掘与分布式数据挖掘技术数据挖掘的产生是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将一些己知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着神经网络技术的形成和发

3、展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。在80年代末提出了一个术语.知识发现,简称KDD(KnowledgeDiscoveryinDatabase)。它泛指所有从数据源中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分

4、析,而用数据挖掘(DataMining)来描述使用挖掘算法进行数据挖掘的子过程。数据挖掘又被称作从数据库中发现知识(KDD),KDD研究在学术界空前繁荣。KDD一词首次出现在1989年举行的第十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会己经召开了十多次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。2重庆大学硕士学位论文1绪论分布式数据挖掘DDM(DistributedDataMining)则是利用分布式技术进行数据挖掘的方法。它包含两层含义:第一,

5、就是使用分布式算法,从逻辑上或物理上分布的数据源中发现知识的过程。这里主要强调数据源的分布性。第二,是指与某个数据挖掘任务相关的用户,数据,挖掘软件以及其他软组件是地理上分散的。这里主要强调的是软组件的分散性。分布式数据挖掘系统是一个发展非常迅速,而且具有广阔应用前景的研究领域。目前在数据挖掘理论研究和数据挖掘应用方面都取得了很大进展。近年来,分布式数据挖掘已经引起各应用领域的足够重视。PADMA系统是HillolKargupta等提出的一个基于Agent的并行/分布式数据挖掘系统。该系统不限定于特定的数据挖掘领域。PADMA系统由如下组件构成:数据挖掘Agent、协调各Agent

6、工作的Facilitator和用户接口。数据挖掘Agent负责读取数据并提取高层次的信息。Agent通过Facilitator并行工作。Facilitator负责协调各Agent工作并提供信息给用户接口,同时接收用户的反馈信息给各个Agent。PADMA系统有一个图形化的基于Web的用户接口用来把各Agent提取的信息展现给用户。Facilitator接收用户接口以标准SQL格式提交的查询,这些查询被广播给各Agent。Agent提取与特定查询相关的信息。Facilitator收集这些信息并将其展现给用户。该系统使用PPFS(ParallelPortableFileSystem)开

7、发,以面向对象的方式用c++语言编码,提供了一个可扩展的架构。使用MPI(MessagePassingInterface)进行底层的消息交换和通信。该系统可以划分为如下三个功能模块:并行数据读取和查询处理模块、收集汇总模块、用户交互和结果展现模块。JAM(JavaAgentsforMeta-leaming)系统是A.L.Prodromidis等设计的一个分布式数据开采系统。在这个系统中提出了使用meta-learning进行分布式数据开采的思想。meta-learni

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。