基于云计算数据挖掘系统架构探究

基于云计算数据挖掘系统架构探究

ID:46420896

大小:70.50 KB

页数:9页

时间:2019-11-23

基于云计算数据挖掘系统架构探究_第1页
基于云计算数据挖掘系统架构探究_第2页
基于云计算数据挖掘系统架构探究_第3页
基于云计算数据挖掘系统架构探究_第4页
基于云计算数据挖掘系统架构探究_第5页
资源描述:

《基于云计算数据挖掘系统架构探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于云计算数据挖掘系统架构探究【摘要】分析当前数据挖掘遇到的问题以及云计算的优势,构建了基于云计算的数据挖掘系统架构,并对其中的模块进行了描述。该框架有利于解决当前数据挖掘遇到的数据复杂程度高,数据量大等问题,能够显著提髙数据挖掘的性能,高可信的基于云计算的数据挖掘系统和服务是未来的一个参考方向。【关键词】云计算;数据挖掘;系统架构1.引言云计算的概念可以追溯到上个世纪Sun和Oracle提出的“网络就是计算机”。Google公司第一个把云计算作为一个概念正式提出一一云计算就是把软件放在远程的服务器上,就像天边的云,在

2、上网时才把它拿来用,平常就放在云上,有专人帮你管理[1]。要对云计算做出一个确切的定义还很困难,目前只是达成了关于云计算基本特征的共识:第一,云计算是基于互联网的,是以浏览器为基础的;第二,数据存储和应用在都在云端,对用户透明,通常由第三方提供;第三,云计算强调服务,用户按需使用服务,根据使用多少付费[2][3]。数据挖掘,也称知识发现,是指通过对大量数据进行处理分析,从中发现有用的规律和知识,从而加深对数据的理解,最终为决策提供服务的过程。对数据挖掘系统架构的研究,国内外主要基于数据库系统展开,提出了一系列基于数据库

3、系统的数据挖掘系统结构框架。主要有以下几个部分:控制器、数据库接口、知识库、模式提取、知识评价。这些理论丰富了对数据文件系统架构的研究,推动了数据挖掘工作的开展。但在实际操作中普遍存在数据共享性差、扩展性低等问题[4]。本文在对云计算及数据挖掘系统原理分析的基础上,提出了一种适应云计算的数据挖掘系统架构。一方面顺应了当前云计算发展的趋势,另一方面也能够在一定程度上解决数据挖掘在实际操作中遇到的问题。1.研究背景随着计算机技术、计算机网络特别是网格计算与云计算的发展,越来越多的数据分布式的存储在网络中,这些数据往往是大量

4、的、复杂的、异构的、有噪声的,不容易被直接理解,其中蕴含的知识也是很难被发现的[5]。这就给数据挖掘系统的实现带来了三大难题:第一,这些数据的复杂程度很高,传统系统的技术能力难以达到要求;第二,传统的单机服务器所能提供的资源有限,很难满足要求,要借助分布式计算技术来实现计算;第三,常用算法不足,需要研究各种数据挖掘算法的并行化策略。虚拟化是一个广义的术语,在计算机方面通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,把一个物理单元虚拟成多个逻辑单元,允许一个平台同时运行多个操作系统,一

5、个物理单元可以运行多个应用。这样,有利于资源使用效率的提高,同时也使各种资源的管理更加方便。在NIST(NationalInstituteofStandardsandTechnology,美国国家标准技术研究院)的一篇关于云计算概念的著名文档中,共定义了云的4种模式,它们分别是:公有云、私有云、混合云和行业云。云计算的目标是整合资源为客户服务,系统资源具备高性能的处理能力成为了必然要求[6][7]。云计算能够提供动态资源池、虚拟化和高可用性的计算平台,可被用来开发高性能应用程序。对数据挖掘来说一方面大大降低了中小企业的

6、数据处理成本,大企业某些数据的处理也不再依赖于大型高性能机。另一方面开发方便,屏蔽掉了底层,使得大规模处理数据能力提高,提高了数据处理效率⑻。为了解决上述问题,人们提出了知识网格的概念,设计了一种分布式并行知识发现平台框架,框架充分利用了网格的计算能力,解决了传统数据挖掘框架计算能力不足的问题。但网格计算缺少商业化实现,并且需要用户通过编程来搭建底层架构,为系统的实现增加了难度。云计算是网格计算的升级,在近几年被提出,他具有超大规模、虚拟化、高伸缩性、高可靠性、通用性强、高扩展性、按需服务、易于使用等特点,可被用来搭建

7、数据挖掘系统解决上述问题[9]。1.基于云计算的数据挖掘系统架构3.1云计算平台目前典型的云计算平台主要有Google的云计算平台,亚马逊的AmazonWebServices云计算平台,微软的WindowsAzure云计算服务平台,IBM的蓝云计算平台等。一般情况下云计算平台被解释为如下的架构[10],图1所示。最下的一层是IaaS,提供CPU,网络,存储等基础硬件的云服务。在这一层,主要提供给用户云存储服务。再上一层是PaaS,提供类似于操作系统层次的服务与管理,比如GoogleGAE,你可以把自己写的Java应用(

8、或者是Python)丢在Google的GAE里运行,GAE就像一个“云”操作系统,对你而言,不用关心你的程序在那台机器上运行。最后一层是SaaS,就是我们所熟悉的软件即服务。SaaS强调按需使用付费。云计算抽象了计算与存储资源并动态的分配给需要使用的用户,具有高伸缩性、高可靠性、底层透明性和友好的监控及维修接口。如图2,在“云”上

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。