欢迎来到天天文库
浏览记录
ID:5339399
大小:231.86 KB
页数:3页
时间:2017-12-08
《云计算及其在数据挖掘上的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、fSSN1009—3044E-maihxsjl@cecc.net.C13ComputerKnowledgeandTechnology电脑知识与技术http://www.dnzs.net.enVo1.6,No.22,August2010,PP.6272—6274Te1:+86—551-56909635690964云计算及其在数据挖掘上的应用研究蔡兴旺.段梦博(兰州交通大学电信学院,甘肃兰州730070)摘要:云计算是一种新兴的共享基础架构的方法,它以公开的标准和服务为基础,以互联网为中心,提供安全、快速、便
2、捷的数据存储和网络计算服务。该种计算由统一的计算机群完成,相比网格计算效率更高,动态处理能力更强。将云计算应用到数据挖掘中,可以为越来越多的海量Web数据挖掘提供解决方案关键词:云计算;数据挖掘:Web数据挖掘中图分类号:TP311文献标识码:A文章编号:1009—3044(2010)22—6272—03云计算技术的出现是并行计算技术、软件技术、网络技术发展的必然结果。云计算在商业和科研领域的应用价值得到了包括IBM、Google等公司的重视,其未来将像工业革命一样引领着社会的发展。目前,云计算的研究与应
3、用尚处于初级阶段,云计算实现商业价值指日可待,云计算的特点是使数据存储及应用商业化,Web数据挖掘是一个应用价值大理论性很强的研究领域,本文基于云计算框架下对Web数据挖掘算法进行了讨论和研究。l云计算的定义到目前为止,学者们对云计算的定义多种多样,定义主要包括如下几种。1)维基百科对云计算如此定义:云计算lll是以服务方式提供给用户IT相关的能力,而用户不需要了解提供服务的技术、相关知识以及设备操作能力,用户通过Internet接受请求的服务。2)中国云计算网的云计算定义是:云计算是分布式计算、并行计算
4、和网格计算的发展,也可定义为分布式计算、并行计算和网格计算这些科学概念的商业实现。3)文献[2】在概括了多个云计算的定义后,将云计算定义如下:云计算是一个具有大量可用的虚拟资源(例如开发平台、硬件以及I/O服务)的资源池。根据不同的负载这些虚拟资源可以动态地重新配置,从而以提高资源利用率。云计算技术具有以下特点:1)云计算系统的服务性。云计算服务的实现机制一般对用户透明,用户要获得需要的服务,是不需要了解云计算的具体机制的,即服务对用户透明。2)云计算采用冗余方式提高可靠性。云计算系统提供数据处理服务给用
5、户,大量商用计算机集群组成云计算系统。如果PC数量不断地增加,系统出现错误甚至崩溃的概率就会会不断增大。在没有专用的可靠性硬件支持的情况下,采用软件的方式保证数据的可靠性,就必须使用数据冗余和分布式存储方式。3)可用性高。自动检测技术是云计算系统的一大特点,可以检测失效节点,也可以排除失效节点,系统的正常运行并不受此影响。云计算系统服务质量的提高,主要是通过集成海量存储和高性能的计算能力来实现的。4)高层次的编程模型。通过简单学习后,用户就可以编写自己的云计算程序,在“云”系统上执行,使用户的需求得到满足
6、。现在云计算系统主要采用Map—Reduce模型。51经济性。高性能的超级计算机的价格是很昂贵的,而组建一个和超级计算机性能相同大量商业机集群所需要的花销要比超级计算机少得多。6)服务多样性。云系统能够提供给用户各式各样的服务,只要支付很少的费用,用户就可以获得不同的服务。2云计算的关键技术云计算是一种数据密集型的,以数据为中心的超级计算。在数据存储、数据管理、编程模式等多方面具有自身独特的技术特点。本章介绍云计算主要的技术,包括数据存储技术,虚拟化技术,数据管理技术,编程模式等。2.1海量分布式存储技术
7、云计算存储数据是采用分布式存储方式实现的。这就可以保证高可靠性、高可用性和经济性,数据存储的高可靠性是采用冗余存储的方式来保证的,用可靠的软件来弥补硬件的不足,从而提供廉价可靠的海量分布式存储服务和计算服务。另外,数据存储技术必须具有高吞吐率和高传输率的特点.这样云计算系统就可同时满足大量用户的需求,才能为大量用户并行地提供服务。云计算的数据存储系统最著名的是谷歌研发的非开源系统GFS(GoogleFileSystem)和Hadoop开发团队开发的开源系统HDFS(HadoopDistributedFil
8、eSystem)。以GFS为例。GFS是可扩展的分布式文件系统,能够管理大型分布式数据密集型汁算。GFS向用户提供大量的高性能服务,系统是使用廉价的商用硬件搭建起来的。收稿日期:2010-06一】76272婚瓮⋯一本栏目责任编辑:谢媛媛第6卷第22期(2010年8月)Compu~rKnowledgeandTechnology电脑知识与技术客户端为避免大量读操作使Master成为系统瓶颈,所以不通过Master读取数据。客户端直
此文档下载收益归作者所有