欢迎来到天天文库
浏览记录
ID:16174722
大小:231.50 KB
页数:8页
时间:2018-08-08
《在hadoop基础上的数据处理系统的构建研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、在Hadoop基础上的数据处理系统的构建研究第1章绪论1.1研究背景和意义随着科技的进步以及互联网技术的不断提高,越来越多的智能设备被人们所使用。而如今物联网、云计算等新兴技术也开始逐步影响着人们的生活,随之而来的就是这些数据载体所导致的数据量增长的问题,比如Facebook每天所要处理的数据量就在500TB左右,如何处理这些海量数据成为了每个公司发展的瓶颈。据统计,截至到2015年全球的数据量将达到8.5ZB,而且将以每18个月翻一番的趋势增长,其中以电子商务交易数据、社交网络数据和移动终端数据为代
2、表的三大主导非结构化数据将占全球数据总量的90%[1]。无疑,大数据的时代已经到来。本文要处理的数据是温度传感器采集的数据,因此在短时间内就会产生大量的数据,而且这些数据是不断增长的,如果采用传统的数据存储模式即使用处理能力很强的大型机和关系型数据库,即将全部数据存储到具有很大容量的磁盘上。虽然近年来磁盘的存储容量不断增加,但是其访问速度却未能与时俱进,比如读取具有1TB数据的磁盘,其速度传输速度为100MB/s,读取完所有数据仍需要1个小时[2]。所以面对这些不断增长的温度数据,即使再大容量的机器也
3、不能从根本上解决大数据的存储问题;而关系型数据库的缺点是只能存储结构化的数据、没有较好的弹性和容错性等,所以传统的处理模式已经不能满足要求了。而云计算的出现给这些问题带来了生机。云计算是并行计算、分布式计算、虚拟化等技术的结合[3]。目前比较流行的云平台有Abiquo公司开发的AbiCloud,它是一款用于公司的开源的云计算平台,使公司能够以快速、简单和可扩展的方式创建和管理大型、复杂的IT基础设施(包括虚拟服务器、网络、应用、存储设备等)[3,4];Enomalism弹性计算平台,它提供了一个功能类
4、似于EC2的云计算框架;Hadoop,是Google云计算平台的一个开源实现,主要包括HDFS文件系统和MapReduce编程模型。本文所设计的数据处理系统采用Hadoop框架,利用集群模式来作为本系统所依赖的底层环境,并且配合HBase共同构建私有云。HBase作为数据库存储采集到的数据,并在此系统上进行MapReduce程序的编写[5,6];使用JavaWeb技术来编写网页管理界面,使用户能够直接通过浏览器来对数据进行统一的管理操作。本文设计的系统能够很好的处理温度数据,同时对于其他大数据场合同样
5、实用,具有很好的实际应用价值。..................................1.2国内外研究现状⑴大数据的发展“大数据”是随着Apache的开源项目Nutch发展而来的。当时Nutch项目主要是用来做网页爬虫和优化搜索引擎的,所以会产生大量的数据集,而大数据就是这些数据集的简称。后来Google在2004年发表了两篇论文:MapReduce和GoogleFileSystem(GFS),从此大数据就不仅用来形容数据的容量了,同时还包括了海量数据的处理速度。早在1980年,著名未来学
6、家阿尔文·托夫勒发表了《第三次浪潮》一书,大数据被第一次提了出来,同时他还将大数据热情地赞颂为“第三次浪潮的华彩乐章”[7]。从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便翻一番,而目前世界上90%以上的数据是最近几年才产生的[7]。从2009年到现在,大数据被越来越多的公司重视,并且开始着手大数据的分析和处理方案的研究,并结合公司自身数据源的特点,开发出合适的数据处理方案。⑵Hadoop的发展2004年,Apache的
7、顶级项目Hadoop由DougCutting等人共同开发出来,是为了解决在Lucene和Nutch等开源项目中遇到的数据处理速度等问题,是Google发表的GFS和MapReduce思想的一种开源实现[8]。2008年2月,雅虎宣布搭建了当时世界上最大规模的Hadoop集群系统,Yahoo!SerchWebmap,并用它来进行雅虎日常的广告统计、日志分析和科研实验;亚马逊的搜索网站A9.com使用Hadoop来生成商品搜索的索引[9];全球最大的网上音乐社区Last.fm在Hadoop上运行着数百种执
8、行各种操作的日常作业,例如日志分析、及时处理和图表生成等;著名社交网站Facebook用320多台机器组成的Hadoop集群构建了整个网站的数据仓库,进行网站的日志分析和数据挖掘等工作[9]。2008年之后,越来越多的国内企业也开始对Hadoop进行研究,其中包括淘宝、一淘、百度、腾讯、中国移动等等。淘宝是国内最先使用Hadoop的公司之一,它的Hadoop系统用于存储并处理海量的电子商务交易数据;百度广泛使用了Hadoop并对其进行调整和改进,主要用于
此文档下载收益归作者所有