欢迎来到天天文库
浏览记录
ID:35939095
大小:414.00 KB
页数:18页
时间:2019-04-26
《hadoop系统架构》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、实用文案一、绪论21世纪的第一个十年里,互联网高速发展,Web的易用性、实用性使它成为最为广泛、最有前途、最有魅力的信息传播技术。作为信息交互的载体,Web的特性催生了多种新兴产业,电子商务、社交网络在最近几年发展尤为迅速。互联网用户也在过去的数年间增长迅速,根据我国互联网络信息中心发布的《第27次中国互联网络发展状况统计报告》显示,截至2010年12月底,我国网民规模达到4.57亿,较2009年底增加7330万人。报告中还显示,网络购物用户年增长48.6%,是用户增长最快的应用。2011年以微博为代表的新型社交网站迅
2、速成长,新浪微博在2011年9月注册用户达到2.75亿,微博用户平均每天发布的微博数达到8600万条。无论是电子商务网站中的产品图片展示,还是社交网站中的图片分享,其图片数量都在呈现几何基础的增长。以国内外几大IT巨头为例,截止至2011年6月,Facebook用户已经上传了150亿张照片,加上缩略图,总容量超过L5PB。此外,每周新增照片为2.2亿张,约25TB。高峰期,Facebook每秒处理55万张照片!国外最大的图片分享网站Flickr共存储4.7亿张图片,而且相当多的图片是高清数码图片,单张图片大小4?5M左
3、右,消耗2PB存储空间,每秒需要处理38000次请求,每天新增图片超过40万。Flickr采用的squid缓存了总计3500万张图片,内存中存储有200万张图片。淘宝网作为我国最大的电子商务平台,在线商品达到10亿,图片服务器存储286亿张图片,总容量达到1PB,且每天仍在以千万级别增长。由于图片表达信息远胜于文字描述,所以电子商务尤其注重图片的显示质量、上传时间、访问速度等问题。根据淘宝网的流量分析,整个淘宝网流量中,图片的访问流量达到90%以上。腾讯的相册用户总上传图片数600亿存储量12PB、每周上传图片数10亿
4、、存储3种规格1300亿图片,峰值访问每秒50万次。由于图片量非常大,海量图片需要消耗海量的存储空间,图片的存储和检索都会出现一定的瓶颈,存储系统的快速访问、扩容性、容错性都将是存储系统设计的目标。由此可见,面对海量的图片,如何高效的存储、管理这些图片已经成为一个迫切需要解决的问题。标准文档实用文案NetApp,美国网域存储技术有限公司,是IT存储业界的佼佼者,倡导向数据密集型的企业提供统一的存储解决方案,用以整合在网络上来自服务器的数据,并有效管理呈爆炸性增长的数据。大多数IT公司在面临海量数据存储问题的时候都会选择
5、NetApp公司提供的商用存储系统,淘宝网2007前一直使用应用该公司的文件存储系统。但随着图片文件数量以每年2倍的速度增长,NetApp公司最高端的产品也不能满足淘宝网存储的要求。商业存储服务的不足有以下几点:首先是文件数量太大,网络存储设备无法支撑,连接存储系统的服务器越来越多,网络连接数已经达到了网络存储设备的极限。其次是商用存储系统不能根据企业特定的业务进行存储和读取优化,导致面对大规模的小文件存储与读取,磁盘磁头需要频繁的寻道和换道,造成读取上的延迟。再加上高并发访问量的背景,系统很容易出现问题。最后是花费问
6、题,商业存储系统扩容成本太高,10T的存储容量需要几百万人民币。在面临海量存储需求的时候,高成本并没有带来高效率,高可靠性,高容错性。况且,过分依赖商业系统在维护性、创造性上受到商业公司约束,难以满足互联网企业的飞速发展。云计算的出现带动了技术发展朝向一个新的方向。它创造性的根据分布式处理、并行处理和网格计算的发展,提出了新的分布式集群技术。云存储概是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供
7、数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。云存储的概念改变了存储领域,可以尝试以相对廉价的存储设备部署在云端作为存储服务器,利用分布式文件系统统一管理,对外提供存储和业务访问接口。由云端提供存储服务,达到业务与存储的解稱合,不仅能根据不同业务背景设定不同的存储、访问接口,优化存取服务,还能将容灾和安全性固定在云端,此外,由于采用分布式文件系统,云
8、端服务器扩展相对容易。二、Hadoop云计算系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。作为Google一系列产品的幵源实现,是一个更容易开发和运行处理大规模数据的软件平台。Hadoop中包含一系列相关的子项目,这些项目都隶属于Apache软件基金会。最著名的是并行计算模型(MapReduce)和分布式文件
此文档下载收益归作者所有