互联网海量数据存储及处理的调研综述

互联网海量数据存储及处理的调研综述

ID:8796744

大小:274.00 KB

页数:21页

时间:2018-04-08

互联网海量数据存储及处理的调研综述_第1页
互联网海量数据存储及处理的调研综述_第2页
互联网海量数据存储及处理的调研综述_第3页
互联网海量数据存储及处理的调研综述_第4页
互联网海量数据存储及处理的调研综述_第5页
资源描述:

《互联网海量数据存储及处理的调研综述》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、互联网海量数据存储及处理调研综述互联网海量数据存储及处理调研综述摘要本文主要针对互联网应用中出现的新兴的海量数据存储和处理系统展开讨论,对比新兴系统与传统数据技术的差异,以及这些系统之间实现技术的不同特点,并总结出相应的关键技术问题。近些年来,blog、wiki、spaces的兴起导致互联网内容的提供方式出现转变;用户创造内容的web2.0时代的到来,带动着视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展。互联网正处于一个信息爆炸的时代。面对信息爆炸的互联网,如何去存储和处理这些海量数据,对诸如Facebook、YouTube等大规模互联网企业提出了巨大的

2、技术挑战,同时也开启了开阔的研究空间。本文将综述互联网数据存储以及处理技术的发展、研究状况,指出这方面研究的技术挑战和研究问题。互联网应用种类繁多,包括Facebook、MySpace为代表的社会关系网络、Flickr为代表的图片共享应用、Youtube为代表的视频共享应用以及以Google、Yahoo为代表的搜索引擎应用等。这些互联网应用因为自己的应用特性不同,面对不断增长的互联网用户带来的不断增长的数据(视频、图片、blog等)所采用的技术路线不尽相似。但是,这些技术路线从本质上可以分为两个方面:海量数据的存储管理技术以及针对海量数据的处理技术(日志分析、

3、搜索引擎应用等)。本文剩下的部分主要从这三个部分展开论述。第1部分介绍互联网应用的特点,阐述海量数据带来的新特性;第2部分主要分析传统数据库在互联网应用中的局限性,并对比新兴系统与传统数据库系统的差异,讨论海量数据管理的关键技术;第3部分则介绍一些用于海量数据处理的系统,讨论它们的技术特点;最后,总结全文。1.背景随着互联网的快速发展,Blog、RSS、视频共享、图片共享等Web2.0应用的不断加入使得海量数据存储、管理和处理已经成为当今互联网公司面临的严峻问题。以c2c网站淘宝为例,2007年度淘宝的注册用户已经超过了4500万,商品总数也多达9000万,每

4、天的页面点击率可达2亿多次;并且每天都有大量新用户注册,交易也在无时无刻进行中[1]。这些信息保存在存储设备上,便是高速膨胀的海量数据。同样的问题也出现在Google、Facebook、Flickr等互联网应用上,如表1所示。21互联网海量数据存储及处理调研综述应用类型应用名称规模搜索引擎Google总量:10KB/doc*20Bdocs=200TB每30天做一次索引:200TB/30days=6TB/daySNSFacebook(2008)PageView:0.5KB/pageviewevents*3Bpageviewevents/day=1.5TB/day

5、Relationship:100Musers*5events*100feed/event*0.1KB/feed=5TB/day图片共享Facebook(2007)65亿张原始图片,每张图片保存为4~5个不同尺寸图片总量达300亿张,共540TB请求数:47.5万张/秒(读)1亿张/周(上传)Flickr(2007)原始图片存储总量达2PB请求数:40亿张/天(读)40万张/天(上传)视频共享Youtube(2007)视频总量达600万个,共45TB观看率超过一亿次/天,上传率达65000次/天电子商务淘宝(2007)4500万注册用户,9000万件商品,2亿次

6、/天页面点击率eBay(2007)2.12亿注册用户,10亿张图片,1.05亿张商品列表,2PB数据页面点击率10亿次/天,并且从1999年至2006年页面点击率增长因子为35表1不同互联网应用的规模[1,11,39,40,41,42]这些互联网应用由于不同的应用特性在用户规模、存储数据规模等方面表现不尽相同。但是,从表1中我们依然可以看到这些互联网应用在面对海量数据时的一些共性,归纳如下:1)用户群体大,增长速度快。以电子商务领域为例,淘宝和eBay在2007年度的注册用户数量分别达到了4500万和2.12亿,并且用户数量在不断增长。在过去将近10年内,eB

7、ay的页面点击率增长到日均10亿次,并且增长因子为35。虽然页面点击量不能直接等同于用户数,但是高页面点击率以及增长率也从一定程度反应了该应用的用户群体规模和增长规模。同样,拥有上亿次上十亿次日均页面点击率的图片视频共享、SNS等互联网应用,也具有上述特点。2)数据总量大,增长速度快。不论是存储大量静态数据的图片视频共享服务,还是存在大量用户交互消息的SNS、电子商务服务,它们存储的数据总量均达到TB级别甚至PB级别。同时,每天40万张图片(Flickr)、每天6万个视频(Youtube)的上载速率使得这些数据总量变得越来越大。3)数据类型多样,大小不一。在W

8、eb2.0时代,互联网应用需要处理大量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。