大数据存储技术研究

大数据存储技术研究

ID:33650458

大小:368.04 KB

页数:14页

时间:2019-02-28

大数据存储技术研究_第1页
大数据存储技术研究_第2页
大数据存储技术研究_第3页
大数据存储技术研究_第4页
大数据存储技术研究_第5页
资源描述:

《大数据存储技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据存储技术研究3013218099软工二班张敬喆1.背景介绍大数据已成为当前社会各界关注的焦点。从一般意义上讲,大数据是指无法在可容忍的时间内,用现有信息技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。近年来,大数据的飙升主要来自人们的日常生活,特别是互联网公司的服务。据著名的国际数据公司(IDC)的统计,2011年全球被创建和复制的数据总量为1.8ZB(1ZB=1021B),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB,1PB=1015B)。然而,与大数据计算相

2、关的基础研究,诸如大数据的感知与表示、组织与存储、计算架构与体系、模式发现与效应分析等,目前还没有成体系的理论成果。对于大数据计算体系的研究,一方面,需要关注大数据如何存储,提供一种高效的数据存储平台;另一方面,为了应对快速并高效可靠地处理大数据的挑战,需要建立大数据的计算模式以及相关的优化机制。2.相关工作为了应对数据处理的压力,过去十年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库外(Altibase,Timesten),其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析的,也可以说是大数

3、据分析的。在这些面向数据分析的创新和产品中,除了基于Hadoop环境下的各种NoSQL外,还有一类是基于SharedNothing架构的面向结构化数据分析的新型数据库产品(可以叫做NewSQL),如:Greenplum(EMC收购),Vertica(HP收购),Asterdata(TD收购),以及南大通用在国内开发的GBase8aMPPCluster等。目前可以看到的类似开源和商用产品达到几十个,而且还有新的产品不断涌出。一个有趣的现象是这些新的数据库厂商多数都还没有10年历史,而且发展好的基本都被收购了。收购这些新型数据库厂商的公司,比如

4、EMC、HP,都希望通过收购新技术和产品进入大数据处理市场,是新的玩家。SAP除了收购Sybase外,自己开发了一款叫HANA的新产品,这是一款基于内存、面向数据分析的内存数据库产品。这类新的分析型数据库产品的共性主要是:架构基于大规模分布式计算(MPP);硬件基于X86PC服务器;存储基于服务器自带的本地硬盘;操作系统主要是Linux;拥有极高的横向扩展能力(scaleout)和内在的故障容错能力和数据高可用保障机制;能大大降低每TB数据的处理成本,为“大数据”处理提供技术和性价比支撑。总的来看,数据处理技术进入了一个新的创新和发展高潮,

5、机会很多。这里的主要原因是一直沿用了30年的传统数据库技术遇到了技术瓶颈,而市场和用户的需求在推动着技术的创新,并为此创造了很多机会。在大数据面前,越来越多的用户愿意尝试新技术和新产品,不那么保守了,因为大家开始清晰地看到传统技术的瓶颈,选择新的技术才有可能解决他们面临的新问题。3.核心技术1.大数据重复数据删除技术在大数据时代,数据的体量和增长速度大大超过了以往,其中重复数据也在不断增大。国际数据公司通过研究发现在数字世界中有近75%的数据是重复的,企业战略集团(Enterprise Strategy Group, ESG)指出在备份和归

6、档存储系统中数据的冗余度超过90%。因此,高效的重复数据删除技术(Cluster Deduplica-tion)成为缩减数据占用空间并降低成本的关键。然而,由于这项技术是计算密集型和读写(I/O)密集型的技术,特别是重复删除运算相当消耗运算资源,要进行大量的读写处理,因此现有系统在存取性能方面还存在很多问题需要解决。在大数据存储环境中,将集群重复数据删除技术有效地融入分布式集群存储架构中,可使存储系统在数据存储过程中对重复冗余数据进行在线去重,并在存储性能、存储效率以及去重率等方面得到优化。2.具有重复数据删除功能的分布式存储架构通过设计并

7、实现具有重复数据删除功能的分布式文件系统,可使其具备高去重率、高可扩展性、高吞吐率等特征。分布式重复数据删除系统的架构包括客户端、元数据服务器和数据服务器三部分(见图1)。客户端主要提供集群重复数据删除系统对外的交互接口,并在所提供的文件操作接口中实现基于重复数据删除的存储逻辑和对数据的预处理,如数据块的划分与“指纹”的提取。元数据服务器实现了对元数据存储、集群的管理与维护,包括管理在数据存储过程中整个会话,保存与管理分布式文件系统中的元数据,管理和维护系统存储状况,指导数据路由并满足系统存储的负载均衡。数据服务器主要负责数据去重引擎以及数

8、据的存储和管理。数据服务器通过网络与客户端进行通信,响应客户端的读写请求,通过网络与元数据服务器异步更新数据服务器的数据接收状况以及节点存储状况。当接收到客户端的写请求时,数据服

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。