大数据存储技术标准化的探讨.doc

大数据存储技术标准化的探讨.doc

ID:51836484

大小:24.50 KB

页数:6页

时间:2020-03-16

大数据存储技术标准化的探讨.doc_第1页
大数据存储技术标准化的探讨.doc_第2页
大数据存储技术标准化的探讨.doc_第3页
大数据存储技术标准化的探讨.doc_第4页
大数据存储技术标准化的探讨.doc_第5页
资源描述:

《大数据存储技术标准化的探讨.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、大数据存储技术标准化的探讨  摘要:在Hadoop平台上分析大数据存储技术的标准化问题,详细描述了现有大数据库的存储技术以及应用情况,从数据采集、并行计算框架、以及结果的输出、并行数据处理等方面来探讨大数据存储的标准化问题。  关键词:并行计算大数据存储Hadoop标准化  中图分类号:TP333文献标识码:A文章编号:1007-9416(2014)01-0222-01  1引言  随着互联网Web2.0的兴起和云计算的发展,大数据的价值越来越受到人们的重视,人们对数据的处理实时性和有效性要求也越来越高。大数据

2、的应用已经进入了各行各业了,如商业智能、公共服务、科学研究等领域。目前大数据的分析技术发展十分迅速,尤其是大数据分析平台Hadoop得到了各大厂商的极大关注,基于Hadoop平台进行的大数据分析、数据存储研究正在进行[3]。目前国际、国内尚未出现大数据分析的全流程标准服务和接口定义,本文研究的重点是根据国内大数据的实际现状,采用hadoop平台进行大数据存储处理的全流程分析以及各个功能模块进行对比研究,提出建立大数据存储的标准化体系的建议,有利于促进形成大数据存储的基础性标准,从而为产业发展提供了有力的保障。 

3、 2大数据存储技术的种类  大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)[2]。大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。针对不同类型的海量数据,业界提出了不同的存储技术。  2.1分布式文件系统  分布式文件系统主要代表有Google的GFS和Hadoop中的HDFS。GFS是一个可扩展的分布式文件系统,是针对与大规模数据处理和Google应用特性而设计的,他运行在廉价的普通硬件上,可以提

4、供高容错、高性能的服务。  HDFS是开源的分布式文件系统(HadoopDistributedFileSystem),运行在跨机架的集群机器之上,具有高吞吐量来访问大数据集应用程序。它采用了主/从结构,由一个NameNode节点和多个DataNode节点来组成,NameNode主节点是主服务器,管理文件系统的命名空间和客户端对文件的访问操作;DataNode是集群中一般节点,它负责节点的数据的存储。客户端通过NameNode向DataNode节点交互访问文件系统,联系NameNode获得文件的元数,而文件I/O

5、操作则是直接和DataNode进行交互的。HDFS允许用户以文件的形式存储数据,HDFS将大规模数据分割成多个64M为单位的数据块,采用数据块序列的形式存储在多个数据节点组成的分布式集群中。它具有很强的可扩展性,通过在集群中增加数据节点来满足不断增长的数据规模,同时它也具有高可靠性和高容错性,每个数据块在不同的节点中有三个副本,在海量大数据处理方面有很强的性能优势。  2.2半结构化数据NoSQL数据库  NoSQL是一种打破了关系型数据库长久以来占主导地位的快速成长起来的非关系松散数据存储类型,这种数据存储不

6、需要事先设计好的表结构,它也不会出现表之间的连接操作和水平分割。他可以弥补关系数据库在处理数据密集型应用方面表现出的性能差、扩展性差、灵活性差等问题,NoSQL数据库了是作为关系数据库的补充。目前主流的NoSQL数据库有文档型数据库、列存储数据库、键值对(Key-Value)存储数据库。  (1)列存储数据库:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合与批量数据处理和即席查询[1]。列存储将所有记录中相同字段的数据聚合存储,它通常用于应付分布式存储文件系统。典型的列存储数据库有Cassandra

7、、Hbase、Riak。(2)文档型数据类型:文档型数据库主要是用来存储、索引并管理面向文档的数据或者类似的半结构化的数据。它的核心概念就是文档(Document),文档是它的最小的单位,采用多种格式进行解码,包括XML、YAML、JSON、BSON也包括一些二进制格式如PDF、微软的Office文档[4]。文档型数据库可以看做是键值数据库的升级版,允许之间的嵌套键值,它的一个显著特点就是比键值数据库的查询效率更高。典型的文档型数据有CouchDB、MongoDB。(3)键值对(Key-Value)存储数据库:

8、(Key-Value)存储数据库,数据是按照键值对的形式进行组织、索引和存储。Key-Value存储是适合不涉及数据关系业务关系的业务数据,同时能有效减少读写磁盘的次数,比SQL数据库存储拥有更好的读写性能。  3大数据存储标准化研究  随着物联网与云计算的研究和应用不断的升入,大数据的分析技术目前已经进入了起步阶段,但目前国际上还没有制定大数据处理的标准,很多存储方面的标准化组织也开

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。