欢迎来到天天文库
浏览记录
ID:26808157
大小:51.00 KB
页数:4页
时间:2018-11-29
《基于hadoop的图书馆复合大数据存储系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Hadoop的图书馆复合大数据存储系统研究〔摘要〕Hadoop中的HDFS是大数据存储处理的关键技术,HDFS在存储海量数据集中有着高效、可靠的优点。为解决图书馆传统关系型数据库在海量数据存储和访问效率中存在的瓶颈问题,本文提出了一种基于Hadoop的图书馆复合大数据存储系统。该复合大�稻荽娲⑾低衬芄宦�足图书馆大数据存储需求,提高大数据存储效率,可高效保障图书馆大数据决策的需求。中国4/vie 〔关键词〕Hadoop;图书馆;大数据;存储系统 DOI:10.3969/j.issn.1008-0821.2017.02.012 〔中图分类号〕G2507
2、6〔文献标识码〕A〔〕1008-0821(2017)02-0063-05 〔Abstract〕HDFSinHadoopisoneofthekeytechnologiesoflargedatastoragetreatment,HDFSisefficientandreliableinlargedatastorage.Tosolvethebottleneckproblemsofthetraditionalrelationshipdatabaseinpoundbigdatastorageandaccessefficiencyoflibrary,inthispaper
3、,apoundbigdatastoragesystemdesignforlibrarybasedonhadoopcouldsolvetheproblemofbigdatastorageinlibrary,couldimprovetheefficiencyofbigdatastorage,andsatisfiedthebigdatadecisiondemandoflibrary. 〔Key 随着云计算技术、传感器网络技术、移动宽带传输技术和终端设备制造技术的发展,图书馆的服务模式和读者阅读方式发生了巨大变革,以读者为中心的个性化服务定制和服务内容的智能推送,
4、已经成为图书馆当前的主要服务模式。在服务模式和读者阅读方式多样化发展的同时,图书馆的用户服务数据和读者阅读相关数据快速递增,已从TB、PB量级向EB量级急速增长,当前,图书馆数据环境已具有海量(Volume)、快速(Velocity)、多类型(Variety)、难辨识(Veracity)和低价值密度(Value)的大数据5“V”特性,图书馆已进入大数据时代[1]。 图书馆大数据主要由用户服务数据、IT基础设施运行数据、视频监控数据、读者个体特征数据、读者阅读行为数据、服务器监控数据、传感器网络数据、阅读终端数据等组成。这些大数据每年平均以50%的速度快速激增
5、,其中非结构化和半结构化数据占据大数据总量的85%以上。此外,图书馆大数据决策系统对数据的存取具有高效、精准、快速和实时的要求,传统的关系型数据存储系统已不能满足图书馆大数据海量、指数级增长、快速存取、高吞吐率的存储需求,因此,必须构建新型的大数据存储系统,才能满足图书馆大数据管理与决策的需求。 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统(HadoopDistributedFileSystem,简称HDFS),用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。HDFS具
6、有高可靠性、高可扩展性及高容错性的特点,并且设计用来部署在低廉的(LoapReduce编程模型,解决了大型分布式计算中的编程模型问题[3]。2006年,雅虎将Hadoop项目从Nutch搜索引擎项目中独立,成为Apache的一个单独子项目。随后,Apache基金会根据MapReduce模型开发出开源的大数据处理框架Hadoop,在Yahoo、IBM、百度等公司得到了大量的应用和快速推广[4]。截至2013年10月,Hadoop220版本已经成功发布,Facebook、阿里巴巴、百度和腾讯都采用Hadoop部署了大数据处理平台[5]。针对图书馆大数据环境特点,基
7、于Hadoop技术构建图书馆大数据存储系统,它可满足图书馆对复杂大数据的存储、查询、分析和决策的需求。 1图书馆大数据存储的需求与挑战 大数据时代,伴随数据总量和数据环境复杂度的快速增长,图书馆对数据库系统的安全性、存储容量、管理效率、读写性能、存储经济性和可扩展性等提出了更高的要求,要求存储系统具有较高的安全性、集成度、稳定性、可控性和可扩展性,能够满足图书馆海量数据存储管理与大数据决策的需求。 11大数据存储海量和快速的需求 当前,伴随图书馆服务模式和读者阅读方式多样化的发展,图书馆的数据总量已从TB、PB量级向EB量级急速增长,这些以指数级快速增
8、长的大数据对图书馆的存储系统提出了新的
此文档下载收益归作者所有