欢迎来到天天文库
浏览记录
ID:57796375
大小:31.50 KB
页数:11页
时间:2020-03-29
《一种基于新型存储的数字图书馆分布式大数据存储架构.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一种基于新型存储的数字图书馆分布式大数据存储架构 [摘要]图书馆数据是一种典型的天数据,大数据管理是目前图书馆面临的一个复杂问题。为了解决传统关系型数据库在海量数据存储和访问效率中存在的瓶颈问题,本文提出了一种基于新型存储的数字图书馆大数据分布式存储架构。该存储架构具有良好的可扩展性、容错性和存储性能。 [关键词]数字图书馆;分布式;大数据;存储架构 DOI:10.3969/i.issn.1008-0821.2015.01.019 [中图分类号]G250.76[文献标识码]A[文章编号]1008
2、-0821(2015)01-0100-04 当前,随着读者阅读需求和用户服务保障模式的发展,图书馆数据环境呈现Volume(海量)、Variety(多类型)、Velocity(生成快速)和Value(高价值)的4V特点,图书馆已进入大数据时代。大数据时代,数据与劳动力、服务资本和科学技术一起,已成为图书馆服务生产力的重要组成部分。因此,如何有效采集、存储、管理与分析数据,成为关系图书馆科学决策、降低服务成本、保证服务质量和增强读者阅读活动满意度的关键。 维基百科将“大数据”定义为无法在一定时间内用常
3、规软件工具对其内容进行抓取、管理和处理的数据集合。面对复杂、海量、多类型和级数增长的大数据资源,传统数据存储系统的存储效率、容量、可扩展性和设备生命周期使用效率,已不能满足图书馆大数据采集、存储、处理、分析和决策的需求。因此,图书馆只有结合大数据环境特点和读者服务决策需求,以增强读者QOs(服务质量)保障和用户服务能力为目标,才能设计出满足图书馆大数据采集、处理、分析和决策的存储系统。 1.图书馆大数据环境特点与数据存储需求 1.1传统存储系统已不能满足大数据存储、计算、分析和决策的需求 大数据时
4、代,图书馆数据源多样且数据总量海量,数据类型呈现结构化、半结构化及非结构化数据共存的复杂特征,管理类型单一、结构化关系型数据的传统存储系统,无法满足海量、复杂大数据的存储需求。其次,伴随大数据总量的快速递增,传统的SNA(存储区域网络)的网络传输带宽,已成为数据向网络存储节点和计算节点传输的瓶颈,严重影响了大数据网络存储、计算和决策的效率。第三,图书馆大数据服务模式可能会需要对数据进行反复的过滤、融合、价值提取、迁移和计算。因此,要求存储系统能够为大数据应用提供统一或者兼容性强的读写接口,以及高效的数据
5、存储与读取支持。第四,大数据应用要求存储系统采用基于多存储介质的分层存储架构,可为不同数量、热点、读写速度和安全需求的数据提供存取服务。 1.2云存储不能完全满足大数据的存储需求 伴随云计算技术的发展与应用,图书馆可通过租赁云服务商服务的方式,为读者提供安全、高效、经济、便捷的云阅读服务。但是,随着大数据环境复杂度和大数据应用需求的增长,云存储已不能完全满足图书馆大数据的存储需求。首先,读者阅读活动的安全性是决定用户阅读愉悦感的关键因素。此外,读者的阅读历史记录、个体位置信息、阅读社会关系和阅读需求
6、等信息,是图书馆发现读者需求、预测阅读服务模式、评估用户阅读活动满意度的重要依据。如果将此类数据存储在由第三方管理的云空间中,可能会由于图书馆丧失对数据的控制权而导致读者隐私被侵犯,影响读者大数据阅读的安全性和可靠性。其次,大数据阅读服务要求通过对读者行为数据的即时分析,准确掌握读者阅读需求和阅读方式的变化趋势,进而实现个性化服务策略的精确、实时调整。而图书馆对存储于云空间数据的超长时间存储、定位和下载,则会影响图书馆读者个性化服务决策与内容推送的实时、有效性。第三,随着大数据总量的级数增长,日益增长的
7、云存储服务和数据网络传输费用,也是影响图书馆大数据阅读服务投资收益率的重要因素。 1.3大数据存储总量呈现级数递增 伴随可穿戴技术的发展,利用可穿戴设备的软件支持以及数据交互、云端交互的强大功能,提高读者对外界的感应与信息获取能力,是图书馆增强读者个性化阅读效率和满意度的重要方式。图书馆大数据来源主要包括可穿戴阅读设备记录数据、服务器监控数据、传感器网络采集数据、读者行为数据和读者位置数据等,此类数据可达到PB级的数据规模,并呈现几何级增长态势。因此,要求存储系统具备海量存储和可无缝平滑扩展的能力,
8、避免存储孤岛现象发生。其次,图书馆大数据库拥有庞大的文件数量,大数据存储系统对文件系统层累积元数据管理的有效性,是关系大数据文件快速查找、定位准确性,以及图书馆大数据分析、决策实时性的重要问题。第三,为了增强读者阅读服务的安全性与可靠性,图书馆会对读者阅读服务过程的关键设备和重要数据进行备份。这些大数据信息具有分布式、多类型和大流量的特点,要求存储系统至少分配拟备份数据量一倍以上的存储空间。因此,如何实现关键数据的安全、统一备份,是大数据存
此文档下载收益归作者所有