欢迎来到天天文库
浏览记录
ID:35273602
大小:78.70 KB
页数:5页
时间:2019-03-22
《mongodb非结构化数据解决方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、随着WEB2.0的应用和发展,一些新型互联网应用,如社交网络、博客(Blog)、个人视频分享、个性化信息租用服务等应用不断涌入人们眼帘,并逐渐成为人们生活的一部分。云计算为这些新型应用提供了计算手段,云存储为这些应用提供了存储方案。目前,数以亿计的网络用户通过个人电脑、智能手机等终端访问Internet,据中国互联网络信息中心(CNNIC)在2012年1月16日发布的中国互联网发展状况统计报告中显示,截止2011年12月底,中国网民突破5亿,其中手机网民达3.56亿,且同前期相比呈不断增长趋势。网络用户在浏览信息的同时,产生了海量的格式多样的新数据,
2、在这些数据中,诸如文档、音乐、图片、视频一类的非结构化信息占比相当大。面临用户端的日益膨胀和海量数据的持续产生,尽管高性能处理器已基本满足了运算需求,却对无限大的存储空间和无限大的网络带宽需求力不从心。因此,在信息系统设计中,计算设计已经不再是应用的中心,而数据的妥善存储和管理成为系统设计的焦点。1非结构化数据存储发展进程当前,互联网中的数据包括非结构化数据和半结构化的数据,非结构化信息又以二进制文件为主。制约海量非结构化数据存储的关键问题是,数据中心与异构终端间的数据共享程度不够强,存储系统的高并发读写能力欠缺,存储系统的自由扩展比较困难。针对移动
3、计算的海量存储需求,深入研究非结构化数据的存储发展过程,这有助于开发出具有高共享、高吞吐和高并发能力的网络存储系统。传统存储技术中,文件系统是可持久存储和管理数据的普遍手段。文件的管理方式主要有单机文件系统、网络文件系统、分布式文件系统和高通量文件系统等。在单机文件系统中,十亿兆位字节文件系统(ZFS,ZettabyteFileSystem)是应用较成功的典范,该系统由Sun公司于2005年11月正式发布,是针对ZB级数据存储需求而设计的128位UNIX文件系统,ZFS引入“存储池”的概念管理物理存储空间,采用写时复制事务模型来维护数据一致性。由于该
4、系统不能跨越数据的物理位置,同时没有妥善地解决数据传输通道的瓶颈问题,且系统复杂度较高,最终没有得到推广。网络文件系统(NFS,NetworkFileSystem)的出现,使得跨平台的非结构化数据共享成为可能,数据存储通过远程过程调用(RPC,RemoteProcedureCall)机制实现,使远程文件本地化,用户存取远程文件如同访问本地文件一样方便,但NFS的服务器架构过于单一,决定其扩展性受到局限。搜索引擎的出现,使得用户得以免费获取快速检索信息的便利,这一便利是建立在海量存储和海量计算基础上的。为使用户检索到最新的信息,新增的非结构化型WEB快
5、照数据需要及时存储到服务器上,便于分析处理和建立索引,尽管此时已经出现基于高性能计算(HighPerformanceComputing,HPC)的并行文件系统,然而成本高昂、当节点、网络或磁盘阵列出现故障后需停机恢复,不适合在线维护。而后,Google公司提出一种基于集中式管理、分布式存储的全新存储架构,即GoogleFileSystem(GFS),该架构将非结构化数据按64MB的粒度存储于各子结点上[3]。这些系统与特定应用的耦合度高,表现出适应性差的缺点。非结构化数据存储技术与文件系统及其存储技术的发展密切相关,更与数据库的发展密不可分。使用与操
6、作系统、数据库系统无缝结合而形成的新型存储技术取代传统存储解决方案是必然的。2非关系型数据库(NotOnlySQL,NoSQL)传统的关系数据库在高并发读写、高吞吐率的海量数据存取、高可用性和高可扩展性需求方面表现得不尽如意。针对海量非结构化数据存储管理难题,研究者致力于寻求一种可靠的、低成本的和易实施的存储解决方案,在此情况下,出现了诸如TokyoCabinet、MongoDB、CouchDB等非关系型数据库(NotOnlySQL,NoSQL)。NoSQL数据库打破了传统关系数据库的事务一致性及范式约束,放弃了关系数据库强大的SQL查询语言,采用<
7、Key,Value>格式存储数据,保证系统能提供海量数据存储的同时具备优良查询性能。2.1NoSQL数据库特性NoSQL数据库系统通常具有以下六个特性。1)对多个服务器进行简单的水平扩展即可实现吞吐量的提高;2)具有在多服务间进行复制和分发数据的能力;3)与SQL数据绑定相比,NoSQL的存储调用接口和协议更加简单;4)传统数据库系统的事务处理具有四个特性:原子性、一致性、隔离性和持久性(Atomicity,Consistency,Isolation,Durability,ACID),为增强新型数据库系统的可伸缩性,NoSQL系统放弃了部分ACID特
8、性;5)利用分布式索引和随机存储器实现高效的数据存储;6)具有动态添加新属性和数据记录的能力。满足以上特性的
此文档下载收益归作者所有