文件系统、mongodb、hadoop 存取方案分析

文件系统、mongodb、hadoop 存取方案分析

ID:13653554

大小:412.08 KB

页数:5页

时间:2018-07-23

文件系统、mongodb、hadoop 存取方案分析_第1页
文件系统、mongodb、hadoop 存取方案分析_第2页
文件系统、mongodb、hadoop 存取方案分析_第3页
文件系统、mongodb、hadoop 存取方案分析_第4页
文件系统、mongodb、hadoop 存取方案分析_第5页
资源描述:

《文件系统、mongodb、hadoop 存取方案分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、存取方案分析一、三种文件存取方案海量日志的存取,既要考虑存的效率,也要兼顾查询统计的便捷性。根据目前的实际情况,我们考虑了三种方案:1.将日志直接写入文件,采用grep的方式来查询,或者使用lucene来实现全文检索。2.使用mongodb来存储日志。3.使用hadoop来存储日志。每一种方案都有各自的优缺点,对于第一种直接写写文件的方案,存的速度非常快。但是当文件量的逐渐增多,查询起来非常不方便。如果采用lucene来建索引,会耗费很多存储空间,而且需要手动来维护历史文件,压缩、转储。所以,采用文件存储的方案是一种非常原始的,不便于管理的方案。二、Mongo

2、db简介MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。主要功能特性有:面向集合存储,易存储对象类型的数据。模式自由。支持动态查询。支持完全索引,包含内部

3、对象。支持查询。支持复制和故障恢复。使用高效的二进制数据存储,包括大型对象(如视频等)。自动处理碎片,以支持云计算层次的扩展性。支持RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。文件存储格式为BSON(一种JSON的扩展)。可通过网络访问。它的特点是:1.无模式,易使用2易使用,查询与索引方式灵活,是最像SQL的Nosql4.易部署,支持复制集、主备、互为主备、自动分片等特性5.高性能、存储数据非常方便Mongodb的不足之处:1、在集群分片中的数据分布不均匀2、单机可靠性比较差3、大数据量持续插入,写入性能有较大波动4、磁盘空间占用比较大

4、一、hadoop简介一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流

5、的形式访问(streamingaccess)文件系统中的数据。Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在

6、Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:1.可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。5.Hadoop在大数据领域受到广泛青睐,facebook、yahoo、amazon、阿里巴巴、百度、华为、腾讯等互联网企业都在使

7、用。其中facebook和yahoo更是开源了许多优秀的hadoop辅助系统,如hive、Zookeeper。降低后续参与者的开发难度。Hadoop也有缺点:1.首先,它体系庞大,入门不易。2.不适合低延迟数据访问,索引功能需要自己开发3.无法高效存储大量小文件二、Mongodb和hadoop两者的存取性能及特性对比性能对比图从测试结果看,mongodb的存储、查询速度都非常快,不管是逐条存储还是批量存储,都能达到每秒存储14000条1k的日志。而hadoop逐条存储性能较低,批量存储时性能也很好。两者都很适合来存海量日志。技术成熟,文档也非常丰富,在互联网行

8、业应用很广泛。Hadoop适合存储无结

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。