欢迎来到天天文库
浏览记录
ID:41694663
大小:118.45 KB
页数:3页
时间:2019-08-30
《基于hadoop集群的海量数据存储技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于hadoop集群的海量数据存储技术研究宋尊锋(信息中尤')摘要:在大数据时代的背景下,我厂数字化信息也在不断的増长,尤其是文档、多媒体等非结构化数据的增长量更是速度惊人,这其中包括厂闭路台的视频源文件,档案中心的数字化档案,地质和规划所需要的各种高解析度的图纸等等。这些文件往往都非常重要,但目前并没有一个很好的方式对这些文件进行备份和管理,这些文件大多存放在个人电脑或者移动硬盘里,不但安全性差,存储和读取的速度更差,严重影响了工作效率。改变传统的存储方式提高数据的安全性和存取性能是本文将要研究的内容。主题词:大数据Hadoop分布式存储一、问题的提出在大数据时代的背景下,我厂
2、数字化信息也在不断的增长,尤其是文档、多媒体等非结构化数据的增长蜃更是速度惊人,这其屮包括厂闭路台的视频源文件,档案屮心的数字化档案,地质和规划所需要的各种肓解析度的图纸等等。这些文件往往都非常重要,但冃前并没有一个很好的方式对这些文件进行备份和管理,这些文件人多存放在个人电脑或者移动硬盘里,不但安全性差,存储和读取的速度更差,严重影响了工作效率。改变传统的存储方式提高数据的安全性和存取性能是木文将要研究的内容。二、利用hadoop集群分布式存储海量数据Hadoop集群是目前处理海量数据最好的人数据平台,著名的阿里巴巴就采用的是这种技术实现淘宝网的整个后台数据支撑,该平台是一个高
3、容错的文件系统,适用于大数据的读图一Hadoop分布式文件系统架构在这个分布式的文件系统架构中,客户端节点的主要作用是发起请求,读取或者上传存放在集样上的数据;名字节点是整个分布式文件系统屮的核心节点,存放着整个系统的数据冃录和和关数据,如果没有第二名字节点做备份的话这些数据一旦被破环,整个分布式系统将崩溃,而真正存放数据的节点是一系列的数据节点,这些可随意扩展的数据节点和名字节点构成了真正的分布式架构。那么hadoop分布式的文件系统是如何存储和调取数据的呢,首先我们看一下数据的写入。如图2所示,客户端利用DistributeFileSystem实例的create方法打名字节点
4、进彳亍通信并创建一个新的文件,如果一个文件大小超过64M,系统默认会対其进行切割,并将切割好的数据放入数据队列里面,然后按顺序写入每个名字节点,当所有数据写入完毕关闭数据流。图2上传文件到hadoop分布式文件系统调取数据方式与写入数据刚好相反,如图3所示,客户端利用DistributeFileSystem的open方法來获取数据款的位置,然后再利川FSdatalnputStream函数來读取真止的数据块文件,当所有数据款被调用完毕后,系统利用close方法关闭数据通道。图3从hadoop分布式文件系统读取文件由于一个大的数据被分割成若干数据块并行的分布式存储在多个数据节点上面,
5、数据的存储和调取性能肯定要远高于传统的数据存储模式,而单一数据节点的损坏也不会影响数据的完整性,数据的安全性也大大增强。三、hadoop分布式数据存储平台的应用前景就口前现有应用而言,我厂档案数字化平台实现的就是海量档案数据的存储与调用,目前共有数据量在1T左右,数据存储方式是基于磁盘阵列的存储模式,网络带宽为1G,数据写入和读取性能为RAIDS的性能,而分布式的存储平台每个廿点的网络帯宽就为1G,并行起來可以有10G以上,RAID5注重的是可靠性,读取速度由于总线带宽等因索的限制,并不如多个单块磁盘并行运行的效率。我厂数字档案的数据量是越来越大的,为了提高整个系统的运行速度和文
6、件的安全性,日后我们可以将档案数字化平台的数据文件的存储方式改为分布式存储,而原有的前台结构化数据库并不需要改变,所需的硬件设备由原來儿十万元的磁盘阵列,变为10儿万元的多台PC集群就可以实现,节约了硬件投资成本。除此以外,hadoop分布式集群还可以实现海量的多种复杂类型的数据抽取与分析,可以应用到生产数据分析、人事信息、舆情监控等系统,hadoop分布式集群技术将是今后几年内屮心技术人员需要深入学习和研究的主要信息技术,讣我们可以轻松迎接即将到來的汕皿大数据吋代。
此文档下载收益归作者所有