使用hadoop分布式文件系统检索云存储中的文件

使用hadoop分布式文件系统检索云存储中的文件

ID:21728537

大小:25.50 KB

页数:5页

时间:2018-10-24

使用hadoop分布式文件系统检索云存储中的文件_第1页
使用hadoop分布式文件系统检索云存储中的文件_第2页
使用hadoop分布式文件系统检索云存储中的文件_第3页
使用hadoop分布式文件系统检索云存储中的文件_第4页
使用hadoop分布式文件系统检索云存储中的文件_第5页
资源描述:

《使用hadoop分布式文件系统检索云存储中的文件》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、使用Hadoop分布式文件系统检索云存储中的文件  摘要云存储系统被认为是一个具有独立存储服务器的大型存储系统。云存储提供的服务是,可以通过网络和其他经过身份验证的用户存储用户数据,可以轻松访问数据,Hadoop分布式文件系统用于存储大文件,并以非常高的带宽将这些文件检索到用户应用程序,Hadoop将文件分割成大块,并将它们分布在集群中的节点之间。当我们从云中检索数据时,减少计算和通信开销是非常重要的。为了减少通信开销,当用户要求数据文件时,服务器只能根据关键字发送最新的文件。由于所有者不需要维护文件的副本,所以只需要

2、检查可用的文件。在HDFS中,并行完成计算,从而大大减少了执行时间。在提出的用于检索top-n文件的系统中,我们使用Hadoop分布式文件系统,从而大大减少了搜索时间和通信开销。  【关键词】云存储HDFS集群关键字搜索  1引言  云计算可以将客户端的数据存储在远程存储介质中,并在任何时候可以由用户检索数据。通过存储在云中,数据拥有者可以免费在自己的系统中维护数据的副本。但是存储所有者数据的服务器不一定被信任,为了提供保护,数据在外包到云端之前被加密。由于频繁的数据共享,这种方法在云环境中很难实现,可搜索的重新加密系

3、统已经实现。在这种方法中,索引存储在主服务器中,数据分布到许多服务器。因此,这个系统在云存储环境中很难应用。为了在云存储中提供安全的数据,服务器提供了安全的存储空间,被称为云存储服务。为了利用这种安全的存储设备,使用的基本技术是分布式文件系统。  1.1GFS  Google使用这种分布式文件系统提供安全的云存储。GFS包含三个组件,即客户端,主服务器和块服务器。  客户:代表应用程序与主服务器和块服务器通信。  主服务器:维护和管理文件系统原数据,如访问控制信息,名称空间,文件和块之间的映射信息以及块位置信息。这些信

4、息存储在主服务器的存储器中。它们几乎控制所有的系统功能,如创建块拷贝,返回可用的未使用的存储空间以及调整份数。  块服务器:块服务器管理存储的数据单元,并按照客户端的要求提供输入/输出数据。通过使用校验来识别数据错误。如果客户端想要存储文件,则客户端将文件详细信息发送到主服务器,主服务器又提供块服务器的位置。此外,如果客户端想要读取,则主服务器向客户端提供其中存储数据的块服务器位置。客户端然后与组块服务器进行通信并获取原始消息。  1.2HDFS  Hadoop分布式文件系统(HDFS)的基本功能是可靠地存储大量数据,

5、并以高带宽将这些数据发送给用户应用程序。在一个大集群中,数以千计的服务器处理直接连接的存储,并执行用户应用程序任务。Hadoop使用MapReduce方法启用分布式系统,并为非常大的数据块分析和转换提供了基础。Hadoop的一个重要功能是将数据和分析分成数以千计的主机,并且并行执行所有应用程序计算,并且靠近其数据。Hadoop集群通过仅包括商品服务器来平衡计算和存储容量。  HDFS分别保存文件系统元数据和应用程序数据。为了存储元数据,使用称为名称节点的专用服务器,而使用称为数据节点的其他服务器来存储应用程序数据。基于

6、TCP协议,所有服务器都完全连接。文件信息在多个数据节点上重复,可靠性如GFS。  HDFS的组件简介如下:  1.2.1名称节点  HDFS命名空间包括目录和文件的?哟谓峁埂8梦募?分为大块。许多数据节点都可以独立地复制每个文件块。NameNode维护块到数据节点和命名空间树的映射。一个名称节点可用于每个集群。另一方面,每个群集可以拥有数千个数据节点和数万个HDFS用户,因为每个数据节点可能同时执行多个应用程序任务。  1.2.2数据节点  数据节点上块的每个副本由本地文件系统中的两个文件表示。当第一个文件存储数据时

7、,第二个文件存储包含数据的校验和的块的元数据。数据文件大小将等于块的原始大小,因此不需要增强的存储来匹配块大小。  1.2.3HDFS客户端  在HDFS客户机中,一个端用于由用户应用程序访问文件系统。要访问数据,它提供文件系统界面。HDFS有读取,写入和删除文件等功能,也可以创建和删除目录。用户应用程序不需要知道文件系统元数据,因为存储位于不同的服务器上,或者该块具有多个副本。  2存在问题  加密的云数据外包服务包括以下数据,即数据所有者,用户和云服务器。数据所有者拥有他与其他用户共享的各种数据的集合。由于他无法维

8、护和处理用户每个请求的文件,他更愿意将这些文件外包给云服务器。但是这里的优先事项是信息不应该泄漏给任何人,也不应该泄漏给云服务器。因此,根据用户的要求,只能发送top-n个相关文件。为了确保数据的机密性,所有者在将它们外包到云服务器之前对其进行加密。由于计算在前n个文件中的文件的排名需要很多时间,在用户的每个请求上,服务器不会计算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。