google论文二google文件系统下

google论文二google文件系统下

ID:29466398

大小:87.36 KB

页数:12页

时间:2018-12-20

google论文二google文件系统下_第1页
google论文二google文件系统下_第2页
google论文二google文件系统下_第3页
google论文二google文件系统下_第4页
google论文二google文件系统下_第5页
资源描述:

《google论文二google文件系统下》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、google论文二Google文件系统下转载请注明:作者phylips@bmy6.测量在这一节,我们用一些小规模的测试来展示GFS架构和实现固有的一些瓶颈,有一些数字来源于google的实际集群。6.1小规模测试我们在一个由一个master,两个master备份,16个chunkserver,16个client组成的GFS集群上进行了性能测量。这个配置是为了方便测试,实际中的集群通常会有数百个chunkserver,数百个client。所有机器的配置是,双核PIII1.4GHz处理器,2GB内存,两个80G,5400rpm硬盘,以及100Mbps全双工以太网连接到HP252

2、4交换机。所有19个GFS服务器连接在一个交换机,所有16个客户端连接在另一个上。两个交换机用1Gbps的线路连接。6.1.1读操作N个客户端从文件系统中并发读。每个客户端在一个320GB的文件集合里随机4MB进行读取。然后重复256次,这样每个客户端实际上读取了1GB数据。Chunkserver总共只有32GB内存,因此我们估计在linux的buffercache里最多有10%的命中率。我们的结果应该很接近一个几乎无缓存的结果。图3(a)展示了对于N个客户端的总的读取速率以及它的理论上的极限。当2个交换机通过一个1Gbps的链路连接时,它的极限峰值是125MB/s,客户端

3、通过100Mbps连接,那么换成单个客户端的极限就是12.5MB/s。当只有一个客户端在读取时,观察到的读取速率是10MB/s,达到了单个客户端极限的80%。当16个读取者时,总的读取速率的94MB/s,大概达到了链路极限(125MB/s)的75%,换成单个客户端就是6MB/s。效率从80%降到了75%,是因为伴随着读取者的增加,多个读者从同一个chunkserver并发读数据的概率也随之变大。6.1.2写操作N个客户端并行向N个不同的文件写数据。每个客户端以1MB的单个写操作总共向一个新文件写入1GB数据。总的写速率以及它的理论上的极限如图3(b)所示。极限值变成了67M

4、B/s,是因为我们需要将每个字节写入到16个chunkserver中的3个,每个具有12.5MB/s的输入连接。单个客户端的写入速率是6.3MB/s,大概是极限值的一半。主要原因是我们的网络协议栈。它不能充分利用我们用于chunk副本数据推送的流水线模式。将数据从一个副本传递到另一个副本的延迟降低了整体的写速率。对于16个客户端,总体的写入速率达到了35MB/s,平均每个客户端2.2MB/s,大概是理论极限的一半。与写操作类似,伴随着写者的增加,多个写者从同一个chunkserver并发写数据的概率也随之变大。另外对于16个写者比16个读者更容易产生碰撞,因为每个写者将关联

5、到3个不同的副本。写者比我们期望的要慢。在实际中,这还末变成一个主要问题,因为尽管它可能增加单个客户端的延时,但是当系统面对大量客户端时,其总的写入带宽并没有显著的影响。6.1.3记录追加图3(c)展示了recordappend的性能。N个客户端向单个文件并行的append。性能取决于保存了该文件最后那个chunk的那些chunkserver,与客户端的数目无关。当只有一个客户端时,能达到6.0MB/s,当有16个客户端时就降到了4.8MB/s。主要是由于拥塞以及不同的客户端的网络传输速率不同造成的。我们的应用程序倾向于并行创建多个这样的文件。换句话说,N个客户端向M个共享

6、文件并行append,在这里N和M通常是几十甚至几百大小。因此在我们的实验中出现的chunkserver的网络拥塞问题在实际中并不是一个显著的问题,因为当一个文件的chunkserver比较繁忙的时候,它可以去写另一个。6.2现实的集群我们选择在google内部使用的两个集群进行测试作为相似的那些集群的一个代表。集群A主要用于100多个工程的日常研发。它会从数TB的数据中读取数MB的数据,对这些数据进行转化或者分析,然后将结果再写回集群。集群B主要用于产品数据处理。它上面的任务持续时间更长,持续地在生成和处理数TB的数据集合,只是偶尔可能需要人为的参与。在这两种情况下,任务

7、都是由分布在多个机器上的很进程组成,它们并行的读写很多文件。6.2.1存储正如表中前5个字段所展示的,两个集群都有数百个chunkserver,支持TB级的硬盘空间,空间已经被充分使用但还没全满。已用的空间包含chunk的所有副本。通常文件存在三个副本,因此这两个集群实际分别存储了18TB和52TB的数据。这两个集群的文件数目很接近,尽管B集群有大量的死文件(那些已经被删除或者被新版本文件所替换但空间还没有被释放的文件)。而且它具有更多的trunk,因为它上面的文件通常更大。6.2.2元数据所有的Chunkserv

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。