欢迎来到天天文库
浏览记录
ID:18594150
大小:496.50 KB
页数:8页
时间:2018-09-19
《google论文2-google文件系统(下)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、【google论文二】Google文件系统(下) 2010-10-0117:15:34
2、 分类:搜索与分布式
3、 标签:集群 chunkserver 文件系统 append master
4、字号大中小 订阅 转载请注明:http://duanple.blog.163.com/blog/static/7097176720109151534289/ 作者phylips@bmy 6.测量在这一节,我们用一些小规模的测试来展示GFS架构和实现固有的一些瓶颈,有一些数字来源于google的实际集群。 6.1小规模测试我们在一个由一个master,两个ma
5、ster备份,16个chunkserver,16个client组成的GFS集群上进行了性能测量。这个配置是为了方便测试,实际中的集群通常会有数百个chunkserver,数百个client。 所有机器的配置是,双核PIII1.4GHz处理器,2GB内存,两个80G,5400rpm硬盘,以及100Mbps全双工以太网连接到HP2524交换机。所有19个GFS服务器连接在一个交换机,所有16个客户端连接在另一个上。两个交换机用1Gbps的线路连接。 6.1.1读操作N个客户端从文件系统中并发读。每个客户端在一个320GB的文件集合里随机4MB进行读取。然后重复2
6、56次,这样每个客户端实际上读取了1GB数据。Chunkserver总共只有32GB内存,因此我们估计在linux的buffercache里最多有10%的命中率。我们的结果应该很接近一个几乎无缓存的结果。 图3(a)展示了对于N个客户端的总的读取速率以及它的理论上的极限。当2个交换机通过一个1Gbps的链路连接时,它的极限峰值是125MB/s,客户端通过100Mbps连接,那么换成单个客户端的极限就是12.5MB/s。当只有一个客户端在读取时,观察到的读取速率是10MB/s,达到了单个客户端极限的80%。当16个读取者时,总的读取速率的94MB/s,大概
7、达到了链路极限(125MB/s)的75%,换成单个客户端就是6MB/s。效率从80%降到了75%,是因为伴随着读取者的增加,多个读者从同一个chunkserver并发读数据的概率也随之变大。6.1.2写操作N个客户端并行向N个不同的文件写数据。每个客户端以1MB的单个写操作总共向一个新文件写入1GB数据。总的写速率以及它的理论上的极限如图3(b)所示。极限值变成了67MB/s,是因为我们需要将每个字节写入到16个chunkserver中的3个,每个具有12.5MB/s的输入连接。 单个客户端的写入速率是6.3MB/s,大概是极限值的一半。主要原因是我们的网络
8、协议栈。它不能充分利用我们用于chunk副本数据推送的流水线模式。将数据从一个副本传递到另一个副本的延迟降低了整体的写速率。 对于16个客户端,总体的写入速率达到了35MB/s,平均每个客户端2.2MB/s,大概是理论极限的一半。与写操作类似,伴随着写者的增加,多个写者从同一个chunkserver并发写数据的概率也随之变大。另外对于16个写者比16个读者更容易产生碰撞,因为每个写者将关联到3个不同的副本。 写者比我们期望的要慢。在实际中,这还末变成一个主要问题,因为尽管它可能增加单个客户端的延时,但是当系统面对大量客户端时,其总的写入带宽并没有显著的影响。
9、 6.1.3记录追加图3(c)展示了recordappend的性能。N个客户端向单个文件并行的append。性能取决于保存了该文件最后那个chunk的那些chunkserver,与客户端的数目无关。当只有一个客户端时,能达到6.0MB/s,当有16个客户端时就降到了4.8MB/s。主要是由于拥塞以及不同的客户端的网络传输速率不同造成的。 我们的应用程序倾向于并行创建多个这样的文件。换句话说,N个客户端向M个共享文件并行append,在这里N和M通常是几十甚至几百大小。因此在我们的实验中出现的chunkserver的网络拥塞问题在实际中并不是一个显著的问题,因
10、为当一个文件的chunkserver比较繁忙的时候,它可以去写另一个。6.2现实的集群我们选择在google内部使用的两个集群进行测试作为相似的那些集群的一个代表。集群A主要用于100多个工程的日常研发。它会从数TB的数据中读取数MB的数据,对这些数据进行转化或者分析,然后将结果再写回集群。集群B主要用于产品数据处理。它上面的任务持续时间更长,持续地在生成和处理数TB的数据集合,只是偶尔可能需要人为的参与。在这两种情况下,任务都是由分布在多个机器上的很进程组成,它们并行的读写很多文件。 6.2.1存储 正如表中前5个字段所展示的,两个集群都有数百个chunk
11、server,支持TB级的硬盘空间,空间已经被充分使
此文档下载收益归作者所有