首页 >  云服务器 >  Google文件系统GFS系统架构

Google文件系统GFS系统架构

来源:VPS之家作者:admin发布时间:2017-5-11 09:30阅读量:180
摘要: GFS的系统架构如图1所示。GFS将整个系统的节点分为三类角色:Client(客户端)、Master(主服务器)和Chunk Server(数据块服务器)。Client是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以 ...
GFS的系统架构如图1所示。GFS将整个系统的节点分为三类角色:Client(客户端)、Master(主服务器)和Chunk Server(数据块服务器)。Client是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库链接在一起。Master是GFS的管理节点,在逻辑上只有一个,它保存系统的元数据,负责整个文件系统的管理,是GFS文件系统中的“大脑”, Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server上,Chunk Server的个数可以有多个,它的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个Chunk(数据块),每个Chunk都有一个对应的索引号(Index)。

图1  GFS体系结构

客户端在访问GFS时,首先访问Master节点,获取与之进行交互的Chunk Server信息,然后直接访问这些Chunk Server,完成数据存取工作。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流,而无数据流,极大地降低了Master的负载o Client与Chunk Server之间直接传输数据流,同时由于文件被分成多个Chunk进行分布式存储,Client可以同时访问多个Chunk Server,从而使得整个系统的I/O高度并行,系统整体性能得到提高。

针对多种应用的特点,Google从多个方面简化设计的GFS,在一定规模下达到了成本、可靠性和性能的最佳平衡。具体来说,它具有以下几个特点。

1.采用中心服务器模式

GFS采用中心服务器模式管理整个文件系统,简化了设计,降低了实现难度。Master管理分布式文件系统中的所有元数据。文件被划分为Chunk进行存储,对于Master来说,每个Chunk Server只是一个存储空间。Client发起的所有操作都需要先通过Master才能执行。这样做有许多好处,增加新的Chunk Server是一件十分容易的事情,Chunk Server只需要注册到Master上即可,Chunk Server之间无任何关系。如果采用完全对等的、无中心的模式,那么如何将Chunk Server的更新信息通知到每一个Chunk Server,会是设计的一个难点,而这也将在一定程度上影响系统的扩展性。Master维护了一个统一的命名空间,同时掌握整个系统内Chunk Server的情况,据此可以实现整个系统范围内数据存储的负载均衡。由于只有一个中心服务器,元数据的一致性问题自然解决。当然,中心服务器模式也带来一些固有的缺点,比如极易成为整个系统的瓶颈等。GFS采用多种机制来避免Master成为系统性能和可靠性上的瓶颈,如尽量控制元数据的规模、对Master进行远程备份、控制信息和数据分流等。

2.不缓存数据

缓存(Cache)机制是提升文件系统性能的一个重要手段,通用文件系统为了提高性能,一般需要实现复杂的缓存机制。GFS文件系统根据应用的特点,没有实现缓存,这是从必要性和可行性两方面考虑的。从必要性上讲,客户端大部分是流式顺序读写,并不存在大量的重复读写,缓存这部分数据对提高系统整体性能的作用不大;对于Chunk server,由于GFS的数据在Chunk Server上以文件的形式存储,如果对某块数据读取频繁,本地的文件系统自然会将其缓存。从可行性上讲,如何维护缓存与实际数据之间的一致性是一个极其复杂的问题,在GFS中各个Chunk Server的稳定性都无法确保,加之网络等多种不确定因素,一致性问题尤为复杂。此外由于读取的数据量巨大,以当前的内存容量无法完全缓存。对于存储在Master中的元数据,GFS采取了缓存策略,因为一方面Master需要频繁操作元数据,把元数据直接保存在内存中,提高了操作的效率。另一方面,采用相应的压缩机制降低元数据占用空间的大小,提高内存的利用率。

3.在用户态下实现

文件系统是操作系统的重要组成部分,通常位于操作系统的底层(内核态)。在内核态实现文件系统,可以更好地和操作系统本身结合,向上提供兼容的POSIX接口。然而,GFS却选择在用户态下实现,主要基于以下考虑。

(1)在用户态下实现,直接利用操作系统提供的POSIX编程接口就可以存取数据,无需了解操作系统的内部实现机制和接口,降低了实现的难度,提高了通用性。
(2) POSIX接口提供的功能更为丰富,在实现过程中可以利用更多的特性,而不像内核编程那样受限。
(3)用户态下有多种调试工具,而在内核态中调试相对比较困难。
(4)用户态下,Master和Chunk Server都以进程的方式运行,单个进程不会影响到整个操作系统,从而可以对其进行充分优化。在内核态下,如果不能很好地掌握其特性,效率不但不会高,甚至还会影响到整个系统运行的稳定性。
(5)用户态下,GFS和操作系统运行在不同的空间,两者耦合性降低,方便GFS自身和内核的单独升级。

4.只提供专用接口

通常的分布式文件系统一般都会提供一组与POSIX规范兼容的接口,使应用程序可以通过操作系统的统一接口透明地访问文件系统,而不需要重新编译程序。GFS在设计之初,是完全面向Google的应用的,采用了专用的文件系统访问接口。接口以库文件的形式提供,应用程序与库文件一起编译,Google应用程序在代码中通过调用这些库文件的API,完成对GFS文件系统的访问。采用专用接口有以下好处。

(1)降低了实现的难度。通常与POSIX兼容的接口需要在操作系统内核一级实现,而GFS是在应用层实现的。
(2)采用专用接口可以根据应用的特点对应用提供一些特殊支持,如支持多个文件并发追加的接口等。
(3)专用接口直接和Client、Master、Chunk Server交互,减少了操作系统之间上下文的切换,降低了复杂度,提高了效率。

鲜花

握手

雷人

路过

鸡蛋
最新图文推荐
  • 2
  • 3

相关阅读

发表评论

最新评论

图文推荐
热门排行
5G存储 10M带宽
X
新用户专享,1元主机1年
域名主机
1元主机
3G空间/50G流量/2M带宽
原价49元/年 注册领取
免费域名
注册会员领取免费域名
原价15元/年 注册领取
VPS主机
快云VPS基础型

限时抢:仅1元

加QQ群

快云官方QQ交流群

群名称:快云交流群

群   号:363200822

一键加群
快云交流群
回顶部
返回顶部