文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>分布式文件系统研究5:GPFS/Tiger Shark文件系统

分布式文件系统研究5:GPFS/Tiger Shark文件系统

时间:2007-04-16  来源:leejianzhou

历史

 

Tiger Shark是由IBM公司Almaden研究中心为AIX操作系统设计的并行文件系统,约1993年的时候完成。它被设计用于支持大规模实时交互式多媒体应用,如交互电视(interactive television, ITV)。基于Tiger Shark文件系统,可以构建大规模的视频服务器,并能以每秒6Mb的速度传递几百个并行的MPEG流。Tiger Shark文件系统已经应用到了RS/6000的完整的产品线上,从最小的桌面机到SP-2并行超级计算机。

IBM公司Almaden研究中心不断的对Tiger Shark文件系统进行完善和发展,并最终诞生了目前应用广泛的GPFS(General Parallel File System,通用并行文件系统,也就是Almaden's Tiger Shark file system的产品名字)。

1990年代后期,GPFS逐渐进入Linux操作系统,但未能获得有效的技术支持。目前,IBM公司已经逐步将GPFS转成开源软件,以期待获得更多的平台支持。

 

设计架构

 

                

                         图1 GPFS的系统框架

 

如上图,GPFS通过它的共享磁盘结构来实现它的强大的扩展性,一个GPFS系统由许多集群节点组成,GPFS文件系统和应用程序在上面运行。这些节点通过switch fabric连接磁盘和子磁盘。所有的节点对所有的磁盘有相同的访问权。文件被分割存储在文件系统中所有的磁盘上。

GPFS支持4096个每个容量达 1TB的磁盘,每个文件系统可以达到4 petabytes。产品中最大的单个GPFS文件系统是75TB,机器是ASCI White。GPFS支持64位文件接口。虽然它对大文件系统的支持不是只针对Linux集群的,但是数据结构和算法还是值得讨论的。

 

 

图2 GPFS系统配置图

在每个GPFS文件系统的存储节点上,系统配置框架如上图所示,主要由以下组件构成:

1.GPFS kernel module extension  (mmfs):核心扩展模块提供与Linux核心中VFS(虚拟文件系统)的接口。通过此模块,对GPFS文件系统的操作就像对普通文件系统一样。

2.Portability Layer module: PLM 提供linux核心与GPFS核心模块之间的通信,必须进行编译生成。

3.RSCT daemon:GPFS 中使用到了RSCT 守护进程中的两个服务:hagsd和hatsd。Hagsd 守护进程提供分布系统中信息同步和交换的功能;Hatsd 守护进程属于Topology 子系统,提供网卡状态、节点连通性等监控结果。

4.GPFS daemon (mmfsd):GPFS守护进程是GPFS 文件系统的核心进程,它保证所有的输入输出操作和缓冲区管理的正常。GPFS 守护进程是一个多线程进程,其中很多线程专门提供特定的服务,这样保证大量请求发生时,不会发生阻塞。GPFS 守护进程还负责与其它节点的GPFS 守护进程通信,来保证数据的一致性。

 

设计特点

 

为了支持高数据容量和多媒体文件的高并发访问,GPFS文件系统提供了如下的设计:

支持长时间的文件实时访问:GPFS通过2种方法来实现文件的长时间访问——资源预留策略和实时磁盘调度算法。资源预留策略为已有的客户端连接确保足够的磁盘带宽;实时磁盘调度算法则满足客户端的实时传输需求。

大磁盘块:一般的文件系统使用4KB作为磁盘块的大小,而GPFS为了支持多媒体文件的大数据流,使用256KB(也可以在16K到1M之间调节)的大型数据块作为磁盘块大小,最大限度地发挥磁盘的传输效率。

写分块:为了提高并行性,GPFS把文件分块存储到多个存储节点上,以并行访问的方式大大提高文件的数据吞吐量,并通过整个系统的负载均衡避免了某个磁盘过大的读写。

数据复制:通过复制文件系统元数据和文件数据,GPFS实现了一个较为简单的软件RAID模式,支持数据块级别的文件复制,以克服单点故障,提高系统可用性。

数据一致性:GPFS通过一套复杂的信令管理机制提供数据一致性;通过这套机制允许任意节点通过各自独立的路径到达同一个文件。即使节点无法正常工作,GPFS也可以找到其它的路径。

数据安全性:GPFS是一种日志文件系统,为不同节点建立各自独立的日志。日志种记录metadata的分布,一旦节点发生故障后,可以保证快速恢复数据。

系统可扩展性:GPFS可以动态调整系统资源;可以在文件系统挂载情况下添加或者删除硬盘,GPFS自动在各个节点间同步配置文件和文件系统信息。

 

总结

GPFS作为当今较成功的一个商业分布式文件系统,其显著特点是性能高、扩展性好,高可用。

但GPFS目前主要应用于IBM公司自身的AIX操作系统,其他平台则很难应用,且GPFS价格昂贵;同时,GPFS需要特殊的存储设备的支持,如典型的GPFS需要用双重附带的RAID控制器。这给普通用户构建集群服务器带来困难,并提高了成本。为了取得更多的平台支持,IBM已经将GPFS的源代码逐步公开。

虽然GPFS的性能优越,但GPFS的问题在于非常复杂的数据一致性处理和高延迟的数据传输。同时,由于设计的年代较早,并没有应用分布式文件系统领域的最新研究成果。随着SAN(存储区域网络)和 NAS(网络连接存储)两种结构逐渐成熟,研究人员开始考虑如何将两种结构结合起来。网格的研究成果等也推动了分布式文件系统体系结构的发展。为此,IBM公司在GPFS的基础上发展进化来的Storage Tank,以及基于Storage Tank的TotalStorage SAN File System,又将分布式文件系统的设计理念和系统架构向前推进了一步。

相关阅读 更多 +
排行榜 更多 +
The Ants游戏

The Ants游戏

策略塔防 下载
小小蚁国国际版app

小小蚁国国际版app

策略塔防 下载
地下蚂蚁帝国手机版游戏

地下蚂蚁帝国手机版游戏

策略塔防 下载