xx大学高性能计算集群系统方案内容摘要:

系统管理软件等。 它是集群系统投入应用的前提,所以集群系统的安装是一件非常重要的任务。 一般集群系统由几十台,甚至上百上千台计算机组成,显然手工安装系统几乎是不可能的。 集群应 用资源项目的成立,就是用来研究集群管理的问题,并提供了一个解决方案。 这个项目所产生的结果是 OSCAR 包,它在一个软件包中提供了最出色的基于标准的安装和管理工具。 . 整体架构设计 整体架构设计即是通过对 科大现有 应用进行详细的分析从而获得 实施 集群系统的整体连接结构设计方案。 该设计方案主要针对以下的几点: 采用何种体系结构的处理器系统。 事实上,目前市场上可以制作 Beowulf 集群系统的处理器主要包括 Intel 的 Xeon、 P4以及 AMD 的 Althon 和 Opteron。 这些处理器虽然都符合 X86 标准,但是由于在体系结构 的设计上的不同使得这些处理器具有各自的特点。 特别是针对不同的应用,这些处理器往往会体现出截然相反的性能表现。 因此根据用户应用程序的编程特点,选择合适的CPU 帮助用户获得最大程度的性能价格比将成为该项服务的一个重点。 采用何种的网络设计。 目前市面上流行多种传输网络,有百兆以太网、千兆以太网以及各种专用的高性能网络如 Myri、 Infiniband 等,通过这个阶段的设计,我们可以帮助用户选择一款具有最有性能价格比的网络产品来搭建 Beowulf 集群系统。 节点功能的分配。 在 集群软件 中,通常会包含一个管理节点和 一些计算节点,在一些功能复杂的集群系统中,甚至还包括登陆节点、 IO 节点以及监控节点等,所以利用多种功能的节点以获得集群的最佳管理和使用的能力,是需要谨慎的评估的。 节点数量的估计。 事实上节点数量的估计是一个复杂的系统优化过程,需要对用户的应用系统有着非常充分的了解。 曙光公司的节点评估服务将包括压力测试、功能测试、系统建模、优化评估和优化整合几个部分,通过这些专业的优化服务,可以帮助用户购买一个性价比更高同时兼容性扩展性更好的集群系统。 国防科技大学理学院物理系高性能计算集群系统方案 湖南生力科技有限公司 7 . 集群软件以及网络结构 本项目采用 OSCAR 作为 集成软件包,它集成了众多 的高性能计算相关的软件,比如 SIS, C3, OpenPBS, MPI, PVM 等等,下面对这些软件包进行深入介绍。 . 使用 SIS( System Installer Suite)安装和维护集群系统 SIS 是用来安装 cluster 的工具,说具体点,是用来通过网络安装系统的工具( linux 系统)。 由于多种原因被 OSCAR 使用:  SIS 是高质量的,第三方的,开放的成熟系统,已经应用于成熟的产品环境。  不需要 client 安装系统。  SIS 使用 rpm 作为标准安装方式。  它支持异构的计算机和软件的安装。 (这点还没有被 OSCAR 利用 ) 管理员使用 SIS 来引导节点的安装 , 其中包括内核引导、磁盘分区、文件系统格式化和基础操作系统的安装。 管理员还可以使用安装映像来维护集群节点。 更改以前部署的映像就象更改本地的文件系统一样直接。 管理员可以更新映像,然后使用 rsync 来更新集群节点上的本地文件系统。 这种方法可以用来安装和管理整个集群。 SIS 由两个核心工具组成, Systemimager 和 LUI。 其中 Systemimager 是一个基于镜像( Image)的安装和维护工具, LUI 是一个基于资源的集群安装工具。 SIS 具有以下特 性:  我们可以在一个 Image server 中存储很多不同的系统镜像。  一个存在的计算机可以获取这些镜像。  我们可以直接用一些包在 Image server 上生成镜像。  在安装过程中我们通过 rsync 传播镜像。  由于使用了 rsync,传播镜像和维护镜像的工作变得更加容易。 通过运用 SIS,我们可以:  更快更有效地安装集群  更有效地维护集群 国防科技大学理学院物理系高性能计算集群系统方案 湖南生力科技有限公司 8  甚至可以更改文件系统  更加容易地进行系统备份。 . 使用 C3 工具方便管理节点 为了方便地管理集群系统,一些管理者只是简单地通过 NFS 把一个管理节点的文件系统 mount到其余节点 中。 这样的做法非常缺乏可扩展性。 ORNL(Oak Ridge Nation LIB)正在开发帮助用户对 PC Cluster 进行系统管理的接口。 其中 C3( Cluster Command Control)这个强大的工具为集群的系统管理提供了一个命令行界面( CLI)。 它是 ORNL 开发用来管理和使用自己的 HIGHTORC Cluster 的一套工具。 主要代码利用 Python2 编写,因此需要 Python 包。 它的作用主要包括全 Cluster 范围内的命令执行、文件发布和收集、远程关机和重起、系统映像的更新等工具。 这些工具方 便了在各个节点执行命令,使用户可以输入一个同时在所有的集群节点上运行的命令。 这些命令包括: • cexec: 在所有节点运行一些标准命令。 • cget: 在所有节点上获得文件或者文件夹 • ckill: 结束一个用户指定的进程 • cpush: 向所有节点分发文件 • cpushimage: 用一个 Systemimager 产生的镜像文件更新系统节点的镜像 • crm: 在各个节点上删除文件 • cshutdown: 在各个节点上关机或者重起 • um: 获得一个节点的排列号(已知节点名字) • ame: 获得节点的名字(已知节点排列号) • clist: 得到所有 Cluster 名和 Cluster 的特性。 例如 cexec cluster1:15 cluster2:26 ls – l:在 cluster1 的 1- 5 节点和cluster2 的 2- 6节点运行 l。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。