企业高性能计算解决方案内容摘要:

Jobkeeper任务调度系统的基本组成和主要功能。 cStor 系统基本组成 cStor 云存储资源管理系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。 它采用包括卷管理服务器、元数据管理服务器( Master Server)、数据存储节点服务器( Chunk Server)和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。 在每个服务器节点上运行 cStor 云存储资源管理系统的相应的软件服务程序模块。 系统架构框图如下图所示。 cStor 云存储资源管理系统架构 其中, Master Server 保存系统的元数据,负责对整个文件系统的管理, Master Server在逻辑上只有一个,但采用主备双机镜像的方式,保证系统的不间断服务; Chunk Server负责具体的数据存储工作,数据以文件的形式存储在 Chunk Server 上, Chunk Server 的个数可以有多个,它的数目直接决定了 cStor 云存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在 Chunk Server 上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。 由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间,不同的卷空间由卷管理服务器虚拟化统一管理,对外可提供统一的海量存储空间。 管理 监 控中心提供统一易用的 WEB 配置管理监控平台,提供设备监控、 空间监控、文件监控、服务监控、用户认证管理、配额管理、故障告警及预警等功能,实现智能化管理。 这种分布式系统最大的好处是有利于存储系统的扩展和实现,在小规模的数据扩展时,只需要添加具体的 Chunk Server 即可,而不需要添加整套设备。 在实现大规模扩展时也可方便地添加整个卷设备。 cStor 系统功能描述 cStor 云存储资源管理系统从功能上划份为三大部分: 1) cStor 分布式 文 件 系统 分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功能。 2) 存储访问接口 cStor 提 供符合 POSIX 规范的文件系统访问接口,通过 cStor 访问挂接程序可将云存储空间挂接为本地目录或磁盘。 同时可提供专用的 API 接口,支持业务应用层程序对云存储系统的直接访问。 3) 管理 监控中心 管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。 下面逐一详细介绍各部分系统功能。 cStor 分布式 文 件 系统 cStor 分布式 文 件 系统 包括卷管理、元数据管理、块数据管理服务。 参考上面系统架构框图左侧部分。 元数据是指文件的名称、属性、数据块位置信息等,元数据管理通过元数据服务程序完成。 因元数据访问频繁,故系统将元数据加载缓存至内存中管理,提高访问效率。 由于元数据的重要性,元数据损坏或丢失则相当于文件数据丢失,因此实现了元数据服务器主备双机高可用,确保724小时不间断服务。 通过元数据远程多机冗余备份功能,实现在多台其它机器上备份元数据,当元数据服务器损坏,可以通过备份的元数据重新恢复服务,切保数据可以完整找回。 块数据是指文件数据被按照一定大小(默认 64MB)分割而成的多个数据块,分布存储到不同的存储节点服务器上,并通过编解码容错算法产生相应的冗余块。 块数据服务是运行在每个存储节点服 务器上的块数据管理程序,负责使用存储服务器上的磁盘空间存储文件数据块,并实现相应的编解码功能。 相比较传统业界的云存储采用块数据简单备份冗余容错机制,编解码容错方式大大降低了硬件资源冗余度,提高了磁盘利用率。 由一对主备元数据服务器及其所管理的块数据服务器管理节点设备及其所提供的存储空间称为一个卷。 卷管理服务器负责将多个卷虚拟化整合,对外提供统一的整体访问云存储空间。 文件系统采用中心服务器模式分布式存储架构,控制流与数据流分离,通过增加存储节点 系统采用自动注册机制,实现系统高可伸缩性,增加或减少存储节 点规模,不影响系统正常提供存储访问服务。 该系统架构实现了统一调度,负载均衡和流量自动分担功能,多个存储节点同时对外提供数据流服务,系统根据磁盘空间使用比例进行资源优化配置。 同时在多个不同的存储节点之间实现根据空间比例进行优化配置,数据优先存储的空间利用比例相对较低的磁盘或存储服务器上。 cStor 分布式 文 件 系统 具有自动冗余重 建 功能 , 确保损坏的数据块能够被解码或编码后存储到在线的正常的存储服务器节点上。 存储访问接口 cStor 分布式文件系统提供符合 POSIX 规范的文件系统访问接口。 支持 Linux、Windows、 MaxOS X 等操作系统平台。 可将云存储系统提供的存储空间挂接为本地目录或本地盘符来使用。 用户操作云存储空间和操作本地文件相同。 另外 cStor 提供专用的高速存取访问 API 接口,供性能要求很高的高端应用程序对接使用。 管理监控中心 管理监控中心为系统管理员配置和维护 cStor 云存储资源管理系统的有效工具,充分体现了系统的可维护性。 管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。 以下为部分系统管理界面。  设备管理  系统监控  告警信息  告警配置  告警日志  故障处理  卷管理  帐户管理  添加帐户 Jobkeeper 系统基本组成 Jobkeeper 的系统架构如下图所示: 上图中对 Jobkeeper 进行了分层,对每层进行具体阐述  虚拟化资源层:将机器进行虚拟化,形成更大范围的服务集群。  存储层:存储数据的处理结果集或其他中间结果集的单元。  数据处理层:独立的数据处理程序,是对不同需求数据的统一处理方案,由JobKeeper 调度平台进行统一的配置管理。  业务层:对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。  应用层:一组用于管理和结果反馈的显示组件。 是整个系统面向用户和开发人员的基础承载。 JobKeeper 的任务分发流程如下图所示: JobKeeper 任务分发流程图 当用户在应用层下发任务给管理节点,管理节点调度机器采集机器节点的信息,根据具体的算法选取最优节点并分发任务,接下来具体的处理节点接收到任务并处理同时将结果返回给管理节点,管理节点整理汇总处理结果,而后返回给应用层。 服务器 节点组:负责对处理节点的系统信息以及任务处理信息进行实时的跟踪和保存,对应的信息镜像存储在基于 cStor 或者 NFS 服务的存储系统上。 处理节点组:通过 RPC 的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。 处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次,报告节点存活状态。 4 系统安全性设计 安全保障体系框架 NSA 提出的信息安全保障技术框架( IATF),如下图所示。 IATF 依据“深度防护战略”理论,要求从整体、过程的角度看待信息安全问题, 强调人、技术、操作这三个核心原则,关注四个层次的安全保障:保护网络和基础设施、保护边界、保护计算环境、支撑基础设施。 图表 基于深度防护战略的 IATF 模型 IATF 模型从深度防护战略出发,强调人、技术和操作三个要素: 人:人是信息的主体,是信息系统的拥有者、管理者和使用者,是信息保障体系的核心,是第一位的要素,同时也是最脆弱的。 正是基于这样的认识,安全组织和安全管理在安全保障体系中是第一位的,要建设信息安全保障体系,首先必须建立安全组织和安全管理,包括组织管理、技术管理和操作管理等多个方面。 技术:技术是实现信息安全保障的重要手段,信息安全保障体系所应具备的各项安全服务就是通过技术机制来实现的。 当然 IATF 所指的技术是防护、检测、响应、恢复并重的、动态的技术体系。 操作:也可称之“运行”,它体现了安全保障体系的主动防御,如果说技术的构成是被动的,那操作和流程就是将各方面技术紧密结合在一起的主动过程,运行保障至少包括安全评估、入侵检测、安全审计、安全监控、响应恢复等内容。 信息安全保障体系的实现就是通过建立安全组织、安全管理和防护技术体系,协调组织、技术、运作三者之间的关系,明确技术实施和安全操作 中技术人员的安全职责,从网络和基础设施、区域边界、计算环境、支撑基础设施等多层次保护,从而达到对安全风险的及时发现和有效控制,提高安全问题发生时的反应速度和恢复能力,增强网络与信息的整体安全保障能力。 对于 云计算安全参考模型 , 云安全联盟 CSA( Cloud Security Alliance)提出了基于 3 种基本云服务的层次性及其依赖关系的安全参考模型 ,并实现了从云服务模型到安全控制模型的映射。 该模型显示 PaaS 位于 IaaS 之上 ,SaaS 位于 PaaS 之上。 该模型的重要特点是供应商所在的等级越低 ,云服务用户所要承 担的安全能力和管理职责就越多。 根据资源或服务的管理权、所有权和资源物理位置的不同 ,CSA 也给出了不同的云部署模型的可能实现方式及其不同部署模式下共享云服务的消费者之间的信任关系 ,如下 图所示。 图表 云部署模型的实现 此图显示 ,对于私有云和社区云 ,有多种实现方式 ,可以和公共云一样 ,由第三方拥有和管理并提供场外服务( offpremises) ,所不同的是共享云服务的消费者群体之间具有信任关系 ,局限于组织内部和可信任的群体之间。 对于每一种云部署实现方式 ,都可以提供 3 种基本的云服务。 云部署实现的不同 方式和基本云服务的组合构成不同的云服务消费模式。 结合云服务安全参考模型 ,可以确定不同的云服务消费模式下供应商和用户的安全控制范围和责任 ,用户评估和比较不同云服务消费模式的风险及现有安全控制与要求的安全控制之间的差距 ,做出合理的决策。 云计算平台的多级信任保护 云计算可信平台实现系统平台(计算环境)认证、应用系统完整性认证、分布式资源信任认证和用户身份认证 4 个层次。 多层信任保护的具体结构如下图所示。 图表 多级信任保护 在上图中,平台认证是基础,为其他 3 种认证提供一个可靠的计算环境。 平台认证、应用认证、资 源认证和用户认证都通过统一的证书机制来实现。 ( 1)云平台信任保护 由于 TPM( trust platform module)规范能够支持现有的公钥基础设施,并且 TPM内部的认证密钥和 64 位物理唯一序列号都能很好地实现自身和平台的绑定。 因此可信平台之间的信任关系可以借助基于可信第三方的证书机制来保障。 即每一个节点将能够代表自身特征的关键信息以可靠地方式提交到可信第三方(如 CA 中心),可信第三方在核实这些数据的真实性和完整性后对其签名,并为其颁发一个平台证书。 此后,该平台在和其他平台通信时可以出示该证书,以表明 自己的合法身份。 平台在向可信第三方提交平台信息和验证其他平台证书合法性时,都需要借助 TPM 的硬件支持。 在下图所示的实例中,云平台 A 和 B 都从证书颁发中心获得自己的平台证书。 当 B 请求与 A 建立连接并向 A 出示自己的证书后, A 借助 TPM 验证 B 出示的证书的有效。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。