航天二院设计仿真和优化统一it综合应用服务平台建设方案(修订版20)内容摘要:

天二院 IT 综合应用服务平台的管理建设一个良好的、可扩展的体系架构。 系统架构 硬件的系统结构 二院的硬件结构如下图所示: 航天二院设计、仿真和优化统一 IT 综合应用服务平台 建设方案 2020 7 | Page 图 1 系统的硬件系统结构 结构分析: 1) 整个应用服务平台可以通过防火墙进行封装,只在防火墙上开放特定服务端口供用户访问,以提高系统的安全性。 2) 整个系统使用 NIS 进行用户认证,一台单独的认证服务器作为 NIS Master。 其他管理节点作 为 NIS Slave,提高可靠性。 3) 应用服务平台对外将向用户提供浏览器访问方式,即用户可以通过浏览器,访问应用服务平台,运行相应的应用程序,操作相关数据。 用户需要运行仿真或优化计算任务时,使用浏览器将任务提交到计算服务器上运行;用户需航天二院设计、仿真和优化统一 IT 综合应用服务平台 建设方案 2020 8 | Page 要运行三维设计任务时,通过浏览器在图形服务器上运行相应任务,并将图形界面显示到用户桌面机上,进行相关交互设计。 4) 对于应用程序许可证服务,推荐使用三机冗余的模式,所有应用程序许可证( Pro/E, Nastran, Ansys, Fluent, Abaqus 等)在申请时都使用三台机 器的网卡号,这样只要有两台服务器正常,许可证服务就不会中断,保证许可证服务的可靠性和连续性。 许可证服务器将不运行任何新的服务,但会定期被主节点通过远程命令查询状态,用于许可证的调度和管理。 5) 应用服务平台需要配置六台服务器用于平台的管理和维护,它们分别是: 主调度服务器,用于计算服务器的统一管理和调度;并提供许可证调度管理功能和报表数据收集相关服务。 Web Portal 服务器,提供基于浏览器的用户访问;并作为容错服务器,提供更高的可靠性。 PA Server 服务器,用于集群系统数据采集、转化和加载的统一管理 和调度。 PA Node 服务器,用于计算集群系统各种运行数据的采集。 Vertica 数据库服务器,用于存储集群系统运行和使用数据。 Tableau 报表服务器,用于报表分析,并提供计费账单。 6) 整个系统部署分为两部分: 计算服务器直接安装相应的操作系统,然后安装作业调度软件 LSF; 三维图形服务器,部署要求的操作系统以及 DCV2+VNC,然后在每种操作系统上安装作业调度软件 LSF。 用户端安装 DCV Viewer+VNC。 7) 对于存储系统,建议使用 SAN 架构,并配合并行文件系统(或集群文件系统)实现多台机器同时 访问同一存储区域。 建议将 San 存储单独划一个区域,大小 4TB,用于存放用户家目录、应用程序安装目录等。 2 Desktop Cloud Virtualization: NICE 公司 2D/3D 图形工作站共享软件。 航天二院设计、仿真和优化统一 IT 综合应用服务平台 建设方案 2020 9 | Page 管理 软件 的系统架构 整个方案的系统架构如下所示,从系统架构图可以看出,本方案从用户访问、资源管理到后端资源使用实时监控,以及统计分析和计费,提供了一整套解决方案。 图 2 调度系统的架构 交互式应用程序集成软件系统架构 DCV(Desktop Cloud Visualization)使用户在瘦客户端上就可以享用远程的高端图形工作站 3。 3 此处对图形工作站的操作系统要求 为 Windows7,用户浏览器为 IE8/9, Mozilla Firefox 9, 10 航天二院设计、仿真和优化统一 IT 综合应用服务平台 建设方案 2020 10 | Page 图 3 DCV 的部署结构 航天二院设计、仿真和优化统一 IT 综合应用服务平台 建设方案 2020 11 | Page 3 系统详细设计 资源服务 平台 门户系统 门户系统的整体层次架构如下图所示 ,本节将分别将如下功能拆解介绍。 图 4 资源服务平台门户 门户的整体功能架构 本方案提供使用浏览器通过 Web Portal 服务器进行访问和调用 4。 整个系统所提供的功能 5如下图所示: 4 PAC 最新版本支持 IE8/9,如果需要移植到 IE6 支持,需另外增加 Professional Service 工作。 5 因整合工程网站的功能还没有细化,因此此图不包括整合部分的功能。 航天二院设计、仿真和优化统一 IT 综合应用服务平台 建设方案 2020 12 | Page 图 5 WEB PORTAL 功能航天二院设计、仿真和优化统一 IT 综合应用服务平台建设方案 2020 13 | Page 高性能计算应用 在门户中提供了 二院高性 能计算商业应用与内部开发环境在集群中的整合。 集成整合后,用户在门户上就可以提交并管理自己的高性能计算任务,基于调度策略的共享高性能计算的硬件和软件资源。 高性能计算应用涵盖了批处理式,以及 2D/3D的交互式应用。 统计报表和计费 投资回报分析的核心是将资源的使用过程从黑箱转变为白箱,从而使资源的使用情况和人员的工作情况向企业管理层透明,管理层可以通过分析结果找出投资中的不足,为下一步投资提供参考。 一个企业最关心的,应该是下面几种统计分析结果:  各种资源( CPU,内存,许可证等)的利用率,并通过分析找出影响系统性能的资源瓶颈,从而为进一步的投资提供依据。  个人、项目和部门等工作情况分析,通过分析找出人员的工作效率和项目和部门的运营效率,为进一步提高效率提供参考。  记账。 统计用户和公司 CPU 时间和许可证时间,为外部计费和内部核算提供有力保证。  IT 的服务水平分析,减少因系统不正常工作对用户的影响。  安全审计分析,减少系统安全漏洞。 基于 Platform Analysis 的报表系统是针对企业的需求,提供了上述的统计分析功能。 报表系统需 包含统计分析和 计费 功能, 报表系统需详细记录高性能计算系统资源的 使用情况,分析关键指 标,如最大用户 、 平均吞吐量 、 平均等待时间 、 最大等待时间 、 实时许可证使用情况等等,从而可优化调度策略,并为软件采购、硬件规划提供科学的可靠的数据支持。 报表分析系统需 采用先进的关系数据库系统和在线航天二院设计、仿真和优化统一 IT 综合应用服务平台建设方案 2020 14 | Page 联机分析系统,快速挖掘 系统 数据,并将数据图形化,通过浏览器生成图表直观的显示给客户,并可以管理多个 子系统 数据。 用户“三员”管理 为了保障用户账户的安全性, 本方案采用系统管理员,安全管理员,安全审计管理员。 三种管理权限分离地方式,实现用户账户的安全性。 其中各单位安全管理员负责审核和管理各单位用户账户(如:开户、销户、变 更等),并将经过确认的用户管理信息传递给系统管理员;系统管理员只能根据安全管理员指定的管理信息,进行实际的用户管理(如:创建账户、删除账户、修改账户等);而安全审计管理员则负责对整个用户管理流程的审计,对及时发现非法操作(如:系统管理员直接创建用户账户等)。 与二院工程资源中心网站整合 按照二院的需求,本方案将现有的工程资源中心的网站内容和功能与 PAC portal 进行整合,整合后实现风格统一,方便易用,友好的服务平台门户。 具体需求和功能 尚未细化。 其他功能 相关的应用功能,如新闻发布、论坛交流、发布文章、 软件下载等。 集群硬件以及许可证资源管理 集群硬件和许可证资源的管理通过调度策略来实现。 调度策略决定了资源的 共享 方式进而决定了资源的使用效率。 航天二院设计、仿真和优化统一 IT 综合应用服务平台建设方案 2020 15 | Page 本方案基于流行并且成熟的商用调度软件 Platform LSF, 在 基础的调度策略之外,提供了丰富且实用的调度策略,管理员可以根据实际需要按需定制调度策略。 请参见本节如下内容。 许可证资源与硬件资源的两层调度 许可证资源是昂贵的,为了充分的利用许可证资源,防止关键资源的独占,在应用被派发之前,需要经过许可证资源与硬件资源的两层调度。 本方案完全满足第一节系统需求分析部分的 对软件可证管理要求的细节功能 6。 许可证资源的调度可以促使 许可证 资源的合理分配。 使所有用户、项目和研究所下属各部门公平合理地使用许可证资源,并提供优先级控制,让优先级高的用户尽快获得所需的许可证。 避免了无效占用。 下节将详述许可证调度策略。 6 请参见 节需求。 航天二院设计、仿真和优化统一 IT 综合应用服务平台建设方案 2020 16 | Page 图 6 许可证资源与硬件资源的两层调度 软件许可证的调度策略 1) 许可证的使用份额控制 Platform License Scheduler 提供了按项目( Project)分配许可证使用份额的功能, 用户通过客户端命令打包运行 应用 程序 时,相应地项目也会被指定。 系统管理员可以配置对于每种许可证每个项目的使用份额。 License Scheduler 可以根据项目对许可证的使用量,动态计算用户的优先级,并根据优先级来响应用户的请求,从而保证各项目都能公平合理地使用许可证资源。 特别是当许可证不足时, License Scheduler 将根据用户的优先级排队调度用户的任务。 License Scheduler还提供认证机制防止用户将应用程序运行在非法的项目下,不合法的请求将被拒绝,以保证项目使用份额控制的准确性。 航天二院设计、仿真和优化统一 IT 综合应用服务平台建设方案 2020 17 | Page 对于按部门来划分用户的情况, 可以 将部门映射为项目来解决。 每个部门可以设定一个或多个项目,并设置相应的使用份额。 2) 优先级管理 License Scheduler 提供许可证 所有权 ( License Ownership)保留和许可证抢占( License Preemption)功能可轻易实现许可证使用的优先级管理。 许可证所有权保留是指规定数量的某种许可证必须为某项目所有,当该项目不使用这些许可证时,它们可以被其他项目使用;一旦该项目要使用这些许可证时, License Scheduler 将强制中止其他项目对这些许可证的使用。 许可证抢占是保证许可 证所有权的一种手段, License Scheduler 通过许可证抢占功能,将正在运行的应用程序挂起,然后收回其正在使用的许可证,供具有所有权的项目使用。 对于时间紧急的任务,我们可 设置 一个高优先级的项目,该项目拥有所有的许可证。 这样一旦用户通过该项目启动应用程序, License Scheduler 将保证用户在任何情况下都能立刻获得需要的许可正。 系统管理员可以通过改变许可证的认证配置,指定可使用高优先级项目的用户,和每个用户可使用地许可证数量,以防止高优先级项目被滥用。 支持许可证抢占的部分软件列表: Vendor Product Product Version Support Avanti Hspice + LP Cadence NCVHDL + LP Cadence NCVerilog + LP Cadence NCSim + LP Denali Software MMAV LP Mentor Graphics ModelSim/ModelTech + CR Mentor Graphics Calibre/Xcalibre LP Nassda HSIM + LP 航天二院设计、仿真和优化统一 IT 综合应用服务平台建设方案 2020 18 | Page Synopsys VCS Verilog 2020+ LP Verisity Specman + LP LP = License Preemption. Preempted jobs release license on suspension 表 1 支持许可证抢占的部分软件列表 基础调度策略 Platform LSF 提供通用的基础调度策略: 1) 抢占式调度功能 :系统 可自定义抢占性调度时,所有作业的抢占调度等级,指示系统按照此等级来决定作业所在的等级,从而进行抢占性调度这样,在实际管理中高优先级的项目或用户总能迅速地获得所需要的计算资源。 2) 公平调度 功能: 保证服务器资源能被合理分配和使用。 公 平式调度能规定用户或用户组对计算资源的使用分额,保证计算资源能 按照管理员给用户或用户组所分配的额度 公平合理的使用。 3) 轮循式调度 :对于在排队的作业,对用户采取轮循的方式调度每个用户的作业。 4) 先进先出:作业按照被提交的先后顺序进。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。