电力公司容灾解决方案内容摘要:

解网络连接,还需要专线做心跳监测,当主机 /应用发生故障时, Octopus 会马上监测到,将故障情况向管理员报警,然后根据策略自动或手工快速地将应用切换到过程的主 机。 重要说明的是,绝大多数容灾方案是支持主、备中心之间双向数据复制和应用切换的,并且支持多个不同物理地点间的容灾。 如何看待容灾的回报 一个容灾系统,由于需要 建立远程灾备中心,因此,企业需要从软件到硬件,进行多方面的投入。 一个完整的容灾方案,大概要投资几百万,甚至上千 万的人民币。 对企业来说,花这笔钱是否值得呢。 对企业用户而言,无论是传统业务,还是新兴业务,投资都要讲究回报,投资到容灾系统上的回报,就是提高系统的可用性,给企业带来的额外收益。 以证券行业为例,现在系统的可用性一般能保证每年宕机 50 个小时 ,那么,企业会算一算,每年宕机 50 小时,会损失多少钱。 如果用这些钱来追加投资,建立容灾系统,是否将损失减小。 比如说,现在宕机 50 小时,要损失 1 千万,那么,如果投资 1 千万,能不能将宕机时间缩短到 1 小时。 若能,从宕机 50 个小时到一个小时,减少的损失是多少,着实际上是量化分析。 而且,早先的传统业务对系统的高可靠性没有现在强。 传统的很多业务,比如手工业,甚至是证券行业,宕机几个小时,损失铜子为几百万。 但是,随着电子商务的出现,使很多行业(尤其是金融领域)的业务出现了新的变化,从前固定的上班时间完成存取业务,现在可 以通过网络,实现 24 小时网上存取,这就无形提高了对系统可用性的要求。 因而,同样是宕机一个小时,可损失却在增加。 金融、证券、电信等对可靠性要求高的企业,迫切地需要进行容灾,即使是日用百货业也逐渐开始实施容灾方案。 左表是美国日用百货业的系统可用性与宕机时间、年宕机损失和金融业年宕机损失之间的关系。 在国内,目前容灾系统中的 70%~80%都是在金融、银行领域,几乎所有的银行都上了容灾方案。 还有很多行业在逐渐的进入,如电信的计费系统,电力公司的计费系统、铁路调度系统,国内有部分电信部门已经实施了容灾方案,还有大量的 电信行业目前正在认证过程中。 可用性 年宕机时间 日用百货业年宕机损失 金融业年宕机损失 30 秒 950 美元 53750 美元 5 分钟 9417 美元 537500 美元 52 分钟 98000 美元 5390000 美元 小时 988750 美元 56000000 美元 小时 5000000 美元 280000000 美元 小时 10000000 美元 560000000 美元 180+小时 20200000+美元 1000000000+美元 450+小时 50000000+美元 3000000000+美元 (数据来源:亚美联公司) 企业究竟需要什么 那么,从用户角度来看,他们究竟需要什么样的容灾方案呢。 从总体上看,备份与恢复并不是一个简单的技术,它应该是一个完全满足用户需要的全面存储解决方案。 这种方案不仅仅可以保证灾难发生时间用户系统的高可用性和数据的完整性。 同时,整个方案应该是自动地、智能化的完成备份和恢复,并且拥有简单明了的管理界面,尽量减少人工干预和操作的复杂性,这些性能是所有用户都需要的。 容灾方案还应该满足用户关于存储速度,数据恢复速度和程度以及投资保护等方面的不同需求,这些需求会因用户的行业和规模有所区别。 比如在金融行业,数据的恢复必须在极短的时间内完成,并且不能允许发生任何数据的丢失。 但是在一个小型传统企业中,各方面的需求可能会有所降低。 也正是因为这个原因,国际标准 SHARE78 将灾难恢复解决方案根据所达到的程度分为七级,即从低到高有七种不同层次的灾难复解决方案。 企业可以根据数据的重要性以及需要恢复的速度和程度,来设计并实现各自的灾难恢复计划。 容灾方案也在不断优化改进。 通过优化传输, 远程异地同步容灾方案,容灾方案正逐渐从高端企业走近中低端用户,容灾方案也在向着小型化、低成本化发展。 这一涨一降,使得今天能做容灾的企业越来越多,用得起容灾的企业和部门也越来越多。 计算机系统故障原因分析 第二章 西西 北北 电电 网网 容容 灾灾 项项 目目 的的 现现 状状 和和 可可 行行 性性 IT 业务现状 目前, 西北电网业务支撑平台正在规划和实施阶段,当前采用了 2 台互为双机的多分区 HP RX8640 作为核心数据服务器系统, 并配置 多台 PC 服务器作为应用服务器系统,这些核心服务器设备通过 2 台互为冗余的 SAN 交换机通过冗余的光纤链路链接到 EMC 核心存储阵列 CX340 上。 为保障业务数据的安全性和可靠性,在本地存储局域网上配置了 EMC 快速备份恢复设备 EDL210,通过 Legato Networker 进行核心数据的备份,并能够保障业务数据的快速恢复。 下图为当前存储局域网拓扑图: 容灾方案的可行性 目前 西北电网公司的核心业务正在 逐步上线, 传统的分散业务通过 主机整合、存储整合和网络整合,逐渐整合为以 EMC 存储为核心的存储局域网系统,整合后西北电网的系统可以做到集中规划、管理、监控和负载调优,可以提供统一的对外提供服务 窗口和品质的一致性。 随着 IT整合的 实现,传统风 险分散的多个业务环境 成 为一个完整的 IT平台,这也造成 新的问题,如一旦因自然灾害、设备故障或人为因素对当前系统造成影响,将 引起 局部或整个 计算机系统停顿 ,并导致 业务处理 的 中断, 这 将会给 西北电力公司 造成巨大的经济损失和声誉损害,而如果不能在短时间恢复的话,全局的业务将不能进行,将使电力业务都遭受一定影响。 当前西北电网的本地主机业务和网络节点系统均实现了双机热备或 负载均衡 ,当某个 节点出现故障后,业务将自动或手动方式切换到冗余 节点, 业务不会因这些节点自身的故障导致业务的停滞, 但作为存放所有核心业务数据的存储 阵列设备 ,依然存在单点故障,为了防范因硬件、软件或人为因素造成 EMC 存储阵列停止工作,基于存储设备的容灾将势在必行。 当前西北电网公司在同城和异地均具备容灾机房环境,通过远程链路,将本地 EMC 存储阵列和远程容灾数据中心的存储阵列通过软件方式实现支持存储设备之间切换的容灾,可以很好的解决当前存储设备的单点故障隐患。 第三章 容容 灾灾 方方 案案 详详 细细 设设 计计 对同城容灾和异地容灾的比较 在容灾项目论证过程中,我们 建议首先确认我们对容灾系统的目标期望值,目标期望值包括对容灾系统的灾难 恢复的预期,一级容灾系统 能够处理的灾难类型。 由于西北电 网当前可以选择本地容灾和异地容灾方式(且当前本地容灾和异地容灾的链路均已具备),通过下表我们可以对两种方式进行比较: 本地容灾 异地容灾 比较 链路和距离 同城 20KM以内 光纤链路 异地 200KM 光纤、 ATM或其他链路 容灾方式 同步级容灾 异步级容灾 异步级容灾将根据链路质量、延时和数据量等调整 异步时间间隔,不同的异步时间间隔所造成的数据丢失不同( RPO 不同) RPO(数据丢失时间段) 无数据丢失 将出现数据丢失 由于异地容灾将造成一定数据的丢失,需要业务部门根据数据的丢失情况来调 整相关业务流程(如对丢失数据的人工处理等) RTO(业务中断时间段) 较短时间 较长时间 均会造成业务的中断 ,但 本地容灾切换方式简单,操作性强,远程容灾方式,当生产中心出现故障后,首先需要 判断故障的原因和切换的后果,否则对于假性灾难(没有必要切换到容灾中心的情况),切换后将造成数据丢失的严重问题。 抵抗的灾难类型 水、火灾、电力故障、设备严重物理损坏、人为设备物理损坏等 地震、水、火灾、电力故障、设备严重物理损坏、人为设备物理损坏等 投资情况 一般 较高 实施复杂度 简单 较复杂 其复杂度首先需 要进行容灾评估确认 技术成熟度 成熟 成熟 备注: 通过磁盘阵列复制级容灾方式,如没有其他数据备份机制或数据镜像机制,均无法抵抗人为或逻辑造成数据丢失,而这种灾难故障,我们可以通过本地或远程数据备份或数据镜像方式进行预防。 采用 MirrorView 同步 容灾方式 西北电力 业务 ,实现核心业务系统的灾难备份。 该容灾系统应能实现备份中心与数据中心之间的互相容灾,即当主中心故障、不可用时容灾备份中心将及时恢复主中心的业务并承担主中心的各项生产职能,并确保容灾备份中心与主中心之间生产数据的完整性、一致性 及业务可 恢复性。 容灾中心不仅能够保证数据中心数据备份,同时可以提供一个或多个业务系统的查询和测试工作。 根据 西北电力公司 的实际情况和发展需要,我们对 西北电力公司 的灾难备份系统建设方案如下: 根据对多种远程复制技术的比较,最终选定基于磁盘阵列的远程数据复制方式, 建议在当前数据量 虽然较小但 容灾距离都比较 远 的情况下, 采用 异步 容灾方式。 通过 CLARiiON 设备 的 MirrorView 远程复制软件功能,实现 数据复制。 容灾方案: 电力业务 CX340 生产阵列 与 CX4480 备份阵列 做容灾 对当前 数据中心 CX340 扩容, 当前当前容量从 5TB 扩展到 10TB。 CX340作为生产存储 ,并配置 MirrorView/S 容灾管理软件 ,可以满足本地数据访问和远程数据复制的需要。 新增一台 CX4480 存储阵列作为容灾系统的容灾存储设备,配置在容灾中心。 生产中心和容灾中心 存储系统之间采用 EMC MirrorView/S 软件 实现业务数据的复制,在数据中心的 IT 系统出现本中心无法自愈故障时整个生产系统可无缝切换至备份中心,实现最高可用的企业核心存储数据平台。 从性能方面分析,除了已建议的高性能存储平台和 MirrorView 容灾软件外,我们还 需要考虑到主机端的 I/O 负载均衡问题,因此,在服务器端配置 EMC 的PowerPath负载均衡软件,实现多个 I/O通道和路径之间的负载均衡与容错保护,使整个容灾存储平台的性能达到最优。 在项目实施阶段,也可以根据业务的实际情况,将容灾中心的 CX4480 作为生产存储,并将当前的 CX340 存储上的数据迁移到 CX4480 上 ( CX4480相比 CX340,不仅在存储 容量上 、 Cache 上 、 性能上,同时在 功能支持上,均优于 CX340)。 容灾方案说明 容灾系统对现有系统性能的影响 由于当前数据量较小, 且 容灾距离 较近 , 因此 本建议方案中推荐通过 EMC MirrorView/S 软件实现远程数据 同步 复制功能 , EMC174。 MirrorView™ 软件可以在园区环境、国家范围或在全球范围内提供高度可用的数据存储。 通过在 EMC CLARiiON174。 系统之间保持同步或异步数据镜像, MirrorView 可为重要的业务功能确保数据可用性。 MirrorView 是基于阵列的, MirrorView 软件运行在智能存储设备 CX 上,其功能的实现完全与主机无关,对主机完全透明,不占用任何主机 CPU、主机I/O 通道、系统网络资源,充分卸载主机 、网络资源用于业务运行。 MirrorView 还集成有 EMC SnapView™ 时间点快照软件。 MirrorView 与SnapView 共同为在线数据可用性以及灾难恢复提供了一种独特的解决方案。 在不增加现有系统风险的基础上,利用开放的设备及软件,充分利用现有资源,节约投资。 首先由于 EMC 具有丰富的容灾项目实施经验,故本方案所采用的技术和设备不会对现有生产系统带来任何系统风险,而且会降低现有系统风险。 EMC 远程数据复制技术在国内外也具有广泛的应用,在全球容灾市场上的份额占 50%以上。 在本次建议方案 中,我们充分利用了现有的服务器、 存储和网络等现有资源。 本地复制加速备份,预防人为差错和逻辑错误 采用 EMC Snapview 解决方案提高 电力业务 的业务连续性。 降低生产系统备份窗口,应对人为差错和逻辑错误,防止 Rolling Disaster。 采用 Snapview解决方案后,所有的数据磁带备份工作 ,可通过备份中心利用本地磁盘 快照 数据来完成,有效降低生产系统的备份窗口需求 ,大大延长生产系统的在线服务时间。 在没有采用 EMC 智能化存储之前,系统的磁带备份只能通过主机系统来完成,这既增加了主机系统的负担,又 影响了业务系统的正常运行。 目前企业的数据备份工作都是在夜间进行一次,这种方式不仅不能随时保存最新的业务数据,而且当业务数据量很大或是备份工作出现不正常时极有可能影响业务第二天的正常开业。 采用 EMC 的 Snapview 技术能够完美地解决以上问题,实现数据快捷的定期备份,从而保证即使在日间这种备份工作也能实现。 Snapview 使系统和存储管理者能够在后台状态下,为主机和开放系统信息存储器创建可独立寻址快照 卷。 快照 卷建立后,通过命令可以与其生产卷分割。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。