某移动boss容灾系统建设方案内容摘要:

加了 应用的复杂程度,应用级数据同步方式加大维护技术难度,系统鲁棒性差。 数据同步及时性 管理范围 数据在平时是否可用 主机负荷 成本 实施难易程度 可维护性 同构程度 磁盘同步复制 完全实时同步 阵列内部数据 不 无 较高 易 易 完全 磁盘异步复制 异步同步前数据(半小时- 1小时 ) 阵列内部数据 可用 无 较高 易 易 完全 操作系统复制 异步同步前数据(一天 ) 全部数据 不 10% 较高 易 难 数据库,应用,主机 数据库同步 异步同步( 5-10 分钟) 数据库数据 不 无 较低 易 难 数据库 ,应用,主机 数据库表复制 实时同步 数据库内部部分表 可用 10% 较低 难 难 数据库,应用 应用数据同步 实时同步 全部数据 可用 高 较高 难 难 数据库,应用 几种同步机制对比表 XX 移动 BOSS 容灾系统建设方案 13 4. XX 移动 BOSS容灾系统建设目标及原则 BOSS 容灾不仅仅是建设一套备用系统,而是建立起一种预防性机制。 它明确了 BOSS 系统的关键职能以及可能存在的威胁,并据此采取相应的技术手段,制定计划和流程,确保系统能在任何环境下都能持续发挥作用,即:从计划外停机中实现灾难恢复 、 在计划停机期间保持连续可用 、 利用冗余资源提供增值 服务。 BOSS 容灾系统的总体建设目标 是:  针对目前系统潜在的中断风险,提供预防机制,提高系统连续运行能力  对无法抗拒的严重灾难,提供系统恢复机制,将引发的业务损失降低到可接受的程度 具体到本期项目规划和建设的目标是 :  实现关键业务系统及其关联系统的数据安全  减少计划停机次数 /时间,消除对核心数据的争用  将异地中心接管业务的时间控制在可以接受的范围内  实现异地中心的软硬件设备和数据的复用 系统规划和建设中须遵循以下技术原则: 1. 实用性与成熟性 使用业界成熟、可靠和实用的业务连续性技术。 2. 先进性 系统结构能够 满足和适应中国移动 IT 系统快速变化和发展的要求。 3. 开放性与标准化 采用开放的技术标准和协议支持整个系统的运行,兼容性和恢复性强。 4. 自动化和操作的简单化 系统各部分有机集成,集中控制。 5. XX 移动 BOSS容灾系统建设规模及需求 系统建设应满足 2020 年中期 900 万用户要求(根据 2020- 2020 年发展规划及我公司用户发展现状预测),并能够平滑扩容至 1000 万用户的处理容量。 完善应用系统,使之具备数据及应用同步、系统监控、系统切换及恢复功能,从而实 XX 移动 BOSS 容灾系统建设方案 14 现应用完整性目标。 两套系统均可承担生产中心的工作。 我公司 BOSS 系统主要面临的风险有: 计划内: 1. 应用软件等的升级 2. 备份 /恢复 /归档 3. 数据中心迁移、整合 测试 … 计划外: 1. 系统软件缺陷,造成系统逻辑故障; 2. 人为操作或应用软件缺陷造成数据逻辑错误,造成不可恢复;错误执行程序或命令,造成系统死机; 3. 系统硬件故障,主要包括电源及 UPS 故障、硬盘故障、通讯控制器故障、系统总线、内存、 CPU 故障等 4. 安全体系被攻破 造成数据被恶意破坏 5. 生产地点的灾难:水灾、火灾、地震及其他机房事故等 其它:包括灾难的潜在影响,如水灾、地震等,常伴随着电力的供应问题。 针对 BOSS 系统中的关键业务 ,考虑其业务连续性的风险及严重程度,确定 BOSS 容灾相关要求如下: 1. 数据是整个系统赖以运转的基础。 要求对 BOSS 系统的数据进行有效的容灾保护,其中,对业务影响最大的营账数据,要求进行实时保护;其他相关的数据,要求尽量提供保护,使得数据被破坏后,能够在可以容忍的时间内恢复。 2. 对核心数据的保护,应当同时具有物理和逻辑两重保护-即既可防范物理灾难,用提供从逻辑故障中快速恢复系统的能力。 对关键的业务,要求提供恢复能力,由于 BOSS 系统中各个子系统的紧密偶合性质,要求营账、计费、结算、采集等系统均具有灾难恢复能力。 3. 要求容灾系统的各个子系统和生产系统的各个子系统之间具有清晰可靠的接口,并考虑到各个子系统的切换和回切。 恢复时间 恢复程度 计费 24 小时 24 小时前 营业、账务 2 小时 不允许数据丢失 统计 计费类统计同计费系统,业务类统计同营帐系统 XX 移动 BOSS 容灾系统建设方案 15 客服 内部统计可不保留,数据保存静态查询信息即可,恢复程度1 小时。 结算 同营帐 6. XX 移动 BOSS 容灾系统建设方案 . 系统结构 XX 移动 BOSS 容灾系统建设方案 16 ( 1) 范围: 完成 BOSS 核心业务的容灾,包含计费、营帐、结算、统计、查询、 8 地市采集、客服数据中心等。 由于经营分析系统刚开始建设,本期容灾系统不含经营分析系统。 BOSS 容灾系统需实现:  处理能力的保护、冗余、复用(服务器及操作系统、存储网络、中间件、数据库、应用软件、网络)  业务状态数据的保护、备份和恢复以及复制(交易状态、系统状态、应用参数设置、配置数据、中间数据)  外部接口的冗余和切换 ( 2) 地点选择: 容灾是为了在意外情况(如电源故障、系统故障、人为误操作及自然灾害等)发生时保障业务连续性而采取的一种应对机制,因此容 灾系统与生产中心需设在不同的地方。 我公司容灾系统可设置在 省会 ,也可设置在 省会 外其它城市,如大连。 如果设在 省会 ,系统将省帐务中心统一维护,其维护能力很强,且开发商的开发及本 XX 移动 BOSS 容灾系统建设方案 17 地服务中心也在 省会 ,对系统的支持能力也很强; 如果设在 省会 外其它城市,网络结构会变得复杂,系统维护能力较弱,系统调整及应用的改变的速度较慢,系统远距离管理也不方便。 同时根据前文中对各种意外情况的统计,电源及系统故障所占比例较高,地震等自然灾害发生的机率相对要小得多。 因此为保证 BOSS关键系统的维护,为业务的部署提供灵活的手段和快速的响应,建 议我公司 BOSS容灾系统设在 省会 ,统一由帐务中心维护。 XX 机房为 省会 四个传输结点之一,且经营分析系统也将建在 XX,因此建议 BOSS 容灾系统设在 XX 新机房四楼。 XX 机房与 XX 机房传输距离约为十五公里。 ( 3) 系统需具备现有生产系统所具备的所有功能,并实现对生产系统的异地备份。 当灾难发生时,备份系统启动,进行应用接管,从而保证业务的连续性。 灾难恢复后,备用系统可将灾难期间变更的数据同步至生产系统中,并将应用切换回生产系统,恢复生产系统的正常运行。 ( 4) 由于容灾系统也需可切换为生产系统使用,因此容灾系统的处理能力应与生产 系统相同,并按高可靠性进行设备配置。 . 数据复制技术选择 BOSS 系统中所含子系统较多,且每个系统都有不同的业务运行特点,因此容灾技术的选择需根据各子系统的特点及不同的要求而定。 . 营帐系统 BOSS 系统的营业和帐务是 BOSS 的核心系统,关系到用户服务质量,停机时间不能够超过 2 小时,而且数据不允许丢失。 营帐系统包括数据库服务器、应用服务器、工单服务器、银行接口服务器、一级 BOSS WEB 服务器等设备。 数据库服务器处理数据量比较大,数据十分关键,是整个业务系统数据一致性的核心,要求生 产系统数据和容灾系统数据高度一致;营账系统的数据变化量相对较小,但对系统响应时间要求较高,其交易是典型的联机事务处理方式;以上这些特点,要求系统采用磁盘复制技术由于 BOSS系统存储的磁盘阵列采用的是 EMC Symmtrix8000 系列,支持基于存储的复制方 XX 移动 BOSS 容灾系统建设方案 18 式,因此营帐系统数据库建议采用 EMC SRDF 软件进行基于存储的数据复制,以保证数据的不丢失。 磁盘复制技术有同步和异步两种方式。 根据前文介绍,同步方式下交易需在两套系统中同时完成,因此可以保证容灾系统中的营账数据库和生产系统中的营账数据库完全一致,从而从根 本上保证了业务的完整和一致。 而异步方式下,备用系统中数据更新会落后于主系统,因此在主系统发生灾难时,起用备份系统时还需要人工补充丢失的数据,这将直接影响系统恢复的时间,因此建议营帐系统数据采用同步磁盘复制技术。 基于目前对容灾中心的规划,由于容灾中心和生产中心之间的距离,采用同步复制技术进行数据复制所形成的额外 IO 延迟,不会对生产系统形成影响。 但是,如果两中心之间的网络带宽不足以支持营账数据库的写操作带宽,则会影响生产系统性能。 因此,建议采用裸光纤直连或 DWDM 的方式,作为存储系统数据复制的网络平台。 采用 同步复制,理论上能够对生产系统的营账数据库进行完整地保护,但是,当生产系统发生逻辑错误时,由于容灾数据是生产数据的实时精确镜像,所以逻辑错误也会“传播”到容灾系统当中。 容灾系统会对这种灾难失去保护作用。 为了防范这种逻辑类型的错误,需要辅助快速的数据库复制和恢复技术。 因此,对最关键的营账数据库,我们将在生产中心(或容灾中心)部署克隆磁盘,以支持数据库的快速复制和恢复。 应用服务器、工单服务器、银行接口服务器没有数据库和磁盘阵列操作,只对其应用程序定时进行同步备份。 营帐系统主备结点设备要求同构。 (包括主机 、产品阵列、数据库) HLR、银行、一级 BOSS、智能网、短信、声讯等接口设备部分采用应用级复制方式,由集成商开发,夜间定时启动进程完成两套系统应用程序和配置文件的复制,保证两端程序一致性。 . 计费系统 计费系统是基于文件的处理方式,特点是数据量大,数据变化量也大,但实时性要求较低,可允许较长的停机时间,建议采用应用级的复制方法。 话单采集系统将从交换机采集到的话单原始文件同时向生产系统和容灾系 XX 移动 BOSS 容灾系统建设方案 19 统的话单预处理批价系统传送。 生产系统处理后将计费合帐后的话单定时( 5 分钟)形成文件送到查询结算系统后,将这些文件传至 容灾系统并实时写入计费系统数据库。 容灾系统收到采集系统传来的原始数据后不进行处理,只对原始文件进行备份。 生产系统每天夜里定时将用户的帐单 、 报表数据 、 用户计费信息数据 、基础数据等数据传送容灾系统中入库到同样的表中。 当生产系统发生灾难,容灾系统以利用采集系统传来的原始话单文件(灾难发生 1 小时之前的数据)重新进行计费,并利用数据库的唯一索引进行话单剔重处理,从而保证话单数据很快恢复。 对用户的帐单和报表数据可以开发应用程序重新统计当日 0 点到灾难时刻的数据,与夜里传来的信息进行累加而得到。 用户计费信息可以从容灾系统的 营业数据库中重新同步得到。 在灾难发生时可能会有一小部分数据没有复制到容灾节点,这些数据可以从采集系统找回来。 计费系统除数据的处理之外,系统中参数的设定(如费率表、用户资费变更表)等采用数据表复制的方式复制到备用系统中。 同时,需定期将对系统运行的相关程序拷贝至备用系统,以保证应用软件及相关参数的同步。 计费系统主备结点设备可以异构。 . 8 地市 BGW 及采集预处理系统 8 地市集中 BGW 及采集预处理数据的特点与计费系统相似,主要基于文件处理,并将处理后的数据文件送至下一环节进行处理,建议。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。