中兴通讯--zxg10-sc可靠性说明(编辑修改稿)内容摘要:
Cluster) 结构。 Cluster 集群技术的出发点是提高系统的可靠性、可扩充性和抗灾难性。 一个 Cluster 包含多台拥有共享数据存储空间的服务器。 当一台服务器发生故障时,它所运行的应用程序由其它服务器自动接管。 该系统能实时监测主机系统的如下故障并自动发起倒换,由另一台服务器接管应用。 1)系统软件或应用软件造成服务器宕机。 2) SCSI 卡损坏,造成服务器无法从磁盘阵列读取资料。 3)服务器硬件损坏,造成服务器宕机。 4)服务器关机。 双机各自拥有自己的机器名和 IP 地址。 对外界提供同一个虚拟机器名和 IP地址,并以此对外界 提供服务。 自身的 IP 地址在主机状态时将失效。 磁盘阵列采用 IBM SSA 技术,共有 4 个双向 40MB/S 通道,总带宽达到160MB/S,对磁阵每个硬盘的读写构成一个双向环,中间任何一块硬盘的损坏不影响系统的处理速率。 且带宽的使用不使用共享方式,独特的带宽空间复用方式极大地提高了系统的处理能力。 核心交换网 ZXG100SC 系统采用 100 以太交换网将所有的设备联接在一起,为了避免单点故障,系统设计采用双网双平面的设计方式。 任何一台服务器和其他设备的联接都存在两条通路,通路采用 Cisco 3548 交换机,同时提供千兆以太网端口,以供以后扩容接入,带宽使用不采用侦听 /检测技术,最大程度提高系统的安全行。 系统可靠性 湖南移动短消息扩容工程 684 .软件可靠性设计 ZXG10SC 系统采用以下方法提高软件的可靠性。 层次化、模块化设计 ZXG10SC 软件系统可分为 以下几个系统: 1)运行支撑子系统; 2)数据库子系统; 3)信令子系统; 4) SMPP 代理子系统; 5)业务控制子系统; 6)操作维护子系统。 各个子系统相对独立,并形成一个层次结构。 按照高 内聚性、低偶合性的原则,把 每个子系统细分为多个功能模块,提高系统的 可靠性。 系统运行监测和日志 运行支撑子系统中提供运行监测功能。 它能及时发现进程运行过频、进程死循环,以及中断 12 和中断 13 等故障,并提供故障自动恢复功能。 当系统发生异常,把运行现场数据记录到磁盘上的日志中。 日志中记载的数据能够帮助开发人员迅速发现并排除故障,提高了系统的可靠性。 操作维护子系统各模块把运行过程中检测的异常情况写入日志数据库中,通过查询日志数据库,维护人员能及时发现并排除故障。 资源管理 1)内存资源的管理 ZXG10SC 软件系统采用两种方式避免内存的枯竭。 第一种 方式为静态分配法,适应于所需内存数固定的情况。 具体方法是在程序中定义全局数组。 第二种方式为系统初始化时动态分配内存,适用于所需内存数不固定的情况。 这两种方法避免了在系统运行过程中动态分配内存,不会发生内存资源枯竭的现象,提高了系统的可靠性。 2)数据区资源的管理 系统可靠性 湖南移动短消息扩容工程 685 系统在投递短消息时,会先申请一个进程数据区,用以保存相关信息。 在收到投递响应后,可以根据保存的信息进行处理,在处理完成后,释放该进程数据区。 但是,若系统由于某种原因,未能收到投递响应消息,则此进程数据区将会被长期占用,导致系统可用资源的减少,最后导 致系统耗尽所有的进程数据区,从而无法进行正常的业务处理。 为防止上述情况的发生,系统记录每个进程数据区被占用的时刻,将所有被占用的数据区按占用时刻先后排列(以链表方式),定时检查最早被占用的进程数据区的占用时刻,若该时刻距当前时间已超过一定的门限,则可认为该进程数据区消息丢失,系统将释放此进程数据区。 指针越界、堆栈溢出的预防 系统中的每个进程都有自己的堆栈,堆栈的大小是固定的。 进程函数中定义的局部变量占用堆栈的地址空间,如果局部变量定义太多,会导致堆栈溢出,即中断 12。 为避免这种情况的发生, 一般不在进程函数中定义长度很长的局部变量,而是把它们定义成全局变量。 以上方法减少了发生堆栈溢出的可能性,提高了系统的可靠性。 系统从底层收到的消息,包括消息事件号、消息指针、消息长度等参数,其中,消息指针指向包含消息内容的内存空间,消息。中兴通讯--zxg10-sc可靠性说明(编辑修改稿)
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。