解决方案-ups系统的可用性与整体机房建设内容摘要:

l 发电 如果市电断电持续时间很长,仅使用 UPS 标准配置电池是不够的。 所以,大部分数据中心都采用了现场后备发电的方法。 这些发电系统以柴油、天然气或其它碳氢化合物燃料为动力,可以为现场提供长时间的高质量电源。 如遇超长时间市电断电,发电机燃料的及时供应或大型存储容器要有足够的容量可以维持关键系统运转。 同样,当系统的可用性要求很高时,也必须是发电机冗余备份。 加热和冷却子系统为数据中心提供基本的环境条件。 由于在大部分情况下计算机设备产生的热量非常大,所以必须认真考虑散热问题。 尤其是大量采用占地面积小的高密度服务器,使数据中心的电源功率密度快速增加,有可能形成很多热量难以散发的“热点”,散热方式、气流方向及路径,在规划未来电源功率密度水平和数据中心发展时必须要考虑周全。 当然,冷却过程会伴随这时度升高,故需增加除湿手段。 在寒冷的冬季,机房需要升温,升温时往往伴随着干燥,因此,需要增加加湿措施。 不论是加湿还是除湿,必须掌握好尺度,否则就会导致机器故障。 很多数据中心的温度在冷却功能失效后,会立即超过设 备的工作温度限制。 因此,经常需要用系统冗余来避免宕机。 一般精密空调 (HVAC)系统通常连接到发电机备份电源上,以最大限度地减少由于电源故障导致的宕机时间。 对于任何安装了关键系统的机房而言,必须解决安全问题。 对现场的访问仅限于拥有通行证,和经过适当培训、能够正确使用相关设备的人员。 否则就可能导致意想不到的故障。 现场安全性经常同时包括武装警卫、入侵预防、视频监控和先进的身份识别技术。 目前大部分机房都在使用高架地板。 高架地板是一种特殊地板,有 防静电和普通型之分,它将设备支撑在楼板以上 1248 英寸的位置。 这样就可以很方便地在设备下面布置数据和电源电缆。 高架地板还经常用于风冷通道,为数据中心的特定点提供冷气。 高架地板的类型、质量和开孔位置及大小也需细心考虑。 现场监控类似于汽车上的仪表板。 对其中主要参数的及时了解有助于进行预测性维护,这种监视必须持是续检的。 监控既可以在本地进行、也可以远程进行。 这样一来,从任何地点都能够对数据中心进行监视,了如指掌。 紧急断电系统也是数据中心的一个子系统,但是每个人都 希望永远不要将其派上用场。 但在紧急情况出现时,为了扩大大事故范围,就使系统全面停止工作,并禁用数据中心的所有其它电源系统。 比如在发生火灾或自然灾害时,该系统允许救援人员进入房间而不必担心电气安全。 在进行基建时,必须了解有关消防的规定,并遵照执行。 由于进出数据中心的数据和电源电缆非常多,因此防火是一个很重要的问题,但就是这一问题却经常被忽视。 除防火系统外,数据中心还配备了灭火系统。 灭火系统不仅需要与数据中心相集成,而且传感器也必须非常精确。 这样才能够避免消防系统的意外启动。 理界面的设计 机房和机器的物理界面包括通风口、换气口、电缆穿过口等等,往往由于人们对这些接口考虑不周,而导致因老鼠钻入高架地板下而咬坏电缆,因爬虫或飞虫侵入机内而导致短路的时间屡见不鲜。 在要求高可靠的计算机机房双路市电供电,如何更有效的利用市电和二次交流电源 (UPS)一直存在着两种观点:一种观点认为两路市电同时接在 UPS 上 (一路接整流器,一路接旁路 )。 另一种观点认为两路市电应在输入配电柜中转换成一路市电提供给 UPS。 这两种观点设计方案都在使用,但其可用性就有很大的不同 ,在设计机房时也需认真比较其优缺点,做出正确的决定。 三、可用性的应用 (1) 可用性基本理论根据 可用性的基本理论主要来自可靠性的串联与并联理论,在以后的讨论与设计中也是以此为根据进行的。 j 状态平衡法 为了便于分析起见,在这里采用了一种状态平衡法,这种方法是选取一个系统,将它拆分为几个组件集合,然后为每个组件集合指定不同的状态。 根据系统的架构,这些状态可能影响或不影响系统的可用性。 在图 7 中,假定系统有某些类型的性能状态,它可能是电力,冷空气或者信息,所有这些都是可变的。 图 7 状态平衡图 对图 7 做一个这样的规定:任何使标准位置码移位的子系统状态都视为故障状态。 在这里的子系统使可维修的,维修好了的子系统又可使标准位置码复位。 在图中状态平衡条件下,左边子系统的状态称为正常运行状态,右边标准位置码的状态称平衡状态。 上图实际上可以代表任何系统。 它可以描述一 个组件,例如电阻器或电容器,也可以描述整个的系统,例如一辆小汽车或者飞机。 在该图中,a?1 是故障率 (即故障强度、失效率 ),它确定系统从可用状态变为不可用状态的比率。 如果系统可维修,则有一个返回路径 (m1)。 该路径决定系统的修复速度,并使系统返回平衡状态。 维修时的状态还可以用文氏图图 8 来表示。 在文氏图中,用长方形代表全系统,用圆代表特定的子系统。 考察可用性时,全集可以代表整个时间区间。 具体的事件可能导致该时间区间内的某些时间段内不可用。 这些事件之外的时间段就是可用时间段。 图 8 说明了上述系统的文氏图。 图 中 A 代表系统可用,ā代表系统不可用 图 8 可用性文氏图 系统就是整个时间区间。 该系统的可用性 A 可以根据式 (29) 如果 a(故障率 )是 , m(修复率 )是 ,由上式求得可用性近似值是 或 95%。 由于通常 m 远远大于 a,在更复杂的推导中 a 的范围可以给出绝对或近似结果。 直观地说,这一结果是基于这样一个事实,即系统应很少发生故障,而且出现故障后应能相对迅速地得到修复。 例如家庭的电视机可能一年只出现一次故障,即 a=1/365,而修理电视机可能只需要一天即可 (按照这个说法可以认为一年可修 365 台这样的电视机 ),因此 m 在数值上是 a 的 365 倍。 k 串联系统的可用性 子系统串联的系统如图 9 所示,此例给了一个串联连接 2 个子系统的模型。 由前面 图 9 两个子系统串联情况的方框图 的讨论可知,在一个串联系统中的任何环节除故障都会使输入端的信息无法传递到输出端。 换言之,都会使电路失去平衡。 图 10 就示出了 2(子 1,子 2)串联系统的平衡状态图。 由图中可以看出,用两条线代表两个子系统,共同支持一个重物,其重心在二者之间的 a 点,与“标码”形成平衡系统。 如图 10 (a)所示。 在任何一个子系统故障 (断开 ) 图 10 两个子系统串联情况的方框图 时,都会造成串联系统重心 a 的偏移,如图 10(b)、 (c)所示。 图中 a m1和 a m2 分别为子系统 1 和子系统 2 的失效率 (故障强度 )和维修率。 由上面的讨论可以看出,使用串联方法连接子系统时,任何一个故障都会导致输出中断。 但是,由于存在第一个子系统发生故障的时间段内第二个子系统也存在产生故障的概率,所以宕机量不会正好翻一番。 任何一个子系统故障,整个系统 已经不可用,因此宕机时间的净增加将小于每个子系统导致的宕机时间总和。 两个相互隔离的独立子系统故障虽然很少有重叠,但也不是没有。 根据在可靠性一节中的表达式就可得出上述两个子系统构成大系统的可用性: 仍使用前面的数字, ?a= , ?= ,并且 a1=a2=a, m1=m2=m,就可以计算出可用性为。 因此,和上面单系统的可用性相比,另外增加一个串联系统就会使整个大系统不可用时间增加一倍。 由上述的例子可以看出,串联系统不能给出很高的可用性。 l 并联系统的可用性 图 11 示出了两个子系统并联冗余情况的方框图。 由这个图中可以看出,在两个并联的子系统中,其中任何一个故障时,另外一个子系统仍能够将输入的信息通过它本身传递到输出端。 图 12 两个子系统串联冗余情况的状态平衡图 状态 1:两个子系统都工作,系统平衡,可用。 状态 2:子系统 1 发生故障 (断开 ),子系统 2 正常,系统可用。 状态 3:子系统 2 发生故障 (断开 ),子系统 1 正常,系统可用。 状态 4:两个子系统都发生故障 (同时断开 ),系统不可用。 也可以用所谓的文氏图来进行分析,如图 13 所示。 并行系统的文氏图会发生很大变化。 从文氏图中可以看出,增加冗余对可用性的影响非常大。 只有当子系统 C 和 B 都发生故障时,系统才会宕机。 这意味着, C 和 B 之间交叉的很小空间才是宕机时间。 图 13 二子系统并行冗余系统文氏图 因。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。