数据中心机房常出故障分析
更新时间:2011/7/20
大多数的机房出现故障并非机房的设计建设不到位,而往往都是由于缺少日常科学的、产格的管理。有的机房缺少日常维护管理,甚至几个月都不用吸尘器,致使机房中的灰、纸屑,线头随处可见,甚至灰尘将风机的风扇都堵塞了;有的地方地板下布线等操作时长时间、大面积地打开地板,致使冷气流短路,图腾机柜上端摆放的许多设备因吹不到冷气而温度升高;有的地方本来设计的全封闭机房门平时经常打开着,机房应有内的正压被破坏;有的地方随意在主机房拆机器包装、塑料泡沫屑、薄膜碎片等随处乱飞,吸入空调和机器设备等,对设备造成影响,甚至引发故障。
以上这些情况,有的是机房管理人员缺乏必要的机房技术知识,有的是怕麻烦图省事,这些做法对我们建设一个安全、稳定的主机房影响颇大,是机房内许多故障产生、发展的主要原因,我们绝不能等闲视之,因此,作为机房技术人员,切不可将自己的目光仅仅停留在机房技术和维护上,在做好机房技术与维护工作之后,还应该将分析研究问题的目光放的远一点,尤其是往往给忽视掉的机房管理工作方面。
曾经有专家指出,我们现在的计算机机房往往是一流的设计、建设阶段大家都知道其重要性,一般都是不惜代价,组织专门的科技人员,选择优秀的专业公司,投入大量的人力物力,严格把关;而在以后漫长的日常使用管理维护过程中就很少有人会像前面那样下功夫花力气了。而象我们这样的高密度机房,远非以前计算机机房的概念,十五年前我们的机房负荷多为每平方米l00w以下,十年前多在每平方米200w左右,而现在已达到每平方米500w了。
如果我们的思想不与时俱进,不用科学发展的眼光来分析研究问题,还是按照过去的老观念、老方法,就势必会犯错误。机器功率越来越高、密度越来越大,发生初期的一个小小故障,如果不及时处理,在不长的时间内便可能引发大的变化。如今的计算机机房地位是如此的险要,必须要依靠科学严格的制度,强有力的管理,再加上下一心的努力,才能够保证我们的机房不出事故。
经历了这次事件后,我们及时对机房的设备进行了维护,并增加了机房设备监控系统的远程监控功能和电话报警功能,以后又对机房管理制度进行了修改,增加了“白天每小时巡查一次,晚上每二小时巡查二次,发现故障及时报告”的规章制度,这些措施都从客观上有力加强了我们机房的管理,大大保障了机房的安全。但是按照辩证唯物主义的观点,事物总是在不断地发展,不断地变化的。
我们机房管理有待完善的地方还是存在的,如四月份发生的一次服务器电源烧毁的事故就与大面积长时间地打开抗静电地板有关,地板下为空调送风静压库,地板打开压力减小,机柜内某些服务器的冷却效果显著降低,机柜上的设备就会过热而受损:交换机等设备风机停转事故则与机房内灰尘过多密切相关(起先还以为风机又烧毁,后来吹掉灰尘,风机又转,实为灰尘过多卡住风机),灰尘过多诚然与机房附近大面积施工有关,但与机房大门常常不关也有很大关系,在封闭式的机房里,内部经常维持着正压,大门敞开,正压丧失,灰尘就会被空调气流吸入机房。
因此,我们又规定了严格控制打开主机房地板和进出机房随手关门以及每周用吸尘器对主机房吸灰一次的制度,随着机房制度的逐步完善和管理规则的到位,从五月份至今的几乎整个夏季本应是故障高发季节,但我们的主机房却是导故障发生。事实证明:只要我们坚持用马克思主义科学发展观指导工作,克服主观主义,集思广益、认真、客观地分析和处理问题,就没有攻不了的关,没有过不了的坎,我们就一定能够实现机房的长治久安。
今天笔者只是简单的分析了中心机房中常出现的故障。可能存在片面错漏的地方,在此还请高手们斧正。