首页 > 新闻 > 专家观点 >

数据中心发生故障后怎样进行事故分析

2014-09-10 13:21:33   作者:   来源:机房360   评论:0  点击:


  如今的数据中心已经承载着太多的重要业务,人们的生活早已经离不开数据中心,它已经成为了人们生活的一部分,一旦数据中心发生故障将给人们带来很多不便和经济损失。因为每当数据中心发生故障后,既然可以通过一些历史记录去还原故障的发生原貌,对数据中心的未来发展建设都会很有借鉴意义。

  绝大多数的数据中心都是运行在固定的建筑当中,不过也有一些可以移动的数据中心,这些移动的数据中心在工作时也基本是在固定的位置,这就和飞机有最大的不同。飞机发生坠毁一切设备都无法再继续工作,现场也会被破坏,而数据中心是在固定的位置,故障现场依然可以被很好地保留着,这就为故障分析提供了很好的参考依据。从以往数据中心发生的故障来看,主要有三类:自然灾害;人为故障;设备故障,这三个方面。90%以上的故障都来自于这三个方面。

  对于地震、火灾、雷击等天然灾害,从故障现场的受损情况就可以分析出来。比如雷击,会产生强大的冲击电流,打到设备上,就会引起设备器件短路,产生瞬间的高压,使电路急剧生温,轻微的可引起设备短路故障,严重的还能引起火灾。对于这些自然灾害,数据中心也有很多的技术手段可以最大程度上避免灾害的发生,针对每一种自然灾害数据中心都需要加以重视,才能躲避开这些自然灾害。比如增加机柜和机房地面的固定螺丝,安装避雷针,增加放火报警系统和防火器材。当出现这些自然灾害时,减少对数据中心的冲击。

  人为故障占到了数据中心的故障中的70%,其中也可以分为有意的和无意的。有意的是指明知道一些操作会造成数据中心故障,仍执意去做的,这些人往往希望通过造成数据中心运行瘫痪,而达到不可告人的目的。常见的有黑客、情报人员、商业机密小偷等等,他们攻击的对象往往是数据中心里的数据,通过造成数据中心故障来达到窃取或损坏数据的目的。无意的是指本意并不想破坏数据中心,但是由于自己的技术积累经验不够或者疏忽,自己的操作引发了数据中心故障,这种故障占到了人为故障的80%以上。数据中心是一个复杂庞大的系统,不可能一个人面面俱到都精通,当接触到自己不熟悉或不了解的地方,操作往往引发意想不到的结果,因此加强对人的管理尤为重要。在对数据中心做任何调整时,都要从全局考虑,集中最优秀的技术人员,将人为操作风险降低。这类事故往往也很容易留下证据记录,给事故分析带来方便。几乎所有的数据中心都有门禁系统、视频监控系统,任何人的出入都有记录,很容易查到。有不少的数据中心提供远程的访问,那么所有的访问操作在数据中心后台数据中心都有记录,访问者对数据中心业务调整、修改配置、甚至重起设备等任何操作都会记录在案,只要数据中心不是全面的毁灭,这些记录都会在后台的数据库中查到,通过记录的时间和访问的人就可以查明人为事故的原因。

  设备运行故障也是数据中心故障的一类,大型的数据中心拥有数千台设备很普遍,这些电子设备难免运行中出现故障。一旦出现故障,就需要对设备进行分析,很多现场操作人员并不具备分析问题的能力,为了恢复业务,只能重起设备,或者将业务切割到别的备份设备上。当故障设备上没有业务或者已经重起了,其上很多时时记录都会冲掉,这样给故障分析带来难度。很多时候故障的表现也并非集中在某一台设备上,心急的操作人员可能将所有设备全部重启或将业务全部割离,如果设备能提供详细的历史记录,那么对于故障分析非常有帮助。数据中心不怕出故障,怕的是出了故障后找不到原因,这相当于给数据中心埋了一个定时炸弹。其实在很多高端设备上已经增加了一些可以记录历史信息的模块,比如采用NVRAM、EEPROM等非忆失性器件时时记录设备运行的各种参数,当设备发生故障后,哪怕是设备发生了断电,这些器件依然可以正常运行,记录下来设备运行的各种参数,这些数据往往是故障后分析参考的最重要数据来源。当数据中心出现故障后,有的设备可以提供故障时设备运行的各种数据参数,非常具有说服力,有时也是证明自己设备没有问题的重要信息,而一旦在故障后,一些设备没有可分析的数据记录,根本分不清是不是自己的问题,这样的设备很快就会被数据中心所弃用。如果通过数据分析是自己设备的问题,那么设备商依然可以根据这些数据去优化设备设计,从而避免这类故障的再次发生,让设备运行更加稳定。

  数据中心也有各种各样的监控手段和历史信息记录,这些技术为数据中心的稳定运行提供了保障,也是不断推动数据中心完善的重要举措。如同飞机上的黑匣子,数据中心也有自己的一套故障定位信息获取方案,这些信息可以在一定程度上有效还原故障时数据中心的完貌,通过对这些数据分析,不仅可以找到故障原因,还可以根据这些故障对数据中心进行优化,避免发生二次故障。

相关阅读:

分享到: 收藏

专题