您当前的位置是:  首页 > 新闻 > 国内 >
 首页 > 新闻 > 国内 >

华为DCIM+引领DC营维变革、释放DC无限潜力

2018-12-05 09:42:36   作者:   来源:CTI论坛   评论:0  点击:


  华为基于云的DCIM+,是一站式的多DC管理系统,你只需要一个手机APP,一键就可以看到DC状态;通过云化的DCIM+可实现后续数字化、可视化的运维和管理,提升DC营维效率。
  2018年第四届数据中心基础设施峰会,华为智能DC管理系统产品规划经理鲁楠分享了题为《华为DCIM+智能运维管理技术和实践》
  以下为精彩演讲实录(有删减)
  今天我要分享的是基于华为实际运营经验的数据中心运维管理平台,我们把管理平台定义为DCIM+,是远远高于业内DCIM的定义的,所以我们希望通过这么一个+,把我们数据中心的管理理念或者管理的方面使用到一个新的程度。
  数据中心营维的挑战
  数据中心在新的产业阶段面临着如何运营好大型化和集群化数据中心的问题,以华为以及金融的两地三中心的数据中心为代表,数据中心已经到了非常大规模的程度,单个数据中心基本上也都会达到上万的规模,同时互联网数据中心IDC发展更迅速,一些运营商在规划数据中心的时候一次就能规划16、17栋楼。所以在这么大的数据中心产业发展基础上,我们如何更好经营这个数据中心是现在大家面临的一个最新的挑战。具体来讲有以下四点:
  第一,运维的挑战。目前智能化逐渐融入各行各业,但是落到咱们数据中心的运维过程中仍然是一个非常原始的方式,大量的数据中心仍然靠人工每天6次、12次的巡检,人工现场去检查各种故障和隐患,这样是非常低效的。而且由于人工操作带来的事故变相增多。根据相关研究报告显示,包括我们自身的实践也可以看到,大多数的事故并不是起源于设备本身,而起源于人为的失误,人参与越多产生的问题越多,所以下一步我们所希望的也是客户所希望的是,通过智能化的、系统的方式降低运维的难度和对人工运维的依赖,提升运维效率。
  第二,管理的问题。数据中心规模的不断扩大,如何面对管理的压力?首先专业运维人员短缺的问题,其次是面临分散的、大规模的数据中心,如何保障管理水平的一致性。例如华为在全球有170多个数据中心,如何保障分散化的数据中心管理的一致性,如何保障每一个数据中心执行不同的等级管理标准,这是非常严峻的问题。
  第三,成本的问题。因为高居不下的电费,现在越来越多的数据中心高层已经把能耗变成运维部门的一个KPI,因此大家对这个都非常重视。
  最后,运营的挑战。现在行业上大部分数据中心是缺乏运营的,具体表现在3个说不清楚上。第一钱花在哪里说不清楚,比如具体电费花在哪里、运维人员的人力和费用说不清楚。第二有些钱该不该花说不清楚,比如说我们要上一套运维的管理平台,具体它的价值在哪里,它能给我的数据中心带来多少收益?这个说不清楚。第三个要不要再花说不清楚,什么时候我们的数据中心开始要扩容了,什么时候我们要去外面再租一个数据中心,我们现有的资源有没有得到充分利用,这一点是很多数据中心的管理者非常头痛的一个问题。
  基于以上这几个问题,下面介绍一下华为在数据中心智能的运维管理平台DCIM+产品化方面的一些实践经验。
  首先监控底层数字化的问题,华为基于在通信方面丰富的经验优势,把所有自己的设备做了智能化,我们现在不仅仅做到IO化,希望未来做到IOT化,希望通过5G的方式,这样就可以更好保障数据的准确性,保障我们更多获取到基础设施数字化的数据。
  第二是网络化的内容,现在绝大多数的DCIM中间这一层主要是采集器,而我们现在希望把它打造成一个边缘的计算中心,这个计算中心的作用在于数据的处理,我们监控的一些数据通过这个采集去传的话,比如不同品牌、不同厂家设备的协议统一,就是数据模型的统一都会在这个上面进行出路,同时加入AI的特性,比如图像识别的特性。前一段时间在上海华为已经发布了AI芯片,将来也会内置在边缘计算当中,保证数据中心基础设施的数字化得到完整的呈现。再往上一层是我们的云平台,就是DCIM的软件,主要做一些数据的处理和分析,包括我们对于资源的管理,对于运维的管理以及辅助决策的能力。
  华为DCIM+的实践
  • 第一个是全流程的电子运维,包括巡检的操作、维保的操作、应急演练的操作,把所有的流程以及操作指导全部做到线上,实现了运维质量从原来靠人,靠人的责任心,到现在靠流程管理的升级。华为通过后续的量化指标,通过全流程电子化的运维跟踪,量化原来没有办法量化的,比如维护保养巡检的执行力、运维活动的质量。此外,通过流程去跟踪风险远远比依靠个人的责任心去跟踪风险有效可靠得多,目前我们在短短几个月时间发现风险的条目就已经增加了十几倍,这意味着你平时发现的隐患或者发现的风险越多,越容易避免非常大的重大事故。
  • 第二个是运营可视化的实践。这与第一点是相互关联的,因为量化所有运维活动的数字,也是某种意义上的可视化。通过可视化,传统的监控数据信息可以更直观的呈现出来。华为全部采用3D的模式,在DCIM+管理系统里面,客户想看和想查找的的信息一目了然,操作也十分便捷,和现场的实际情况是一样的;根据可视化的数据信息,我们运营分析因此也可以做到可视化,比如机柜的使用率,资源的出资情况、剩余情况等等,都可以进行可视化管理,为客户提供更好的体验。
  • 第三个实践是数字化的管理,更确切的说是数字化的决策。在做数据中心容量规划过程中,比如我们服务器具体上架的最佳位置,现在更多是靠人的主观性判断,没有数据做决策支撑。因此在华为DCIM+里面,我们叠加了上架的算法,不仅仅是上架,包括空间的规划、电力的规划等等,全都放到系统里面。所以我们在业务运行的过程中需要做决策的时候,系统会基于能效更优还是利用率更平衡等几种模式做出推荐,同时还会针对不同的业务使用方的使用率进行一个动态的评估,这样可以让你更好调度这些资源,充分挖掘现有数据中心的潜力。
  最后一个实践就是我们在AI方面的进一步探索,将被动式运维变成预测性和主动式维护,改变传统的人工运维模式。例如我们需要现场更换一些易损的部件,以电池为例(因为现在的监控系统是覆盖不到的),可以引入AI和大数据的方式,把图像识别、声音识别等类似的传感器放在一起做AI方面的判断,减少大家现场的工作。另外就是指导人,为决策做支撑,让大家的价值发挥到最大,比如专家的经验覆盖到更多的数据中心,让大家的决策更加准确和正确。
  关于网络安全的话题。众所周知,数据中心的网络安全非常重要,但是基础设施的网络安全可能大家关注的非常少,其实随着设备的智能化程度越来越高,包括更多的端口的出现,我们面临的风险也会越来越高,包括身份的篡改等等都会出现,只有全面的掌握可能的威胁才有可能进行系统的防御。
  华为做了非常多的信息安全工作,当然不仅仅是公司级的,包括我们自己的产品-华为数据中心DCIM+的产品,我们的软件产品,全部通过国家公安部最高等级的信息安全认证,可以充分保证基础设施的网络安全。
  华为基于云的DCIM+,是一站式的多DC管理系统,你只需要一个手机APP,一键就可以看到DC状态;通过云化的DCIM+可实现后续数字化、可视化的运维和管理,提升DC营维效率。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题