首页 > 新闻 > 专家观点 >

华胜天成何宇:天成云泰 云环境下监控与运作新思路

2012-09-06 16:25:43   作者:   来源:机房360    评论:0  点击:


  各位嘉宾下午好!我的演讲是下午的第一场,我今天演讲的题目是“天成云泰,云环境下监控与运作新思路”。监控我相信在座的各位应该都非常熟悉了,因为每个单位或多或少上了监控软件。过去几年我跟IT人员沟通过,听主管人员跟我讲监控软件有用,但是又不是特别有用,慢慢就变成了IT部门变成了辅助部门,监控软件就变成了辅助工具。这些年我们不停地跟客户交流沟通,帮客户建设一些项目,我们有一些新思路分享给大家,就是IT基础架构到全业务的生命周期。
  
  一直以来,在我们企业的IT部门分成三种角色,这三种角色也像软件厂商做IT维护和监控软件的厂商的客户,不同的角色诉求不一样,比如说对于基层的IT运维工程师来说,关心的是如何监控与管理因云环境下的IT基础架构?对企业IT部门最高的主管除了考虑业务的保障外,还关注的是如何体现IT部门的价值,难道IT部门永远是一个企业的辅助性的保障性的部门吗?为什么IT部门不能够业务部门一样得到企业领导的关注呢?其实,从监控的角度来说,我们的传统的监控软件,一直满足的第一类客户的需求,就是运维工程师的需求。但是一直没有很好的回答,IT部门的主管们的诉求,所以接下来我希望通过短短的15分钟演讲,让大家知道我们的新思路如何让一个企业更好的保障业务,如何让一个IT部门,不仅仅是只跟在业务部门后面的保障部门,其实他是可以引导业务部门的。
  
  在我开始接下来演讲之前,我先举一个例子,今天在会场上有以前的客户来问,什么时候能给我们讲讲我们在北京电视台做的案例呢?我今天就用一个简短的5分钟时间,先从一个案例开始。
  
  其实要把BTV的成功案例经验分享给大家要用半个小时,我就把最典型的场景给大家分析一下,我们在北京电视台怎么帮我们的客户从基础架构到业务系统。大家知道对于一个电视台来说,最核心的业务就是节目的生产、制作到审核、最后播放。电视台是一个高度政治性的部门,任何一个运维的小事故都可能演变成一个政治性事件,所以他们的压力非常大。这是北京电视台系统的逻辑图(PPT),左边大家看到的这些就是北京电视台分很多生产系统,每个生产网生产出来的节目以媒体文件的方式通过主干系统到总编室去做审核,每一个节目播出一定得严格审核的,分技术审核、内容审核,最后有可能也会到媒体系统作为一个仓库,为将来的其他节目做素材用。一直以来业务部门,比如说在电视台的业务人员就是制片人,在节目备播过程中非常关注被制播的过程,他关注我的节目被送到总编室处于哪个环节,有没有问题。上面大家看到这是一个标准的电视节目的完整的过程,从文稿素材的准备,到制作,到审核,到迁移,到播出,是一个标准的过程。其实北京电视台是中国最早实现全台网的,对它来说每一个业务的环节完全实现了网络化、信息化。也就是说,每一个环节其实依赖于若干个核心的业务服务支撑,比如说有直播的服务,集成的服务、合成的服务等等。每个核心的业务服务又依托很多软硬件系统技术架构的支撑,就是网络主机、数据库、存储。大家看这张图,再结合您单位的IT业务部门的逻辑架构,其实大同小异,不同的就是业务流程不一样,核心的业务服务部一样,其实也就这三层架构。
  
  我记得最早我在北京电视台客户交流的时候,他就跟我讲过,我们想采购监控,但是觉得监控对我没什么用,比如说它不能帮我解决这样的问题。比如说在北京电视台晚上八点钟有一个节目要播出,但是到晚上6点钟电视节目的媒体文件还没有送到总编室做审核,大家知道其实这在电视台是一个严重的播出事故了,因为有可能8点钟就没有节目播了。我们的客户跟我讲,传统的监控软件不能帮我发现这样的问题呀,是不能发现,后来我们就帮他建设了依托于我们自身的产品,BSM的基础上,就帮他建设了从业务流程的监控,到业务服务监控,再到基础架构监控,三位一体的完整的监控。我用一个典型的场景跟大家分享一下,建设的内容其实很多,还有运维部分,但是在这儿我专门讲一下业务流程这部分。
  
  大家看到,这是北京电视台一个王牌节目,叫军情解码,某一天完整的业务流程。绿色的环节表示这个业务环节已经走过去了,并且成功的执行了,灰色的表示还没有走到,蓝色表示当前正在执行的业务环节。这张图大家可以看到,不仅对IT运维人员有用,其实对于一个业务人员也非常有用。电视台的业务人员是什么?典型的像制片人,军情解码的制片人,当他把这个业务送出去之后就要看这张图,随时知道我这个节目媒体文件到了哪个环节,是不是停住了,停住了有几种可能,有可能系统出了问题,也有可能是人为的,审核的人出去吃饭了,吃饭花了两个小时,节目就一直停在审核的环节。以这个例子为例,当前在主干迁移这个环节,这个环节标红了,什么意思?有问题了。我们多的平台就会发给运维人员,首先会看业务流程的业务信息是什么,是什么样的节目,由谁制作的,接着可以看一下出问题的业务环节到底是什么问题。从这个信息里面可以看到,这时候的监控已经脱离了传统意义上的CPU利用率、内存利用率的信息,上面展现的全是业务信息,从这个业务信息会说原来是迁移超时了,赶紧得去解决,首先得找到故障,他只需要点击进入主干迁移的业务环节,调出支撑这个业务环节的核心的业务服务的逻辑图,从这个逻辑图很容易看到原来是一个服务器亮了红灯,他再点击进这个服务器去查,原来这台服务器宕机了,这是一台转码的服务器。接下来运维人员怎么快速的找到这台服务器,然后解决这个故障。你知道对于北京电视台主干机房有上千台设备,你怎么能快速的在上千台设备里面找到服务器并且解除故障呢?传统的方式要花很长时间,但是对于系统来说很简单,只要点击一个物理位置的按纽,就会调出主干机房3D全景机房图,可以看到在机房里面有一个机柜亮了红灯,点击进入这个机柜就很容易找到出故障的设备,就可以派工程师进去解决故障。这就是一个典型的例子,怎么为BTV这个客户实现了从基础架构舰空导业务服务监控,到最上面的业务系统监控,三位一体的监控,用一套平台实现这样的关联监控。
  
  接下来我讲一下产品怎么样能够分别做到呢?
  
  首先,基础架构的监控对于产品来说,跟很多传统的产品都能做到,比如说我们可以有在云环境下网络TOP的自动发现,可以由在云环境下网络TOP的管理和监控,以及有对耽搁的网络设备的监控,以及对虚拟资源的监控。有些企业还订购了远在天边的CRM的服务,我们也可以帮你对它进行监控。机房所有的设备,软硬件都在机房里面,对机房监控也是基础架构很重要的一部分,我们提供了纯3D实景的监控。
  
  在基础架构这一层的监控能监控所有主流的,非主流的,网络设备、操作系统应用,以及实时的高警平台。就像北京电视台一样,有一个十几平米的大屏幕,打在上面,运维人员坐在下面,看实时更新的高警平台。
  
  做了基础架构的监控其实只是满足了IT运维工程师的需求,但是没有满足IT部门主管和CIO的需求,接下来您可以尝试往前走一步,对企业里面的业务服务进行监控。什么是业务服务?
  
  其实业务服务概念很简单,就是把企业里面的IT资源,不管是物理资源还是虚拟资源,还是云环境,以及企业的业务系统做一个打包,把它们之间的关联关系定义上,以及哪些部门会影响使用到你的业务服务,这样就可以从业务的角度进行监控。业务服务定义出来之后,我们能对它做什么呢?第一,实时监控;第二,故障影响,当业务服务出现问题快速地知道会影响哪些业务部门;第三,还能进行KPI的分析。你定义企业的业务服务能做什么?我们提供一个业务服务的雷达,在业务服务的雷达商动态的扫描定义出来的业务服务的健康状况,如果有亮红灯,运维工程师可以点击进去调出业务服务的逻辑TOP图,很容易的找到它是哪怕一般台物理机器,或者是虚拟资源出了故障,然后进去排除故障,找到它所在的位置,解除故障之后再回到这张业务服务的逻辑TOP图,去验证这个故障是否得到了解除。
  
  做到了业务服务监控还是不够的,因为最终的核心就是业务系统,要能对业务系统进行监控。在业务系统监控里面分两个成面:一是像BTV能对业务的全流程,全生命周期进行监控,有些企业可能没有业务的全流程,就需要对单个业务系统里面进行监控。我给大家讲一个商业银行的例子,就是对某一个核心业务系统里面进行深入的监控。大家知道银行的业务,有银行的客户会非常了解,银行都有自己的核心业务系统,前面有很多渠道,包括您去银行交电话费、水电费其实也是一个渠道,当然还有ATM机,在渠道每天做的交易中都会通过大前置机最终进入银行的核心业务系统,所以对银行来说,大前置业务是非常核心的业务,如果大前置Down掉了,也没法交水电费,也没有在POS机上取款了。我们就帮银行监控大前置,其实监控大前置产生的数据不仅对IT运维工程师有用,而且对业务部门的人有用,因为他可以通过数据分析知道哪些渠道交易量非常大,哪些渠道交易不大,对银行来说交易量太大太小都不好,大家可以看到做业务系统的监控,不只是有益于IT运维部门,其实对业务部门也非常有用。
  
  最后,我想总结一下,如果一个IT部门想真正能够做到对业务的保障,光有基础架构是不够的,必须能做到从基础架构到业务服务,再到业务系统三位完整的监控,而且这个监控必须是关联性监控,相互之间是关联的,不是脱节的,这样才能真正做到业务保障。另外,当IT部门真正能对业务系统进行监控的时候,其实你的IT部门已经渐渐不再是一个服务性的部门了,因为你手头上有业务的监控数据,你可以通过业务监控数据的分析引导业务部门。所以,这是我中间想讲的,从基础架构监控到业务系统全流程监控的价值。
  
  这就是我简短的介绍。谢谢大家!
分享到: 收藏

专题