您当前的位置是:  首页 > 新闻 > 国内 >
 首页 > 新闻 > 国内 >

VMware软件定义数据中心分析工具介绍--第一篇

2016-01-07 15:41:31   作者:   来源:CTI论坛   评论:0  点击cti:


  在接下来的一段时间,笔者会分享VMware的分析工具,vROps和LogInsight。由于篇幅有限,我会以连载的方式,先介绍vROps(预计会有三篇),再介绍LogInsight。
  分析工具用于分析数据。谈到数据的类型,可以分为结构化数据和非结构化数据。在VMware的SDDC解决方案中,两种数据我们都有相应的分析方法。针对与结构化数据,主要指的是虚拟化环境中的:性能、告警、事件类的信息,通过vROps与vCenter进行通讯进行收集,经过分析后,用报表的形式展示给用户。对于非结构化数据,主要指的是日志,使用LogInsight与vCenter进行通讯,收集信息,然后进行智能化分析,方便用户查看和追溯。本篇我先介绍vROps。
  一 vROps是什么
  vROps全称是vRealizeOperationsManager。谈到vROps是什么,相当多的人第一反应它是一个监控工具,其实这样说并不十分准确。
  严格来讲,vROps是一个分析工具,vROps中展示的所有和虚拟化相关的数据,都来自于vCenter。其实,vCenter以配置管理为主,本身具有简单的监控功能,对于相对复杂的场景,无法满足监控运维要求,这些工作就需要vROps去完成。这也是很多客户问过我的问题:vCenter本身已经可以总虚拟机监控,还要vROps干什么。
  举个例子,如果将vCenter监控到的信息,比作我们体检的时候,每个体检项的具体指标和结果(总之非医科人员看不懂),那么vROps就是最终体检报告首页呈现的体检结果总结和医生的建议。因此,vROps真正的意义在于,可以直观地向IT管理员展现生产环境中所有虚拟机的运行情况,并且给出相应的建议。因此,vROps节省的是运维管理成本,并且保证分析的过程是标准化的。
  二 vROps的指标
  衡量一个对象(如虚拟机)的运行情况,vROps有三大指标:运行情况(或健康)、风险、效率。同时用不同的颜色表示此项指标的状态。分为四个颜色:绿色、黄色、橘黄色、红色颜色越深,问题越大。
  三大指标并不是vROps拍脑袋拍出来的,而是每个指标又有其子指标,几个子指标共同决定了这个大指标的状态。子指标一共有9个,加上大的指标,一共13个。正是这12个指标,共同决定了对象在vROps中的数值。
  与“运行情况”或“健康”相关的子指标有:
  负载、异常、故障(下图前三个)
  负载
  异常
  故障
  与“风险”相关的子指标有:
  剩余容量、剩余时间、压力、合规性
  剩余容量
  剩余时间
  压力
  合规性
  与“效率”相关的子指标有:
  可回收容量、密度
  可回收容量
  密度
  三 vROps的架构
  vROps6之前的版本,它的名字是vCenterOperationsManager,简称vCOps。vCOps的架构是两个虚拟机,一个做分析用,一个做UI用。UI是我们实际登陆vCOpsWeb的界面。
  下图是vCenter中,vCOps的两个虚拟机。
  vROps6的架构发生了较大的变化,不再使用分析和UI两个虚拟机,合并成一个。
  为了保证vROps的高可用,可以将vROps配置成集群模式。需要注意的是,集群模式不是必须的,非集群模式,一个虚拟机就可以完成所有的工作。在安装vROps的appliance的时候,vROps虚拟机的配置(CPU,内存,磁盘)会根据我们选的虚拟化规模而不同。
  vROps的一个集群最多有四个角色,可以配置四个虚拟机,分别为:
  • Master/MasterReplica
  • DataNode
  • RemoteCollector
  其中Master和Replica是主备两个节点,负责vROps的主要工作。两个节点的信息是同步的,当Master节点出现故障,Replica将会变成Master,继续提供服务。当Master修复以后,变成Master的节点将会再度变回Replica。
  DataNode:
  数据节点主要的工作是:负责收集和处理数据。如果有RemoteCollector的的话,数据收集工作则由RemoteCollector完成。
  RemoteCollector:
  RemoteCollector的作用主要是:收集数据并且把它们提交给DataNode。
  在试验中,笔者配置了vROps四个节点的集群:
  在集群中,我们可以手工地在集群中做再平衡操作(平均分配负载):
  四 阀值的问题
  我们知道,告警的发生,是当对象的某一个指标触发了阀值以后发生的,对于监控和系统系统而言,基线很重要。大多数监控工具采用的都是静态阀值,而vROps采用的是动态阀值。那么采用动态阀值的意义是什么?
  简单的举个例子,大家就明白了。用北京地铁13号线的容积率举例子:早晚高峰的时候,很多人坐地铁。在那个时候,基本上爆满,如果用容积率去衡量,假定90%是正常,也就是告警的基线。而到中午非高峰期,我们做地铁,或许还有座,在这个时候,容积率假定40%是正常的。因此,如果我们做一套监控系统来监控13号线的容积率,那么早晚高峰和中午的阀值一定是不同的。否则,以90%作为基准,那么该监控系统基本不会告警,如果以40%作为基线,那么该系统将会频频告警。
  大致解释一下vROps动态阀值产生的原理:vROps部署以后,它会先用一周的时间收集对象的数据,然后花三周时间进行修正,由此得到了基线。因此,如果客户要将vROps投入生产使用,必须要在正式使用一个月前部署好,开始监控虚拟化对象。
  五 自定义部分
  vROps6相对于vCOps的进步,在于有很多地方客户可以自定义。我们可以自定义症状、自定义建议、自定义警报、自定义报告、自定义仪表盘等等。
  实际上,在vROps中,能自定义的部分很多,但需要注意的是,行动是不能自定义的。但我们可以将行动和建议绑定在一起。
  在下面的案例中,将展示一个创建告警的完整记录。即:
  创建两个症状=》创建一个建议,并将建议关联一个行动=》创建一个警报,包含之前创建的症状和建议。==》触发和查看警报。
  实际上,我创建的这个警报是,包含两个症状:1.虚拟机Demand的CPU大于60%的时候。同时2.DemandCPU大于70%。两个症状都满足的时候,触发警报,并且给出的建议将是:修改虚拟机CPU限制,并且建议是增加虚拟机CPU的数量。
  自定义一个症状:
  它表示:当虚拟机Demand的CPU大于60%的时候,这个情况是一个症状,它叫“WXYmediumcpudemand”
  定义好以后,我们发现会有虚拟机触发这个症状。
  需要注意的是,此时,WXYmediumcpudemand还只是个症状,还没有告警与他关联。因此在alerts中还看不到相关的信息。
  创建第二个症状
  创建一个,当HostDemandCPU大于70%的时候触发的症状。
  创建一个建议
  创建一个建议,并且与已有的Actions相关联。此处我创建了两个建议,第二个是“增加虚拟机CPU数量”,创建方法相同,就不再重复粘贴了。后面步骤实际上用的第二个建议。读者请勿疑惑。
  创建一个警报
  一个警报可以包含多个征兆。
  对象选择虚拟机:
  定义警报的级别和位置:
  选择对应的症状,此处的症状,就是我最开始创建的两个:
  此处选择建议,也是我事先创建好的。
  截止到此时,告警已经创建好。
  查看告警
  我们可以看到,告警被触发,并且出现在健康的项目下。
  这样,一个完整的警报就创建好了。
  官方微信
  • VMware中国
  • VMware中国研发中心
  • VMware招聘
  V记云科技联盟成员
  • 乐生活与爱IT(love_life_and_IT)
  软件定义存储与虚拟化
  叶毓睿VMware存储架构师
  • 亨利笔记(henglibiji)
  容器和云原生应用
  张海宁,研发中心首席架构师
  • 最终用户计算(CHINAEUC)
  桌面与应用虚拟化
  吴孔辉,VMware架构师
  • 疯云时代(crazycloudtime)
  基础架构和应用服务
  臧铁军,VMware架构师
  • 大卫分享(david-share)
  SDDC与IT管理
  魏新宇,VMware金融行业售前
  • IT那些事儿(IT-Review)
  尤贵贤,资深技术顾问

专题