VMware软件定义数据中心分析工具介绍--第一篇

　　在接下来的一段时间，笔者会分享VMware的分析工具，vROps和LogInsight。由于篇幅有限，我会以连载的方式，先介绍vROps（预计会有三篇），再介绍LogInsight。

　　分析工具用于分析数据。谈到数据的类型，可以分为结构化数据和非结构化数据。在VMware的SDDC解决方案中，两种数据我们都有相应的分析方法。针对与结构化数据，主要指的是虚拟化环境中的：性能、告警、事件类的信息，通过vROps与vCenter进行通讯进行收集，经过分析后，用报表的形式展示给用户。对于非结构化数据，主要指的是日志，使用LogInsight与vCenter进行通讯，收集信息，然后进行智能化分析，方便用户查看和追溯。本篇我先介绍vROps。

　　一 vROps是什么

　　vROps全称是vRealizeOperationsManager。谈到vROps是什么，相当多的人第一反应它是一个监控工具，其实这样说并不十分准确。

　　严格来讲，vROps是一个分析工具，vROps中展示的所有和虚拟化相关的数据，都来自于vCenter。其实，vCenter以配置管理为主，本身具有简单的监控功能，对于相对复杂的场景，无法满足监控运维要求，这些工作就需要vROps去完成。这也是很多客户问过我的问题：vCenter本身已经可以总虚拟机监控，还要vROps干什么。

　　举个例子，如果将vCenter监控到的信息，比作我们体检的时候，每个体检项的具体指标和结果（总之非医科人员看不懂），那么vROps就是最终体检报告首页呈现的体检结果总结和医生的建议。因此，vROps真正的意义在于，可以直观地向IT管理员展现生产环境中所有虚拟机的运行情况，并且给出相应的建议。因此，vROps节省的是运维管理成本，并且保证分析的过程是标准化的。

　　二 vROps的指标

　　衡量一个对象（如虚拟机）的运行情况，vROps有三大指标：运行情况（或健康）、风险、效率。同时用不同的颜色表示此项指标的状态。分为四个颜色：绿色、黄色、橘黄色、红色颜色越深，问题越大。

　　三大指标并不是vROps拍脑袋拍出来的，而是每个指标又有其子指标，几个子指标共同决定了这个大指标的状态。子指标一共有9个，加上大的指标，一共13个。正是这12个指标，共同决定了对象在vROps中的数值。

　　与“运行情况”或“健康”相关的子指标有：

　　负载、异常、故障（下图前三个）

　　负载

　　异常

　　故障

　　与“风险”相关的子指标有：

　　剩余容量、剩余时间、压力、合规性

　　剩余容量

　　剩余时间

　　压力

　　合规性

　　与“效率”相关的子指标有：

　　可回收容量、密度

　　可回收容量

　　密度

　　三 vROps的架构

　　vROps6之前的版本，它的名字是vCenterOperationsManager，简称vCOps。vCOps的架构是两个虚拟机，一个做分析用，一个做UI用。UI是我们实际登陆vCOpsWeb的界面。

　　下图是vCenter中，vCOps的两个虚拟机。

　　vROps6的架构发生了较大的变化，不再使用分析和UI两个虚拟机，合并成一个。

　　为了保证vROps的高可用，可以将vROps配置成集群模式。需要注意的是，集群模式不是必须的，非集群模式，一个虚拟机就可以完成所有的工作。在安装vROps的appliance的时候，vROps虚拟机的配置（CPU，内存，磁盘）会根据我们选的虚拟化规模而不同。

　　vROps的一个集群最多有四个角色，可以配置四个虚拟机，分别为：

Master/MasterReplica
DataNode
RemoteCollector

　　其中Master和Replica是主备两个节点，负责vROps的主要工作。两个节点的信息是同步的，当Master节点出现故障，Replica将会变成Master，继续提供服务。当Master修复以后，变成Master的节点将会再度变回Replica。

　　DataNode：

　　数据节点主要的工作是：负责收集和处理数据。如果有RemoteCollector的的话，数据收集工作则由RemoteCollector完成。

　　RemoteCollector：

　　RemoteCollector的作用主要是：收集数据并且把它们提交给DataNode。

　　在试验中，笔者配置了vROps四个节点的集群：

　　在集群中，我们可以手工地在集群中做再平衡操作（平均分配负载）：

　　四阀值的问题

　　我们知道，告警的发生，是当对象的某一个指标触发了阀值以后发生的，对于监控和系统系统而言，基线很重要。大多数监控工具采用的都是静态阀值，而vROps采用的是动态阀值。那么采用动态阀值的意义是什么？

　　简单的举个例子，大家就明白了。用北京地铁13号线的容积率举例子：早晚高峰的时候，很多人坐地铁。在那个时候，基本上爆满，如果用容积率去衡量，假定90%是正常，也就是告警的基线。而到中午非高峰期，我们做地铁，或许还有座，在这个时候，容积率假定40%是正常的。因此，如果我们做一套监控系统来监控13号线的容积率，那么早晚高峰和中午的阀值一定是不同的。否则，以90%作为基准，那么该监控系统基本不会告警，如果以40%作为基线，那么该系统将会频频告警。

　　大致解释一下vROps动态阀值产生的原理：vROps部署以后，它会先用一周的时间收集对象的数据，然后花三周时间进行修正，由此得到了基线。因此，如果客户要将vROps投入生产使用，必须要在正式使用一个月前部署好，开始监控虚拟化对象。

　　五自定义部分

　　vROps6相对于vCOps的进步，在于有很多地方客户可以自定义。我们可以自定义症状、自定义建议、自定义警报、自定义报告、自定义仪表盘等等。

　　实际上，在vROps中，能自定义的部分很多，但需要注意的是，行动是不能自定义的。但我们可以将行动和建议绑定在一起。

　　在下面的案例中，将展示一个创建告警的完整记录。即：

　　创建两个症状=》创建一个建议，并将建议关联一个行动=》创建一个警报，包含之前创建的症状和建议。==》触发和查看警报。

　　实际上，我创建的这个警报是，包含两个症状:1.虚拟机Demand的CPU大于60%的时候。同时2.DemandCPU大于70%。两个症状都满足的时候，触发警报，并且给出的建议将是：修改虚拟机CPU限制，并且建议是增加虚拟机CPU的数量。