MIT与微软合作开发“风险意识”数学模型，有效降低全球云计算成本

　　股票市场上的投资者往往依赖金融风险理论来帮助他们获得最大化投资回报，同时又能将市场波动造成的金融损失降至最小。这些理论帮助投资者保持一个平衡的投资组合，以确保他们在任何时候都不会损失超过他们愿意放弃的钱。

　　受这些理论的启发，MIT计算机科学与人工智能实验室（CSAIL）的研究人员与微软合作开发了一个“风险意识”数学模型，可以提高全球云计算网络的性能。毕竟，云计算的基础设施极其昂贵，消耗了世界上大量的能源。

　　数据连接失败概率，类比股价的波动

　　他们的模型考虑了全球数据中心之间链接失败的概率——类似于预测股票的波动性。然后，它运行一个优化引擎，通过最佳路径分配流量，以最小化损失，同时最大化网络的整体利用率。

　　该模型可以帮助市面上的主要云服务提供商——如微软、亚马逊和谷歌——更好地利用其基础设施。传统方法是保持链路空闲，以处理链路故障导致的意外流量转移，这是对能量、带宽和其他资源的浪费。

　　另一方面，这个名为TeaVar的新模型保证了在一定的目标时间百分比内（比如99.9%）内网络能够处理所有数据流量，因此没有必要保持任何链接空闲。在那0.1%的例外时间内，模型也会将数据中断的可能性保持得越低越好。

　　在基于真实数据的实验中，该模型支持的流量是传统方式的三倍，同时保持了相同高的网络可用性。一篇描述模型和结果的论文将在本周的ACM SIGCOMM会议上发表。

　　麻省理工学院电子工程和计算机科学系TIBCO职业发展助理教授、该研究的合着者Manya Ghobadi说，更好地利用网络可以为服务提供商节省数百万美元，这些好处同时也会惠及到消费者身上。

　　Ghobadi说：“更好地利用基础设施不仅对云服务有好处，对世界也有好处。企业不需要购买那么多基础设施来向客户销售服务。此外，能够有效地利用数据中心资源可以节省云基础设施的大量能源消耗。所以，这对用户和环境都是好的。”

　　Ghobadi的论文作者中包括她的学生Jeremy Bogle和Nikhil Bhatia，他们都是CSAIL的学生；微软研究院的Ishai Menache和Nikolaj Bjorner，以及希伯来大学的Asaf Valadarsky和Michael Schapira。

　　权衡可用性和利用率，成本最小化

　　云服务提供商使用运行在地下的光纤电缆网络，连接不同城市的数据中心。为了路由流量，提供商依赖于“流量工程”（ traffic engineering ，TE）软件，该软件可以通过所有网络路径优化分配数据带宽（一次可以传输的数据量）。

　　其目标是确保世界各地的用户获得最大的可用性。但是，当一些连接可能意外失败时，这就很有挑战性了，比如断电时导致信号质量下降，或者施工造成的线路中断等因素。为了减轻这些意外事故带来的影响，供应商将许多链接的利用率保持在非常低的水平，只是在那里等着在需要时从被迫关闭的链接中承受全部数据负载。

　　因此，在网络可用性和利用率之间，这是一个微妙的权衡，这将实现更高的数据吞吐量。研究人员说，这就是传统TE方法失败的地方。他们基于各种因素找到最佳路径，却不量化链路的可靠性。Bogle说：“他们不会说，‘这条链路启动和运行的概率更高，所以这意味着你应该在这里发送更多的流’。”网络中的大多数链路利用率都很低，发送的流量也没有达到预期的水平。"

　　于是，研究人员设计了一个TE模型，该模型采用了核心数学中的“风险条件价值”，这是一种量化平均资金损失的风险评估方法。在投资股票时，如果你今天99%的条件价值风险为50美元，那么你当天最坏情况1%的预期损失就是50美元。但99%的情况下，你会做得更好。这一指标用于投资股市，而股市是出了名的难以预测。

　　“但数学实际上更适合我们的云基础设施设置，” Ghobadi说。“大多数情况下，链路故障是由于设备老化造成的，因此故障概率不会随着时间的推移发生很大变化。这意味着与股市相比，我们的概率更可靠。”

　　风险意识模型

　　在网络中，数据带宽份额类似于投入的“钱”，具有不同故障概率的网络设备是“股票”及其股价变化的不确定性。利用这些基本公式，研究人员设计了一个“风险意识”模型，与金融模型一样，该模型保证数据在99.9%的时间内到达目的地，但在0.1%的最坏情况下，流量损失最小。这帮助了云提供商调优可用性和利用率之间的权衡。

　　研究人员将微软连接其数据中心的网络三年的网络信号强度映射到链路故障的概率分布上。输入是图形中的网络拓扑，数据源-目的地数据流通过线路（链路）和节点（城市）连接，每条链路分配一个带宽。

　　每隔15分钟对每个环节的信号质量进行检测，得到故障概率。如果信号质量低于接收阈值，他们认为这是链路故障。高于接收阈值即意味着链接已经启动并运行。在此基础上，该模型生成了每个链接上升或下降的平均时间，并计算了每个链接在每个15分钟时间窗口的失败概率（或“风险”）。从这些数据中，它能够预测在任何给定的时间段内，风险链接什么时候会失效。

　　研究人员将该模型与其他TE软件进行了测试，测试对象是通过遍布全球的谷歌、IBM、ATT和其他网络发送的模拟流量。研究人员根据故障发生的概率创建了各种故障场景。然后，他们通过网络发送模拟的和真实的数据需求，并提示他们的模型开始分配带宽。

　　研究人员的模型将相对可靠的链接保持在接近满负荷的状态，同时引导数据远离风险更高的链接。与传统方法相比，他们的模型通过网络运行的数据是传统方法的三倍，同时仍然确保所有数据都到达目的地。

　　相关报道：

　　https://www.csail.mit.edu/news/using-wall-street-secrets-make-cloud-computing-cheaper

　　https://github.com/manyaghobadi/teavar

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业