您当前的位置是:  首页 > 新闻 > 国内 >
 首页 > 新闻 > 国内 >

微软开源其对付云网络中断的秘密武器

2018-08-20 09:36:58   作者:   来源:开源云中文社区   评论:0  点击:


  微软研究人员表示计划开源Open Network Emulator——这个系统模拟整个支撑公司超大规模云平台的网络。
  在用于生产部署之前,微软已经使用Open Network Emulator大约一年的时间来测试网络发生的更改。研究人员表示,微软的网络工程师捕获了数百个bug,阻止了潜在的重大中断。
  计算机网络复杂而脆弱。网络越大,单个错误造成的损害就越大。
  在使用模拟整个全球网络的系统支持Azure云以避免工程师犯下灾难性错误一年多之后,微软计划开源模拟器的代码。
  微软研究院杰出科学家兼移动与网络总监Victor Bahl在一次采访中说:“我们已经认定这对每个人来说都是重要的资源,不共享是不对的。所以,我们正在向整个社区分享。”
  该系统称为Open Network Emulator(ONE),它在软件中模拟构成网络的所有硬件和软件设备以及它们互连的方式。该系统在Docker容器和VM中运行,其目的是测试网络工程师在部署到实时网络之前所做的更改——其正常运行时间对于许多人和企业来说至关重要。
  让大众访问该技术将有助于大型企业改善其网络正常运行时间,同时还为学生和研究人员提供了一种工具,可用于模拟微软、谷歌和亚马逊等超大规模网络,无需访问实际网络即可构建和创新网络本身。
  据微软称,它还将为网络产品供应商提供一种大规模测试新控制平面软件的方法。
  该公司尚未表示具体何时开源ONE,搜索开源软件存储库GitHub也没有得到任何结果。
  去年,微软在内部使用该系统大约六个月后将其首次发布。当时,它被称为CrystalNet,意在它就像水晶球一样,展示了网络的未来。微软研究人员当时暗示,他们正在考虑向大众发布这项技术。在今年6月的Sigcomm会议上,微软确认了开源ONE的计划。
  “网络庞大、异构、复杂,并经历不断的冲击与变化。在这样的环境中,即使是由设备故障、有bug的设备软件、配置错误、不可靠的管理工具以及不可避免的人为错误等小问题,都可能很快导致大量中断。“微软研究人员在为Sigcomm提交的ONE的描述中进行了解释, “因此,在生产中部署更改之前,有能力验证实际环境中每个计划更改的影响对于维护和提高网络的可靠性至关重要。”
  根据Sigcomm的论文,Azure网络工程师每天使用ONE已经超过一年。他们“在ONE仿真上花费了数百万小时的时间,并且在提议的更改中捕获了数百个bug,这防止了潜在的重大中断”。
  随着企业越来越依赖云服务,确保这些服务不出故障比以往任何时候都重要。但无论系统设计得多好以及运行它们的工程师多么聪明和警惕,人类总会偶尔犯错误。在超大规模网络的更改期间发生的微小错误可能就导致巨大的中断。
  “一切都运转良好。除非硬件故障,一切都应该没问题。但是,你团队的某一个人,在某个地方更改了一些东西 ,然后恐怖故事发生了,整个云可用区域全毁了,因为网络断了,数据包就无处可去了。”
  在超大规模时,这样的中断会影响数百万人,谁也不想成为罪魁祸首。
  现在,当Azure网络工程师进行更改时,首先将这些更改应用于模拟,但第一步就是无缝的。 “他们甚至不知道他们是否正在更改网络,他们实际上更改的是模拟器。 因为它模拟下面的网络模拟得如此之好,他们无法区分。“
  如果更改不会导致模拟中的任何错误,这一更改会自动传播到生产网络。
  原文链接:
  https://www.datacenterknowledge.com/microsoft/microsoft-open-source-its-secret-weapon-against-cloud-network-outages
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题