DCN 学院派丨智能无损DCN，释放AI算力巅峰

　　人类社会正在进入数字经济增长周期。根据华为GCI调研结论，数字经济的增长率是全球经济增长率的2.5倍，数字经济的投资收益率为非数字经济的6.7倍，当数据成为驱动经济增长的核心生产要素，谁掌握领先“数据基础设施”才能赢得未来！我们知道，数据流动起来才能产生价值，而数据中心网络就是数据流动的管道。那么，什么样的数据中心网络才能让数据高效地流动起来，这就是本文的出发点。

　　企业数字化转型升级

　　AI点石成金

　　人类社会的发展在经历了农业时代、工业时代后，随着信息化技术的发展，终于迎来了数字经济时代。据Gartner调研，75%的大型企业已经将数字化转型作为企业核心战略。与农业经济关注土地和劳动，工业经济关注资本和技术截然不同，数字经济的核心生产要素已经转变为数据和智能。企业数字化转型过程中产生大量的数据，已经成为企业核心资产的一部分，然而数据本身不是目的，知识和智慧才是永恒的价值。通过AI从数据中挖掘智慧，实现数据的商业价值变现，成为当前企业数字化转型的主题。AI成为企业重塑商业模式、提升客户体验和开创未来的关键推动力。+AI，标志着企业数字化转型进入了智能化新阶段。

　　过去的几年来企业对AI的采用率爆发式增长，据华为GIV（Global Industry Vision）预测，到2025年大企业对AI的采用率将达到97%。作为企业数据金矿的炼金术，AI点石成金，成为企业数字化转型到智能化升级成败的关键。AI技术的大量使用，驱动企业数据中心使命发生颠覆性变革。

　　企业数据中心迈入AI时代

　　释放AI算力是关键

　　企业智能化升级驱动数据中心从云时代迈入了AI时代。相比而言，云数据中心更像是个业务支撑中心，以应用为中心，通过云平台实现IT资源的快速发放。而AI数据中心在云数据中心基础上真正演进成为商业价值中心，以数据为中心，聚焦于如何基于AI对数据进行高效处理。

　　AI驱动DC重构

　　随着数据中心AI时代到来，算力作为AI三大关键要素之一，需求更加旺盛和多样化。算力贵、算力不足，已经成为时代挑战，更高算力的GPU、AI芯片相继涌现。而另一方面，由于网络丢包的原因导致昂贵的算力在实际应用中不能有效的发挥。如果说衡量一个云数据中心的关键指标是业务发放的效率，那么衡量AI数据中心的关键指标就是AI运行效率。

　　如何提升AI数据中心的运行效率？

　　充足AI算力是前提。我们知道，深度学习的神经网络算法突破引爆了新一轮的AI浪潮，而深度学习需要到巨大的算力支撑，比如一次语音识别的AI训练涉及到20E（1E=1018次方）次的浮点计算，而谷歌机器翻译算力需求量达到103E，即便用全世界最高性能的超级计算机Summit来计算，也需要较长的时间。保证有充足的算力成为提升AI运行效率基本前提，以AWS、华为等为代表的公有云厂商领导者正在采用x86/ARM CPU，GPU，NPU构建业界最高性能的算力池。

　　释放算力是关键。以深度学习为特征的AI计算也依赖海量的数据的输入（无论是AI训练样本算据还是AI推理涉及到原始算据的输入）。装载算力的GPU/AI服务器只有获得完整算据后才能进行AI处理，否则只能空闲等待，因而数据的存取速度将直接影响算力的发挥。比如根据AWS公开数据显示，公有云训练实例P3采用100GE的优化网络，要比25G的TCP网络在Mask R-CNN训练中性能提升5倍；而在推理实例G4中，利用100GE优化网络，RestNet50模型推理性能提升4倍，Bert-Base模型推理性能提升多达34倍。同样算力条件下，如何保证算力100%释放甚至更为关键。

　　AI数据中心架构重塑

　　0丢包的无损网络成为基本诉求

　　当前的云数据中心建设基本思路是采用虚拟化技术对IT资源池化管理，通过Software Defined Everything思路完成资源的统一的按需自助/自动化发放，最终实现Everything as a Service的云化服务形态。而为了满足数据中心充分释放AI算力从而使得AI高效运行的诉求，面向AI时代的数据中心架构正在重塑。业界提出构建以全闪存存储数据湖为核心，以GPU/AI多样化计算为算力底座的AI时代数据中心架构，越来越得到广泛认可。

　　AI数据中心架构

　　在AI数据中心新架构中，作为数据中心核心组成的存储和计算正在发生颠覆性的变革：全闪存化存储介质使得存储时延降低百倍，GPU/AI智能计算使得计算性能提升百倍。计算和存储的性能百倍提升导致传统以太网的拥塞易丢包带来的网络瓶颈问题开始凸显。根据业界统计，即便在低于<10%链路带宽的低负载流量环境下，突发流量引起的网络的丢包率也接近1‰，而这1‰的丢包在AI时代会直接导致算力下降接近50%。随着业务负载的增加，分布式多打一流量的增多，网络丢包问题将更为严重。

　　如何构建一个0丢包的无损数据中心网络成为面向AI时代的数据中心网络的基本要求。

　　业界首款内置AI芯片的交换机

　　构筑智能无损DCN

　　我们知道大规模网络中，当流量超过交换机的处理和缓存能力时，传统以太网基本的处理机制就是丢弃报文。无损网络基本思路就是通过系列流量调度机制和措施，但其核心都在于控制发送端的发送速度，从而避免超过交换机处理能力的拥塞形成。

　　如何根据交换机当前的拥塞情况控制源端的发送速度？当前业界基本的做法是在交换机端口设置队列报文排队，一旦超过某一个阈值（临界水线），则意味着即将发生拥塞，需要紧急向源端反送反压降速信号，从而降低发送速度规避拥塞。可以看出阈值非常关键，它决定发送反压信号的时机，成为网络中是否会发生拥塞的决定性因素，如何设置阈值是无损网络技术创新的焦点。

　　AS-IS传统以太网：静态设置，粗暴反压

　　最早的无损以太交换机的基本实现依赖网络管理员静态设置阈值，特别考验管理员能力，一旦设置的太保守，可能降速太多，吞吐率很差；设置太激进则无法起到无损的效果。为了调整好阈值往往需要有经验的工程师调测1~2天，而网络无法根据流量的变化动态调整参数，流量模型一旦发生变化则最优参数失效，基本无法在大规模、多业务的AI数据中心中使用。

　　TO-BE智能无损DCN：智能预测，精准控制

　　网络拥塞控制的未来在于智能化，智能预测流量的变化，并自动设置相关的网络参数，从而实现最佳网络调度。2019年初，华为发布了业界首款面向AI时代的CloudEngine数据中心交换机，最大的创新点在于率先将AI芯片内嵌交换机中，基于神经网络首创的iLossless拥塞控制算法，完成网络的自调参、自优化，从而克服了依赖人工参与配置参数，无法动态适应网络流量模型变化的关键问题，真正实现网络0丢包，构筑智能无损的数据中心网络。

　　智能无损DCN

　　释放AI算力巅峰

　　基于CloudEngine交换机构筑的智能无损DCN，网络性能已经无限逼近了理论最优值，可以确保在任意拥塞链路0丢包的基础上接近100%吞吐，全面释放AI算力潜能。根据权威第三方测试机构Tolly测试，在同样GPU集群下，通过采用华为智能无损DCN，AI业务的训练效率比采用当前业界其他网络提升27%以上。

　　华为智能无损DCN

　　华为智能无损DCN，助力Atlas900冲击全球算力巅峰。作为全球性能最快的AI训练集群Atlas 900由数千颗昇腾910 AI处理器组成的上百台服务器节点互联构成。而其中互联网络采用由华为数据中心的CloudEngine系列交换机组成的智能无损DCN，单端口提供100Gbps的交换速率，将集群内的所有AI服务器接入高速交换网络。

　　0丢包的智能无损DCN使得数据中心网络实现三网融合成为可能，目前华为智能无损数据中心网络AI Fabric已经在全球互联网、金融、制造等行业数字化领导者客户的47个数据中心商用部署，成为面向AI时代的最佳数据中心网络解决方案。

　　DCN 学院派

　　网络面临的挑战与云计算、人工智能等新技术的创新是相生相伴的。数据中心网络（DCN）一直是网络新技术的前沿阵地和实验场，最新的网络架构、最优的网络协议和最硬核的黑科技都在这里诞生并走向成熟，辐射并带动产业的发展。

　　DCN学院派将精选优质内容，分享数据中心网络最新的前沿趋势、产业观点和技术创新。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业