您当前的位置是:  首页 > 新闻 > 文章精选 >
 首页 > 新闻 > 文章精选 >

华为Fellow朱广平谈自治网络和服务

2018-05-16 09:52:11   作者:朱广平   来源:CTI论坛   评论:0  点击:


  在2018年全球分析师大会期间,华为发布SoftCOM AI解决方案架构,在全云化网络基础上引入AI技术,力图打造“永不故障”的自治网络,掀起新一轮网络变革。
  跨界竞争呼唤系统架构创新
  我们正在进入一个跨界竞争的新时代,每个行业都面临着结构性挑战,对电信行业来说尤其如此。
  首先,从收入结构来看,运营商的业务正遭遇来自IT产业的挑战。之前,电信业务分为三个层次:终端、网络和IT基础设施以及上层应用。随着网络接入速率的大幅提升,导致IT产业从卖产品变成卖服务,骨干网络和IT基础设施逐渐变成云服务的形式。运营商如果能把云服务做好,就可以与AWS等云服务巨头争抢万亿美元的云市场,反之则将丧失很多传统的电信业务,尤其是数据中心之间的专线业务等,比如阿里云就正在建设连接全球的云骨干网。
  其次,运营商的效率和成本也面临结构性挑战。如今,电信设备维护的OPEX支出约为CAPEX的三倍,给运营商带来沉重的负担。此外,电信网络越来越复杂,超过了一个人的专业知识和能力,导致70%的重大网络故障都是人为因素造成。正如加拿大运营商TELUS首席无线架构师所说:“机械制造都走向自动化了,电信业还处于手工业的阶段。”
  要解决电信业面临的挑战,仅仅靠产品创新是远远不够的,需要整个系统架构的创新和商业模式的创新,才能提升运营商的竞争力,解决结构性问题。什么是系统架构创新?以云计算为例,它并不是某个服务器或存储产品的创新,而是通过全新的分布式系统提升资源利用效率,是系统级的创新。产品创新、系统架构创新和商业模式创新三者相互支撑,互相促进。
  为了满足新时代的客户需求,华为的创新体系即按照上述三个维度来设计。在产品层面,华为设计网络设备的指导思想是“奥运精神”,即大容量、低时延,所有产品创新都围绕这个目标进行。在系统架构创新领域,华为的目标是构建一个敏捷的自动化、智能化网络,实现网络的“自动驾驶模式”。在商业模式创新上包括两个目标,第一是通过提供云服务成为世界五朵云之一,第二是构建网络时代的在线智能服务模式。
  SoftCOM AI带来全新价值
  回顾华为网络架构的发展路径,在ALL IP阶段我们提出Single战略,云计算崛起后,2012年进入ALL Cloud阶段,我们提出SoftCOM来实现以数据中心为中心的网络。近年来随着人工智能技术的发展,我们提出要全面智能化(ALL Intelligence),将人工智能引入电信网络,SoftCOM AI由此诞生,目的是实现网络架构层面的自治网络,以及商业模式层面的服务2.0。
  引入人工智能的自治网络,意在构建网络领域的“工业4.0”,实现网络“自动驾驶”。工业4.0有三个特征,即敏捷的设备、智能的控制和智慧的分析系统,来实现生产的自动化,这对于电信业来说同样适用。在电信网络中,下层是网络设备,上面是控制层,在整个网络的控制和运维方面,端到端引入人工智能技术,构建分段自治功能,每一段的自治通过上层运营系统实现端到端的自治能力,进而实现整网自治。自治网络带来的最大变化是运维维护人员不在整个业务流程里,是一个自动化的系统,我们称之为“网络自动驾驶模式”,来实现整个网络的自优、自愈、自动化。
  服务2.0的目标则是打造网络领域的“工业互联网”,提供在线数字化“智慧服务”。将这一服务理念延伸到电信行业,未来的网络在运营商侧全自动化运行,华为则在后台提供基于人工智能的全自动化在线服务,这种服务基于持续迭代的模式,根据业界惯例构建“模型即服务”,永远处于Beta阶段,不断更新和完善。
  将AI引入电信网络,带来的全新价值是“可预测性”。电信网络的管理和控制中心基于设备的南向接口和数据采集,通过一定的策略和规则,来实现对整个网络的管理和调度。其实施的依据主要有三个条件,包括网络的可达性、SLA要求和资源效率,这些是网络实现自动化的基础。但随着网络日益复杂,仅有这些已远远不够,需要在网络中引入基于算法的网络管控、在线AI推理和数据分析,实现流量预测、质量预测和故障预测。预测性是AI的核心价值,基于未知的条件来调度网络,实现故障发生前规避故障、质量劣化前优化质量、网络拥塞前调整流量,从而达到自动、自优、自愈、自治的永不故障的自动驾驶网络,结构性提升运维和运营效率。
  提升用户体验,实现三个倍增
  要实现网络的自动驾驶,必然将是一个长期的过程,不可能一蹴而就。参考汽车自动驾驶的五个发展步骤,我们也将自动驾驶网络分为五个阶段,第一个阶段是AI能够指出“发生了什么”,第二个阶段需要判定“为什么会发生”,第三个阶段需要预测“将会发生什么”,后续都需要人工判断决策和采取相应措施;到了第四个阶段,AI已经可以判断“需要采取什么措施”,然后由人工去操作;最后一个阶段才是全面地实现网络的自我控制和自动修复,使网络具备自愈能力。
  自治网络和服务2.0的实现,将带给最终用户分钟级的ROADS体验,永远最优的网络连接和永不断网的可获得性;对运营商的价值则是实现运维效率、资源效率和能耗效率的倍增。
  在运维领域,运维水平分为三个发展阶段,第一个阶段称为R2F(Run-to-Failure),网络在运行中突然发生故障,然后运维人员马上赶去处理,这是最低级的水平;第二个阶段是PvM(Preventive Maintenance),即例行的巡检,对每个设备进行检查来预防故障发生,但这种做法效率非常低下;第三个阶段是PdM(Predictable Maintenance),我们称之为可预测性维护,即能够预测某个设备未来有多大概率发生故障,然后进行针对性的维护。通过PdM,我们希望能将电信网络的告警压缩和故障定位减少90%,实现90%关键器件的失效和劣化预测,进一步达到网络自愈。此外,网络故障中超过70%的问题源自无源设备,例如光纤弯曲老化、接口松动等,在这一过程中,信号都会发生变化,通过引入AI学习这些变化的特征,就有可能提前进行预测,用有源解决无源的故障问题。
  在网络资源方面,当下的特点是网络建设好了,流量就随之流动,资源利用可能并不合理。如果反过来思考,基于流量走向来调度网络,资源利用率就会大幅提升。现在的网络并不具备这样的能力,只有通过引入人工智能,建好流量预测模型,才能实现精准流量预测和最合理的网络拓扑,以流量而不是物理连接来决定网络的路径,最终大幅提高网络的资源效率。
  关于能耗效率,有个说法叫做“比特决定瓦特”,即网络流量大小决定能耗多少。在机房或者站点,每个系统都有数十个参数,通过AI训练生成散热与环境及业务负荷模型,使得日照、温度和配套设施油机、太阳能和电池等达到最佳能效;在设备层面,根据业务负载进行动态能量投放,没有流量时就利用时隙关断、RF深度休眠、载频关断等减少耗电量,同时实现数据中心对象如服务器组件的动态节能管理;第三个是网络系统,构建准确的业务负荷预测模型,使整网流量最优从而达到能耗效率最佳。
  自治网络的目标架构,对华为来说就是SoftCOM+AI,具体做法是:把下层设备和云基础设施、中间层的网络管理和控制以及上层全流程的系统,在规划、部署、运行、维护、优化和经营的端到端过程中,每一个环节都引入人工智能技术,使能网络达到系统最优。与此同时,华为也构建了一个面向运营商的AI训练平台,将网络设备运行的状态数据接入平台来训练AI模型,并针对模型进行持续更新和优化,使得网络系统的自动化程度不断提高。
  以光网络为例,来看一下AI如何使能全流程的业务发展。首先是数据底座,即需要获得怎样的数据,具体到光网络来说包括光纤的数据、光信号的数据、路由数据等;接下来是使能技术,即人工智能的算法,包括数据清洗、信息整合、机器学习建模、深度学习等等,这些算法与光网络无关;为了实现光网络的自动驾驶,还需要构建大量模型,比如光纤模型、滤波器模型等;最后是业务应用场景,包括开局自动检查光纤、业务发放、网络优化、故障定位以及资源自动调度等,通过模型找到最优方法,进而实现快速发放、极简运维和智能运营,智能化提高网络调度效率,零等待、零接触、零体验,让人们感受不到网络的存在。
  未来将是智能化的时代,运营商网络的智能化不可能一蹴而就,而是一个长期实践。SoftCOM AI是华为All Intelligence战略在电信领域的落地,其中最核心的AI能力依托于华为在All Intelligence中长期坚决的战略投入而积累成长,和电信领域场景相结合,旨在帮助运营商打造永不故障的自治网络,尽快实现数字化、智能化转型。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题