您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

30万亿实时计算背后:腾讯首次揭秘技术演进之路

2019-11-07 14:43:15   作者:   来源:CTI论坛   评论:0  点击:


  同时拥有多款亿量级App、包括最高11亿微信用户的腾讯,一天会处理多少实时计算次数?
  答案是:30万亿。
  有一说一,腾讯已经成为中国实时数据计算量最大的公司。
  腾讯云联合内部打造一套算力共享平台,该算力弹性资源池有20万的规模,大数据平台每天有1500万的分析任务、30万亿次的实时计算量,并且每天数据接入条数达35万亿条数据。腾讯云自身的分布式机器学习平台,则能支撑1万亿维度的数据训练。
  走到这一步,腾讯大数据能力在十年间进行了四次大规模升级。自研,正在成为腾讯的关键词。
  十年前,腾讯管理几百个节点都很困难,为了有效解决计算能力和大规模集群问题,腾讯自研调度器,相对原生调度器性能提升150倍,大大提升了集群可扩展性。
  2016年,腾讯打破Sort Benchmark四项世界纪录,标志着算力已经达到世界领先水平。
  由于腾讯20万台弹性资源池的机器分布在多个数据中心,不同地区甚至不同国家,为了降低数据使用壁垒,腾讯在2018年自研了漂移计算引擎SuperSQL。
  作为统一的数据分析入口,SuperSQL通过智能CBO优化器,将计算下推到分布在各地的异构数据源,数据分析性能提高N倍,且数据量越大优势越明显。
  随着模型的增大,最初用来做数据训练的MR、Spark已经不能满足上亿的模型维度的需求。2015年初,腾讯开始自研高性能的分布式机器学习平台Angel,采用PS架构,能支持10亿维度。
  目前Angel发展到3.0版本,能支持万亿维度,也可以兼容Spark、PyTorch、TensorFlow等生态,进一步降低了使用门槛。此外,Angel今年还新增了对深度学习、图计算等的支持。
  腾讯云副总裁、腾讯数据平台部总经理蒋杰
  目前,腾讯正在研究以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。
  而支撑起这种量级的计算(短短5、6年时间增长了几千倍)背后,是腾讯在基础设施上的不断演进。
  在Techo大会现场,腾讯首次全面披露了20年来基础设施方面的技术积累:
  腾讯云副总裁、云架构平台部总经理谢明
  服务器
  腾讯全网服务器总量超过100万台,是中国首家服务器总量超过百万的公司,也是全球五家服务器数量过百万的公司之一。
  经过早年使用通用服务器到定制服务器,腾讯现已推出自研服务器——星星海
  星星海采用可信链传递的硬件防篡改能力、先进的热虹吸管散热技术以及精细化的风道设计和风扇控制,实现了TCO降低30%、负载能效提升50%、实例综合性能提升35%。
  数据中心
  第四代数据中心T-Block按照搭积木的方式,实现了全数据中心的模块化配置及快速建设,相比于传统大规模数据中心,现场施工周期缩短一半,自然冷却技术可以将PUE降低至业界领先的1.2以下。
  采用T-Block方案,一个拥有30万台服务器的园区一年可节省2.5亿度电。
  网络
  腾讯已经与全球超过100家运营商建立了网络互连。
  基于SDN和NFV自研分布式路由器集群替换传统商业大型路由器,腾讯实现全网所有的软件路由器的集中管控,能做到根据目的IP做单个用户的流量调度;通过构建开放光网络,基于SONiC自研交换机等,将网络设备TCO下降20%+。
  计算
  腾讯云云计算操作系统VStation目前做到了每分钟交付千台虚拟机的能力,使得一个中等规模公司的计算需求可以快速得到满足。同时,腾讯通过DPDK、智能网卡等软硬件方案,将网络、存储等IO消耗卸载到硬件上,实现了虚拟机零损耗和虚拟机之间的零干扰。
  存储
  腾讯云对象存储COS实现了集群全体节点参与系统吞吐,磁盘利用率达到90%以上,同时系统的完全自治也大幅降低了运维的人工投入。
  数据库
  从最早的MySQL开始,经历QQ、Q-zone等业务爆发增长的腾讯逐渐选择了数据库自研路线。
  目前,腾讯云也通过开源托管、商业合作、自主研发三管齐下,提供了接近20种数据库产品,让用户从选云、上云、用云全流程畅通无阻。
  开源
  腾讯正在成为大数据领域开源最全面的公司。
  在现场,腾讯正式对四大重点开源项目进行了联合发布,包括:
  • 分布式消息中间件TubeMQ:业界延迟最低的一款开源消息中间件,延迟可低至5ms。
  • Kona JDK:在云场景下,JVM的启动速度最高能够提升到40%左右。
  • 分布式HTAP数据库 TBase:兼容SQL标准,提供完整的分布式事务能力,金融级数据容灾。
  • 企业级容器平台TKEStack:稳定管理万级别的Kubernetes 集群,并且提供全方位的资源管控,解决网络带宽控制、磁盘 IO 等难题。
  截至目前,腾讯已经在Github上已经开源了86个项目,超过1000个贡献者参与了开源贡献,拥有超过25万个Star数。腾讯在Github全球公司贡献榜上排名前十,并已成为Apache基金会、 Linux基金会以及Openstack国际三大基金会的顶级白金赞助商,国内尚属首家。
  “代码是一个最没有国界的语言。“Show me the code”,现在你只要展示出代码,大家就知道你想表达什么东西。
—— 腾讯公司副总裁、腾讯云总裁邱跃鹏
  在现场,邱跃鹏带来了腾讯对云计算未来趋势的三大思考:
  • 软硬件一体化(Cloud Native Hardware):随着云计算承载的业务规模越来越大,软件和硬件的结合成为刚需。
  • 无服务器计算(Serverless):把开发者从繁琐、冗杂的开发配置工作中解放出来,开发者只需关注自己的业务逻辑。
  • 智能化(Smart):随之而来的数据量不断增长,对算力的要求越来越高,人工智能成为开发者们必须关注和应用的技术。
  腾讯云的基础产品也在朝极致弹性的方向努力。
  腾讯云打造的第三代通用计算平台「无服务函数计算」,能够提供更好的弹性能力,真正意义上做到资源使用率100%,用户相应成本下降50%以上。
  通过函数并发监控数据实时计算,提前扩容,我们使函数冷启动率降低到万分之一以内。自研的轻量级虚拟化技术,能在35ms内启动一台虚拟机,创造了业界目前能最快启动一台虚拟机的记录,这一技术还被稳定应用于“小程序·云开发”。
  腾讯云对象存储COS还提供了不同地域不同计费的方式,用户根据使用场景,按需选择最划算的方案。
  数据库产品CynosDB则基于计算存储解耦架构,支持超大实例并实现更好的弹性能力。单实例最多可以达到百TB级别,而多计算节点间的存储共享,可以使同一实例的计算节点扩展到15个。
  截至目前,腾讯云已经服务了数百万开发者,给到开发者的资源扶持超过100亿元。
  今天,用云、上云已经变成大势所趋,更有越来越多的产品,直接在云中诞生、在云中生长,云计算基础架构在一切背后、更在一切之前。我们期待与所有的云上开发者一同成长,共创未来!来源:腾讯云

 
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业