您当前的位置是:  首页 > 新闻 > 文章精选 >
 首页 > 新闻 > 文章精选 >

百度云首席数据科学家沈志勇:百度云ABC战略

2017-07-26 14:28:48   作者:   来源:CTI论坛   评论:0  点击:


  
  谢谢,非常荣幸来到这里跟大家分享百度云的ABC战略。
  我先破一下题,这个ABC战略跟刚才徐总有点英雄略同,A是人工智能AI,B是Big Data大数据,C是Cloud Computing云计算。大家知道云计算其实在一定程度上一开始的时候,像亚马逊出现的时候是作为一个能力共享的方式出来的,这里面互联网公司为什么会具备三位一体这三个能力,我个人稍微解读一下,它其实跟一个产业的发展或者需求的演进有关系,一开始一个行业一个产业要经历信息化的过程,像互联网行业天生就是信息化的,解决的是信息的服务可用性,就像百度搜索引擎能让用户搜到东西。往后走发现,信息化以后自然而然会产生很多数据,自然而然会去想,这数据能用来干吗。尤其是到了Web 2.0以后出现用户的概念,怎么样让用户体验更好,让他们在产品上停留更多时间。这个时候我们会去考虑怎么样使用用户行为的历史数据,或者UGC数据比如类似评论数据。这个时候其实是我们在做数据驱动的事情。再往上走会发现,互联网公司很多产品出现多样化的交互形式,你不光可以通过文字输入,还可以通过语音输入,这个时候我们会用到人工智能的东西,其他还有机器翻译等等。互联网公司经历过这样一个发展过程,别的行业也在经历这个发展过程,慢慢从信息化再到数据驱动的需求,再往上走就是智能化。有些行业可能刚刚进入信息化的过程,有些行业可能发达一些,怎么把百度作为互联网公司在发展中积累的能力分享出来,百度云是这样一个很好的载体。接下来按照C-B-A的顺序仔细阐述一下,我们到底有哪些东西已经具备了,可以拿出来跟整个行业分享。
  首先是云Cloud基础架构这一块,我们要分享的主要一个是计算,第二是存储,还有网络这块的架构,其他还包括一些像安全等方面。
  计算这块,在百度我们有非常多的产品线,我们要支持非常多形式的而且高强度的计算场景,所以会形成不同的软硬件为基础的计算服务都在里面。需要特别强调的是人工智能,也是百度的战略方向,人工智能背后用到的服务器主要是GPU集群,积累比较深厚,可以做一些规模化的部署,在业界应该是比较领先的。另外一块,存储,大家都用百度网盘,它是一个对象存储的存储架构,当然我们还有其他的存储形式可以提供。网络,每个网络服务的环节基本上都是TB级的带宽。
  这是跟今天会议主题比较契合的页面,我们在安全这块是比较重视的,这是百度云具备的各种安全的资质和证书,我们一直在努力营造安全的云服务环境。
  刚才讲的是外部对我们百度云安全方面的认可,这一页是我们内部技术努力,我们在很多方面都有技术积累沉淀,包括DDoS攻击的防护等等。
  接下来讲Big Data,我是数据科学家,主要从事这块多一些。百度在数据方面不光有数据能力,像数据存储、分析等等这块,还有很多的数据资源包括一些用户产生的数据。这两块我们都在想法怎么样利用它。
  先看一下百度的大数据到底大到什么程度,我们有大概6亿用户,每天会产生大概100亿次的检索,检索里面包含了用户的关注还有用户的需求等等这样一些信息,而且覆盖的兴趣面是非常广的。还有一个比较大的我们的产品是百度地图,会有很多别的相关的应用来用百度地图的接口,这样会产生每天大概720亿次的地图上的定位请求,里面的信息基本上是用户用脚投票的信息,也有非常高的价值。我讲到这里必须强调一个,这些数据里的原始数据信息我们是不可能拿来共享的,我们会对这些数据进行加工,得到一些不侵犯隐私的数据资源。
  用户画像产品是我们针对自有产品的改善,利用刚才讲的地图和搜索的数据,再加上百度别的产品线的数据构造的。它实质上是一个标签体系,百度的的标签体系维度非常大,体现出非常多样的兴趣的信息。
  刚才讲的是数据资源,有些不包含隐私的加工后产品可以共享。但我们更重要的想分享的是我们处理这些数据的能力,这里分了很多层次,最底下是数据采集的能力,甚至包括了物联网的数据采集能力。再往上是数据的存储,包含关系数据库,包括对象存储数据库以及NoSQL数据库。再往上进行处理与分析,这块是百度技术优势比较大的地方,基本上我们所有产品都是数据驱动的,有很多产品在里面,包括传统的日志分析MapReduce相关的,深度学习的paddlepaddle平台,还有机器学习的工具包BML等等。到了服务层,我们针对语音识别、智能客服用的智能问答等等,再往上是相关的服务组合起来能够服务到的一些行业,这样一来大家对百度的数据能力有一个大概的了解,这整套能力构成的平台,我们称之为天算平台。
  具体的,比方说里面有日志的分析,互联网产品为什么能够做的很贴心,用户体验比较好,离不开用户历史数据的分析,用来做用户体验和产品的优化。针对用户体验的另外一个非常重要的工具叫推荐系统,大家可能体会过,在买东西的时候旁边会出来你可能想买什么,百度音乐会有你喜欢听的音乐的推荐。这个技术能力我们也可以往外开放出来,做一个接口形式给大家使用。营销这块,可能在座的会更加熟悉一点,里面会有很多的模块,像DSP、SSP,百度在这块有相应的模块对外开放,通过百度云对外开放,我们叫营销云。RTB是里面一个具体的组成部分,营销云里的实时竞价的模块。还有一个更重要的模块是DMP,怎么样知道用户别的一些信息,但是我们不会直接共享我们的用户数据,而是怎么往外共享构造DMP的能力,怎么用客户自己积累的数据去上面构建DMP。
  刚才讲了大数据,我们再来到人工智能。人工智能百度是多年来重点投入的方向,也是目前的战略方向。我个人作为一个研究院人员,对人工智能作一个小小的解读。我认为人工智能可以分为这样三个境界,人工智能说白了其实就是想让机器帮人干活,在干活的过程中提高效率和效果。但是为了让机器具备干活的能力,我们首先让它具备人的某些功能。第一个是怎么样感知这个世界,怎么样听明白、看明白、读懂人说的话,这个我们叫做感知世界的能力。比如像人脸识别、语音识别是最典型的应用,这些技术随着深度学习的发展,基本上从实验室走出来,走到可以商用的程度。机器感知到信息以后,能不能进行思考,像让机器参加一些知识竞赛。更有挑战的人工智能体现在机器的自主行为上,能不能在一个现实世界的开放空间里,让机器像人一样真正去行为,自动驾驶、无人车是最典型的,还有机器人的技术,包括各种垂直行业的机器人。百度像自动驾驶这块和人机交互机器人这块已经独立成立事业部,归我们的COO陆奇直接领导。前面包括感知世界能力和快速思考能力,百度在里面也都有深厚的积累。这三个层次的能力,我们也有对外共享的平台来提供,我们叫百度云天智平台。天智平台对外方式有两种,一种是可以直接用,还有是通过API调用。
  刚才讲到大数据,我们对应的是百度云天算平台,人工智能对应的是天智平台,这两个平台是按照能力划分的。我们对于典型应用场景还构造了两个平台产品,一个叫天像,一个叫天工。天像平台是针对视频多媒体这块,这里面像视频需要的分发也好或者视频里有些简单的分析也好,都能在这个平台上共享得到,典型应用方包含在线教育、直播平台等。天工是最近比较火的智能制造与物联网相关的,它主要是针对怎么样唤醒万物,针对现实世界,能不能把互联网的一些模式也好、能力也好,能够下沉到现实世界里面去,给他们做一个物与物之间的连接,把物与物产生的数据也都记录下来,怎么样再优化现实世界的生产流程。典型的应用包括智慧城市、智慧楼宇、智慧生产线等等。
  最后把百度云ABC三块的能力与资源,细化成大的模块,怎么样对外共享,有很多产品。我们不光是作为云自身有包括SaaS层、IaaS层、PaaS层的各种服务,我们还可以作为接口,对接其他百度的能力与服务。
  谢谢大家!

相关阅读:

专题