5月26日,第十九届中国软博会系列活动之上海专场--由上海市软件协会、小i机器人联合主办的小i机器人“中国最强大脑”云智能平台发布及产业合作论坛在上海举行。作为发布会的压轴,全球知名IT研究及分析公司Gartner研究院院士,研究副总裁,智能机器人领域全球领衔分析师Tom Austin,在活动上做全球智能机器人发展现状及趋势分析报告。
图:Gartner研究院院士,研究副总裁,智能机器人领域全球领衔分析师Tom Austin
成立于1979年的Gartner是全球最具权威的IT研究与顾问咨询公司,在全球的IT产业中,Gartner公司以其公认的权威性和拥有超过11,000客户机构而独占鳌头。
Gartner对全球IT前沿科技企业都有着敏锐的洞察,因此,小i机器人作为虚拟客户助手领域的代表性企业,一直受到Gartner的关注和推崇,在其2011、2013、2014的年度报告中多次向企业推荐小i机器人及其服务,在全面了解小i机器人的技术后,Gartner公司发出了“小i机器人在全渠道多媒体智能交互、智能知识库以及智能大数据等综合应用的解决方案上,走在了全球前列”的赞叹。
以下为演讲实录:
Tom Austin:非常感谢,我非常荣幸能够来到这里,我很荣幸来到中国,每次我听到小i的故事我都会知道他们在做什么,但是我今天其实不是介绍小i的,我今天是来介绍智能机器人的,比如Gartner对智能机器有什么观点。
我想从2022年开始讲,比如你早上从办公楼里走出来有一个自动驾驶的汽车在路边等待你,你之前并没有预定这辆车,但是你的虚拟个人助理看了你一天的安排之后,觉得你可能会提前半个小时完成这个会议,因为你的这个个人助理根据你过去的记录猜测是不是会提早结束这个会议,就帮你预定了智能汽车,在这个挡风玻璃里面看到你个人助理写上里你将要讲的内容,这个会上其他人会讲什么东西,哪些东西你可能会同意,助理也会建议你说一些内容,所以这个是一个图象,这个是虚拟个人助理关注到你之前的做法,在你的允许之下会学习你过去的做法。
缺点是什么呢?这是一个标准化的汽车,在美国已经有了标准化的汽车,在美国使用4%的时间坐在里面,这个车是停在旁边的,当无人驾驶的汽车非常受欢迎的时候,比如Uber公司提供这样的汽车,整个供应链就会被扰乱。
比如我们停车的几率从4%到6%,我们融资的方法就会完全改变,银行借钱给客户买车的方法也会完全改变。我们的医药中心可能会看到之前会有一些人因为车祸治疗,现在的呢在有了这种智能驾驶汽车之后,汽车事故的可能性会大大降低,整个世界都会因此改变,仅仅是因为我们有了智能的汽车,如果你没有预想到这种结果,可能会受到伤害,这是2022年的情景。
我也想花点时间介绍一下什么是智能机器人。(播放视频)这是一个电影的片断,是1987年,由苹果公司他们拍的一个短片,展示苹果在未来的愿景,相信在2017年或者2018年的时候可能会发生这样的状况,苹果花了30年的时间,在90年代的时候,苹果发布了乔布斯发布了一个手写板的项目,叫做牛顿,这个项目在乔布斯阶段被取消了,但是并没有忘记这样一个远见。如果大家可以翻墙到YouTube上可以看一下完整的影片,这个是演讲是在我在美国的用的讲义,所以提到了YouTube。
我们再看一下Eric这是2013年的例子,不是科幻小说,是它做的研究(播放视频),我们在这个短片当中看到的是在电脑这个电脑是一个电视的屏幕,上面一个虚拟的人,它认出了Eric博士,为Eric提供了信息,我们下一页我们会看到是一个女士,她也走到了同样的电脑之前,我们展现的视野是电脑的视野,我们看一下电脑看到了什么,而不是这位女士所看到的。(播放视频)。我们在这里边看到的,是真实的情况,首先电脑会聚焦在她的脸部识别了她的身份,旁边显示的是她的名字,这个女士根本不知道是什么情况,她一开始在往屏幕后面看,是不是看有人在搞怪,这个就是微软两年前做的人工智能的研究,如果大家可以翻墙到YouTube也可以看到完整的短片。
这里我想给智能机器人做一个定义,这里面都是正确的,但是如果你是一个编程师的话,或者是一个分析师,你知道你要做什么,那你编程的规矩每一步都写好了,所有东西都在你脑子里面,计算机做的事情就是按照你的编程一步一步执行命令,如果是智能机器人的话,他会通过大数据自己做决定,不需要别人进行编程,所以智能机器人人做的事情就是他们可以自己做出决定,并不是计算机按照编程来看要做什么,总共有7步,这里面涉及大量的数据,首先按照概率进行预计,像刚刚我们看到的短片,在进行一个概率的判断,比如说无人驾驶的车在路上驾驶的时候,如果前面有一辆卡车开出来,这个时候无人驾驶车辆要立马做一个决定,10微妙之后,它不需要做确认,卡车是不是走了其它的路或者怎么样,所以下一步就是主动的学习,它会自己回顾做的决定是不是正确,会自动的做决定采取行为,它会理解。而且它们进行一个反应,汽车里面的计算机,不会帮你骑自行车,不会帮你买机票,它做的事情非常窄的领域,它在窄的领域里面做的事情是非常精准的,这个就是人工智能在未来可以做的事情,我们觉得这个可能还有大概十年的道路要走,所来未来的人工智能共专着在非常精准的领域里面做的非常好。
我们再看人工智能,我这里主要介绍科学,为什么是科学?因为很多的科学家他们都是IT人士,他们不愿意冒险,他们只愿意研究成熟的技术,或者互相重复做同样的事情,研究同样的技术,但是人工智能不会等待,不管你在市场的什么的领域,人工智能必须走在技术和潮流的前端,比如说刚刚提到的在银行使用人工智能机器人,所以在行业里要找新的技术,如果要落后的话,要花很多精力追赶新的技术。
我们看一个新的大爆炸,这个还没有发生,现在屏幕看到的是小的点,在宇宙的这个大爆炸是花了130多亿年,从黑暗时间,这些物质快速的扩散,能源大量的释放,这个就是宇宙的大爆炸从一个点开始的。我们的预计,这是我们在今天会预计在2020年的时候会发生大爆炸,会有新的硬件,新的算法,和大数据的爆发,这三者结合在一起会造成大爆炸。
那从硬件的角度来看,我要先说一下软件,也就是深入学习或者深层的神经网络,等一下会给大家看一些照片,看一下计算机如何进行学习的。这些是基础数据的分析,大量数据的分析,有各种不同的可能的这些连接,神经元之间的连接。我们看到的是在2007年的时候,一个高端的英特尔的CPU可以处理百万级别的连接,到2008年的时候 有了GPU,并不是传统的CPU,工作量可以达到10倍以上在同样的时间段里面,再往后走到2011年早期来自谷歌的数据,比2007年的时候处理量达到1000倍,还有其它数据到2015年的时候,除了的量达到了2007年的10万倍。这个只是通过一个GPU,GPU作为新的硬件,它的性能要比2007年CPU性能高出了10万倍。
这个就是Nvidia的例子,这是全世界最热门的GPU,这个是用在商业用途上的,当然军事用途上还有处理速度最快的GPU,大屏幕战士的是商业用途上最快的GPU,可以同时支持20个摄像头,应用在汽车上面,汽车可以在每小时45公里速度进行运行,这个是硬件方面。
在剩下的10年我们还会提升100倍性能吗?大家可能会问这样的问题,这个我们要看一下在这个领域里面我们有什么样的工作可以做。往下走,刚才谈到了硬件,硬件的应能大幅度提高,再看一下软件,就是深入的神经网络和深入的学习,我会看一下细节是怎么做的,深入学习在GPU上面是非常重要的软件还有自然语言处理,我们现在也在研究如果把深入的神经应用在语言处理方面,硬件的性能通过软件强化了提升,在未来提升自然语言处理的性能。
这个是在2012年的时候,开始的这个柱状图里面大家可以看到,这是图象识别的错误率,我们从2006年划,大家可以看到错误率是30%到50%的错误率,但是到2012年的时候,多伦多大学的一些专家他们使用了这种深入神经网络的模型,这个并不是非常新的技术,1987年就开始应用,他们把新的技术应用在新的硬件里面,我们看到图片识别的错误率大幅度下降,从30%降到17%,到2013年很多人在使用这个技术,人类的错误率是5%,所以2014年在12月第一周发布了这个数据,在12月的最后一个星期的时候,百度他们发布了错误率数据比2014年初发布的数据要好。微软又发布了独立的论文,他们打败了百度的错误率,4个星期之后谷歌发布了新的数据比微软的还要好,在一个星期之前,在今年百度又发布了新的数据,数据比之前的数据又好,大概才3%左右。所以我们现在要找到一个模式,这只是在硬件方面取得的成就。
在今年最后一个季度和明年第一季度的时候我们发布的新的硬件在处理能力方面要比刚刚GPU性能好出很多倍,所以大爆炸发生在2012年的时期,通过新的硬件和新的软件算法之间的融合形成了大爆炸的起点。
这个是脸部配对识别的错误率进展也是非常好的,人类的错误率标准水平,人类的错误率是在这里,香港城市大学打败打败了人类的识别水平,谷歌又打败了城市大学的。我们看到这一领域看到了很多竞争。
这一页是提到的研究结果,这个是它所取得的大幅度的成就,在噪音非常大的语音环境之下所取得的错误率,大量的进展。在两个基本方面改变了这种语音到文字的错误率,错误率已经快速的降到了5%左右,在大幅度的进展和进步,这里我引用了电影《银河系漫游指南》它描述了未来的装置放在我们耳朵里面,会倾听,然后它会在鼓膜里面振动对你说话,这并不是科幻,在两年之前,Rick是来自微软的首席研究官,它做了英文的演讲,他的机器实时的进行了同声传译,他讲的英文报告传译成了中文,当时这个效果测试并不是完美的,但是它为我们未来展现了一个途径,未来的性能和精准度会逐步提高。
人们可能会问说,这个图象识别效果看起来还是不错的,但是计算机没有做图象的描述,我们看到在2014年斯坦福大学发布了这样的论文,在论文里面他们做的事情就是计算机来进行图象的描述,比如说计算机看到这个图片之后对图片进行描述,狗跳起来接非盘,计算机对图片进行了区分,画出了两个方框,这是计算机进行图片识别的时候,进行的人的描述,这个技术也不是非常完美和成熟。
然后这里它上面写的是有一群人在露天市场进行购物,有很多蔬菜,这两个描述并不是完美的,并没有一群人,只是几个人,情景描述并不是完美的,下面这句话是在水果摊上有很多蔬菜,其实应该是水果摊上有很多水果,蔬菜摊上有很多蔬菜,所以它就错乱了。在第一图当中如果他们描述的是错误的话,接下来找出来的图片可能是完全不相关的,在这里我想讲5分钟关于我们很早的时候做的研究,因为这种研究对我们来理解什么是深层次的学习是非常重要的。
比如说我们有一个诺贝尔的医学的获得者在1981年获奖的,获奖的论文主要讲了在猫科动物的纹状皮层上面,单个神经元的接受欲是怎么样的,所以我们在这里其实并不是要讲猫科动作是什么样的,其实在1980年的时候已经有一个西班牙的神经研究者,已经可以非常好的来分析视网膜的结构,我们会发现眼睛并不是把图片发送到大脑,而是发送了一些改变的一些线条,这些线条最后会在我们的视网膜上有一个图象的形成,这个图就是1980年研究做出的结构图,告诉视网膜是怎么处理图象的,这里我们可以看到这样的模型,我们在猫科动物上面看到视频层,我们看到一些线条的移动,一些对比,线条的对比,我们会进行抽象化,有一些细胞分析线条的角度,再看线条的交错进行具体的物体的集中,然后再更加复杂的进行一些抽象化的分析,统计学我们怎么看,每次有一个刺激,比如说你之前从来没有看到过这样东西,或者之前从来没有见过,我必须要有一种描述形容这是什么东西,这个时候有很多神经元,神经元就要进行一种抽象化的工作,那这个图上面,每次大家看到这个图他们会说这个PPT很恐怖,因为其实不能从当中获得有效的信息,这个图片是来自谷歌,谷歌有1000万的图片从YouTube随机抽取的,每个图片每一贞抽取出来,最后压缩到200×200象素的图片,所个图片当中我们有1000万个YouTube随即抽取的视频,我们用了16000个CPU连续不断工作了72个小时,然后从这些CPU当中进行了处理当中我们把这些数据放到了不同的层级的深度学习的模型当中去,再把它分类,把它分类到了22000个不同的神经元当中去,我们就发现有一个细胞,有一个神经元如果你把这个猫脸图片放到神经元上面去它们会有反应,这不是100%的准确,最后发生了什么,这个电脑会使用这种算法测试有没有类似猫脸的图片,这个不是实际的,而是抽象的,我们也把这个成果用到了其它研究当中去,我们放很多图片,然后这些图片可以让这些电脑来进行算法,来看一些哪些图片跟吃饭相关的,哪些跟跳舞相关的,使用这种算法模型我们可以把这些图片放到不同的类别当中去。
这也是一个非常好的游戏,大家看一下是怎么玩的。这也是一个深层次,神经元的一个游戏,我们注意到两件事情,它懂得自己的目标是哪里,目标就是要增长分数,然后最下面有一块平板可以左右移动,一开始的时候它完的不是很好,慢慢的经过了学习过程越玩越好,现在电脑可以玩的跟我一样好了,经过多次游戏之后,我们看一下它现在能完成什么程度?通常人都是不能达到这么高的分数因为这是很了不起的事情,刚才有些人讲到深度思维,因为谷歌是一个团队研发的深层学习的模型,他们在网上在2014年夏天的时候发布了这篇文章,这就是一个机器进行学习的例子,这里是一些学习不同的种类,我们可以谈到自然元的处理,我们可以用机器学习做很多事情,可以进行语义的分析,可以进行语言的翻译,可以建立知识的图谱等等等等。
再来讲一下,这种过程能够为我们带来什么影响,我们讲到了大爆炸大数据使一切可以成真,我们只是在革命最开始的阶段,有了这个技术我们将要开始伟大的革命,这个游戏当中我们不能坐在旁边当一个观看者,因为落后就是失败。
这是一个“+”号我们影响力是不断增长的,我们从谷歌开始讲,2014年8月份,在纽约知识发现与数据挖掘平台发布的文章,这个文章当中讲了什么呢?他们使用了一种算法,他们做了30种不同的知识图谱,并且把这30种知识图谱合并起来,他们希望通过网络来做一个处理,他们有一个非常大的项目,非常勇敢的项目,因为他们不想再做搜索了,他们想用其它的方式来代替搜索,我就问问题,在用户问问题之前这个机器就知道他要提什么问题了,并且把答案准备好了,你就完全不用做搜索这个动作了,这个就是他们要做的,所以他们结合了很多知识图谱,他们如果能够达到20%准确率就非常开心了,最后他们搜集了16亿事件,有2.7亿事件有90%的可信性。
这张图也可以帮助我们从非常高的层次理解知识图谱,什么是自然元的处理,首先我再讲一下谷歌,这边图上面我们可以看到权力的曲线,左边我们可以看到很大的百分比的问题,可能是你问谷歌的,那么还有一部分是来自我们的一到的一些问题,在这里在右边我们可以进行培训根据规定进行培训,有些是经过监督的,有些是没有经过监督的,当然你一开始的时候需要进行一定的监督,然后我们可以通过一个简单的数据库来建立自己的一些图象、图形。可能这些图片的并没有达到99.9%的准确性,如果能够80%的准确性就已经非常让人满意了,所以最左边的阶段是没有经过监督的,所以量是非常大。
IBM的Watson跟谷歌不同,他们在纽约的一个医院里面进行自己的应用,搜集了所有跟肺癌相关的文献,并对电脑进行了培训,所以贼这里投入了大量的人力培训电脑告诉他们怎么治疗肺癌,他们做了非常高价值的转移,在这个转移过程当中需要非常大的置信区间,需要长时间培训,每个加以的价值是非常高,至少在5、6年如果能够成功,每个交易的价值是非常高。谷歌要增加交易量,IBM是增加每个交易的价值,所以这是两种完全不同的模式。谷歌是没有监督,没有人参与的做法,IBM是大量的人参与的做法。这里是一个例子,这是一个乳腺癌的让Watson提出治疗建议,我们可以看到整个系统在置信区间内工作的,Watson并不是特别确定,在第一个提议之间置信区间只有32%,人就问他你想知道什么信息帮你做出决策,Watson就做出了它需要的信息,在获得这些信息之后有了更多因素和证据之后,Watson做出了一个治疗的决策,这个时候推荐的决策置信区间就达到了95%,它给出了三个治疗方案,第一个置信区间是最高的。我们分解一下Watson做的分析可以看到哪些分析呢,其实非常多的分析在同时进行。
这是美国的数据,这个网站网址已经写在左下方了,一个小的风投公司在投资人工智能,有260个公司是可能选择的投资的公司,在这个分析过程当中我们要做大量的工作,要通过谷歌或者IBM进行分析,除了这张图片之外我们还有很多其它的公司。
我想说什么呢?就是我们当然可以选择大公司投资,比如IBM的Watson,或者也可以选择投资一些比较小的公司,比如专业的公司,比如说小i,你可以选择这些更加细分的公司进行投资,他们也有自己的特殊的技术,所以我们可以简单搜索一下,进行分析来看一下自己怎么样进行选择。
我觉得不会找到一个非常好的答案,这个是一个技术扩散曲线,我们确实需要一个阶段扩展整个技术,比如一开始慢慢的增长,快速的增长到肩膀点这里。再看一下事实是怎么样,事实并没有那么简单,并没有教科书那么简单,在这个智能机器当中我们有很多不同的技术,比如说自然语言的处理,自然语言处理本身这点也有很多不同的技术包括在内,这里有一些技术比如说是广播,从0到80%仅仅花了10年不到时间。而洗碗机从20世纪40年代开始的,但是今天为止渗透率还没有超过70%,它是花了相当长的时间。
在数字业务方面我们看到这个图上面有不同的描述,之前有一些标签,但是我把标签去掉了,因为我想给大家传递的信息要关注粉红色圈圈里面的阶段,要在最开始阶段行动,而不要等到后面下降的阶段再行动。
这个图片是现在在卡车领域非常好的,澳大利亚的一个应用。今天如果你问我们Gartner认为无人驾驶会又怎么样的未来,比如无人驾驶的卡车会在什么时候产生真正的影响,我会说是2020年,力拓(音)是非常好的公司,在进行智能数字卡车的开发,他们开始跟另外一个公司进行合作开发,在2012年的时候他们应用已经投产了,现在在他们在整个项目当中有非常多的无人驾驶卡车投入运营,通过无人驾驶的卡车每年可以节省1亿美元以上,所以他们做的就是在最开始的阶段,在我给大家看的技术扩展曲线最开始的阶段进行了行动,他们这种先发优势给他们带来非常好的好处。当然这不仅仅是在采矿业,不仅仅是在汽车、卡车,我们有完全一种新的方式,人们可以和技术共同工作,一起合作,这种要比以前的工作方式更加有效率。
我们在哪里应用这些技术呢?这个非常有意思,我们在这里分享它里面背后的逻辑,这个在美国、英国、德国的西部、日本等大概一共用在20多个国家发现了同样的趋势,也是经济学家发现的,红色的是常规性的工作,在劳动力市场占60%,2015年下降到40%,与此同时非重复性的工种在上升,在企业里面如果我们想从人工智能获得更大的价值,应该把人力资源放在非重复工种上面。这些非重复性的工种是什么呢?,你在里面找不到规矩,需要人的思考得到答案就是就是非重复的工种。在数字化的工厂里面,在我们公司里面,这个研究会在本周和下周进行发布,产品会有自然的界面。
智能可能会讲人类的语言,现在技术如何适应人的交流方式,而不是训练人讲机器的语言,同时也非常有帮助,置信度也在提升,这里有很多例子。
对于消费者,例子就是亚马逊网站上面给用户提供建议购买的建议,还有虚拟的助理,我们在机构内部对40多种技术进行追踪,也包括了小i的机器人,他们未来会怎么样。大家看左边,这是公司内部会说的,这种语言会更加的自然,更加的公开,甚至有些机器人在未来有情感,并且主动的进行帮助,他们可能需要人工的协助等等。每个行业都会面临这样的变革。你们会问我在哪个领域会有很大变化,在每个行业都会看到这样的变化。
我们再一些消极的方面,经常有人讨论这样的问题,大规模的灾难的假说,比如圣经里面说到大型的水灾,很多人说人工智能或者智能机器人有消极的影响,会带来大规模的失业,不知道他们是从哪里得到的结论,我们所建立的人工智能,他们会非常有智慧非常聪明,我们要解决的问题就是黄色的部分,如何要解决机器与人之间的问题,是用机器完全代替人吗?我们现在的智能机器人并不是代替人工,而是提升人工,协助人工让我们人可以做更高级更高价值的功能,并不是解雇这些人。我们怎么做呢?我们今天要面临这样的问题,所以智能机器人可以使他们在工作上面的表现更好。
这个是两年前的调查报告,核心就是到2020年的时候,我们看到人们的工种当中有智能机器人协助的到2020年是今天的两倍,他们的职业会受到颠覆性的影响,这种技术会影响到人们的生活。
接下来这部分就不细讲了,我们到后面,我再讲5分钟,如果大家要走可以先走,我们再花5分钟时间把后面讲了,这个是我们所做的幻灯片,我非常喜欢这一页,大家要做领先者,不要等待,这是我给大家的信息,大家刚刚看到卡车的例子他们每年可以节省1亿美金,并且最大的采矿公司在模仿他们做一些事情。
我们需要新的工作环境,就是人类和机器人之间的协调合作,IBM之前的深蓝可以跟人一起比赛,下国际象棋,它是怎么做的,它当时下定决心和决定,它可能会战胜人,但是它可以提升象棋选手的能力,这是我们说的,要在人与机器人之间达到协调和互动,智能机器人做他们擅长的事情,人类做人类擅长的事情,让大家达到协调和谐的合作关系。
我们有很多的代理,大家都可以使用,我们计算出来将近300多家的公司,他们在小的代理或者虚拟的个人助理,或者自然语言处理的工作。在德州我们刚刚遇到一个公司,他们建立了一种技术,这种技术可以消化数千页文本,给你一个总结,这个文本里面的重点,这样我们就不需要读数千页的文本,机器会读,并且压缩成五页。
还有我不知道在这种自定义的移动设备在中国是不是很流行,现在在西欧或者北美非常流行的,未来他们会带来自己的智能机器人,或者自定义的智能机器人并不是使用制造商提供的。这里有三个关键词不管是任何形态的信息技术,我们要做的是更快、更廉价、更好,通常是在这两者里面选二,没有办法完成三个,我们要做到创新、安全和私密性,只能选其二,不可能三者兼顾,我们必须要进行三者的平衡,特别是在工作环境里面的方法,特别是在销售团队。
我们知道微软在这方面非常领先的,比如说我这里有Salesforce还有微软,两者要达到平衡,还有现在这种单一的供应商的战略并不是非常有效的,我们要考虑到多个供应商之间的平衡。在我们这里并不是一种投机,要非常清楚非常智慧,不仅仅是对资源的管理,同时要进行领导力的提升,同时我们要进行互动,参与到这个业务当中,要创造出新的智能机器人,同时我们要尊重它对人类产生的影响,很多人会受到智能机器人消极的影响,所以我们要关注到人类的感受。
这是我要讲的内容,非常感谢大家!谢谢!