您当前的位置是:  首页 > 新闻 > 专家观点 >
 首页 > 新闻 > 专家观点 >

如何评估企业资料上云端与AI应用?

2017-06-02 15:58:40   作者:   来源:CTI论坛   评论:0  点击:


  今年开始,AI技术在市场成为最火热的名词,许多企业高喊要用AI技术,到底目前企业AI应用已经成熟了吗?还有什麽样的挑战?在AI浪潮下,各家云端大厂也推出自家多项服务提供给企业,但是都得在云端上运行,这是否也意味着企业将资料上云端是未来必然的趋势?让全球Top4的技术长Stephen Brobst为你解惑。
\
  今年AI技术在市场上备受关注,许多企业对AI技术的采用跃跃欲试,各家云端大厂也推出自家多项服务提供给企业,但是都得在云端上运行,AI技术的热潮,是否也意味着企业将资料上云端是未来必然的趋势?让资料仓储龙头Teradata的技术长Stephen Brobst来告诉你。
  Stephen Brobst在高阶主管排名服务ExecRank排名中,曾与Amazon、Tesla Motors以及Intel的技术长并列全球前4大技术长,并曾创立过3家新创公司,而後到Teradata担任技术长,17年技术长资历更让他成为欧巴马的技术顾问。
  依照Stephen Brobst的观察,企业将资料上云端,并非必然的趋势,企业要先厘清上云端的目的,他表示,根据Gartner统计,「目前只有低於3分之1的企业将资料放到公有云,」安全性是企业最大的疑虑,目前多半企业只将自家资料,放在本地端或是私有云。
  许多人对云端的安全性有所疑虑,Stephen Brobst却有截然不同的观点,「云端其实比本地端还要安全!」他表示,想像如云端龙头大厂AWS,大约有6,000人在维护云端的安全性,但是,若是一家企业,可能很难做到如此大规模的投入,他举例,之前Sony公司被骇客入侵许多明星的薪水资讯外流,其实,被骇的全是本地端的系统,云端完全没有被入侵,因此,他认为,其实云端比本地端来的安全。
  不过,他表示,也有不少企业想将资料搬上云端是为了节省成本,「那些云端公司没说的是,资料搬移的费用是非常昂贵的!」他坦言,并不是所有的企业都适合用云端的服务,许多企业认为云端比较便宜,其实若是像ICBC Bank、eBay这种大规模的企业,拥有大量的数据,将资料搬上云端的费用十分惊人,但是,若资料量小的企业,将资料放上云端确实相对便宜许多。
  他也举例一个有趣的作法,有些企业会用本地端和云端互相配合的方式,用本地端部署系统,但是将备份全放在云端,作为灾难恢复(Disaster Recovery)的策略,他认为这是非常聪明的混合策略,由於云端收费是按用量计费,但是备份资料平时几乎不会使用,只需付存放的费用,对企业来说相对便宜许多。
  即使上云端的费用昂贵,Stephen Brobst表示,也有企业是为了敏捷性的考量,将企业所有的资料、系统搬上云端,他举例,Netflix现在没有资料中心,Netflix为了省去在各地建立资料中心的工作,将所有的系统放上云端,美国售票公司Ticketmaster也将所有本地端的系统,花了60天就搬上云端,他认为企业上云端也是达到敏捷性的策略之一,并非全然是价格。
  「数据不会跟着分析,是分析要跟着数据,」他提醒,企业要清楚数据产生的位置,若数据都是在本地端产生,那要在云端分析,就会花费不少费用,但是,像Ticketmaster就把订购系统、财务系统等都放到云端,如此一来,数据本来就在云端,不需要额外付搬移数据的费用。
  企业AI应用目前还面临两大难题
  提到现在最火红的AI技术,Stephen Brobst认为,AI这个词汇比喻成雨伞,由於现在AI这个词包山包海,任何与智能有关的东西,都包含在内,他表示,AI对他而言,更像一个行销的用语,若以技术层面来看,他会先聚焦於机器学习和深度学习来探讨。
  依照Stephen Brobst的观察,其实市场上许多企业高喊采用AI技术,但其实,真正有使用AI技术的企业,却是少数,在大多数的企业中,以应用层面来看,都还在很初期的阶段。
  为什麽真正应用AI技术的企业目前少之又少?他坦言,AI技术目前还有两大问题尚未解决,第一,企业的资料科学家需要知道数据分析过程中,每个决策的原因,他将深度学习演算法比喻成黑盒子,资料科学家就是要透过数据分析,了解数据的前因後果,但深度学习不像机器学习是线性回归的模型,可以解释每个决策过程,深度学习的隐藏层则埋没了这些重要资讯,甚至,每次执行演算法所产生的隐藏层数量也不一样,让企业无法得到数据的洞察(Insight)。
  他举例,即使深度学习的结果令人满意,像是银行信用评估分析模型,管理者必须了解部门如何做出这样的决策,避免是因为偏见、种族、性别歧视等不公正的评断,医疗业亦是如此,若系统就只告诉医生用这些药治疗病人,医生不会凭着未知的知识,将病人的生命,冒着风险替病人治疗。
  不过,他表示,目前高科技制造业良率判断和诈骗侦测这两大领域,已经很成熟地运用深度学习技术,因为良率和诈骗侦测的决策原因没有这麽重要,只要企业持续看到改善即可,但是医疗业、信用检测这些就需要了解决策原因。
  他也补充,目前有许多顶尖的科学家,正在开发可以看见每一层决策的类神经网路,也就是可以解释的分析预测模型,若能解决这项问题,将会是企业能够采用深度学习的关键之一。
  第二则是AI的技术中,不管是机器学习或是深度学习都需要非常大量的资料,但大部分的企业资料量是不足的,导致企业采用深度学习演算法的效果不彰。
  许多企业以为50,000笔数据是很大的资料量,但Stephen Brobst强调,用这样的资料量来执行深度学习是不够,「若要深度学习执行的结果是好的,你需要好几百万笔的数据才够!」他比喻,深度学习演算法大约就像8岁的小孩,要一直不断地给他资讯,从错误中不断学习,才能慢慢的归纳出一套法则。
  数据分析重点不是资料量,是如何整合多元数据
  除此之外,虽然Stephen Brobst身为大数据仓储公司的技术长,他表示,他从来就不喜欢大数据这个用语,大数据就只是数据的一种,目前,数据已经不是只看量多大,而是要去研究如何分析多元结构的数据。
  由於目前许多数据来自不同的通道,像是网站的点击纪录、图片、影音等,包含了结构化、半结构化和非结构化的数据,甚至还要结合政府的开放资料,例如天气、交通等数据,他表示,若要能将这些多元的数据,妥善地分析、应用,是需要结合许多不同的方法和平台,这也是目前数据分析最具挑战的工作。
  未来全产业都需分析IoT和感测器数据
  近几年,数据的收集与分析变化很快,Stephen Brobst强调,未来每个企业都免不了要分析IoT、感测器等装置的数据,不再只局限於制造业的良率判断或是生产线优化,边缘运算(Edge Computing)将会是新的机会,但他认为,目前是以端点收集数据,共同回馈到中心的系统进行运算的方式进行,中心系统产生适合的演算法,再部署到各个端点装置运行。
  「你不会想在边缘装置上做learning,因为太慢,」Stephen Brobst一语点出目前边缘运算,为何还是以中心产生模型推到边缘装置的方式,他解释,若要达成即时分析的能力,就得每百万分之一秒,来来回回在这些装置的网路中,传送、分析资料,这并不是很有效率,因此,基本上,大部分都是先从不同地方的装置,收集数据,在中心系统建立适用的模型,在部署到边缘装置执行。
  他表示,如此一来,可以避免时间延迟的问题,也可以用强化学习(Reinforcement Learning)的方式,让装置执行的过程可以一边作为下一次改善的参考,若这次做错了,可以把错误的讯息送回到中心的「大脑」调整演算法,再迅速地部署新版本的演算法到各个边缘。
  此外,他补充,若某个端点装置发生例外情况,也可以将资讯送回中心,进而改善,这样一来,未曾发生状况的端点也可以了解到可能发生的问题,若有状况则可以快速反应。

相关阅读:

专题