如何评估企业资料上云端与AI应用?

　　今年开始，AI技术在市场成为最火热的名词，许多企业高喊要用AI技术，到底目前企业AI应用已经成熟了吗？还有什麽样的挑战？在AI浪潮下，各家云端大厂也推出自家多项服务提供给企业，但是都得在云端上运行，这是否也意味着企业将资料上云端是未来必然的趋势？让全球Top4的技术长Stephen Brobst为你解惑。

　　今年AI技术在市场上备受关注，许多企业对AI技术的采用跃跃欲试，各家云端大厂也推出自家多项服务提供给企业，但是都得在云端上运行，AI技术的热潮，是否也意味着企业将资料上云端是未来必然的趋势？让资料仓储龙头Teradata的技术长Stephen Brobst来告诉你。

　　Stephen Brobst在高阶主管排名服务ExecRank排名中，曾与Amazon、Tesla Motors以及Intel的技术长并列全球前4大技术长，并曾创立过3家新创公司，而後到Teradata担任技术长，17年技术长资历更让他成为欧巴马的技术顾问。

　　依照Stephen Brobst的观察，企业将资料上云端，并非必然的趋势，企业要先厘清上云端的目的，他表示，根据Gartner统计，「目前只有低於3分之1的企业将资料放到公有云，」安全性是企业最大的疑虑，目前多半企业只将自家资料，放在本地端或是私有云。

　　许多人对云端的安全性有所疑虑，Stephen Brobst却有截然不同的观点，「云端其实比本地端还要安全！」他表示，想像如云端龙头大厂AWS，大约有6,000人在维护云端的安全性，但是，若是一家企业，可能很难做到如此大规模的投入，他举例，之前Sony公司被骇客入侵许多明星的薪水资讯外流，其实，被骇的全是本地端的系统，云端完全没有被入侵，因此，他认为，其实云端比本地端来的安全。

　　不过，他表示，也有不少企业想将资料搬上云端是为了节省成本，「那些云端公司没说的是，资料搬移的费用是非常昂贵的！」他坦言，并不是所有的企业都适合用云端的服务，许多企业认为云端比较便宜，其实若是像ICBC Bank、eBay这种大规模的企业，拥有大量的数据，将资料搬上云端的费用十分惊人，但是，若资料量小的企业，将资料放上云端确实相对便宜许多。

　　他也举例一个有趣的作法，有些企业会用本地端和云端互相配合的方式，用本地端部署系统，但是将备份全放在云端，作为灾难恢复（Disaster Recovery）的策略，他认为这是非常聪明的混合策略，由於云端收费是按用量计费，但是备份资料平时几乎不会使用，只需付存放的费用，对企业来说相对便宜许多。

　　即使上云端的费用昂贵，Stephen Brobst表示，也有企业是为了敏捷性的考量，将企业所有的资料、系统搬上云端，他举例，Netflix现在没有资料中心，Netflix为了省去在各地建立资料中心的工作，将所有的系统放上云端，美国售票公司Ticketmaster也将所有本地端的系统，花了60天就搬上云端，他认为企业上云端也是达到敏捷性的策略之一，并非全然是价格。

　　「数据不会跟着分析，是分析要跟着数据，」他提醒，企业要清楚数据产生的位置，若数据都是在本地端产生，那要在云端分析，就会花费不少费用，但是，像Ticketmaster就把订购系统、财务系统等都放到云端，如此一来，数据本来就在云端，不需要额外付搬移数据的费用。

　　企业AI应用目前还面临两大难题

　　提到现在最火红的AI技术，Stephen Brobst认为，AI这个词汇比喻成雨伞，由於现在AI这个词包山包海，任何与智能有关的东西，都包含在内，他表示，AI对他而言，更像一个行销的用语，若以技术层面来看，他会先聚焦於机器学习和深度学习来探讨。

　　依照Stephen Brobst的观察，其实市场上许多企业高喊采用AI技术，但其实，真正有使用AI技术的企业，却是少数，在大多数的企业中，以应用层面来看，都还在很初期的阶段。

　　为什麽真正应用AI技术的企业目前少之又少？他坦言，AI技术目前还有两大问题尚未解决，第一，企业的资料科学家需要知道数据分析过程中，每个决策的原因，他将深度学习演算法比喻成黑盒子，资料科学家就是要透过数据分析，了解数据的前因後果，但深度学习不像机器学习是线性回归的模型，可以解释每个决策过程，深度学习的隐藏层则埋没了这些重要资讯，甚至，每次执行演算法所产生的隐藏层数量也不一样，让企业无法得到数据的洞察（Insight）。

　　他举例，即使深度学习的结果令人满意，像是银行信用评估分析模型，管理者必须了解部门如何做出这样的决策，避免是因为偏见、种族、性别歧视等不公正的评断，医疗业亦是如此，若系统就只告诉医生用这些药治疗病人，医生不会凭着未知的知识，将病人的生命，冒着风险替病人治疗。

　　不过，他表示，目前高科技制造业良率判断和诈骗侦测这两大领域，已经很成熟地运用深度学习技术，因为良率和诈骗侦测的决策原因没有这麽重要，只要企业持续看到改善即可，但是医疗业、信用检测这些就需要了解决策原因。

　　他也补充，目前有许多顶尖的科学家，正在开发可以看见每一层决策的类神经网路，也就是可以解释的分析预测模型，若能解决这项问题，将会是企业能够采用深度学习的关键之一。

　　第二则是AI的技术中，不管是机器学习或是深度学习都需要非常大量的资料，但大部分的企业资料量是不足的，导致企业采用深度学习演算法的效果不彰。

　　许多企业以为50,000笔数据是很大的资料量，但Stephen Brobst强调，用这样的资料量来执行深度学习是不够，「若要深度学习执行的结果是好的，你需要好几百万笔的数据才够！」他比喻，深度学习演算法大约就像8岁的小孩，要一直不断地给他资讯，从错误中不断学习，才能慢慢的归纳出一套法则。

　　数据分析重点不是资料量，是如何整合多元数据

　　除此之外，虽然Stephen Brobst身为大数据仓储公司的技术长，他表示，他从来就不喜欢大数据这个用语，大数据就只是数据的一种，目前，数据已经不是只看量多大，而是要去研究如何分析多元结构的数据。

　　由於目前许多数据来自不同的通道，像是网站的点击纪录、图片、影音等，包含了结构化、半结构化和非结构化的数据，甚至还要结合政府的开放资料，例如天气、交通等数据，他表示，若要能将这些多元的数据，妥善地分析、应用，是需要结合许多不同的方法和平台，这也是目前数据分析最具挑战的工作。

　　未来全产业都需分析IoT和感测器数据

　　近几年，数据的收集与分析变化很快，Stephen Brobst强调，未来每个企业都免不了要分析IoT、感测器等装置的数据，不再只局限於制造业的良率判断或是生产线优化，边缘运算（Edge Computing）将会是新的机会，但他认为，目前是以端点收集数据，共同回馈到中心的系统进行运算的方式进行，中心系统产生适合的演算法，再部署到各个端点装置运行。

　　「你不会想在边缘装置上做learning，因为太慢，」Stephen Brobst一语点出目前边缘运算，为何还是以中心产生模型推到边缘装置的方式，他解释，若要达成即时分析的能力，就得每百万分之一秒，来来回回在这些装置的网路中，传送、分析资料，这并不是很有效率，因此，基本上，大部分都是先从不同地方的装置，收集数据，在中心系统建立适用的模型，在部署到边缘装置执行。

　　他表示，如此一来，可以避免时间延迟的问题，也可以用强化学习（Reinforcement Learning）的方式，让装置执行的过程可以一边作为下一次改善的参考，若这次做错了，可以把错误的讯息送回到中心的「大脑」调整演算法，再迅速地部署新版本的演算法到各个边缘。

　　此外，他补充，若某个端点装置发生例外情况，也可以将资讯送回中心，进而改善，这样一来，未曾发生状况的端点也可以了解到可能发生的问题，若有状况则可以快速反应。

评论排行

推荐阅读

专题

大家都在看