您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

企业五年后卓越或者死亡,数据战略是关键!

2020-04-02 10:27:31   作者:君子兰   来源:云技术   评论:0  点击:


  一、企业清晰的数据战略已经刻不容缓
  上个月,欧盟委员会于2020年2月19日发布欧盟数据战略,积极推进数字化转型工作,打造欧盟单一数据市场,目的是强化技术主权,提升企业竞争力。
  2020年3月,中共中央政治局常务委员会召开会议提出,加快5G网络、数据中心等新型基础设施建设进度。与传统基建相比,新型基础设施建设更能体现数字经济特征,能够更好推动中国经济转型升级。
  如图1,根据国家统计局数据,从2015年到2019年,全国居民人均可支配收入持续增加,2019年全年全国居民人均可支配收入30733元,扣除价格因素,实际增长5.8%。
  图1 2015年到2019年全国居民人均可支配收入持续增长
  (来源,国家统计局官网)
  消费者收入一方面在增加,一方面更追求个性化。在政策的大背景下,随着移动互联网的普及,5G的加快落地,对于企业,做好数字化转型,满足消费者千人千面的需求是必然的选择。
  此外,还有一个趋势就是越来越多的企业利用数字化技术,开展线上业务,比如在疫情期间,有房地产企业开始在线上卖房。
  数据是资产已经是共识,我们的衣食住行不断地产生数据,依托这些数据,使不少互联网企业发展壮大。同样的,在企业的日常运营中也在不断地产生数据,如果能利用好这些数据,将进一步的提升企业竞争力。
  在企业普遍开展数字化转型的大潮之下,每家企业应明确自己的数据战略,为数字化转型打好基础。
  数据战略包括数据采集、存储、分析、消费。国际数据公司(IDC)和数据存储公司希捷开展的一项研究发现,2025年,全世界产生的新数据将从2018年的33ZB增至175ZB,中国每年将以超过全球平均值3%的速度产生并复制数据。据该研究报告,2018年中国约产生7.6ZB(1ZB约相当于1万亿GB)的数据,到2025年该数字将增至48.6ZB。与此同时,美国2018年约产生6.9ZB数据,并将在2025年增至30.6ZB。
  二、企业用好数据,面临四个挑战
  企业如何用好数据,面临以下四个挑战
  1. 企业内部存在数据竖井,数据采集困难
  企业内部的数据,往往存在数据竖井,格式不一致的问题。企业内部的数据,通常是按部门,按数据线保存。不同历史时期,采用的数据库不一样,导致数据格式也不一致。要将数据统一采集存储,需要打破部门壁垒,兼容各种数据格式。
  2. 数据增速越来越大,数据存储面临挑战
  如前文所述,随着新技术的采用,随着信息化的深入,产生的数据越来越多,数据量飞速增加,大量的数据如何存储成为一门技术活:如何能存储海量的数据,让数据根据冷热分层,让数据存储性价比更高成为挑战。
  3. 海量的数据分析需要专业的能力
  数据分析越来越复杂,甚至成为一个生态系统,对于一个企业来说,要做数据分析,往往需要一个团队,需要购买商业产品,需要服务商的支持。如图2,从mattturk.com网站总结的数据和AI生态蓝图可以看出数据分析的复杂性。
  图2 数据和AI生态蓝图
  (来源,mattturk.com网站)
  4. 安全合规方面面临挑战
  我国于2017年6月1日正式实施《中华人民共和国网络安全法》。在数据安全也有诸多规定。明确规定了网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。
  欧盟于2018年5月25日正式实施了《通用数据保护条例》 (General Data Protection Regulation,简称GDPR),GDPR是一项保护欧盟公民个人隐私和数据的法律,其适用范围不仅包括欧盟成员国境内企业的个人数据、也包括欧盟境外企业处理欧盟公民的个人数据。
  2019年5月28日国家互联网信息办公室发布《数据安全管理办法》(征求意见稿)。征求意见稿中包括数据收集、数据处理使用和数据安全监督管理等内容。
  这四个方面的挑战,中小企业面临的挑战更大,大型企业面临的是效率问题,中小企业则面临的是数据战略如何落地的问题,而AWS推出的数据湖服务,可以很好的解决这四个挑战。
  三、AWS数据湖,通过组合拳解决数据难题
  图3 AWS的数据湖服务架构
  (图来源,AWS公开资料)
  如图3,AWS的数据湖实际上由一系列产品和服务构成:
  • Amazon RDS:云托管的关系型数据库,支持Amazon Aurora、MySql、Postgre SQL、MariaDB、Microsoft SQL Server、ORACLE等六种常用的关系型数据库。
  • Amazon Redshift:数据仓库,性能强大、使用简单,全托管的数据仓库服务,支持大规模并行处理, 支持从GB到TB规模数据的扩展。
  • Amazon EMR:大数据处理,在AWS上运行Spark, Hadoop, Hive, Presto, Hbase等大数据分析,高度可扩展的分析和机器学习服务。
  • Amazon Kinesis:实时数据,实时收集、处理并分析视频和流数据。
  • Amazon Athena:数据交互查询,使用标准SQL对Amazon S3上的数据做交互查询,无需基础设施及配置,无需另外加载数据。
  • AWS Glue:ETL 和数据目录服务,无服务器架构的数据目录和ETL服务。AWS Glue 使用能识别常用数据格式和数据类型的预构建分类器(classifiers)抓取数据源并构建数据目录,包括 CSV、Apache Parquet、JSON 等。
  • AWS Lake Formation:可以自动化构建数据湖。
  通过以上产品和服务的组合,AWS的数据湖有以下特点:
  1. 可以快速的构建数据湖
  AWS Lake Formation 可以自动化构建数据湖,可以在数天内构建数据湖,而传统方式需要一个经验丰富的团队,花费数个月的时间。
  2. 兼容多种数据格式,支持分级存储
  AWS数据湖支持关系型和非关系型数据库,Amazon S3 提供五个存储类别和自动数据生命周期管理。Amazon Redshift 的速度比其他云数据仓库要快3倍。
  3. 支持不同数据库连接和数据交互查询及
  通过AWS Glue和Amazon Athena服务,可以实现不同数据库连接及数据湖数据交互查询。
  AWS Glue最主要有两个功能,一个是ETL,ETL是Extract、Transform和Load,即数据的抽取、转换和加载,从数据库提取到数据仓库使用的都是ETL。另外一个功能是数据目录服务的功能,数据都存在数据湖里面,要对数据打标签,做分类工作,AWS Glue可以像爬虫一样对数据湖里的海量数据自动爬取,生成数据目录的功能。
  Amazon Athena支持使用SQL直接对S3数据交互式查询,使快速存起来的海量的数据可以像传统的使用SQL语言一样,使用标准的数据库查询的语言,方便了技术人员的使用。
  4. 支持多种数据分析方式
  图4 AWS数据分析组件
  (图来源,AWS公开资料)
  如图4,AWS支持多种数据分析方式,数据通过各种数据库采集,进入数据湖,然后进行分析和展现。
  数据分析Amazon EMR是重点,Amazon EMR 提供在云中运行 Apache Spark 和 Apache HIVE 工作负载。EMR 与 AWS 的其余部分进行深度集成便于节省成本的功能,如 EC2 Spot 实例,从而将成本缩减高达 90%。
  另外,AWS数据分析支持 SQL、R、Scala、Jupyter 和 Python语言,所有的服务均支持使用开放 API 以开放格式(例如 Apache Paquet、Apache OR、Apache Avro)并使用专有(适用于数据仓库的 Redshift)和开放引擎(例如 Spark、Hive)访问单一对象存储 (S3) 中存储的数据。
  更进一步,AWS数据湖可以和机器学习和人工智能服务Amazon SageMaker结合,把数据用来做机器学习、人工智能的数据分析,做更多的自动的预测性的分析。
  5. 安全
  AWS 提供了一套超越标准安全功能的工具,例如对安全策略积极监控和统一管理的加密和访问控制。例如,Amazon Macie 可帮助监控数据湖,以确保不会意外地暴露凭据或个人身份信息 (PII)。Amazon Inspector 可帮助实施最佳实践和识别可能被利用的配置问题,利用 AWS Lake Formation,可以在所有分析服务中对数据湖中的数据进行一致性的访问控制。
  图5 ,AWS数据湖平台功能
  (图来源,AWS公开资料)
  AWS数据湖是成熟的解决方案,如图5所示,可以提供多种功能,实现不同的业务价值。AWS数据湖已经有许多用户在使用,像娱乐业的二十一世纪福克斯电影公司。还有包括一些金融的案例,比如FINRA,是一个美国的金融监管机构,每天有超过1500亿的事件、20PB的数量,它把所有金融的交易的信息都整合在一起,可以处理所有的内部交易。还有纳斯达克交易所,使用数据湖处理每天500亿条的付款,使用数据湖把上市时间缩短了1/3。
  四、总结:AWS数据湖服务是数据战略落地的强支点
  疫情期间的健康码经过精准的数据分析,极大的方便了大家的出行,也让大家进一步认识了数据分析的便利性。当前,从政府到企业,都普遍认识到了数据的重要性。数据要发挥作用,必须经过多维度的分析。今后五年,企业必须拥有清晰正确的数据战略并高效的落地,数据战略是通往卓越的必经之路,企业要么因为数据战略的高效落地而卓越,要么死亡。
  AWS的数据湖服务,能够帮助企业解决数据的采集、存储、分析、消费等全周期的问题,为企业搭建了良好的数据平台,是企业数据战略落地的强支点,能够有力推动企业数字化转型,是企业抢占先机,赢得竞争优势的利器。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业