您当前的位置是:  首页 > 新闻 > 文章精选 >
 首页 > 新闻 > 文章精选 >

如何打造永不枯竭的数据湖、让智慧城市建设水到渠成

2018-08-16 13:42:40   作者:华为企业BG智慧城市解决方案部解决方案总监任东民   来源:CTI论坛   评论:0  点击:


  文章来源于《ICT新视界·智慧城市特辑》,原标题为《打造永不枯竭的数据湖,成就城市智慧》,作者为华为企业BG智慧城市解决方案部解决方案总监任东民。
  智慧城市是以数据为中心、由数据驱动的城市大数据生态系统。数据只有充分集中、达到一定量级才是大数据。从我国东部发达地区的实践来看,数据汇聚是政府大数据发展的难点所在,已成为大数据主管部门的共识。
  没有汇聚就没有大数据
  建设城市级大数据中心,必将面对数据汇聚带来的挑战——数据源越来越广、数据类型越来越多、数据量级越来越大。所谓大数据,必须在技术上可管理,才能可利用。
  大数据中心除了承载部门应用系统的传统“小”数据之外,还将归集日常工作产生的电子文档和多媒体等新型“大”数据,并将引入城市视频监控和物联网传感器产生的流式数据,乃至获取企事业单位和互联网的社会数据资源,必须解决怎么采集、怎么存储、怎么管理的难题。如果不能做到“落得下、管得住、看得懂、拿得到”,就不能保证“一次汇聚、多次分享”。
  实践证明,大数据中心如果只是简单拷贝杂乱无序的海量数据,无异于数据沼泽。大数据主要是非结构化数据,针对结构化数据的政务信息资源目录体系与交换体系跟不上十多年来政府信息化的发展和变化,技术和管理上的局限性日益凸显。
  政府大数据要走自己的路
  大数据技术发源于互联网企业,但是,政府大数据与互联网大数据有很大不同。政府大数据的基本特征是多源异构、分散无序。政府数据源并非同一来源和单一类型,数据存储并非高度集中和完全同构,采用人工编目方式无法承受为海量数据进行元数据标注的巨大压力,必须升级到大数据架构。政府大数据是社会公有属性,外部价值大于内部价值,外部利用是优先方向,重点是公用数据集开发和资源化服务。忽略政府大数据的分散多样性和价值取向,照搬互联网企业经验,无法从根本上解决数据汇聚问题。
  通常认为,大数据是关注数据分析结果的A范式(分析型应用)。实际上,大数据并非只有A范式,还有关注数据内容本身的D范式(公用数据集)。在数据资源尚未充分集中形成规模量级的情况下,大部分政府应该是优先发展D范式,而不应不切实际地追求A范式的突飞猛进。
  数据湖是什么?
  2010年,James Dixon提出数据湖(Data Lake)的概念。数据湖是与数据仓库相对的概念,初衷是破解数据仓库的局限性:一是只能回答预先设定的问题,二是数据已经被筛选包装好,无法看见其原始状态。James Dixon说:“如果数据集市是一个商店的瓶装水,数据被过滤包装结构化以供使用——数据湖则是在更自然状态下的大量的水。数据湖中的数据来源于不同地方,用户可以进入数据湖中按需提取所需要的数据”。
  数据湖的核心原则是集中存储原始的、未经改变的全量数据,在提取数据时才进行转换。数据湖存储各种类型数据,重点是非结构化和半结构化数据,通过统一视图提供开放访问。数据湖必须具有强大的元数据管理能力,可保证所存储数据资源的语义一致性,这是进行大数据分析的基本前提。
  数据湖与政府大数据价值链密切相关
  数据湖处在政府大数据价值链的上游,是数据即服务和分析型应用的源头,对应“汇聚”、“标注”、“分发”三个环节。
  • 对于汇聚而言,旨在建立统一数据采集体系和统一大数据资源池,优化大数据供给侧的数据处理流程。
  • 对于标注而言,旨在建立统一元数据管理体系和全景数据资源清单,建立对大数据需求侧的强有力支撑。
  • 对于分发而言,旨在建立大数据应用与数据湖之间的畅通管道,实现从数据湖中即取即用。
  华为“一云一湖一平台”整体方案
  华为凭借智慧城市建设和自身数据资产管理变革经验,以及大数据和人工智能方面的技术储备,提出了“一云一湖一平台”整体解决方案。
  华为已率先发布了智慧城市数据湖解决方案,致力于打造大数据生态永不枯竭的源头。华为以数据湖为核心的大数据整体方案具有三大优势。
  • 超前实践,先行探索。华为有18万员工,信息系统庞大而复杂,积累了海量数据资源,面临着很多现实问题:跨领域数据获取困难甚至无权获取、过程数据大量丢失、无法满足数字化运营和大数据分析应用要求等。2017年,华为实施了数据资产管理变革项目,启动了产品领域数据湖建设任务,成功实施了IPD数据湖解决方案,以统一的数据底座承载主题数据,实现了集中的数据资产管理,“打破数据壁垒、实现数据联接、主动自助服务”。
  • 瞄准未来,架构领先。未来所有数据将平滑迁移到统一政务云,如果综合考虑先进性和实用性,初期可以传统小数据架构(传统数据库)和新型大数据架构(数据湖)并行存在,实行统一的元数据管理。而后期条件成熟时,再将传统小数据架构融入新型大数据架构。
  • 自动化,高效率。基于人工智能技术实现元数据的自动化标注。现有的目录体系只适用于结构化数据,主要采用手工编目方法,存在工作量大、复杂性高、质量低等缺点。在纳入非结构化和半结构化数据之后,由于数据规模量级之大已不可能再采用手工编目方法,必须引入成熟的人工智能技术,对视频、语音和电子文档等采用图像识别、语音识别和自然语言处理等技术,由机器人“阅读”和“认知”非结构化数据,自动提取主题词、关键字和生成标签,采用机器学习技术不断提高编目质量。
  当前,我国政府带头拉动大数据发展,智慧城市数据湖呼之欲出。在智慧高青、北京城市副中心、兰州新区等城市大数据工程项目中,华为复制了自身IPD数据湖建设的成功经验,加快推进数据湖解决方案的落地,力求突破政府大数据汇聚难题,向智能型城市扬帆起航。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题