首页 > 专题 > 文思海辉-乘数据之舟-达价值彼岸 > IBM产品介绍(西安站)

IBM产品介绍(西安站)
2014-11-28 11:43:42   评论:0 点击:

  随着中国金融市场的快速发展,互联网金融对传统金融行业的竞争,以及监管力度的不断加强,IT咨询服务公司对金融企业的商业智能方案也面临不断创新。如何提升金融机构在管理、盈利、风险控等多方位的能力?如何将国际经验更好的为中国市场服务?如何通过解决方案将海量数据转化为对经营决策有价值的信息之路?如何将客户智能分析成果行之有效地运用于服务渠道,并最终转换为销售业绩?为解决中国金融机构在发展中所面临的新问题,文思海辉在西安、苏州、北京、成都、深圳五地举办了6场“乘数据之舟,达价值彼岸”系列活动。

  在主题为“乘数据之舟,达价值彼岸”的文思海辉商业智能解决方案系列研讨会西安站现场,IBM大数据专家张光业做了IBM产品介绍。

  以下为演讲实录:

  各位来宾下午好,我是IBM公司软件部的张光业。刚才贾总已经给大家介绍了建设企业基础的信息平台以及信息管控这方面的重要性,接下来我给大家介绍如何使用IBM的软件包括IBM的解决方案帮助您来构建基础的数据平台,也解决数据仓库平台以及怎么帮我们实现信息管控和信息治理,也就是帮我们构建端到端的数据分析的解决方案,一个技术一个架构。

  刚才已经讲了很多的,今天专门谈数据,正是因为数据现在已经是我们整个企业的重要资产,我们如何更好的利用这些数据,特别是现在我们进入了大数据时代,对数据从它的纬度来讲,从外延来讲有了更多的延伸,比如银行核心的还是我们现在客户的信息,帐务信息,但是我们要做扩展,我们有很多微博信息,包括微信,社交媒体等等这些信息,旅游媒体信息,怎么来拥抱更加广泛的数据帮助我们做更时时的决策这是对我们的要求,我们在面对大数据时代,怎么来实现刚才这些诉求,也就是在大数据时代,怎么来做?大家都听过大数据,一提就是Hadoop、streams非常热,但是一定要有自己的原则,也就是说在大数据时代,如何发挥作用首先一点我们还要坚持我们原来的现在已有的结构化数据,我们业务系统,数据仓的数据,还是最重要的源泉,同时我们要拓展我们思考的外延,也就是要纳入一些更清新的东西,比如提到的一些媒体信息,包括日志信息,图形图象传感器信息,帮助我们决策做到更精准,更时时。

  基于这些诉求,从IBM来讲,也是提供了很好的大数据管理以及分析基础的平台,通过大数据分析技术平台架构,我们现在做应用一定要做架构信息,一定要有稳定的架构,再这个架构上来构建我们的应用,才能保证我们的系统长久的发展。从IBM来讲也是提供了大数据分析基础的平台,这个基础平台从架构来讲,基本上从几个方面考虑,这边是我们原来的核心系统,一些业务系统,包括新兴的数据,比如社交媒体,位置信息,流的信息,怎么进行实现呢?首先我们会通过信息整合的平台来帮助把分布在各个业务系统里面的结构化信息,包括新兴的非结构化信息,通过信息整合平台来存储到数据仓库,数据仓库包括ODS系统,包括数据集市帮助我们做信息分析,以做出更好的决策。

  因为大数据时代,我们的数据隔声越来越多,现在我们有很多包括社交媒体信息,包括一些影像等等非结构化信息,我们就会通过系统对非结构化的信息可能做一些预处理,加工,把数据里面重要信息做提纯,提纯出来之后形成一个结构化信息,同样保存在我们的数据仓库里面,这样我们的分析外延会更加广泛。

  另外还有一类叫流媒体信息,比如现在有很多视频头,传感器,这些传播数据是时时的不断流动数据,我们就不能像传统这样,把数据都放到数据仓库里面再做分析,这个时效性有问题,我们怎么在这种其他下做更时时的方式,我们就会有流数据的处理,也就是当这个数据流动过来之后,我立刻对数据做时时的响应,做时时分析做时时决策,这样就能够为我们提供时时的决策,我们称为叫T+0的分析决策,采用这个方式。

  从我们产品来讲,在传统的数据库这边,基础架构平台IBM会提供一体机,因为我们知道在传统数据仓库里面,大家都会知道有一个数据库,包括硬件的方式会结合起来,但是这个方式会有一个问题,我软件硬件单独采购,比如我要建一个T规模的数据仓,我应该选什么样的硬件,每个硬件的配置是什么,网络怎么配,存储怎么配,以前做真的是凭经验的过程,现在就有很好的方式采用一体机的方式,就像我们买了电视拿过来就用,现在在数据仓库这个领域,也有一个趋势就是采用数据仓库一体机的方式,也就是软件、硬件存储预先配置好的,预先优化的,我们开箱就用的,这种方式好处是效率比较高,管理简单,而且扩展性好,所以在这里面IBM会提供一个产品叫PDA,我们和文思海辉这边在很多商行都做,包括北京银行都实施了数据仓库的一体机来做。

  另外一点在我们构建一个数据仓库架构时,除了在基础平台会分层,所以我们详细数据区和汇总区我们可能会针对不同的业务部门建一些数据集市,针对你的部门,不同的主题有很多不同的集市来做,在数据集市方面,现在有一个很大的问题,一定要有响应速度好,我查一个东西要立刻得到响应,在这里面怎么提高数据集市的分析效率,现在在业界有一个趋势,能不能用基于内存的,采用内式的存储方式,高度压缩的方式做,这样的好处减少了IO,因为在内存里面,所以你的响应效果会非常高,在这方面IBM会推出一个产品BB2blue,就是基于内存的采用列式压缩的方式,而且高度压缩的方式,它所有的处理分析不需要解压,完全在压缩数据上进行分析,这样的好处一个效率非常高,非常非常快,另外一点管理起来非常简单。

  在我们来构建传统的数据仓库,传统的基础数据平台,包括我们引入了大数据的技术扩展我们的数据基础平台,这里面还有很重要一点,就是我们要考虑信息管控和治理。信息管控和治理是保证您的数据仓库能够提供高质量的数据,标准的数据,这样能对您的决策真正有意义,这里面会考虑几个问题,上面已经讲了,如何定义我们数据标准,如何构建我们的原数据,怎么保证您的数据是高质量可信的数据,这样才能保证我们真正的数据仓库发挥作用,因为我们碰到很多客户,早就建数据仓库了,业务员一看你的报表数据都是错误的,或者说有问题的,整个系统没法使用,他会反过来,又做新的治理,由做数据质量,所以在我们构建仓库时,数据质量一定要放在很重要的议事日程之上,来保证您分析的数据是可信数据,包括我们在银行里面大家都建了一些客户的主数据管理。

  还有一点当我们构建数据仓库之后,大量的数据包括很核心的数据都放在一块,这时候数据安全是很重要的,如何保证大量的敏感数据不被非法篡改,非法阅读,这时候有几种方式来做,一个我们要做很好的审计制度,也就是说能够记住谁什么时候对这些数据做了访问,同时我们还要做预先的试防,也就是定一些规则,当一些特权用户要对我们的敏感数据做访问时,立刻告警,立刻阻断他,这样能保证整个在基础数据平台的安全性得到保证,这个怎么考虑IBM下一个产品会做,易够数据库,数据审计以及安全的解决方案。

  另外一点当我们数据仓库构建越来越多之后,数据量越来越大,我们考虑到数据生命周期的管理,因为大家知道建数仓的时候,都要用高端存储,这样成本会很高,同样在数据仓库的数据也是有很多的,我们虽然经常做趋势分析,但可能五年前,十年前的数据其实是很少接触到的,但是为了监管考虑我们要保持,这时候我是不是采用生命周期的管理,因为数据是有温度的,我也就把这些数据按不同温度采用多级存储的方式,我经常访问的数据放在高效盘上,甚至在SSB上,不太访问的可能放在光盘部上,这样我能够通过层级方式存储,减少数据仓库存储的成本,同时我需要的数据都能够很好的得到,这个怎么来做在IBM来讲,在整个大数据分析的基础架构里面,有两种实现方式,对传统的结构化数据有一个产品(01:45:33英),由这个产品帮助我们做数据仓库,数据库生命周期的管理。

  另外一点刚才贾总也谈到光大银行做了历史数据查询,因为我们传统经常访问的数据还是放在数据仓库里面,刚才讲了不太查的数据,我们称为比较冷的数据,我把它放在hadoop平台上,因为hadoop的本质是用廉价服务器组成的集群,它会通过运算得到高效的处理,这样它的存储很低,查询效率也是可以接受,所以我们采用另一种方式,来把这些冷的数据放到Hadoop平台,实现历史数据的查询,这两种方式都可以帮助我们做生命周期的管理。

  我们在大数据分析的平台里面,除了我们要使用结构化信息,一体机,我们的数据集市,可能通过BB2blue来帮助您加速数据集市的查询效率,在传统的大数据这边,IBM的hadoop的解决方案是一个企业级的hadoop,它是基于标准的技术,但是增加了一个企业的特性,这后面会具体来讲,也就是说真正的为我们企业使用hadoop平台,因为hadoop是一个标本,它只是考虑它的功能,不考虑企业的特性,真正流的处理IBM有一个产品,就是能够针对流的数据时时的处理,时时的响应,帮助我们做时时的决策。

  通过数据的基础平台包括我们的信息管控平台,之后我们就可以为我们的客户实现很多东西,大家可能很清楚了,我们基于这些数据平台做分析应用,典型的可以做一些数据分析,数据报表,数据多维查询,IBM有一个产品就是做报表多维查询的工具,同时IBM还有一个产品(01:48:21英)这个是专门针对财务绩效分析的工具,叫TMY。同时我可能还要预测一下未来会发生什么,就刚才提到的IBM提供的一些数据挖掘的工具,IBM有一个产品叫SPSS,来做一些挖掘分析,另外我们还可以通过这个来看当前正在发生的事情,对当前的数据做探索,通过我可以了解当前发生了什么,为什么发生了什么,可能会发生什么之后,我就可以做一些行动,基于它做一些决策,这里IBM有一个产品(英)来做一些决策分析的工具,通过大数据的基础平台,我们就可以帮助您构建数据基础平台,帮助我们实现信息管控与治理。

  同样这套解决方案在硬件部属上,我们不仅可以使用传统的用硬件服务器的方式部属,现在也很难要做云,不管是共有云,私有云,当然我们行内一般建私有云,这里面都会到云的平台上,这是整个IBM大数据分析的基础架构。

  下面我们具体看一下在架构里面的一些产品,因为我讲的主要是产品,刚才讲的是一些理念,具体的落地怎么实现,可能要通过一些产品和解决方案来做,我们来看IBM的产品怎么来做,首先刚才讲了大数据分析平台里面,很重要一点要做数据整合,来保证您数据质量,这个IBM有一个产品一个企业级的整合平台,通过它能够帮助我们提供统一的一致的可信的数据,怎么来实现?从IBM的信息整合平台,就能考虑是这样,如果我们要对一个信息做整合,我们首先要对您的各个异构数据源越了解,您之后的转换才能够有的放矢,也就是说在整个过程中,怎么保证我们数据源的质量,在信息服务家族里面有一个产品叫(01:51:07英),这个来做什么?它可以了解您数据源是什么样的,都采用了什么样的数据库,采用了什么样的表,什么样的字段,字段的定义是什么,字段值的分布是什么,通过它字段和字段之间的关系是什么,通过它你可以知道数据源的质量,比如我们在行里面经常做一些客户的营销,客户营销其实用一个很重要的技术手段,就是数据挖掘的客户分群。大家知道男孩子女孩子消费习惯不一样,一定要把信件放到模型里做数据因子,但是我通过IA来看数据源时,一看性别99%都是男的,数据源的质量可能有问题,可能原来系统里面性别缺的是男的,可能录入的时候大家都没录入,回车了,都变成男的,您要把这个作为您这个系统的模型输因子,您建的模型肯定问题,这样我们之后做相应的处理,可能做一些加全处理,或者性别不纳入这个模型输入因子,这样才有的放矢。

  另外一点我们来看地址大量都是空的,之后做转换很多复杂处理其实没意义,您对您的数据源越了解,对数据整合才更有效,通过IA我们可以来看数据源的质量情况,同时IBM有一个产品帮助我们定义您的业务源数据,刚才已经讲了,数据标准是在信息管控里面很重要的一点,标准我们会有一个软科学,您做咨询等等来梳理您的业务指标,之后怎么做IT管理,其实IBM的BG就是做业务指标的管理工作,把业务指标存入到这里面,对它做更好的操作,可以他您的业务指标和真正的业务数据连到一块,这个叫BG,通过可以更好的做您的业务源数据的管理。

  之后采用Data Studio这个工具做数据质量的处理工作,通过它能够保证我们数据是完整统一的数据,在这里面还有一个工具帮助我们实现数据的质量保证,因为大家知道做的时候都是对一些数据做处理,但是有很多东西是基于一段话,一个文字的东西就很难处理,比如我叫张光业,我是IBM的公司,比如我销售额是什么,另一个系统来也是张光业你看的是两个人,但是你说是一个人,当我系统里有大量数据之后,如何通过电子方式自动识别您的信息,自动对这些数据做去重,保证你的数据是可信的数据,这怎么做,其实IBM有一个产品来帮你完成。另外一点通过生产过程中的持续的适量监控,也就是当一上线之后,比如我通过报表来看数据时,比如我们的营业额都是千万级,突然有一天数据一看上亿了,肯定有问题,业务员知道你之后,你怎么解决,其实我们也不知道,通过这个就可以做数据分析,能知道报表这个字段是从数据源的哪个表,哪个字段经过哪些处理得到的,第二当这个报表有问题时,就可以检查问题。

  同时可以做影响分析,当我们数据源某一个字段变化了,已经上线了,跟他影响的相应的流程要做相应的变化,你相应的报表做变化,通过这个影响可以知道,我要改变数据源的某一个指标,相应的流程怎么改,包括报表的定义怎么改,这样保证我们生产过程中的整个数据质量是有保证,这个是IBM的信息整合平台,同时在数据的抽取过程中我们还有一个产品叫CDC,它是复制工具,能够识别您的生产系统变化信息,能够及时的做数据通过,保证数据仓库的数据是时时的分析,就是CDC完成。

  另外一块是在基础平台里面很重要的做存储,做数据仓库,刚才讲了在这里面,其实业界有一个趋势用数据仓库的一体机,从IBM来讲提供PDA,专门针对数据分析的一体机,它的好处是通过提供的并行处理的架构,完成了CRIC的结构,同时采用了业界非常重要的技术PGA,它把数据的处理都变成电子信号,这样的好处是效率非常高,大家看这是一个原理,我们所有的数据都存在磁盘上,磁盘上FBTA的板,这是PDA的专利技术,它通过背板来连接到您的磁盘,比如我们做一个操作时,当发查询之后,数据通过背板直接变成电子信号,通过FBTA板,首先对它做解压,之后做一些条件,同时我们还有一些条件再做一些过滤,大家看到这样得到数据是非常小的,所有这个过程都是转变了电子信号,通过硬件板极实现,所以效率会非常高。

  首先在数据这边,基于电子信号方式做,所以效率很高,这也是PDA为什么在一体机领域里面比较强的技术,另外一点虽然很高效,大家管理非常简单,不像传统数据库,我们要建表空间,建索引,作为数据库不需要,它非常简单我们就建一个桌面,装载数据就可以用,效率高,管理简单。另外应用开发上线简单,我们就是一个数据,所以非常简单,很快速,这也是我们和文思一起在很多的客户,特别在商业银行里面有很多案例都是这么做的,北京银行,大商所等等都是通过野鸽PAD做,另外一个刚才讲的在我们数据集市领域,我们为了提高数据集市的查询效率,往往都会采用居列式存储内存的方式进行访问,IBM的产品就是blue,它的核心是基于内存列式的存储,而且压缩的方式做,它很重要的一点,处理都是基于压缩数据进行操作,不需要解压,所以效率非常高,而且可以充分利用CPU的并行机制实现并行处理,使我们的产品效率很高,但是同样它也是这样,使用起来也非常简单,跟PAD一样,我不需要建你的表空间,不需要建索引,不需要对数据库做统计,不需要做调优,也是直接一个数据就可以,也是速度非常高,我们统计基本采用Blue,比传统的数据集市方式至少有十倍,到二十五倍的性能提高,压缩比也会节省十到二十倍,所以效率非常高,存储成本很低,使用起来非常简单。

  另外一块除了我们现在要针对传统的高价值的数据做分析,我们现在要拥抱,在大数据时代扩展数据外延,拥抱新的一些数据格式,新的数据格式从IBM来讲,主要是两种,一种结构化半结构化的静态数据,也就是把它存到hadoop里面进行并行分析,IBM这边会这个之后,就是对企业级hadoop,另外针对流的处理IBM有一个steeams,首先来看big in side(02:01:13英),这是基本的组成部分,在这里面黄色都是阿帕奇的标志,big in side是基于标准的阿帕奇,蓝色都是IBM的拓展,基于传统的标准的阿帕奇的hadoop的技术,同时提供了一些企业科技,包括统一的管理安全工作附带的优化和各个传统结构化、非结构化数据的连接,包括一些高级处理引擎,统一开发管理界面,通过可视化的工具可以为我们企业提供更好的hadoop的应用支撑。

  在hadoop里面也有很重要的趋势,因为以前大家用hadoop的时候,大家可能用JAVA来写,因为大家传统的跟数据领域相关的人员对C语言比较熟悉,所以在Hadoop里面,大家经常用MapReduce集做数据处理,但是它不支持子查询,多维处理函数都不支持,它的处理是有限制的,IBM提供一个hadoop,我们叫InfoSphere BigInsights它是完全基于标准做的,它会支持子查询,多维函数查询都会这样做,在这个领域里面,其实采用hadoop来做会有一些问题,因为它用JAVA做时,它开销比较高,单运行会很高,所以对大数据处理现在有一个趋势,就是采用传统的SQ并行引擎来代替它做的,因为SQ的引擎都是用C++来写的,包括资源调度会很好,所以现在有一个趋势,而IBM的3.0也是采用SQ的LPP的引擎代理了一些来做,这样并行处理算法会更好,效率会很高,资源调度更好,子查询多维查询都会支持,这是它的体系结构我们就不讲了。

  另外一点IBM企业级的InfoSphere BigInsights和传统的阿帕奇的区别,要注意整合,因为hadoop是作为我们传统数据的扩展,一定要把你的Hadoop和传统的数据仓库有机的联系起来,有效的整合,这怎么做,在IBM里有很大的优势,包括我们的3.0它可以采用数据联邦的技术,可以把你的hadoop数据和我们的传统数据库包括数据仓库技术做很好的整合,这样真正能够在大数据时代同时整合我们的结构化数据以及非结构化外延的数据得到更好更全面的分析,其实这才是有用的,这在标准的阿帕奇里面其实很少有这方面的东西,这是一个它的优势。

  另外一点3.0也很快和传统的HV做测试,基本有40倍的提高,在新的IBM里面除了具备统一企业特性之外,从信息整合,集成管理方面都有很大的提高。另外一个因为大数据它的本质是做分析,所以在这里面会有高级文本分析引擎,对飞碟化的文本分析,会通过高级文本分析引擎可以转变成一个结构化数据和传统的数据仓库数据结合起来做更好的分析,这个典型例子,银行里面对客户的360深度分析,现在各个行都建了微博,把一些社交媒体的数据和我们传统数据结合起来,这种方式做本质上舆情分析就用了高级文本分析引擎完成。

  另外就是流的处理,IBM有一个产品streams,它能够对摄象头、传感器时时流动的传输数据之后,我对这个数据做时时的响应,从而得到时时决策,能达到T+0的洞察力,就是通过这个产品实现。这个产品本身也是一个并行处理架构,它能够只关注您的数据流处理的流程,不需要管理后面怎么部属,它会根据您的硬件情况自动的扩充,是一个很好的流处理的基础平台,同时我还可以和一些数据挖掘工具结合起来,比如我们在银行里面要做风险,我们来看风险防范,就可以通过采用这个技术,对您的七大防范做时时的检测和时时响应,这就和SPS这种数据挖掘模型结合起来。

  另外一点刚才讲了,整个构建数据基础平台之外,很重要一点要考虑信息管控,信息管控里面重要的就是数据安全,怎么提供可信的安全的数据,这是大数据时代重要的东西,安全怎么做,刚才讲了IBM有一个产品易构数据库的审计安全管理的工具,大家看就是这个产品,它会针对您的所有易构的数据源包括现在的hadoop数据,对这些易构数据进行识别,来收集对这些数据所有的访问,所有访问流程都能做记载,对事后审计,同时还可以定一些规则,定完规则之后,当对敏感数据做访问时,能够时时的告警,甚至时时阻断,这样保证我们整个企业数据环境的安全性。

  采用这种方式的好处是采用盘务的方式,也就是说您用了之后,对您所有的数据库应用不需要做任何修改,只要把这个盒子插上去,安装上就可以进行收集,进行时时的数据安全监控,所以使用起来非常方便,也不需要打开所有数据库的日志,所以对性能没有任何影响。

  再一个就是数据的生命周期管理,刚才讲了,如果对结构化数据IBM有一个产品来做生命周期的管理,但是很大的好处和我们自己实现做传统的生命周期管理有很大的区别,它可以采用在数据抽取时,是采用面向业务对象来做,也就是说您的数据之间是有关联的,它抽取时不是按照一个数据点做,而是数据之间的关联关系统一的业务对象来做,同时当你抽下来存储时,是采用了自己的格式,这样做的好处可能你从这个数据库归档的数据,以后可能恢复到BB2上都是可以的,因为它有自己内部的格式,因为做的一纸归档,比如您实际来做的,可能十年之后实际软件早没有了,您数据要恢复没法恢复,采用这种方式,因为它存储的是自己内部格式,从实际归档一下数据,以后可能在20G照样可以恢复,所以是它很大的好处,同时可以采用层级存储的方式。

  它还可以做隐私管理,这个不讲了,通过IBM大数据分析平台,我们就可以借助一个平台之上,构建针对各个行业的数据分析,包括对它的分析,这个后面我们会讲银行的应用知道,就讲构建分析。同样IBM来做是提供基础的平台,我们要和合作伙伴比如文思海辉一起帮助您实现行里面的一些数据分析应用,数据治理,基本上我就今天讲这么多,大家有什么问题没有,谢谢。

错误报告  分享到: