首页 > 专题 > 文思海辉-乘数据之舟-达价值彼岸 > 数据应用之道--大数据在银行业的应用(苏州站)

数据应用之道--大数据在银行业的应用(苏州站)
2014-12-08 15:07:24   评论:0 点击:

  随着中国金融市场的快速发展,互联网金融对传统金融行业的竞争,以及监管力度的不断加强,IT咨询服务公司对金融企业的商业智能方案也面临不断创新。如何提升金融机构在管理、盈利、风险控等多方位的能力?如何将国际经验更好的为中国市场服务?如何通过解决方案将海量数据转化为对经营决策有价值的信息之路?如何将客户智能分析成果行之有效地运用于服务渠道,并最终转换为销售业绩?为解决中国金融机构在发展中所面临的新问题,文思海辉在西安、苏州、北京、成都、深圳五地举办了6场“乘数据之舟,达价值彼岸”系列活动。

  在主题为“乘数据之舟,达价值彼岸”的文思海辉商业智能解决方案系列研讨会苏州站现场,文思海辉商业智能高级服务总监符海鹏先生分享了大数据在银行业的应用。



文思海辉商业智能高级服务总监 符海鹏

  以下为演讲实录:

  各位领导、各位专家大家下午好,这里我人头最熟,大部分都是我的老朋友,当然有很多远道而来的新客户,今天是由我来跟大家一起分享一下我们文思海辉对大数据的理解包括我们整个的能力。

  确实我们这次请的客户主要是来自于华东跟华东区,从直接负责的角度来讲,都是由我来负责的,我必须要跟大家做一下自我介绍,我叫符海鹏,背景跟刚才讲话的两位领导是一模一样的,在这样一个领域里面,应该说我们这些人在这个领域上工作了有十几年,随着大数据包括新的互联网发展,我相信我觉得我们这帮人可能会在这个业内做一辈子,应该没有大的问题。

  今天跟大家讲的是大数据的一个分享,但在大数据领域,其实我这个课题非常难讲,坦诚讲在我们金融行业,大数据真的使用并没有那么多,案例从分享来讲,包括客户聊,大家都在问我们,我们到底用大数据做什么,我们以前有数据仓库,我们以前有数据挖掘,有这些分析我们到底做什么,我有一个大的思路,第一个我们做事情不会去促成方圆,我们做的事情第一个首先有个理论,先讲一下,站在我个人的角度上,我是如何看待这个大数据,第二件事情,我们通过技术,在座的更多的是我们科技部门的人,我们做技术是要依托于业务,业务有一个原始的需求会挡住我们的发展,我会先讲一下,我们的典型应用,我们的领导也谈到了一些内容,第三个层面回归技术,我们技术上如何实现这些业务,我会把一些架构图跟大家做一些分享,其实昨天我还在中国银行做了一次技术上的分享,他们也比较极端,中国银行会有一些历史的背景,比如他们没有统一的数据仓库,没有统一的ODS,大的业务每个业务条线都是自己的行为来去做数据的规划,现在就想弯道超车,一步性的做一些ODS,直接想大数据去做,昨天我们也做了一些技术上的讨论,跟他们做了一些分享。

  最后其实在大数据引用,在这个领域说我们其实很讲跨界整合,这个领域上我们文思海辉跟我们的电信运营商,甚至包括我们的学校,也包括我们互联网等等相关的协议已经有些初步的合作跟尝试,我们会把这个情况跟大家介绍一下。最后有一点小小的建议,跟各位领导跟各位专家我的一些建议,我的一些想法跟大家分享一下。首先讲一下理论研究,其实这个都不用看,大家天天听课已经会有一些基础的定义我有一个理解,其实大数据我分成两个大层面,第一个叫广义大数据,第二个叫狭义大数据,广义大数据是我们所有人都在谈,不光是我们做科技的人,我们做外面的人,我们的银行行长也好,各个业务人员也好,我们要用大数据,实际上这是个业务数据,不是技术数据,另外一个层面从狭义上讲它是个技术,我们看一下广义大数据的定义,其实这个定义大家应该都知道,如果我们排掉它的四个微属性定义,不去看它的四个微属性定义,五个微、六个微属性定义,其实它跟我们原来讲的统计分析数据仓库、数据挖掘这个有多大区别,无非就是一个从数据到信息的一个转换过程,同时把这个过程转换为行动的决策,并且是一个闭环的流程,从理论上来讲,跟我们以前所有的概念是一样的。更强调的是说把我们现在这些数据,把它变成我们可用的信息,并且去谈论决策,这是它的主要方向,它是一个量化的进程。

  为什么现在开始流行,以前我们天天跟大家讲我们是做数据分析,我们做数据仓库,我们做管控,现在开始流行确实是有原因的,第一个方面是数据分析,理论上讲数据分析的重要性越来越大,第二其实我个人还是有技术上的原因,从技术上的原因上讲,我们把它归类为狭义大数据,我们IT,我们做技术人员一直在讲的狭义大数据上的概念,从狭义上大数据有几个关键词,第一个关键词是互联网和移动互联网,它导致了我们更多的人产生了数据,第二物联网,手机其实也是属于物联网的范畴,我们现在经常在外面听到智能小区、智慧城市等等等等这些,它是由于我们的物,我们的物联网,甚至我们的传感器任何一个东西,它都是一个物联网的概念。由于他俩会产生更多的数据,而且数据的种类是更丰富的,非结构化、半结构化,而不像原来更多的存储的是结构化的数据,所以在这个领域上它是有些不同的。第二个有一个发展,云计算跟云平台,如果说从狭义的技术角度来讲现在经常脑子里听到的Hadoop,它其实从本质上它是一个云计算跟云平台的概念的理论运作,我更确切的讲理论归理论,在我们金融行业里面,真正谈的聊的更多的是两个东西,第一个是传统分析数据的替代,我们原来有很多的数据库,Oracle也好、DB2也好,更多的一体机也好,从一个角度来讲我们更多思考的是说我们如何用更好的设备,我们用更好的技术去满足传统分析数据替代的问题,第二个问题其实新的业务模式,这个才是真正意义上大数据的本质,本质上大数据我们要解决的是新的业务模式和数据多样性的问题,这个问题在金融领域上,或者讲银行领域上还没有更多,但是很多的银行,比如说我们讲,刚才尹总也讲了苏州银行的尝试跟创新,我们见过平安银行的尝试跟创新,在这个领域上我们其实也看到他们有很多的案例,等会儿我们会举两个案例给大家看一下。

  我们从具体来讲,技术来讲跟以前到底有什么不同呢,我自己归类,我把它归类大概四个层面,第一个层面就是数据类型跟海量数据的问题,原来我们其实说,我们不能存非结构化数据跟半结构化数据,是可以的,但事实上,而且它占的量很大,从传统意义上来讲至少一个统计,非结构化数据占85%,结构化数据占15%,这个东西是不可以存,但是我们能分析,完全按照一个影像文件去做,一个人脸怎么去做识别,需要多大的量才能去做这个事情,这是我们要解决的第一个问题,所以我们看的数据,其实相对来说是残缺的,我们缺了很大一部分数据,第二个层面是识别海量数据的性能问题,现在其实快餐社会,什么东西都讲快,从性能角度来讲,传统的数据库也好,包括分析技术也好,可能不太能满足我们的需求,从第二个层面来讲,并且我们的渠道上我们也要随时随地获取相关的信息,第三个层面也是比较关键,性价比,如果从绝对意义上来讲,大家很多是我们一体机的客户一体机的客户,从绝对意义上来讲,我们在结构化数据这个层面上,我们是可以采用一些更好的设备去满足我们对这种海量数据的分析需求,我们举个例子工行、建行都属于我们一线银行,在硬件这个曾经面要投数据分析的设备,而我们有这个,说老实话在工行、建行这个企业上也受不了这样一个投入,而在这个基础上,我们如果狭义大数据的基础上,确实有些方式让我们整个性价比变得非常好,这也是我们一个非常要考虑的问题,第四点我们的银行其实现在科技部门越来越大,在这个领域上,所有的技术都是开源的,无论我们是不是有商业的版本,他所有的最底层的技术全部是开源的,如果我们的银行,我们的客户我们有些技术能力,甚至我们有些阿里的高端技术人员,底层技术的掌握跟我们的实力在自储,我们现在逐渐要求我们每个银行都自储,在自储化的角度上我们可以得到一些帮助,从四个领域上我们看整个技术跟我们原来的方向是不太一样的。

  狭义上的数据从现在的角度上来讲,无论大家看到各种厂商包括我们自己也好,所有的基础版本都是我们讲Hadoop这个版本,它的建设Hadoop从我的角度来看,它实际上从技术上来讲有几个大的关键点,第一个它是一个开元式分布式的计算框架,它不是数据库,Hadoop本质上不是数据库,只是我们在用的角度来讲,更容易把它作为数据库来用,常年在使用数据库,作为底层角度来讲它是分布式的计算框架,我们在某一些银行,前不久在上海银行做了一些网银日志分析,半结构化的数据,查询等等这样的数据,大家可以看到我们在底层写的代码全部都是我们JAVA的代码,包括我们有一些人脸识别的技术都是不在底层的,它更多的是说把我们原来在单机上运行或者高端服务上运行的东西放在了一些更廉价设备上做一个分布式的计算,它本意上它是分布式的计算框架,而且是开元式的。第二它能解决的是海量数据的问题,单机我们都可以用,但一到海量整个所有的性能跟所有的技术架构都是不一样的,所以海量性能它是有它的优势,包括处理,在第四个层实施面线性扩展能力,在原来传统意义上线性扩展是很难做的,我们要做很多HER等等相关的事情,很难做,而在这个领域上天生就会去考虑整个线性的扩展问题,我们加一些设备性能会提升一倍两倍三倍,总是有些方法去做。第四个也是我个人认为比较关系,我们有机会自己做一些基层研究,可以使用相对廉价的设备,目前为止我们现在在这个领域上用的机器从来不会用小型机或者更高级的,全部是PC服务器,如果在生产的环境上。而在更底层,完全可以用一个虚拟机,我们甚至可以用PC机,个人PC机都可以做这个事情,所以更廉价的设备达到我们原来要花很大精力去做的事情,这是它的性价比的问题。

  从技术上很多核心的产品Hadoop,所有外围的一圈,很乱的内容,我稍微描述一下,所有的都是围绕着这个核心最后做演变,等等内存的东西全部都是基于这个版本来做的。那我们简单讲一下理论体系,大家听的很多,简单的讲大数据本身它是一个业务的概念,而在我们的技术上更多是一个技术概念,所以我们跟我们的业务部门沟通的时候,其实不用去谈Hadoop,更多的是如何去发挥用我们相对更廉价的设备,更好的方法去让我们的业务价值更多的提升。

  再往下看一些应用,应该不会太讲,但是我还是要把这个强调一下,在这个领域上我们更多是要挖掘所谓银行业在应用的类型,如果我们现在从广义大数据的角度来看,其实它跟我们原来做数据分析并没有太大的区别,如果从数据分析这个领域上银行是固定的,我们该做的事情是固定的,刚才两位领导都提到了,其实我们无非是在客户管理、风险、财务、运营、监管等等去做相关的数据分析,而且这个业务是非常熟悉的,特别在银行领域,我以前在跟别的企业去聊的时候,他们其实没我们这么成熟,我们光把我们所有相关东西做完就要花很长时间,只是说大数据可能让我们的效率更好,也可能让我们花的代价更小,在这个领域上我们会做一个总体的,从业务上跟业务部门先打通。

  从具体来看,刚才领导也放了这张图,从具体来看这实际上是国外顶级的,他会从业务和技术两个层面来看我们在大数据到底能做什么事情,比如说在业务领域上,我们有风险管理的一套流程,我们在业务领域上有客户分析,有客户体验,纯技术上,我们有历史数据存储管理,运维优化,结构化数据的存储,以及包括我们整个数据挖掘的相关技术,但事实上我们真正看下来,我们一天跟客户打交道,大家会提问我们怎么实现,更多在两个领域,第一个领域客户分析与营销,第二个领域是技术的历史存储与管理,更多的是在这两个领域,原因很简单,因为客户分析营销,而且数据量是非常大的,极高的要求采用新的技术去解决我们原来的问题,再细化,在座的有很多是信用卡领域的同事,也是因为它是零售,零售的客户量很大,业务角度来讲,我们更多是从业务角度看我们的技术如何为他们提供服务,第二是科技,我们科技里面大行几百个T,小行几十个T,在这个领域上我们传统数据库真正花的代价比较大,包括性能,我的印象中我们的某些行都做不到T+1数据的架构,甚至T+2、T+3,我们的一些大行。其实在这个领域如果我们采用新的技术可以解决这个问题,所以尽量问一下,我们是否能用Hadoop这种技术,包括狭义大数据解决历史数据存储管理的问题,在两个问题上是我们一定要去研究的。

  其实这个过程我们做这些事情的过程是什么,大家看到最上面的这些东西一样,跟我们做传统数据是一模一样的,数据采集、数据清理、数据存储与管理,数据分析、数据展示,数据做应用,这跟我们原来实际上是一模一样的,也有很多厂商,这些厂商我会简单介绍,在这些厂商里面,如果从狭义性来讲,大部分都是Hadoop底层的平台来做,文思海辉是什么定位,文思海辉是把我们更多的从采集到清理,到分析到数据显化整个过程我们做一个综合的整合,这是我们的一个整体文思海辉的定位。

  下面我就具体举例子,从业务角度来讲,技术实现是合适的模式。我们跟某个银行一起合作做的这样一个叫精准研究之LBS信用卡营销,它是做什么的,真正意义上做地理位置信息和信用卡的绑定,包括未来做营销整套流程的东西,首先他做的第一件事情把地理位置跟客户先做绑定,每个客户在哪里,它的区域在什么地方,区域是什么样子的,是高端小区还是低端小区,客户属性一个大的补充,同时我根据这些所有的相关属性我把客户分成ABC,某些客户是要干什么事情,在这个领域上我们做第一件事情就是要把这些信息绑在一起,你们会发现我们就难了,我按照以前的做法如何把地理位置放在客户属性里面去,如何把这个客户的周边的关联信息放在一起,我是我们很难做的事情,本身我可以把结构化,非结构化、半结构化所有的数据搭在一起,在这里天生的关联在一起,在这个领域上经常会使用这样的技术。

  再往下看,我们一旦把客户跟地理位置的信息绑定好,我们可以做什么事情,从业务的角度来讲,社区银行,特别是对我们中小银行来讲,社区化服务对我们是非常重要的,我们跟大行去竞争大的企业会比较难,我们在社区银行包括营销区的选择上,我们就可以做考量,我们是否要在一些高价值的客户,包括一些高的情况下去设计社区银行,我们就可以做相关的事情。再往下你有的地理位置,你有客户的信息,周边的所有商户你也知道,我们把所有的商圈做一些行为的分析,一个万达广场,万达的周边到底有哪些商铺,那些商铺到底给哪些客户提供价值,这个信息也是我们业务部,我们如何把这些信息获取出来。最后我在这个商区里面发生一件事情,比如说我在万达广场的一家电影院里我买了一张电影票,到了7点钟我的银行就要求,形成主动诉求,我要把周边吃饭的打折信息发给他,这是真正营销的闭环思路,做这件事情大家看到我们业务既然会谈的事情,站在技术角度怎么去做,这是我们事件营销典型的案例,这就需要非常综合的方案,一二三四五六七八九画了很多这样一些圆圈,从这个圆圈来看,我们做这种事情,第一个我们刚才讲的,我刷一张卡马上短信告诉我,这叫什么,它都是一些流失的过程发过来,在这个领域上我们要做什么,技术上我们要实时的解决方案,我们不能通过传统的数据库太慢,我同时有这么多人在刷卡,我们就会实时的解决方案。再往下我们有一个输出,前面都是数据的第一步的获取,再往下是我们传统的我们要什么,我们做任何一个客户的时候,我实际上是拿他的现实行为和他的历史行为的对比,这时候历史数据存哪里,典型的Hadoop大数据平台上,必然算他的行为,算他的多样属性,模型算法,是他的历史,我一定通过一个实际的响应和历史数据这样一个模式做一个混搭,最后才能把整个流程打通,而在这里传统技术确实比较难做的,而在我们现在这个流程上很多流程都可以实现闭环。

  我们做的这个整个下来,我们知道大概有流处理、后台的大数据平台,我们做的这个事情之后,数据平台到底放什么数,刚刚讲刚才那个案例的时候,我们做一个特伟大的事情就是客户的属性,我们不管叫做标准也好,叫做模型也好,或者叫客户360度视图也好,说白了把人所有的延展周边的全部打全,曾经我跟我的同事,包括Hadoop团队做了一件事情,我们把这个补的非常的全,我们从传统意义上讲基本信息、联系信息、财务信息、关联风险、来往、管理信息管理意义上可能我们从银行拿的到,但是很多拿不到,我在电信的消费记录、我在网站的购物行为,以及包括我在某些地方去住一次店等等信息我都拿不到,我们从第一个角度来讲所以要设计一个大而全的信息模型,在我们有机会的情况下,我们会把相关的数据把它买进来,或者怎么样,去补全整个大图,这里面的图从另外一个角度定义,我有两种定义,一种是比较简单可以获取的,基本信息,固定死的,不要做任何计算,登记什么就是什么,他的联系信息、财务,包括我们在跟银行的来往状态,交易行为,其实有很多是固定不了,包括客户等级,贡献度,我们的绩效,这一类是我们计算,在我们这个平台里我们同时要满足这两个需求,一个所谓的固态需求,一个是静态的,一个动态的这两种需求,我们都要满足。

  在这个领域上,最后还有一场是数据挖掘的一场,他待会儿会讲在这个领域上我们在做计算的时候如何通过数据挖掘的技术把客户的调查打的更漂亮,把客户的规律更好,那里面就会有很多文本挖掘,自然处理,价格预测、推荐等等,它就会各种各样的方式去把我们整个客户的属性做的更好,我们刚才讲过的客户信息,我自己老是在想这个问题,我们到底在我的数据层面上,我们讲阿里一天到晚吵着要做银行,小贷什么都有了,我们要做互联网金融,我只能考虑到那么多,从最底层讲,从数据层面讲是有我的考量的,我个人认为从数据层面他们更多就是客人信息,我们现在很简单,如果银行想去拿个人的消费记录,真实的在干什么事情,而阿里很容易,反过来来讲阿里想拿我们每个人绝对的资产信息,来往信息,到底我存了多少钱,贷了多少款他是拿不到的,在这两者上更多的是我们做客户信息的综合,谁能把这个信息补的更全,谁能把这个信息补的更全谁一定会在整个客户领域上会抓到更多的客户,这是我们一个大的考量。

  再往下看我们刚才讲的客户信息,客户信息再往下其实是传统基础,我们索爱基础的信息,还是有一个模型,我们当事人也好,机构也好,各个层面的协议也好等等,我们从这个考虑上我们一定要把所有的事情做一个混搭。再往下ETL数据抽取,这个领域上我们要看到一件事情并不是所有的数据都是好数据,而且数据转换成我们相对使用的模型,原来经常讲大数据把所有的数据往里一丢就结束了,我们使用的过程中ETL还是很重要的,而且在这个领域上现在有很多的方式跟方法,在这里面我们获取也好,抽取也好,转换也好,我们有固定的流程和方式去做相关的内容。

  再往前看就是大数据来源,我其实这个议题特别不好讲的原因是这样的,我们数据来源大部分来自于我们自身,但如果说我们真的是,还是给大家一个建议,如果做的好一定要来自你的外部,一旦涉及到你的外部之后,所有数据量的行为是不一样的,很简单的,社交网络一定是PB级,我们任何一个客户在网络上所有的事情一定是PB级,而不像我们现在银行里面大部分,如果从结构上来讲大部分都是TB级,包括整个移动也是PB级,包括一些外部数据源的获取,这些东西都是更大数据量,用传统技术那几乎是没有办法解决的,在这个领域上我们要考量,如果我们要涉及到外部数据获取的时候我们是要考量,正儿八经要采用所谓大数据相关的技术。

  这里举了一个案例,刚刚讲的业务案例今天时间有限,我不能讲的更细,数据库的替代,这个不是我做的,这是我一个朋友做的,原来是有一个一体机这样的设备,8个小时才能完成每日的处理,做一件事情,我们将耗时所有超长的任务,7、8个,其实就是最长,是影响我整个数据仓库最长线路的任务,然后大量解决了这个问题,从这个案例角度来讲,并不是它说现在我们说大数据完全可以替代数据仓库,因为它从它的成熟度,包括稳定性,包括用户接口来讲还并没有达到那么完整,但是一些底层低价值的数据,包括一些大量数据加工的情况下,它可以做一些替换,而且这里面的一些技术都是可以,现在完全可以达到价值认证。

  除了我刚才讲的那些理论以外,外面一大圈就是刚才咱们讲的数据管控,永远我们有一个议题是说大数据还是做数据分析,在这个领域上我们整个数据管控包括数据标准源数据、数据质量都是可以得到的相关的验证,特别是在源数据,因为大家讲过,我们数据走了一个纬度,站在IT角度如何运维,如果作为整条线来调,如果会把来数据作为第一个领域,把我整个线路上所有的数据链路找到,在这个领域上会更关注源数据在大数据领域的建设,而且相对来说比较偏技术,我们用很多的方式来做。

  最后我们来讨论的问题是数据使用安全,这个更头疼,其实这个东西是有很多考量的,特别是在我们的一些领导层的考虑上,比如说其实在国外,好好的去研究了一下国外对数据安全的领域,其实在国外是有法律,包括隐私法、电子通讯法,包括信息记录法,在国外有很多法律,在国内是一片空白,在这个领域上更多的考虑不是这个方面,而是我们记录上安全性的考虑,我们在银行上,我们如何保证我们的数据不被外面的数据获取,这个考虑的更多。

  讲了典型应用,我刚刚讲了两个层面的应用,一个是比较新的业务层面的创新性,一个是传统数据库替代的应用,这样来看,我们就要看从科技角度看,我如何看大数据的记录体系,这是我们一个,应该是我们已经做过一些修改,并且加工整个的技术信息,中间是我们整个Hadoop的基础,里面东西非常广,坦诚的讲到现在我还没有能把整个Hadoop所有的开元跟所有的相关内容全部了解到,因为这个领域的发展特别快,我前两天还跟一个做数据挖掘的同学谈,我说数据挖掘比如说R,我的算法能不能直接部署在Hadoop平台上,当时他跟我讲不行,大概是半年前,现在我们所有的数据挖掘算法挖掘可以直接部署在Hadoop平台上,直接用并行的方式做,这个领域发展特别的快,而且在这个领域上像我们的厂商,包括IBM也好,相应的发行方也在发挥变化,这个领域上是解决了我们第一个大的问题,就是我们数据存储的管理,外围圈其实都是寻求各路,包括我们自己,我们在里面做了很多研究,在哪几个层面,第一搜索不行,本身意义上跟搜索一点关系没有,所以从搜索引擎这个角度来讲,文思海辉在这里面有些企业我们做了一些项目,把搜索引擎做的比较大。第二数据的集成运行,我们有这么多开元的数据,各种各样多样的数据,我们数据如何在这里做集成,如何转换,其实也没有统一的规范,文思海辉也是采用了,我们团队采用了相关的技术去把技术引擎单独拎成一块,第四离线分析引擎,因为数据量太大,我们必须要把数据在晚上算好,当天晚上生成报表,当天晚上生成一些业务接口,跟我们的数据做一些结合,把数据分批分量分发给各个地方,我们会有离线分析。

  第四也是非常重要的,实时替换引擎,在我们这个地方刚才讲过了,其实真正意义的大数据是让你做业务创新的,不是让你做数据库替代,原来我们实施非常少,在这个领域上,实时替换引擎也是一定要研究跟探讨的。另外两个领域,整个系统安全,在银行很讲系统安全,其实我们在互联网,我相信跟各位银行也接触过很多,但事实上我们在互联网领域,阿里去过很多次,每次问到这个数据安全管理的时候,下面的人回答都是相对欠缺的,他们在这方面的考虑并没有银行这个体系要求那么严格,包括这么多集群的调配、监控、日志管理等等这个方面,文思海辉都要在这里面做更多的努力,包括Hadoop安全的管理。

  再往下就是我们整个解决方案,这个是一个发行版,这里面更多跟大家讲一个建议,因为站在我们科技研究,比如说我们互联网也好,包括我们自己研究,更多的是用一些开元的产品,比如说Hadoop延伸,事实上在这个领域上,如果我们针对银行,我还是建议我们用一些发行版本,我们也做过大量的POC,跟大量的测试,你会发现在他们这些版本里面,他们把相关引擎的Bug,包括一些系统的解决了,针对这个测试性,我会发给大家。

  再往下我们还是要设计整体架构,这跟我们原始项目是非常像的,原系统,数据交换平台,大数据平台,分析应用平台,这个其实没有画全的,这个是为谁做的,为中行做的,中行没有数据仓库,我们现在计划可能想把他们帮ODS方面去努力一下。这个跟大家讲一个核心点,绝对不能把大数据平台,这是我的理念包括总公司理念,不能把后面做一个简单的ODS或者简单的数据存储这样一个概念的东西,而更多的要应用它的技能性,所以我们做两件事情,除了建所谓的接口层,我们会把共性加工层和部分口径跟逻辑移植到大数据平台,我们有一个非常大的团队,大概在华东大数据,专门做的事情是什么,把我们原来在数据仓库ODS里面做的业务加工口径去翻译成现在做的,直接翻译成Hadoop上做的,我们更多强调的是,在这个领域我们的架构上跟原来的架构很相似,更多是把能做计算的部分移植到下面来做。

  在更细节,里面有很多小的细节,今天我不会细说,包括数据获取,实时的获取,非实时的获取,里面有很多的组建,包括类似管理,包括验证,这都是我们要关注相关的地方,以及对外我们以及要梳理库的这种模式,对我们的应用做访问。再讲一个议题,这个可能就讲的更要一点,就是跨界整合文思海辉的努力,先讲第一个,这个实际上我们贾总讲的比我更清楚一些,目前为止文思海辉其实作为一个所谓的服务商,或者这样的一个中介商,我们其实也是在探讨在这个领域上如何和别人合作,我们其实在电信运营商做了很多探讨,其实电信运营商,大家知道我们所有人的手机,其实也包括移动,里面也有相关的属性要去拿的,包括覆盖的范围,包括种类,包括体量相关的一些东西,这个东西是有一个,我们对他们数据的渴求。我可以告诉大家其实现在在整个,我更了解浙江,浙江移动有一个专门叫大数据运营平台,已经把所有的数据,所有的话单数据消费记录等等放在一个真的大数据平台里面,但是他们没有把那个数据对外去宣传或者使用,他也找不到更合适的厂商帮他们服务,最近我们其实也在跟他们谈,我们想借助这样一个力量,把我们的力量代入,我们更了解银行,他需要什么样的数据,我们也做尝试,做一些相关融合的工作,这是一个探讨,我们有我们相对的定位,电信有他们的数据,银行有需要,访问也是一样,我们可能做一个服务商在技术层面上,在这个层面做引进。

  第二个领域其实是人才的培养,今天我请了几个专家跟老师过来,也是有原因的,我们跟IBM做了这样一个计划,IBM有这样一个计划,我们会做一个整个三层次的人才培养计划,第一个层次就是跟合作伙伴共同培养相关的人才,第二个领域是跟教育机构,第三个直接培训一些老师,我们在第一个领域做合作,IBM在中科院大学已经开了一个所谓大数据人才培养班,叫智慧金融,我们在这种领域上做合作,很快我们就会在华东包括华南也会跟一些学校谈这个合作,除了刚刚讲的技术,讲一下架构以外,我们把人才后备力量建立起来,这也算给大家做个预告,很快我们会把人才的培养体系建立起来。

  最后简单讲一下文思海辉大数据的努力,先从技术上讲,文思海辉做了这么几个东西,第一个数据集成,我们做集成,包括ETL等等相关的,第二Hadoop本身的搭建,包括发行版本,包括原形版本,我们都会做很大的搭建,基础构建的搭建,第三个流数据的处理,我们讲过注重很多实时的行为,流数据的处理,包括我们跟数据仓库的融合这是我们的老本行,老本行的融合,包括我们整个管控的能力。再往下看分成几个类别,第一类别是大数据方案的整个规划设计,由于我们原来有仓库的经验,大家也看到我们其实在做数据分析,只是换了不同的技术,我们未来整个大数据方案的规划帮各位客户设计好,第二个层面分析,等会儿就会讲到,我们在这个领域上更多的模型、算法、预测,分公司计算的公式等等也好,我们有相关的人去做相关的工作,第三是我们整个运营的优化,如果我们有了一些大的平台,上面要做很多的调优,包括相关工作,这也是文思海辉现在主要在做的工作,第四所谓包装好的一个成熟的业务应用,包括整个分析智能化,包括实时数据仓库,整体解决方案我们也会提供,我们主要在四个领域去努力。

  最后提一些小的建议,第一个其实刚刚讲那么多,我们还是要有一些方向上的选择,第一个就是技术方向选择,这个是我们尝试去做所谓的技术规划的数,到底什么时候应该去用大数据平台,我们就在数据类型、处理能力,包括数据量,包括响应时间,包括集成包括分析种类这个层面上我们做了这样一个决策,我们希望通过这样的模式能让我们的客户更加清晰认识到我们在做任何一个业务场景,拿到一个业务需求的时候,我们任何采用什么样的技术,我们做了这样的形式。

  另外一个角度来讲,我更多谈一下我的感受,第一个行业,相信互联网银行冲击很大,我给大家讲一个故事,也是有一次我应该是在同济大学上课,跟别人也是聊大学里的东西,下面有一个学生问我,你刚刚讲过数据质量,我跟你剖析一下数据质量体系,听他来讲数据管控一定会讲数据质量,他就跟我讲了半天,他讲的是什么,他讲的是工程质量的控制,噪点控制,我从这个案例跟大家讲,其实在这个行业里面,包括大数据,包括数据分析非常具有行业专业性,如果是一个外部公司,或者一些外部的厂商介入还是有一定的难度,因为他必须要了解清楚,必须要了解我们在银行里面需要什么样的数据,我们需要做什么样的分析,这是第一个。第二从技术上来讲,我们更要注重在这个领域上其实真正还没有达到一个完全的标准跟规范,所有的技术是要革新一样每天都在变化,今天会冒一家公司,明天会冒一家公司做相关的事情,而且在技术上不是你想象的那么简单,在这个领域上我觉得对我们自己本身,第一个我们要做的是要了解本事,我们不能大量的采用所谓的包装型的产品也好,获得相关的开元工具也好,我们更要内部的经营,我们在我们公司里更多强调的是,我们要从技术研究来讲,我们一定看底层使用的层面上,我们会把周边的整个打通,在整体架构设计上,我们一定要有更好的考量,我今天就讲这么多,谢谢各位。

错误报告  分享到: