首页 > 专题 > 文思海辉-乘数据之舟-达价值彼岸 > 数据分析之道--银行业数据挖掘分析的现状与前瞻(西安站)

数据分析之道--银行业数据挖掘分析的现状与前瞻(西安站)
2014-11-28 11:55:05   评论:0 点击:

  随着中国金融市场的快速发展,互联网金融对传统金融行业的竞争,以及监管力度的不断加强,IT咨询服务公司对金融企业的商业智能方案也面临不断创新。如何提升金融机构在管理、盈利、风险控等多方位的能力?如何将国际经验更好的为中国市场服务?如何通过解决方案将海量数据转化为对经营决策有价值的信息之路?如何将客户智能分析成果行之有效地运用于服务渠道,并最终转换为销售业绩?为解决中国金融机构在发展中所面临的新问题,文思海辉在西安、苏州、北京、成都、深圳五地举办了6场“乘数据之舟,达价值彼岸”系列活动。

  在主题为“乘数据之舟,达价值彼岸”的文思海辉商业智能解决方案系列研讨会西安站现场,文思海辉商业智能事业部高级经理马宁做了“数据分析之道--银行业数据挖掘分析的现状与前瞻”主题演讲。



文思海辉商业智能事业部高级经理 马宁

  以下为演讲实录:

  大家好最后一个议题,也是最时髦的议题,关于银行业的数据挖掘。这张片子不知道大家是不是第一次见,但我敢保证肯定不是你们最后一次看这张片子及接下来的两张片子,业内会把数据分析分成八个等级,前四个等级是验证性的,我们的目的是了解过去,而后四个等级和更高等级是预测性的,它用来发现未来,验证型的包含普通的报表,查询预警风险,发掘型的是一些更深的比如统计分析,时间序列的分析,去建一些预测模型,以及最复杂的形式,我们会用一些运筹学的知识做流程优化。

  数据挖掘我们在执行时始终遵循BM的执行方法论,它包含六个主要步骤,从业务理解到数据理解,数据准备,建立模型评估模型,最终部属这个模型。

  先来看业务理解,我们银行最常见的信用卡产品,来看整个客户的生命周期,产品周期是怎样的,下面是随着生命周期的演进,客户价值的曲线,我们一开始在获取这个客户的时候,是付出成本的过程,客户是附加值,随着客户逐渐成熟,价值在提升达到他的峰值,有可能客户会流失或者发生一些违约欺诈行为,导致客户最终的价值又变为的附加值,在整个过程中,上面列出来的是业务所关注的各个视角,而下面是数据挖掘在每个过程中辅助业务做出的各种量化判断与分析。我在这里会把所有数据挖掘的专题分成营销类风险管理类的,刚才刘密和宋杨两人提到的两大类型。营销类关注的是我怎么更好的获取客户,了解客户,给他们卖更多的产品,帮助我更好的盈利,风险类的无外乎客户的申请评分,行为评分,欺诈管理等等防范银行的风险,我们把营销展开来看,数据挖掘这一层在整个营销层中中间地位,它承接了数据层的数据,为营销的决策提供营销客户名单,以及基于这个名单的具体实施流程,主要包含了客户细分,营销预测等等。

  风险管理第一大部分是基于巴塞尔框架,有信用风险,市场风险操作风险以及流动性风险,上面每一个领域我们研究的主题对象是什么,下面是我们用挖掘模型去量化的一些具体的指标和专题是什么,同样在反欺诈里面也会做数据挖掘的模型,做时时的检测和行为分析。这里面我列出来了某家银行他们目前在建的所有的和数据挖掘有关的模型情况,基本上是符合我们刚才介绍的框架,零售做营销类的,两个风险部门做具体的信用风险和流动性风险的各种模型,信用卡中心单独做风险ABC卡,以及营销的客户分群和营销预测。使用到的产品和市场上主流的SPSS这样的工具。

  看第二步关于数据的理解,我们要做一个客户的营销,一定要了解你的客户,客户具有什么样的属性,是做客户模型的重中之重,我们提倡建立客户的360度的试图,其中灰色字的部分是我们行内比较具备的数据,而黄色字的部分是我们比较欠缺的需要收集的部分,行内现有的数据真的足以支撑对客户360度的分析吗?首先我们来看行内是有自己数据壁垒的,出于安全敏感性的考虑,各个部门的数据可能不能充分的共享,各个系统之间有对接的成本,以及数据质量带来的各种问题,同时行内的数据其实是非常非常局限的客户视角,我们只看到了客户的金融属性,你看到客户买一双鞋,你不知道客户为什么买这双鞋,同时第三方支付平台的出现,使得连我们最后客户买这双鞋这个事情都不知道,就知道他花了二百块钱,所以现在一些大银行在探讨如何拓展行内的数据以及衔接行外的数据,去获取更多客户信息,互联网上提供了大量这方面的信息,餐饮的,购物的房产以及综合类的信息,很多银行在尝试建立自己的电商平台,把自己的非结构化数据项结构化数据转换,以及利用API去互联网上爬数据,和其它的数据提供方进行合作。

  有了这些数据之后,我们终于可以开始进行数据的准备,打算建立一个挖掘模型,传统的数据准备这种架构,从我的数据存储平台ODS数仓迁移到数据分析平台SPSS,在这里面做基础的数据加工,遵循八二原则,会有80%的数据拼接汇总在这里充分利用数仓的优势完成。具体的统计过程相关的数据处理剩下的20%在数据挖掘平台来执行,这样的问题是有大量的建模数据,有一个迁移的过程,现在一个大的趋势就是存储节点与计算节点的融合,数据在哪里存储就在哪里结算,比如一些库内计算的框架,以及大数据hadoop这样的平台上都是这样的平台,直接操作,把中间结果保存于内存中,数据处理的效果更高。

  接下来模型这里面简单挪列了一下数据挖掘经常会遇到的模型,时间的原因我们不仔细展开讲,大致四类,分类模型,回归模型,聚类模型以及数据建纬的一些算法,分别用于解决不同的问题,我们做的最常见的其实是预测模型,预测模型就是我拿到很多历史数据,我如何根据历史数据来预测未来,举一个简单例子,我现在要判断一个企业它的违约概率,刚才说的PD模型,我收集了它历史上2006年到2012年的数据,因为现在2014年了,2013年发生违约我是知道的,我在这里面希望找到一个函数关系,把收集的数据财务指标,帐户行为影射到最后的违约概率上来,一个最简单的模型,比如他是房地产业,房地产业这几年被限制,所以它的违约概率会高一些,如果不是房地产业,违约概率低一些,非常粗糙的模型,确实是一个数据挖掘的模型,我如果找到这样的关系,我可以做预测,如果时间往后退一年,2007到2013年的数据我已经收集齐了,到2014年这家行业就可以利用这个公式算他的违约概率是多少,这就是最简单的预测模型的例子。

  模型做好之后,下一步是模型部属上线,我们这里不谈模型的技术部属,模型的评估两方面,一方面从统计指标评估,是不是符合我们的要求,有各种各样检验指标,准确性、违约性等等,另一方面看这样的模型从业务上是否有可应用的能力,比如它得到的结果是不是符合业务上的主观认知和业务经验,它使用的变量有没有政策法律风险,比如说我去做一张信用卡评分模型,会发现在美国黑人他的违约率很高的,但是我们把肤色这个变量方进模型肯定是不行的,会带来各种各样的法律问题。

  最后模型的部属,模型做好是要上线应用的,我们的应用模式有这么几种,一种打标签给客户做聚类,通过客户的各种属性分成各种各样的类型,甚至一个客户有多种标签,将来搞营销活动的话,我从中优选到底推送美食爱好者,还是推送给网购达人,另一种模式我们给客户做批量评分,这里面我算一下我客户的流失率是多少,算流失率具体的数值0到1之间,也会估算一下如果客户流失,他目前的资产是多少,流失以后行业有可能造成资产损失是多少,拿到这么一个庞大流失名单以后,我们怎么挽留这些客户,我们挽留谁,甚至我们可以算一下,每一个客户如果说我要挽留他的话,花费一个单位的成本,如果一个客户其实不会流失,我就白白挽留他了,一个成本掏出去之后,是一个准成本,但如果一个客户真的会流失,我如果成功留住,虽然我留住这个客户的概率是0.3%,但是这个人如果留住他会给我带来20单位的价值的话,进去一个单位的挽留成本,我会挣五块钱,虽然这也是一个比较粗糙的估算,但是我就可以知道,这个名单上前百分之多少的客户我把他挽留住,能给我带来整个银行效益的最大化,这是实际做的例子,告诉我们某家银行私人银行的客户,我们建议他按照这个名单从高到低的概率排序的话,建议他挽留前9.7%的客户。

  除了挖掘出名单之后,同样的对这个名单业务的执行是非常重要的,这也是我们实际案例的数据,我们在某家银行三个分行里面搞产品营销,我怎么知道最后营销效果好坏,是我的模型做的好与不好,还是我这个名单到客户经理那边以后,他的执行是有利的,还是不利的,我们这样做,我们把对照组是随机的客户名单,而不是挖掘的客户名单,让他交给客户执行,既是挖掘名单又有客户经理执行,就是简单的挖掘名单,我们关注这些人,对他进行营销,到时候每组的签约率可以算出比值,这个比值就可以知道到底是执行的问题,还是算法。

  在大数据时代能看到这是麦肯锡在2013年对各个行业大数据应用前景做的调查,他认为银行业这个横轴指使用大数据所带来的价值和潜力,纵轴代表这个行业收集大数据的可行性,颜色代表这个行业内部的竞争压力,以及圆形的大小代表这个行业对美国GDP的贡献,可以看到银行业是处在正张图的最右上角,因此银行业是我们将来使用大数据最重要的领域之一。有了大数据之后,我们的客户试图更加完善,我们更加了解我们的客户,再做传统客户分析模型时,我们可以从更多的视角了解我们的客户,而不是简单的以前的传统很枯燥的做法,我可以知道我的客户他家周围有多少家其它银行的网点,如果新开一些其它银行网点,会不会导致流失,都会成为我们考虑的因素。

  一些国际上领先的银行,已经开始尝试使用大数据技术对客户进行深入研究,他们会记录客户每次消费地点,客户经常去的地方,来看客户是否经常外出吃饭,是否为了一个打折商品,牺牲距离去很远商场买东西等等,他们这样精细的记录客户的行为,是为了把客户细分,再细分,甚至细分到一个人,一个人做精细化的营销,其它的一些项目花旗银行他使用了文本分析技术,去了解客户在社交网络上,提供了各种对银行产品服务的个种信息,这是一个三方的评级公司,他们研究客户的信用指数与他的一些习惯,姓名的大小写,喜欢车的品牌等等之间的关系,这都是我们在传统分析里面从来没有考虑过尝试过的视角。

  刚才说了这么多数据挖掘与分析的事情,什么人来做这样的事情,有很多对数据科学家的定义在这里不想挨个念一遍,我们认为数据科学家和传统的数据分析者是具有一定的差异,他们首先要对非结构化的数据有转换加工的能力,我拿到了一个语音,一个视频,我想分析它,我不可能直接分析,我要做转换文本的识别,以及对混杂的不匹配的数据做匹配,以及海量的数据,我通过什么样的平台高效的处理这样的数据,这是2011年EMC做的市场调查,有三分之二的企业认为在未来的五年中,是非常非常需要大数据人才,这是美国的一个求职网站对于大数据和数据科学家相关人员的需求量,这是从2011年开始的积分。

  最后一个问题挖掘技术得加强,是我们文思海辉商业智能的数据挖掘团队,我们有来自于芝加哥大学、清华大学、北京大学等多个着名高校硕士博士组成,我们是一支既懂业务,又懂数据还懂统计分析的团队,这个是我们在银行业和证券业所有的成功案例,谢谢大家。

错误报告  分享到: