金融大数据发威,数据可视化和交互式分析成关键

大数据时代的到来,已经引起了世界各国政府的高度重视。2012年3月,美国政府发布《大数据研究发展行动计划》,强调要提高从海量数据中提取知识和见解的能力,帮助加速科技研究的进展,加强国家安全和相关教育。具有异曲同工之妙的是:2012年4月,中国政府推出的《软件和信息技术服务业“十二五”发展规划》中也提出,面向日益增长的数据处理需求,积极发展数据编辑、整理、分析、挖掘等数据加工处理服务。

大数据对每个行业都会产生影响,而金融业无疑是受此影响最大的行业之一。这是因为首先,金融业本身就是一个信息密集型的服务产业,随着互联网的应用普及和种类繁多的网络金融产品的推出,金融信息化程度迅速深化。其次,现代金融企业普遍大量投资信息化基础设施,建立了庞大的数据库系统,一直拥有着质量较高的数据资源。再次,其实也是最重要的是:银行利率市场化进程的加快,寿险费率彻底市场化政策的逐步落实,以支付宝的“余额宝”、微信的“财付通”为代表的新型金融产品对传统金融业构成一浪高过一浪的冲击波等行业大环境因素的影响,使中国金融业的行业竞争日趋激烈,催化了企业进行产品和服务创新的迫切需求。

不难发现,大数据在金融业发展的进程中扮演着更为积极的角色。诸如客户行为特征分析、精准营销、客户满意度模型、风险管控、需求预测、精益化流程、六西格玛质量水平、卓越运营、数据驱动的决策之类的名词越来越多地出现在各级工作报告和会议交流上,而探索性数据分析、决策树、回归、聚类分析、神经网络、关联规则、数据挖掘、时间序列分析等分析术语也越来越频繁地被行业内各类人士提及。

但不幸的是,“如何让这些先进而又时髦的管理理念和技术落地,实实在在地让从业人员体验到大数据的价值”却不是那么容易的事,常常可以在企业内部可以听到这样的抱怨:公司花重金搭建了数据仓库,高薪聘请了海归的分析专家,但数据分析团队对业务部门提出的分析需求响应速度很慢,好不容易出来个模型,业务人员却看都看不懂,更谈不上应用了。这一切不由地让人感叹:金融业大数据,听上去很美,做起来……

其实,大数据在为金融业带来新机遇的同时也带来了新挑战,先不说数据来源的复杂化、安全性等基础架构问题,在最终应用阶段的数据分析“傻瓜化”(即易学易用性)也比以往显得更为重要。这是因为在大数据时代,数据分析已经不再仅仅是少数统计学家手中的专利了,数据化运营需要全体员工的参与。企业中的数据分析与挖掘项目也呈现出多元性,有的项目需要分析部门和业务部门的共同配合与协作,花费较长时间精雕细刻地完成,有的项目则要求业务部门能够在较短时间内独立完成,快速响应客户要求和市场变化。

从不少领先一步的国内外知名金融企业的应对之道中可以发现:数据可视化Data Visualization和交互式分析Interactive Analysis是将大数据从“精英化”转变成“平民化”的两种最重要的信息技术。JMP(全球最大的统计学软件公司SAS的产品)是在强调数据挖掘权威性基础上能够发挥交互式可视化分析的大数据分析平台,下面我们就借助这个软件工具,用一个案例来简要说明金融业大数据分析应该如何落地。

某保险公司的汽车保险部门为了降低理赔风险和理赔成本,提高盈利能力,想利用现有的数据资源(包含客户购买及理赔记录的庞大数据库)进行一些深入的客户特性分析,以此得到一些改进思路,制定一些“快赢”方案。然而面临的困难有:

1 公司的IT部门正在从事一些重大IT项目,无暇顾及该业务部门的分析需求;

2 本部门内部的业务人员大多是文科背景出身,没有一个是计算机、数学或统计背景出身的,数据分析基础非常薄弱。

但是,也有一些有利的因素,如:

1 这些业务人员的从业经验都很丰富,能够在数据分析之前在数据库中大胆且比较准确地选择一些潜在因素;

2 公司已为各个业务部门配置了交互式可视化分析的大数据分析平台JMP,使非统计人士也可以快速地从“工具学习”阶段进入到“业务分析”阶段。

因此,该部门领导决定扬长避短,结合行业经验,运用先进分析工具开展一次“Analyze DIY(自助式分析)”。分析的过程比想象的要轻松很多,在几次鼠标点击之后,一个以交互式图形展现出来的汽车保险用户风险模型就在业务人员边讨论边分析的过程中诞生了。从数据挖掘的专业角度讲,这个分析用到了“决策树”的高级分析技术。虽然,当时没有人懂决策树的理论和计算公式,但这丝毫不影响分析业务人员的分析效率,或者说业务人员的分析效率反而比以往得到了大幅提升。

因为在下面这个图形化的模型中,我们可以看到以往复杂冗长的统计分析报告无法直观揭示的结论:在众多候选因素中,年龄等级(Age Class)、城市居民与否(City(Y/N))、信用等级(Rating Class)是影响理赔风险最大的三个关键因素。进一步来看,年长、非城市居民、信用等级为A和B的细分人群绝对是汽车保险营销的最佳目标群体!因为他们将来的理赔概率只有3%~4%,远远低于近20% 的整体市场平均水平。

用JMP软件交互式可视化技术生成的汽车保险用户风险模型

分析到这里,会议室里的气氛立刻活跃了起来。因为所有成员通过图形化的决策树模型中都一致地找到了合理客户分群的线索,而且这个线索与他们的实际工作经验也非常吻合,解决问题的方案也就随之产生了。再经过一段时间的具体实施和后续跟踪,事实证明了该解决方案确实是有效的。

所以说,金融业大数据不仅仅“听上去很美”,它完全可以落地实现,关键还要看你是采用什么方法来处理大数据。“业务人员只提分析需求,分析人员只管搭建模型”的传统工作模式已经越来越无法适应当前的工作节奏,“既能够提供业务参考意见,又能够胜任常见数据分析工作”的复合型人才将会越来越受到金融企业的青睐。