中国信通院云大所主任魏凯解读金融大数据之“大”——大分析、大事务、大资产

“所有大数据应用的探索和技术的研发,其实是围绕着如何分析挖掘海量信息中的信息和价值,必须把大数据作为一种大资产来看待。”


在日前举行的2018中国金融科技产业峰会上,中国信息通信研究院大数据研究部主任、可信区块链联盟(筹)秘书长、国际电联分布式账本焦点组副主席魏凯围绕金融大数据和区块链标准与评测,从三大方面解读大数据之“大”的内涵。

中国信息通信研究院大数据研究部主任 魏凯

魏凯表示:大数据要解决三个问题——大分析、大事务与大资产,才能带来大的价值,这是对大数据含义的理解,也是信通院近年在金融科技方面、大数据方面相关工作的代表。

大分析

“围绕金融行业,大分析的发展,可以划分成几个阶段。”魏凯介绍。

2000年以前,银行业是最早引入数据仓库、数据分析的行业之一。银行业传统上是数据密集型行业。有相关报告显示,每单位产值里,金融业的数据投资是最多的。在2000年之前,金融业就开始使用数据挖掘的技术,主要依靠的是专用的数据库、专用的硬件,应用方面主要是经营分析报表等较为简单。

随后,金融业的大数据应用发生了颠覆性的转变。以互联网崛起为标志,互联网公司在软件上的创新,用价格低廉的计算资源来做大分析,随就又进入到金融业,进入到更多传统行业如电信、公安、医疗、交通等等。

从2010年起,大数据进一步在社会各方面广泛渗透,并产生了很强的技术基础,如Hadoop、Spark等等技术都成为支撑大数据发展非常坚强的基础。

回顾大分析所产生的重要变化,魏凯提到,首先,在互联网业务的推动下,不得不做的一件事就是分析系统的分布式转型,必须采用分布式架构,既有成本上的考虑,更重要的是性能和扩展性的需求,因此分析系统、数据挖掘系统首先进行分布式的迁移。其次,新的理念从互联网行业持续向金融业拓展,在银行或其他金融机构建设大数据分析系统时,基于分布式成为了普遍选择。其中的原因在于大分析的技术近年来突飞猛进的发展,同时互联网创造了开源的福利。

对于大分析技术的演进,魏凯主任从软件、硬件层次的演进给出了一张全面的图解。

围绕大分析这一主题,中国信通院近年来持续进行相关的标准和评测的工作,从大数据产品、服务两个方面,在基础产品、数据资产管理、数据分析应用的多个维度,展开相关标准研究与测试,目前已经有50多款相关产品参与了大数据平台的评测。

大资产

“第二个大是资产,如果数据是垃圾,我们的分析结果肯定靠不住,这是大家所有从业者的共识。”魏凯表示。

几年前,传统的金融机构一直专注于投入大量资金去请咨询公司做数据治理的项目。魏凯指出,几年前,大家认为,数据需要管理,需要去养数据,不是说系统、平台建好以后应用就能运行很顺畅,数据还需要去管理、治理、运维。近年来,数据管理也发生了很大的变化,带来了概念上的升级,主要的变化在于:

第一, 数据应用对象已经发生了很大变化。原来的数据管理都是面向一些报表的等任务,所以数据的应用对象主要在于少数人。现在,很多金融机构的数据应用对象是基层员工、柜员,甚至是最终用户。
第二, 数据管理的手段也发生很大变化,以前数据的管理靠人工,现在越来越多地依靠人工智能等手段进行语义字段的匹配。

第三, 数据管理的职能发生了重要变化。以前金融机构的数据管理部门和业务部门泾渭分明。在信息科技下,数据和业务越来越分不开,因此数据管理职能也发生了重要变化。

第四, 数据架构发生很大变化,从经典的数据仓库类型的架构,正在向数据湖的方向发展,数据不需要去清洗、转换、加载,而是数据线加载,需要使用的时候再转换,这意味着架构上的变化。

第五, 数据种类发生变化。原有的数据主要是结构化的数据为主,现在非结构化数据越来越多。

“这五个层次的变化导致了数据管理需要向下一代演进。”魏凯表示。“最重要的,数据要成为资产。”

因此,中国信通院牵头成立了数据资产管理工作组,与业界在这方面领先的企业共同归纳总结数据资产管理的方法论,希望能够给大家提供参考。在大数据的时代下,要把大数据资产管好,面临的挑战巨大。未来,大数据资产管理面临的是大集中、全链接的趋势,是支撑业务运营深度融合的趋势,同时将有更多新的技术可以支撑数据资产管理的发展。

大事务

魏凯主任从双十一的电商年度大战展开对于大事务的解读:每年双十一,阿里、京东等电商平台的交易峰值节节攀高,基本上保持在每年都能够翻一番的节奏。随着网银、互联网金融的发展,传统金融机构这几年交易处理量也在飞速增长,传统的依赖主机中心化数据库难以应对增长如此迅猛的事物处理流量。

于是,金融机构,特别是各大银行都开始了“核心下移”的工作,也就是用分布式数据库承载越来越多的交易,为核心系统“减负”,并逐步向全开放的分布式架构演进。我们都知道,任何一家金融机构,用户交易数据的处理系统,是企业的生命线,是核心系统。但是,事物数据处理的分布式处理,实现起来难度很大,是硬骨头,目前还没有非常成熟的方案。为了解决这个痛点,信通院也正在与多家银行和数据库厂商联合攻关。

总的来看,当前无论是金融业还是IT业,都正在经历临翻天覆地的变化,技术需求方与技术供给方都需要携手,共同解决金融大数据应用面临的挑战。

“我们信通院希望能够扮演的角色,就是成为大数据技术发展的桥梁,链接各个方面,成为一个平台,推动术变得更好用,让技术与金融行业融合的门槛不断降低,让科技更好的服务金融业务创新。”魏凯表示。

为进一步落实国家《促进大数据发展行动纲要》和《大数据产业发展规划(2016-2020年)》,支撑国家大数据战略落地,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,由中国信息通信研究院与数据中心联盟大数据发展促进委员会共同主办的“2018大数据产业峰会”将于2018年4月18-19日在北京国家会议中心隆重开。