郭子龙:大数据浪潮将催生信息产业第三极——“数据极”

11月8日消息,2012年,大数据高调走进人们的视野,大数据的概念为人所熟知,“大数据时代”这一说法也得到了广泛认可。据统计,2012年大数据的市场规模达到4.5亿元,2013年还将持续发酵,未来三年内有望突破40亿元,2016年大数据产业有望达到百亿规模。面对扑面而来的大数据浪潮应该如何应对?记者采访了同方股份有限公司物联网应用产业本部大数据产业研发与工程中心数据资源工程事业部副总经理郭子龙,他认为大数据是把双刃剑,首先带来的是“大麻烦”——可谓数据越多麻烦越大,同时大数据也拥有“大价值”——必须找到一个解决问题的好方法,才能处理好海量数据带来的麻烦,并将其转化为价值。

如何将大数据从“大麻烦”变成“大价值”?

大数据时代已经到来,我们应该如何面对,是选择主动出击,还是选择被动承受?郭子龙笑谈,“不论你如何选择,都不会延缓更无法阻挡大数据的来临!”主动出击无疑是当前的上乘选择。那么如何去解决大数据带来的“大麻烦”,将数据真正转变为一个新的价值增长点呢?

转变认识,确立“数据极”的地位

传统的信息化离不开业务和技术,其建设过程可以粗略理解为从业务需求到技术实现的转化,而数据在其中要么依附于业务,要么依附于技术。而大数据现象的出现,将打破现有格局,依靠原有的业务和技术去应对大数据已经不够,需要新的方法和手段,这为信息化发展提供了一个全新的方向,郭子龙形象的将其称之为“数据极”——数据一旦摆脱了现有的条条框框,发展将不可限量。

大数据浪潮赋予了“数据极”无限的发展空间,而“数据极”也必将成为企业突破现有瓶颈的关键,同方的理念是将数据作为“战略资源”,使其独立存在、自成体系,同时数据的发展不受业务、技术制约。

同方股份有限公司物联网应用产业本部大数据产业研发与工程中心数据资源工程事业部副总经理郭子龙

建立数据的标准框架 收纳大数据

大数据来了,你可以忽略你拥有的数据,但绝对不能分析你没有的数据,要将数据当成一种“战略资源”来看待,所以我们首先要想一想怎么把大数据收集起来,形象地说就是我们需要一个数据容器把这些大数据集中的存放起来。如何去构建大数据容器?怎么装进去?郭子龙认为,建好数据容器的标准框架能够更好地去收纳大数据,同方多年来都在和数据打交道,做的就是搭建数据框架这件事,称之为“数据资源体系”。搭建数据的标准框架,就好比一个中药铺,可以将当归、牛黄、熊胆、远志等中草药分门别类的存放,既整齐也方便寻找,这已经很好了,但还不够,还需要知道药材的药理、药性,如何按不同剂量进行搭配,形成一张张药方去救治不同的病症。同方的数据资源体系能够将大数据有条理的组织起来并建立起数据之间的关联关系。在大数据环境中,数据之间的轻度相关性要远远多于直接因果关系,将这些轻度相关性累加起来就变得举足轻重,这是大数据应用的一个根本特征。当然,大数据在信息化方面也有自己的特点,我们不必过多的去考虑容量问题,而是应该把重点放在如何更好地把数据装起来,每当用到相应的数据时可以方便地进行数据调用。

另外,我们需要把每一份数据都描述清楚,可以从技术、业务等多个角度去描述,同方的做法是用元数据去描述数据,元数据是技术术语,即描述数据的数据,而元数据体系是以元数据的形式实现了规范化、体系化的数据描述标准,可以将每一笔数据都变得可读。

按照数据的第一性原理做好数据集成

收纳好大数据,还需要做数据集成工作。之前信息化主要关注的是系统集成或业务集成,近几年则更多关注数据集成。不论是系统还是业务,相对于数据都是处于应用或展现层面,而数据集成则是在最底层,更为趋近于事务本源,从这一方面理解数据集成更优于系统集成和业务集成。

那么数据集成依托于什么来做集成呢?郭子龙表示,同方依托指标体系在做数据集成时,充分利用了顶层设计方法并遵循第一性原理,从核心目标开始自顶向下逐层分解,同时更重视事实,而不是根据经验做假设,从数据自身的根本和源头去做集成,避免方向性迷失。数据一旦被集成存储到数据库中,就成为了一种可以被无限的重复利用的资源,使数据更能发挥它的价值。

强化数据应用 重点关注核心问题

收纳大数据和数据集成都不是最终目的,大数据的重点是数据应用。数据应用有很多种,传统的应用如数据挖掘、数据仓库等,数据挖掘最让人印象深刻的例子就是啤酒与尿布,却很难想到更多典型案例。郭子龙认为,“数据挖掘往往会将我们引入一个歧途,更多的去注重发现隐藏的关系,也就是不确定性问题,反而忽略了更为重要的确定性问题或主要矛盾。我们应该把目光聚焦在核心问题上,而不是舍本逐末的仅仅关注一些边缘化的问题,千万不要丢了西瓜去捡芝麻。”换句话说,数据应用无处不在,我们应该充分考虑人与计算机在处理能力上的差异性,关注事物的主要矛盾,充分考虑在海量化的各类数据中,我们应该更关注哪些数据。

做好数据容器、数据集成和数据应用这三步,可以帮助政府和企业积极应对大数据浪潮。同方基于自身多年从事数据业务对数据的理解,以及大数据的自身特点,构建了一整套具有自主知识产权的数据资源体系,该体系独立于行业、独立于业务,把数据和我们的业务、系统及功能模块分离开来,成为能够无限发展的“数据极”,让数据能够更好的被使用,从而发挥数据的最大价值。