最近,《国家大数据标准将出台,企业建设大数据之路如何走?》一文在我的朋友圈里流传。
据说是我的朋友的朋友写的。
文中观点,比如“顶层设计”、“数据标准应该只管理核心数据定义”、“数据标准要持续更新”等,我很赞成。不过,这不是“大”数据标准,还只是常规的数据标准。
我尊重朋友,也尊重朋友的朋友,但我要表达不同意见。
我认为,表达我的真实意见,坦诚相见,不论这个意见是否支持他的观点,这都是对朋友、对事业最大的尊重。
如有冒犯,也请海涵吧。
这几句话我前几天给旭东的新书写序时说过了,今天也适用。
我的观点仅代表个人,希望大家批评指正。
如果你也想尊重我和我们共同的事业与梦想,那就请你说真话,特别欢迎不同意见!砖头多了才能盖大房子。
先谢谢大家!
我认为:
(1)大数据不宜像常规数据那样制定严苛的标准,大数据的标准也不等于常规的数据标准。
(2)大数据的标准应更跳得更高一些,更外围一些,更虚一些,要更侧重于语义层面,不要太多干涉具体内容。大数据标准宜“巨”不宜“细”。
(3)大数据标准不是要制定出来,而是要自组织出来。
现在的大数据,可以说是数据层面的因特网。
因特网是组织+自组织起来的,我们应该借鉴。
我们回顾一下因特网的历史。看看什么是组织+自组织。
借鉴一下因特网成功的经验,可用于今天的大数据。
因特网主要是依靠自组织出来的,当然组织力也发挥了重要作用,但那是在自组织之后。也就是说,要先有自组织,再有组织。
在ARPANET阶段,只是几个大学网络互连,协议也比较简单,可以说这是自组织、自标准阶段。只是几个科学家的自组织、自标准。
这就像雨滴的形成过程:云中的几个水分子先自组织地结合成一个小水团(系统的涨落),这个小团比单个的水分子具有更大一点的引力。这就是雨滴系统的吸引子。
这个小水团有两种命运:
一是被重新撕碎,解体了。
二是,挺住了,并以其微弱的引力优势吸引其他水分子向它聚集。
这是一种正反馈 —— 体积越来越大,引力也越来越大,再促进体积增大。正反馈循环。
最后,大到一定程度,落了下来。
这就是雨滴。
雨滴的自组织,ARPANET和这个差不多。
两所大学的成功联网就如同两个水分子结合了,形成了系统吸引子。
ARPANET拥有了相对优势的吸引力,因特网的系统吸引子诞生了。
有了吸引子,其他计算机和网络就向它聚拢,ARPANET得以逐渐长大,初步具备系统规模。
这时,关于IP、域名等标准出来了,完善了。TCP/IP成熟了,成为事实标准,干掉了竞争者,也彻底干掉了ISO-OSI 7层协议。
如果,一开始就要求以ISO-OSI 7层协议为标准,TCP/IP可能就不会有了,也可能到现在因特网也建不成。
我们再来看今天的大数据。
大数据的价值丰度低,体量大,边际成本也非常低。这就要求大数据要在流动共享中发挥其价值。所以,说大数据是数据层面的因特网,也就是指要动起来。
当前,大数据的ARPANET还没有出现,大数据还基本处于混沌状态。虽然些许的局部有序也存在,系统的涨落时刻不停,但还没形成强有力的系统吸引子。
我们当前应该做的是,促进这个吸引子的形成。
然后再去想怎么规范。
为此,我们应该采取的策略是搞热闹它,加催化剂,创造条件,可以引导,但不要直接上手,不要给它定框子。
我想起了四川火锅。
火锅中的格子使得火锅更有序了,但阻碍了它的创造性。
北方的蒙古火锅没有格子,四川的火锅一开始也应该没有格子,是有人创造性地、自组织地用了格子,后来被大家认可而成为标准了。也形成了四川火锅,这是个较为固定的形式。
除了四川火锅,基于最早的蒙古火锅又形成了无数的形式。
火锅之所以有那么多花样,就是因为没有太多限制,比较自组织。
正是这不太严格的标准,火锅一族才这么壮大。
大数据,更像火锅,而不太像比较规范的佛跳墙。
佛跳墙当然好,可是太贵了,规模上“大”不起来,只能“小”。
写这个帖子的同时,我和袁满教授、胡德平总、石玉琢总等在智能数字油田开放论坛里讨论这个话题。
袁教授说,大数据标准要重点关注语义标准,要普适。我很同意。
语义标准也不要给它太多限定,要先让它们自组织地产生、成长,让它们去PK,最后我们选优推进完善形成标准。
这个标准要简洁高效,要只关注最核心的部分。
我们搞标准的都知道,标准总是落后于现实,我们感觉到无奈。
其实,我们不应该报这样的态度。
可以说,标准落后于现实,就是实事求是的,是正常的,甚至是“正确”的!
也只有这样,才给了自组织以机会,才更客观,才使得基于自组织而组织起来的标准更有生命力。
今天的大数据标准,也一样。
过去,对待常规标准,我们已经处于疲于应付的局面。
今天,大数据,继续老套路弄标准,会让我们根本就束手无策!
只有让自组织力发挥作用,让标准自然生成,自然成长,我们去优选优化,才有出路。
为大数据“制定”标准,是我们过于自信了,是在冒充上帝,是对神的“僭越”,是对大数据的“强奸”。
领导们,专家们,对于大数据,还是先 let it go 吧,合适时机再来规范它吧,不要把孩子管傻了,甚至管死了。
对待大数据,必须要有大系统观!
总之,对大数据标准,我反对“制定”,支持“引导”。
那么,我们应该干什么呢?
可以制定一些有促进作用的宏观上的规则、协议, 比如大数据价值计量规则、大数据产权交易与共享协议、安全规则、激励政策、引导加速策略、比较统一的工具、描述语言与规范,等等。
反正不能定义大数据模型结构什么的。
我看连大数据的定义也不必太较真。
请大家批评指正!
作者:大庆油田信息中心副主任王权
数字油田概念的主要提出者、理论奠基人和积极实践者。多年来一直活跃在油田信息化领域,对油田企业信息化建设都丰富的经验和深邃独到的见解。主持过大庆油田A1、DQMDS等多个大型信息化建设项目,提出和完善了自标准数据、大系统观等创新理念。