斯诺登带来的启发,不仅仅在于信息安全和自主可控的重要性,还包括如何避免大数据项目的一些误区。
斯诺登最新的爆料涉及911和NSA(美国国家安全局)的监控手段。据央视日前报道,斯诺登称,美国在911事件发生前已获得必要的情报信息,CIA(中情局)也都知道恐怖分子是谁,但在所有搜集到的海量机密信息中,他们没能完全理解信息之间的关联,以致没能及时做出决策性判断,有效的措施也就更无从说起了。
NSA的新信息来自《纽约时报》的报道。除了收集电话元数据和邮件通讯内容,NSA每天还收集数百万张图像,建造一个大型数据库以便更好地追踪和识别目标人物,斯诺登说,其中约5.5万张具备“面部识别质量”。
通过上述信息,无论从“4V(Volume、Velocity、Variety、Value)”的哪个角度来看,美国情报部门所做的事情都应该算得上是“大数据”项目。事实上,受斯诺登事件影响而卸任的原NSA局长、美军网络司令部司令、四星上将Gen. Keith Alexander(基思·亚历山大)曾表示,未来属于大数据。
明确价值点
“我们生活在大数据的时代,我们必须弄清楚如何利用它。”Alexander说。NSA在他主政长达8年多的时间里,所收集的海量信息甚至令该机构的诸多前高管感到难以置信。据悉,Alexander引入了大数据解决方案为NSA加速数据的分类和处理,其中一款名为“Apache Accumulo”的工具可以处理PB级数据。
结果,尽管Alexander辩护称棱镜项目在反恐工作中发挥了作用,但不管CIA还是NSA,911这样本来可以预防的重大恐怖袭击事件毕竟还是发生了。所以说,斯诺登的爆料,再次验证了Value(价值)才是大数据的核心。组织如果要实施大数据项目,价值最大化一定是评估项目的第一要素。
按照斯诺登的说法,美国投入大量资金的监控项目并没能保证美国公民的安全,反而剥夺了人们的权利。这可能是是斯诺登和Alexander对价值的理解有差异。信奉数据的人,不便以阴谋论去推测Alexander和NSA的具体用意,但监控百余名外国领导人这样的行动,确实似乎和美国公民安全没有直接的联系,更不用说未经授权监控美国公民了。
我们能够得到两点启示:资源要用到刀刃上,否则大数据也会成为废数据或者大浪费——毕竟,数据的收集和存储需要人力、财力、时间和IT基础设施的投入,甚至还可能有组织架构的调整;更为重要的是,你要弄清楚刀刃在哪里,也就是说实施大数据要树立正确的目标。
相信奉行利益最大化的现代企业一定能想到大数据要追求大价值,迷茫的更多在于刀刃在哪里。这可以参考互联网公司,在大数据概念走红之前,压榨数据的潜能作为企业核心竞争力就已经是他们的信条。例如,百度和谷歌借助用户浏览行为提供个性化的搜索,淘宝亚马逊因为根据用户购物习惯为用户提供精准的喜好物品。学习互联网企业,从营销入手,更快速地定位到你的客户,或者更好地理解和响应客户的需求,改善产品的用户体验,是一个不错的切入点,相对易于实施和见效。
另外,从此前报道的“CIA每年花费千万美元向电信运营商AT&T公司购买国际电话数据”来看,神秘的NSA,尽管对通讯的监控很到位,但其数据库并不能为CIA的同行所用,而后者出于业务需求,也建设有自己的大数据。这种数据壁垒的现象,无疑会带来重复建设的问题,资源浪费严重,无法做到将资源用到刀刃上。随着IT的发展逐步推进的信息化,烟囱式的系统带来的数据孤岛已是现实,如果要更好地发挥数据的价值,是时候考虑数据集中、云平台的建设或者利用了。
当然,如果实现数据的共享,NSA的保密性就要差很多,普通的项目,还可能涉及奥巴马的智囊团最近提醒白宫的大数据隐私问题(在NSA和CIA面前应当可以无视隐私了)。但在一个企业组织内部,如果没有必要,故意设置数据壁垒,是不利于大数据价值的发挥的。
关注分析而非数据量
更重要的一点,CIA未能提前预防911,是因为不能完全理解信息之间的关联。但维克托·迈尔-舍恩伯格早已指出,大数据的相关关系分析法,更准确,更快,而且不易受偏见的影响。换言之,建立在相关关系基础上的预测应该是大数据的核心,这种预测更加靠谱。对于911事件而言,尽管大数据工具足够给力,但Alexander和他的同行在关联性分析方面还做得不够。殷鉴不远,我们就更要根据关联性来收集数据并分析,提升大数据的价值。
和整个业界产生的数据量相比,有选择地收集的数据、甚至只是利用已有的数据可能还太小,但不必懊丧,我们要的是数据的价值,没必要纠结是不是大数据,也没必要为满足占有欲望而保有数据(当然合规性需求不在此列)。
JMP数据分析大中华地区总经理严雪林就对大数据的概念不甚热心。在他看来,数据分析的本质是用来改善运营的,大小数据分析的差别只是数据量及其对数据存储、查询及分析吞吐量的要求不同;从手头、身边保有的小数据当中提取价值,是大数据时代数字化决策的基础。
所以说,分析才是数据实现价值的保障。其实,上述CIA不能理解关联性,也是业务分析技能不足的一种表现。但严雪林从Google的搜索结果分析得出结论,中国用户对大数据看得太重,对分析看得太轻。
当然,也有一些务实的企业,譬如百度,注重数据分析结果的呈现,年初基于LBS利用的“春运大数据”就是代表之作,而其开放的大数据引擎,提供的也是大数据存储、分析及挖掘的技术能力,至于其后端的分布式基础设施,用户就无需了解太多。
高大上的IT基础设施提供商或者分析解决方案提供商,是不太愿意承认春运大数据是真正的大数据的——它虽然容易为民众接受,但确实也和我们早前的认知有所差距。可是对于社会管理、生活服务商或者个人生活安排来说,这种展现自有其价值。
中国气象局与阿里云的携手是另外一个例子。借助于阿里云基础设施的计算能力,气象局在全国雷达数据的处理即使再快速,天气预报再精确,似乎也只是“数据大”而非大数据,但气象数据和阿里积累的商业数据交汇融合之后形成的服务,其对各行各业的价值之大显然是不可估量的。
更加务实的是教育行业。在日前第六届中国云计算大会的云计算大数据教育行业应用论坛,来自清华、国防科大、北航等名校的专家教授们就MOOC(大型开放式网络课程)的发展趋势进行热烈的讨论,他们认为MOOC是当前云计算大数据在教育领域的最佳实践,并提出了计算教育学的概念——通过对教育全过程的大数据进行精确分析,把以定性研究为主体、以经验为基础的教育学,转变为以数据为基础、以计算和模型为手段的定量科学。
不过,在他们的探讨中,MOOC目前也只是比传统方式多了简单的统计,甚至没有涉及数据分析技术的应用。一般而言,教授们对概念抠的比企业要细得多,但他们都已经接受了这就是大数据。这再次证明价值才是根本。