张戈 发表于:14年08月29日 15:00 [来稿] DOIT.com.cn
我们看到的大数据,远没有听到的那么清晰。我们听到的大数据似乎无所不能,但我们看到的大数据似乎又混沌不清。
大数据的三“V”特征
Gartner数据中心首席分析师张瑾长期关注大数据产业发展,其认为,现阶段大数据呈现出三“V”特点:
其一,Volume,数据海量化。过去两年中所产生的数据量占到人类有史以来所积累的数据总量的90%,现在每秒钟有500万笔交易发生,每天有5亿个通话记录产生。
其二,VelocITy,分析实时性。越来越多的用户认为,大数据还不够快,这里所指的大数据速度,并不是传输速度,而是分析处理速度。张瑾认为,数据从挖掘,到分析,再到产生支持决策的结果,这个过程还是略显缓慢。之前的数据挖掘,大多是基于对历史数据的分析,找到趋势,并预测未来,但现在越来越多的用户更在乎数据的实时分析。“但实时大数据分析,要达到传统趋势性分析同样的水平,还要经历一个过程,一个数学分析模型建立的过程。当针对所有突发性事件都已积累起分析模型时,其效率自然将得到提升。”
其三,Variety,数据多样性。一方面数据结构趋于多样性,以微信为例,无法预知被分析数据是文本,还是语音、或是图片、视频,但可以肯定的是,非结构性数据所占比例越来越高。另一方面,数据来源多样性,传统数据分析,被分析数据来自企业自身,所有权没有任何疑议,但目前被分析数据可能来自多个渠道,也许是微博、微信,也可能是淘宝中的交易数据。数据来源多样性可能产生一系列问题,例如是否侵权,或对原有道德标准也会形成挑战等。
产业链待完善
综上所述,大数据似乎相当清晰,必须符合三“V”特征,但实际情况是,现代诸多IT厂商提出了诸多大数据产品,其中既有基于Hadoop平台的开源解决方案,也有SAP、甲骨文推出的大数据一体机,“我们甚至不能将所有解决方案进行分类,因为大多数方案还没有实现市场化。” 张瑾说:“市场中可能出现各种各样的解决方案,他们声称可以解决各种各样的问题,但实际上市场仍处于混沌状态,用户不清楚自己的问题,也不清楚大数据究竟能解决哪些问题。甚至用户已经知道可以应用何种技术解决大数据问题,但找不到供应商,以及合适的软件版本。即使以上问题,都能得到解决,用户也找不到合适的服务商,提供合适的数学分析模型,提供产品集成,用户自己也没有人才储备,维护系统正常运转。”
可以看出,在大数据产业链中几乎每个环节都有缺失。大数据在互联网公司的应用已经证明了其在技术上的价值,但大数据的生态系统面临的问题是,如何将一个开源的技术,转化为一套能够创造价值的解决方案。
挑战一:最流行的大数据技术大多基于开源软件,开源技术首先考虑的是产品是否够“酷”,而不是产品是否有足够的商用化程度,甚至可以说,有些产品并不完全符合商用标准。例如安全性,Hadoop的安全性设计就相当简单,从任何角度考量,都不符合商用标准。因此,用户在接受开源技术方面总是心有余悸,但也要看到,现在越来越多的IT巨头企业,例如英特尔的介入,必将加入大数据商业化进程。
挑战二,服务商缺乏。要将开源的产品转变成能够落地的解决方案,一方面是产品本身的定制化,另一方面是将产品集成为解决方案。以传统产业链来看,此部分工作应该由集成商完成,但目前,在大数据领域,还没有集成商能完全胜任类似的工作。
“现在市场中所谓的大数据产品,只是获多或少地具有大数据某一方面的特征。当然,在一个解决方案中,用户也不一定要求一个产品具备所有大数据特征,例如,在股票买卖系统中,用户的首要诉求是处理速度快,而不是对海量信息的存储。这就要求集成商在了解产品的同时了解用户需求,但实际情况是,我们不缺乏产品,而是缺乏能将产品组合成解决方案的集成商,也缺乏能将优秀产品应用到最合适的应用场景的集成商。” 张瑾还指出:“大数据更关键一环是搭建数学分析模型,这项工作由谁来完成,是用户、厂商,还是集成商,似乎现在还没有定论,能做此工作的公司还是凤毛麟角凤。”
赚钱的大数据
想了解大数据产业链的完善程度,可以进行一个有意思的对比,张瑾认为,大数据目前的状态相当于三年前的云计算水平。目前业内对大数据的炒作甚至要超出当年的云计算。
从推动大数据发展的动力看,大数据与云计算也有明显的差异,云计算的推进是自下而上,由CIO推动,最终需要CEO拍板执行,而大数据是自上而下,首先关注大数据的企业CEO。因为云计算可以帮助CIO省钱,而大数据是告诉CEO如何赚钱。
正因如此,大数据的推进可能就具有更多的盲目性,或说缺少系统的规划。“用户不确定衡量大数据项目成功的标准是什么?甚至有些项目还停留在尽力而为的程度。”张瑾认为:“中国最成功的大数据应用一定首先出现在金融、电信、互联网。” 金融企业可以根据用户在商城中的第一笔消费,而迅速推送周边商户的促销打折信息,而运营商企业可以根据用户的通话和上网流量数据,推送最适合的套餐组合。
但实际情况是,国内成功的大数据案例还屈指可数。曾经有一个著名的失败案例,国内某知名电器销售企业CEO对大数据相当感兴趣,内部强力推动,CIO邀请诸多IT厂商前来应标,需求只有一个——“我们要上大数据,但具体方案由你们提。”类似如此,需求不明确的项目,失败本应就在情理之中。 “大数据有可能是一个5万元的项目,也可能是一个5亿元的项目,成功的大数据项目必须有明确的建设目标,并且用户需有将目标逐一进行分解的能力。” 张瑾说。
购逻辑的改变
还有一点需要注意,在传统IT系统建设中,只要用户能提出明确的需求,自然有人来应标,但在“大数据”系统建设中,用户必须自己充当自己的集成商,其采购逻辑在改变。用户也希望有方案商来协助他来完成这项工作,但问题是没有。
国内传统方案商大多经历了从产品代理,到系统集成,再到解决方案提供的发展过程,因此他们的知识基础多是来源于厂商,他们熟悉IBM的服务器、甲骨文的数据库、思科的网络设备,对IT厂商的技术亦步亦趋,而系统建设流程也是,用户听集成商“忽悠”,集成商听厂商“忽悠“。
但SDN的出现,可能会使CCIE文凭变得一文不值。同样,大数据的出现,方案商也必须更加关注开源系统,到2016年,至少50%的中国大型企业将部署Hadoop平台,在开源系统方面,没人会教你,没人会给你免费培训,方案商的业务实施能力和竞争力,完全取决于其自我的学习能力。
也就是说,未来可能会出现这样一类方案商,完全不依附于某一厂商,甚至他们与IT厂商之间会形成竞争关系,因为他们为用户提供基于开源系统的解决方案。而一旦此类方案商形成竞争力,硬件设备的品牌似乎也不那么重要,白牌机的生意也许会更好。
“当然,企业采购模式也将出现改变,开源软件能否进入企业采购名录,而且企业对开源软件是否有足够的容忍度,是否能够允许小范围的失败。”还有一点需求注意,既然越来越多的项目开始基于开源软件平台,因此企业的IT人才结构也将发生改变,“CIO们将会需要越来越多的掌握Hadoop、OpenStack技术的人才,而IT工程师不能只懂得IBM、思科。”同时,张瑾说:“当然,企业也可以不必自己做人才储备,而可以通过云服务模式租用大数据服务,美国亚马逊已经开始提供类似服务。”