2012年11月16日至17日,由《IT经理世界》主办的2012中国技术商业领袖峰会在北京举行。用友华表首席架构师华秀章应主办方邀请,参与了“云上的大数据”主题讨论,与大数据和云计算领域的技术大佬一起分享对大数据的看法。
本次讨论主题包括,何为大数据?大数据是否是谎言?大数据的4V对企业而言哪个最迫切?如何看待大数据的隐私?“小马过河”、“蓝蓝的天上白云飘,白云(云计算)上面大数据跑”,华秀章形象的表述了他对大数据的看法:大数据不可一概而论,大数据的落地更要根据不同的企业性质和当前需求来判断,让大数据落地因地制宜,分层深入。
用友华表华秀章认为,大数据发展可分为三个阶段。第一阶段,大数据的存储。这一阶段做得已经很好了,Hadoop的HDFS等分布式文件系统很好地解决了大数据的存储问题;第二阶段,大数据的计算。这一阶段将大数据与云计算联系起来,可套用一句歌词形象表达二者关系:“蓝蓝的天上白云飘,白云(云计算)上面大数据跑”。如果只是大数据的存储,不需要云计算。但要让大数据“跑”起来,实现大数据计算,则需要云计算这样超强的、弹性的、廉价的计算能力,毕竟Hadoop的MapReduce动辄几十上百个节点及配套设施的投入,不是一般企业能承受得了的;第三阶段,大数据的价值。这是大数据发展的最高阶段,“大数据大价值”,从大数据中挖掘出企业经营知识,支持企业精准决策。这就是数据挖掘等BI工具的作用,但传统BI工具难以胜任大数据的挖掘、分析工作,需要一些新的技术与手段,需要BI for Big Data。
有人预言,未来数据可能取代石油,成为全球最大的交易商品。面对大数据,企业的看法不一,甚至出现大数据是谎言的说法,认为大数据并没有传说中那么强大。其实大数据的体量大小、价值大小,不可一概而论。用友华表华秀章认为,大数据是否谎言,要看具体对象,如同“小马过河”,说水深水浅需因“人”而异,不加区分一概而论有时就会演变为谎言。对于互联网公司、电商,大数据绝非谎言,大量的用户行为数据,让数据急剧膨胀到PB级。而对传统企业,他们绝大部分还没有到达“企业2.0”,没有企业SNS,没有移动应用,哪来那么多数据?倒来倒去都超不过1TB。对他们谈PB级大数据,就是谎言。
在企业做好迎接大数据的准备时,大数据如何落地成为他们思考的问题。大数据有四个V,容量、类型、价值、速度。由于大数据涵盖的内容很多,业务场景十分丰富,企业落地大数据,要根据业务需求确定实施优先级,不能期望一步到位,因此企业对这四个V的需求重要性也有所不同。
用友华表华秀章认为,对于传统企业,容量的重要性可排第一也可排第四,要看如何定义“Volume”这个“V”的标准。如果统一按“PB”定义量大,则对传统企业就不太重要,至少现阶段不太重要,应排第四,因为他们的数据体量离“PB”还差很远。但是,与互联网公司、电商不同,传统企业的数据以结构化数据为主,如财务数据、生产数据、供应链数据等,这些数据蕴含丰富的业务关系、结构非常复杂,相同数据量的计算量比图片、日志等非结构化或半结构化数据要大很多。所以,传统企业的10TB数据量,其需要的计算资源、处理的复杂度等并不亚于互联网公司的1PB。因此,对传统企业,衡量“量大”的标准如果相应调整为“TB”,那么,“容量”对传统企业的重要性也是排第一的。
第二,应该是价值,因为随着企业信息化的发展,数据有了一定积累,虽未达TB级、PB级,但也是可以挖掘出很多价值的,对企业决策产生积极影响。这是很多企业非常迫切需要的,是他们上BI的原因。
第三,是速度。传统数据仓库的“T+1”模式,越来越难以让企业用户接受,他们对实时或准实时决策的期望越来越大。
最后一个是多样性。中国的企业,目前很多都还没有达到 “企业2.0”,没有企业SNS,图片、音频等类型数据并不是很多,数据相对而言没有那么“多样性”。但假以时日,他们终将迎来“企业2.0”,移动应用也越来越普及,数据的多样性问题也会越来越重要,未来企业需要一种能融化结构化、半结构化、非结构化数据的技术或产品。
我们说大数据必须有云计算才能跑起来,这在于大数据的运算需要强大的计算能力。当然也有人担心把数据放到云上,它的安全性、隐私性如何保证?数据挖掘的边界在哪里?用友华表华秀章对于这个问题给出来自己的见解。他认为数据安全是衡量云平台是否适合作为企业云平台的首要因素,必须有一个分级的数据安全模型。象上市公司对外披露的数据,可公开随便挖掘;但象财务状况等一些对企业非常敏感的数据,必须放在一个安全度极高的“沙箱”中,对其访问要严格局限在企业内。