形式多样:大数据来袭是机遇还是挑战?

大数据已经成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。据市场研究公司IDC统计,未来10年里预计数字信息总量将在2009 年到2020年期间增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。与此同时,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。一项由UnisphereResearch对531名独立Oracle用户进行的调查发现,百分之九十的企业的数据量在迅速上涨,其中16%的企业每年的增长率达到50%或更高。不少企业已经感受到失控数据增长对绩效造成的冲击,其中发现87%的受访者将企业的应用程序性能问题归咎于不断增长的数据量。

有专家认为,大数据的推动因素主要是来自一些特大型公司,如谷歌、Youtube等。这些公司需要以非常优化的方式分析数据和让计算与存储配合工作。另外,一些来自健康医疗、地理空间影像和数字媒体等行业的各种大数据,很显然,这些数据到不一定有多大,但是处理这些数据集通常要分配到几个系统耗费超过24个小时的时间才能完成。

IT巨头纷纷涉足大数据

事实上全球互联网巨头(EMC、惠普、IBM、微软)都已经意识到“大数据”时代的到来,数据的重要意义,这些IT巨头们都纷纷通过收购“大数据”的相关厂商来进行技术的整合,可见对“大数据”的重视程度。

EMC公司全球高级副总裁、大中华区总裁叶成辉在接受记者采访时表示:大数据目前没有统一的定义。通常认为,它是海量的非结构化数据,其特点是数据量很大,数据的形式多样化。

大数据时代即将来临

ESG中国区总经理兼高级分析师王丛表示,大数据这一领域将会有一些新技术推出,在未来1-2年内,预计会不断涌现能处理大型非结构化数据的技术。王丛认为,目前北美厂商仍走在全球的前列,而中国国内的厂商目前仍主要在考虑怎么样生产存储和硬件设备,而没有考虑到全面的解决方案。EMC、IBM收购这些公司的目的是整合整个解决方案,让它在IT上是透明的,进一步靠近存储、靠近数据。

对于大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。IDC的数据库管理分析师CarlOlofson认为,这三大因素的结合便催生了大数据。

Gartner曾经有报告指出,有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。