伴随着智能手机、视频、社交网络、微博等新型沟通工具源源不断地产生海量的非结构性数据,企业不得不面对大数据爆炸带来的难题。据IDC预测,未来十年全球大数据将增加50倍。而仅在2011年,全球就产生了1.8ZB(也即1.8万亿GB)的大数据。毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算、数据仓库、数据挖掘、商业智能等应用的连锁反应。
大数据引发三重挑战
具体到企业而言,其面临的最直接的挑战就是企业的基础架构是否适应大数据管理和分析的需要,尤其是一旦要从大数据中查找或者分析出有价值的信息,那大数据的处理效率就成为了关键。而即使是传统的结构化数据,其对处理速度的要求也越来越高。以银行业为例,伴随着银行网点、ATM机的多点布局,再加上越来越多的新兴业务转移到互联网上,使得银行不得不面对无时无刻无处不在的数据处理响应需求。
影响数据处理速度的因素很多,归结起来主要有计算、存储和网络三大方面的因素。计算依靠服务器来实现,其CPU的主频、内存的容量和I/O带宽,都会影响到运算速度。尤其是服务器整体表现出来的性能,将会是影响大数据处理的关键因素。此外,有些企业喜欢采用x86集群或者分布式计算来对大数据进行处理,但是各个计算节点间的调用和处理器使用效率,亦成为影响数据处理快慢的因素。
存储方面,传统的存储系统已经成为数据库处理的瓶颈,这些制约因素包括存储系统到数据库的带宽限制、存储阵列的内部瓶颈等。数据带宽已经严重地限制了数据库的性能,而随机I/O的瓶颈限制了OLTP(联机事务处理)应用的性能。网络带宽涵盖了服务器和存储系统间的带宽、终端和主机间的带宽。假如采用集群或分布式系统,还需要考虑节点之间的带宽。
大型数据库开启效率之旅
除了上述三个因素外,许多企业基于历史发展的原因,还会创建多个数据库。它们经常采用不同的平台,使用不同的软件,造成了数据处理和管理效率的低下。
这些数据库通常包含与其它数据库相重复的数据。一个数据库一般不会将另一个数据库作为数据源。这样就会消耗额外的磁盘存储,增加重复数据迁移所需要的网络带宽,也会因从多个数据存储获取相同数据的需要而额外增加服务器CPU处理的负荷。
同时,假如企业拥有多个数据库的话,那么他们通常会将它们部署在不同的平台上,针对不同的硬件平台采用不同的维护方法。这样需要维护不同品牌和模型的服务器数量越多,成本就越高。如果是关键任务服务器,那么提供冗余性的硬件就会重复,这也会增加额外的成本。
此外,企业还不得不面对运营效率低下的问题。假如在多个服务器上运行多个数据库系统,那么有一些运营成本需要考虑,包括培训多个系统的人员、监控多个系统、修复多个平台的故障、修补和更新多个系统。而在统一的操作系统和硬件平台上运行一个系统会更简单一些,成本也更低。另外,监控和故障修复也更加简单。
在一些情况中,数据规模直接决定了系统规模。大容量数据需要组织起来进行处理才会产生价值。如果将整个企业的信息整合为一个统一且安全的整体,那么许多企业都将获益更多。因而虽然单个大型数据库系统的初始成本高于一般数据库,但是对于长期运营而言,更加划算。而且单个数据库系统可以根据当前需求调整规模,在有需要时增加容量,从而使整个系统处于高效率的运行状态。
内存计算化繁为简
值得一提的是,近年来许多数据库厂商大力发展的内存计算技术,同样对数据处理速度的提升起到了很大的作用。
内存计算的主要用途之一是庞大的数据集的实时操作。在传统的数据库中,数据存在硬盘上。数据和服务器的CPU,通过有线连接,所以数据要到达的“桌面”是缓慢和遥远的,当需要十亿字节或者艾字节的数据时,数据库性能缓慢的主要原因之一是数据存取的时间过长,不能以足够快的速度到达所需要的地方。
在内存计算中,数据就存储在CPU的旁边,可以瞬间到达。这意味着数百GB的数据分析,报告和预测需要几秒钟内就可以完成,而不是几小时。
行业掘金性能为王
大型数据库和内存计算分别在应用模式和技术上为提升大数据的处理效率作好了准备,但无论是大型数据库还是内存计算,都需要服务器主机具有强大的计算能力、大容量的内存和足够的存储空间,并且将这三者集于一身。而归根结底,就是服务器主机必须具备强大的性能,才能满足高效处理大数据的需要。
结合电信、金融等行业的应用发展,伴随着这些行业的数据向省级集中,更大容量的数据库和更高性能的服务器主机,成为应对大规模用户集中访问数据的基础。
以电信行业为例,电信核心业务平台不仅包含了计费、网管、营业、财务以及外部CRM和其它系统,而且还需要在此基础上完成数据的抽取、清洗和转换,从而在数据仓库的基础上建立商业智能平台,为客户管理管理系统、决策支持系统等系统提供支撑。所有这一切要求核心业务平台必须有一个强大的基础设施平台作为支撑,确保电信的所有业务系统都能够在一个安全、稳定、高效的环境下顺畅运行。
在银行业,数据大集中早在多年前就已经开始实施了。然而,由于银行业利用IT基础设施服务业务发展起步较早,这也造成了部分核心业务系统版本多、需要不同开放和升级的弊端。中国银行作为领先的大型商业银行,早就意识到了这些问题。2011年10月,中国银行核心业务系统全辖上线,为2006年正式启动的IT蓝图实施工程画上圆满句号。
在IT蓝图项目启动之前,中国银行的信息科技建设已经难以满足业务的快速发展。一个集中的表现就是核心业务系统不统一,有6个不同的版本,同时数据集中度不高,旧的核心业务系统分布在华北、华东、华南、西北、西南五个区域信息中心。
IT蓝图项目实施后,中国银行信息中心将直接为34家一级分行、1万多家网点提供运维服务,实现了全行核心业务系统的统一,完成了数据集中,为经营管理分析奠定了坚实的数据基础,同时实现从柜员到客户,从交易到账户等多维度、全方位的控制。而掌控这些的“大脑”则是数据中心里高性能、高效率运转的大型服务器。
其实,无论是金融、电信还是其它行业,要让数据发挥更好的作用,或者通过数据挖掘更好地为企业的经营决策提供依据,将数据集中管理已经是必然的趋势。而最终能否实现目标,一方面要前期进行充分的调研和规划,另一方面离不开大型服务器的在幕后提供更快更强的计算能力。