当下,围绕大数据开展的研讨与座谈数不胜数,但似乎很少有人会把关注焦点放在支持大数据所必需的基础设施身上——这一点在实际应用层面甚至尤为明显。
对于大多数企业而言,大数据意味着为长年维护且尘封已久的数据仓库配备一道访问的大门。数据仓库过去一直是、未来也将仍然是企业级机构所不可或缺的关键性组成部分。
这类系统的作用是将企业方方面面产生的数据汇聚起来,然后分门别类加以划分,最终让这些纷繁复杂的信息成为业务分析师深入了解企业运营状况的宝贵资料。
一套针对可扩展性而精心设计出的基础设施正是大数据能否真正发挥作用的关键所在。
经过分析与处理、能够应用于实践指导的信息数据会被整理到数据中心、应用程序以及基础设施当中,企业管理者需要以此为基础进一步将其导入各类系统及业务流程,并最终获得(近乎)实时的决策能力。
然而数据仓库在设计之初并没有考虑到如此规模的整合及访问状况,目前也没有任何一款商务智能系统足以帮助其解决这一难题。
数据的产生速度如此之快,常常会瞬间压垮支持系统的处理能力。此外,大量系统对数据源发起的访问同样难于招架,管理应用根本不可能抵抗得住此等量级的资源需求攻势。
要想让大数据在企业中成为可资业务及运营所利用的成功平台,IT部门必须首先对自己的数据中心资源进行有针对性的二次规划。换言之,为了确保原有系统能够应付即将到来的访问及查询需求,我们不得不面临一次漫长而充满艰辛的基础设施及架构变革。
我们已经针对大量公开应用的扩展性配备了强大的基础架构,现在要想让大数据发挥理想中的作用,我们也需要拿出同样的合理化方案——正所谓积跬步而至千里,从每周到每天再到近乎实时,我们所做的所有努力都会在大数据的响应速度方面得到明确回报。这就是我们理想中所需要的下一代数据中心架构,这一目标的实现也必将给企业在经济价值上带来又一次新飞跃。
数据检索面临的阻碍
可靠性是企业业务环境的根本诉求,这一点在基础设施身上表现得更加明显。但服务与基础设施及应用的整合往往面临巨大阻碍——当系统尝试从服务中检索数据时,通常都会遭遇无法实时获得响应的窘境。这时系统只能选择等待,直到本次任务流程完成或者宣告失败。
在服务运转良好时,这种小小的阻碍倒还可以忍受。数据检索会(几乎)立即获得反馈,流程也将继续进行。然而当服务运行本身就有些力不从心时,与之相关联的系统很可能为了等待响应而陷入停滞。
这种延迟效应会干扰到整个业务链——从服务自身到相关系统,并最终影响终端用户。作为终端用户,显然成了这次故障的最大受害者——由于系统常常隐藏于众多架构服务层之下,他们根本无从得知系统为何没能正常响应。
因此,大数据系统的可靠性及性能表现就成了我们要解决的核心问题。一套针对扩展性做出合理设计的架构能够承担起保障各层间连通性的重任,有了它的帮助,大家才能够为自己的企业竖立“大数据能手”的良好口碑。
综上所述,目前我们只有经历漫长的调整周期才能让现有结构框架获得必要的可扩展能力,但这种能力正是大数据普及道路上的必要推动力。