实施大数据项目时所需要做的三件事
机房360 发表于:13年07月19日 15:34 [转载] DOIT.com.cn
鉴于现如今的企业都在开始积极的挖掘并分析大数据,目前已然有了一些变化的征兆正在形成。
这一次,似乎是HPC(高性能计算)的硬件供应商们在进行一些反思:到底哪些硬件设备能够为大数据的有效载荷提供最佳的处理,以便能够满足对大数据尽快处理和分析的需求。
大数据的HPC遗产扎根于高校和科研院所,以其超大的碳排放量和运作成本维持着超级计算。但是,一般的大型企业和中小企业并不适合运营这样的空间。相反,这些企业希望获得的是他们负担得起的、且可扩展的强大计算能力。这样,大数据可以作为他们数据中心的预算。除非这些企业选择采用云服务提供商的托管服务,并让云服务提供商来替他们运行大数据的处理和分析工作,否则,他们也需要寻找真正的(而非虚拟化)HPC平台,因为高性能计算和大数据在虚拟化环境中的表现并非良好。
到目前为止,大型企业在其企业级数据中心所选择的大数据处理平台所采用的均为x86服务器。部分的原因是缘于这些服务器在大数据处理集群的易扩展性,方便了企业扩大他们的大数据处理能力。另一个原因是x86级服务器比较符合一般企业的经济承受能力。即使如此,这些服务器也必须进行特殊的配置,以便满足HPC的并行处理以及操作大数据分析。
在x86硬件架构中,大数据可以并行处理,但每台服务器只能有两个线程。相比之下,在一个RISC(精简指令集计算机)芯片环境,习惯上运行Unix的计算机,可以并行处理四个线程,每台服务器提高了一倍。
大数据解决方案供应商们是如何应对这一现象的呢?
IBM在早在几年前就推出了其基于RISC的电力系统。具备扩展能力,能够为大数据的HPC运行Linux和Unix(AIX)集群。为了与之抗衡,甲骨文则在2013年第一季度末推出了其SPARCT5处理器。
而伴随着这一系列新产品纷纷上市的一个有趣的背景是基于RISC的Unix计算机市场实际上一直在萎缩下降。故而业内对于供应商们为什么会在这方面做出重大投资或多或少的存在着某些不理解。
而当我们意识到未来的大数据处理可能会超越基于x86的计算平台说能够提供的能力之后,上述疑惑的答案就变得简单了。今天的基于RISC的服务器也可以运行Linux和Unix,这是非常有益的,因为企业的IT部门往往有充足的Linux人才,但Unix人才却不一定。
所以,当您的企业需要继续在数据中心部署大数据分析项目时,您会怎么做呢?如下,是我们给您的一些建议,供您参考借鉴:
1、重新考虑你企业的资产规划
许多企业的数据中心站点已经在考虑实施在x86级服务器上部署大数据处理集群了。但是,现在就考虑采用基于RISC的系统还为时尚早,毕竟这些是未来才会用到的。朝着这方面考虑的话,不仅需要消耗大量的资金,同时还需要进行IT基础设施的整合,满足适当的实施条件,因为大数据处理需要“真正的”硬件。(除非你的企业将自己的大数据工作外包给云服务提供商)
2、评估IT部门员工技能
基于RISC的平台能够运行Linux,但他们仍然代表了一个不同的硬件架构,即使是最好的自动化也无法完全呈现透明。所以,您的IT部门的员工们可能需要掌握新的IT系统和管理技能。
3、与您的供应商积极的沟通
始终与你的大数据供应商保持积极的对话。这不仅仅是要了解他们当前所销售的产品,同时,更重要的是你必须还应该清楚他们的技术路线图,他们的产品的发展方向。如果他们的目标是转向RISC,而他们向您的企业出售的产品则是基于x86的,那么,是时候坐下来和他们好好谈谈一下您所关注的问题了。毕竟,您的企业是他们的客户。如果他们想要满足您企业的需求,那么,为您企业提供迁移路径、针对您的企业提供相关的培训和产品折扣也是他们的责任。