浅议IaaS如何为大数据服务

在客户群中主要有两类大数据:数据挖掘和大规模NoSQL的大数据库应用。在本文,我们将主要介绍为数据挖掘工作负载选择合适的基础架构的重要性。

利用大数据实现数据挖掘,需要随着数据的增长找到相关的信息和模式,这将有助于更深刻洞察外部环境做出更好的业务决策。这些工作负载也有可能会发生规模、范围上的变化,尤其是在刚开始的时候。

这些工作负载通常要求强大的后端处理能力用来分析大数据。为了有效地提炼这种类型的数据,实施数据挖掘的基础设施需要包含:

动态变化、灵活使用——大多数大数据工作都采用分批处理,要求有灵活的基础设施来处理不可预测的工作负载;

满足海量计算需求——“大”数据需要在一个较为合理的时间,通过工作负载提交一份有效的分析处理结果。

那什么样的基础设施选择可以满足这些要求呢?虽然多租户虚拟云平台也提供了一个巨大的经济模型,并能处理可变的工作负载,但对性能的高要求会使得管理变得更为复杂。

虚拟化、共享和超额认购的多租户云容易给用户带来纠纷。大数据可能会影响到同一个共享的虚拟化环境中的每个人,包括大数据工作本身。另一个方法就是建立专有的基础设施来避免或者减轻这些问题。

但这样一来会使得你面临两难境地:要么继续选择表现欠佳的虚拟云平台并支付报酬,要么白手起家搭建自己的基础设施。你如何既获得灵活性又获得大数据业务处理需要的高性能?

裸机云可以提供专用的存储和计算,以及不可预知的工作负载所需的灵活性。在裸机云平台,所有的计算和直连存储与工作负载是直接相关的。这些设备不会产生租户之间的纠纷,不会影响需求的满足。最值的称道的是,可以根据自己的使用情况来支付相应的成本,不会存在浪费。

另外还需要注意的是,即使是专用服务器和存储设备,它们所采用的网络层仍然在多个租户之间共享,这可能是一些大型Hadoop工作负载所面临的线速性能的瓶颈点之一。即便裸机拥有最优惠的价格性能比,但它也无法消除这种限制。

主机托管云或私有云是一个更好的选择,在某些情况下,私人网络基础设施可以进行定制,以满足您的特定需求。它们可以根据业务情况提供线性网络性能以及专用的计算、存储扩展,并保持合理的灵活性。当然,这不会是最经济的选择,但如果你的工作量需求要求这一点,还是值得选择。

当然,无论你是借助虚拟云或者裸机来推进大数据,你都需要理解一点,基础设施会随着需求和时间的推移而改变。往往一开始的时候,一个虚拟云平台或者裸机系统就能满足要求,而且裸机系统有时候还能提供更好的性能和扩展性。但由于大数据业务的需要,设立一个完全自主可用的私有云可能会更符合自己的要求,毕竟它不存在网络共享带来的局限性。