亚马逊推出云数据仓库新产品Redshift

亚马逊在早年突破了实体书店的传统营销模式,成为电子商务和云计算领域先驱;今天,它又把目光抛向了数据仓库的云部署。

我们看到,在亚马逊过去的产品中,非常注重成本控制。然而,对于数据仓库部署来讲,巨大的成本投入是不可避免的。

在上周举行的“亚马逊re:Invent 2012大会”上,该公司为观众简短展示了新的AWS产品Redshift,并谈到了新的数据仓库服务技术。Amazon Redshift作为一个大规模并行数据仓库,包含一个或多个Redshift集群节点,可通过AWS应用程序界面(API)和其他的标准数据界面进行获取。

亚马逊高级副总裁Andy Jassy称:“Redshift能够让你简单快捷地分析上PB的数据,成本只要传统数据仓库解决方案的十分之一。”事实上,亚马逊每年在每TB数据的分析上大概花费不到1000美元,1.6 PB的配置就封顶了。对于数据仓库来讲,这确实很便宜。

亚马逊近年来开发了不少云数据服务,Redshift与早期的弹性缓存服务相比,添加了关系型数据库、NoSQL数据库、内容发布和数据分析;这些服务都以现收现付制(pay-as-you-go)进行购买。

目前,Redshift AWS数据仓库服务只推出了一个限制级的测试版,仅针对Flipboard和NASA/JPL Netflix等一小部分客户提供,预计2013年测试版会扩展为通用版。

据称,Redshift其中包含来自分析设备制造商ParAccel的技术部件授权。众所周知,ParAccel的产品非常高端,这意味着相较于低成本,亚马逊开始追求高性能,并成立了基于云计算的数据仓库厂商。

Redshift是否预示着更多的数据迁移?

TechTarget BI领导力研究主管Wayne Eckerson说:“亚马逊的产品发布是BI和数据仓库大量迁移到公共云的开端。”

数据的云迁移进程一直以来都比较缓慢,人们都在纠结于安全问题和数据传载的瓶颈,还有定制开发和可靠性的问题。“尽管如此,公共云的优势明显,人们不可能长期观望下去。”

Jassy强调了潜在的成本节约,尤其是管理数据仓库的费用大大减少。他说:“任何使用过传统数据仓库的人都应该清楚,它真的很昂贵,管理起来也极为复杂。”

Gartner的研究报告指出,企业必须针对每一个数据仓库雇佣三到四名数据管理员才够用。Jassy说:“管理工作让人想要发疯。”

这一购置成本问题长期阻碍着数据仓库的发展。然而,云计算能够提供经济的可扩展性,尽管定制需求会有所影响。Eckerson认为,总有一天,云数据仓库一定会成为主流。

“如果你能够优化DBA和数据中心的配置,还能以更低的成本获得更好的性能,那么BI走向云端只是时间的问题。不过也没那么快,毕竟云计算还需要取代嵌入式传统,扎根于企业计算环境。”

数据仓库的定制难题

CapTech Consulting是美国一家将数据仓库视为关键业务的公司,其CEO Sandy Williamson指出,依照企业规模、类型以及数据定制化特性的不同, 数据仓库迁移到云计算的步伐将因人而异。Williamson对于亚马逊Redshift在大型企业中的前景并不看好。

他说:“大型企业一般都会建立自己的私有云,因此他们不会把公司的数据迁移到公共云上。他们对客户有着自己的理解。”

说到自己的公司,Williamson说CapTech已经使用了一些云工具去构建数据库,但规模还不一定做的很大。他说:“我们正在使用一些亚马逊的云开发平台进行移动开发和原型设计。”Williamson和其他用户一样,认为新的应用应该会在亚马逊或其他云计算平台中的性能更好。

Eckerson说:“构建云计算数据仓库和BI平台的真正问题在于定制,大多数SaaS云产品的功能都比较整合,便于采购和安装。”

对于BI来讲,你需要基于企业独特的架构、需求和数据源创建一个定制数据模型,在所有架构元素当中数定制报告最为重要。云计算的敏捷和速度优势在BI领域会没那么凸显,数据传输又成为另一个问题。

CapTech高管Ben Harden认为,Redshift的理念很好,亚马逊在以指数级提升CPUs处理数据集。一旦数据到位,你就可以随意进行交叉分析。如果你的数据已经在你想要的位置,那就容易多了。

数据传输问题在云计算实施中仍然亟待解决,包括亚马逊在内。据几名与会者称,亚马逊的新品更多地倾向于它的自身用户,也就是那些数据已经在亚马逊云端的企业。

Harden说:“你怎样才能将几PB的数据上传到云端?这可不是用FTP在一小时之内就能搞定的事。Redshift的市场定位显然是那些已经在亚马逊云端运营的公司或者电子商务网站。”

虽然亚马逊主推的是管理效率和成本节约,但公司也对Redshift的速度加以宣传,评估主要基于自身体验。

Jassy说到,Redshift的私有测试版中包含了内部亚马逊企业数据仓库——该数据仓库由亚马逊花费了数百万美元建成。

公司数据经理人称,原本花费好几个小时的查询在一小时以内就完成了,部分查询在现有数据仓库中通常花费五到十分钟,但在Redshift中只需要几秒钟。这很有可能是高性能的ParAccel部件产生的效果;这一次,亚马逊很明显瞄准了更为广泛的用户群体。