向Hadoop看齐 RainStor加快数据分析

DOSTOR存储在线 2月17日国际报道:重复数据删除数据库供应商RainStor打算让其分析引擎和企业数据库向Hadoop看齐,而不是让Hadoop的数据向其引擎看齐。

Hadoop正逐渐成为存储海量数据的标准,但大多数商业智能分析软件比如Greenplum、Netezza和Teradata等推出的相关产品并没有为Hadoop文件系统即HDFS提供本地支持,因此数据必须被抽取出来,然后再移动到分析引擎。这个过程需要时间,储存该过程中复制的数据也需要磁盘空间。

RainStor的首席执行官John Bantleman向我们简要介绍了RainStor对Hadoop的支持功能,他说,现有的商业智能分析软件对抽取的Hadoop数据的常规操作通常要花好几个小时的时间,而RainStor的分析引擎支持Hadoop,因此分析数据的速度要快很多,比它说的快10到100倍。在接受这个说法以前,让我们先来看看RainStor的发展历程。

RainStor最初起源于一家名为Clearpace的英国公司,当时还是2008年。该公司的NParchive产品可以将甲骨文数据库或其他的RDBMS中的那些不经常被访问到的数据进行重复数据删除处理并归档在廉价的SATA磁盘上,重复数据删除的比率为20:1或者更高。SQL数据库的常规运行与NParchive无关,因此没有必要将数据重新释放。

Bantleman将Clearpace带到了硅谷,然后将公司和产品的名称更换为RainStor。第二阶段的开发主要是朝着电信领域前进的,主要是想利用它的数据库来解决每天上百亿网络事件记录的存储问题。

用Hadoop MapReduce来查询某一只股票某一天在纽约股市交易中的平均价格可能需要4个小时的时间,这比利用SQL查询命令在RainStor本地存储的Hadoop数据库中查询的速度快1800倍。

RainStor的其中一家客户是日本软银集团。它储存了2PB的原始数据,那些数据经过压缩和重复数据删除处理后的容量为135TB,数据被储存在惠普scale-out NAS磁盘整理存储设备上。 它可以在2到5秒的时间里查出某一位用户在一天里所做的事情。传统数据库/数据仓库解决方案可能包括了数个PB的数据,平均每TB数据的平均成本为2万美元,这意味着一个容量为3PB的客户数据库需要花费高达6000万美元的成本。 RainStor/惠普的硬件系统的价格大约为500万美元。

海量数据

满足海量数据需求是Hadoop和RainStor的第三个开发阶段的目标。它花了一年多的时间将Hadoop支持功能整合到它的产品之中,让 RainStor在Hadoop上本地运行,对压缩过和重复数据删除处理过的Hadoop数据执行MapReduce查询和SQL查询命令。 公司声称,它可以将重复数据删除和压缩数据的比率提高到40:1,即实现97.5%的压缩率。例如,电信行业的数据记录在内容上存在很高的重复性,这类数 据就非常适合进行压缩和重复数据删除处理。

RainStor表示:“在HDFS系统上运行的被压缩过的多结构化数据集可以提供最高的效率,并将群集规模减小50%到80%,这对于降低经营成本来说很重要。”

EMC Isilon与Hadoop以及Greenplum的整合进行得如何了呢?

Bantleman称:“Greenplum不允许你运行MapReduce,它的内部实际上是一个Postgres数据库,主要是并列关系的SQL条目。 我们是唯一一款能够在HDFS上运行的数据库, 而且我们还增加了支持MapReduce的功能。”

他补充说:“Greenplum、Teradata、Netezza和Vertica都开发了连接软件,让客户可以将数据从Hadoop中抽取出来再输入它们自己的数据库之中。它们不能本地运行Hadoop群集,但我们可以。 RainStor允许客户直接在Hadoop环境中对数据进行分析处理。”

Bantleman说,他认为传输海量数据的做法是非常愚蠢的。

很快,真的很快

RainStor的Hadoop产品可以避免传输海量数据,它对Hadoop数据执行查询的速度比其他解决方案都要快。Bantleman称,RainStor可以将数据分析的速度提高10到100倍。

他引述了一个极端的例子来说明RainStore分析功能的速度,在纽约证券交易所,分析师有一项任务是计算单只股票的日均交易价格。 2011年11月的时候,每天的交易次数在150万次左右,每项交易的交易价格都被储存在一个Hadoop数据库中。

利用Hadoop MapReduce成批运行花了4个小时的时间才计算完,而利用RainStor MapReduce只用了80分钟就完成了同样的工作量。 RainStor MapReduce执行筛选程序花了2分钟,而RainStor SQL只用了8秒的时间。

Bantleman面无表情地提供了这些数据。显然,用Hadoop MapReduce要花4个小时来计算某一只股票的日均交易价格,而对RainStor本地储存的Hadoop数据执行SQL查询命令的速度要快1800倍。

分区筛选与硬算

Bantleman称:“我们有分区筛选的功能。大多数数据库都是用行列数和行索引来给数据定位的。 RainStor筛选功能可以告诉我那些数据不用读取。查询可以找出包含元数据的那些分区。 但是硬读式的查询方案需要把所有的数据都读取一遍,这要花很多的时间,但是我们就不用花那么多的时间了。”

当RainStor在成批运行中不得不去读取所有数据的时候,它的速度还是比其他方案快3倍,因为它的数据被压缩了25倍,而原始的Hadoop数据是没有经过压缩的。Bantleman说:“我们可以查询得更快,因为输入输出数据量被大幅减少了。”

RainStor Hadoop产品的其他优势还包括地理复制,以及能够设置数据的保留和过期时间。数据可以根据一项计划被输入,并且能够根据计划的变化做出相应调整,这样它就可以通过不同的计划被调阅,而不用每次重新提取。

展望未来,Bantleman相信机对机通信将导致企业和各类组织需要处理的数据量的巨大增长。他还说,如果你需要将海量数据储存在基于闪存的存储内存之中,那么他认为海量数据压缩和重复数据删除将会具有很高的价值。 这可以大幅减少企业和组织需要处理的数据数量。

RainStor Enterprise Big Data Analytics On Hadoop现已上市销售。