甲骨文:大数据还是值得继续投资的

数据库巨人甲骨文试图通过商业化以及将大批专利软件和开源软件整合到预配置的x86服务器上的做法来拯救NoSQL和类似的数据存储设备以及象Hadoop那样的大数据设备。甲骨文没有透露这些设备的销售业绩如何,但它升级了这些设备的底板和核心软件中的NoSQL Database,那表明甲骨文认为Big Data Appliance是值得继续投资的。

Big Data Appliance最早在2011年10月举行的OpenWorld大会上就进行过预览,今年1月开始销售。它是对甲骨文Exadata数据库群集、Exalogic应用服务器群集和Exalytics内存内设备的补充。 这些设备就是所谓的引擎系统,指的是那些用来运行非常具体的工作负载的系统。

甲骨文所有的设备都预设定了一个统一的硬件价格。这些系统或许预装了特定软件,但是基本价格并不包括软件的价格,更重要的是,那些软件的价格通常是基础服务器、存储设备和交换机的价格的2到3倍。 但是对于Big Data Appliance来说,其中预装的软件的价格已经被包含到了产品的价格之中。

Big Data Appliance群集实际上就是一种Hadoop Big Data设备,它在Cloudera提供的CDH 3 Hadoop配置下采用了甲骨文自己的Berkeley DB NoSQL数据库。服务器结点运行着甲骨文自己改造的红帽企业版Linux系统,还配置了数据加载和整合工具,来管理甲骨文11g R2数据库的数据读写。 甲骨文还整合了开源R统计编程语言和运行时间,这样群集中的每一个结点都可以运行R和MapReduce数据读取常规任务。

第一代Big Data Appliance在机架上安装了18个双插槽Xeon 5600服务器,总共达到216个核心、864GB的主存储容量和648TB的磁盘容量。每一个结点都有两个时钟频率为3.06GHz的Xeon X5675处理器,内存为48GB和12个3TB的7.2k RPM的3.5寸SAS硬盘。 群集的各个结点之间通过一台36接口的QDR(40GB/s)InfiniBand交换机相连,还有两台配备了8个10Gigabit Ethernet接口和32个InfiniBand QDR接口的交换机用来将机架内的系统与外界的其他系统相连。

随着Hadoop和NoSQL群集的扩容,你可以利用备用的InfiniBand交换机容量将多个机架连接在一起,Oracle NoSQL数据存储和Cloudera Hadoop软件也会随着结点的增加进行扩容。甲骨文已经选定的交换机允许在一个平面、非模块式InfiniBand结构中最多将18个机架或324个结点连接在一起。 如果你想配置规模更大的系统,那么你就必须使用数量更多、容量更大的交换机。

Big Data Appliance预配置了免费的NoSQL社区共享版软件,但是如果你想使用更多的功能,那么你还可以使用NoSQL企业版软件。你还可以在群集上运行Hadoop分布式文件系统,以便储存各种非结构化数据。HDFS与甲骨文NoSQL并不是相互排斥的。

第一代Big Data Appliance的售价为每机架45万美元,其中包括Cloudera的CDH 3 Hadoop的一个终身OEM许可证,整个系统的高级支持服务合同的价格为每年5.4万美元。算下来,每个节点的成本大约为2.8万美元,如果你可以让客户来埋单的话,那也不是一笔小数目。

周一宣布的Big Data Appliance X3-2包括了硬件和软件,但是价格稳定在每机架45万美元。

甲骨文将采用基于英特尔最新Xeon E5处理器的服务器结点。甲骨文的双插槽结点现在配置的是Xeon E5-2660处理器,它的时钟频率为2.2GHz。 甲骨文在声明中称,这可以提供比以前的产品多33%的处理能力,但是这一数据并不严谨。

是的,从6核升级到8核处理器可以给你提供比以前多33%的核心,但是那些核心的时钟速度比以前的产品慢了28%。如果你看看利用X5675和E5-2660处理器的不同设备在SPECint 2006 CPU测试中的结果,你就会发现后者的性能要高出10%。 很难说这将如何转化为更多的NoSQL或者Hadoop负载,但是一般而言,更大的超高速缓存和主内存以及更多的线程有助于增加系统的负载处理能力。

甲骨文将把机架上的主存储容量提高33%,达到1.1TB,每个结点64GB,这样有助于提升性能。基于Xeon E5的设备的能源和冷却成本比基于Xeon 5600的设备少30%,因此你还可以从这些新设备中获得更多的好处。 硬盘的数量和容量仍然是每机架648TB。

在软件方面,Big Data Appliance X3-2 Appliance包括了最新的Oracle Enterprise Linux 5.8和它自己升级的用来运行Java的Hotspot Java虚拟机。(Hadoop是用Java语言编写的,因此这很重要。) 甲骨文还将采用Cloudera在6月份发布的最新CDH 4 Hadoop。

甲骨文还推出了2.0版NoSQL数据库,该产品配备了C语言编程所需的API,支持JSON,还有管理以NoSQL形式储存的更大对象所需的另一个API。软件中还有一个外接表格连接,以便运行在甲骨文11g的关系数据库中的SQL查询可以从11g内部检阅和查询NoSQL数据库中的记录。 开源R distro已经升级,而且甲骨文Oracle Enterprise Manager还增加了一个新插件,可以控制Big Data Appliance。