解读英特尔大数据平台和技术

大数据是一个庞杂又笼统的概念,因为包含大量的非结构化数据,这时处理传统结构化数据的技术已经难以应对。但是万变不离其宗,在基础架构层面,支持大数据处理的硬件必定还会以处理器为核心,也正是看到了其中的机遇,英特尔正着力布局大数据领域,早在至强E5处理器发布时,英特尔就强调对数据库高可用、高性能要求的满足,并且强有力地支撑企业进行大数据分析和处理。

大数据的火热也为一批新的产品和技术提供了更广阔的施展空间,这其中,数据库一体机和分布式计算系统Hadoop就是最明显的代表,因为将计算、存储硬件以及应用软件进行集成,在简化部署的同时降低应用和管理难度,一体化集成系统已经成为了各大IT供应商抢占的新高地,主流厂商相继推出面向数据库应用的一体机,包括Oracle三大数据处理集成系统、惠普AppSystem for Hadoop以及IBM的PureData System,而这些集成系统都选择了共同的平台——英特尔x86架构。

英特尔x86平台成主流集成系统基石

首先,我们来看一看Oracle Ex系列集成系统的配置,熟悉Oracle的朋友都知道,甲骨文公司近几年陆续推出了多款x86架构的软硬集成系统,分别是数据库云服务器 Exadata、中间件云服务器Exalogic和商务智能云服务器Exalytics,在2011年底推出的大数据机(Big Data Appliance)在硬件上依然基于英特尔x86架构。

通过Oracle产品信息可以清晰的知道,Oracle大数据机中运行Oracle Linux操作系统,采用18台Oracle Sun Fire X4270 M2全机架服务器配置,每台机架服务器配备两个六核英特尔至强X5675处理器以及48G内存,因此整套系统总共具有216个CPU内核、864 GB内存以及648 TB原始磁盘存储空间。此外,节点和其他Oracle集成化系统之间可采用40 Gb/s的InfiniBand网络以及10 Gb/s的以太网进行连接,通过InfiniBand网络连接多个机架进行横向升级扩展。

Oracle Exadata数据库云服务器硬件架构

除了Oracle大数据机,按照高低配置,Oracle Exadata数据库云服务器分别采用英特尔六核或八核处理器,并整合了Oracle 11g R2数据库及其它软件系统;而Oracle Exalytics商务智能云服务器配置了40个英特尔x86处理器内核,1TB内存和TimesTen实时分析软件。

事实上,Oracle一直是一家关键的数据库软件供应商,在收购了SUN之后,SUN的RISC架构处理器SPARC也使Oracle在高端服务器市场占有一席之地,但对于最新推出的数据库一体机,Oracle无一例外地选择了英特尔x86平台,除了性价比的考虑,背后的原因当然与英特尔x86性能不断提升有关,在处理诸如数据库、OLTP等关键应用业务中,英特尔至强处理器的性能已经能够胜任,在这些关键领域中x86服务器已开始博得更多原本采用RISC处理器的用户的青睐。此外,近几年x86市场不断壮大,并成为业界的开放标准,在用户接受度上,x86无疑更有优势,对供应商而言,要想让其新系统迅速获得用户认可,基于x86平台无疑是最好的选择。

这一点在惠普AppSystem for Hadoop系统上同样得到体现,AppSystem for Hadoop是惠普面向大数据分析领域的最新集成解决方案,目前支持主流的三大Hadoop版本:Cloudera、Hortonworks、MapR,方便用户根据自己的需要来部署相应的版本。

关于Hadoop,本文在后半部分将会有更详尽的介绍,这里就不做详述。单从硬件角度来说,Hadoop的诞生与x86 系统就有着非常密切的关系,它的出现使得在基于x86这种要求较低的硬件系统上运行复杂的分布式集群运算成为可能,从这种意义上来说,Hadoop本身就是为x86系统而量身定制的平台。

在处理器方面,这些系统无一例外的,全部都基于英特尔至强平台。惠普AppSystem for Hadoop采用最新至强E5-2600处理器平台,以获得最佳的性能表现。此外,在AppSystem for HANA的集成系统中,也是全面采用英特尔至强E7处理器平台(ProLiant DL580 G7)来提供最高的内存计算性能。

以AppSystem for Hadoop的Cloudera部署版本为例,AppSystem for Hadoop的Cloudera部署版本的计算节点包括HP ProLiant 360p Gen8与380p Gen8两款服务器,分别配备了E5-2600处理器。

AppSystem for Hadoop的Cloudera部署版本单机柜配置

如图,一个单机柜的AppSystem for Hadoop的Cloudera部署中,标配采用2台DL360p Gen8作为NameNode,1台DL360p Gen8作为Management Node,18台DL380p Gen8为WorkNode。

在Terasort基准测试中,18节点的DL380p Gen8的10TB数据排序用时为5128秒(约1个半小时),合1.99GB/s,对于100GB数据量,排序时间为55秒,合1.82GB/s。而 16节点至强X5670服务器集群的100GB排序速度是236.3秒,合433.3MB/s,20节点至强E5650服务器集群的100GB数据排序速度为130秒,合787.7MB/s。由此可见,基于新一代至强E5-2600平台的Hadoop集群的威力。

除了Oracle和惠普,还有一家厂商我们不得不提,那就是IBM,在今年4月份IBM发布了全新的专家集成系统(Pure Systems),其中即将在中国发布的PureData System就是针对数据库应用的一体化系统。

从计算节点来看,PureData System配备了IBM全新的服务器x240,x240是一款基于Intel处理器、针对虚拟化的可扩展服务器,在配置方面,x240最多可配备两路Intel E5-2600处理器,内存容量最高可达768GB。

解读英特尔大数据平台和技术
PureFlex System x240计算节点

以上主流的大数据处理集成系统中,英特尔x86架构正在成为一种新的标准平台,英特尔至强处理器这一坚实基石也使众多的软硬集成解决方案如虎添翼,并得以彰显最大的威力。另一方面,除了已经成为传统计算领域中的开放标准,英特尔也正在大数据这股新浪潮中打造一个新的标准化硬件生态系统。

Hadoop标准优化和扩充

以上介绍了业界主流大数据一体机的硬件平台,x86平台成为首选,在大数据处理的软件方面则离不另一个软件框架标准,那就是分布式运算系统Hadoop,它使用简单的编程模型即能支持在计算机集群中分布式处理大数据集。

完 整Hadoop的技术堆栈包括常用设施、分布式文件系统、分析和数据存储平台,以及管理分布式处理、并行计算、工作流程和配置管理的应用层。除了提供高可 用性之外,与传统方法相比,Hadoop是一种更加经济高效的大型非结构化数据集处理方法,同时提供极大的可扩展性和速度。

Hadoop 最早来源于Google的MapReduce和文件系统(GFS),后由Yahoo完成绝大部分初始设计和开发。短短几年时间,Hadoop从互联网行业 开始兴起,如今已经成为重要的并行处理架构标准,并被公认为分析存储大数据的关键平台。但不得不提的是,因为基于普通的英特尔x86架构运行,也是促成 Hadoop快速发展并广泛接受的重要原因。

当然,除了处理器,存储和网络也是Hadoop集群性能的重要保 证。在Hadoop集群中,万兆位以太网(10GbE)带来的带宽增长是导入和复制(在多台服务器之间)大型数据集的关键,英特尔Ethernet 10 Gigabit融合网络适配器提供了高吞吐量连接,同时英特尔SATA固态硬盘为原始存储提供了高性能、高吞吐量存储选择。为提高效率,存储往往需要支持 其它高级能力,如压缩、加密、自动数据分层、重复数据删除、纠删码和自动精简配置,现有的英特尔至强处理器都已经支持这些功能。

众 所周知,Hadoop是一个开源的框架,Apache在2012年1月推出了Apache Hadoop 1.0的首个完整生产版本。但在对开源版本Hadoop的使用过程中,企业通常需要自己去解决系统一致性、安装维护以及管理监控的问题,并且需要自己解决 和修补开源版本的软件缺陷,尽管在Hadoop初期部署中具备成本的优势,但是对后期的技术维护将提出更高的要求,并且从长远的角度来看,企业付出的技术 维护成本将更加高昂。

随着大量IT厂商的加入,Hadoop的商用版本正呈增长趋势,众多厂商都推出了自己的Hadoop版本,并集合了其他Hadoop项目的基本堆栈,可与数据仓库、数据库和其他数据管理产品集成。

针 对企业对Hadoop平台的需要,英特尔已经推出Hadoop发行版,英特尔提供的Hadoop发行版提供了一个稳定高效可管理的Hadoop版本,经过 大量的实际项目在线验证,英特尔将最佳的Hadoop实践提供给企业,包含Hadoop分布式文件系统HDFS、分布式数据库HBase、分布式计算框架 MapReduce、数据仓库Hive、数据处理Pig、机器学习Mahout商业套件。此外,英特尔还提供全面的产品技术支持和顾问服务,使得企业在系 统规划、设计和实施运行中能得到专业及时的专业服务,为企业解除后顾之忧。

英特尔企业版Hadoop发行版堆栈

除了在性能和管理方面有了大幅提升,英特尔Hadoop发行版基于底层的大量优化算法也使应用效率更高,而且计算存储分布更均衡,通过与英特尔硬件技术相结合,全面提升数据处理平台性能。

在Hadoop的大规模分布式架构中,关联系统并发性能往往是一大难题,英特尔Hadoop发行版提供独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题,同时可通过网页、邮件及短信的方式发送系统异常告警。

除了在大数据基础设施和分析处理平台发挥作用,在数据交付和应用层面,英特尔也不断加强基于英特尔架构的客户端与服务器算法开发,提高分析计算的性能和规模,为应用层和可视化层提供最佳应用展示环境,提供决策支持。

综上,在传统的印象中,英特尔是一家为数据中心提供基础设施和技术的供应商,但是随着对Hadoop功能的优化和扩充,在应用层优化可视化环境,英特尔在大数据分析处理领域技术实力可谓更加全面,毫无疑问,英特尔在大数据时代将扮演更加重要的角色。