不只是硬件!英特尔打造端到端大数据解决方案

2012年7月24日,主题为“芯动大数据 智领大机遇”的英特尔大数据论坛在北京举行。会上,英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士介绍了英特尔在大数据领域所扮演的角色,以及英特尔的大数据策略。何京翔博士表示,在大数据领域,英特尔所扮演的角色不仅是硬件提供商,而是致力于提供包含Hadoop等大数据分析软件在内的、端到端大数据方案供应商,并重点介绍了英特尔Hadoop的发行版,及其有哪些优化的特性。他表示,英特尔的软件和服务部门已经联合起来同构建基于英特尔Hadoop的解决方案。

英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士

信息是二十一世纪的石油

何京翔表示,信息成为21世纪的石油,这确实是非常好的比喻。石油刚刚开采出来的时候,原油的价值并不是那么高。一百多年前,石油作为一种累赘,没有人很好地利用起来,直到我们把石油变成化学品,变成汽油的时候才真正体现出价值。大数据同样的,仅仅是存储起来,而不利用起来并没有价值,必须通过分析和处理才能体现它的价值。

在中国市场上,大数据哪些机遇?何京翔表示,中国市场上有很好的机遇。2012年6月的数据显示,中国有将近3.9亿的移动客户、5.3亿的互联网客户,市场的推动和政府的推动,在一个比较典型的智能城市的应用中,每个季度就可能产生出200PB的视频数据,一个笔记本电脑假如是200G,就是一百万个笔记本所能够存储的数据,这就是200PB的概念。未来的医疗档案也会产生海量的数据。所有这些数据不能用传统方法处理,需要有新的思考、新的作为。

数据量、速度、多样化、价值,这四个方面的特性决定了大数据和传统数据时代有本质的区别,因此需要新的方法解决问题。

它仅仅是个技术问题吗?当然不是。英特尔有一个非常好的传统——把技术变成一种生态环境、变成一种解决方案的,变成真正能够产生出商业价值的商业模式。所以英特尔在考虑大数据的时候,不仅是在新技术上有创新,同时在人员培训、生态系统的构造以及最佳实践,怎么样提供大数据的解决案例方面有全盘的考虑。同时和商业伙伴合作,通过多赢的商业模式与大家一起把这个盘子做大。

英特尔大数据领域四大举措

作为IT行业的领头羊,英特尔在大数据方面有什么具体举措呢?何京翔分享了英特尔在大数据领域所做的四个方面的工作。

首先,从英特尔产品线上,包括CPU、存储、内存的技术,正在考虑怎么样使得新一代的系统架构,以及数据中心的解决方案更适合大数据的要求。

另一方面,我们知道大数据不仅仅是在硬件上能够有多少I/O、处理速度多快,更重要的是软件,怎么提供优化的软件工具,提供优化的中间件,包括Hadoop。

第三方面,构造健康的生态系统。大数据时代因为数据的性质和过去完全不一样,需要新的有ISV,以及不同行业的特定解决方案,所以构建生态系统方面,特别是和中国的合作伙伴进行合作方面,我们已经有了很多有益的尝试。

第四方面,大数据领域的投资。未来还要考虑,我们现在有英特尔投资,包括今年年初我们和直真科技的合作,它是一家电信集成商,合作的内容就包括了大数据,我们希望在中国市场通过投资的手段构建我们的生态系统。

英特尔Hadoop发行版的特点

Hadoop的优化方面,除了硬件系统的优化,英特尔还在软件方面,特别是Hadoop系统方面做了优化。英特尔以开源为基础,在Hadoop系统,包括Hbase、HDFS里面都做了增强和优化,使得开源平台在英特尔的硬件上的运行效率得到显著的提高。

此外,Hadoop如果只是开源的,在配置、安装、报表的监控和管理上都没有很好的工具,这就会导致Hadoop的部署很方便,不适合企业和具体的行业应用,为此英特尔专门做了Intel Hadoop Manager2.0,现在有了Hadoop的发行版。

图 英特尔Hadoop Manager 2.0发行版 帮助企业进行Hadoop的安装、部署、监控、警告和访问控制

Hadoop发行版有什么特点呢?何京翔介绍道,Hadoop本身是批处理的方式来做的,这个发行版做了优化,它的处理能力达到了接近于实时的。

所谓的实时系统是指能够根据数据的反馈,用几秒钟反馈的系统,这是实时控制系统。大部分数据处理系统都是批处理系统或者非实时处理系统,通过对Hadoop的优化,可以把拟数据采集到数据处理缩短到近于实时处理,这是优化的结果。

另一方面,Hadoop发行版还在英特尔的硬件上性能做了优化,通过我们的优化使得它在英特尔平台上的性能会成倍增长。

此外,Hadoop发行版还根据中国市场的应用特点进行了一些优化。何京翔表示,通过和中国的一些客户的合作,包括电信系统的、智能城市的、医疗的,我们进行深入的合作,根据用户的用户,根据中国市场的应用特点做了一些行业优化。

英特尔大数据战略:打造端到端的大数据解决方案

何京翔强调,仅仅做到硬件的端到端的覆盖,并不能自动带来我们对客户的价值。所以英特尔在Hadoop这样对数据挖掘、存储、转换、分析的软件分析方面也做了相应的工作,所以英特尔的定位是做大数据发掘中间件,并有自己的一套解决方案。

CPU产品方面,英特尔已经真正做到了端到端的覆盖。大数据的解决方案包括数据的采集、包括摄像头、AVI、嵌入式的设备、传统的笔记本电脑、PAD、智能手机,这是传统的或者已经用的数据采集和数据传输的设备,这些设备很多都用到了英特尔的处理器。在采集完之后,首先要经过一层预处理,需要在边缘服务器进行一些处理,然后送到后台,预处理可以用Atom或者Xeon。然后把数据传输到后台数据中心,而数据中心的服务器,包括传输过程中的交换机、存储都会用到英特尔的Xeon处理器。

软件方面,英特尔通过Hadoop的软件包能够提供对平台优化过的软件和服务,并对分析工具和用户界面上有面向不同行业的定制化的分析和解决方案。

在应用层面,通过和合作伙伴的合作,也通过在硬件上的支持,比如说可视化上能够做到更好的可视,展示大数据分析的结果。

在研发层面,英特尔对不同的行业有不同的基准研究,对Hadoop在不同行业的应用怎么进行分析,怎么提高使用性能,英特尔专门有软件院来进行研究。

最后,英特尔软件与服务部门合作共同构建基于英特尔Hadoop的解决方案。