云计算成为IT应用的趋势,大数据的爆发正在冲击传统数据处理和企业应用,大数据和云计算相遇会产生怎样的剧变呢?日前,云计算虚拟化行业巨头 VMware与EMC共同举办了云时代的大数据——VMware&EMC大数据云高峰论坛,向业界和企业用户阐述了大数据蕴藏的巨大商机,以及 VMware在大数据分析系统方面的最新进展。
▲云时代的大数据——VMware&EMC大数据云高峰论坛现场
对于首次公开提出云计算和大数据的融合,VMware觉得是很“自然的一步”,“虽然大数据本身是以数据形式存在,但大数据时代真正的到来离不开云计算的促进作用。以前我们都谈虚拟化、云计算,当虚拟化进入到各种各样的商务应用的时候,对虚拟化或者对云计算的框架最核心的冲击便是对大数据应用的需求,所以如何在虚拟架构上优化大数据应用是很自然的一步。” VMware 全球副总裁、中国研发中心总经理李严冰在接受采访时说道。
▲VMware 全球副总裁、中国研发中心总经理李严冰
正在产生的大数据带来五大变化
大数据无疑是今年最热门的话题,那么何为大数据?可以说大数据离我们并不遥远,正如VMware全球高级副总裁范承工所说:“你发的一个微博、上传的一段视频,都是大数据。”随着这些数据的大量爆发,要对这些数据进行实时的存储和分析处理,无疑是一项严峻的挑战。
大数据快速产生,对数据分析的时效性要求非但没有降低,反而更加苛刻,因为大数据中往往蕴藏着大量“商业价值”,要挖掘大数据中的“商业价值”,传统的数据库已经显得捉襟见绌,VMware认为当前数据库正在出现五大趋势,“首先从传统的CRUD(即Create、Read、Update、 Delete)到现在的CRAP(即Create、Replicate、Append、Process);二是由于各种混合云的出现,数据与应用绑定,导致企业无法掌控;三是使用者正在发生变化,下一代的数据分析需要遵循实时、平民化与可视性;四是在虚拟环境中,如何让数据库与数据云并存,并实现自动化管理;五是开源数据库渐流行。”
虚拟化结合Hadoop VMware破解大数据
说到大数据的处理,就不得不提Hadoop,Hadoop已被公认为为存储和处理大数据的主流工具,但是Hadoop海量分布式运算只是针对物理设备来开发的,并基于物理机来运行,并没有针对虚拟机运行的版本,VMware首次将Hadoop内核的功能迁移到虚拟机上。
谈到虚拟化与Hadoop结合的初衷,李严冰表示:“Hadoop在大数据领域应用的前景非常广泛,VMware虚拟化软件在全球数据中心的部署量已达到60%,当前的所有的云计算解决方案几乎都是以虚拟技术为基础的,因此需要从虚拟化的角度去看应用,并支持所有的应用,包括大数据应用,我们也会针对虚拟平台做更多的优化。”
“通常的Hadoop只针对物理机进行了优化,类似于物理机,我们把同样的技术直接搬到虚拟机上,针对虚拟机运行环境对Hadoop开源技术专门进行一些优化,同时我们这一技术也直接贡献给Hadoop社区” 李严冰说道。
值的一提的是这个项目是VMware中国研发团队创立的,包括从前期的技术实践到后期产品的诞生,都离不开VMware中国团队,因此也保障了 VMware大数据处理方案在中国的落地,关于产品研发的最新进展,李严冰介绍:“这个项目历经了两年研发,现在我们觉得大数据处理的商机比较成熟了,通过几个月的时间就把它进入了一个项目化、产品化的阶段。”
结合了VMware在虚拟化方面的优势和EMC在数据库方面的优势,VMware在统一的vSphere虚拟化架构之上,提供GemFire实时处理、GreenPlum交互处理及Hadoop批处理三种模式,满足用户的海量、快速及灵活的大数据处理需求,并为开发者、数据分析师、数据科学家和商务用户提供数据分析及可视化的数据展示。
“通过对比 Hadoop和物理环境和虚拟环境运行,差别是非常小的,现在能够接近物理环境。”李严冰补充道。此外,VMware还公布了一个大数据分析平台 UAP(Universal Analytics Platform),其中包括Greenplum database、Hadoop和Chorus分析软件,可以帮助客户同时分析处理结构化和非结构化的数据。
开源开放 降低虚拟化门槛
目前,很多企业内部并没有完全实施虚拟化,甚至对一些企业而言,虚拟化仍处于试水阶段,如何让更多的中小企业接受虚拟化成为VMware面临的重要课题,开源则提供了一条不错的途径。
几年前,还很难将VMware和开源软件联系在一起,如今VMware多个项目都和开源息息相关,其中包括对大数据的处理,“我们今年六月份推出了一个 Hadoop的一个自动部署和管理工序,就是一个开源式的软件。深入到广泛的公司产品,在中间层除了大数据处理之外,还有一个平台即服务层,其中 VMware的Cloud Foundry项目也是一个完全基于开源的和开放的平台,所以VMware正在朝这一个方向走。”李严冰如是说。
同时李严冰透露,VMware产品在开源方向的努力也希望给市场传达一个信息,那就是VMware产品不一定只有大型企业才用的起,VMware希望其产品可以遍地开花。
尽管目前优化Hadoop的一些项目是针对VMware的平台,但是李严冰强调,VMware很多的产品对平台是保持中立的,并可以运行在非虚拟化的环境中。“我们还是一个开放式的公司,如果将Hadoop针对VMware虚拟化的开源优化成果用于其他平台的虚拟环境,这也是有可能的,但是无疑 VMware之间不同的产品会有更多的兼容性和更好的性能方面的优化。”
支持Hadopp本身还只是第一步,VMware将来还将提供一些运行、管理的工具。李严冰介绍:“现在我们已经推出针对Hadoop的产品,无论是从哪个角度,我们都会考虑如何对Hadoop在虚拟环境进行部署,这是一个主要的方向。”
为了打造开放互联的云,VMware提出混合异构云的概念,“我们的理念是如果是企业的云都是基于VMware的基础、VMware的API,很容易就联系起来了。”李严冰解释道。同时VMware也一直在推动针对这方面的产品优化。“异构云的趋势已经非常明显,VMware一直在进行这方面的考量,也肯定要解决这方面的问题,从VMware公司的定位,我们在不同的层面之间做很松的耦合,并允许用户有自己的选择。”李严冰最后补充道。